专利 一种融合多头注意力对齐的文本匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210875264.6 (22)申请日 2022.07.25 (71)申请人中国科学院深圳先进技术研究院地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号 (72)发明人卢美情　申妍燕　王书强　 (74)专利代理机构北京市诚辉律师事务所 11430 专利代理师耿慧敏　成丹 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种融合多头注意力对齐的文本匹配方法 (57)摘要本发明公开一种融合多头注意力对齐的文本匹配方法。该方法包括：构建文本匹配模型，包括输入层、 BERT编码层、交互式句子表示层、融合层和全连接层；基于设定的损失函数训练文本匹配模型；利用经训练的文本匹配模型估计目标文本间的匹配程度。其中输入层以第一句子和第二句子两个句子作为输入； BERT编码层以对应句子的字符级向量、位置向量和分段向量的叠加向量作为输入，提取具有语义信息的隐藏层向量；交互式句子表示层基于隐藏层向量进行句向量间的注意力交互，以分别提取两个句子的交互特征；融合层对两个句子的交互特征进行融合，得到特征融合向量；全连接层基于特征融合向量，获得句子间的匹配结果。本发明能提高文本匹配的准确性。权利要求书2页说明书7页附图2页 CN 115408494 A 2022.11.29 CN 115408494 A 1.一种融合多头注意力对齐的文本匹配方法，包括以下步骤：利于语言模型SBERT构建文本匹配模型，该文本匹配模型依次包括输入层、 BERT编码层、交互式句子表示层、融合层和全连接层；基于设定的损失函数训练所述文本匹配模型；利用经训练的所述文本匹配模型估计目标文本间的匹配程度；其中：输入层以第一句子和第二句子两个句子作为输入，并采用字符级向量、位置向量和分段向量对句子进行表征； BERT编码层以对应句子的字符级向量、位置向量和分段向量的叠加向量作为输入，提取具有语义信息的隐藏层向量；交互式句子表示层基于所述隐藏层向量进行句向量间的注意力交互，以分别提取两个句子的交互特征；融合层通过计算第一句子与第二句子的交互特征向量之间的差和乘积进行拼接，得到特征融合向量；全连接层基于所述特征融合向量，获得句子间的匹配结果。 2.根据权利要求1所述的方法，其特征在于，所述交互式句子表示层首先计算两个句子之间的相似度，并使用注意力机制分别对每个句子进行编码，表示为：其中，为第一句子A经过BERT编码层后的隐藏层语义向量的转置，为第二句子B经过BERT编码层后的隐藏层语义向量， eij表示第一句子A中第i个词和第二句子B中第j个词的相似度，表示经过注意力交互后提取出的第一句子A与第二句子B的相似性信息，表示经过注意力交互后提取出的第二句子B与第一句子A的相似性信息，对和分别进行平均池化得到两个句子的交互特征， la表示第一句子A包含的词的数量， lb表示句子B包含的词的数量， eik表示第一句子A中第i个词和整个句子B的相似度， ekj表示第二句子B中第j个词和整个句子A的相似度。 3.根据权利要求1所述的方法，其特征在于，所述融合层对两个句子的交互特征进行融合，获得特征融合向量，表示为： f＝[u‑v； u·v] 其中， u表示第一句子的交互特征向量， v表示第二句子的交互特征向量， u ‑v是向量间的减法操作，用于获取差异特征； u ·v是向量矩阵相乘操作，用于获取交互特征，将减法操作和乘法操作的结果进行向量拼接，得到特征融合向量f。 4.根据权利要求3所述的方法，其特征在于，所述全连接层的计算公式表示为：权　利　要　求　书 1/2 页 2 CN 115408494 A 2其中， Wf表示权重， Wf是维度与f相同的矩阵， bf表示偏置， bf是维度与f相同的一维向量，是预测分类的结果，表示预测概率， y表示真实标签。 5.根据权利要求1所述的方法，其特征在于，所述字符级向量是文本中每个字对应的向量，所述位置向量包含文本中每个字的时序信息，所述分段向量是将文本按句分段，并对文本做段定位，并且对于不同句子，采用设定的标记符号进行区分。 6.根据权利要求1所述的方法，其特征在于，所述BERT编码层依次包含Transformer编码器、自注意层、残差层、归一化层和前馈神经网络层， Transformer编码器以字符级向量叠加作为输入，并对每个字进行双向编码。 7.根据权利要求1所述的方法，其特征在于，所述损失函数是交叉熵损失函数。 8.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。 9.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 115408494 A 3

专利 一种融合多头注意力对齐的文本匹配方法

专利一种融合多头注意力对齐的文本匹配方法