(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210875264.6 (22)申请日 2022.07.25 (71)申请人 中国科学院深圳先进技 术研究院 地址 518055 广东省深圳市南 山区深圳大 学城学苑大道1068号 (72)发明人 卢美情 申妍燕 王书强  (74)专利代理 机构 北京市诚辉律师事务所 11430 专利代理师 耿慧敏 成丹 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种融合多头注意力对齐的文本匹配方法 (57)摘要 本发明公开一种融合多头注意力对齐的文 本匹配方法。 该方法包括: 构建文本匹配模型, 包 括输入层、 BERT编码层、 交互式句子表示层、 融合 层和全连接层; 基于设定的损失函数训练文本匹 配模型; 利用经训练的文本匹配模 型估计目标文 本间的匹配程度。 其中输入层以第一句子和第二 句子两个句子作为输入; BERT编码层以对应句子 的字符级向量、 位置向量和分段向量的叠加向量 作为输入, 提取具有语义信息的隐藏层向量; 交 互式句子表示层基于隐藏层向量进行句向量间 的注意力交互, 以分别提取两个句子的交互特 征; 融合层对两个句子的交互特征进行融合, 得 到特征融合向量; 全连接层基于特征融合向量, 获得句子间的匹配结果。 本发明能提高文本匹配 的准确性。 权利要求书2页 说明书7页 附图2页 CN 115408494 A 2022.11.29 CN 115408494 A 1.一种融合多头注意力对齐的文本匹配方法, 包括以下步骤: 利于语言模型SBERT构建文本匹配模型, 该文本匹配模型依次包括输入层、 BERT编码 层、 交互式句子表示层、 融合层和全连接层; 基于设定的损失函数训练所述文本匹配模型; 利用经训练的所述文本匹配模型估计目标文本间的匹配程度; 其中: 输入层以第一句子和第二句子两个句子作为输入, 并采用字符级向量、 位置向量和分 段向量对句子进行表征; BERT编码层以对应句子的字符级向量、 位置向量和分段向量的叠加向量作为输入, 提 取具有语义信息的隐藏层向量; 交互式句子表示层基于所述隐藏层向量进行句向量间的注意力交互, 以分别提取两个 句子的交 互特征; 融合层通过计算第 一句子与第 二句子的交互特征向量之间的差和乘积进行拼接, 得到 特征融合向量; 全连接层基于所述特 征融合向量, 获得句子间的匹配结果。 2.根据权利要求1所述的方法, 其特征在于, 所述交互式句子表示层首先计算两个句子 之间的相似度, 并使用注意力机制分别对每 个句子进行编码, 表示 为: 其中, 为第一句子A经过BERT编码层后的隐藏层语义向量的转置, 为第二句子B经 过BERT编码层后的隐藏层语 义向量, eij表示第一句子A中第i个词和第二句子B中第j个词的 相似度, 表示经过注意力交互后提取出的第一句子A与第二句子B的相似性信息, 表示 经过注意力交互后提取出的第二句子B与第一句子A的相 似性信息, 对 和 分别进行平 均池化得到两个句子的交互特征, la表示第一句子A包含的词的数量, lb表示句子B包含的词 的数量, eik表示第一句子A中第i个词和整个句子B的相似度, ekj表示第二句子B中第j个词 和整个句子A的相似度。 3.根据权利要求1所述的方法, 其特征在于, 所述融合层对两个句子的交互特征进行融 合, 获得特征融合向量, 表示 为: f=[u‑v; u·v] 其中, u表示第一句子的交互特征向量, v表示第二句子的交互特征向量, u ‑v是向量间 的减法操作, 用于获取差异特征; u ·v是向量矩阵相乘操作, 用于获取交互特征, 将减法操 作和乘法操作的结果进行向量 拼接, 得到特 征融合向量f。 4.根据权利要求3所述的方法, 其特 征在于, 所述全连接层的计算公式表示 为:权 利 要 求 书 1/2 页 2 CN 115408494 A 2其中, Wf表示权重, Wf是维度与f相同的矩阵, bf表示偏置, bf是维度与f相同的一维向量, 是预测分类的结果, 表示预测概 率, y表示真实标签。 5.根据权利要求1所述的方法, 其特征在于, 所述字符级向量是文本 中每个字对应的向 量, 所述位置向量包含文本中每个字的时序信息, 所述分段向量是将文本按句分段, 并对文 本做段定位, 并且 对于不同句子, 采用设定的标记符号进行区分。 6.根据权利要求1所述的方法, 其特征在于, 所述BERT编码层依次包含Transformer编 码器、 自注 意层、 残差层、 归一化层和前馈神经网络层, Transformer编码器以字 符级向量叠 加作为输入, 并对每 个字进行双向编码。 7.根据权利要求1所述的方法, 其特 征在于, 所述损失函数 是交叉熵损失函数。 8.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器执 行时实现根据权利要求1至7中任一项所述方法的步骤。 9.一种计算机设备, 包括存储器和 处理器, 在所述存储器上存储有能够在处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中任 一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115408494 A 3

.PDF文档 专利 一种融合多头注意力对齐的文本匹配方法

安全报告 > 其他 > 文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合多头注意力对齐的文本匹配方法 第 1 页 专利 一种融合多头注意力对齐的文本匹配方法 第 2 页 专利 一种融合多头注意力对齐的文本匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:14:30上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。