(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211176750.5
(22)申请日 2022.09.26
(71)申请人 维沃移动通信有限公司
地址 523863 广东省东莞 市长安镇维沃路1
号
(72)发明人 杨浩铭
(74)专利代理 机构 北京远志博慧知识产权代理
事务所 (特殊普通合伙)
11680
专利代理师 李翠雅
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 16/9537(2019.01)
(54)发明名称
文本识别方法、 装置、 电子设备及存 储介质
(57)摘要
本申请公开了一种文本识别方法、 装置、 电
子设备及存储介质, 属于通信技术领域, 该方法
包括: 获取序列特征信息和语义特征信息, 该序
列特征信息用于指示第一文本与第二文本的序
列相似度, 语义特征信息用于指示第一文本与第
二文本的语义相似度; 根据序列特征信息和语义
特征信息, 确定第一文本与第二文本的相似度。
权利要求书2页 说明书12页 附图3页
CN 115409040 A
2022.11.29
CN 115409040 A
1.一种文本识别方法, 其特 征在于, 所述方法包括:
获取序列特征信 息和语义特征信 息, 所述序列 特征信息用于指示第 一文本与第 二文本
的序列相似度, 所述语义特 征信息用于指示所述第一文本与所述第二文本的语义相似度;
根据所述序列 特征信息和所述语义特征信 息, 确定所述第 一文本与 所述第二文本的相
似度。
2.根据权利要求1所述的方法, 其特 征在于, 所述获取序列特 征信息, 包括:
根据至少一个分值、 语序相似度、 所述第一文本的长度和所述第二文本的长度, 确定所
述序列特征信息, 所述至少一个分值用于指示所述第一文本与所述第二文本在至少一个维
度上的序列匹配度, 每个分值分别对应一个维度, 所述语序相似度为所述第一文本与所述
第二文本的语序相似度。
3.根据权利要求1所述的方法, 其特 征在于, 所述获取序列特 征信息, 包括:
对所述第一文本进行序列编码处理, 得到第一序列编码矩阵, 并对所述第二文本进行
序列编码处 理, 得到第二序列编码矩阵;
对所述第一序列编码矩阵进行横向拼接处理和线性变换处理, 得到第一压缩矩阵, 并
对所述第二序列编码矩阵进行横向拼接处 理和线性聚合处 理, 得到第二压缩矩阵;
对所述第一压缩矩阵和所述第二压缩矩阵进行最大池化处理, 得到所述序列特征信
息。
4.根据权利要求1至3中任一项所述的方法, 其特征在于, 所述获取语义特征信息, 包
括:
对所述第一文本进行字符映射处理, 得到第一字向量矩阵, 并对所述第二文本进行字
符映射处 理, 得到第二字向量矩阵;
对所述第一字向量矩阵进行卷积处理, 得到第一矩阵, 并对第二字向量矩阵进行卷积
处理, 得到第二矩阵;
对所述第一字向量矩阵和所述第 一矩阵进行横向拼接处理和线性变换处理, 得到第 三
压缩矩阵, 并对所述第二字 向量矩阵和所述第二矩阵进行横向拼接处理和线性变换处理,
得到第四压缩矩阵;
对所述第三压缩矩阵和所述第四压缩矩阵进行最大池化处理, 得到所述语义特征信
息。
5.根据权利要求1所述的方法, 其特征在于, 所述根据所述序列 特征信息和所述语义特
征信息, 确定所述第一文本与所述第二文本的相似度, 包括:
对所述序列特 征信息与所述语义特 征信息进行融合处 理, 得到目标 特征信息;
对所述目标特征信息进行随机失活处理和线性变换处理, 得到目标向量, 所述目标向
量包括第一数值和第二数值, 所述第一数值用于指示所述第一文本与所述第二文本相似,
所述第二数值用于指示所述第一文本与所述第二文本不相似;
对所述目标向量进行函数转换处理, 得到第一概率和第二概率, 所述第一概率为所述
第一文本与所述第二文本相似的概率, 所述第二概率为所述第一文本与所述第二文本不相
似的概率;
根据所述第一 概率和所述第二 概率, 确定所述第一文本与所述第二文本的相似度。
6.一种文本识别装置, 其特 征在于, 所述文本识别装置包括: 获取模块和 确定模块;权 利 要 求 书 1/2 页
2
CN 115409040 A
2所述获取模块, 用于获取序列特征信息和语义特征信息, 所述序列特征信息用于指示
第一文本与第二文本的序列相似度, 所述语义特征信息用于指示所述第一文本与所述第二
文本的语义相似度;
所述确定模块, 用于根据所述获取模块获取到的所述序列特征信 息和所述语义特征信
息, 确定所述第一文本与所述第二文本的相似度。
7.根据权利要求6所述的装置, 其特 征在于,
所述获取模块, 具体用于根据至少一个分值、 语序相似度、 所述第一文本的长度和所述
第二文本的长度, 确定所述序列特征信息, 所述至少一个分值用于指示所述第一文本与所
述第二文本在至少一个维度上 的序列匹配度, 每个分值分别对应一个维度, 所述语序相似
度为所述第一文本与所述第二文本的语序相似度。
8.根据权利要求6所述的装置, 其特 征在于,
所述获取模块, 具体用于对所述第 一文本进行序列编码处理, 得到第 一序列编码矩阵,
并对所述第二文本进行序列编码处理, 得到第二序列编码矩阵; 对所述第一序列编码矩阵
进行横向拼接处理和线性变换处理, 得到第一压缩矩阵, 并对所述第二序列编码矩阵进行
横向拼接处理和线性聚合处理, 得到第二压缩矩阵; 并对所述第一压缩矩阵和所述第二压
缩矩阵进行最大池化处 理, 得到所述序列特 征信息。
9.根据权利要求6 至8中任一项所述的装置, 其特 征在于,
所述获取模块, 具体用于对所述第 一文本进行字符映射处理, 得到第 一字向量矩阵, 并
对所述第二文本进行字符映射处理, 得到第二字 向量矩阵; 对所述第一字 向量矩阵进行卷
积处理, 得到第一矩阵, 并对第二字 向量矩阵进行卷积处理, 得到第二矩阵; 对所述第一字
向量矩阵和所述第一矩阵进行横向拼接处理和线性变换处理, 得到第三压缩矩阵, 并对所
述第二字向量矩阵和所述第二矩阵进行横向拼接处理和线性变换处理, 得到第四压缩矩
阵; 并对所述第三压缩矩阵和所述第四压缩矩阵进行最大池化处理, 得到所述语义特征信
息。
10.根据权利要求6所述的装置, 其特 征在于,
所述获取模块, 还用于对所述序列特征信息与所述语义特征信息进行融合处理, 得到
目标特征信息; 对所述目标特征信息进 行随机失活处理和线性变换 处理, 得到目标向量, 所
述目标向量包括第一数值和第二数值, 所述第一数值用于指示所述第一文本与所述第二文
本相似, 所述第二数值用于指示所述第一文本与所述第二文本不相似; 并对所述 目标向量
进行函数转换处理, 得到第一概率和第二概率, 所述第一概率为所述第一文本与所述第二
文本相似的概 率, 所述第二 概率为所述第一文本与所述第二文本不相似的概 率;
所述确定模块, 具体用于根据所述获取模块获取的所述第一概率和所述第二概率, 确
定所述第一文本与所述第二文本的相似度。
11.一种电子设备, 其特征在于, 包括处理器和存储器, 所述存储器存储可在所述处理
器上运行 的程序或指令, 所述程序或指令被所述处理器执行时实现如权利要求1 ‑5中任一
项所述的文本识别方法的步骤。
12.一种可读存储介质, 其特征在于, 所述可读存储介质上存储程序或指令, 所述程序
或指令被处 理器执行时实现如权利要求1 ‑5任一项所述的文本识别方法的步骤。权 利 要 求 书 2/2 页
3
CN 115409040 A
3
专利 文本识别方法、装置、电子设备及存储介质
安全报告 >
其他 >
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:24上传分享