(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221086939 9.1
(22)申请日 2022.07.22
(71)申请人 哈尔滨工业大 学 (深圳)
地址 518063 广东省深圳市南 山区桃源街
道深圳大 学城哈尔滨工业大 学校区
(72)发明人 徐睿峰 王乾龙 王睿 温志渊
(74)专利代理 机构 深圳市威世博知识产权代理
事务所(普通 合伙) 44280
专利代理师 刘芬芬
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06F 16/35(2019.01)
G06F 40/253(2020.01)
G06F 40/268(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本检测方法、 装置、 电子设备以及计算机
可读存储介质
(57)摘要
本申请公开了文本检测方法、 装置、 电子设
备以及计算机可读存储介质, 文本检测方法, 包
括: 获取到待检测文本; 遮盖待检测文本的每个
正向情感词, 得到第一掩码文本; 以及, 遮盖待检
测文本的每个负向情感词, 得到第二掩码文本;
对第一掩码文本中被掩盖的正向情感词进行预
测, 以生成第一重构文本; 以及, 对第二掩码文本
中被掩盖的负向情感词进行预测, 以生成第二重
构文本; 确定第一重构文本与待检测文本的第一
相似度以及第二重构文本与待检测文本的第二
相似度; 响应于第一相似度和/或第二相似度小
于设定阈值, 确定待检测文本为讽刺文本。 本申
请不仅能够提高对讽刺文本的检测准确率, 还能
够节省大量的数据标注工作, 实现无监督讽刺检
测。
权利要求书3页 说明书13页 附图7页
CN 115204181 A
2022.10.18
CN 115204181 A
1.一种文本检测方法, 其特 征在于, 包括:
获取到待检测文本;
遮盖所述待检测文本的每个正向情 感词, 得到第 一掩码文本; 以及, 遮盖所述待检测文
本的每个负向情感词, 得到第二掩码文本;
对所述第一掩码文本中被掩盖的所述正向情感词进行预测, 以生成第一重构文本; 以
及, 对所述第二掩码文本中被掩盖的所述负向情感词进行 预测, 以生成第二重构文本;
确定所述第一重构文本与所述待检测文本的第一相似度以及所述第二重构文本与所
述待检测文本的第二相似度;
响应于所述第一相似度和/或所述第二相似度小于设定阈值, 确定所述待检测文本为
讽刺文本 。
2.根据权利要求1所述的文本检测方法, 其特 征在于,
所述获取到待检测文本的步骤后, 包括:
对所述待检测文本中的每 个字符进行词性标注;
所述遮盖所述待检测文本的每个正向情 感词, 得到第 一掩码文本; 以及, 遮盖所述待检
测文本的每 个负向情感词, 得到第二掩码文本的步骤, 包括:
从被标注的所述待检测文本中识别出每个情感词, 基于所述情感词的极性将所述情感
词分类为所述 正向情感词或所述负向情感词; 以及
从被标注 的所述待检测文本中识别出非所述情感词的每个动词或/和每个名词, 并将
所述动词或/和名词确定为成分词;
利用掩码字符掩盖所述待检测文本中的所述正向情感词以及至少部分所述成分词, 生
成所述第一掩码文本; 以及
利用所述掩码字符掩盖所述待检测文本 中的所述负向情感词以及相同的所述成分词,
生成所述第二掩码文本 。
3.根据权利要求2所述的文本检测方法, 其特 征在于,
所述从被标注的所述待检测文本 中识别出每个情感词, 基于所述情 感词的极性将所述
情感词分类为所述 正向情感词或所述负向情感词, 包括:
利用外部情感资源词汇库从被标注的所述待检测文本中识别出每个所述情感词为所
述正向情感词或所述负向情感词, 并划分到对应的正向情感词集 合或负向情感词集 合中;
从被标注 的所述待检测文本中识别出非所述情感词的每个动词或/和每个名词, 并将
所述动词或/和名词确定为成分词的步骤, 包括:
利用自然语言处 理工具获取到所述待检测文本的语法信息;
基于所述语法信息从被标注的所述待检测文本中识别出非所述情感词的每个所述动
词或/和每 个所述名词, 并将所述动词或/和名词确定为所述成分词;
将每个所述成分词划分到成分词集 合中, 并将所述成分词集 合划分为至少两个子集;
所述利用掩码字符掩盖所述待检测文本中的所述正向情感词以及至少部分所述成分
词, 生成所述第一掩码文本; 以及
利用所述掩码字符掩盖所述待检测文本 中的所述负向情感词以及相同的所述成分词,
生成所述第二掩码文本的步骤, 包括:
利用所述掩码字符掩盖所述正向情感词集合与其中一个所述子集中包括的全部字符,权 利 要 求 书 1/3 页
2
CN 115204181 A
2以生成所述第一掩码文本; 以及
利用所述掩码字符掩盖所述负向情感词集合与相同子集中包括的全部字符, 以生成所
述第二掩码文本 。
4.根据权利要求2所述的文本检测方法, 其特 征在于,
所述对所述第一掩码文本中被掩盖的所述正向情感词进行预测, 以生成第一重构文
本; 以及, 对所述第二掩码文本中被掩盖的所述负向情感词进 行预测, 以生 成第二重构文本
的步骤, 包括:
分别获取所述第一掩码文本与所述第二掩码文本的词嵌入向量; 其中, 所述词嵌入向
量包括字符向量以及位置向量;
分别对所述第 一掩码文本以及所述第 二掩码文本对应的所述词嵌入向量进行拼接, 以
得到具有上 下文特征的第一隐藏序列以及第二隐藏序列;
分别对所述第一隐藏序列以及所述第二隐藏序列中被掩盖的每个所述情感词以及每
个所述成分词进行 预测, 得到所述第一重构文本以及所述第二重构文本 。
5.根据权利要求 4所述的文本检测方法, 其特 征在于,
所述第一重构文本与 所述第二重构文本通过文本生成模型生成, 所述文本生成模型包
括相互级联的编码器、 注意力网络以及解码器;
所述分别获取 所述第一掩码文本与所述第二掩码文本的词嵌入向量的步骤, 包括:
利用所述文本生成模型的所述编码器分别获取所述第一掩码文本与所述第二掩码文
本的所述词嵌入向量;
所述分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入向量进行拼
接, 以得到具有上 下文特征的第一隐藏序列以及第二隐藏序列的步骤, 包括:
利用所述编码器分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入
向量进行编码, 以得到具有上 下文特征的所述第一隐藏序列以及所述第二隐藏序列;
所述分别对所述第一隐藏序列以及所述第二隐藏序列中被掩盖的每个所述情感词以
及每个所述成分词进行 预测, 得到所述第一重构文本以及所述第二重构文本的步骤, 包括:
利用所述文本生成模型中的所述注意力网络以及所述解码器依次对所述第一 隐藏序
列以及所述第二隐藏序列进行解码, 以对被掩盖的每个所述情感词以及每个所述成分词进
行预测, 并输出 所述第一重构文本以及所述第二重构文本 。
6.根据权利要求5所述的文本检测方法, 其特 征在于,
所述注意力网络包括自注意力机制;
所述利用所述文本生成模型中的所述注意力网络以及所述解码器依次对所述第一隐
藏序列以及所述第二隐藏序列进 行解码, 以对被掩盖的每个所述情感词以及每个所述成分
词进行预测, 并输出 所述第一重构文本以及所述第二重构文本的步骤, 包括:
利用所述自注意力机制以及所述解码器依次对所述第一隐藏序列以及所述第二隐藏
序列进行自回归式解码, 以基于每个时间步对被掩盖的每个所述情感词以及每个所述成分
词进行预测, 并输出 所述第一重构文本以及所述第二重构文本 。
7.根据权利要求1或6所述的文本检测方法, 其特 征在于,
所述确定所述第一重构文本与所述待检测文本的第一相似度以及所述第二重构文本
与所述待检测文本的第二相似度的步骤, 包括:权 利 要 求 书 2/3 页
3
CN 115204181 A
3
专利 文本检测方法、装置、电子设备以及计算机可读存储介质
安全报告 >
其他 >
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:14:30上传分享