专利 文本检测方法、装置、电子设备以及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221086939 9.1 (22)申请日 2022.07.22 (71)申请人哈尔滨工业大学（深圳）地址 518063 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区 (72)发明人徐睿峰　王乾龙　王睿　温志渊　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师刘芬芬 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 40/253(2020.01) G06F 40/268(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本检测方法、装置、电子设备以及计算机可读存储介质 (57)摘要本申请公开了文本检测方法、装置、电子设备以及计算机可读存储介质，文本检测方法，包括：获取到待检测文本；遮盖待检测文本的每个正向情感词，得到第一掩码文本；以及，遮盖待检测文本的每个负向情感词，得到第二掩码文本；对第一掩码文本中被掩盖的正向情感词进行预测，以生成第一重构文本；以及，对第二掩码文本中被掩盖的负向情感词进行预测，以生成第二重构文本；确定第一重构文本与待检测文本的第一相似度以及第二重构文本与待检测文本的第二相似度；响应于第一相似度和/或第二相似度小于设定阈值，确定待检测文本为讽刺文本。本申请不仅能够提高对讽刺文本的检测准确率，还能够节省大量的数据标注工作，实现无监督讽刺检测。权利要求书3页说明书13页附图7页 CN 115204181 A 2022.10.18 CN 115204181 A 1.一种文本检测方法，其特征在于，包括：获取到待检测文本；遮盖所述待检测文本的每个正向情感词，得到第一掩码文本；以及，遮盖所述待检测文本的每个负向情感词，得到第二掩码文本；对所述第一掩码文本中被掩盖的所述正向情感词进行预测，以生成第一重构文本；以及，对所述第二掩码文本中被掩盖的所述负向情感词进行预测，以生成第二重构文本；确定所述第一重构文本与所述待检测文本的第一相似度以及所述第二重构文本与所述待检测文本的第二相似度；响应于所述第一相似度和/或所述第二相似度小于设定阈值，确定所述待检测文本为讽刺文本。 2.根据权利要求1所述的文本检测方法，其特征在于，所述获取到待检测文本的步骤后，包括：对所述待检测文本中的每个字符进行词性标注；所述遮盖所述待检测文本的每个正向情感词，得到第一掩码文本；以及，遮盖所述待检测文本的每个负向情感词，得到第二掩码文本的步骤，包括：从被标注的所述待检测文本中识别出每个情感词，基于所述情感词的极性将所述情感词分类为所述正向情感词或所述负向情感词；以及从被标注的所述待检测文本中识别出非所述情感词的每个动词或/和每个名词，并将所述动词或/和名词确定为成分词；利用掩码字符掩盖所述待检测文本中的所述正向情感词以及至少部分所述成分词，生成所述第一掩码文本；以及利用所述掩码字符掩盖所述待检测文本中的所述负向情感词以及相同的所述成分词，生成所述第二掩码文本。 3.根据权利要求2所述的文本检测方法，其特征在于，所述从被标注的所述待检测文本中识别出每个情感词，基于所述情感词的极性将所述情感词分类为所述正向情感词或所述负向情感词，包括：利用外部情感资源词汇库从被标注的所述待检测文本中识别出每个所述情感词为所述正向情感词或所述负向情感词，并划分到对应的正向情感词集合或负向情感词集合中；从被标注的所述待检测文本中识别出非所述情感词的每个动词或/和每个名词，并将所述动词或/和名词确定为成分词的步骤，包括：利用自然语言处理工具获取到所述待检测文本的语法信息；基于所述语法信息从被标注的所述待检测文本中识别出非所述情感词的每个所述动词或/和每个所述名词，并将所述动词或/和名词确定为所述成分词；将每个所述成分词划分到成分词集合中，并将所述成分词集合划分为至少两个子集；所述利用掩码字符掩盖所述待检测文本中的所述正向情感词以及至少部分所述成分词，生成所述第一掩码文本；以及利用所述掩码字符掩盖所述待检测文本中的所述负向情感词以及相同的所述成分词，生成所述第二掩码文本的步骤，包括：利用所述掩码字符掩盖所述正向情感词集合与其中一个所述子集中包括的全部字符，权　利　要　求　书 1/3 页 2 CN 115204181 A 2以生成所述第一掩码文本；以及利用所述掩码字符掩盖所述负向情感词集合与相同子集中包括的全部字符，以生成所述第二掩码文本。 4.根据权利要求2所述的文本检测方法，其特征在于，所述对所述第一掩码文本中被掩盖的所述正向情感词进行预测，以生成第一重构文本；以及，对所述第二掩码文本中被掩盖的所述负向情感词进行预测，以生成第二重构文本的步骤，包括：分别获取所述第一掩码文本与所述第二掩码文本的词嵌入向量；其中，所述词嵌入向量包括字符向量以及位置向量；分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入向量进行拼接，以得到具有上下文特征的第一隐藏序列以及第二隐藏序列；分别对所述第一隐藏序列以及所述第二隐藏序列中被掩盖的每个所述情感词以及每个所述成分词进行预测，得到所述第一重构文本以及所述第二重构文本。 5.根据权利要求 4所述的文本检测方法，其特征在于，所述第一重构文本与所述第二重构文本通过文本生成模型生成，所述文本生成模型包括相互级联的编码器、注意力网络以及解码器；所述分别获取所述第一掩码文本与所述第二掩码文本的词嵌入向量的步骤，包括：利用所述文本生成模型的所述编码器分别获取所述第一掩码文本与所述第二掩码文本的所述词嵌入向量；所述分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入向量进行拼接，以得到具有上下文特征的第一隐藏序列以及第二隐藏序列的步骤，包括：利用所述编码器分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入向量进行编码，以得到具有上下文特征的所述第一隐藏序列以及所述第二隐藏序列；所述分别对所述第一隐藏序列以及所述第二隐藏序列中被掩盖的每个所述情感词以及每个所述成分词进行预测，得到所述第一重构文本以及所述第二重构文本的步骤，包括：利用所述文本生成模型中的所述注意力网络以及所述解码器依次对所述第一隐藏序列以及所述第二隐藏序列进行解码，以对被掩盖的每个所述情感词以及每个所述成分词进行预测，并输出所述第一重构文本以及所述第二重构文本。 6.根据权利要求5所述的文本检测方法，其特征在于，所述注意力网络包括自注意力机制；所述利用所述文本生成模型中的所述注意力网络以及所述解码器依次对所述第一隐藏序列以及所述第二隐藏序列进行解码，以对被掩盖的每个所述情感词以及每个所述成分词进行预测，并输出所述第一重构文本以及所述第二重构文本的步骤，包括：利用所述自注意力机制以及所述解码器依次对所述第一隐藏序列以及所述第二隐藏序列进行自回归式解码，以基于每个时间步对被掩盖的每个所述情感词以及每个所述成分词进行预测，并输出所述第一重构文本以及所述第二重构文本。 7.根据权利要求1或6所述的文本检测方法，其特征在于，所述确定所述第一重构文本与所述待检测文本的第一相似度以及所述第二重构文本与所述待检测文本的第二相似度的步骤，包括：权　利　要　求　书 2/3 页 3 CN 115204181 A 3

专利 文本检测方法、装置、电子设备以及计算机可读存储介质

专利文本检测方法、装置、电子设备以及计算机可读存储介质