全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111567833.2 (22)申请日 2021.12.21 (71)申请人 深圳供电局有限公司 地址 518000 广东省深圳市罗湖区深南 东 路4020号电力调度通信大楼 (72)发明人 许冠中 张云翔  (74)专利代理 机构 深圳汇智容达专利商标事务 所(普通合伙) 44238 代理人 徐文城 (51)Int.Cl. G06F 40/169(2020.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种调文章标注的方法及系统 (57)摘要 本发明提供一种调文章标注的方法及系统, 包括, 获取目标文本, 并识别所述目标文本中的 语句及每个语句中的词语; 通过预设的语义匹配 模型统计预处理后的目标文本中每个词语的出 现频率, 根据预设的权重阈值对统计结果进行筛 选, 得到候选标签; 通过预设的向量模型对候选 标签进行合并, 得到最终的标签, 并通过所述最 终的标签对目标文本进行标注。 本发 明实现文章 自动打标签。 从文章归类、 文 章筛选、 文章推荐 三 个角度辅助文章管理, 针对运行日报等结构化文 档, 可实现机器自动打标签, 大幅提升文章识别 效率, 减轻文章归类 筛选管理负担 。 权利要求书2页 说明书6页 附图2页 CN 114357952 A 2022.04.15 CN 114357952 A 1.一种调文章标注的方法, 其特 征在于, 包括: 获取目标文本, 并识别所述目标文本中的语句及每 个语句中的词语; 通过预设的语义匹配模型统计预处理后的目标文本 中每个词语的出现频率, 根据 预设 的权重阈值对统计结果进行筛 选, 得到候选标签; 通过预设的向量模型对候选标签进行合并, 得到最终的标签, 并通过所述最终的标签 对目标文本进行 标注。 2.如权利要求1所述的方法, 其特 征在于, 所述得到候选标签具体包括: 将统计的每 个词语的出现频率与预设的权 重阈值比较; 若某个词语的出现频率小于预设的权 重阈值, 则将该词语判定为 候选标签; 若某个词语的出现频率大于等于预设的权重阈值, 则将该词语判定为常用词语并过滤 掉该词语。 3.如权利要求2所述的方法, 其特 征在于, 还 包括: 当得到候选标签时, 通过预设的语义匹配模型将每个候选标签的出现频率与 预设的标 准值进行比较, 根据每个候选标签的出现频率与预设的标准值的差值对每个候选标签匹配 对应的权 重值。 4.如权利要求3所述的方法, 其特征在于, 所述通过预设的向量模型对候选标签进行合 并具体包括: 预设的向量模型将候选标签转换成对应的向量, 并将与 所述候选标签对应的向量作为 目标文本的特 征项; 将所述候选标签对应的权 重值作为对应特 征项的权 重值。 5.如权利要求4所述的方法, 其特征在于, 所述通过预设的向量模型对候选标签进行合 并还包括: 预设的向量模型根据特 征项及对应的权 重值确定与所述 候选标签对应的夹角余弦值; 当多个所述候选标签的夹角余弦值的差值在预设的合并阈值范围内时, 判定所述多个 所述候选标签相近或相似, 并将所述多个所述 候选标签合并为 一个最终的标签。 6.一种调文章标注的系统, 用以实现如权利要求10 ‑5任一项所述的方法, 其特征在于, 包括: 预处理模块, 用以获取目标文本, 并识别所述目标文本中的语句及每 个语句中的词语; 标签模块, 用以通过预设的语义匹配模型统计预处理后的目标文本 中每个词语的出现 频率, 根据预设的权 重阈值对统计结果进行筛 选, 得到候选标签; 标注模块, 用以通过预设的向量模型对候选标签进行合并, 得到最终的标签, 并通过所 述最终的标签对目标文本进行 标注。 7.如权利要求6所述的系统, 其特征在于, 所述标签模块还用于将统计的每个词语的出 现频率与预设的权 重阈值比较; 若某个词语的出现频率小于预设的权 重阈值, 则将该词语判定为 候选标签; 若某个词语的出现频率大于等于预设的权重阈值, 则将该词语判定为常用词语并过滤 掉该词语。 8.如权利要求7所述的系统, 其特征在于, 所述标签模块还用于当得到候选标签时, 通 过预设的语义匹配模型将 每个候选标签的出现频率与预设的标准值进 行比较, 根据每个候权 利 要 求 书 1/2 页 2 CN 114357952 A 2选标签的出现频率与预设的标准 值的差值对每 个候选标签匹配对应的权 重值。 9.如权利要求8所述的系统, 其特征在于, 所述标注模块还用于预设的向量模型将候选 标签转换成对应的向量, 并将与所述 候选标签对应的向量作为目标文本的特 征项; 将所述候选标签对应的权 重值作为对应特 征项的权 重值。 10.如权利要求9所述的系统, 其特征在于, 所述标注模块还用于预设的向量模型根据 特征项及对应的权 重值确定与所述 候选标签对应的夹角余弦值; 当多个所述候选标签的夹角余弦值的差值在预设的合并阈值范围内时, 判定所述多个 所述候选标签相近或相似, 并将所述多个所述 候选标签合并为 一个最终的标签。权 利 要 求 书 2/2 页 3 CN 114357952 A 3

.PDF文档 专利 一种调文章标注的方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种调文章标注的方法及系统 第 1 页 专利 一种调文章标注的方法及系统 第 2 页 专利 一种调文章标注的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:15:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。