说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111601561.3 (22)申请日 2021.12.24 (65)同一申请的已公布的文献号 申请公布号 CN 114398492 A (43)申请公布日 2022.04.26 (73)专利权人 森纵艾数 (北京) 科技有限公司 地址 101300 北京市顺 义区赵全营镇兆丰 产业基地园盈路7号 (72)发明人 聂海姣 吴高丽 邱银贵  (74)专利代理 机构 北京维正专利代理有限公司 11508 专利代理师 谢明晖 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/247(2020.01) G06F 40/295(2020.01) G06F 16/2458(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 16/28(2019.01)(56)对比文件 CN 113283244 A,2021.08.20 CN 113779272 A,2021.12.10 CN 113449113 A,2021.09.28 CN 110598000 A,2019.12.20 CN 110990590 A,2020.04.10 CN 113177124 A,2021.07.27 CN 108021931 A,2018.0 5.11 CN 110020438 A,2019.07.16 CN 110334212 A,2019.10.15 CN 112802570 A,2021.0 5.14 CN 113672737 A,2021.1 1.19 CN 112200317 A,2021.01.08 US 2020342055 A1,2020.10.2 9 王章辉 等.基 于关联图和文本相似度的实 体消歧技 术研究. 《计算机与数字 工程》 .2021,第 49卷(第12期),2469-2475. (续) 审查员 赵玲 (54)发明名称 一种在数字领域的知识图谱构建方法、 终端 及介质 (57)摘要 本申请涉及一种在数字领域的知识图谱构 建方法、 终端及介质, 其方法包括以下步骤: 获取 非结构化数据, 对所述非结构化数据进行预处 理, 得到初始数据; 基于所述初始数据对预设的 预训练模型进行无监督预训练, 获得判别模型; 对所述初始数据进行初步标注, 获得样本标注数 据; 基于所述判别模型和所述样 本标注数据构建 并训练目标模 型, 基于所述目标模 型对所述初始 数据进行命名实体识别微调, 得到标注数据; 对 所述标注数据进行实体消歧, 得到最终数据; 基 于所述最终数据构建知 识图谱。 本申请具有减少 人工标注代 价, 并利用了非结构化数据的丰富的语义信息的效果。 [转续页] 权利要求书2页 说明书8页 附图9页 CN 114398492 B 2022.08.30 CN 114398492 B (56)对比文件 杨玉基 等.一种准确而高效的领域知识图谱构建方法. 《软件学报》 .2018,第2 9卷(第10 期),2931-2947.2/2 页 2[接上页] CN 114398492 B1.一种在数字领域的知识图谱构建方法, 其特 征在于, 包括以下步骤: 获取非结构化数据, 对所述非结构化数据进行 预处理, 得到初始数据; 基于所述初始数据对预设的预训练模型进行 无监督预训练, 获得判别模型; 对所述初始数据进行初步标注, 获得样本标注数据; 基于所述判别模型和所述样本标注数据构建并训练目标模型, 基于所述目标模型对所 述初始数据进行命名实体识别微调, 得到标注数据; 从所述标注数据中提取实体, 从所述实体中选择样本实体和多组非样本实体; 构建同义词表, 挖掘所述样本实体及所述样本实体的同义词, 并记录进所述同义词表 中; 根据所述样本实体及所述样本实体的同义词构建初始同义词挖掘训练集; 通过所述同义词挖掘训练集迭代训练预设的同义词挖掘模型, 获得目标同义词挖掘模 型; 基于所述目标同义词挖掘模型挖掘所述实体以及对应的同义词, 并将所述实体及对应 的同义词记录进所述同义词表中; 基于所述同义词表对所述标注数据进行实体消歧, 得到最终数据; 基于所述 最终数据构建知识图谱。 2.根据权利要求1所述的一种在数字领域的知识图谱构建方法, 其特征在于, 所述获取 非结构化数据, 对所述非结构化数据进行 预处理, 得到初始数据包括以下步骤: 从多种类型的所述非结构化数据中提取文本数据; 对所述文本数据进行切分, 过滤掉特殊字符, 并对所述文本数据进行纠错处理, 得到初 始数据。 3.根据权利要求2所述的一种在数字领域的知识图谱构建方法, 其特征在于, 所述基于 所述初始数据对预设的预训练模型进行 无监督预训练, 获得判别模型包括以下步骤: 根据所述初始数据加载 预设的预训练模型; 通过所述预训练模型 学习所述初始数据的语义特 征, 得到经 过预训练的判别模型。 4.根据权利要求3所述的一种在数字领域的知识图谱构建方法, 其特征在于, 所述对所 述初始数据进行初步标注, 获得样本标注数据包括以下步骤: 从所述初始数据中选择样本初始数据和若干组非样本初始数据; 基于预设的命名实体识别模型对所述样本初始数据进行初步标注, 获得初步标注数 据; 对所述初步标注数据进行补充标记和纠错, 获得样本标注数据。 5.根据权利要求4所述的一种在数字领域的知识图谱构建方法, 其特征在于, 所述基于 所述判别模型和所述样本标注数据训练目标模 型, 基于所述目标模型对所述初始数据进 行 命名实体识别微调, 得到标注数据包括以下步骤: 在所述判别模型后加入 优化层, 构建初始目标模型; 基于所述样本标注数据对所述初始目标模型进行训练, 得到目标模型; 基于所述目标模型对第 一组所述非样本初始数据进行初步标注, 得到第 一初始标注数 据; 对所述第一初始标注数据进行修 正处理, 得到第一标注数据;权 利 要 求 书 1/2 页 2 CN 114398492 B 3

.PDF文档 专利 一种在数字领域的知识图谱构建方法、终端及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种在数字领域的知识图谱构建方法、终端及介质 第 1 页 专利 一种在数字领域的知识图谱构建方法、终端及介质 第 2 页 专利 一种在数字领域的知识图谱构建方法、终端及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:13:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。