(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211430552.7
(22)申请日 2022.11.16
(71)申请人 北京大学
地址 100091 北京市海淀区颐和园路5号
申请人 北京大学重庆大 数据研究院
(72)发明人 周晓华 黄新霆 饶博
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 薛芸
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/242(2020.01)
G06F 40/247(2020.01)
G06F 40/30(2020.01)
(54)发明名称
知识图谱构建方法、 装置、 电子设备及非易
失性存储介质
(57)摘要
本申请公开了一种知识图谱构建方法、 装
置、 电子设备及非易失性存储介质。 其中, 该方法
包括: 确定目标文本数据中的目标 实体及目标 实
体对应的实体类型; 依据预设词典和实体类型,
校正目标实体的实体名称, 其中, 同一目标实体
校正前的实体名 称与校正后的实体名 称互为同
义词, 校正后的实体名称与目标实体一一对应;
确定目标 实体间的目标关联关系, 得到目标三元
组, 其中, 目标三元组用于表征两个目标实体间
的目标关联关系; 依据目标三元组, 构建目标知
识图谱。 本申请解决了由于目前在构建知识图谱
时, 构建方式不够智能化, 中医知识和西医知识
未完全整合, 且名词不统一, 造成在利用知识图
谱查询时, 存在查询准确率低的技 术问题。
权利要求书2页 说明书12页 附图5页
CN 115495595 A
2022.12.20
CN 115495595 A
1.一种知识图谱构建方法, 其特 征在于, 包括:
确定目标文本数据中的目标实体及所述目标实体对应的实体 类型;
依据预设词典和所述实体类型, 校正所述目标实体的实体名称, 其中, 所述预设词典中
包括多组预设的所述 实体名称, 所述多组预设的实体名称中包括互为同义词的中医类实体
名称或西医类实体名称, 同一所述目标实体校正前的实体名称与校正后的实体名称互为同
义词, 校正后的所述实体名称与所述目标实体一 一对应;
确定所述目标实体间的目标关联关系, 得到目标三元组, 其中, 所述目标三元组用于表
征两个所述目标实体间的所述目标关联关系;
依据所述目标三元组, 构建目标知识图谱。
2.根据权利要求1所述的知识图谱构建方法, 其特征在于, 所述实体名称包括: 所述中
医类实体名称和所述西 医类实体名称, 依据预设词典和所述实体类型, 校正所述 目标实体
的实体名称包括:
在存在同一所述目标实体对应多个所述实体名称的情况下, 依据所述预设实体词典,
统一所述目标实体的所述实体名称;
在存在同一所述实体名称对应多个所述目标实体的情况下, 修改所述实体名称, 其中,
修改后的所述实体名称与所述目标实体一 一对应。
3.根据权利要求2所述的知识图谱构建方法, 其特征在于, 在存在同一所述目标实体对
应多个所述实体名称的情况下, 依据预设实体词典, 统一所述 目标实体的所述实体名称包
括:
依据所述预设实体词典, 检测是否存在所述实体名称互为同义词的所述目标实体;
在存在所述实体名称互为同义词的所述目标实体的情况下, 统一所述互为同义词的目
标实体的所述实体名称。
4.根据权利要求2所述的知识图谱构建方法, 其特征在于, 在存在同一所述实体名称对
应多个所述目标实体的情况 下, 修改所述实体名称包括:
检测同一所述实体名称对应的所述目标实体的实体 类型是否相同;
在所述目标实体的所述实体名称相同且所述实体类型不同的情况下, 修改所述实体名
称, 其中, 修改后的所述实体名称与所述目标实体一 一对应。
5.根据权利要求1所述的知识图谱构建方法, 其特征在于, 所述实体类型包括以下至少
之一: 非实体、 疾病、 药品、 症状, 确定目标文本数据中的目标实体及所述目标实体对应的实
体类型包括:
确定所述目标文本数据中的候选实体, 其中, 所述候选实体的实体宽度不大于预设宽
度;
依据目标分类 器, 预测所述 候选实体对应的所述实体 类型;
确定所述实体 类型不为所述非 实体的所述 候选实体为所述目标实体。
6.根据权利要求5所述的知识图谱构建方法, 其特征在于, 依据目标分类器, 预测所述
候选实体对应的所述实体 类型包括:
通过目标 预训练语言模型, 将所述 候选实体向量 化;
获取与所述候选实体的所述实体宽度对应的宽度嵌入矩阵, 其中, 所述宽度嵌入矩阵
由模型训练学习得到;权 利 要 求 书 1/2 页
2
CN 115495595 A
2依据向量化后的所述候选实体、 所述宽度嵌入矩阵及目标语义向量, 计算所述候选实
体为各个所述实体类型 的置信度, 其中, 所述 目标语义向量用于表征所述 目标文本数据包
含的语义信息;
确定所述置信度最高的所述实体 类型为所述 候选实体对应的所述实体 类型。
7.根据权利要求1所述的知识图谱构建方法, 其特征在于, 确定所述目标实体间的目标
关联关系, 得到目标三元组包括:
获取所示目标文本数据中位于任意两个所述目标实体之间的文本数据, 得到关系向
量;
依据所述关系向量和损失函数进行训练, 得到所述两个目标实体之间的所述目标关联
关系;
依据所述两个目标实体和所述目标关联关系, 构建所述目标三元组。
8.根据权利要求1所述的知识图谱构建方法, 其特征在于, 确定目标文本数据中的目标
实体及所述目标实体对应的实体 类型之前还 包括:
获取原始文本数据, 其中, 所述原始文本数据包括以下至少之一: 中医文本数据、 西医
文本数据;
对所述原 始文本数据进行 结构化处 理, 得到所述目标文本数据。
9.根据权利要求1所述的知识图谱构建方法, 其特征在于, 依据所述目标三元组, 构建
目标知识图谱之后还 包括:
获取目标对象的查询指令, 其中, 所述 查询指令中包括所述目标实体的所述实体名称;
依据所述目标知识图谱, 显示包 含所述目标实体关联的所述目标三元组。
10.一种知识图谱构建装置, 其特 征在于, 包括:
实体确定模块, 用于确定目标文本数据中的目标实体及所述目标实体对应的实体类
型;
实体对齐模块, 用于依据 预设词典和所述实体类型, 校正所述目标实体的实体名称, 其
中, 所述预设词典中包括多组预设的所述实体名称, 以及与所述实体名称互为同义词的中
医类实体名称或西医类实体名称, 同一所述目标实体校正前的实体名称与校正后的实体名
称互为同义词, 校正后的所述实体名称与所述目标实体一 一对应;
关系确定模块, 用于确定所述目标实体间的目标关联关系, 得到目标三元组, 其中, 所
述目标三元组用于表征两个所述目标实体间的所述目标关联关系;
图谱构建模块, 用于依据所述目标三元组, 构建目标知识图谱。
11.一种电子设备, 所述电子设备包括处理器, 其特征在于, 所述处理器用于运行程序,
其中, 所述 程序运行时执 行权利要求1至9中任意 一项所述知识图谱构建方法。
12.一种非易失性存储介质, 其特征在于, 所述非易失性存储介质包括存储的计算机程
序, 其中, 所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至9中
任意一项所述知识图谱构建方法。权 利 要 求 书 2/2 页
3
CN 115495595 A
3
专利 知识图谱构建方法、装置、电子设备及非易失性存储介质
安全报告 >
其他 >
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:35上传分享