(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211430058.0
(22)申请日 2022.11.16
(71)申请人 国网江苏省电力有限公司营销服 务
中心
地址 210019 江苏省南京市 建邺区奥体大
街9号
(72)发明人 祝宇楠 蔡奇新 潘熙 刘云鹏
江明 左强 陈黎军 胡坚中
单超 朱峰 蔡明明 范环宇
朱君
(74)专利代理 机构 北京智绘未来专利代理事务
所(普通合伙) 11689
专利代理师 王萍
(51)Int.Cl.
G06F 40/295(2020.01)G06F 40/242(2020.01)
G06F 40/126(2020.01)
G06F 16/36(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种面向电力领域实体关系协同的知识抽
取方法及系统
(57)摘要
一种面向电力领域实体关系协同的知识抽
取方法及系统, 获取电力领域文本数据, 并对获
取的数据进行特征处理; 对获取的特征数据进行
BERT模型训练; 将编码特征Encoder输入到实体
关系抽取层, 获取实体关系信息编码之后解码得
到实体关系候选集; 将编码特征Encoder输入到
边界对齐层, 获取边界对齐信息编码后再输入到
特征注意力模块, 获得边界对齐信息加强编码之
后解码得到边界对齐候选集; 将上述获得的实体
关系候选集和边界对齐候选集求交集, 获取知识
抽取结果。 本方法系统有效提高了电力领域实体
关系的抽取准确率。 较于传统方法不仅在速度上
有明显的优势, 而 且不存在误差传播 等问题。
权利要求书3页 说明书8页 附图1页
CN 115510866 A
2022.12.23
CN 115510866 A
1.一种面向电力领域实体关系协同的知识抽取 方法, 其特 征在于, 包括以下步骤:
步骤101, 获取电力领域文本数据;
步骤102, 将步骤101中获取的数据进行特征处理, 获取对应的特征即字典标识input_
id和位置标识positi on_id;
步骤103, 将步骤102中获得的特征输入到预训练模型BERT中, 获取句子编码特征
Encoder;
步骤104, 将步骤103获取的编码特征Encoder, 输入到实体关系抽取层, 获取实体关系
信息编码EntPreEncoder;
步骤105, 将步骤103获取的编码特征Encoder, 输入到边界对齐层, 获取边界对齐信息
编码BAEncoder;
步骤106, 将步骤104获取的编码特 征EntPreEncoder进行解码, 获取实体关系候选集;
步骤107, 将步骤105的边界对齐信息编码BAEncoder和步骤104的实体关系信息编码
EntPreEncoder, 输入特 征注意力模块, 获取边界对齐信息加强编码A ttEncoder;
步骤108, 获取电力领域专业词集合和步骤106的实体关系候选集合并得到新的实体关
系候选集;
步骤109, 将步骤107获取的编码特 征AttEncoder进行解码, 获取边界对齐候选集;
步骤110, 将步骤108获得的新的实体关系候选集和步骤109中获得的边界对齐候选集
求交集, 获取知识抽取 结果。
2.根据权利要求1所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在
于:
步骤102中, 所述字典标识input_id为一个序列, 其中每个元素为文本中每个字对应字
典的id号; 所述位置标识position_i d也为一个序列, 元素从0开始, 往后顺次增一, 表示文
本中每一个字在文本中的位置 。
3.根据权利要求1所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在
于:
步骤104中, 将编码特征Encoder实体关系抽 取层, 通过线性变换分别表征实体或者关
系的头位置的表征和尾位置的表征:
其中
表示第i个字 的语义表征,
表示第i个字是实体或者关系的头位置的表征,
表示第j个字是实体或者关系的尾位置的表征,
、
表示权重矩阵,
、
为
偏置矩阵。
4.根据权利要求3所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在
于:
步骤104中, 用实体或者关系的头位置的表征
、 实体或者关系的尾位置的表征
的
内积计算从i到j到连续片段的实体得分:权 利 要 求 书 1/3 页
2
CN 115510866 A
2为第i到j片段的实体得分, 其中
, n为特征id的长度,
在训练时, 通过交叉熵损失函数, 计算 其损失值, 如下:
其中
表示片段i到j的真实标签值, 如果i到j是实体, 那么该位置对应的值是1,
如果i到j是关系, 那么该位置对应的值是2, 如果该片段既不是实体也不是关系, 那么该位
置对应的值 为0。
5.根据权利要求4所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在
于:
步骤105中, 边界对齐层由全连接层和打分函数构 成, 该步骤训练针对实体关系的边界
权重矩阵
、
, 即实体的头和关系的头对应片 段, 实体的尾和关系的尾对应的片段,
为第i到j片段的得分:
表示第i个字是实体或者 关系的头位置的表征,
表示第j个字是实体或者关系的
尾位置的表征;
、
为偏置矩阵。
6.根据权利要求5所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在
于:
步骤107中,
在训练时, 通过交叉熵损失函数, 计算 其损失值:
权 利 要 求 书 2/3 页
3
CN 115510866 A
3
专利 一种面向电力领域实体关系协同的知识抽取方法及系统
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:35上传分享