(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211430058.0 (22)申请日 2022.11.16 (71)申请人 国网江苏省电力有限公司营销服 务 中心 地址 210019 江苏省南京市 建邺区奥体大 街9号 (72)发明人 祝宇楠 蔡奇新 潘熙 刘云鹏  江明 左强 陈黎军 胡坚中  单超 朱峰 蔡明明 范环宇  朱君  (74)专利代理 机构 北京智绘未来专利代理事务 所(普通合伙) 11689 专利代理师 王萍 (51)Int.Cl. G06F 40/295(2020.01)G06F 40/242(2020.01) G06F 40/126(2020.01) G06F 16/36(2019.01) G06F 40/30(2020.01) (54)发明名称 一种面向电力领域实体关系协同的知识抽 取方法及系统 (57)摘要 一种面向电力领域实体关系协同的知识抽 取方法及系统, 获取电力领域文本数据, 并对获 取的数据进行特征处理; 对获取的特征数据进行 BERT模型训练; 将编码特征Encoder输入到实体 关系抽取层, 获取实体关系信息编码之后解码得 到实体关系候选集; 将编码特征Encoder输入到 边界对齐层, 获取边界对齐信息编码后再输入到 特征注意力模块, 获得边界对齐信息加强编码之 后解码得到边界对齐候选集; 将上述获得的实体 关系候选集和边界对齐候选集求交集, 获取知识 抽取结果。 本方法系统有效提高了电力领域实体 关系的抽取准确率。 较于传统方法不仅在速度上 有明显的优势, 而 且不存在误差传播 等问题。 权利要求书3页 说明书8页 附图1页 CN 115510866 A 2022.12.23 CN 115510866 A 1.一种面向电力领域实体关系协同的知识抽取 方法, 其特 征在于, 包括以下步骤: 步骤101, 获取电力领域文本数据; 步骤102, 将步骤101中获取的数据进行特征处理, 获取对应的特征即字典标识input_ id和位置标识positi on_id; 步骤103, 将步骤102中获得的特征输入到预训练模型BERT中, 获取句子编码特征 Encoder; 步骤104, 将步骤103获取的编码特征Encoder, 输入到实体关系抽取层, 获取实体关系 信息编码EntPreEncoder; 步骤105, 将步骤103获取的编码特征Encoder, 输入到边界对齐层, 获取边界对齐信息 编码BAEncoder; 步骤106, 将步骤104获取的编码特 征EntPreEncoder进行解码, 获取实体关系候选集; 步骤107, 将步骤105的边界对齐信息编码BAEncoder和步骤104的实体关系信息编码 EntPreEncoder, 输入特 征注意力模块, 获取边界对齐信息加强编码A ttEncoder; 步骤108, 获取电力领域专业词集合和步骤106的实体关系候选集合并得到新的实体关 系候选集; 步骤109, 将步骤107获取的编码特 征AttEncoder进行解码, 获取边界对齐候选集; 步骤110, 将步骤108获得的新的实体关系候选集和步骤109中获得的边界对齐候选集 求交集, 获取知识抽取 结果。 2.根据权利要求1所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在 于: 步骤102中, 所述字典标识input_id为一个序列, 其中每个元素为文本中每个字对应字 典的id号; 所述位置标识position_i d也为一个序列, 元素从0开始, 往后顺次增一, 表示文 本中每一个字在文本中的位置 。 3.根据权利要求1所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在 于: 步骤104中, 将编码特征Encoder实体关系抽 取层, 通过线性变换分别表征实体或者关 系的头位置的表征和尾位置的表征: 其中 表示第i个字 的语义表征,   表示第i个字是实体或者关系的头位置的表征, 表示第j个字是实体或者关系的尾位置的表征, 、 表示权重矩阵, 、 为 偏置矩阵。 4.根据权利要求3所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在 于: 步骤104中, 用实体或者关系的头位置的表征 、 实体或者关系的尾位置的表征 的 内积计算从i到j到连续片段的实体得分:权 利 要 求 书 1/3 页 2 CN 115510866 A 2为第i到j片段的实体得分, 其中 , n为特征id的长度, 在训练时, 通过交叉熵损失函数, 计算 其损失值, 如下:   其中 表示片段i到j的真实标签值, 如果i到j是实体, 那么该位置对应的值是1, 如果i到j是关系, 那么该位置对应的值是2, 如果该片段既不是实体也不是关系, 那么该位 置对应的值 为0。 5.根据权利要求4所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在 于: 步骤105中, 边界对齐层由全连接层和打分函数构 成, 该步骤训练针对实体关系的边界 权重矩阵 、 , 即实体的头和关系的头对应片 段, 实体的尾和关系的尾对应的片段, 为第i到j片段的得分: 表示第i个字是实体或者 关系的头位置的表征, 表示第j个字是实体或者关系的 尾位置的表征; 、 为偏置矩阵。 6.根据权利要求5所述的一种面向电力领域实体关系协同的知识抽取方法, 其特征在 于: 步骤107中, 在训练时, 通过交叉熵损失函数, 计算 其损失值:   权 利 要 求 书 2/3 页 3 CN 115510866 A 3

.PDF文档 专利 一种面向电力领域实体关系协同的知识抽取方法及系统

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向电力领域实体关系协同的知识抽取方法及系统 第 1 页 专利 一种面向电力领域实体关系协同的知识抽取方法及系统 第 2 页 专利 一种面向电力领域实体关系协同的知识抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:13:35上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。