(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211372951.2 (22)申请日 2022.11.04 (71)申请人 文灵科技 (北京) 有限公司 地址 102200 北京市昌平区未来科 学城英 才北三街16号院15号楼 2单元408室 (72)发明人 宋永生 王楠  (74)专利代理 机构 无锡苏元专利代理事务所 (普通合伙) 32471 专利代理师 王清伟 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/247(2020.01) (54)发明名称 一种基于语义分析的事件层次网络识别系 统及方法 (57)摘要 本申请公开了一种基于语义分析的事件层 次网络识别系统及方法, 包括: 为待分析的目标 文本指定主题描述; 对指定的主题描述进行分词 处理, 并基于预设概念库查找出各分词的关联语 义概念, 完成事件识别; 利用扩展主题描述对目 标文本进行初次过滤, 以在过滤后获得候选文本 段; 确定所提取的文 段特征向量与扩展主题向量 的相关度, 以进行二次过滤, 获得目标事件的相 关文本; 从相关文本中提取多个子事件, 并确定 与目标事件之间的关联关系, 从而提取事件和事 件之间的关系; 基于所确定的关联关系构建目标 事件的事件层次网络。 本申请实施例的事件层次 网络识方法能够自动构建事件层次网络图谱, 解 决人工标注成本高、 效率低的问题。 权利要求书3页 说明书8页 附图1页 CN 115422948 A 2022.12.02 CN 115422948 A 1.一种基于语义分析的事件层次网络识别方法, 其特征在于, 应用于从待分析的目标 文本中识别出目标事 件的层次网络, 包括: 获取待分析的目标文本; 基于所述目标事 件, 为所述待分析的目标文本指定主题描述; 对指定的主题描述进行分词处 理, 并基于预设概念库查找出 各分词的关联语义 概念; 基于语义逻辑关系组合所查询出的关联语义 概念, 以形成数个扩展 主题描述; 利用查找的关联语义概念, 以及, 所述扩展主题描述对所述目标文本进行初次过滤, 以 在过滤后获得候选文本段; 从所述候选文本段中提取文段特征向量, 并基于所述扩展主题描述构建扩展主题向 量; 确定所提取的文段特征向量与所述扩展主题向量的相关度, 以进行二次过滤, 获得目 标事件的相关文本; 从所述相关文本 中提取多个子事件, 并确定子事件与子事件之间, 以及, 子事件与目标 事件之间的关联关系; 基于所确定的关联关系构建所述目标事 件的事件层次网络 。 2.如权利要求1所述的基于语义分析的事件层次网络识别方法, 其特征在于, 利用查找 的关联语义概念, 以及, 所述扩展主题描述对所述目标文本进 行初次过滤, 以在过滤后获得 候选文本段包括: 从所述目标文本中选取包 含关联语义 概念的多个子文本段; 对任一子文本段: 基于目标事 件为各关联语义 概念配置对应的语义权 重; 确定任一子文本段中各关联语义 概念在所述任一子文本段的等效出现密度满足: 其中, 表示子文本段 k中所有关联语 义概念的等效出 现密度,l表示关联语 义概念的总 数, 表示第i个关联语义概念在任一子文本段的出现次数,   表示第i个关联语义概念的 语义权重,  表示子文本段 k的字数; 确定各扩展 主题描述与所述任一子文本段之间的语义关联度的最大值 ; 根据所述等效出现密度   以及语义关联度的最大值   , 确定所述任一子文本段的 关联度满足: 其中,  表示子文本段 k的关联度; 去除关联度低于预设 关联度阈值的文本段, 以获得候选文本段。 3.如权利要求2所述的基于语义分析的事件层次网络识别方法, 其特征在于, 从所述候 选文本段中提取文段 特征向量, 并基于所述扩展 主题描述构建扩展 主题向量包括:权 利 要 求 书 1/3 页 2 CN 115422948 A 2从所述候选文本中提取 特征项  ; 为各特征项, 重复确定任一特 征项的等效出现密度: 其中, 表示任一特征项的等 效出现密度,   表示第m个特征项包含的相关关联语义 概念的语义权重最大值,   表示第m个特征项包含的相关关联语义概念在任一子文本段 的等效出现次数, 表示任一子文本段的字数; 配置等效权 重满足: 其中, 为权重系数,  为权重基数; 构建文段 特征向量D=( ), 其中 ; 基于所述扩展主题描述构建扩展主题向量   =( ), 其中  表示第j个扩展 主题描述的特 征项数。 4.如权利要求3所述的基于语义分析的事件层次网络识别方法, 其特征在于, 基于所述 扩展主题描述构建扩展 主题向量包括: 确定所述扩展 主题描述的各分词, 并根据各分词的同义词构建正例样本; 基于所述 正例样本的近义词构建 关联样本; 基于所述扩展主题描述的各分词、 所述正例 样本中第 一数量的同义词以及所述关联样 本中第二数量的近义词构建扩展 主题向量。 5.如权利要求4所述的基于语义分析的事件层次网络识别方法, 其特征在于, 确定所提 取的文段特征向量与所述扩展主题描述向量的相关度, 以进行二次过滤, 获得目标事件的 相关文本包括: 其中,  表示文段 特征向量D与第 j个扩展主题向量  之间的相关度; 为任一扩展 主题描述: 选取相关度大于预设相关度阈值的文本段, 以获得所述任一扩展主题描述对应的文本 作为中间文本 。 6.如权利要求5所述的基于语义分析的事件层次网络识别方法, 其特征在于, 进行二 次 过滤, 获得目标事 件的相关文本还 包括: 对任一扩展 主题描述的中间文本: 计算确定所述中间文本中各词的互信息量, 满足:权 利 要 求 书 2/3 页 3 CN 115422948 A 3

.PDF文档 专利 一种基于语义分析的事件层次网络识别系统及方法

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义分析的事件层次网络识别系统及方法 第 1 页 专利 一种基于语义分析的事件层次网络识别系统及方法 第 2 页 专利 一种基于语义分析的事件层次网络识别系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:13:36上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。