(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211372951.2
(22)申请日 2022.11.04
(71)申请人 文灵科技 (北京) 有限公司
地址 102200 北京市昌平区未来科 学城英
才北三街16号院15号楼 2单元408室
(72)发明人 宋永生 王楠
(74)专利代理 机构 无锡苏元专利代理事务所
(普通合伙) 32471
专利代理师 王清伟
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06F 40/247(2020.01)
(54)发明名称
一种基于语义分析的事件层次网络识别系
统及方法
(57)摘要
本申请公开了一种基于语义分析的事件层
次网络识别系统及方法, 包括: 为待分析的目标
文本指定主题描述; 对指定的主题描述进行分词
处理, 并基于预设概念库查找出各分词的关联语
义概念, 完成事件识别; 利用扩展主题描述对目
标文本进行初次过滤, 以在过滤后获得候选文本
段; 确定所提取的文 段特征向量与扩展主题向量
的相关度, 以进行二次过滤, 获得目标事件的相
关文本; 从相关文本中提取多个子事件, 并确定
与目标事件之间的关联关系, 从而提取事件和事
件之间的关系; 基于所确定的关联关系构建目标
事件的事件层次网络。 本申请实施例的事件层次
网络识方法能够自动构建事件层次网络图谱, 解
决人工标注成本高、 效率低的问题。
权利要求书3页 说明书8页 附图1页
CN 115422948 A
2022.12.02
CN 115422948 A
1.一种基于语义分析的事件层次网络识别方法, 其特征在于, 应用于从待分析的目标
文本中识别出目标事 件的层次网络, 包括:
获取待分析的目标文本;
基于所述目标事 件, 为所述待分析的目标文本指定主题描述;
对指定的主题描述进行分词处 理, 并基于预设概念库查找出 各分词的关联语义 概念;
基于语义逻辑关系组合所查询出的关联语义 概念, 以形成数个扩展 主题描述;
利用查找的关联语义概念, 以及, 所述扩展主题描述对所述目标文本进行初次过滤, 以
在过滤后获得候选文本段;
从所述候选文本段中提取文段特征向量, 并基于所述扩展主题描述构建扩展主题向
量;
确定所提取的文段特征向量与所述扩展主题向量的相关度, 以进行二次过滤, 获得目
标事件的相关文本;
从所述相关文本 中提取多个子事件, 并确定子事件与子事件之间, 以及, 子事件与目标
事件之间的关联关系;
基于所确定的关联关系构建所述目标事 件的事件层次网络 。
2.如权利要求1所述的基于语义分析的事件层次网络识别方法, 其特征在于, 利用查找
的关联语义概念, 以及, 所述扩展主题描述对所述目标文本进 行初次过滤, 以在过滤后获得
候选文本段包括:
从所述目标文本中选取包 含关联语义 概念的多个子文本段;
对任一子文本段:
基于目标事 件为各关联语义 概念配置对应的语义权 重;
确定任一子文本段中各关联语义 概念在所述任一子文本段的等效出现密度满足:
其中,
表示子文本段 k中所有关联语 义概念的等效出 现密度,l表示关联语 义概念的总
数,
表示第i个关联语义概念在任一子文本段的出现次数,
表示第i个关联语义概念的
语义权重,
表示子文本段 k的字数;
确定各扩展 主题描述与所述任一子文本段之间的语义关联度的最大值
;
根据所述等效出现密度
以及语义关联度的最大值
, 确定所述任一子文本段的
关联度满足:
其中,
表示子文本段 k的关联度;
去除关联度低于预设 关联度阈值的文本段, 以获得候选文本段。
3.如权利要求2所述的基于语义分析的事件层次网络识别方法, 其特征在于, 从所述候
选文本段中提取文段 特征向量, 并基于所述扩展 主题描述构建扩展 主题向量包括:权 利 要 求 书 1/3 页
2
CN 115422948 A
2从所述候选文本中提取 特征项
;
为各特征项, 重复确定任一特 征项的等效出现密度:
其中,
表示任一特征项的等 效出现密度,
表示第m个特征项包含的相关关联语义
概念的语义权重最大值,
表示第m个特征项包含的相关关联语义概念在任一子文本段
的等效出现次数,
表示任一子文本段的字数;
配置等效权 重满足:
其中,
为权重系数,
为权重基数;
构建文段 特征向量D=(
), 其中
;
基于所述扩展主题描述构建扩展主题向量
=(
), 其中
表示第j个扩展
主题描述的特 征项数。
4.如权利要求3所述的基于语义分析的事件层次网络识别方法, 其特征在于, 基于所述
扩展主题描述构建扩展 主题向量包括:
确定所述扩展 主题描述的各分词, 并根据各分词的同义词构建正例样本;
基于所述 正例样本的近义词构建 关联样本;
基于所述扩展主题描述的各分词、 所述正例 样本中第 一数量的同义词以及所述关联样
本中第二数量的近义词构建扩展 主题向量。
5.如权利要求4所述的基于语义分析的事件层次网络识别方法, 其特征在于, 确定所提
取的文段特征向量与所述扩展主题描述向量的相关度, 以进行二次过滤, 获得目标事件的
相关文本包括:
其中,
表示文段 特征向量D与第 j个扩展主题向量
之间的相关度;
为任一扩展 主题描述:
选取相关度大于预设相关度阈值的文本段, 以获得所述任一扩展主题描述对应的文本
作为中间文本 。
6.如权利要求5所述的基于语义分析的事件层次网络识别方法, 其特征在于, 进行二 次
过滤, 获得目标事 件的相关文本还 包括:
对任一扩展 主题描述的中间文本:
计算确定所述中间文本中各词的互信息量, 满足:权 利 要 求 书 2/3 页
3
CN 115422948 A
3
专利 一种基于语义分析的事件层次网络识别系统及方法
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:36上传分享