(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211372952.7
(22)申请日 2022.11.04
(71)申请人 文灵科技 (北京) 有限公司
地址 102200 北京市昌平区未来科 学城英
才北三街16号院15号楼 2单元408室
(72)发明人 宋永生 王楠
(74)专利代理 机构 无锡苏元专利代理事务所
(普通合伙) 32471
专利代理师 王清伟
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06F 40/289(2020.01)
(54)发明名称
一种高保 真文本主语义 提取系统及方法
(57)摘要
本发明提供了一种高保真文本主语义提取
系统及方法, 涉及数据处理技术领域, 通过匹配
文本类型生成类型约束参数, 匹配文本作者写作
特征生成用户特征语义约束参数, 对文本进行多
层级分割生成文本的多层级分割结果, 通过类型
约束参数和用户特征语义约束参数对多层级分
割结果进行文本分割聚合选择, 基于文本类型匹
配识别数据库进行文本分割 聚合选择结果的语
义识别, 基于语义识别结果生成语义提取结果。
解决现有技术中存在智能识别文本语义准确度
较低, 无法获得较为准确的文章主语义的缺陷,
导致文本语义识别的人工依赖度和识别成本较
高的技术问题。 达到提高智能识别文本语义准确
度, 降低文本语义识别对于人工经验的需求, 降
低识别成本的技 术效果。
权利要求书2页 说明书9页 附图2页
CN 115422949 A
2022.12.02
CN 115422949 A
1.一种高保真文本主语义 提取系统, 其特 征在于, 所述系统包括:
文本处理执行模块, 用于获得目标识别文本, 对所述目标识别文本进行文本预处理, 得
到预处理文本;
文本类型匹配模块, 用于对所述预处理文本进行初始文本识别, 基于初始文本识别结
果匹配文本类型, 基于所述文本类型生成类型约束参数;
写作特征匹配模块, 用于基于所述目标识别文本获得文本作者信息, 通过所述文本作
者信息进行写作特 征匹配, 通过写作特 征匹配结果 生成用户特 征语义约束参数;
文本分割执行模块, 用于对所述预处理文本进行文本多层级分割, 生成预处理文本的
多层级分割结果;
聚合处理执行模块, 用于通过所述类型约束参数和所述用户特征语义约束参数进行所
述多层级分割结果的文本分割聚合选择, 获得文本分割聚合选择 结果;
语义识别处理模块, 用于基于文本类型匹配识别数据库, 基于所述识别数据库进行所
述文本分割聚合选择 结果的语义识别, 基于语义识别结果 生成语义 提取结果。
2.根据权利要求1所述的系统, 其特 征在于, 所述系统还 包括:
词性特征构建单 元, 用于构建词性识别特 征;
初始层级划分单元, 用于基于所述词性识别特征进行所述预处理文本的初始词性识别
划分, 获得初始层级分割结果;
分割结果聚合单元, 用于对所述初始层级分割结果进行相邻分割词聚合评价, 生成相
邻分割词聚合评价结果;
评价结果判断单元, 用于判断所述相邻分割词聚合评价结果是否满足预设聚合评价阈
值;
判断结果执行单元, 用于当所述相邻分割词聚合评价结果可以满足所述预设聚合评价
阈值时, 则进行相邻分割词聚合, 其中, 每一组相邻分割词聚合方案对应一层级分割结果;
分割结果整合单元, 用于根据相邻分割词聚合结果和所述初始层级分割结果获得所述
多层级分割结果。
3.根据权利要求2所述的系统, 其特 征在于, 所述系统还 包括:
成语词库构建单 元, 用于构建成语词库集 合;
分割结果判断单元, 用于基于所述成语词库集合进行所述多层级分割结果的聚合评
价, 判断是否存在与所述成语词库集 合匹配的成语聚合结果;
判断结果处理单元, 用于当所述多层级分割结果中存在所述成语聚合结果时, 则保留
所述成语聚合结果, 并在将所述多层级分割结果中所述成语聚合结果部分的其他分割结果
剔除。
4.根据权利要求1所述的系统, 其特 征在于, 所述系统还 包括:
词汇特征获得单元, 用于构建发言识别词汇特征集合, 并将所述发言识别词汇特征集
合作为第一识别特 征;
标点特征获得单元, 用于将发言标点识别特征作为第二识别特征, 基于所述第一识别
特征和所述第二识别特 征进行所述预处 理文本的发言识别, 获得发言识别标识结果;
独立处理执行单元, 用于对所述发言识别标识结果部分进行独立的文本分割聚合选
择, 基于独立文本分割聚合选择 结果获得 所述文本分割聚合选择 结果。权 利 要 求 书 1/2 页
2
CN 115422949 A
25.根据权利要求1所述的系统, 其特 征在于, 所述系统还 包括:
关键词识别单 元, 用于基于所述语义识别结果进行关键词识别, 获得关键词识别结果;
结构化识别单 元, 用于对所述语义识别结果进行 结构化识别, 生成结构化识别结果;
语义提取执行单元, 用于将所述关键词识别结果和所述结构化识别结果作为语义识别
参考数据, 基于所述语义识别参 考数据获得 所述语义 提取结果。
6.根据权利要求5所述的系统, 其特 征在于, 所述系统还 包括:
层次划分执行单元, 用于基于所述结构化识别结果进行语句层级划分, 获得语句层级
划分结果;
层级标识获得单元, 用于基于所述语句层级划分结果进行所述语义提取结果的层级标
识。
7.根据权利要求1所述的系统, 其特 征在于, 所述系统还 包括:
人工辅助处理单元, 用于将所述语义提取结果发送至工作人员, 获得所述工作人员的
反馈标识数据;
数据解析执行单元, 用于对所述反馈标识数据进行数据解析, 获得数据解析结果, 其
中, 所述数据解析 结果包括 适用场景和优化特 征;
识别优化执 行单元, 用于通过 所述数据解析 结果进行文本识别的识别优化。
8.一种高保真文本主语义 提取方法, 其特 征在于, 所述方法包括:
获得目标识别文本, 对所述目标识别文本进行文本预处 理, 得到预处 理文本;
对所述预处理文本进行初始文本识别, 基于初始文本识别结果匹配文本类型, 基于所
述文本类型生成类型约束参数;
基于所述目标识别文本获得文本作者信息, 通过所述文本作者信息进行写作特征匹
配, 通过写作特 征匹配结果 生成用户特 征语义约束参数;
对所述预处 理文本进行文本多层级分割, 生成预处 理文本的多层级分割结果;
通过所述类型约束参数和所述用户特征语义约束参数进行所述多层级分割结果的文
本分割聚合选择, 获得文本分割聚合选择 结果;
基于文本类型匹配识别数据库, 基于所述识别数据库进行所述文本分割聚合选择结果
的语义识别, 基于语义识别结果 生成语义 提取结果。权 利 要 求 书 2/2 页
3
CN 115422949 A
3
专利 一种高保真文本主语义提取系统及方法
安全报告 >
其他 >
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:36上传分享