(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210870926.0
(22)申请日 2022.07.22
(71)申请人 智慧芽信息科技 (苏州) 有限公司
地址 215000 江苏省苏州市苏州工业园区
金鸡湖大道88号人工智能产业园G3-
701、 G3-801、 G3-901、 G3-1001单元
(72)发明人 杨海涛 王超超 王为磊
(74)专利代理 机构 北京布瑞知识产权代理有限
公司 11505
专利代理师 宗广静
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06F 16/33(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本处理方法及装置、 存 储介质及电子设备
(57)摘要
本公开披露一种文本处理方法及装置、 存储
介质及电子设备, 涉及数据处理技术领域。 包括:
确定目标组织机构名称的字向量集合; 基于所述
字向量集合, 确定所述目标组织机构名称对应的
至少一个实体。 本公开通过字向量集合, 确定目
标组织机构名称对应的至少一个实体, 能够充分
体现语义特征和实体之间的转移关系, 并且目标
组织机构名称通常较短, 采用字向量集合能够提
高处理效果, 从而提高获得的目标组织机构名称
对应的实体的准确性, 进而能够减少后续用户搜
索组织机构名称花费的时间。
权利要求书2页 说明书12页 附图6页
CN 115221881 A
2022.10.21
CN 115221881 A
1.一种文本处 理方法, 其特 征在于, 包括:
确定目标组织机构名称的字向量 集合;
基于所述字向量 集合, 确定所述目标组织机构名称对应的至少一个实体。
2.根据权利要求1所述的文本处理方法, 其特征在于, 所述基于所述字向量集合, 确定
所述目标组织机构名称对应的至少一个实体, 包括:
基于所述字向量集合, 确定所述目标组织机构名称的字向量依赖关系特征集合, 其中,
所述字向量依赖关系特征集合包含的字 向量依赖关系特征与所述字 向量集合包含的字 向
量一一对应;
基于所述字向量依赖关系特征集合, 确定所述目标组织机构名称对应的至少一个实
体。
3.根据权利要求2所述的文本处理方法, 其特征在于, 所述基于所述字向量集合, 确定
所述目标组织机构名称的字向量依赖关系特 征集合, 包括:
利用长短期记忆人工神经网络, 对所述字向量集合进行特征提取, 得到所述字向量依
赖关系特征集合, 其中, 所述长短期记忆人工神经网络包括单层双向的长短期记忆人工神
经网络。
4.根据权利要求2所述的文本处理方法, 其特征在于, 所述基于所述字向量依赖关系特
征集合, 确定所述目标组织机构名称对应的至少一个实体, 包括:
利用条件随机场模型, 基于所述字向量依赖关系特征集合学习实体之间的邻接关系,
生成标签转移 矩阵;
基于所述标签转移 矩阵, 预测所述目标组织机构名称包 含的字各自所属的实体;
基于所述目标组织机构名称包含的字各自所属的实体, 确定所述目标组织机构名称对
应的至少一个实体。
5.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向
量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括:
若所述至少一个实体包括具有单个字的实体, 对所述目标组织机构名称进行分词, 得
到所述目标组织机构名称对应的词语实体;
基于所述目标组织机构名称对应的词语实体修 正所述单个字的实体。
6.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向
量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括:
若所述至少一个实体包括对应多种标签的实体, 基于歧义词典修正所述对应多种标签
的实体, 其中, 所述歧义词典包括核心名称标准、 地址名称标准和行业名称标准。
7.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向
量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括:
基于预设标准化映射词典, 对所述目标组织机构名称对应的至少一个实体进行标准化
映射, 得到所述目标组织机构名称对应的文本解析 数据。
8.根据权利要求7所述的文本处理方法, 其特征在于, 所述预设标准化映射词典包括地
址标准化映射词典、 行业标准 化映射词典和法律形式标准 化映射词典中的至少一种。
9.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述确定目标组织
机构名称的字向量 集合之前, 还 包括:权 利 要 求 书 1/2 页
2
CN 115221881 A
2若所述目标组织机构名称包含简称, 对所述目标组织机构名称包含的简称进行补全处
理;
若所述目标组织机构名称包含外文, 对所述目标组织机构名称包含的外文进行删除处
理, 以便得到只包 含中文的目标组织机构名称。
10.根据权利要求7所述的文本处理方法, 其特征在于, 在所述基于预设标准化映射词
典, 对所述 目标组织机构名称对应的至少一个实体进行标准化映射, 得到所述目标组织机
构名称对应的文本解析 数据之后, 还 包括:
利用所述文本解析数据, 在预设数据库中搜索与 所述目标组织机构名称关联的数据信
息。
11.一种文本处 理装置, 其特 征在于, 包括:
第一确定模块, 用于确定目标组织机构名称的字向量 集合;
第二确定模块, 用于基于所述字向量集合, 确定所述目标组织机构名称对应的至少一
个实体。
12.一种电子设备, 其特 征在于, 包括:
处理器;
用于存储所述处 理器可执行指令的存 储器,
其中, 所述处 理器用于执 行上述权利要求1至10任一项所述的文本处 理方法。
13.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计
算机程序用于执 行上述权利要求1至10任一项所述的文本处 理方法。权 利 要 求 书 2/2 页
3
CN 115221881 A
3
专利 文本处理方法及装置、存储介质及电子设备
安全报告 >
其他 >
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:14:31上传分享