(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210870926.0 (22)申请日 2022.07.22 (71)申请人 智慧芽信息科技 (苏州) 有限公司 地址 215000 江苏省苏州市苏州工业园区 金鸡湖大道88号人工智能产业园G3- 701、 G3-801、 G3-901、 G3-1001单元 (72)发明人 杨海涛 王超超 王为磊  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 宗广静 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法及装置、 存 储介质及电子设备 (57)摘要 本公开披露一种文本处理方法及装置、 存储 介质及电子设备, 涉及数据处理技术领域。 包括: 确定目标组织机构名称的字向量集合; 基于所述 字向量集合, 确定所述目标组织机构名称对应的 至少一个实体。 本公开通过字向量集合, 确定目 标组织机构名称对应的至少一个实体, 能够充分 体现语义特征和实体之间的转移关系, 并且目标 组织机构名称通常较短, 采用字向量集合能够提 高处理效果, 从而提高获得的目标组织机构名称 对应的实体的准确性, 进而能够减少后续用户搜 索组织机构名称花费的时间。 权利要求书2页 说明书12页 附图6页 CN 115221881 A 2022.10.21 CN 115221881 A 1.一种文本处 理方法, 其特 征在于, 包括: 确定目标组织机构名称的字向量 集合; 基于所述字向量 集合, 确定所述目标组织机构名称对应的至少一个实体。 2.根据权利要求1所述的文本处理方法, 其特征在于, 所述基于所述字向量集合, 确定 所述目标组织机构名称对应的至少一个实体, 包括: 基于所述字向量集合, 确定所述目标组织机构名称的字向量依赖关系特征集合, 其中, 所述字向量依赖关系特征集合包含的字 向量依赖关系特征与所述字 向量集合包含的字 向 量一一对应; 基于所述字向量依赖关系特征集合, 确定所述目标组织机构名称对应的至少一个实 体。 3.根据权利要求2所述的文本处理方法, 其特征在于, 所述基于所述字向量集合, 确定 所述目标组织机构名称的字向量依赖关系特 征集合, 包括: 利用长短期记忆人工神经网络, 对所述字向量集合进行特征提取, 得到所述字向量依 赖关系特征集合, 其中, 所述长短期记忆人工神经网络包括单层双向的长短期记忆人工神 经网络。 4.根据权利要求2所述的文本处理方法, 其特征在于, 所述基于所述字向量依赖关系特 征集合, 确定所述目标组织机构名称对应的至少一个实体, 包括: 利用条件随机场模型, 基于所述字向量依赖关系特征集合学习实体之间的邻接关系, 生成标签转移 矩阵; 基于所述标签转移 矩阵, 预测所述目标组织机构名称包 含的字各自所属的实体; 基于所述目标组织机构名称包含的字各自所属的实体, 确定所述目标组织机构名称对 应的至少一个实体。 5.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向 量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括: 若所述至少一个实体包括具有单个字的实体, 对所述目标组织机构名称进行分词, 得 到所述目标组织机构名称对应的词语实体; 基于所述目标组织机构名称对应的词语实体修 正所述单个字的实体。 6.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向 量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括: 若所述至少一个实体包括对应多种标签的实体, 基于歧义词典修正所述对应多种标签 的实体, 其中, 所述歧义词典包括核心名称标准、 地址名称标准和行业名称标准。 7.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向 量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括: 基于预设标准化映射词典, 对所述目标组织机构名称对应的至少一个实体进行标准化 映射, 得到所述目标组织机构名称对应的文本解析 数据。 8.根据权利要求7所述的文本处理方法, 其特征在于, 所述预设标准化映射词典包括地 址标准化映射词典、 行业标准 化映射词典和法律形式标准 化映射词典中的至少一种。 9.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述确定目标组织 机构名称的字向量 集合之前, 还 包括:权 利 要 求 书 1/2 页 2 CN 115221881 A 2若所述目标组织机构名称包含简称, 对所述目标组织机构名称包含的简称进行补全处 理; 若所述目标组织机构名称包含外文, 对所述目标组织机构名称包含的外文进行删除处 理, 以便得到只包 含中文的目标组织机构名称。 10.根据权利要求7所述的文本处理方法, 其特征在于, 在所述基于预设标准化映射词 典, 对所述 目标组织机构名称对应的至少一个实体进行标准化映射, 得到所述目标组织机 构名称对应的文本解析 数据之后, 还 包括: 利用所述文本解析数据, 在预设数据库中搜索与 所述目标组织机构名称关联的数据信 息。 11.一种文本处 理装置, 其特 征在于, 包括: 第一确定模块, 用于确定目标组织机构名称的字向量 集合; 第二确定模块, 用于基于所述字向量集合, 确定所述目标组织机构名称对应的至少一 个实体。 12.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器, 其中, 所述处 理器用于执 行上述权利要求1至10任一项所述的文本处 理方法。 13.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计 算机程序用于执 行上述权利要求1至10任一项所述的文本处 理方法。权 利 要 求 书 2/2 页 3 CN 115221881 A 3

.PDF文档 专利 文本处理方法及装置、存储介质及电子设备

安全报告 > 其他 > 文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法及装置、存储介质及电子设备 第 1 页 专利 文本处理方法及装置、存储介质及电子设备 第 2 页 专利 文本处理方法及装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:14:31上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。