(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211052774.X (22)申请日 2022.08.31 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 申亚坤 谭莹坤 周慧婷 陶威  刘烨敏 程璐  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 牛亭亭 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/284(2020.01)G06Q 30/00(2012.01) G06Q 40/02(2012.01) (54)发明名称 语料数据的处 理方法、 装置及电子设备 (57)摘要 本申请公开了一种语料数据的处理方法、 装 置及电子设备, 应用于大数据领域, 方法包括: 获 得应用系统对应的系统数据库, 应用系统能够针 对查询请求在系统数据库中获取查询请求对应 的语料; 系统数据库中至少包含多个语料组; 每 个语料组分别包含至少一条目标语料; 针对每个 语料组, 按照目标语料的语料命中率, 对目标语 料划分到第一语料集合和第二语料集合; 第一语 料集合中包含至少一条第一语料, 第二语料集合 中包含至少一条第二语料, 第一语料的语料命中 率大于第二语料的语料命中率; 使用第一语料组 对应的第二语料集合中的语料, 对第二语料组对 应的第二语料集合中的语料进行添加或删除, 第 一语料组和第二语料组之间具有关联关系。 权利要求书2页 说明书10页 附图5页 CN 115391539 A 2022.11.25 CN 115391539 A 1.一种语料 数据的处 理方法, 其特 征在于, 所述方法包括: 获得应用系统对应的系统数据库, 所述应用系统能够针对查询请求在所述系统数据库 中获取所述查询请求对应的语料; 所述系统数据库中至少包含多个语料组, 每个所述语料 组分别对应于一个业 务类型; 每 个所述语料组分别包 含至少一条目标语料; 针对每个所述语料组, 按照所述目标语料的语料命中率, 对所述目标语料划分到第一 语料集合和第二语料集合; 所述第一语料集合中包含至少一条第一语料, 所述第二语料集 合中包含至少一条第二语料, 所述第一语料的语料命中率大于所述第二语料的语料命中 率; 使用第一语料组对应的第 二语料集合中的语料, 对第 二语料组对应的第 二语料集合中 的语料进行 添加或删除, 所述第一语料组和所述第二语料组之间具有关联关系。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一语料组和所述第 二语料组之间具 有关联关系, 包括: 所述第一语料组与所述第二语料组之间的语料组相似度大于所述第一语料组与所述 多个语料组中其 他语料组之间的语料组相似度; 且, 所述第 一语料组与所述第 二语料组之间的语料组相似度大于所述第 二语料组与 所 述多个语料组中其 他语料组之间的语料组相似度。 3.根据权利要求2所述的方法, 其特征在于, 所述第 一语料组与 所述第二语料组之间的 语料组相似度为: 第一集合相似度和第二集合相似度使用各自对应的权重进行加权求平均得到的整体 相似度; 其中, 所述第 一集合相似度为所述第 一语料组中的第 一语料集合与 所述第二语料组中 的第一语料集合之 间的相似度; 所述第二集合相似度为所述第一语料组中的第二语料集合 与所述第二语料组中的第二语料集 合之间的相似度。 4.根据权利要求1或2所述的方法, 其特征在于, 使用第一语料组对应的第二语料集合 中的语料, 对第二语料组对应的第二语料集 合中的语料进行 添加, 包括: 在第一语料组对应的第 二语料集合所包含的第 二语料中, 获取语料命中率大于或等于 第一阈值的第三语料; 将所述第三语料 添加到第二语料组对应的第二语料集 合中。 5.根据权利要求1或2所述的方法, 其特征在于, 使用第一语料组对应的第二语料集合 中的语料, 对第二语料组对应的第二语料集 合中的语料进行删除, 包括: 在第二语料组对应的第二语料集合中, 删除第 四语料, 所述第 四语料为从所述第一语 料组对应的第二语料集合中在语料命中率大于或等于第一阈值的情况下被添加到所述第 二语料组中的语料, 且所述第四语料在所述第一语料组对应的第二语料集合中的语料命中 率从大于或等于所述第一阈值降低到小于所述第一阈值。 6.根据权利要求1或2所述的方法, 其特 征在于, 所述方法还 包括: 在所述第一语料组对应的第二语料集 合中, 获取第一关联语料; 在所述第二语料组对应的第二语料集合中, 获取第二关联语料; 所述第二关联语料与 所述第一关联语料来源于目标源文档, 所述目标源文档中在所述系统数据库对应的多个源 文档中所产生的目标语料的数量满足目标筛 选条件; 将所述第一关联语料移动到所述第二语料组对应的第二语料集 合中;权 利 要 求 书 1/2 页 2 CN 115391539 A 2将所述第二关联语料移动到所述第一语料组对应的第二语料集 合中。 7.根据权利要求1或2所述的方法, 其特 征在于, 还 包括: 获取至少一条新语料; 对所述新语料进行分词, 以得到每条 所述新语料的语料关键词; 获取所述语料关键词分别在所述新语料对应的语料组对应的第一语料集合和第二语 料集合中的关键词重复度; 根据所述关键词重复度, 将所述新语料添加到所述新语料对应的语料组对应的第 一语 料集合或第二语料集 合。 8.根据权利要求1或2所述的方法, 其特 征在于, 还 包括: 获取目标查询请求, 所述目标查询请求中至少包 含查询关键词; 使用所述查询关键词分别在目标语料组对应的第一语料集合和第二语料集合中进行 语料查询, 以得到第一查询结果和第二查询结果; 所述 目标语料组为业务类型与所述查询 关键词相对应的语料组; 将所述第一查询结果中的语料和所述第二查询结果中的语料按照语料相似度进行排 序, 以得到排序结果; 按照所述 排序结果, 输出 所述第一 查询结果中的语料和所述第二 查询结果中的语料。 9.一种语料 数据的处 理装置, 其特 征在于, 包括: 数据获得单元, 用于获得应用系统对应的系统数据库, 所述应用系统能够针对查询请 求在所述系统数据库中获取所述查询请求对应的语料; 所述系统数据库中至少包含多个语 料组, 每个所述语料组分别对应于一个业务类型; 每个所述语料组分别包含至少一条目标 语料; 语料划分单元, 用于针对每个所述语料组, 按照所述目标语料的语料命中率, 对所述目 标语料划分到第一语料集合和第二语料集合; 所述第一语料集合中包含至少一条第一语 料, 所述第二语料集合中包含至少一条第二语料, 所述第一语料 的语料命中率大于所述第 二语料的语料命中率; 语料处理单元, 用于使用第一语料组对应的第二语料集合中的语料, 对第二语料组对 应的第二语料集合中的语料进 行添加或删除, 所述第一语料组和所述第二语料组之 间具有 关联关系。 10.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序以及所述计算机程序运行 所产生的数据; 处理器, 用于执行所述计算机程序, 以实现: 获得应用系统对应的系统数据库, 所述应 用系统能够针对查询请求在所述系统数据库中获取所述查询请求对应的语料; 所述系统数 据库中至少包含多个语料组, 每个所述语料组分别对应于一个业务类型; 每个所述语料组 分别包含至少一条目标语料; 针对每个所述语料 组, 按照所述目标语料的语料命中率, 对所 述目标语料划分到第一语料集合和 第二语料集合; 所述第一语料集合中包含至少一条第一 语料, 所述第二语料集合中包含至少一条第二语料, 所述第一语料 的语料命中率大于所述 第二语料 的语料命中率; 使用第一语料组对应的第二语料集合中的语料, 对第二语料组对 应的第二语料集合中的语料进 行添加或删除, 所述第一语料组和所述第二语料组之 间具有 关联关系。权 利 要 求 书 2/2 页 3 CN 115391539 A 3

.PDF文档 专利 语料数据的处理方法、装置及电子设备

安全报告 > 其他 > 文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料数据的处理方法、装置及电子设备 第 1 页 专利 语料数据的处理方法、装置及电子设备 第 2 页 专利 语料数据的处理方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:14:31上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。