全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211263681.1 (22)申请日 2022.10.16 (71)申请人 天津卓盛云科技有限公司 地址 300000 天津市滨 海新区天津自贸试 验区(中心商务区)迎宾大道东侧国泰 大厦2号楼-1 13 (72)发明人 宋瑞霞 金友兵  (74)专利代理 机构 天津知远君 正专利代理事务 所(特殊普通 合伙) 12236 专利代理师 何君 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/34(2019.01)G06F 16/25(2019.01) (54)发明名称 一种多颗粒度的全 文检索方法及装置 (57)摘要 本发明提供了一种多颗粒度的全文检索方 法及装置, 所述全文检索方法包括步骤S1, 建立 索引名称并构建多个不同颗粒度的内部索引库; 步骤S2, 对作为检索对象的文档进行解析和保 存; 步骤S3, 获取索引名称、 检索范围和检索参 数; 步骤S4, 根据索引名称和检索范围确定实际 检索的内部索引库, 并基于所述检索参数进行全 文检索, 获取检索结果; 步骤S5, 根据检索范围返 回不同格式和排序的检索结果。 本发 明在构建索 引库时实现了多种颗粒度的索引库创建, 并支持 数据的去重。 在检索时, 可 以根据需要灵活进行 多种方式的检索和展示。 权利要求书3页 说明书9页 附图2页 CN 115544201 A 2022.12.30 CN 115544201 A 1.一种多颗粒度的全文检索方法, 其特 征在于, 包括以下步骤: 步骤S1, 建立索引名称并构建多个不同颗粒度的内部索引库; 所述内部索引库包括名 称与所述索引名称相互关联的正文索引库、 段落集索引库、 纯段落索引库、 句子集索引库和 纯句子索引库; 步骤S2, 对作为检索对象的文档进行解析和保存, 具体包括以下步骤: 步骤S201, 对所述文档进行解析, 获得所述文档的元数据、 正文数据、 段落数据和句子 数据; 所述元数据包括标题(title)、 概述(abstract)、 注解(annotation); 所述正文数据为 文档的正文; 所述段落数据和句子数据为 集合数据; 步骤S202, 将元数据和正文数据保存到所述正文索引库中, 并获得保存后的记录ID,该 记录ID设为文档号(docID); 步骤S203, 将元数据和段落集保存到所述段落集索引库中, 并在该库中的记录ID为文 档号(docID); 所述段落 集根据所述段落数据获得, 为该文档中所有段落组成的数组; 步骤S204, 将元数据和句子集保存到所述句子集索引库中, 并在该库中的记录ID为文 档号(docID); 所述句子集 根据所述句子数据获得, 为该文档中所有句子组成的数组; 步骤S205, 对所述文档中的每个段落进行遍历, 并将每个段落单独保存到所述纯段落 索引库中, 每 个段落的记录ID为该 段落内容的Hash摘要值; 步骤S206, 对所述文档中的每个句子进行遍历, 并将每个句子单独保存到所述句子集 索引库中, 每 个句子的记录ID为该句子内容的Hash摘要值; 步骤S3, 获取索引名称、 检索范围和检索参数; 所述检索范围包括全文、 段落集、 句子 集、 纯段落和纯句子; 所述检索参数包括关键词、 关键词之间的关系 、 精确搜索或模糊搜索; 步骤S4, 根据索引名称和检索范围确定实际检索的内部索引库, 并基于所述检索参数 进行全文检索, 获取检索结果; 步骤S5, 根据检索范围返回不同格式和排序的检索结果。 2.根据权利要求1所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S1中, 所述 正文索引库中每条记录都包括摘要字段, 所述摘要字段保存所述文档的Hash摘要值; 当插 入一条新记录时, 若该文档的Hash摘要值已经存在, 则该文档不再导入到所述内部索引库 中。 3.根据权利要求1所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S202、 步骤 S203中, 段落集、 句子集以内嵌数据的形式保存为段落集索引库、 句子集索引库中一条记录 中的一个数组字段。 4.根据权利要求1所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S205中, 对 于所述纯段落索引库, 所述Hash摘要值记为概要(digest), 以概要(digest)作为纯段落索 引库中的记录ID, 并根据概要(digest)进行段落内容的去重; 所述纯段落索引 库中的字段 还包括内容(content)、 引用次数(docUseNum)和引文文档记录(refDocs); 所述内容 (content)为段落的内容, 所述引用次数(docUseNum)为正文索引库引用该段落的次数, 所 述引文文档记录(refDocs)为 一内嵌集 合, 内嵌集 合的元素为文档的文档号(docID)。 5.根据权利要求4所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S205中, 对 所述文档中的每个段落进行遍历时, 首先计算该段落的概要(digest); 其次如果纯段落索 引库的概要(digest)记录不存在, 则引用次数(docUseNum)为1, 如果纯段落索引库概要权 利 要 求 书 1/3 页 2 CN 115544201 A 2(digest)记录存在, 则引用次数(docUseNum)加1; 再次引文文档记录(refDocs)集合中插入 当前文档的文档号(docID)的值, 所述引文 文档记录(refDocs)为 集合类型。 6.根据权利要求1所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S206中, 对 于所述纯句子索引库, 所述Hash摘要值记为概要(digest), 以概要(digest)作为纯句子索 引库的记录ID, 并根据概要(digest)进行句子内容的去重; 所述纯句子索引库中的字段还 包括内容(content)、 引用次数(docUseNum)和引文文档记录(refDocs); 所述内容 (content)为句子的内容, 所述引用次数(docUseNum)为正文索引库中引用该句子的次数, 所述引文 文档记录(refDocs)为 一内嵌集 合, 内嵌集 合的元素为文档的文档号(docID)。 7.根据权利要求6所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S206中, 对 所述文档中的每个句子进行遍历时, 首先计算该句子的概要(digest); 其次如果纯句子索 引库的概要(digest)记录不存在, 则引用次数(docUseNum)为1, 如果纯句子索引库概要 (digest)记录存在, 则引用次数(docUseNum)加1; 再次引文文档记录(refDocs)集合中插入 当前文档文档号(docID)的值, 所述引文 文档记录(refDocs)为 集合类型。 8.根据权利要求1所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S202至步骤 S206中, 任一 步骤失败, 则回滚至所述 步骤S201, 然后结束所述 步骤S2。 9.根据权利要求1所述的多颗粒度的全文检索方法, 其特征在于: 所述步骤S5中, 所述 检索结果包括以下格式和排序方式: 方式一, 对于正文索引库的检索结果, 按照相关度排序, 每条记录是一个正文库中的完 整记录, 包括元 数据和正文内容; 方式二, 对于段落集索引库、 句子集索引库的检索结果, 按照整篇文档的相关度排序, 每条记录返回元数据和数组中的符合条件的段落或句子; 方式三, 对于纯段落索引库、 纯句 子索引库的检索结果, 按照段落、 句子的相关度排序, 返回单独段落、 句子内容。 10.一种多颗粒度的全文检索装置, 其特 征在于,包括: 建立索引名和内部索引库模块, 用于建立索引名称并构建多个不同颗粒度的内部索引 库; 所述内部索引库包括名称与所述索引名称相互关联的正文索引库、 段落集索引库、 纯段 落索引库、 句子集索引库和纯句子索引库; 文档解析和保存模块, 用于对需要导入的文档进行解析和保存, 具体包括用于: 步骤 S201, 对所述文档进行解析, 获得所述文档的元数据、 正文 数据、 段落数据和句子数据; 所述 元数据包括标题(title)、 概述(abstract)、 注解(annotation); 步骤S2 02, 将元数据和正文 内容保存到所述正文索引 库中, 并获得保存后的记录ID,该记录ID设为文档号(docID); 步 骤S203, 将元数据和段落集保存到所述段落集索引库中, 并在该库中的记录ID为文档号 (docID); 所述段落集为该文档中所有段落组成的数组; 步骤S204, 将元数据和句子集保存 到所述句子集索引库中, 并在该库中的记录ID为文档号(docID); 所述句子集为该文档中所 有句子组成的数 组; 步骤S205, 对 所述文档中的每个段落进 行遍历, 并将 每个段落单独保存 到所述纯段落索引库中, 每个段落的记录ID为该段落内容的Hash摘要值; 步骤S206, 对 所述 文档中的每个句 子进行遍历, 并将每个句 子单独保存到所述句 子集索引库中, 每个句 子的 记录ID为该句子内容的Hash摘要值; 获取索引名称、 检索范围和检索参数模块, 用于执行检索查询时, 获取索引名称、 检索 范围和检索参数; 所述检索范围包括全文、 段落集、 句子集、 纯段落和纯句子; 所述检索参

PDF文档 专利 一种多颗粒度的全文检索方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多颗粒度的全文检索方法及装置 第 1 页 专利 一种多颗粒度的全文检索方法及装置 第 2 页 专利 一种多颗粒度的全文检索方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:47:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。