全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111593769.5 (22)申请日 2021.12.23 (71)申请人 东南大学 地址 210000 江苏省南京市麒 麟科创园智 识路26号启迪城立 业园04幢 (72)发明人 宋爱波 马露露 李雅琦 方效林  (74)专利代理 机构 南京众联专利代理有限公司 32206 代理人 叶涓涓 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2453(2019.01) G06N 20/00(2019.01) (54)发明名称 基于机器学习的数据索引优化方法 (57)摘要 本发明提供了一种基于机器学习的数据索 引优化方法, 包括对主键索引进行优化以及对二 级索引进行优化。 前者在模型分层结构的设计 下, 通过自顶向下拟合预测残差来充分利用非叶 子模型的拟合效果、 权重更新来提高对离群数据 的关注度和预设阈值进行数据剪枝这三个方面 提高多维主键数据的预测准确度。 后者在第一阶 段使用二分类模型和Bloom  Filter进行两步筛 选, 将数据集划分成唯一键值和非唯一键值, 并 保有一定的误判率。 在第二阶段根据两类数据的 特点, 分别构建索引模型进行处理, 从而满足二 级索引的查询要求。 本发明能够适应多种索引类 型, 提升索引的查询效率, 降低索引的空间开销。 权利要求书3页 说明书9页 附图4页 CN 114328519 A 2022.04.12 CN 114328519 A 1.基于机器学习的数据索引优化方法, 其特征在于, 包括对主键索引进行优化以及对 二级索引进行优化; 所述对主键索引进行优化包括以下步骤: 步骤一, 构建混合模型层次结构, 分为顶部模型、 分支模型和叶子模型; 顶部模型的输 入数据大小逐步缩减, 拟合数据内在分布以预测键值Key所在的记录行位置; 自顶向下通过 模型对Key的预测结果选择该Key使用的下一层 模型编号, 并把上层模型预测结果传递给下 层选择的模型; 步骤二: 对于分支模型的输入数据集, 使用权重更新策略, 根据 上层预测结果来赋予数 据不同的权重, 其中上层拟合效果越差的数据权重相对升高, 并使用加权损失函数进行训 练; 步骤三: 对于经过某一层分支模型的数据, 通过阈值来判断是否继续传递到下一层模 型, 进行及时的剪枝操作, 最终构建递归提升模型索引B ‑RMI结构; 所述对二级索引的优化包括以下步骤: 步骤一: 通过第一阶段二分类模型和Bloom  Filter过滤器对唯一键值和非唯一键值进 行分类, 并保证对唯一键值的分类不存在误判; 步骤二: 对于唯一键值数据, 通过层次划分方法进行预处理分段后, 在每个分段中构建 B‑RMI结构对原 始表进行位置预测, 最终构建唯一键值模型; 步骤三: 对于非唯一键值数据, 通过构建临时表整合非唯一键值的位置列表, 再构建B ‑ RMI结构对临时表进行位置预测, 最终构建非唯一键值模型。 2.根据权利要求1所述的基于机器学习的数据索引优化方法, 其特征在于, 所述对主键 索引进行优化的步骤一中传递上层模型预测结果的方式是将上一层模型数据的预测残差 值作为下一层 模型数据的标签值, 选择下层模型的方法是将残差差异较大的数据尽量分类 到下层的同一个模型中进行训练。 3.根据权利要求2所述的基于机器学习的数据索引优化方法, 其特征在于, 选择下一层 模型的方法具体包括: 假设当前模型 的数据集是X={x1, x2, ...xm}, 得到的预测结果P={p1, p2, ...pm}, 标签 是Y={y1, y2, ...ym}; 那么残差是R={r1, r2, ..rm}; rmax是当前模型残差里的最大值, rmin是 当前模型残差里的最小值; 下层模型总数 是M, 则对于 输入数据xi选择的模型编号是: 4.根据权利要求1所述的基于机器学习的数据索引优化方法, 其特征在于, 所述对主键 索引进行优化的步骤二包括如下子步骤: (1)初始阶段, m个数据的初始权 重均是1/m; (2)计算每 个数据的相对误差: (3)计算加权误差之和: 权 利 要 求 书 1/3 页 2 CN 114328519 A 2(4)计算权 重因子: (5)更新每 个数据的权 重: 更新之后的权重, 对于yi越大的数据, 其权重越大, 并且某个模型的所有输入数据权重 之和等于1; (6)使用加入权 重的均方误差损失函数: 使用加权损失函数进行模型的训练, 权 重越高的数据损失越大。 5.根据权利要求1所述的基于机器学习的数据索引优化方法, 其特征在于, 所述对主键 索引进行优化的步骤三包括如下子步骤: a.预设残差阈值δ; 比较数据经过模型的预测结果的残差ri和阈值δ 的大小, 如果ri≤δ, 则从传递到下一层的数据集合中删除该数据, 进行数据的剪枝操作, 减少下一层模型 的输 入数据大小; b.重复上述步骤, 直至叶节点模型, 最终对于一个查询Key的位置预测结果为其在B ‑ RMI结构上 经过的模型的预测值之和; c.记录所有训练集数据经过B ‑RMI结构的预测结果与真实值的偏移量, 并存储最糟糕 的向上偏移量Errormax和向下偏移量Errormin; 对于某个查询Key, 经过B ‑RMI结构得到其预 测结果p, 需要在[p ‑Errormin, p+Errormax]里进行二分搜索, 对比查询Key和搜索处 的Key的 值, 最终得到该 Key所处的正确位置 。 6.根据权利要求1所述的基于机器学习的数据索引优化方法, 其特征在于, 所述对二级 索引进行优化的步骤一包括如下 过程: 通过二分类模型对唯一键值和非唯一键值进行大致分类, 然后使用Bloom  Filter过滤 器对把非唯一键值分类为唯一键值的错误进 行纠正, 从而得到唯一键值数据集和非唯一键 值数据集。 7.根据权利要求6所述的基于机器学习的数据索引优化方法, 其特征在于, 所述二分类 模型的构建包括如下 过程: 选择神经网络作为二分类模型, 输出层使用si gmoid激活函数控制输出结果在[0, 1]范 围内, 其余层选择ReLu激活函数; 使用二分类模型对键值数据做分类, 具有一定的错误率, 分类结果中会出现将唯一键值识别为 非唯一键值, 把 非唯一键值识别为唯一键值这两种错 误; 构建二分类模型的损失函数的方式如下: Bloom Filter占用空间如下:权 利 要 求 书 2/3 页 3 CN 114328519 A 3

.PDF文档 专利 基于机器学习的数据索引优化方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于机器学习的数据索引优化方法 第 1 页 专利 基于机器学习的数据索引优化方法 第 2 页 专利 基于机器学习的数据索引优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:16:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。