说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111581401.7 (22)申请日 2021.12.2 2 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 (72)发明人 韩滢 朱祖恩 赵伟 吴楠  黄德荣  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 代理人 周永君 汤在彦 (51)Int.Cl. G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的训练数据处理方法及 装置 (57)摘要 本发明提供了一种基于机器学习的训练数 据处理方法及装置, 可用于人工智能机器学习技 术领域, 一种基于机器学习的训练数据处理方法 包括: 接收机器学习模型的第一训练数据; 根据 所述第一训练数据以及预生成的基于最大期望 算法的训练数据处理模型生 成训练数据指数, 所 述训练数据指数用于表征所述第一训练数据在 时间维度上的变化; 根据所述第一训练数据以及 所述训练数据指数对所述第一训练数据进行补 充以及清洗。 本发明针对机器学习模 型缺乏训练 数据样本以及训练数据质量较差的情况下, 将不 同时间点的训练数据统一到一个时间点, 刨除时 间约束, 并清洗训练数据, 从而提升了训练数据 质量。 权利要求书2页 说明书12页 附图11页 CN 114239825 A 2022.03.25 CN 114239825 A 1.一种基于 机器学习的训练数据处 理方法, 其特 征在于, 包括: 接收机器学习模型的第一训练数据; 根据所述第一训练数据以及预生成的基于最大期望算法的训练数据处理模型生成训 练数据指数, 所述训练数据指数用于表征 所述第一训练数据在时间维度上的变化; 根据所述第一训练数据以及所述训练数据指数对所述第一训练数据进行补充以及清 洗。 2.根据权利要求1所述的训练数据处理方法, 其特征在于, 生成所述训练数据处理模型 包括以下步骤: 利用所述 最大期望算法, 根据所述训练模型生成所述训练数据处 理模型的初始模型; 根据所述第一训练数据的真实性设定对应的第一训练数据的标签; 根据所述标签生成所述初始模型的隐变量; 根据所述训练指数的初始值 生成所述初始模型的模型参数; 根据所述第一训练数据、 所述 隐变量以及所述模型参数对所述初始模型进行训练, 直 至所述初始模型收敛, 以生成所述训练数据处 理模型。 3.根据权利要求2所述的训练数据处 理方法, 其特 征在于, 还 包括: 利用特征法以及多元回归算法, 根据所述训练数据确定所述训练指数的初始值。 4.根据权利要求1所述的训练数据处理方法, 其特征在于, 所述根据所述第 一训练数据 以及所述训练数据指数对所述第一训练数据进行补充以及清洗, 包括: 根据所述训练指数对所述第 一训练数据以及其历史数据进行时间归一化, 以补充所述 第一训练数据; 根据所述训练指数生成所述第一训练数据的标准范围; 根据所述标准范围对所述第一训练数据进行清洗 。 5.根据权利要求1所述的训练数据处 理方法, 其特 征在于, 还 包括: 确定所述第一训练数据与多个第二训练数据在不同维度上的欧氏距离; 根据所述欧氏距离从所述多个第 二训练数据中选取至少一个第 二训练数据, 并加入至 所述第一训练数据中。 6.一种基于 机器学习的训练数据处 理装置, 其特 征在于, 包括: 训练数据接收模块, 用于 接收机器学习模型的第一训练数据; 数据指数生成模块, 用于根据 所述第一训练数据以及预生成的基于最大期望算法的训 练数据处理模型生成训练数据指数, 所述训练数据指数用于表征所述第一训练数据在时间 维度上的变化; 训练数据处理模块, 用于根据 所述第一训练数据以及所述训练数据指数对所述第 一训 练数据进行补充以及清洗 。 7.根据权利要求6所述的训练数据处理装置, 其特征在于, 还包括: 处理模型生成模块, 用于生成所述训练数据处 理模型, 所述处 理模型生成模块包括: 初始模型生成单元, 用于利用所述最大期望算法, 根据所述训练模型生成所述训练数 据处理模型的初始模型; 标签设定单元, 用于根据所述第一训练数据的真实性设定对应的第一训练数据的标 签;权 利 要 求 书 1/2 页 2 CN 114239825 A 2隐变量生成单元, 用于根据所述标签生成所述初始模型的隐变量; 模型参数生成单 元, 用于根据所述训练指数的初始值 生成所述初始模型的模型参数; 处理模型生成单元, 用于根据所述第一训练数据、 所述 隐变量以及所述模型参数对所 述初始模型进行训练, 直至所述初始模型收敛, 以生成所述训练数据处 理模型。 8.根据权利要求7 所述的训练数据处 理装置, 其特 征在于, 还 包括: 指数初始值确定模块, 用于利用特征法 以及多元回归算法, 根据所述训练数据确定所 述训练指数的初始值。 9.根据权利要求6所述的训练数据处理装置, 其特征在于, 所述训练数据处理模块包 括: 第一训练数据补充单元, 用于根据 所述训练指数对所述第 一训练数据以及其历史数据 进行时间归一 化, 以补充所述第一训练数据; 标准范围生成单 元, 用于根据所述训练指数生成所述第一训练数据的标准范围; 训练数据清洗单 元, 用于根据所述标准范围对所述第一训练数据进行清洗 。 10.根据权利要求6所述的训练数据处 理装置, 其特 征在于, 还 包括: 欧氏距离确定模块, 用于确定所述第 一训练数据与多个第 二训练数据在不同维度 上的 欧氏距离; 第二训练数据补充单元, 根据 所述欧氏距离从所述多个第 二训练数据中选取至少一个 第二训练数据, 并加入至所述第一训练数据中。 11.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现如权利要求1至 5任一项所述基于 机器学习的训练数据处 理方法的步骤。 12.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至5任一项所述基 于机器学习的训练数据处 理方法的步骤。 13.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现权利要求1至 5任一项所述基于 机器学习的训练数据处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 114239825 A 3

.PDF文档 专利 一种基于机器学习的训练数据处理方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的训练数据处理方法及装置 第 1 页 专利 一种基于机器学习的训练数据处理方法及装置 第 2 页 专利 一种基于机器学习的训练数据处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。