说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111562448.9 (22)申请日 2021.12.20 (71)申请人 健康数据 (北京) 科技有限公司 地址 100000 北京市朝阳区望京园401号楼 14层1701 (72)发明人 杨远 刘昊 李云鹏 杨凡  麦泽庆 郭常占 史俊才 燕青  (74)专利代理 机构 广东高端专利代理事务所 (特殊普通 合伙) 44346 代理人 李彩凤 (51)Int.Cl. G06F 21/62(2013.01) G06N 20/00(2019.01) (54)发明名称 一种基于联邦学习的数据分析方法及系统 (57)摘要 本发明公开了一种基于联邦学习的数据分 析方法及系统, 方法包括: 确定数据需求集合与 训练模型; 将数据需求集合传输至每一数据节点 提取训练样 本; 基于训练样本训练得到每一数据 节点的梯度数据, 聚合分析得到训练结果, 并提 取数据特征; 将数据特征传输至每一数据节点进 行特征匹配, 匹配得到每一数据节 点中适配于数 据特征的近似样本; 若存在任一数据节点的训练 样本与近似样本一致, 对训练结果进行脱敏处 理。 本发明实施例中, 通过对训练结果提取数据 特征, 并根据数据特征于训练样本进行匹配, 若 匹配成功, 则证明训练结果存在隐私泄露风险, 据此对训练结果进行脱 敏, 避免诸如推导公开数 据溯源原 始数据的情况发生, 确保数据安全。 权利要求书2页 说明书7页 附图3页 CN 114372287 A 2022.04.19 CN 114372287 A 1.一种基于联邦学习的数据分析 方法, 其特 征在于, 所述方法包括: 确定数据需求 集合与训练模型; 将所述数据需求 集合传输至每一数据节点; 根据所述数据需求 集合, 于每一数据节点所存 储结构化数据中提取训练样本; 采用所述训练模型训练所述训练样本, 得到对应于每一数据节点的梯度数据; 对每一梯度数据进行聚合分析, 得到训练结果; 提取所述训练结果的数据特 征; 将所述数据特征传输至每一数据节点进行特征匹配, 匹配得到每一数据节点中适配于 所述数据特 征的近似样本; 若存在任一数据节点的训练样本与近似样本一 致, 对所述训练结果进行脱敏处 理。 2.根据权利要求1所述的一种基于联邦学习的数据分析方法, 其特征在于, 所述对所述 训练结果进行脱敏处 理, 包括: 基于所述训练样本, 对所述训练结果中每一字段划分 关联区间; 采用同一偏差指标, 对处于强关联区间的字段与处于弱关联区间的字段进行错位偏 差, 得到偏差结果。 其中, 所述偏差指标仅分配予中心 节点, 用以将所述偏差结果还原得到所述训练结果。 3.根据权利要求1所述的一种基于联邦学习的数据分析方法, 其特征在于, 在对所述训 练结果进行脱敏处 理之后, 所述方法还 包括: 分析每一数据节点所提供训练数据对训练结果的贡献比例; 基于所述贡献比例对当次研究收益进行激励分配。 4.根据权利要求1或3任一项所述的一种基于联邦学习的数据分析方法, 其特征在于, 所述方法还 包括: 对进行脱敏处 理的训练结果, 在完成激励分配后, 对激励进行存蓄; 当激励存蓄达 到预设脱敏次数后, 对 存蓄的激励发放至每一数据节点。 5.根据权利要求1所述的一种基于联邦学习的数据分析方法, 其特征在于, 所述方法还 包括: 当存在新增数据节点接入时, 对所述 新增数据节点的结构化数据提取识别特 征; 基于所述识别特 征在每一数据节点中识别与所述 新增数据节点 一致的重复数据。 6.一种基于联邦学习的数据分析系统, 其特 征在于, 所述系统包括: 构建单元, 用于确定数据需求 集合与训练模型; 传输单元, 用于将所述数据需求 集合传输至每一数据节点; 样本提取单元, 用于根据所述数据需求集合, 于每一数据节点所存储结构化数据中提 取训练样本; 分布训练单元, 用于采用所述训练模型训练所述训练样本, 得到对应于每一数据节点 的梯度数据; 聚合分析 单元, 用于对每一梯度数据进行聚合分析, 得到训练结果; 特征提取单元, 用于提取 所述训练结果的数据特 征; 近似匹配单元, 用于将所述数据特征传输至每一数据节点进行特征匹配, 匹配得到每 一数据节点中适配于所述数据特 征的近似样本;权 利 要 求 书 1/2 页 2 CN 114372287 A 2脱敏单元, 用于当存在任一数据节点的训练样本与近似样本一致时, 对所述训练结果 进行脱敏处 理。 7.根据权利要求6所述的一种基于联邦学习的数据分析系统, 其特征在于, 所述脱敏单 元包括: 区间划分子单 元, 用于基于所述训练样本, 对所述训练结果中每一字段划分 关联区间; 错位偏差子单元, 用于采用同一偏差指标, 对处于强关联区间的字段与处于弱关联区 间的字段进行错 位偏差, 得到偏差结果。 其中, 所述偏差指标仅分配予中心 节点, 用以将所述偏差结果还原得到所述训练结果。 8.根据权利要求6所述的一种基于联邦学习的数据分析系统, 其特征在于, 所述系统还 包括: 贡献分析单元, 用于在所述脱敏单元对所述训练结果进行脱敏处理之后, 分析每一数 据节点所提供训练数据对训练结果的贡献比例; 激励分配单 元, 用于基于所述贡献比例对当次研究收益进行激励分配。 9.根据权利要求6或8任一项所述的一种基于联邦学习的数据分析系统, 其特征在于, 所述系统还 包括: 激励存蓄单元, 用于对进行脱敏处理的训练结果, 在完成激励分配后, 对激励进行存 蓄; 所述激励分配单元, 还用于在激励存蓄达到预设脱敏次数后, 对存蓄的激励发放至每 一数据节点。 10.根据权利要求6所述的一种基于联邦学习的数据分析系统, 其特征在于, 所述系统 还包括: 所述特征提取单元, 还用于在存在新增数据节点接入时, 对所述新增数据节点的结构 化数据提取识别特 征; 所述近似匹配单元, 还用于在基于所述识别特征在每一数据节点中识别与 所述新增数 据节点一致的重复数据。权 利 要 求 书 2/2 页 3 CN 114372287 A 3

.PDF文档 专利 一种基于联邦学习的数据分析方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于联邦学习的数据分析方法及系统 第 1 页 专利 一种基于联邦学习的数据分析方法及系统 第 2 页 专利 一种基于联邦学习的数据分析方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。