说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111568363.1 (22)申请日 2021.12.21 (71)申请人 重庆数聚魔方科技有限公司 地址 401121 重庆市渝北区黄山大道中段 56号B1栋1 1楼1号房 (72)发明人 李剑峰  (74)专利代理 机构 重庆天成卓越专利代理事务 所(普通合伙) 50240 代理人 路宁 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2458(2019.01) G06F 16/27(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于混淆主键的特征数据交换方法和 系统 (57)摘要 本发明提出了一种基于混淆主键的特征数 据交换方法和系统, 包括: S1, 获取第一数据库A 中实体对象特征数据, 以及第二数据库B的实体 对象特征数据, 其中数据库B中的特征数据是机 器学习算法需要进行预测的目标特征; S2, 通过 使用特征数据交换和机器学习, 将第二数据库B 中目标特征数据在第一数据库A的特征数据中进 行训练, 从而产生机器学习模型在第一数据库A 中对其他实体对象的目标特征进行预测, 并且在 此过程中双方不需要交换实体对象的具体特征 数据和唯一标识信息 。 权利要求书2页 说明书5页 附图1页 CN 114328514 A 2022.04.12 CN 114328514 A 1.一种基于混淆主键的特 征数据交换 方法, 其特 征在于, 包括如下步骤: S1, 获取第一数据库A中实体对象特征数据, 以及第二数据库B的实体对象特征数据, 其 中数据库B中的特 征数据是机器学习算法需要 进行预测的目标 特征; S2, 通过使用特征数据交换和机器学习, 将第二数据库B中目标特征数据在第一数据库 A的特征数据中进 行训练, 从而产生机器学习模型在第一数据库 A中对其他 实体对象的目标 特征进行预测, 并且在此过程中双方不需要交换实体对象的具体特征数据和唯一标识信 息。 2.根据权利要求1所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S1包 括: S1‑1, 第一数据库A中实体对象数据为{ID, X1, X2, X3, ..., Xn}, 其中ID是实体对象唯一 标识, X为实体对象的特 征; S1‑2, 第二数据库B中实体对象数据{ID, Y}, 其 中ID是实体对象唯一标识, Y为实体对象 的特征, 是机器学习模型需要 进行预测的目标 特征。 3.根据权利要求1所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S2包 括: S2‑1, 在第二数据库中获取实体对象数据形成对象唯一标识集合, 在集合中设置自由 度; S2‑2, 根据选择的自由度, 将唯一标识集合进行混淆替换处理, 混淆替换完成后发送至 第一数据库A; S2‑3, 在第一数据库A中根据替换规则进行逆向处 理, 得到新的唯一标识集 合d; S2‑4, 通过新的唯一标识集合d在第一数据库A中的查询出对象特征数据, 生成特征矩 阵, 对特征矩阵进行矢量 化映射, 生成混淆后的特 征矩阵。 4.根据权利要求3所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S2 ‑1包 括: 对象标识ID是由i位字符组成的, 用K1, K2, K3...Ki表示; Ki的取值范围是一个字符的 集合, 集合里面的元 素的个数叫做Ki的自由度设为Ti。 5.根据权利要求3所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S2 ‑2包 括: 在第二数据库B中从K`1, K`2, K`3...K`i中选取若干位集合{K`z1, K`z2, ..., K`zj}, 并 且将这些位上的字 符替换成预先协定好的占位符生成混淆后的ID 字符串P(ID`), 传送给第 一数据库A。 6.根据权利要求3所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S2 ‑3包 括: 第一数据库A收到P(ID`), 将z1, z2...zj位的占位符遍历式替换成对应位的字符集中 的所有元 素, 得到一个ID的集 合, d={ID1, ID2. ...IDs}, 其中s=Tzi*Tz2*. ..Tzj。 7.根据权利要求6所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S2 ‑4包 括: S2‑A, 在第一数据库A中查询自己的实体对象特征数据, 查找到新的集合d中所有的ID 在己方的特 征数据, 生成第一特 征矩阵;权 利 要 求 书 1/2 页 2 CN 114328514 A 2S2‑B, 第一数据库A选择映射函数: map(X): xi ‑>fi, 其中f为标量数字, 对第一特征矩阵 中的特征数据X进行矢量 化映射形成第二特 征矩阵; S2‑C, 对第二特征矩阵进行检查, 除了ID以外, 其他任何f或者f的组合都不能唯一对应 一行数据, 如果 不能满足该 条件执行条件指令; S2‑D, 第一数据库A将第二特 征矩阵传送给第二数据库B, map(X)保存在第一数据库; S2‑E, 第二数据库B收到第二特征矩阵以后执行, 如果发现除了ID以外有f或者f的组合 能够唯一对应一行 数据, 删除该 行数据; S2‑F, 第二数据库B通过收到的第二特征矩阵中的ID查询本地数据, 获取目标特征Y, 选 择map(Y): yi ‑>hi, 并且将目标特征hi按照对于的ID拼接到第二特征矩阵中, 并且删除ID 列, 生成第三特 征矩阵。 8.根据权利要求7 所述的基于混淆主键的特 征数据交换 方法, 其特 征在于, 还 包括: S2‑G, 第二数据库B中没有查询到的ID, 就忽略; 第二数据库B将生成的第三特征矩阵传 送给第一数据库A; S2‑H, 第一数据库A就用第三特征矩阵进行机器学习模型训练, 并且使用map(X)对新的 样本进行映射 转换, 并有训练好的机器学习模型进行 预测; S2‑I, 当第三特征矩阵的数据的样本不足时, 进行多轮特征数据交换, 从而得到足够多 的训练样本 。 9.根据权利要求7所述的基于混淆主键的特征数据交换方法, 其特征在于, 所述S2 ‑C中 条件指令包括: (1)修改map(X)函数, 减少f的区分度; (2)删除区分度比较高的列, 某一列的f, 对于每 个ID都有一个唯一 值, 就删除这 一列f。 10.一种基于混淆主键的特 征数据交换系统, 其特 征在于, 包括: ID编码模块, 用于将ID数据按照ID格式和占位符协议对ID进行混淆编码。 ID解码模块, 用于将混淆后的ID, 按照ID格式和占位符协议对ID进行解码。 map函数存 储模块, 用于存 储每次交换构造的map(X)函数和map(Y)函数。 map函数运行模块, 用于计算map函数对特 征矩阵进行变换。 数据查询模块, 用于查询对象特 征数据库。 数据存储模块, 用于存 储对象特征数据。 通信模块, 用于向对方传输数据, 并且接收对方回传的数据。 机器学习运 算模块, 用于 机器学习模型的训练和运 算。权 利 要 求 书 2/2 页 3 CN 114328514 A 3

.PDF文档 专利 一种基于混淆主键的特征数据交换方法和系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于混淆主键的特征数据交换方法和系统 第 1 页 专利 一种基于混淆主键的特征数据交换方法和系统 第 2 页 专利 一种基于混淆主键的特征数据交换方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。