(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211123111.2
(22)申请日 2022.09.15
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 王天祺 刘昊骋 徐世界 徐靖宇
田建
(74)专利代理 机构 北京银龙知识产权代理有限
公司 11243
专利代理师 刘念
(51)Int.Cl.
G06F 16/906(2019.01)
G06F 16/22(2019.01)
G06Q 40/02(2012.01)
(54)发明名称
数据生成方法、 装置及电子设备
(57)摘要
本公开提供了一种数据生 成方法、 装置及电
子设备, 涉及人工智能技术领域, 具体涉及数据
挖掘、 深度学习技术领域, 可应用于金融风控、 智
能零售等场景。 具体实现方案为: 获取源域数据
和目标域数据, 源域数据包括目标场景下的第一
表格数据和第一标识数据, 目标域数据包括所述
目标场景下的第二表格数据; 对第一表格数据和
第二表格数据进行特征处理, 得到第一压缩特征
和第二压缩 特征; 基于第一压缩 特征和第二压缩
特征, 对第一归属对象和第二表格数据的第二归
属对象进行聚类, 得到M个聚类组; 基于第一标识
数据, 确定每个聚类组中第一分类下第一归属对
象数量相对于第一归属对象总数量的第一占比
率; 基于第一占比率, 生成第二标识数据。
权利要求书4页 说明书12页 附图2页
CN 115455260 A
2022.12.09
CN 115455260 A
1.一种数据生成方法, 包括:
获取源域数据和目标域数据, 所述源域数据包括目标场景下的第 一表格数据和第 一标
识数据, 所述 目标域数据包括所述 目标场景下 的第二表格数据, 所述第一标识数据用于标
识所述第一表格数据的第一归属对象在所述目标场景 下的分类;
对所述第一表格数据和所述第 二表格数据进行特征处理, 得到所述第 一表格数据的第
一压缩特 征和所述第二表格数据的第二压缩特 征;
基于所述第 一压缩特征和所述第 二压缩特征, 对所述第 一归属对象和所述第 二表格数
据的第二归属对象进 行聚类, 得到M个聚类组, 不同聚类组包括的所述第一归属对象和所述
第二归属对象不同, M为大于1的整数;
基于所述第 一标识数据, 确定每个所述聚类组中第 一分类下所述第 一归属对象数量相
对于所述第一归属对象总数量的第一占比率;
基于所述第一占比率, 生成第二标识数据, 所述第二标识数据用于标识所述第二归属
对象在所述目标场景下的分类, 所述聚类组中第一分类下所述第二归属对象数量相对于所
述第二归属对象总数量的第二占比率, 与所述第一占比率的差异值小于预设阈值。
2.根据权利要求1所述的方法, 所述对所述第一表格数据和所述第二表格数据进行特
征处理, 得到所述第一表格数据的第一压缩特征和所述第二表格数据的第二压缩特征之
前, 还包括:
基于所述目标场景的数据特征类型和数据指标类型, 对所述目标场景下的表格数据进
行分类, 得到N个分类簇, N 为正整数;
对所述N个分类簇对应的N个数据指标区间进行离散化处理, 得到所述N个分类簇对应
的N个第一嵌入矩阵;
所述对所述第 一表格数据和所述第 二表格数据进行特征处理, 得到所述第 一表格数据
的第一压缩特 征和所述第二表格数据的第二压缩特 征, 包括:
基于所述N个第 一嵌入矩阵, 对所述第一表格数据和所述第 二表格数据进行特征处理,
得到所述第一压缩特 征和所述第二压缩特 征。
3.根据权利要求2所述的方法, 其中, 所述基于所述N个第 一嵌入矩阵, 对所述第 一表格
数据和所述第二表格数据进行特征处理, 得到所述第一压缩特征和所述第二压缩特征, 包
括:
基于所述N个第一嵌入矩阵, 分别对所述第一表格数据和所述第二表格数据进行特征
表征, 得到所述第一表格数据的第一表征 特征和所述第二表格数据的第二表征 特征;
将所述第一表征特征输入至第一模型进行特征编码, 得到第一目标特征, 以及将所述
第二表征 特征输入至所述第一模型进行 特征编码, 得到第二目标 特征;
基于所述第 一目标特征、 所述第 二目标特征和所述第 一标识数据, 更新所述N个第一嵌
入矩阵和所述第一模型的网络参数;
基于更新后的所述N个第一嵌入矩阵和所述第一模型的网络参数, 对所述第一表格数
据和所述第二表格数据进行 特征处理, 得到所述第一压缩特 征和所述第二压缩特 征。
4.根据权利要求3所述的方法, 其中, 所述基于所述第一目标特征、 所述第二目标特征
和所述第一标识数据, 更新所述 N个第一嵌入矩阵和所述第一模型的网络参数, 包括:
基于所述第一目标 特征进行分类预测, 得到所述第一归属对象的分类数据;权 利 要 求 书 1/4 页
2
CN 115455260 A
2确定所述分类数据和所述第 一标识数据之间的差异值, 得到所述第 一模型的第 一损失
值;
确定所述第 一目标特征和所述第 二目标特征之间的差异值, 得到所述第 一模型的第 二
损失值;
将所述第一损失值和所述第二损失值进行聚合, 得到目标损失值;
基于所述目标损失值, 更新所述 N个第一嵌入矩阵和所述第一模型的网络参数。
5.根据权利要求3所述的方法, 其中, 所述将所述第 一表征特征输入至第 一模型进行特
征编码, 得到第一目标 特征, 包括:
对所述第一表征 特征进行特征交叉, 得到第三目标 特征;
对所述第一表征特征进行特征提取, 得到第 四目标特征, 所述第 四目标特征和所述第
三目标特征的特征长度相同;
将所述第三目标 特征和所述第四目标 特征进行相加处 理, 得到第一目标 特征。
6.根据权利要求1所述的方法, 其中, 所述对所述第 一表格数据和所述第 二表格数据进
行特征处理, 得到所述第一表格数据的第一压缩特征和所述第二表格数据 的第二压缩特
征, 包括:
分别对所述第 一表格数据和所述第 二表格数据进行特征维度转化, 得到所述第 一表格
数据对应的第一图像特 征和所述第二表格数据对应的第二图像特 征;
分别对所述第 一图像特征和所述第 二图像特征进行变换操作, 得到所述第 一图像特征
对应的第一图像和所述第二图像特 征对应的第二图像;
将所述第一图像和所述第 二图像分别输入至第 二模型进行特征处理, 得到所述第 一压
缩特征和所述第二压缩特 征。
7.一种数据生成装置, 包括:
获取模块, 用于获取源域数据和目标域数据, 所述源域数据包括目标场景下的第一表
格数据和第一标识数据, 所述 目标域数据包括所述 目标场景下的第二表格数据, 所述第一
标识数据用于标识所述第一表格数据的第一归属对象在所述目标场景 下的分类;
特征处理模块, 用于对所述第一表格数据和所述第二表格数据进行特征处理, 得到所
述第一表格数据的第一压缩特 征和所述第二表格数据的第二压缩特 征;
聚类模块, 用于基于所述第一压缩特征和所述第二压缩特征, 对所述第一归属对象和
所述第二表格数据的第二归属对象进 行聚类, 得到M个聚类组, 不同聚类组包括的所述第一
归属对象和所述第二归属对象不同, M为大于1的整数;
确定模块, 用于基于所述第一标识数据, 确定每个所述聚类组中第一分类下所述第一
归属对象数量相对于所述第一归属对象总数量的第一占比率;
生成模块, 用于基于所述第 一占比率, 生成第 二标识数据, 所述第二标识数据用于标识
所述第二归属对象在所述目标场景下的分类, 所述聚类组中第一分类下所述第二归属对象
数量相对于所述第二归属对象总数量的第二占比率, 与所述第一占比率的差异 值小于预设
阈值。
8.根据权利要求7 所述的装置, 还 包括:
分类模块, 用于基于所述目标场景的数据特征类型和数据指标类型, 对所述目标场景
下的表格数据进行分类, 得到N个分类簇, N 为正整数;权 利 要 求 书 2/4 页
3
CN 115455260 A
3
专利 数据生成方法、装置及电子设备
安全报告 >
其他 >
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:29上传分享