专利 数据生成方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211123111.2 (22)申请日 2022.09.15 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人王天祺　刘昊骋　徐世界　徐靖宇　田建　 (74)专利代理机构北京银龙知识产权代理有限公司 11243 专利代理师刘念 (51)Int.Cl. G06F 16/906(2019.01) G06F 16/22(2019.01) G06Q 40/02(2012.01) (54)发明名称数据生成方法、装置及电子设备 (57)摘要本公开提供了一种数据生成方法、装置及电子设备，涉及人工智能技术领域，具体涉及数据挖掘、深度学习技术领域，可应用于金融风控、智能零售等场景。具体实现方案为：获取源域数据和目标域数据，源域数据包括目标场景下的第一表格数据和第一标识数据，目标域数据包括所述目标场景下的第二表格数据；对第一表格数据和第二表格数据进行特征处理，得到第一压缩特征和第二压缩特征；基于第一压缩特征和第二压缩特征，对第一归属对象和第二表格数据的第二归属对象进行聚类，得到M个聚类组；基于第一标识数据，确定每个聚类组中第一分类下第一归属对象数量相对于第一归属对象总数量的第一占比率；基于第一占比率，生成第二标识数据。权利要求书4页说明书12页附图2页 CN 115455260 A 2022.12.09 CN 115455260 A 1.一种数据生成方法，包括：获取源域数据和目标域数据，所述源域数据包括目标场景下的第一表格数据和第一标识数据，所述目标域数据包括所述目标场景下的第二表格数据，所述第一标识数据用于标识所述第一表格数据的第一归属对象在所述目标场景下的分类；对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一表格数据的第一压缩特征和所述第二表格数据的第二压缩特征；基于所述第一压缩特征和所述第二压缩特征，对所述第一归属对象和所述第二表格数据的第二归属对象进行聚类，得到M个聚类组，不同聚类组包括的所述第一归属对象和所述第二归属对象不同， M为大于1的整数；基于所述第一标识数据，确定每个所述聚类组中第一分类下所述第一归属对象数量相对于所述第一归属对象总数量的第一占比率；基于所述第一占比率，生成第二标识数据，所述第二标识数据用于标识所述第二归属对象在所述目标场景下的分类，所述聚类组中第一分类下所述第二归属对象数量相对于所述第二归属对象总数量的第二占比率，与所述第一占比率的差异值小于预设阈值。 2.根据权利要求1所述的方法，所述对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一表格数据的第一压缩特征和所述第二表格数据的第二压缩特征之前，还包括：基于所述目标场景的数据特征类型和数据指标类型，对所述目标场景下的表格数据进行分类，得到N个分类簇， N 为正整数；对所述N个分类簇对应的N个数据指标区间进行离散化处理，得到所述N个分类簇对应的N个第一嵌入矩阵；所述对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一表格数据的第一压缩特征和所述第二表格数据的第二压缩特征，包括：基于所述N个第一嵌入矩阵，对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一压缩特征和所述第二压缩特征。 3.根据权利要求2所述的方法，其中，所述基于所述N个第一嵌入矩阵，对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一压缩特征和所述第二压缩特征，包括：基于所述N个第一嵌入矩阵，分别对所述第一表格数据和所述第二表格数据进行特征表征，得到所述第一表格数据的第一表征特征和所述第二表格数据的第二表征特征；将所述第一表征特征输入至第一模型进行特征编码，得到第一目标特征，以及将所述第二表征特征输入至所述第一模型进行特征编码，得到第二目标特征；基于所述第一目标特征、所述第二目标特征和所述第一标识数据，更新所述N个第一嵌入矩阵和所述第一模型的网络参数；基于更新后的所述N个第一嵌入矩阵和所述第一模型的网络参数，对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一压缩特征和所述第二压缩特征。 4.根据权利要求3所述的方法，其中，所述基于所述第一目标特征、所述第二目标特征和所述第一标识数据，更新所述 N个第一嵌入矩阵和所述第一模型的网络参数，包括：基于所述第一目标特征进行分类预测，得到所述第一归属对象的分类数据；权　利　要　求　书 1/4 页 2 CN 115455260 A 2确定所述分类数据和所述第一标识数据之间的差异值，得到所述第一模型的第一损失值；确定所述第一目标特征和所述第二目标特征之间的差异值，得到所述第一模型的第二损失值；将所述第一损失值和所述第二损失值进行聚合，得到目标损失值；基于所述目标损失值，更新所述 N个第一嵌入矩阵和所述第一模型的网络参数。 5.根据权利要求3所述的方法，其中，所述将所述第一表征特征输入至第一模型进行特征编码，得到第一目标特征，包括：对所述第一表征特征进行特征交叉，得到第三目标特征；对所述第一表征特征进行特征提取，得到第四目标特征，所述第四目标特征和所述第三目标特征的特征长度相同；将所述第三目标特征和所述第四目标特征进行相加处理，得到第一目标特征。 6.根据权利要求1所述的方法，其中，所述对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一表格数据的第一压缩特征和所述第二表格数据的第二压缩特征，包括：分别对所述第一表格数据和所述第二表格数据进行特征维度转化，得到所述第一表格数据对应的第一图像特征和所述第二表格数据对应的第二图像特征；分别对所述第一图像特征和所述第二图像特征进行变换操作，得到所述第一图像特征对应的第一图像和所述第二图像特征对应的第二图像；将所述第一图像和所述第二图像分别输入至第二模型进行特征处理，得到所述第一压缩特征和所述第二压缩特征。 7.一种数据生成装置，包括：获取模块，用于获取源域数据和目标域数据，所述源域数据包括目标场景下的第一表格数据和第一标识数据，所述目标域数据包括所述目标场景下的第二表格数据，所述第一标识数据用于标识所述第一表格数据的第一归属对象在所述目标场景下的分类；特征处理模块，用于对所述第一表格数据和所述第二表格数据进行特征处理，得到所述第一表格数据的第一压缩特征和所述第二表格数据的第二压缩特征；聚类模块，用于基于所述第一压缩特征和所述第二压缩特征，对所述第一归属对象和所述第二表格数据的第二归属对象进行聚类，得到M个聚类组，不同聚类组包括的所述第一归属对象和所述第二归属对象不同， M为大于1的整数；确定模块，用于基于所述第一标识数据，确定每个所述聚类组中第一分类下所述第一归属对象数量相对于所述第一归属对象总数量的第一占比率；生成模块，用于基于所述第一占比率，生成第二标识数据，所述第二标识数据用于标识所述第二归属对象在所述目标场景下的分类，所述聚类组中第一分类下所述第二归属对象数量相对于所述第二归属对象总数量的第二占比率，与所述第一占比率的差异值小于预设阈值。 8.根据权利要求7 所述的装置，还包括：分类模块，用于基于所述目标场景的数据特征类型和数据指标类型，对所述目标场景下的表格数据进行分类，得到N个分类簇， N 为正整数；权　利　要　求　书 2/4 页 3 CN 115455260 A 3

专利 数据生成方法、装置及电子设备

专利数据生成方法、装置及电子设备