(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111568359.5
(22)申请日 2021.12.21
(71)申请人 重庆数聚魔方科技有限公司
地址 401121 重庆市渝北区黄山大道中段
56号B1栋1 1楼1号房
(72)发明人 李剑峰 程杰 郑济峰
(74)专利代理 机构 重庆天成卓越专利代理事务
所(普通合伙) 50240
代理人 路宁
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/2457(2019.01)
G06F 16/2458(2019.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于过拟合分类器模型的多方数据联
合用户画像方法
(57)摘要
本发明提出了一种基于过拟合分类器模型
的多方数据联合用户画像方法, 包括如下步骤:
S1, 用户在不同数据库中生成不同的属性数据,
针对不同的属性数据进行特征空间数据划分;
S2, 设置每个数据库用户数据的提取指令, 对提
取指令与相应的数据库用户数据进行特征空间
数据匹配; S3, 在匹配过程中判断特征空间重叠
程度, 根据某 一数据库训练完成的用户数据分类
模型对其他数据库进行用户特征分类, 将处于同
一分类的用户的特征空间进行合并后做用户画
像。
权利要求书2页 说明书6页 附图2页
CN 114398363 A
2022.04.26
CN 114398363 A
1.一种基于过拟合分类器模型的多方数据联合用户画像方法, 其特征在于, 包括如下
步骤:
S1, 用户在不同数据库中生成不同的属性数据, 针对不同的属性数据进行特征空间数
据划分;
S2, 设置每个数据库用户数据的提取指令, 对提取指令与相应的数据库用户数据进行
特征空间数据匹配;
S3, 在匹配过程中判断特征空间重叠程度, 根据某一数据库训练完成的用户数据分类
模型对其他数据库进 行用户特征分类, 将处于同一分类的用户的特征 空间进行合并后做用
户画像。
2.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特
征在于, 所述S1包括:
S1‑1, 在第一数据库D1中用户的属性数据特征空间是{KEY(D1),X1,X2,X3,....Xn}, Xn
为第一数据库中用户的第n个属性的特征数据, 在第二数据库D2中用户的属 性数据特征空
间是{KEY(D2),Y1,Y2,Y 3,.....Yn}, Yn为第二数据库中用户的第n个属性的特 征数据;
S1‑2, 用户1在D1中的具体特征数据表示为key1(D1), x11, x12, x 13....x1n; 用户1在D2
中的具体特 征数据表示 为key1(D2), y1 1, y12, y13. ..y1n。
3.根据权利要求2所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特
征在于, 所述S2包括:
S2‑1, 设置同等实体, 表示双方 数据库中用户的数据表示的是同一类实体的特 征数据;
S2‑2, 设置同等KEY, 表示在双方数据库中用的数据特征空间KEY取的是同一类唯一标
识;
S2‑3, 设置等效KEY, 表示在双方数据库中数据特征空间用的KEY调取的是不同种类的
唯一标识;
S2‑4, 设置关联实体, 表示在双方数据库中数据特征空间中的实体不是同一类实体; 但
是实体之间有1:1、 1:N 或N:1的关联关系, 关联关系可以通过同等KEY关联, 也可以通过等效
KEY关联。
S2‑5, 设置特征空间重叠, 表示在同等实体或者关联实体间有一个或多个特征数据表
示相同的属性。
4.根据权利要求3所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特
征在于, 所述S3包括:
S3‑1, 选择不同数据库间同等KEY或等效KEY重叠较高的同等实体或关联实体进行特征
空间建模, 使其在特征空间产生重叠; 即生成特征空间Zn={z1,z2,z3...zn}, 其中Zi=Xi
当Xi≈Yj或者Zi= Xi1*Xi2*...Xin
当Xi1*Xi2*...Xin≈Yj1*Yj2*...Yjm, n为特征空 间的
维度; 判断特征 空间重叠程度, 并且进 行特征变换和进一步的特征建模直到满足: 对于任意
实体i, 在特征空间Zn中, 与任意另一个实体j在特征空间的数据点不会处于同一个点, 即
{z1i, z2i, ....zni}不全等于{z1j,z2j,...znj}。 特征变换的方式包括特征拆箱, 特征拆箱
是特征分箱的逆过程,
S3‑2, 在第一数据库中数据进行数据划分, 符合圈定条件的用户数据给定目标变量设
置正样本为1, 不符合条件的用户数据给定目标变量设置负样本为0, 在与其它数据库中的权 利 要 求 书 1/2 页
2
CN 114398363 A
2用户数据特征空间进行重叠过程中, 对每个正样本和负样本的特征值, 产生特征空间中的
一个特征点, 如果出现了正样本与负样本在特征空间里是同一个点的情况, 需要对特征空
间进行升维或者增加特征值的区分度, 直到任何一个正样本与任意一个负样本不会在特征
空间里面是同一特 征点;
S3‑3, 重叠特征空间Zn建立好以后, 使用第一数据库在Zn中的特征点和目标变量训练
分类器模型; 并且使用第一数据库的数据验证模型精度, 使模型的精度Accuracy=(TN+
TP)/(TN+FN+TP+FP)=100%, 形成一个过拟合模型, 这个过拟合模型在特征空间形成了一
个闭合曲面将正负 样本分开。
5.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特
征在于, 还 包括准确性验证过程:
S‑A, 通过对第一数据库训练的过拟合模型后, 将该模型在第 二数据库中的数据中进行
分类运算, 对运算出的正样本群进行用户特 征画像, 并计算目标群列表TGI;
S‑B在第一数据库中数据样本中随机增加伪负样本, 即在过拟合模型的闭合空间的正
样本中添加负 样本, 且负 样本不与原来的正样本 重合; 并且重新进行 过拟合模型训练;
S‑C, 将新的过拟合模型按照S ‑A进行运行, 看新计算的TGI是否有变化; 如果该TGI一直
处于显著状态, 那么则认为该特征是显著的, 作为用户画像; 如果TGI不显著, 则不纳 入此次
用户画像;
S‑D, 如S‑B随机减少正样本的数量, 重复S ‑C, 查看TGI是否有明显变化; 如果该TGI一直
处于显著状态, 那么则认为该特征是显著的, 作为用户画像; 如果TGI不显著, 则不纳 入此次
用户画像;
对于多数据库用户联合画像, 按照以上 过程进行两 两数据库重 叠运算。
6.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特
征在于, 还 包括:
在第一数据库D1中用户1具体特 征数据表示 为key1(D1), x1 1, x12, x13. ...x1n;
通过每一具体用户特征数据, 所选取目标特征样本x1n∈X, X为第一数据库D1的用户特
征集合; x1n为第一数据库D1中第n个用户目标 特征样本;
确定特征样本的中的权重
T为决策树编号,
为第n个用户目标特征
样本标签提取值,
为第n个用户目标 特征样本标签预测值, λ为回归系数;
针对第一数据库中用户具体特 征数据集合进行预测推荐, 形成预测推荐公式:
设置在第n个用户目标特征中分为第一预估特征函数f(an)和第二预估特征函数f(bn),
设置两个预估特征函数的目的是用于对目标特征的收敛, 通过计算预估概率的距离D(f
(an)·f(bn))计算预估特 征的特征变化, 通过
特征因子进行 特征变化调节。权 利 要 求 书 2/2 页
3
CN 114398363 A
3
专利 一种基于过拟合分类器模型的多方数据联合用户画像方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:14:53上传分享