专利 一种基于过拟合分类器模型的多方数据联合用户画像方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111568359.5 (22)申请日 2021.12.21 (71)申请人重庆数聚魔方科技有限公司地址 401121 重庆市渝北区黄山大道中段 56号B1栋1 1楼1号房 (72)发明人李剑峰　程杰　郑济峰　 (74)专利代理机构重庆天成卓越专利代理事务所(普通合伙) 50240 代理人路宁 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2457(2019.01) G06F 16/2458(2019.01) G06N 20/00(2019.01) (54)发明名称一种基于过拟合分类器模型的多方数据联合用户画像方法 (57)摘要本发明提出了一种基于过拟合分类器模型的多方数据联合用户画像方法，包括如下步骤： S1，用户在不同数据库中生成不同的属性数据，针对不同的属性数据进行特征空间数据划分； S2，设置每个数据库用户数据的提取指令，对提取指令与相应的数据库用户数据进行特征空间数据匹配； S3，在匹配过程中判断特征空间重叠程度，根据某一数据库训练完成的用户数据分类模型对其他数据库进行用户特征分类，将处于同一分类的用户的特征空间进行合并后做用户画像。权利要求书2页说明书6页附图2页 CN 114398363 A 2022.04.26 CN 114398363 A 1.一种基于过拟合分类器模型的多方数据联合用户画像方法，其特征在于，包括如下步骤： S1，用户在不同数据库中生成不同的属性数据，针对不同的属性数据进行特征空间数据划分； S2，设置每个数据库用户数据的提取指令，对提取指令与相应的数据库用户数据进行特征空间数据匹配； S3，在匹配过程中判断特征空间重叠程度，根据某一数据库训练完成的用户数据分类模型对其他数据库进行用户特征分类，将处于同一分类的用户的特征空间进行合并后做用户画像。 2.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法，其特征在于，所述S1包括： S1‑1，在第一数据库D1中用户的属性数据特征空间是{KEY(D1),X1,X2,X3,....Xn}， Xn 为第一数据库中用户的第n个属性的特征数据，在第二数据库D2中用户的属性数据特征空间是{KEY(D2),Y1,Y2,Y 3,.....Yn}， Yn为第二数据库中用户的第n个属性的特征数据； S1‑2，用户1在D1中的具体特征数据表示为key1(D1)， x11， x12， x 13....x1n；用户1在D2 中的具体特征数据表示为key1(D2)， y1 1， y12， y13. ..y1n。 3.根据权利要求2所述的基于过拟合分类器模型的多方数据联合用户画像方法，其特征在于，所述S2包括： S2‑1，设置同等实体，表示双方数据库中用户的数据表示的是同一类实体的特征数据； S2‑2，设置同等KEY，表示在双方数据库中用的数据特征空间KEY取的是同一类唯一标识； S2‑3，设置等效KEY，表示在双方数据库中数据特征空间用的KEY调取的是不同种类的唯一标识； S2‑4，设置关联实体，表示在双方数据库中数据特征空间中的实体不是同一类实体；但是实体之间有1:1、 1:N 或N:1的关联关系，关联关系可以通过同等KEY关联，也可以通过等效 KEY关联。 S2‑5，设置特征空间重叠，表示在同等实体或者关联实体间有一个或多个特征数据表示相同的属性。 4.根据权利要求3所述的基于过拟合分类器模型的多方数据联合用户画像方法，其特征在于，所述S3包括： S3‑1，选择不同数据库间同等KEY或等效KEY重叠较高的同等实体或关联实体进行特征空间建模，使其在特征空间产生重叠；即生成特征空间Zn＝{z1,z2,z3...zn}，其中Zi＝Xi 当Xi≈Yj或者Zi＝ Xi1*Xi2*...Xin 当Xi1*Xi2*...Xin≈Yj1*Yj2*...Yjm， n为特征空间的维度；判断特征空间重叠程度，并且进行特征变换和进一步的特征建模直到满足：对于任意实体i，在特征空间Zn中，与任意另一个实体j在特征空间的数据点不会处于同一个点，即 {z1i， z2i， ....zni}不全等于{z1j,z2j,...znj}。特征变换的方式包括特征拆箱，特征拆箱是特征分箱的逆过程， S3‑2，在第一数据库中数据进行数据划分，符合圈定条件的用户数据给定目标变量设置正样本为1，不符合条件的用户数据给定目标变量设置负样本为0，在与其它数据库中的权　利　要　求　书 1/2 页 2 CN 114398363 A 2用户数据特征空间进行重叠过程中，对每个正样本和负样本的特征值，产生特征空间中的一个特征点，如果出现了正样本与负样本在特征空间里是同一个点的情况，需要对特征空间进行升维或者增加特征值的区分度，直到任何一个正样本与任意一个负样本不会在特征空间里面是同一特征点； S3‑3，重叠特征空间Zn建立好以后，使用第一数据库在Zn中的特征点和目标变量训练分类器模型；并且使用第一数据库的数据验证模型精度，使模型的精度Accuracy＝(TN+ TP)/(TN+FN+TP+FP)＝100％，形成一个过拟合模型，这个过拟合模型在特征空间形成了一个闭合曲面将正负样本分开。 5.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法，其特征在于，还包括准确性验证过程： S‑A，通过对第一数据库训练的过拟合模型后，将该模型在第二数据库中的数据中进行分类运算，对运算出的正样本群进行用户特征画像，并计算目标群列表TGI； S‑B在第一数据库中数据样本中随机增加伪负样本，即在过拟合模型的闭合空间的正样本中添加负样本，且负样本不与原来的正样本重合；并且重新进行过拟合模型训练； S‑C，将新的过拟合模型按照S ‑A进行运行，看新计算的TGI是否有变化；如果该TGI一直处于显著状态，那么则认为该特征是显著的，作为用户画像；如果TGI不显著，则不纳入此次用户画像； S‑D，如S‑B随机减少正样本的数量，重复S ‑C，查看TGI是否有明显变化；如果该TGI一直处于显著状态，那么则认为该特征是显著的，作为用户画像；如果TGI不显著，则不纳入此次用户画像；对于多数据库用户联合画像，按照以上过程进行两两数据库重叠运算。 6.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法，其特征在于，还包括：在第一数据库D1中用户1具体特征数据表示为key1(D1)， x1 1， x12， x13. ...x1n；通过每一具体用户特征数据，所选取目标特征样本x1n∈X， X为第一数据库D1的用户特征集合； x1n为第一数据库D1中第n个用户目标特征样本；确定特征样本的中的权重 T为决策树编号，为第n个用户目标特征样本标签提取值，为第n个用户目标特征样本标签预测值， λ为回归系数；针对第一数据库中用户具体特征数据集合进行预测推荐，形成预测推荐公式：设置在第n个用户目标特征中分为第一预估特征函数f(an)和第二预估特征函数f(bn)，设置两个预估特征函数的目的是用于对目标特征的收敛，通过计算预估概率的距离D(f (an)·f(bn))计算预估特征的特征变化，通过特征因子进行特征变化调节。权　利　要　求　书 2/2 页 3 CN 114398363 A 3

专利 一种基于过拟合分类器模型的多方数据联合用户画像方法

专利一种基于过拟合分类器模型的多方数据联合用户画像方法