说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111568359.5 (22)申请日 2021.12.21 (71)申请人 重庆数聚魔方科技有限公司 地址 401121 重庆市渝北区黄山大道中段 56号B1栋1 1楼1号房 (72)发明人 李剑峰 程杰 郑济峰  (74)专利代理 机构 重庆天成卓越专利代理事务 所(普通合伙) 50240 代理人 路宁 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2457(2019.01) G06F 16/2458(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于过拟合分类器模型的多方数据联 合用户画像方法 (57)摘要 本发明提出了一种基于过拟合分类器模型 的多方数据联合用户画像方法, 包括如下步骤: S1, 用户在不同数据库中生成不同的属性数据, 针对不同的属性数据进行特征空间数据划分; S2, 设置每个数据库用户数据的提取指令, 对提 取指令与相应的数据库用户数据进行特征空间 数据匹配; S3, 在匹配过程中判断特征空间重叠 程度, 根据某 一数据库训练完成的用户数据分类 模型对其他数据库进行用户特征分类, 将处于同 一分类的用户的特征空间进行合并后做用户画 像。 权利要求书2页 说明书6页 附图2页 CN 114398363 A 2022.04.26 CN 114398363 A 1.一种基于过拟合分类器模型的多方数据联合用户画像方法, 其特征在于, 包括如下 步骤: S1, 用户在不同数据库中生成不同的属性数据, 针对不同的属性数据进行特征空间数 据划分; S2, 设置每个数据库用户数据的提取指令, 对提取指令与相应的数据库用户数据进行 特征空间数据匹配; S3, 在匹配过程中判断特征空间重叠程度, 根据某一数据库训练完成的用户数据分类 模型对其他数据库进 行用户特征分类, 将处于同一分类的用户的特征 空间进行合并后做用 户画像。 2.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特 征在于, 所述S1包括: S1‑1, 在第一数据库D1中用户的属性数据特征空间是{KEY(D1),X1,X2,X3,....Xn}, Xn 为第一数据库中用户的第n个属性的特征数据, 在第二数据库D2中用户的属 性数据特征空 间是{KEY(D2),Y1,Y2,Y 3,.....Yn}, Yn为第二数据库中用户的第n个属性的特 征数据; S1‑2, 用户1在D1中的具体特征数据表示为key1(D1), x11, x12, x 13....x1n; 用户1在D2 中的具体特 征数据表示 为key1(D2), y1 1, y12, y13. ..y1n。 3.根据权利要求2所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特 征在于, 所述S2包括: S2‑1, 设置同等实体, 表示双方 数据库中用户的数据表示的是同一类实体的特 征数据; S2‑2, 设置同等KEY, 表示在双方数据库中用的数据特征空间KEY取的是同一类唯一标 识; S2‑3, 设置等效KEY, 表示在双方数据库中数据特征空间用的KEY调取的是不同种类的 唯一标识; S2‑4, 设置关联实体, 表示在双方数据库中数据特征空间中的实体不是同一类实体; 但 是实体之间有1:1、 1:N 或N:1的关联关系, 关联关系可以通过同等KEY关联, 也可以通过等效 KEY关联。 S2‑5, 设置特征空间重叠, 表示在同等实体或者关联实体间有一个或多个特征数据表 示相同的属性。 4.根据权利要求3所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特 征在于, 所述S3包括: S3‑1, 选择不同数据库间同等KEY或等效KEY重叠较高的同等实体或关联实体进行特征 空间建模, 使其在特征空间产生重叠; 即生成特征空间Zn={z1,z2,z3...zn}, 其中Zi=Xi 当Xi≈Yj或者Zi= Xi1*Xi2*...Xin 当Xi1*Xi2*...Xin≈Yj1*Yj2*...Yjm, n为特征空 间的 维度; 判断特征 空间重叠程度, 并且进 行特征变换和进一步的特征建模直到满足: 对于任意 实体i, 在特征空间Zn中, 与任意另一个实体j在特征空间的数据点不会处于同一个点, 即 {z1i, z2i, ....zni}不全等于{z1j,z2j,...znj}。 特征变换的方式包括特征拆箱, 特征拆箱 是特征分箱的逆过程, S3‑2, 在第一数据库中数据进行数据划分, 符合圈定条件的用户数据给定目标变量设 置正样本为1, 不符合条件的用户数据给定目标变量设置负样本为0, 在与其它数据库中的权 利 要 求 书 1/2 页 2 CN 114398363 A 2用户数据特征空间进行重叠过程中, 对每个正样本和负样本的特征值, 产生特征空间中的 一个特征点, 如果出现了正样本与负样本在特征空间里是同一个点的情况, 需要对特征空 间进行升维或者增加特征值的区分度, 直到任何一个正样本与任意一个负样本不会在特征 空间里面是同一特 征点; S3‑3, 重叠特征空间Zn建立好以后, 使用第一数据库在Zn中的特征点和目标变量训练 分类器模型; 并且使用第一数据库的数据验证模型精度, 使模型的精度Accuracy=(TN+ TP)/(TN+FN+TP+FP)=100%, 形成一个过拟合模型, 这个过拟合模型在特征空间形成了一 个闭合曲面将正负 样本分开。 5.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特 征在于, 还 包括准确性验证过程: S‑A, 通过对第一数据库训练的过拟合模型后, 将该模型在第 二数据库中的数据中进行 分类运算, 对运算出的正样本群进行用户特 征画像, 并计算目标群列表TGI; S‑B在第一数据库中数据样本中随机增加伪负样本, 即在过拟合模型的闭合空间的正 样本中添加负 样本, 且负 样本不与原来的正样本 重合; 并且重新进行 过拟合模型训练; S‑C, 将新的过拟合模型按照S ‑A进行运行, 看新计算的TGI是否有变化; 如果该TGI一直 处于显著状态, 那么则认为该特征是显著的, 作为用户画像; 如果TGI不显著, 则不纳 入此次 用户画像; S‑D, 如S‑B随机减少正样本的数量, 重复S ‑C, 查看TGI是否有明显变化; 如果该TGI一直 处于显著状态, 那么则认为该特征是显著的, 作为用户画像; 如果TGI不显著, 则不纳 入此次 用户画像; 对于多数据库用户联合画像, 按照以上 过程进行两 两数据库重 叠运算。 6.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法, 其特 征在于, 还 包括: 在第一数据库D1中用户1具体特 征数据表示 为key1(D1), x1 1, x12, x13. ...x1n; 通过每一具体用户特征数据, 所选取目标特征样本x1n∈X, X为第一数据库D1的用户特 征集合; x1n为第一数据库D1中第n个用户目标 特征样本; 确定特征样本的中的权重 T为决策树编号, 为第n个用户目标特征 样本标签提取值, 为第n个用户目标 特征样本标签预测值, λ为回归系数; 针对第一数据库中用户具体特 征数据集合进行预测推荐, 形成预测推荐公式: 设置在第n个用户目标特征中分为第一预估特征函数f(an)和第二预估特征函数f(bn), 设置两个预估特征函数的目的是用于对目标特征的收敛, 通过计算预估概率的距离D(f (an)·f(bn))计算预估特 征的特征变化, 通过 特征因子进行 特征变化调节。权 利 要 求 书 2/2 页 3 CN 114398363 A 3

.PDF文档 专利 一种基于过拟合分类器模型的多方数据联合用户画像方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于过拟合分类器模型的多方数据联合用户画像方法 第 1 页 专利 一种基于过拟合分类器模型的多方数据联合用户画像方法 第 2 页 专利 一种基于过拟合分类器模型的多方数据联合用户画像方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。