说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111613316.4 (22)申请日 2021.12.27 (71)申请人 深圳集智数字科技有限公司 地址 518000 广东省深圳市南 山区南山街 道南山社区南 新路1003号103 (72)发明人 蒋佩钊 (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 代理人 陈俊宏 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9536(2019.01) G06Q 50/00(2012.01) G06N 20/00(2019.01) (54)发明名称 潜在用户挖掘方法及装置 (57)摘要 本公开涉及数据处理技术领域, 提供了一种 潜在用户挖掘方法及装置。 该方法包括: 通过对 第一数据集进行处理, 得到第二数据集; 其中, 该 第二数据集所描述的特征范围不大于该第一数 据集所描述的特征范围, 该第一数据集和该第二 数据集包括以下至少之一: 用户行为数据、 项目 信息、 用户到访信息; 通过该第二数据集训练模 型, 得到目标模型, 其中, 该目标模型为通过机器 学习方式建立的模型; 通过该目标模 型确定潜在 用户。 通过本公开实施例解决了相关技术中采用 CTR模型挖掘潜在用户, 导致潜在用户挖掘准确 率较低的技术问题, 进而达到提高潜在用户挖掘 准确率的技 术效果。 权利要求书2页 说明书14页 附图8页 CN 114428900 A 2022.05.03 CN 114428900 A 1.一种潜在用户挖掘方法, 其特 征在于, 包括: 对第一数据集进行处理, 得到第 二数据集; 其中, 所述第 二数据集所描述的特征范围不 大于所述第一数据集所描述的特征范围, 所述第一数据集和所述第二数据集包括以下至少 之一: 用户行为数据、 项目信息、 用户到访信息; 通过所述第 二数据集训练模型, 得到目标模型, 其中, 所述目标模型为通过机器学习方 式建立的模型; 通过所述目标模型确定潜在用户。 2.根据权利要求1所述的方法, 其特征在于, 对第一数据集进行处理, 得到第二数据集 包括: 将所述第一数据集按照时间顺序划分为第一训练集、 第一验证集、 第一测试集; 获取所述第 一训练集与所述第 一验证集的分布差异度, 并通过所述分布差异度过滤所 述第一数据集, 得到所述第二数据集。 3.根据权利要求2所述的方法, 其特征在于, 所述获取所述第 一训练集与所述第 一验证 集的分布差异度, 并通过 所述分布差异度过 滤所述第一数据集, 得到所述第二数据集包括: 将所述第一训练集和所述第一验证集进行拼接, 得到第三数据集; 将所述第三数据集中第 一比例的数据作为第 二训练集, 将所述第 三数据集中第 二比例 的数据作为第二测试集; 重复执行以下步骤, 直至接收者操作特征曲线下面积ROC_AUC小于第一阈值: 创建分类 器, 并获取所述分类器的ROC_AUC和最重要特征; 判断所述ROC_AUC是否小于所述第一阈值; 其中, 所述最重要特征为在每个特征 的所有分类中带来的平均增 益最高的特征, 所述特征 和所述第三数据集中的数据对应。 4.根据权利要求3所述的方法, 其特征在于, 所述对第一数据集进行处理, 得到第二数 据集还包括: 增加比例特征, 其中, 所述比例特征用于描述所述第一数据集和所述第二数据集所指 示的数据占对应的总的数据的比例。 5.根据权利要求4所述的方法, 其特征在于, 通过所述第二数据集训练模型, 得到目标 模型包括: 定义评估函数par tial PR_AUC; 给定分类模型超参数, 通过所述分类模型在所述第二训练集上建立模型, 使用第二验 证集做训练迭代的早停; 判断所述模型的par tial PR_AUC在所述第二验证集上 是否提升; 如果所述模型的partial PR_AUC在所述第二验证集上不再提升, 则停止训练, 得到最 终的partial PR_AUC值; 判断当前搜索次数 是否达到最大超参搜索次数; 在判断结果为是的情况下, 使用所述最终的partial PR_AUC值和对应 的超参数, 训练 得到所述目标模型。 6.根据权利要求5所述的方法, 其特 征在于, 定义评估函数par tial PR_AUC包括: 计算出所有预测值对应的准确率P和召回率R; 判断所述召回率R等于第二阈值的值是否存在, 如果不存在, 获取所述召回率R小于所权 利 要 求 书 1/2 页 2 CN 114428900 A 2述第二阈值和大于所述第二阈值的最邻近数值, 将新 坐标放入到PR坐标点列表; 通过以下公式(1)计算出 所述召回率R为所述第二阈值的准确率: 选择所述PR坐标点列表中召回率小于等于所述第二阈值的点, 并通过如下公式(2)计 算所述par tial PR_AUC: pPR_AUC=∑i(Ri‑Ri‑1)Pi (2)。 7.根据权利要求6所述的方法, 其特征在于, 计算出所述召回率R为所述第二阈值的准 确率还包括: 将大于所述第二阈值的最邻近数值设置为所述 准确率。 8.根据权利要求3所述的方法, 其特 征在于, 通过 所述目标模型确定潜在用户包括: 使用所述目标模型 预测所述第二测试集用户到访概 率; 选择所述用户到访概况 大于第三阈值的用户作为所述潜在用户。 9.根据权利要求3所述的方法, 其特 征在于, 所述分类 器包括以下至少之一: Lightgbm分类器、 决策树分类 器、 随机森林分类 器、 xgboost分类器、 逻辑回归分类 器。 10.根据权利要求5所述的方法, 其特 征在于, 所述分类模型包括以下模型至少之一: 使用lightgbm建立的模型、 xgbo ost分类模型、 de epfm分类模型。 11.根据权利要求5所述的方法, 其特 征在于, 所述超参搜索包括以下至少之一: 随机搜索、 网格搜索、 贝叶斯搜索。 12.一种潜在用户挖掘装置, 其特 征在于, 包括: 第一获取模块, 用于对第一数据集进行处理, 得到第二数据集; 其中, 所述第二数据集 所描述的特征范围不大于所述第一数据集所描述的特征范围, 所述第一数据集和所述第二 数据集包括以下至少之一: 用户行为数据、 项目信息、 用户到访信息; 第二获取模块, 用于通过所述第二数据集训练模型, 得到目标模型, 其中, 所述目标模 型为通过机器学习方式建立的模型; 确定模块, 用于通过 所述目标模型确定潜在用户。 13.一种电子设备, 包括存储器、 处理器以及存储在所述存储器中并且可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 11中任一项所述方法的步骤。 14.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至1 1中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114428900 A 3
专利 潜在用户挖掘方法及装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 23:17:52
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
T-ZSFX 007—2020 中山装工业化生产技术规范.pdf
T-CCPS 0001—2023 易学文化水平测试标准.pdf
GB-T 25068.3-2022 信息技术 安全技术 网络安全 第3部分:面向网络接入场景的威胁、设计技术和控制.pdf
GB-T 16433-2009 残疾人田径运动员医学和功能分级.pdf
GB-T 34520.5-2017 连续碳化硅纤维测试方法 第5部分:单纤维拉伸性能.pdf
GB 2890-2022 呼吸防护 自吸过滤式防毒面具.pdf
T-CSAC 004—2023 网络靶场 试验任务导调总体要求.pdf
GM-T 0045-2016 金融数据密码技术规范.pdf
GB-T 42078-2022 化工园区开发建设导则.pdf
GB-T 40711.1-2022 乘用车循环外技术-装置节能效果评价方法 第1部分:换挡提醒装置.pdf
DB63-T1868-2020 市场监管信息系统运维规范 青海省.pdf
华为AI盘古大模型研究框架.pdf
中国信通院郭雪 交互式应用程序安全测试工具能力要求 标准解读 2021.pdf
GB-T 30275-2013 信息安全技术 鉴别与授权 认证中间件框架与接口规范.pdf
GB-T 22653-2008 液化气体设备用紧急切断阀.pdf
GB-T 42548-2023 海洋调查船舶舷外调查设备布放与回收安全管理规范.pdf
GB-T 41767-2022 聚合物基复合材料吸湿性能及平衡状态调节试验方法.pdf
GB-T 14227-2006 城市轨道交通车站站台声学要求和测量方法.pdf
GoogleCloud 自动化安全运营中心soc建设指南 OfficeofCISO AutonomicSecurityOperations 10x 英文 .pdf
GB-T 411-2017 棉印染布.pdf
1
/
3
25
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。