(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111603926.6
(22)申请日 2021.12.24
(71)申请人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 李辉 王维强
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
代理人 陈霁 周良玉
(51)Int.Cl.
G06N 20/00(2019.01)
G06N 3/08(2006.01)
(54)发明名称
训练用户相关的分类模 型、 进行用户分类的
方法及装置
(57)摘要
本说明书实施例提供一种训练用户相关的
分类模型的方法和装置, 其中方法包括, 获取一
批标注样本, 各标注样本具有预先标注的、 选自
预定的K个类别的类别标签。 此外还利用生成器,
生成多个生成样本。 将各标注样 本输入用于进行
K+1个类别分类的分类器, 得到第一预测结果, 其
正相关于各标注样本属于其对应类别标签的概
率; 其中, 该K+1个类别包括前述K个类别和附加
类别。 还将生成样本输入分类器, 得到第二预测
结果, 其正相关于生成样本属于附加类别的概
率。 以第二预测结果最小化为目标, 对生成器进
行第一更新; 并以预设函数的函数值最大化为目
标, 对分类器进行第二更新, 其中预设函数与第
一预测结果和第二预测结果均正相关。
权利要求书3页 说明书9页 附图3页
CN 114282684 A
2022.04.05
CN 114282684 A
1.一种训练用户相关的分类模型的方法, 包括:
获取一批标注样本, 各标注样本包括与用户相关的特征信息, 并具有预先标注的类别
标签, 所述类别标签选自预定的K个 类别;
利用生成器, 生成多个生成样本;
将各标注样本输入用于进行K+1个类别分类的分类器, 得到第 一预测结果, 所述第一预
测结果正相关于各标注样本属于其对应类别标签的第一概率; 其中, 所述K+1个类别包括所
述K个类别和附加类别;
将所述生成样本输入所述分类器, 得到第二预测结果, 所述第二预测结果正相关于所
述生成样本属于所述附加类别的第二 概率;
以所述第二预测结果 最小化为目标, 对所述 生成器进行第一更新;
以预设函数的函数值最大化为目标, 对所述分类器进行第二更新, 其中所述预设函数
与所述第一预测结果和第二预测结果均正相关。
2.根据权利要求1所述的方法, 其中, 所述特征信息包括以下中的至少一项: 用户 属性
信息、 用户行为序列、 用户操作, 所述用户操作包括登录操作, 交易操作。
3.根据权利要求1所述的方法, 其中, 所述K个类别为, 对应于风险样本的第一类别, 和
对应于无风险样本的第二类别。
4.根据权利要求1所述的方法, 其中, 利用生成器, 生成多个生成样本, 包括:
将第一维度的噪声向量输入所述生成器, 得到第二维度的生成向量, 作为所述生成样
本的表征向量; 其中, 所述第二维度与所述标注样本的表征向量维度相同。
5.根据权利要求1所述的方法, 其中, 得到第一预测结果, 包括:
获取所述标注样本属于所述K个 类别的第三 概率, 以及属于所述附加类别的第四概 率;
根据所述第三概率和第 四概率, 确定所述第一预测结果, 使得所述第一预测结果与所
述第三概率正相关, 与所述第四概 率负相关。
6.根据权利要求1所述的方法, 其中, 所述预设函数为, 所述第一预测结果和第二预测
结果的加权求和。
7.根据权利要求1所述的方法, 其中, 所述第一更新和第二更新交替迭代执 行。
8.一种用户相关的分类方法, 包括:
获取与用户相关的待测样本;
将所述待测样本输入用于进行K+1个类别分类的分类器, 得到预测输出, 所述分类器通
过权利要求1 ‑7中任一项的方法训练得到; 所述K+1个类别包括预定的K个类别和一个附加
类别;
根据所述预测输出, 确定所述待测样本的分类结果。
9.根据权利要求8所述的方法, 其中, 所述待测样本的特征信息包括以下中的至少一
项: 用户属性信息、 用户行为序列、 用户操作, 所述用户操作包括登录操作, 交易操作。
10.根据权利要求8所述的方法, 其中, 根据 所述预测输出, 确定所述待测样本的分类结
果, 包括:
若所述预测输出指示所述K个 类别之一, 则将该指示的类别确定为所述分类结果;
若所述预测输出指示所述附加类别, 则将所述分类结果确定为, 有待进一步明确的待
定结果。权 利 要 求 书 1/3 页
2
CN 114282684 A
211.一种训练用户相关的分类模型的装置, 包括:
样本获取单元, 配置为获取一批标注样本, 各标注样本包括与用户相关的特征信 息, 并
具有预先标注的类别标签, 所述类别标签选自预定的K个 类别;
生成单元, 配置为利用生成器, 生成多个生成样本;
第一预测单元, 配置为将各标注样本输入用于进行K+1个类别分类的分类器, 得到第一
预测结果, 所述第一预测结果正相关于各标注样本属于其对应类别标签的第一概率; 其中,
所述K+1个 类别包括所述K个 类别和附加类别;
第二预测单元, 配置为将所述生成样本输入所述分类器, 得到第二预测结果, 所述第二
预测结果 正相关于所述 生成样本属于所述附加类别的第二 概率;
第一更新单元, 配置为以所述第二预测结果最小化为目标, 对所述生成器进行第一更
新;
第二更新单元, 配置为以预设函数的函数值最大化为目标, 对所述分类器进行第二更
新, 其中所述预设函数与所述第一预测结果和第二预测结果均正相关。
12.根据权利要求11所述的装置, 其中, 所述特征信息包括以下中的至少一项: 用户 属
性信息、 用户行为序列、 用户操作, 所述用户操作包括登录操作, 交易操作。
13.根据权利要求11所述的装置, 其中, 所述K个类别为, 对应于风险样本的第一类别,
和对应于无风险样本的第二类别。
14.根据权利要求1 1所述的方法, 其中, 所述 生成单元配置为:
将第一维度的噪声向量输入所述生成器, 得到第二维度的生成向量, 作为所述生成样
本的表征向量; 其中, 所述第二维度与所述标注样本的表征向量维度相同。
15.根据权利要求1 1所述的装置, 其中, 第一预测单 元配置为:
获取所述标注样本属于所述K个 类别的第三 概率, 以及属于所述附加类别的第四概 率;
根据所述第三概率和第 四概率, 确定所述第一预测结果, 使得所述第一预测结果与所
述第三概率正相关, 与所述第四概 率负相关。
16.根据权利要求11所述的装置, 其中, 所述预设函数为, 所述第一预测结果和第二预
测结果的加权求和。
17.根据权利要求11所述的装置, 其中, 所述第一更新单元和第二更新单元配置为, 交
替迭代执 行所述第一更新和第二更新。
18.一种用户相关的分类装置, 包括:
样本获取 单元, 配置为获取与用户相关的待测样本;
预测单元, 配置为将所述待测 样本输入用于进行K+1个类别分类的分类器, 得到预测输
出, 所述分类器利用权利要求11 ‑17中任一项的装置训练得到; 所述K+1个类别包括预定的K
个类别和一个附加类别;
结果确定单 元, 配置为 根据所述预测输出, 确定所述待测样本的分类结果。
19.根据权利要求18所述的装置, 其中, 所述待测样本的特征信 息包括以下中的至少一
项: 用户属性信息、 用户行为序列、 用户操作, 所述用户操作包括登录操作, 交易操作。
20.根据权利要求18所述的装置, 其中, 所述结果确定单 元配置为:
若所述预测输出指示所述K个 类别之一, 则将该指示的类别确定为所述分类结果;
若所述预测输出指示所述附加类别, 则将所述分类结果确定为, 有待进一步明确的待权 利 要 求 书 2/3 页
3
CN 114282684 A
3
专利 训练用户相关的分类模型、进行用户分类的方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:18:14上传分享