专利 训练用户相关的分类模型、进行用户分类的方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111603926.6 (22)申请日 2021.12.24 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人李辉　王维强　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 代理人陈霁　周良玉 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称训练用户相关的分类模型、进行用户分类的方法及装置 (57)摘要本说明书实施例提供一种训练用户相关的分类模型的方法和装置，其中方法包括，获取一批标注样本，各标注样本具有预先标注的、选自预定的K个类别的类别标签。此外还利用生成器，生成多个生成样本。将各标注样本输入用于进行 K+1个类别分类的分类器，得到第一预测结果，其正相关于各标注样本属于其对应类别标签的概率；其中，该K+1个类别包括前述K个类别和附加类别。还将生成样本输入分类器，得到第二预测结果，其正相关于生成样本属于附加类别的概率。以第二预测结果最小化为目标，对生成器进行第一更新；并以预设函数的函数值最大化为目标，对分类器进行第二更新，其中预设函数与第一预测结果和第二预测结果均正相关。权利要求书3页说明书9页附图3页 CN 114282684 A 2022.04.05 CN 114282684 A 1.一种训练用户相关的分类模型的方法，包括：获取一批标注样本，各标注样本包括与用户相关的特征信息，并具有预先标注的类别标签，所述类别标签选自预定的K个类别；利用生成器，生成多个生成样本；将各标注样本输入用于进行K+1个类别分类的分类器，得到第一预测结果，所述第一预测结果正相关于各标注样本属于其对应类别标签的第一概率；其中，所述K+1个类别包括所述K个类别和附加类别；将所述生成样本输入所述分类器，得到第二预测结果，所述第二预测结果正相关于所述生成样本属于所述附加类别的第二概率；以所述第二预测结果最小化为目标，对所述生成器进行第一更新；以预设函数的函数值最大化为目标，对所述分类器进行第二更新，其中所述预设函数与所述第一预测结果和第二预测结果均正相关。 2.根据权利要求1所述的方法，其中，所述特征信息包括以下中的至少一项：用户属性信息、用户行为序列、用户操作，所述用户操作包括登录操作，交易操作。 3.根据权利要求1所述的方法，其中，所述K个类别为，对应于风险样本的第一类别，和对应于无风险样本的第二类别。 4.根据权利要求1所述的方法，其中，利用生成器，生成多个生成样本，包括：将第一维度的噪声向量输入所述生成器，得到第二维度的生成向量，作为所述生成样本的表征向量；其中，所述第二维度与所述标注样本的表征向量维度相同。 5.根据权利要求1所述的方法，其中，得到第一预测结果，包括：获取所述标注样本属于所述K个类别的第三概率，以及属于所述附加类别的第四概率；根据所述第三概率和第四概率，确定所述第一预测结果，使得所述第一预测结果与所述第三概率正相关，与所述第四概率负相关。 6.根据权利要求1所述的方法，其中，所述预设函数为，所述第一预测结果和第二预测结果的加权求和。 7.根据权利要求1所述的方法，其中，所述第一更新和第二更新交替迭代执行。 8.一种用户相关的分类方法，包括：获取与用户相关的待测样本；将所述待测样本输入用于进行K+1个类别分类的分类器，得到预测输出，所述分类器通过权利要求1 ‑7中任一项的方法训练得到；所述K+1个类别包括预定的K个类别和一个附加类别；根据所述预测输出，确定所述待测样本的分类结果。 9.根据权利要求8所述的方法，其中，所述待测样本的特征信息包括以下中的至少一项：用户属性信息、用户行为序列、用户操作，所述用户操作包括登录操作，交易操作。 10.根据权利要求8所述的方法，其中，根据所述预测输出，确定所述待测样本的分类结果，包括：若所述预测输出指示所述K个类别之一，则将该指示的类别确定为所述分类结果；若所述预测输出指示所述附加类别，则将所述分类结果确定为，有待进一步明确的待定结果。权　利　要　求　书 1/3 页 2 CN 114282684 A 211.一种训练用户相关的分类模型的装置，包括：样本获取单元，配置为获取一批标注样本，各标注样本包括与用户相关的特征信息，并具有预先标注的类别标签，所述类别标签选自预定的K个类别；生成单元，配置为利用生成器，生成多个生成样本；第一预测单元，配置为将各标注样本输入用于进行K+1个类别分类的分类器，得到第一预测结果，所述第一预测结果正相关于各标注样本属于其对应类别标签的第一概率；其中，所述K+1个类别包括所述K个类别和附加类别；第二预测单元，配置为将所述生成样本输入所述分类器，得到第二预测结果，所述第二预测结果正相关于所述生成样本属于所述附加类别的第二概率；第一更新单元，配置为以所述第二预测结果最小化为目标，对所述生成器进行第一更新；第二更新单元，配置为以预设函数的函数值最大化为目标，对所述分类器进行第二更新，其中所述预设函数与所述第一预测结果和第二预测结果均正相关。 12.根据权利要求11所述的装置，其中，所述特征信息包括以下中的至少一项：用户属性信息、用户行为序列、用户操作，所述用户操作包括登录操作，交易操作。 13.根据权利要求11所述的装置，其中，所述K个类别为，对应于风险样本的第一类别，和对应于无风险样本的第二类别。 14.根据权利要求1 1所述的方法，其中，所述生成单元配置为：将第一维度的噪声向量输入所述生成器，得到第二维度的生成向量，作为所述生成样本的表征向量；其中，所述第二维度与所述标注样本的表征向量维度相同。 15.根据权利要求1 1所述的装置，其中，第一预测单元配置为：获取所述标注样本属于所述K个类别的第三概率，以及属于所述附加类别的第四概率；根据所述第三概率和第四概率，确定所述第一预测结果，使得所述第一预测结果与所述第三概率正相关，与所述第四概率负相关。 16.根据权利要求11所述的装置，其中，所述预设函数为，所述第一预测结果和第二预测结果的加权求和。 17.根据权利要求11所述的装置，其中，所述第一更新单元和第二更新单元配置为，交替迭代执行所述第一更新和第二更新。 18.一种用户相关的分类装置，包括：样本获取单元，配置为获取与用户相关的待测样本；预测单元，配置为将所述待测样本输入用于进行K+1个类别分类的分类器，得到预测输出，所述分类器利用权利要求11 ‑17中任一项的装置训练得到；所述K+1个类别包括预定的K 个类别和一个附加类别；结果确定单元，配置为根据所述预测输出，确定所述待测样本的分类结果。 19.根据权利要求18所述的装置，其中，所述待测样本的特征信息包括以下中的至少一项：用户属性信息、用户行为序列、用户操作，所述用户操作包括登录操作，交易操作。 20.根据权利要求18所述的装置，其中，所述结果确定单元配置为：若所述预测输出指示所述K个类别之一，则将该指示的类别确定为所述分类结果；若所述预测输出指示所述附加类别，则将所述分类结果确定为，有待进一步明确的待权　利　要　求　书 2/3 页 3 CN 114282684 A 3

专利 训练用户相关的分类模型、进行用户分类的方法及装置

专利训练用户相关的分类模型、进行用户分类的方法及装置