(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111624648.2
(22)申请日 2021.12.28
(71)申请人 马上消费金融股份有限公司
地址 401120 重庆市渝北区黄山大道中段
52号渝兴广场B2栋4至8楼
(72)发明人 陈实 李宽 王洪斌 蒋宁
吴海英
(74)专利代理 机构 北京国昊天诚知识产权代理
有限公司 1 1315
专利代理师 张敏
(51)Int.Cl.
G06F 16/2457(2019.01)
G06F 16/28(2019.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
数据排序方法及装置
(57)摘要
本申请实施例提供了一种数据排序方法及
装置, 在各特征维度下的目标特征类别对应的多
个线上业务数据中, 分别选取第一数量的线上业
务数据, 再将选取的线上业务数据输入排序模
型, 得到相应的排序结果, 并基于排序结果确定
第二数量的待处理的目标业务事件, 即在每个特
征维度的目标特征类别下选取输入至排序模型
的线上业务数据, 由于目标特征类别对应的目标
精确率满足预设条件, 且目标精确率能够表征在
第一数量中预测正确的正样本的数量占比, 因此
在多个特征维度的目标特征类别下选取一定数
量的线上业务数据, 这样能够确保选取出更多的
正样本, 从而确保输入至排序模 型的第二业务数
据集中的正负样本的数量更加均衡, 进而提升排
序模型的topN精确率。
权利要求书3页 说明书26页 附图7页
CN 114490786 A
2022.05.13
CN 114490786 A
1.一种数据排序方法, 其特 征在于, 所述方法包括:
获取目标业务的第一业务数据集; 其中, 所述第 一业务数据集包括多个线上业务数据,
每个所述线上业 务数据包括多个特 征维度, 每 个所述特 征维度包括多个特 征类别;
针对每个所述特征维度, 在所述特征维度的目标特征类别下的多个所述线上业务数据
中, 选取第一数量的线 上业务数据; 其中, 所述目标特征类别是每个所述特征维度的所述多
个特征类别中目标精确率满足预设条件的特征类别, 每个所述特征类别对应于一个所述目
标精确率, 所述目标精确率用于表征在所述第一数量中预测正确的正样本的数量占比;
基于所述第一数量的线上业 务数据, 确定第二 业务数据集;
将所述第二业务数据集输入预先训练 的排序模型中, 得到所述线上业务数据的排序 结
果;
基于所述排序结果选取第二数量的线上业务数据对应的业务事件作为待处理的目标
业务事件。
2.根据权利要求1所述的方法, 其特征在于, 所述针对每个所述特征维度, 在所述特征
维度的目标 特征类别下的多个所述线上业 务数据中, 选取第一数量的线上业 务数据, 包括:
将多个所述线上业务数据输入预先训练的识别模型, 得到第 一预测结果; 其中, 所述第
一预测结果包括所述线上业 务数据在所述目标 特征类别下的预测概 率;
基于所述预测概率, 选取第 一数量的线上业务数据; 其中, 所述第一数量的线上业务数
据是对应所述预测概 率排序靠前的线上业 务数据。
3.根据权利要求1所述的方法, 其特征在于, 在获取目标业务的第一业务数据集之前,
还包括:
将第一训练样本集输入预先训练的识别模型, 得到第二预测结果, 所述第一训练样本
集包括多个模型训练样本; 其中, 每个所述模型训练样本包括所述多个特征维度, 所述第二
预测结果包括所述模型训练样本在对应特 征类别下的预测概 率;
针对每个所述特征维度, 在所述特征维度的所述多个特征类别中, 基于所述预测概率,
确定对应特征维度的目标特征类别; 其中, 所述 目标特征类别对应的目标精确 率高于所述
对应特征维度下的其 他特征类别对应的目标精确率; 以及,
在所述目标特征类别下的多个所述模型训练样本中, 选取第 三数量的所述模型训练样
本作为多个目标训练样本;
基于所述目标训练样本, 对排序模型进行训练, 得到训练的排序模型。
4.根据权利要求3所述的方法, 其特征在于, 所述针对每个所述特征维度, 在所述特征
维度下的所述多个特征类别中, 基于所述预测概率, 确定对应特征维度的目标特征类别, 包
括:
针对所述特征维度下的每个特征类别, 基于所述特征类别下的多个候选训练样本的所
述预测概率, 对所述多个候选训练样本进行排序, 得到第一排序结果; 其中, 所述候选训练
样本为所述第一训练样本集中的一个模型训练样本;
从所述多个候选训练样本中, 基于所述第一排序结果, 选取排序靠前的所述第三数量
的候选训练样本;
基于所述第 三数量的候选训练样本的真实标签和预测标签, 确定所述特征类别对应的
目标精确率; 其中, 所述预测标签是基于所述预测概 率确定的;权 利 要 求 书 1/3 页
2
CN 114490786 A
2基于所述多个特 征类别对应的所述目标精确率, 确定对应特 征维度的目标 特征类别。
5.根据权利要求4所述的方法, 其特征在于, 所述基于所述多个特征类别对应的所述目
标精确率, 确定对应特 征维度的目标 特征类别, 包括:
基于所述多个特征类别对应的所述目标精确率, 确定所述目标精确率最大值对应的所
述特征类别;
将确定出的所述特 征类别确定为对应特 征维度的目标 特征类别。
6.根据权利要求3所述的方法, 其特征在于, 在将第 一训练样本集输入预先训练 的识别
模型, 得到第二预测结果之前, 还 包括:
获取所述目标业务的第二训练样本集; 其中, 所述第二训练样本集包括多个模型训练
样本;
基于所述第二训练样本集, 对预设的分类模型进行训练, 得到训练后的分类模型;
将所述训练后的分类模型确定为预 先训练的识别模型。
7.根据权利要求3所述的方法, 其特征在于, 所述基于所述目标训练样本, 对排序模型
进行训练, 得到训练的排序模型之后, 还 包括:
获取所述目标业务的测试样本集; 其中, 所述测试样本集包括多个模型测试样本, 每个
所述模型测试样本包括多个特 征维度;
基于所述测试样本集, 对所述训练的排序模型进行指标评估, 得到指标评估结果;
若所述指标评估结果为通过, 则将所述训练 的排序模型确定为最终的预先训练 的排序
模型。
8.根据权利要求7所述的方法, 其特征在于, 所述基于所述测试样本集, 对所述训练的
排序模型进行指标评估, 得到指标评估结果, 包括:
将所述测试样本集输入预先训练的识别模型, 得到第 三预测结果; 其中, 所述第 三预测
结果包括所述模型测试样本在对应特 征类别下的预测概 率;
针对每个所述特征维度, 在所述特征维度的所述多个特征类别中, 基于所述预测概率,
确定对应特征维度的目标特征类别; 其中, 所述 目标特征类别对应的目标精确 率高于所述
对应特征维度下的其 他特征类别对应的目标精确率; 以及,
在所述目标特征类别下的多个所述模型测试样本中, 选取第四数量的所述模型测试样
本作为多个目标测试样本;
将所述目标测试样本 输入所述训练的排序模型, 得到第四预测结果;
基于所述第四预测结果, 确定所述排序模型的目标精确率, 以及将所述目标精确率确
定为指标评估结果。
9.根据权利要求3所述的方法, 其特征在于, 在针对每个所述特征维度, 在所述特征维
度的所述多个特征类别中, 基于所述预测概率, 确定对应特征维度的目标特征类别之前, 还
包括:
若所述特征维度的特征值为连续型数据, 则基于所述特征值的取值范围和所述特征维
度对应的属性特 征信息, 确定所述特 征维度的所述多个特 征类别;
若所述特征维度的特征值为离散型数据, 则基于所述特征值的取值分类, 确定所述特
征维度的所述多个特 征类别。
10.根据权利要求2所述的方法, 其特征在于, 所述基于所述预测概率, 选取第 一数量的权 利 要 求 书 2/3 页
3
CN 114490786 A
3
专利 数据排序方法及装置
文档预览
中文文档
37 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共37页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:17:39上传分享