专利 排序模型的生成方法、排序方法、装置、设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111619376.7 (22)申请日 2021.12.27 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人庞海龙　宋丹丹　邓正凯　张玉东　张铮　 (74)专利代理机构北京易光知识产权代理有限公司 11596 代理人徐升升　金爱静 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06N 20/00(2019.01) (54)发明名称排序模型的生成方法、排序方法、装置、设备和存储介质 (57)摘要本公开提供了一种排序模型的生成方法、排序方法、装置、设备和存储介质，涉及数据处理技术领域，尤其涉及大数据、知识图谱、人工智能技术领域。具体实现方案为：将M个样本对的特征向量输入需要训练的排序模型， M为正整数；根据该 M个样本对的特征向量构成的目标函数，调整该需要训练的排序模型的参数，得到训练后的排序模型；其中，所述样本对包括针对同一问题的第一问答对和第二问答对，所述样本对的特征向量包括第一问答对的特征向量和第二问答对的特征向量，所述训练后的排序模型用于对需要排序的多个问答对进行排序。本公开实施例能够训练得到准确的训练后的排序模型，从而能够对多个需要排序的问答对进行合理地排序。权利要求书3页说明书13页附图7页 CN 114357132 A 2022.04.15 CN 114357132 A 1.一种排序模型的生成方法，包括：将M个样本对的特征向量输入需要训练的排序模型， M为正整数；根据所述M个样本对的特征向量构成的目标函数，调整所述需要训练的排序模型的参数，得到训练后的排序模型；其中，所述样本对包括针对同一问题的第一问答对和第二问答对，所述样本对的特征向量包括第一问答对的特征向量和第二问答对的特征向量，所述训练后的排序模型用于对需要排序的多个问答对进行排序。 2.根据权利要求1所述的方法，其中，所述第一问答对包括针对同一问题的正样本，所述第二问答对包括针对同一问题的负样本；所述第一问答对包括第一问题和针对所述第一问题的第一回答；所述第二问答对包括所述第一问题和针对所述第一问题的第二回答；其中，所述第一回答与所述第二回答不同。 3.根据权利要求1或2所述的方法，其中，所述目标函数包括从第i个样本对到第M个样本对的损失函数的连加结果， i的取值范围为从1到 M。 4.根据权利要求3所述的方法，其中，所述样本对的损失函数用于使得所述样本对中正样本的特征向量和负样本的特征向量的距离小于边界值。 5.根据权利要求1至4中任一项所述的方法，其中，所述样本对中正样本的特征向量包括所述正样本的文本特征向量，所述正样本的文本特征向量是由文本质量模型从所述正样本中提取的文本特征；所述样本对中负样本的特征向量包括所述负样本的文本特征向量，所述负样本的文本特征向量是由文本质量模型从所述负样本中提取的文本特征。 6.根据权利要求1至5中任一项所述的方法，其中，所述样本对中正样本的特征向量还包括所述正样本的用户特征向量，所述正样本的用户特征向量是由用户质量模型对所述正样本中的回答者信息进行用户识别得到的；所述样本对中负样本的特征向量还包括所述负样本的用户特征向量，所述负样本的用户特征向量是由用户质量模型对所述负样本中的回答者信息进行用户识别得到的。 7.根据权利要求1至6中任一项所述的方法，其中，所述样本对中正样本的特征向量还包括所述正样本的后验信息特征向量，所述正样本的后验信息特征向量是由后验信息模型对所述正样本中对于回答的后验信息进行统计得到的；所述样本对中负样本的特征向量还包括所述负样本的后验信息特征向量，所述负样本的后验信息特征向量是由后验信息模型对所述负样本中对于回答的后验信息进行统计得到的。 8.根据权利要求1至7中任一项所述的方法，其中，所述需要训练的排序模型和训练后的排序模型包括成对排序模型，所述成对排序模型中需要调整的参数包括以下至少之一：学习器类型、学习率、评估函数、每一轮迭代次数、叶子数量、每个叶子上包含的最少样本数量。 9.一种排序方法，包括：将需要排序的多个问答对的特征向量输入训练后的排序模型进行排序，得到排序结果；权　利　要　求　书 1/3 页 2 CN 114357132 A 2其中，所述训练后的排序模型包括采用权利要求1至8中任一项的方法得到的训练后的排序模型。 10.根据权利要求9所述的方法，还包括：将需要排序的多个问答对输入文本质量模型、用户质量模型和后验信息模型的至少之一，得到的每个所述问答对的特征向量包括以下之一或其组合：所述文本质量模型输出的文本特征向量；所述用户质量模型输出的用户特征向量；所述后验信息模型输出的后验信息特征向量。 11.根据权利要求10所述的方法，其中，所述训练后的模型为成对排序模型，将需要排序的多个问答对的特征向量输入训练后的排序模型进行排序，得到排序结果，包括：将多个所述问答对的文本特征向量、用户特征向量和后验信息特征向量的之一或其组合构成的所述问答对的特征向量，输入成对排序模型，得到所述成对排序模型输出的排序结果。 12.一种排序模型的生成装置，包括：输入模块，用于将M个样本对的特征向量输入需要训练的排序模型， M为正整数；参数调整模块，用于根据所述M个样本对的特征向量构成的目标函数，调整所述需要训练的排序模型的参数，得到训练后的排序模型；其中，所述样本对包括针对同一问题的第一问答对和第二问答对，所述样本对的特征向量包括第一问答对的特征向量和第二问答对的特征向量，所述训练后的排序模型用于对需要排序的多个问答对进行排序。 13.根据权利要求12所述的装置，其中，所述第一问答对包括针对同一问题的正样本，所述第二问答对包括针对同一问题的负样本；所述第一问答对包括第一问题和针对所述第一问题的第一回答；所述第二问答对包括所述第一问题和针对所述第一问题的第二回答；其中，所述第一回答与所述第二回答不同。 14.根据权利要求12或13所述的装置，其中，所述目标函数包括从第 i个样本对到第M个样本对的损失函数的连加结果， i的取值范围为从1到 M。 15.根据权利要求14所述的装置，其中，所述样本对的损失函数用于使得所述样本对中正样本的特征向量和负样本的特征向量的距离小于边界值。 16.根据权利要求12至15中任一项所述的装置，其中，所述样本对中正样本的特征向量包括所述正样本的文本特征向量，所述正样本的文本特征向量是由文本质量模型从所述正样本中提取的文本特征；所述样本对中负样本的特征向量包括所述负样本的文本特征向量，所述负样本的文本特征向量是由文本质量模型从所述负样本中提取的文本特征。 17.根据权利要求12至16中任一项所述的装置，其中，所述样本对中正样本的特征向量还包括所述正样本的用户特征向量，所述正样本的用户特征向量是由用户质量模型对所述正样本中的回答者信息进行用户识别得到的；所述样本对中负样本的特征向量还包括所述负样本的用户特征向量，所述负样本的用户特征向量是由用户质量模型对所述负样本中的回答者信息进行用户识别得到的。权　利　要　求　书 2/3 页 3 CN 114357132 A 3

专利 排序模型的生成方法、排序方法、装置、设备和存储介质

专利排序模型的生成方法、排序方法、装置、设备和存储介质