专利 一种对话处理方法及相关设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111542344.1 (22)申请日 2021.12.13 (71)申请人国网电子商务有限公司地址 100053 北京市西城区广安门内大街 311号申请人国网电商科技有限公司 (72)发明人李娜　郝怡　李凯强　李勇　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人李慧慧 (51)Int.Cl. G06F 40/35(2020.01) G06N 20/00(2019.01) (54)发明名称一种对话处理方法及相关设备 (57)摘要本发明公开了一种对话处理方法及相关设备，可以获得一句待回复文本，利用训练好的 Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理，获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本，目标回复文本有利于推动对话持续进行。本发明可以在进行人机对话时，有效避免万能回复和陷入死循环等问题，有效推动与用户的多轮对话，使得对话可以有效的持续下去。权利要求书1页说明书8页附图3页 CN 114201974 A 2022.03.18 CN 114201974 A 1.一种对话处理方法，其特征在于，包括：获得一句待回复文本；利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理，获得所述目标强化学习模型输出的与所述待回复文本相匹配的目标回复文本，所述目标回复文本有利于推动对话持续进行。 2.根据权利要求1所述的对话处理方法，其特征在于，所述利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理，包括：将所述待回复文本输入至所述Seq2Seq模型；获得所述Seq2Seq模型输出的第一文本信息；将所述第一文本信息输入至所述目标强化学习模型进行处理。 3.根据权利要求2所述的对话处理方法，其特征在于，所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本，对各所述候选回复文本的对话推动收益进行评估，将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。 4.一种对话处理装置，其特征在于，包括：第一获得单元、第一处理单元和第二获得单元；其中：所述第一获得单元，用于获得一句待回复文本；所述第一处理单元，用于利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理；所述第二获得单元，用于所述目标回复文本有利于推动对话持续进行。 5.根据权利要求4所述的对话处理装置，其特征在于，所述第一处理单元包括：第一输入单元、第三获得单元和第二输入单元；所述第一输入单元，用于将所述待回复文本输入至所述Seq2Seq模型；所述第三获得单元，用于获得所述Seq2Seq模型输出的第一文本信息；所述第二输入单元，用于将所述第一文本信息输入至所述目标强化学习模型进行处理。 6.根据权利要求5所述的对话处理装置，其特征在于，所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本，对各所述候选回复文本的对话推动收益进行评估，将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。 7.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1 ‑3中任一所述的对话处理方法。 8.一种处理器，所述处理器用于运行程序，其中，所述程序运行时实现如权利要求1 ‑3 中任一所述的对话处理方法。 9.一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1 ‑3中任一所述的对话处理方法。权　利　要　求　书 1/1 页 2 CN 114201974 A 2一种对话处理方法及相关设备技术领域 [0001]本发明涉及计算机科学与技术领域，尤其涉及一种对话处理方法及相关设备。背景技术 [0002]随着计算机科学与技术的发展，机器学习技术不断提高。 [0003]Seq2Seq模型为基于循环神经网络生成的机器学习模型，可以用于自然语言处理，进行人机对话。需要说明的是， Seq2Seq模型可以主要包括编码器和解码器两部分。现有技术可以将Seq2Seq模型应用在人机对话生成任务中，对用户询问的问题或者输入的信息生成响应文本并进行回复。 [0004]但是，现有技术在与用户进行多轮对话时，容易产生万能回复、陷入死循环等问题，无法有效的与用户进行多轮对话。发明内容 [0005]鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的对话处理方法及相关设备，技术方案如下： [0006]一种对话处理方法，包括： [0007]获得一句待回复文本； [0008]利用训练好的Se q2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理，获得所述目标强化学习模型输出的与所述待回复文本相匹配的目标回复文本，所述目标回复文本有利于推动对话持续进行。 [0009]可选的，所述利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理，包括： [0010]将所述待回复文本输入至所述Seq2Seq模型； [0011]获得所述Seq2Seq模型输出的第一文本信息； [0012]将所述第一文本信息输入至所述目标强化学习模型进行处理。 [0013]可选的，所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本，对各所述候选回复文本的对话推动收益进行评估，将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。 [0014]一种对话处理装置，包括：第一获得单元、第一处理单元和第二获得单元；其中： [0015]所述第一获得单元，用于获得一句待回复文本； [0016]所述第一处理单元，用于利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理； [0017]所述第二获得单元，用于所述目标回复文本有利于推动对话持续进行。 [0018]可选的，所述第一处理单元包括：第一输入单元、第三获得单元和第二输入单元； [0019]所述第一输入单元，用于将所述待回复文本输入至所述Seq2Seq模型； [0020]所述第三获得单元，用于获得所述Seq2Seq模型输出的第一文本信息；说　明　书 1/8 页 3 CN 114201974 A 3

专利 一种对话处理方法及相关设备

专利一种对话处理方法及相关设备