全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111542344.1 (22)申请日 2021.12.13 (71)申请人 国网电子商务有限公司 地址 100053 北京市西城区广安门内大街 311号 申请人 国网电商科技有限公司 (72)发明人 李娜 郝怡 李凯强 李勇  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 李慧慧 (51)Int.Cl. G06F 40/35(2020.01) G06N 20/00(2019.01) (54)发明名称 一种对话处 理方法及相关 设备 (57)摘要 本发明公开了一种对话处理方法及相关设 备, 可以获得一句待回复文本, 利用训练好的 Seq2Seq模型和训练好的目标 强化学习模型对待 回复文本进行处理, 获得目标 强化学习模型输出 的与待回复文本相匹配的目标回复文本, 目标回 复文本有利于推动对话持续进行。 本发明可以在 进行人机对话时, 有效避免万能回复和陷入 死循 环等问题, 有效推动与用户的多轮对话, 使得对 话可以有效的持续下去。 权利要求书1页 说明书8页 附图3页 CN 114201974 A 2022.03.18 CN 114201974 A 1.一种对话处 理方法, 其特 征在于, 包括: 获得一句待回复文本; 利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处 理, 获得所述 目标强化学习模型输出 的与所述待回复文本相匹配的目标回复文本, 所述 目 标回复文本有利于推动对话持续进行。 2.根据权利要求1所述的对话处理方法, 其特征在于, 所述利用训练好的Seq2Seq模型 和训练好的目标强化学习模型对所述待回复文本进行处 理, 包括: 将所述待回复文本 输入至所述Seq2Seq模型; 获得所述Seq2Seq模型输出的第一文本信息; 将所述第一文本信息 输入至所述目标强化学习模型进行处 理。 3.根据权利要求2所述的对话处理方法, 其特征在于, 所述目标强化学习 模型基于所述 第一文本信息确定至少一条候选回复文本, 对 各所述候选回复文本的对话推动收益进 行评 估, 将对话推动收益 最大的所述 候选回复文本确定为所述目标回复文本 。 4.一种对话处理装置, 其特征在于, 包括: 第一获得单元、 第一处理单元和第二获得单 元; 其中: 所述第一获得 单元, 用于获得一句待回复文本; 所述第一处理单元, 用于利用训练好的Seq2Seq模型和训练好的目标强化学习模型对 所述待回复文本进行处 理; 所述第二获得 单元, 用于所述目标回复文本有利于推动对话持续进行。 5.根据权利要求4所述的对话处理装置, 其特征在于, 所述第一处理单元包括: 第一输 入单元、 第三获得 单元和第二输入单 元; 所述第一输入单 元, 用于将所述待回复文本 输入至所述Seq2Seq模型; 所述第三获得 单元, 用于获得 所述Seq2Seq模型输出的第一文本信息; 所述第二输入单元, 用于将所述第一文本信息输入至所述目标强化学习模型进行处 理。 6.根据权利要求5所述的对话处理装置, 其特征在于, 所述目标强化学习 模型基于所述 第一文本信息确定至少一条候选回复文本, 对 各所述候选回复文本的对话推动收益进 行评 估, 将对话推动收益 最大的所述 候选回复文本确定为所述目标回复文本 。 7.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行时实现 如权利要求1 ‑3中任一所述的对话处 理方法。 8.一种处理器, 所述处理器用于运行程序, 其中, 所述程序运行时实现如权利要求1 ‑3 中任一所述的对话处 理方法。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个处理器 实现如权利要求1 ‑3中任一所述的对话处 理方法。权 利 要 求 书 1/1 页 2 CN 114201974 A 2一种对话 处理方法及相关设 备 技术领域 [0001]本发明涉及计算机科 学与技术领域, 尤其涉及一种对话处 理方法及相关 设备。 背景技术 [0002]随着计算机科 学与技术的发展, 机器学习技 术不断提高。 [0003]Seq2Seq模型为基于循环神经 网络生成的机器学习模型, 可以用于自然语言处理, 进行人机对话。 需要说明的是, Seq2Seq模型可以主要包括编码器和解码器两部分。 现有技 术可以将Seq2Seq模型应用在人机对话生成任务中, 对用户询问的问题或者输入的信息生 成响应文本并进行回复。 [0004]但是, 现有技术在与用户进行多轮对话时, 容易产生万能回复、 陷入死循环等问 题, 无法有效的与用户进行多轮对话。 发明内容 [0005]鉴于上述问题, 本发明提供一种克服上述问题或者至少部分地解决上述问题的对 话处理方法及相关 设备, 技术方案如下: [0006]一种对话处 理方法, 包括: [0007]获得一句待回复文本; [0008]利用训练好的Se q2Seq模型和训练好的目标强化学习模型对所述待回复文本进行 处理, 获得所述目标强化学习模型输出 的与所述待回复文本相匹配的目标回复文本, 所述 目标回复文本有利于推动对话持续进行。 [0009]可选的, 所述利用训练好 的Seq2Seq模型和训练好 的目标强化学习模型对所述待 回复文本进行处 理, 包括: [0010]将所述待回复文本 输入至所述Seq2Seq模型; [0011]获得所述Seq2Seq模型输出的第一文本信息; [0012]将所述第一文本信息 输入至所述目标强化学习模型进行处 理。 [0013]可选的, 所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文 本, 对各所述候选回复文本的对话推动收益进行评估, 将对话推动收益最大 的所述候选回 复文本确定为所述目标回复文本 。 [0014]一种对话处 理装置, 包括: 第一获得 单元、 第一处 理单元和第二获得 单元; 其中: [0015]所述第一获得 单元, 用于获得一句待回复文本; [0016]所述第一处理单元, 用于利用训练好 的Seq2Seq模型和训练好 的目标强化学习模 型对所述待回复文本进行处 理; [0017]所述第二获得 单元, 用于所述目标回复文本有利于推动对话持续进行。 [0018]可选的, 所述第一处 理单元包括: 第一输入单 元、 第三获得 单元和第二输入单 元; [0019]所述第一输入单 元, 用于将所述待回复文本 输入至所述Seq2Seq模型; [0020]所述第三获得 单元, 用于获得 所述Seq2Seq模型输出的第一文本信息;说 明 书 1/8 页 3 CN 114201974 A 3

.PDF文档 专利 一种对话处理方法及相关设备

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种对话处理方法及相关设备 第 1 页 专利 一种对话处理方法及相关设备 第 2 页 专利 一种对话处理方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:15:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。