(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211332377.8
(22)申请日 2022.10.28
(71)申请人 广州小鹏汽车 科技有限公司
地址 510000 广东省广州市天河区岑村松
岗大街8号
(72)发明人 唐祥光 胡梓垣 孙仿逊 左佑
鲍鹏丽 王合心
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 雷玉龙
(51)Int.Cl.
G10L 15/26(2006.01)
G06F 40/30(2020.01)
G10L 15/34(2013.01)
B60R 16/037(2006.01)
(54)发明名称
语音交互方法、 语音交互装置、 车辆和可读
存储介质
(57)摘要
本发明公开了一种语音交互方法、 语音交互
装置、 车辆和可读存储介质, 属于车载语音交互
技术领域。 所述语音交互方法, 包括: 获取本地端
确定的至少一路第一对话结果; 对第一对话结果
进行分级处理, 确定各第一对话结果对应的融合
等级; 在未接收到云端发送的第二对话结果, 且
将第一对话结果对应的融合等级确定为最高级
的情况下, 将最高级对应的第一对话结果确定为
目标对话结果; 在接收到云端发送的第二对话结
果的情况下, 将第二对话结果确定为目标对话结
果; 按目标对话结果执行语音交互。 本发明的语
音交互方法, 能在保证识别准确性的同时, 提高
语音交互系统的响应速度及灵敏性, 在保证准确
性的同时体验更 快, 实现极速对话。
权利要求书2页 说明书16页 附图4页
CN 115394300 A
2022.11.25
CN 115394300 A
1.一种语音交 互方法, 其特 征在于, 包括:
获取本地端确定的至少一路第一对话结果; 所述本地端包括至少一个支路, 各所述支
路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结果, 各所述支路的计算
时延不同;
对所述第一对话结果进行分级处 理, 确定各 所述第一对话结果对应的融合 等级;
在未接收到云端发送的第 二对话结果, 且将所述第 一对话结果对应的融合等级确定为
最高级的情况 下, 将所述 最高级对应的第一对话结果确定为目标对话结果;
在接收到云端发送的第 二对话结果的情况下, 将所述第 二对话结果确定为目标对话结
果;
按所述目标对话结果执 行语音交 互;
其中, 所述第二对话结果 为所述云端基于所述用户语音请求确定的。
2.根据权利要求1所述的语音交互方法, 其特征在于, 在所述用户语音请求包括多个连
续的子语音请求的情况下, 所述对所述第一对话结果进行分级处理, 确定各所述第一对话
结果对应的融合 等级, 包括:
在第一目标子对话结果为所述云端识别的结果的情况下, 确定第 二目标子对话结果对
应的融合 等级为第二级;
在第一目标子对话结果为所述本地端识别的结果的情况下, 确定第 二目标子对话结果
对应的融合 等级为所述 最高级;
其中, 所述第一目标子对话结果为第一目标子语音请求对应的目标对话结果, 所述第
二目标子对话结果为第二目标子语音请求对应的第一对话结果, 所述第一目标子语音请求
为所述多个连续的子语音请求中, 位于所述第二 目标子语音请求之前, 且与所述第二 目标
子语音请求相邻的子语音请求。
3.根据权利要求1所述的语音交互方法, 其特征在于, 所述对所述第 一对话结果进行分
级处理, 确定各 所述第一对话结果对应的融合 等级, 包括:
对所述第一对话结果进行基于文本识别结果和所述第一对话结果中的至少一种结果
的分级处 理, 确定所述第一对话结果对应的融合 等级;
其中, 所述文本识别结果为对所述用户语音请求进行文本识别确定的, 所述第一对话
结果为对所述文本识别结果进行语义理解确定的。
4.根据权利要求3所述的语音交互方法, 其特征在于, 所述对所述第 一对话结果进行基
于文本识别结果和所述第一对话结果中的至少一种结果的分级处理, 确定所述第一对话结
果对应的融合 等级, 包括:
获取所述文本识别结果中的文本识别置信度和文本识别清晰度, 获取所述第 一对话结
果中的领域、 所述领域对应的第一置信度、 意图和所述 意图对应的第二置信度;
基于所述文本识别置信度、 文本识别清晰度、 所述领域、 所述第一置信度、 所述意图和
所述第二置信度中的至少两种, 确定所述第一对话结果对应的融合 等级。
5.根据权利要求1 ‑4任一项所述的语音交互方法, 其特征在于, 在所述获取本地端确定
的至少一路第一对话结果之后, 且在所述对所述第一对话结果进行分级处理, 确定各所述
第一对话结果对应的融合 等级之前, 所述方法还 包括:
基于所述第 一对话结果, 确定所述第 一对话结果对应的频率等级和所述第 一对话结果权 利 要 求 书 1/2 页
2
CN 115394300 A
2对应的可信度;
在所述可信度大于目标阈值, 且所述频率等级为最高频的情况下, 确定所述第一对话
结果对应的融合 等级为所述 最高级。
6.根据权利要求5所述的语音交互方法, 其特征在于, 所述基于所述第一对话结果, 确
定所述第一对话结果对应的频率 等级和所述第一对话结果对应的可信度, 包括:
获取文本识别结果中的文本识别清晰度, 获取所述第 一对话结果中的领域对应的第 一
置信度、 意图对应的第二置信度和所述用户语音请求; 其中, 所述文本识别结果为对所述用
户语音请求进行文本识别确定的;
采用前缀 树匹配所述用户语音请求, 确定所述频率 等级;
基于所述文本识别清晰度、 所述第一置信度和所述第二置信度, 确定所述可信度。
7.根据权利要求1 ‑4任一项所述的语音交互方法, 其特征在于, 在所述按所述目标对话
结果执行语音交 互之后, 所述方法还 包括:
基于所述目标对话结果, 更新所述用户语音请求对应的初始上下文信息, 所述初始上
下文信息为所述本地端或所述云端基于所述用户语音请求确定 。
8.根据权利要求1 ‑4任一项所述的语音交互方法, 其特征在于, 在所述用户语音请求包
括多个连续的子语音请求的情况 下, 所述方法还 包括:
接收目标设备发送的打断信号, 所述打断信号包括被打断的任务 ID;
响应于所述打断信号, 清空所述任务ID对应的任务栈及所述任务ID对应的上下文信
息。
9.一种语音交 互装置, 其特 征在于, 包括:
第一获取模块, 用于获取本地端确定的至少一路第一对话结果; 所述本地端包括至少
一个支路, 各所述支路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结
果, 各所述支路的计算时延不同;
第一处理模块, 用于对所述第一对话结果进行分级处理, 确定各所述第一对话结果对
应的融合 等级;
第二处理模块, 用于在未接收到云端发送的第二对话结果, 且将所述第一对话结果对
应的融合等级确定为最高级的情况下, 将所述最高级对应的第一对话结果确定为目标对话
结果;
第三处理模块, 用于在接收到云端发送的第二对话结果的情况下, 将所述第二对话结
果确定为目标对话结果;
第四处理模块, 用于按所述目标对话结果执 行语音交 互;
其中, 所述第二对话结果 为所述云端基于所述用户语音请求确定的。
10.一种车辆, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算机程
序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑8任一项所述的语音交互方
法。
11.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机
程序被处 理器执行时实现如权利要求1 ‑8任一项所述的语音交 互方法。权 利 要 求 书 2/2 页
3
CN 115394300 A
3
专利 语音交互方法、语音交互装置、车辆和可读存储介质
安全报告 >
其他 >
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:36上传分享