专利 语音交互方法、语音交互装置、车辆和可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211332377.8 (22)申请日 2022.10.28 (71)申请人广州小鹏汽车科技有限公司地址 510000 广东省广州市天河区岑村松岗大街8号 (72)发明人唐祥光　胡梓垣　孙仿逊　左佑　鲍鹏丽　王合心　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师雷玉龙 (51)Int.Cl. G10L 15/26(2006.01) G06F 40/30(2020.01) G10L 15/34(2013.01) B60R 16/037(2006.01) (54)发明名称语音交互方法、语音交互装置、车辆和可读存储介质 (57)摘要本发明公开了一种语音交互方法、语音交互装置、车辆和可读存储介质，属于车载语音交互技术领域。所述语音交互方法，包括：获取本地端确定的至少一路第一对话结果；对第一对话结果进行分级处理，确定各第一对话结果对应的融合等级；在未接收到云端发送的第二对话结果，且将第一对话结果对应的融合等级确定为最高级的情况下，将最高级对应的第一对话结果确定为目标对话结果；在接收到云端发送的第二对话结果的情况下，将第二对话结果确定为目标对话结果；按目标对话结果执行语音交互。本发明的语音交互方法，能在保证识别准确性的同时，提高语音交互系统的响应速度及灵敏性，在保证准确性的同时体验更快，实现极速对话。权利要求书2页说明书16页附图4页 CN 115394300 A 2022.11.25 CN 115394300 A 1.一种语音交互方法，其特征在于，包括：获取本地端确定的至少一路第一对话结果；所述本地端包括至少一个支路，各所述支路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结果，各所述支路的计算时延不同；对所述第一对话结果进行分级处理，确定各所述第一对话结果对应的融合等级；在未接收到云端发送的第二对话结果，且将所述第一对话结果对应的融合等级确定为最高级的情况下，将所述最高级对应的第一对话结果确定为目标对话结果；在接收到云端发送的第二对话结果的情况下，将所述第二对话结果确定为目标对话结果；按所述目标对话结果执行语音交互；其中，所述第二对话结果为所述云端基于所述用户语音请求确定的。 2.根据权利要求1所述的语音交互方法，其特征在于，在所述用户语音请求包括多个连续的子语音请求的情况下，所述对所述第一对话结果进行分级处理，确定各所述第一对话结果对应的融合等级，包括：在第一目标子对话结果为所述云端识别的结果的情况下，确定第二目标子对话结果对应的融合等级为第二级；在第一目标子对话结果为所述本地端识别的结果的情况下，确定第二目标子对话结果对应的融合等级为所述最高级；其中，所述第一目标子对话结果为第一目标子语音请求对应的目标对话结果，所述第二目标子对话结果为第二目标子语音请求对应的第一对话结果，所述第一目标子语音请求为所述多个连续的子语音请求中，位于所述第二目标子语音请求之前，且与所述第二目标子语音请求相邻的子语音请求。 3.根据权利要求1所述的语音交互方法，其特征在于，所述对所述第一对话结果进行分级处理，确定各所述第一对话结果对应的融合等级，包括：对所述第一对话结果进行基于文本识别结果和所述第一对话结果中的至少一种结果的分级处理，确定所述第一对话结果对应的融合等级；其中，所述文本识别结果为对所述用户语音请求进行文本识别确定的，所述第一对话结果为对所述文本识别结果进行语义理解确定的。 4.根据权利要求3所述的语音交互方法，其特征在于，所述对所述第一对话结果进行基于文本识别结果和所述第一对话结果中的至少一种结果的分级处理，确定所述第一对话结果对应的融合等级，包括：获取所述文本识别结果中的文本识别置信度和文本识别清晰度，获取所述第一对话结果中的领域、所述领域对应的第一置信度、意图和所述意图对应的第二置信度；基于所述文本识别置信度、文本识别清晰度、所述领域、所述第一置信度、所述意图和所述第二置信度中的至少两种，确定所述第一对话结果对应的融合等级。 5.根据权利要求1 ‑4任一项所述的语音交互方法，其特征在于，在所述获取本地端确定的至少一路第一对话结果之后，且在所述对所述第一对话结果进行分级处理，确定各所述第一对话结果对应的融合等级之前，所述方法还包括：基于所述第一对话结果，确定所述第一对话结果对应的频率等级和所述第一对话结果权　利　要　求　书 1/2 页 2 CN 115394300 A 2对应的可信度；在所述可信度大于目标阈值，且所述频率等级为最高频的情况下，确定所述第一对话结果对应的融合等级为所述最高级。 6.根据权利要求5所述的语音交互方法，其特征在于，所述基于所述第一对话结果，确定所述第一对话结果对应的频率等级和所述第一对话结果对应的可信度，包括：获取文本识别结果中的文本识别清晰度，获取所述第一对话结果中的领域对应的第一置信度、意图对应的第二置信度和所述用户语音请求；其中，所述文本识别结果为对所述用户语音请求进行文本识别确定的；采用前缀树匹配所述用户语音请求，确定所述频率等级；基于所述文本识别清晰度、所述第一置信度和所述第二置信度，确定所述可信度。 7.根据权利要求1 ‑4任一项所述的语音交互方法，其特征在于，在所述按所述目标对话结果执行语音交互之后，所述方法还包括：基于所述目标对话结果，更新所述用户语音请求对应的初始上下文信息，所述初始上下文信息为所述本地端或所述云端基于所述用户语音请求确定。 8.根据权利要求1 ‑4任一项所述的语音交互方法，其特征在于，在所述用户语音请求包括多个连续的子语音请求的情况下，所述方法还包括：接收目标设备发送的打断信号，所述打断信号包括被打断的任务 ID；响应于所述打断信号，清空所述任务ID对应的任务栈及所述任务ID对应的上下文信息。 9.一种语音交互装置，其特征在于，包括：第一获取模块，用于获取本地端确定的至少一路第一对话结果；所述本地端包括至少一个支路，各所述支路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结果，各所述支路的计算时延不同；第一处理模块，用于对所述第一对话结果进行分级处理，确定各所述第一对话结果对应的融合等级；第二处理模块，用于在未接收到云端发送的第二对话结果，且将所述第一对话结果对应的融合等级确定为最高级的情况下，将所述最高级对应的第一对话结果确定为目标对话结果；第三处理模块，用于在接收到云端发送的第二对话结果的情况下，将所述第二对话结果确定为目标对话结果；第四处理模块，用于按所述目标对话结果执行语音交互；其中，所述第二对话结果为所述云端基于所述用户语音请求确定的。 10.一种车辆，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑8任一项所述的语音交互方法。 11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑8任一项所述的语音交互方法。权　利　要　求　书 2/2 页 3 CN 115394300 A 3

专利 语音交互方法、语音交互装置、车辆和可读存储介质

专利语音交互方法、语音交互装置、车辆和可读存储介质