专利 基于音频流的对话角色分离方法、系统、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111584914.3 (22)申请日 2021.12.2 2 (71)申请人携程旅游信息技术（上海）有限公司地址 201203 上海市浦东新区自由贸易试验区碧波路518号3 02室 (72)发明人李亚枫　任君　罗超　邹宇　李巍　严丽　 (74)专利代理机构上海隆天律师事务所 31282 代理人钟宗 (51)Int.Cl. G10L 17/02(2013.01) G10L 17/04(2013.01) G10L 17/18(2013.01) G10L 21/028(2013.01) G10L 25/87(2013.01)G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于音频流的对话角色分离方法、系统、设备及存储介质 (57)摘要本发明提供了基于音频流的对话角色分离方法、系统、设备及存储介质，该方法包括：将音频流按时序依次分割为音频片段，并将每个音频片段以预设窗长A和预设窗移B依次提取特征帧；以每个特征帧为中心，整合时序向前以及时序向后的各C个连续相邻特征帧，进行拼合获得声纹检测子片段；基于声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得声纹检测子片段的说话人的身份识别信息；将音频流根据身份识别信息进行对话角色分离。本发明能够基于深度学习模型对音频片段进行多说话人识别检测，准确地剔除多说话人片段，提升声纹质量，从而提升声纹识别效果。权利要求书2页说明书10页附图5页 CN 114299962 A 2022.04.08 CN 114299962 A 1.一种基于音频流的对话角色分离方法，其特征在于，包括以下步骤： S120、将音频流按时序依次分割为音频片段，并将每个所述音频片段以预设窗长A和预设窗移B依次提取特征帧； S130、以每个所述特征帧为中心，整合时序向前以及时序向后的各C个连续相邻特征帧，进行拼合获得声纹检测子片段； S140、基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息； S160、将所述音频流根据所述身份识别信息进行对话角色分离。 2.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S120 之前，还包括以下步骤： S110、接收基于时序顺序的音频流进行预处理，通过语音活动检测剔除静音及部分噪音。 3.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S120 中，所述预设窗长A的取值范围是10m s至40ms；所述预设窗移B的取值范围是5m s至20ms。 4.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S130 中还包括，建立所述音频片段、特征帧以及所述声纹检测子片段的映射关系。 5.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140 中，基于所述声纹检测子片段逐个通过与预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息。 6.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140 中，将每间隔预设数量D个声纹检测子片段抽取一所述声纹检测子片段，输入预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息，预设数量D的取值范围是3 至10。 7.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140 中，包括以下步骤： S141、基于每个所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得所述音频流的至少一说话人的身份识别信息； S142、判断每个所述音频片段对应的声纹检测子片段中的身份识别信息是否大于等于两个，若是，则执行步骤S143，若否，则执行步骤S145； S143、判断每个所述音频片段对应的所述声纹检测子片段中出现次数最大的身份识别信息所占所述声纹检测子片段总量的百分比是否超过预设阈值E，若是，则执行步骤S144；若否，则执行步骤S145； S144、将出现次数最大的身份识别信息作为所述音频片的身份识别信息； S145、保留所述音频片段的所有身份识别信息。 8.根据权利要求7所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140 之后、步骤S16 0之前，还包括以下步骤： S150、基于每个所述音频片段与附近的音频片段的身份识别信息基于连续性进行平滑处理。 9.根据权利要求8所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S150权　利　要　求　书 1/2 页 2 CN 114299962 A 2中，包括以下步骤： S151、依时序前后判断当前音频片段与前、后相邻的F个连续的音频片段组成的音频片段集合的身份识别信息不同的比例是否大于预设阈值G，若是，则执行步骤S160；若否，则执行步骤S152； S152、将所述音频片段集合中出现次数最多的身份识别信息作为所述当前音频片段的身份识别信息，执行步骤S16 0。 10.根据权利要求8所述的基于音频流的对话角色分离方法，其特征在于，所述步骤 S160中，包括以下步骤：分别根据每个所述身份识别信息按时序抽取仅具有唯一所述身份识别信息的音频片段形成所述身份识别信息对应的对话角色的子音频流。 11.根据权利要求10所述的基于音频流的对话角色分离方法，其特征在于，所述步骤 S160中，还包括：当具有两个身份识别信息的身份识别信息组合的所述音频片段满足其前后相邻的两个音频片段分别具有所述身份识别信息组合中的不同身份识别信息时，则将所述具有所述身份识别信息组合的所述音频片段对应的时序点作为不同对话角色之间切换的转换点。 12.根据权利要求11所述的基于音频流的对话角色分离方法，其特征在于，所述步骤 S160中，包括以下步骤：将所述转换点作为一对切换节点分别加入与所述转换点的两个身份识别信息分别对应的子音频流中，并建立所述切换节点之间的映射关系。 13.一种基于音频流的对话角色分离系统，用于实现权利要求1所述的基于音频流的对话角色分离方法，其特征在于，包括：提取特征帧模块，将音频流按时序依次分割为音频片段，并将每个所述音频片段以预设窗长A和预设窗移B依次提取特征帧；声纹子片段模块，以每个所述特征帧为中心，整合时序向前以及时序向后的各C个连续相邻特征帧，进行拼合获得声纹检测子片段；身份识别信息模块，基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息；对话角色分离模块，将所述音频流根据所述身份识别信息进行对话角色分离。 14.一种基于音频流的对话角色分离设备，其特征在于，包括：处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12任意一项所述基于音频流的对话角色分离方法的步骤。 15.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现权利要求1至12任意一项所述基于音频流的对话角色分离方法的步骤。权　利　要　求　书 2/2 页 3 CN 114299962 A 3

专利 基于音频流的对话角色分离方法、系统、设备及存储介质

专利基于音频流的对话角色分离方法、系统、设备及存储介质