说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111584914.3 (22)申请日 2021.12.2 2 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区自由贸易试 验区碧波路518号3 02室 (72)发明人 李亚枫 任君 罗超 邹宇 李巍  严丽  (74)专利代理 机构 上海隆天律师事务所 31282 代理人 钟宗 (51)Int.Cl. G10L 17/02(2013.01) G10L 17/04(2013.01) G10L 17/18(2013.01) G10L 21/028(2013.01) G10L 25/87(2013.01)G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于音频流的对话角色分离方法、 系统、 设 备及存储介质 (57)摘要 本发明提供了基于音频流的对话角色分离 方法、 系统、 设备及存储介质, 该方法包括: 将音 频流按时序依次分割为音 频片段, 并将每个音 频 片段以预设窗长A和预设窗移B依次提取特征帧; 以每个特征帧为中心, 整合时序向前以及时序向 后的各C个连续相邻特征帧, 进行拼合获得声纹 检测子片段; 基于声纹检测子片段通过与预先训 练的帧级别声纹模型进行识别, 获得声纹检测子 片段的说话人的身份识别信息; 将音频流根据身 份识别信息进行对话角色分离。 本发 明能够基于 深度学习模型对音频片段进行多说话人识别检 测, 准确地剔除多说话人片段, 提升声纹质量, 从 而提升声纹识别效果。 权利要求书2页 说明书10页 附图5页 CN 114299962 A 2022.04.08 CN 114299962 A 1.一种基于音频流的对话角色 分离方法, 其特 征在于, 包括以下步骤: S120、 将音频流按时序依次分割为音频片段, 并将每个所述音频片段以预设窗长A和预 设窗移B依次提取 特征帧; S130、 以每个所述特征帧为中心, 整合时序向前以及时序向后的各C个连续相邻特征 帧, 进行拼 合获得声纹检测子片段; S140、 基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别, 获得所 述声纹检测子片段的说话人的身份识别 信息; S160、 将所述音频流 根据所述身份识别 信息进行对话角色 分离。 2.根据权利要求1所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S120 之前, 还包括以下步骤: S110、 接收基于时序顺序的音频流进行预处理, 通过语音活动检测剔除静音及部分噪 音。 3.根据权利要求1所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S120 中, 所述预设窗长A的取值范围是10m s至40ms; 所述预设窗移B的取值范围是5m s至20ms。 4.根据权利要求1所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S130 中还包括, 建立所述音频片段、 特 征帧以及所述声纹检测子片段的映射关系。 5.根据权利要求1所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S140 中, 基于所述声纹检测子片段逐个通过与预先训练的帧级别声纹模型进行识别, 获得所述 声纹检测子片段的说话人的身份识别 信息。 6.根据权利要求1所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S140 中, 将每间隔预设数量D个声纹检测子片段抽取一所述声纹检测子片段, 输入预先训练的帧 级别声纹模型进行识别, 获得所述声纹检测子片段的说话人的身份识别信息, 预设数量D的 取值范围是3 至10。 7.根据权利要求1所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S140 中, 包括以下步骤: S141、 基于每个所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别, 获 得所述音频流的至少一说话人的身份识别 信息; S142、 判断每个所述音频片段对应的声纹检测子片段中的身份识别信息是否大于等于 两个, 若是, 则执 行步骤S143, 若否, 则执 行步骤S145; S143、 判断每个所述音频片段对应的所述声纹检测子片段中出现次数最大的身份识别 信息所占所述声纹检测 子片段总量的百分比是否超过预设阈值E, 若是, 则执行步骤S144; 若否, 则执 行步骤S145; S144、 将出现次数最大的身份识别 信息作为所述音频片的身份识别 信息; S145、 保留所述音频片段的所有 身份识别 信息。 8.根据权利要求7所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S140 之后、 步骤S16 0之前, 还 包括以下步骤: S150、 基于每个所述音频片段与附近的音频片段的身份识别信息基于连续性进行平滑 处理。 9.根据权利要求8所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤S150权 利 要 求 书 1/2 页 2 CN 114299962 A 2中, 包括以下步骤: S151、 依时序前后判断当前音频片段与前、 后相邻的F个连续的音频片段组成的音频片 段集合的身份识别信息不同的比例是否大于预设阈值G, 若是, 则执行步骤S160; 若否, 则执 行步骤S152; S152、 将所述音频片段集合中出现次数最多的身份识别信 息作为所述当前音频片段的 身份识别 信息, 执行步骤S16 0。 10.根据权利要求8所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤 S160中, 包括以下步骤: 分别根据每个所述身份识别信息按时序抽取仅具有唯一所述身份识别信息的音频片 段形成所述身份识别 信息对应的对话角色的子音频流。 11.根据权利要求10所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤 S160中, 还包括: 当具有两个身份识别信息的身份识别信息组合的所述音频片段满足其前后相邻的两 个音频片段分别具有 所述身份识别信息组合中的不同身份识别信息时, 则将所述具有 所述 身份识别 信息组合的所述音频片段对应的时序点作为 不同对话角色之间切换的转换点。 12.根据权利要求11所述的基于音频流的对话角色分离方法, 其特征在于, 所述步骤 S160中, 包括以下步骤: 将所述转换点作为一对切换节点分别加入与所述转换点的两个身份识别信息分别对 应的子音频流中, 并建立所述切换节点之间的映射关系。 13.一种基于音频流的对话角色分离系统, 用于实现权利要求1所述的基于音频流的对 话角色分离方法, 其特 征在于, 包括: 提取特征帧模块, 将音频流按时序依次分割为音频片段, 并将每个所述音频片段以预 设窗长A和预设窗移B依次提取 特征帧; 声纹子片段模块, 以每个所述特征帧为中心, 整合 时序向前以及时序向后的各C个连续 相邻特征帧, 进行拼 合获得声纹检测子片段; 身份识别信 息模块, 基于所述声纹检测子片段通过与 预先训练 的帧级别声纹模型进行 识别, 获得 所述声纹检测子片段的说话人的身份识别 信息; 对话角色 分离模块, 将所述音频流 根据所述身份识别 信息进行对话角色 分离。 14.一种基于音频流的对话角色 分离设备, 其特 征在于, 包括: 处理器; 存储器, 其中存 储有所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1至12任意一项所 述基于音频流的对话角色 分离方法的步骤。 15.一种计算机可读存储介质, 用于存储程序, 其特征在于, 所述程序被处理器执行时 实现权利要求1至12任意 一项所述基于音频流的对话角色 分离方法的步骤。权 利 要 求 书 2/2 页 3 CN 114299962 A 3

.PDF文档 专利 基于音频流的对话角色分离方法、系统、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于音频流的对话角色分离方法、系统、设备及存储介质 第 1 页 专利 基于音频流的对话角色分离方法、系统、设备及存储介质 第 2 页 专利 基于音频流的对话角色分离方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:17:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。