(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111554165.X
(22)申请日 2021.12.17
(71)申请人 南京工程学院
地址 211167 江苏省南京市江宁区江宁科
学园弘景 大道1号
(72)发明人 王青云 梁瑞宇 孙世若 谢跃
唐闺臣 包永强
(74)专利代理 机构 南京创略知识产权代理事务
所(普通合伙) 32358
代理人 刘文艳
(51)Int.Cl.
G10L 21/0208(2013.01)
G10L 21/0216(2013.01)
G10L 25/27(2013.01)
G10L 25/45(2013.01)H04M 9/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
基于深度学习网络的麦克风信号回声消除
模型构建方法
(57)摘要
本发明公开了基于深度学习网络的麦克风
信号回声消除模 型构建方法。 本发 明采用归一化
最小均方算法消除由多路径和房间声学冲激响
应引入的线性回声, 然后利用残 余回声信号和近
端麦克风信号计算IRM作为训练目标, 并将经过
归一化最小均方算法处理的近端麦克风信号和
远端参考信号作为输入, 构建具有实时编码器 ‑
解码器结构的CRN模型; 最后, 将预估残余信号从
近端麦克风信号中减去重构语音, 本发明联合归
一化最小均方算法与基于CRN模型的深度学习网
络实时回声消除算法, 可以提高麦克风回声消除
的性能, 具有良好的应用前 景。
权利要求书2页 说明书5页 附图1页
CN 114283830 A
2022.04.05
CN 114283830 A
1.基于深度学习网络的麦克风信号回声消除模型构建方法, 其特征在于: 包括以下步
骤:
步骤(A), 采用归一化最小均方算法, 并利用代表回声源的远端参考信号对相应含有回
声的近端麦克风信号进行线性回声消除, 而未被消除的部分回声为残余回声信号;
步骤(B), 分别 对残余回声信号、 远端参考信号和相应的近端麦克风信号进行短时傅里
叶变换处 理;
步骤(C), 计算上述信号经短时傅里叶变换处理后相应的对数功率谱作为输入特征, 再
计算残余回声信号对 数功率谱的理想比率掩模I RM作为训练目标, 以IRM的均方误差MSE、 对
数功率谱的均方误差MSE以及加权源失真比率损失作为联合优化准则, 并结合网络结构构
建训练模型;
步骤(D), 将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输
入, 构建具有实时编码器 ‑解码器结构的CRN模型作为残余回声消除模型;
步骤(E), 基于训练模型训练残余 回声消除模型, 并对残余回声消除模型的性能进行评
测。
2.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其
特征在于: 步骤(A)中所述归一 化最小均方算法权 重的迭代更新计算方式如公式(1)所示:
公式(1)中,
为算法权重, e(n)为误差信号, 即近端麦克风信号和算法输出之间的
差值, x(n)为远端参 考信号, xT(n)的上标T表示转置,
表示n+1时刻估计的算法权 重。
3.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其
特征在于: 步骤(C)中所述理想比率掩模IRM利用干净语音信号和 干扰音信号幅值信息, 计
算干净语音信号和干扰信号之间的能量比, 获得介于0到1之间的一个掩膜, 用于反映各个
时频单元上干净语音信号和干扰信号的比例。
4.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其
特征在于: 步骤(C)中所述加权源失真比率损失用于反映语音失真的带权重损失, 且对不同
尺度的语音幅度敏感。
5.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其
特征在于: 步骤(D)中所述CRN模 型构成包括4层卷积解码 器、 4层反卷积解码 器和1层门控循
环单元网络构成。
6.根据权利要求3所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其
特征在于: 所述理想比率掩 模IRM计算方式如公式(2)所示:
公式(2)中, S表示干净语音信号的幅值谱, N表示干扰信号的幅值谱, β 为可调 节尺度因
子, β 取值 为0.5。
7.根据权利要求4所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其权 利 要 求 书 1/2 页
2
CN 114283830 A
2特征在于: 所述加权源失真比率损失的计算方式如公式(3)、 公式(4)所示:
公式(3)与公式(4)中, lossSDR表示源失真比率损失函数, losswSDR表示加权源失真比率
损失函数, yclean表示残余回声信号, yest表示预估残余回声信号, x表示原始输入信号, 所述
预估残余回声信号 为IRM作用于 近端麦克风信号获得。
8.根据权利要求5所述的基于深度学习网络的麦克风信号回声消除模型构建方法, 其
特征在于: 所述门控循环单元网络的输入维度为残余回声信号和远端参考信号的对数功 率
谱, 输入维度为F ×T×2; 其中F为频率维度, 通过计算512点STFT得到F的值为257, T为时间
维度, 选取窗长为512点的han ning窗, 重叠长度为25 6点。
9.根据权利要求1 ‑8任意一项所述的基于深度学习网络的麦克风信号 回声消除模型构
建方法, 其特征在于: 步骤(E), 训练残余回声消除模型, 并对残 余回声消除模型的性能进 行
评测, 其中在残 余回声消除模 型的训练阶段, 设置门控循环单元GRU网络D 输入维度中T值为
200帧, 测试阶段使用完整音频的帧长, 编码器通过设置卷积步长为2对频率维度下采样提
取音频特征, 其采样过程中, 设置卷积核 大小为3×1用于保证算法的实时性, 每一层卷积层
还包括一层LN层和ReLU非线性层, 经过4层编码器, 通道数由2逐层扩展至16、 16、 32、 32, 频
率维度F由257逐层降至129、 65、 33、 17, 解码器通过与解码器相同的反卷积层 使得频率维度
F逐渐恢复, 并将通道逐渐收缩, 最 终生成与输入近端麦克风信号对数谱维度相同的I RM, 通
过跳跃连接将编码器与解码 器对应层之 间的输出与输入在通道维度上进 行堆叠, 融合浅层
与深层的信息, 由于IRM的值 域为[0,1], 则最后一层的激活函数选择Sigmo id。
10.根据权利要求1所述的基于深度 学习网络的麦克风信号 回声消除模型构建方法, 其
特征在于: 步骤(E), 训练残余回声消除模 型, 并对残 余回声消除模型的性能进 行评测, 其中
在残余回声消除模型评测阶段, 评测指标为评估PESQ和ERLE的数值, PESQ的得分范围为 ‑
0.5至4.5, PESQ的得分与语音质量成正比, ERLE为回声返回衰减增益用于在单讲条件下反
映麦克风信号能量与回声消除后剩余能量的比值, ERLE值与回声消除效果成正比。权 利 要 求 书 2/2 页
3
CN 114283830 A
3
专利 基于深度学习网络的麦克风信号回声消除模型构建方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:17:02上传分享