专利 基于深度学习网络的麦克风信号回声消除模型构建方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111554165.X (22)申请日 2021.12.17 (71)申请人南京工程学院地址 211167 江苏省南京市江宁区江宁科学园弘景大道1号 (72)发明人王青云　梁瑞宇　孙世若　谢跃　唐闺臣　包永强　 (74)专利代理机构南京创略知识产权代理事务所(普通合伙) 32358 代理人刘文艳 (51)Int.Cl. G10L 21/0208(2013.01) G10L 21/0216(2013.01) G10L 25/27(2013.01) G10L 25/45(2013.01)H04M 9/08(2006.01) G06N 20/00(2019.01) (54)发明名称基于深度学习网络的麦克风信号回声消除模型构建方法 (57)摘要本发明公开了基于深度学习网络的麦克风信号回声消除模型构建方法。本发明采用归一化最小均方算法消除由多路径和房间声学冲激响应引入的线性回声，然后利用残余回声信号和近端麦克风信号计算IRM作为训练目标，并将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输入，构建具有实时编码器 ‑ 解码器结构的CRN模型；最后，将预估残余信号从近端麦克风信号中减去重构语音，本发明联合归一化最小均方算法与基于CRN模型的深度学习网络实时回声消除算法，可以提高麦克风回声消除的性能，具有良好的应用前景。权利要求书2页说明书5页附图1页 CN 114283830 A 2022.04.05 CN 114283830 A 1.基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：包括以下步骤：步骤(A)，采用归一化最小均方算法，并利用代表回声源的远端参考信号对相应含有回声的近端麦克风信号进行线性回声消除，而未被消除的部分回声为残余回声信号；步骤(B)，分别对残余回声信号、远端参考信号和相应的近端麦克风信号进行短时傅里叶变换处理；步骤(C)，计算上述信号经短时傅里叶变换处理后相应的对数功率谱作为输入特征，再计算残余回声信号对数功率谱的理想比率掩模I RM作为训练目标，以IRM的均方误差MSE、对数功率谱的均方误差MSE以及加权源失真比率损失作为联合优化准则，并结合网络结构构建训练模型；步骤(D)，将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输入，构建具有实时编码器 ‑解码器结构的CRN模型作为残余回声消除模型；步骤(E)，基于训练模型训练残余回声消除模型，并对残余回声消除模型的性能进行评测。 2.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(A)中所述归一化最小均方算法权重的迭代更新计算方式如公式(1)所示：公式(1)中，为算法权重， e(n)为误差信号，即近端麦克风信号和算法输出之间的差值， x(n)为远端参考信号， xT(n)的上标T表示转置，表示n+1时刻估计的算法权重。 3.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(C)中所述理想比率掩模IRM利用干净语音信号和干扰音信号幅值信息，计算干净语音信号和干扰信号之间的能量比，获得介于0到1之间的一个掩膜，用于反映各个时频单元上干净语音信号和干扰信号的比例。 4.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(C)中所述加权源失真比率损失用于反映语音失真的带权重损失，且对不同尺度的语音幅度敏感。 5.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(D)中所述CRN模型构成包括4层卷积解码器、 4层反卷积解码器和1层门控循环单元网络构成。 6.根据权利要求3所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：所述理想比率掩模IRM计算方式如公式(2)所示：公式(2)中， S表示干净语音信号的幅值谱， N表示干扰信号的幅值谱， β 为可调节尺度因子， β 取值为0.5。 7.根据权利要求4所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其权　利　要　求　书 1/2 页 2 CN 114283830 A 2特征在于：所述加权源失真比率损失的计算方式如公式(3)、公式(4)所示：公式(3)与公式(4)中， lossSDR表示源失真比率损失函数， losswSDR表示加权源失真比率损失函数， yclean表示残余回声信号， yest表示预估残余回声信号， x表示原始输入信号，所述预估残余回声信号为IRM作用于近端麦克风信号获得。 8.根据权利要求5所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：所述门控循环单元网络的输入维度为残余回声信号和远端参考信号的对数功率谱，输入维度为F ×T×2；其中F为频率维度，通过计算512点STFT得到F的值为257， T为时间维度，选取窗长为512点的han ning窗，重叠长度为25 6点。 9.根据权利要求1 ‑8任意一项所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(E)，训练残余回声消除模型，并对残余回声消除模型的性能进行评测，其中在残余回声消除模型的训练阶段，设置门控循环单元GRU网络D 输入维度中T值为 200帧，测试阶段使用完整音频的帧长，编码器通过设置卷积步长为2对频率维度下采样提取音频特征，其采样过程中，设置卷积核大小为3×1用于保证算法的实时性，每一层卷积层还包括一层LN层和ReLU非线性层，经过4层编码器，通道数由2逐层扩展至16、 16、 32、 32，频率维度F由257逐层降至129、 65、 33、 17，解码器通过与解码器相同的反卷积层使得频率维度 F逐渐恢复，并将通道逐渐收缩，最终生成与输入近端麦克风信号对数谱维度相同的I RM，通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，融合浅层与深层的信息，由于IRM的值域为[0,1]，则最后一层的激活函数选择Sigmo id。 10.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(E)，训练残余回声消除模型，并对残余回声消除模型的性能进行评测，其中在残余回声消除模型评测阶段，评测指标为评估PESQ和ERLE的数值， PESQ的得分范围为 ‑ 0.5至4.5， PESQ的得分与语音质量成正比， ERLE为回声返回衰减增益用于在单讲条件下反映麦克风信号能量与回声消除后剩余能量的比值， ERLE值与回声消除效果成正比。权　利　要　求　书 2/2 页 3 CN 114283830 A 3

专利 基于深度学习网络的麦克风信号回声消除模型构建方法

专利基于深度学习网络的麦克风信号回声消除模型构建方法