专利 一种基于红外微光望远镜的多源融合唇语识别方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210442789.0 (22)申请日 2022.04.25 (71)申请人中国人民解放军军事科学院国防科技创新研究院地址 100071 北京市丰台区东大街5 3号院 (72)发明人张亚坤　张敬　吴竞寒　秦伟　印二威　谢良　罗治国　张皓洋　闫野　 (74)专利代理机构北京丰浩知识产权代理事务所(普通合伙) 11781 专利代理师李强 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/143(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G10L 15/25(2013.01) (54)发明名称一种基于红外微光望远镜的多源融合唇语识别方法和系统 (57)摘要本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统，方法包括获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据；使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别，得到识别出的文本；将识别出的文本显示或发送至其他接收设备。本发明所提供的方法，为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式，弥补了单一视频数据来源特征提取和唇部图像识别的局限性，通过多源数据特征融合建模极大地提高了唇语识别的准确性，拓展了唇语识别技术的应用范围和场景，为唇语识别技术的发展提供了新的方向。权利要求书4页说明书11页附图2页 CN 114821781 A 2022.07.29 CN 114821781 A 1.一种基于红外微光望远镜的多源融合唇语识别方法，其特征在于，所述多源融合唇语识别方法包括：获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据；使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别，得到识别出的文本；将识别出的文本显示或发送至其他接收设备。 2.根据权利要求1所述的一种基于红外微光望远镜的多源融合唇语识别方法，其特征在于，所述获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据包括：采集红外热成像视频和微光成像视频后，将视频数据进行分帧，得到目标对象的红外热成像图像序列和微光图像序列；根据所述目标对象的红外热成像图像序列和微光图像序列进行人脸检测和唇部区域标记，得到目标对象唇部区域的红外热成像图像数据和微光图像数据；所述根据所述目标对象的红外热成像图像序列和微光图像序列进行人脸检测和唇部区域标记，得到目标对象唇部区域的红外热成像图像数据和微光图像数据包括：使用动态多帧平均算法对红外热成像图像序列进行降噪；使用帧间差分法确定目标对象开始说话时的图像起始点和终止点；根据人脸的几何结构比例定位唇部区域，得到目标对象唇部区域的红外热成像图像数据；使用帧积分法对微光图像序列进行图像降噪；使用帧间差分法确定目标对象开始说话时的图像起始点和终止点；根据人脸的几何结构比例定位唇部区域，得到目标对象唇部区域的微光图像数据。 3.根据权利要求2所述的一种基于红外微光望远镜的多源融合唇语识别方法，其特征在于，所述多源融合唇语识别模型使用如下方式建立：获取若干红外热成像视频和微光视频及对应的文本，提取其唇部区域的红外热成像图像数据和微光图像数据；将提取的红外热成像图像数据和微光图像数据及对应的文本送入到双CNN ‑ResNet‑ LSTM‑Bi‑LSTM‑RNN‑LM网络中进行学习，其中，提取的红外热成像图像数据和微光图像数据为输入数据，对应的文本为输出数据。 4.根据权利要求3所述的一种基于红外微光望远镜的多源融合唇语识别方法，其特征在于，所述双CNN ‑ResNet‑LSTM‑Bi‑LSTM‑RNN‑LM网络，包括两个CNN ‑ResNet‑LSTM网络，一个 Bi‑LSTM网络，一个RNN ‑LM网络；两个CNN ‑ResNet‑LSTM网络输出部分分别与Bi‑LSTM输入层连接； Bi‑LSTM输出层与RN N‑LM输入层连接；其中，两个CNN ‑ResNet‑LSTM网络分别用于对红外热成像图像数据和微光图像数据分别进行特征提取，得到基于红外热成像图像的特征和基于微光图像的特征； Bi ‑LSTM用于对基于红外热成像图像的特征和基于微光图像的特征进行融合，得到多源融合唇部图像特权　利　要　求　书 1/4 页 2 CN 114821781 A 2征； RNN‑LM对融合后的多源融合唇部图像特征进行文本学习和匹配，通过集束搜索得到最大概率的输出文本。 5.根据权利要求4所述的一种基于红外微光望远镜的多源融合唇语识别方法，其特征在于，所述两个CNN ‑ResNet‑LSTM分别对红外热成像图像数据和微光图像数据分别进行特征提取包括：使用CNN对红外热成像图像数据进行空间特征提取；所述CNN由1个3D卷积层、 1个最大池化层堆叠组成；所述CNN卷积层对输入特征做矩阵元素乘法求和并叠加偏差量，如式(5)所示：池化层如式6所示：使用ResNet对目标红外热成像图像空间特征进行数据降维；所述ResNet网络共有三个残差单元后加自适应平均池化层，第一个残差单元采用三对 64卷积核的卷积神经网络；第二个残差单元采用四对128卷积核的卷积神经网络；第三个残差单元采用六对25 6卷积核的卷积神经网络；残差单元如式7所示： xl+1＝h(xl)+F(xl,Wl) (7) 其中， xl表示残差模块中第l层的输入， Wl是第l层的神经网络权重系数， F是第l层的输出函数， h(xl)＝xl表示恒等映射， xl+1表示残差模块中第l+1层的输入；使用LSTM增加红外热成像图像数据降维后空间特征的时序特征，得到基于红外热成像图像的特征；所述LSTM的遗忘门输入为逻辑单元输出层的输出值ht‑1和本层输入的序列数据xt，如式 8所示： ft＝σ(Wf·[ht‑1,xt]+bf) (8) 其中， σ 表示激活函数sigmoid， bf是遗忘门偏置量， Wf是遗忘门的权值。 ht‑1为上一逻辑单元输出层的输出值， xt为本层输入的序列数据，前序特征图经过输出门层的输出值和当前序列特征图共同作为输入， ft即为当前遗忘门层的输出； LSTM的输入门包含两个部分，第一部分使用sigmoid作为激活函数，输出为it，第二部分使用tanh作为激活函数，输出如式9所示： it＝σ(Wi·[ht‑1,xt]+bi) (9) 其中， σ 表示激活函数sigmoid， bi是输入门偏置量， Wi是输入门的权值。 ht‑1为上一逻辑单元输出层的输出值， xt为本层输入的序列数据， it即为当前输入门层的输出； LSTM输入门的第二部分作为本层状态更新，如式10所示：权　利　要　求　书 2/4 页 3 CN 114821781 A 3

专利 一种基于红外微光望远镜的多源融合唇语识别方法和系统

专利一种基于红外微光望远镜的多源融合唇语识别方法和系统