专利 人脸表情识别方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221045972 2.8 (22)申请日 2022.04.28 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人陈恩红　徐童　金日进　赵思蕊　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06K 9/62(2022.01) (54)发明名称人脸表情识别方法、系统、设备及存储介质 (57)摘要本发明公开了一种人脸表情识别方法、系统、设备及存储介质，通过引入Tran sformer中的多头自注意力结构，能够有效解决人脸表情高的类间相似度的问题；通过引入人脸运动单元信息，能够有效解决人脸表情大的类内差异的问题，结合两者可提升人脸表情的识别准确率。权利要求书2页说明书7页附图3页 CN 114582004 A 2022.06.03 CN 114582004 A 1.一种人脸表情识别方法，其特征在于，包括：对输入的人脸表情图像中多个局部区域进行特征提取，获得包含所有局部区域特征的局部表情特征；利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征；对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合，获得融合特征；利用所述融合特征进行表情识别。 2.根据权利要求1所述的一种人脸表情识别方法，其特征在于，所述利用包含多层 Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情包括：将所述局部表情特征进行维度变换，再变换为序列形式，获得局部表情特征序列；全局关系建模模块以所述局部表情特征序列作为输入，在所述局部表情特征序列中添加类别特征，并进行位置表征，获得初始特征序列，表示为：其中，表示局部表情特征序列，表示局部表情特征序列中的第 i个特征向量，hw表示特征向量的总数； xclass表示类别特征，Xpos表示位置表征；所述初始特征序列作为多层Transformer编码器的输入进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征。 3.根据权利要求2所述的一种人脸表情识别方法，其特征在于，所述多层Transformer 编码器中的每一层均包括：一个多头自注意力模块与多层感知机模块；多头自注意力模块前端设有第一层标准化单元，多层感知机模块的前端设有第二层标准化单元；多头自注意力模块的后端采用残差连接将所述第一层标准化单元的输入与自身的输出相加，作为多头自注意力模块最终输出结果，并输入至所述第二层标准化单元；多层感知机模块的后端采用残差连接将所述第二层标准化单元的输入与自身的输出相加，作为多层感知机模块的最终输出结果。 4.根据权利要求3所述的一种人脸表情识别方法，其特征在于，将所述多层 Transformer编码器的层数设为 N，第l层的处理表示为： zl’=MHSA(LN1(zl‑1))+ zl‑1 zl=MLP(LN2(zl’))+zl’ 其中，LN1(.)与LN2(.)分别表示第一层标准化单元与第二层标准化单元执行层标准化操作后的输出， MHSA(.)表示多头自注意力模块的输出， zl’表示第l层中多头自注意力模块的最终输出结果； MLP(.)表示多层感知机模块的输出， zl表示第l层中多层感知机模块的最终输出结果；l=1,…,N，N为整数，当 l=1时，zl‑1表示所述初始特征序列。 5.根据权利要求3或4所述的一种人脸表情识别方法，其特征在于，所述多头自注意力模块中包含 H个单头自注意力模块，每一个单头自注意力模块各自计算相应的单头注意力，将H个单头注意力堆叠，获得多头自注意力模块的输出，表示为：权　利　要　求　书 1/2 页 2 CN 114582004 A 2MHSA(X1)=Concat(SA1,SA2,…,SAH)WO 其中，SA表示单头自注意力模块计算的单头注意力，数字1,2, …, H均表示多头注意力模块的序号， WO表示多头自注意力模块的权重参数；X1表示多头自注意力模块的输入信息；其中，单头注意力 SA的计算过程包括：对输入信息 X1通过不同的线性变换获得查询向量 Q、键向量K与值向量V，表示为： Q= X1WQ， K= X1WK， V= X1WV 其中， WQ、 WK、 WV表示三种线性变换的权重参数；根据三个向量计算单头注意力 SA，表示为：其中，T为转置符号， dk表示键向量K的维度中的参数。 6.根据权利要求3或4所述的一种人脸表情识别方法，其特征在于，所述多层感知机模块包括两个全连接层，通过两个全连接层对输入信息 X2进行特征映射，表示为： MLP(X2)=GELU(W1X2+b1)W2+b2 其中， W1与b1分别表示第一个全连接层的权重与偏置参数， W2与b2分别表示第二个全连接层的权重与偏置参数； GELU(.)为非线性激活函数。 7.根据权利要求1所述的一种人脸表情识别方法，其特征在于，所述对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合包括：选择多个人脸运动单元，从所述输入的人脸表情图像中提取所选的所有人脸运动单元的人脸运动单元信息，并映射至与所述表情特征相同的维度，再与所述表情特征融合。 8.一种人脸表情识别系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：局部特征提取模块，用于对输入的人脸表情图像中多个局部区域进行特征提取，获得包含所有局部区域特征的局部表情特征；全局关系建模模块，其包含多层Transformer编码器，用于对所述局部表情特征进行长程依赖的建模，确定不同局部区域特征之间的关联，获得表情特征；人脸运动单元融合模块，用于对输入的人脸表情图像进行人脸运动单元信息的提取，并将提取到的人脸运动单元信息与所述表情特征融合，获得融合特征；分类识别模块，用于利用所述融合特征进行表情识别。 9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。 10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114582004 A 3

专利 人脸表情识别方法、系统、设备及存储介质

专利人脸表情识别方法、系统、设备及存储介质