专利 图像分析方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210947162.0 (22)申请日 2022.08.09 (65)同一申请的已公布的文献号申请公布号 CN 115019349 A (43)申请公布日 2022.09.06 (73)专利权人中科视语（北京）科技有限公司地址 102300 北京市门头沟区石龙经济开发区永安路20号3号楼 A-6193室 (72)发明人王金桥　陈盈盈　周鲁　赵朝阳　陈康扬　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师吴斌 (51)Int.Cl. G06V 40/10(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 111597870 A,2020.08.28 CN 104376 308 A,2015.02.25 CN 111709289 A,2020.09.25 CN 111738091 A,2020.10.02 CN 114708553 A,2022.07.05 CN 107563279 A,2018.01.09 CN 110765960 A,2020.02.07 US 2021390 375 A1,2021.12.16 林里浪等.基于人体骨架特征学习的动作识别. 《中国传媒大学学报(自然科学版)》 .2021, 审查员王莹莹 (54)发明名称图像分析方法、装置、电子设备和存储介质 (57)摘要本发明涉及计算机视觉技术领域，提供一种图像分析方法、装置、电子设备和存储介质，其中方法包括：确定待分析的人体图像；基于多任务人体分析模型中的特征提取模块，对人体图像进行特征提取，得到至少两个单任务分别对应的单任务特征；基于多任务人体分析模型中的跨任务注意力模块，对至少两个单任务分别对应的单任务特征进行注意力交互，得到至少两个单任务分别对应的注意力特征；基于多任务人体分析模型中的任务分析模块，对至少两个单任务分别对应的注意力特征进行对应单任务的任务分析，得到至少两个单任务分别对应的分析结果。本发明实施例提供的图像分析方法、装置、电子设备和存储介质，实现了多任务模型在人体分析场景下的应用。权利要求书3页说明书15页附图6页 CN 115019349 B 2022.11.04 CN 115019349 B 1.一种图像分析方法，其特征在于，包括：确定待分析的人体图像；基于多任务人体分析模型中的特征提取模块，对所述人体图像进行特征提取，得到至少两个单任务分别对应的单任务特征；基于所述多任务人体分析模型中的跨任务注意力模块，对所述至少两个单任务分别对应的单任务特征进行注意力交互，得到所述至少两个单任务分别对应的注意力特征；基于所述多任务人体分析模型中的任务分析模块，对所述至少两个单任务分别对应的注意力特征进行对应单任务的任务分析，得到所述至少两个单任务分别对应的分析结果；其中，所述多任务人体分析模型是基于样本人体图像，以及所述样本人体图像对应的所述至少两个单任务标签训练得到的；所述基于所述多任务人体分析模型中的跨任务注意力模块，对所述至少两个单任务分别对应的单任务特征进行注意力交互，得到所述至少两个单任务分别对应的注意力特征，包括：基于所述跨任务注意力模块中的特征拼接模块，对所述至少两个单任务分别对应的单任务特征进行特征拼接，得到拼接特征；基于所述跨任务注意力模块中的自注意力模块，对所述拼接特征进行自注意力变换，并对自注意力变换所得的变换特征进行拆分，得到所述至少两个单任务分别对应的注意力特征，所述注意力特征用于表征所述至少两个单任务分别对应的语义信息；所述多任务人体分析模型基于如下步骤训练得到：将所述样本人体图像输入至初始多任务学生模型，得到所述初始多任务学生模型输出的所述至少两个单任务分别对应的学生预测结果；将所述样本人体图像分别输入到至少两个单任务教师模型，得到每个单任务教师模型输出的所述至少两个单任务分别对应的教师预测结果；基于所述至少两个单任务分别对应的学生预测结果和教师预测结果，以及所述样本人体图像对应的所述至少两个单任务的标签，对所述初始多任务学生模型进行蒸馏训练，得到所述多任务人体分析模型；所述样本人体图像对应的所述至少两个单任务标签包括真实标签和伪标签，所述伪标签基于所述至少两个单任务教师模型确定；针对任一所述样本人体图像，所述至少两个单任务中的一个单任务采用真实标签，所述至少两个单任务中的其他单任务采用伪标签。 2.根据权利要求1所述的图像分析方法，其特征在于，所述基于多任务人体分析模型中的特征提取模块，对所述人体图像进行特征提取，得到至少两个单任务分别对应的单任务特征，包括：基于所述特征提取模块中的共享特征提取模块，对所述人体图像进行共享特征提取，得到所述人体图像的共享特征；基于所述特征提取模块中的至少两个单任务特征提取模块，对所述共享特征分别进行所述至少两个单任务的特征提取，得到所述至少两个单任务分别对应的单任务特征。 3.根据权利要求1所述的图像分析方法，其特征在于，所述基于所述至少两个单任务分别对应的学生预测结果和教师预测结果，以及所述样本人体图像对应的至少两个单任务标签，对所述初始多任务学生模型进行蒸馏训练，得到所述多任务人体分析模型，包括：权　利　要　求　书 1/3 页 2 CN 115019349 B 2基于所述至少两个单任务分别对应的学生预测结果和教师预测结果，以及所述样本人体图像对应的至少两个单任务标签，对所述初始多任务学生模型进行蒸馏训练，得到多任务人体分析的预训练模型；将所述样本人体图像输入至所述预训练模型，得到所述预训练模型输出的所述至少两个单任务分别对应的预测结果；基于所述预测结果与所述至少两个单任务标签中的真实标签确定的损失，以及所述至少两个单任务分别对应的惩罚项，对所述预训练模型进行微调，得到所述多任务人体分析模型。 4.根据权利要求1 ‑3中任一项所述的图像分析方法，其特征在于，所述多任务人体分析包括：人体行为识别、服装识别、人体姿态估计和人体解析中的至少两种。 5.一种图像分析装置，其特征在于，包括：人体图像确定单元，用于确定待分析的人体图像；特征提取单元，用于基于多任务人体分析模型中的特征提取模块，对所述人体图像进行特征提取，得到至少两个单任务分别对应的单任务特征；注意力交互单元，用于基于所述多任务人体分析模型中的跨任务注意力模块，对所述至少两个单任务分别对应的单任务特征进行注意力交互，得到所述至少两个单任务分别对应的注意力特征；任务分析单元，用于基于所述多任务人体分析模型中的任务分析模块，对所述至少两个单任务分别对应的注意力特征进行对应单任务的任务分析，得到所述至少两个单任务分别对应的分析结果；其中，所述多任务人体分析模型是基于样本人体图像，以及所述样本人体图像对应的至少两个单任务标签训练得到的；所述注意力交互单元，进一步用于：基于所述跨任务注意力模块中的特征拼接模块，对所述至少两个单任务分别对应的单任务特征进行特征拼接，得到拼接特征；基于所述跨任务注意力模块中的自注意力模块，对所述拼接特征进行自注意力变换，并对自注意力变换所得的变换特征进行拆分，得到所述至少两个单任务分别对应的注意力特征，所述注意力特征用于表征所述至少两个单任务分别对应的语义信息；所述多任务人体分析模型基于如下步骤训练得到：将所述样本人体图像输入至初始多任务学生模型，得到所述初始多任务学生模型输出的所述至少两个单任务分别对应的学生预测结果；将所述样本人体图像分别输入到至少两个单任务教师模型，得到每个单任务教师模型输出的所述至少两个单任务分别对应的教师预测结果；基于所述至少两个单任务分别对应的学生预测结果和教师预测结果，以及所述样本人体图像对应的所述至少两个单任务的标签，对所述初始多任务学生模型进行蒸馏训练，得到所述多任务人体分析模型；所述样本人体图像对应的所述至少两个单任务标签包括真实标签和伪标签，所述伪标签基于所述至少两个单任务教师模型确定；针对任一所述样本人体图像，所述至少两个单任务中的一个单任务采用真实标签，所述至少两个单任务中的其他单任务采用伪标签。权　利　要　求　书 2/3 页 3 CN 115019349 B 3

专利 图像分析方法、装置、电子设备和存储介质

专利图像分析方法、装置、电子设备和存储介质