专利 一种移动端实时人体姿态估计方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211015809.2 (22)申请日 2022.08.24 (71)申请人功夫链（上海）体育文化发展有限公司地址 200040 上海市静安区延安西路12 9号 2208室 (72)发明人李翔　黄玉阔　韩潼瑜　 (74)专利代理机构大连大工智讯专利代理事务所(特殊普通合伙) 2124 4 专利代理师梁左秋 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/42(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称一种移动端实时人体姿态估计方法及系统 (57)摘要本发明涉及姿态检测技术领域，提供一种移动端实时人体姿态估计方法及系统，所述方法包括：步骤100，利用图像采集设备采集检测图片；步骤200，将检测图片输入姿态识别模型的主干网络中，进行特征提取，得到特征图；其中，所述姿态识别模型，包括：主干网络、多个反转置卷积层和一个卷积层；所述主干网络采用MobileViT 网络；步骤300，将主干网络输出的特征图，依次输入多个反转置卷积层和一个卷积层，得到人体关键点的热力图；步骤400，根据热力图，预测出最终的人体关键点信息，实现人体姿态估计。本发明能够保证网络的轻量化，大降低模型参数量和计算量，提高检测速度。权利要求书1页说明书5页附图1页 CN 115359514 A 2022.11.18 CN 115359514 A 1.一种移动端实时人体姿态估计方法，其特征在于，包括以下过程：步骤100，利用图像采集设备采集检测图片；步骤200，将检测图片输入姿态识别模型的主干网络中，进行特征提取，得到特征图；其中，所述姿态识别模型，包括：主干网络、多个反转置卷积层和一个卷积层；所述主干网络采用MobileViT网络；步骤300，将主干网络输出的特征图，依次输入多个反转置卷积层和一个卷积层，得到人体关键点的热力图；步骤400，根据热力图，预测出最终的人体关键点信息，实现人体姿态估计。 2.根据权利要求1所述的移动端实时人体姿态估计方法，其特征在于，所述MobileViT 网络，包括：依次设置的3*3 卷积模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 MobileViT Block模块、 Mobilenetv2模块、 MobileViT Block模块、 Mobi lenetv2模块、 Mobi leViT Block模块。 3.根据权利要求2所述的移动端实时人体姿态估计方法，其特征在于，所述3*3卷积模块采用降采样2倍，第二个、第五个、第六个和第七个Mobi lenetv2模块均采用降采样2倍。 4.根据权利要求3所述的移动端实时人体姿态估计方法，其特征在于，所述MobileViT Block模块里包含Transformer Encoder模块。 5.根据权利要求4所述的移动端实时人体姿态估计方法，其特征在于，所述 Transformer Encoder模块具有自注意力机制； Transformer Encoder模块内部经过多头注意力机制后，输出的特征向量经过二个全连接层，然后进行层归一化操作。 6.根据权利要求1或5所述的移动端实时人体姿态估计方法，其特征在于，所述反转置卷积层的数量是三个，所述卷积层是1*1卷积层。 7.一种移动端实时人体姿态估计系统，其特征在于，包括：采集模块、特征提取模块、反转置卷积处理模块和输出模块；所述采集模块，用于利用图像采集设备采集检测图片；所述特征提取模块，用于将检测图片输入姿态识别模型的主干网络中，进行特征提取，得到特征图；其中，所述姿态识别模型，包括：主干网络、多个反转置卷积层和一个卷积层；所述主干网络采用Mobi leViT网络；所述反转置卷积处理模块，用于将主干网络输出的特征图，依次输入多个反转置卷积层和一个卷积层，得到人体关键点的热力图；所述输出模块，用于根据热力图，预测出最终的人体关键点信息，实现人体姿态估计。权　利　要　求　书 1/1 页 2 CN 115359514 A 2一种移动端实时人体姿态估计方法及系统技术领域 [0001]本发明涉及姿态检测技术领域，尤其涉及一种移动端实时人体姿态估计方法及系统。背景技术 [0002]2D人体姿态估计(Human Pose Estimation， HPE)是视觉的重要任务，核心任务是检测视频或图片里的人体手部、肩、胯部等各个关节点信息，是很多任务的铺垫工作。人体姿态估计在智慧社区、安全校园、 A I游戏互动等领域应用越来越广。为了确保各个场景的速度和精度，提高人体姿态估计的速度和精度是及其核心的任务。 [0003]最近十年，深度学习蓬勃发展，已经广泛应用到2d人体姿态估计中。在深度学习领域，出名的效果棒的人体姿态关键点算法有基于resnet为主干网络的SimpleBaseline方法，保持多分辨率并行的Hrnet，并行子网络的多尺度特征融合让速度很慢。 [0004]当前的2D人体姿态估计主要是采用传统的纯卷积网络，研究存在参数量大，计算复杂，推理速度慢的问题，尤其对于移动端等计算资源十分有限的场景。在移动端进行2D姿态的研究部署时，很难达到网络性能和部署环境的平衡：在保证高鲁棒性高精度的同时很难保证高的检测速度。基于传统的计算机视觉技术，很难在最新的移动端达到功耗小且高精度，移动端设备性能与网络计算复杂度难以平衡。 [0005]综上所述，现有的移动端人体姿态估计方法主要是采用传统的纯卷积网络，无法对复杂的场景有好的鲁棒性，很难对人体姿态进行高精度和高速度的实时估计。发明内容 [0006]本发明主要解决现有的移动端人体姿态估计方法主要是采用传统的纯卷积网络，无法对复杂的场景有好的鲁棒性，很难对人体姿态进行高精度和高速度的实时估计等技术问题，提出一种移动端实时人体姿态估计方法及系统，以保证网络的轻量化，大降低模型参数量和计算量，提高检测速度。 [0007]本发明提供了一种移动端实时人体姿态估计方法，包括以下过程： [0008]步骤100，利用图像采集设备采集检测图片； [0009]步骤200，将检测图片输入姿态识别模型的主干网络中，进行特征提取，得到特征图；其中，所述姿态识别模型，包括：主干网络、多个反转置卷积层和一个卷积层；所述主干网络采用Mobi leViT网络； [0010]步骤300，将主干网络输出的特征图，依次输入多个反转置卷积层和一个卷积层，得到人体关键点的热力图； [0011]步骤400，根据热力图，预测出最终的人体关键点信息，实现人体姿态估计。 [0012]优选的，所述MobileViT网络，包括：依次设置的3*3卷积模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 MobileViT Block模块、 Mobilenetv2模块、 MobileViT Block模块、 Mobilenetv2模块、 MobileViT Block说　明　书 1/5 页 3 CN 115359514 A 3

专利 一种移动端实时人体姿态估计方法及系统

专利一种移动端实时人体姿态估计方法及系统