专利 采用卷积神经网络的视频行为检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210130124.6 (22)申请日 2022.02.11 (71)申请人苏州玖合智能科技有限公司地址 215131 江苏省苏州市相城经济技术开发区澄阳街道澄阳路116号阳澄湖国际科技创业园3号楼3 05室 (72)发明人张修文　 (74)专利代理机构南京科阔知识产权代理事务所(普通合伙) 3240 0 专利代理师苏兴建 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称采用卷积神经网络的视频行为检测方法 (57)摘要一种基于卷积神经网络的视频行为检测方法，步骤是先采集视频，然后对视频采用行为检测模型进行处理。所述行为检测模型的建立步骤包括： 1)搭建PyT orch深度学习框架，用YOLOv5算法训练行为检测模型； 2)修改YOLOv5网络： 2.1) YOLOv5网络在完成特征提取后，进行多尺度的特征图构建特征金字塔： 2.2)在YOLOv5网络加入可变形卷积网络： 2.3)在YOL Ov5网络的特征提取网络中加入注意力机制； 3)训练网络； 4)利用训练好的模型进行detect，从而得到检测网络模型。权利要求书1页说明书3页附图1页 CN 114926893 A 2022.08.19 CN 114926893 A 1.一种采用卷积神经网络的视频行为检测方法，先采集视频，然后对视频采用行为检测模型进行处理；所述行为检测模型的建立步骤包括： 1)搭建PyTorc h深度学习框架，用YOLOv5算法训练行为检测模型； 2)修改YOLOv5网络： 2.1)YOLOv5网络在完成特征提取后，进行多尺度的特征图构建特征金字塔：先得到尺度最大的特征层即为第一特征层；然后进行一个上采样获得一个特征层；再使用r oute层获取一个倒数第二次下采样的卷积层；将两个中尺度的特征层混合得到第二特征层，以此类推，得到第三特征层和第四特征层； 2.2)在YOLOv5网络加入可变形卷积网络： YOLOv5中的特征金字塔结构采用自下而上的方式进行特征融合， 3个特征层的提取均与底层残差块的输出相关联；使用可变形卷积替换了主干网络中第4个残差块Residual Block4部分的3 ×3卷积； 2.3)在YOLOv5网络的特征提取网络中加入注意力机制； 3)训练网络； 4)利用训练好的模型进行detect，从而得到检测网络模型。 2.根据权利要求1所述的采用卷积神经网络的视频行为检测方法，其特征是所述步骤 1)中：首先，进行行人数据采集，采用旋转、翻转及随机裁剪等数据增广的方法扩大样本，每三十到六十帧截取一张图像；增强处理后的图像进入分类网络，经过多层卷积，提取图像特征信息，生成不同尺度的特征图，形成特征金字塔进入检测网络。 3.根据权利要求1所述的采用卷积神经网络的视频行为检测方法，其特征是所述步骤 2.3)中，将SENet通道注意力机制引入backbone中第二个卷积模块后，用于增强含有较大信息的通道特征，并对含有特征信息较少的通道进行抑制。权　利　要　求　书 1/1 页 2 CN 114926893 A 2采用卷积神经网络的视频行为检测方法技术领域 [0001]本发明涉及人群计数技术领域，具体涉及一种采用卷积神经网络的行为检测方法。背景技术 [0002]基于计算机视觉的人体行为识别,是在成功完成跟踪和特征提取的基础上来实现的,属于更高层次的视觉任务。 [0003]近些年,人体行为识别已经成为了计算机视觉领域的研究热点,其在视频监控、虚拟现实、人机智能交互、视频检索、医疗看护和运动分析等领域都有重大的研究意义,同时也具有很强的实用价值。 [0004]目前国内外对人体行为识别都投入了大量研究,也取得了一定进展,但是由于人体动作具有高度的复杂性和多变性,加上复杂的外界条件,使得行为识别的精确度和高效性并不能满足相关行业的要求，离实用化还有相当一段距离。近年来,研究人员提出了很多不同的方法进行人体行为识别,其中基于机器学习的方法受到越来越多的关注。发明内容 [0005]本发明要解决的技术问题是提供一种基于卷积神经网络的视频行为检测方法，步骤是，先采集视频，然后对视频采用行为检测模型进行处理。所述行为检测模型的建立步骤包括： [0006]1)搭建PyTorc h深度学习框架，用YOLOv5算法训练行为检测模型； [0007]2)修改YOLOv5网络： [0008]2.1)YOLOv5网络在完成特征提取后，进行多尺度的特征图构建特征金字塔：先得到尺度最大的特征层即为第一特征层；然后进行一个上采样获得一个特征层；再使用r oute 层获取一个倒数第二次下采样的卷积层；将两个中尺度的特征层混合得到第二特征层，以此类推，得到第三特征层和第四特征层； [0009]2.2)在YOLOv5网络加入可变形卷积网络： [0010]YOLOv5中的特征金字塔结构采用自下而上的方式进行特征融合， 3个特征层的提取均与底层残差块的输出相关联，因此提高底层残差模块对特征图上不同大小感受野的适应能力能够在最大程度上提高模型的定位精度，使用可变形卷积替换了主干网络中第4个残差块(Residual Block4)部分的3 ×3卷积； [0011]2.3)在YOLOv5网络的特征提取网络中加入注意力机制 [0012]3)训练网络； [0013]4)利用训练好的模型进行detect，从而得到检测网络模型。 [0014]所述步骤1)中：首先，进行行人数据采集，采用旋转、翻转及随机裁剪等数据增广的方法扩大样本，每三十到六十帧截取一张图像；增强处理后的图像进入分类网络，经过多层卷积，提取图像特征信息，生成不同尺度的特征图，形成特征金字塔进入检测网络。说　明　书 1/3 页 3 CN 114926893 A 3

专利 采用卷积神经网络的视频行为检测方法

专利采用卷积神经网络的视频行为检测方法