(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210130124.6
(22)申请日 2022.02.11
(71)申请人 苏州玖合智能科技有限公司
地址 215131 江苏省苏州市相城经济技 术
开发区澄阳街道澄阳路116号阳澄湖
国际科技创业园3号楼3 05室
(72)发明人 张修文
(74)专利代理 机构 南京科阔知识产权代理事务
所(普通合伙) 3240 0
专利代理师 苏兴建
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
(54)发明名称
采用卷积神经网络的视频行为检测方法
(57)摘要
一种基于卷积神经网络的视频行为检测方
法, 步骤是先采集视频, 然后对视频采用行为检
测模型进行处理。 所述行为检测模 型的建立步骤
包括: 1)搭建PyT orch深度学习框架, 用YOLOv5算
法训练行为检测模型; 2)修改YOLOv5网络: 2.1)
YOLOv5网络在完成特征提取后, 进行多尺度的特
征图构建特征金字塔: 2.2)在YOLOv5网络加入可
变形卷积网络: 2.3)在YOL Ov5网络的特征提取网
络中加入注意力机制; 3)训练网络; 4)利用训练
好的模型进行detect, 从而得到 检测网络模型。
权利要求书1页 说明书3页 附图1页
CN 114926893 A
2022.08.19
CN 114926893 A
1.一种采用卷积神经网络的视频行为检测方法, 先采集视频, 然后对视频采用行为检
测模型进行处 理; 所述行为检测模型的建立 步骤包括:
1)搭建PyTorc h深度学习框架, 用YOLOv5算法训练行为检测模型;
2)修改YOLOv5网络:
2.1)YOLOv5网络在完成特征提取后, 进行多尺度的特征图构建特征金字塔: 先得到尺
度最大的特征层即为第一特征层; 然后进行一个上采样获得一个特征层; 再使用r oute层获
取一个倒数第二次下采样的卷积层; 将两个中尺度的特征层混合得到第二特征层, 以此类
推, 得到第三特 征层和第四特 征层;
2.2)在YOLOv5网络加入可变形 卷积网络:
YOLOv5中的特征金字塔结构采用自下而上的方式进行特征融合, 3个特征层的提取均
与底层残差块的输出相关联; 使用可变形卷积替换了主干网络中第4个残差块Residual
Block4部分的3 ×3卷积;
2.3)在YOLOv5网络的特 征提取网络中加入注意力机制;
3)训练网络;
4)利用训练好的模型进行detect, 从而得到检测网络模型。
2.根据权利要求1所述的采用卷积神经网络的视频行为检测方法, 其特征是所述步骤
1)中: 首先, 进 行行人数据采集, 采用旋转、 翻转及随机裁剪等数据增广的方法扩大样本, 每
三十到六十帧截取一张图像; 增强处理后的图像进入分类网络, 经过多层卷积, 提取图像特
征信息, 生成不同尺度的特 征图, 形成特 征金字塔进入检测网络 。
3.根据权利要求1所述的采用卷积神经网络的视频行为检测方法, 其特征是所述步骤
2.3)中, 将SENet通道注意力机制引入backbone中第二个卷积模块后, 用于增强含有较大信
息的通道特 征, 并对含有特征信息较少的通道进行抑制。权 利 要 求 书 1/1 页
2
CN 114926893 A
2采用卷积神经 网络的视频行为检测方 法
技术领域
[0001]本发明涉及人群计数技术领域, 具体涉及一种采用 卷积神经网络的行为检测方
法。
背景技术
[0002]基于计算机视觉的人体行为识别,是在成功完成跟踪和特征提取的基础上来实现
的,属于更高层次的视 觉任务。
[0003]近些年,人体行为识别已经成为了计算机视觉领域的研究热点,其在视频监控、 虚
拟现实、 人机智能交互、 视频检索、 医疗看护和运动分析等领域都有重大的研究意义,同时
也具有很强的实用价 值。
[0004]目前国内外对人体行为识别都投入了大量研究,也取得了一定进展,但是由于人
体动作具有高度的复杂性和多变性,加上复杂的外界条件,使得行为识别的精确度和高效
性并不能满足相关行业的要求, 离实用化还有相当一段距离。 近年来,研究人员提出了很多
不同的方法进行 人体行为识别,其中基于 机器学习的方法受到越来越多的关注。
发明内容
[0005]本发明要解决的技术问题是提供一种基于卷积神经网络的视频行为检测方法, 步
骤是, 先采集视频, 然后对视频采用行为检测模型进 行处理。 所述行为检测模型的建立步骤
包括:
[0006]1)搭建PyTorc h深度学习框架, 用YOLOv5算法训练行为检测模型;
[0007]2)修改YOLOv5网络:
[0008]2.1)YOLOv5网络在完成特征提取后, 进行多尺度的特征图构建特征金字塔: 先得
到尺度最大的特征层即为第一特征层; 然后进行一个上采样获得一个特征层; 再使用r oute
层获取一个倒数第二次下采样的卷积层; 将两个中尺度的特征层混合得到第二特征层, 以
此类推, 得到第三特 征层和第四特 征层;
[0009]2.2)在YOLOv5网络加入可变形 卷积网络:
[0010]YOLOv5中的特征金字塔结构采用自下而上的方式进行特征融合, 3个特征层的提
取均与底层残差块的输出相关联, 因此提高底层残差模块对特征图上不同大小感受野的适
应能力能够在最大程度上提高模型 的定位精度, 使用可变形卷积替换了主干网络中第4个
残差块(Residual Block4)部分的3 ×3卷积;
[0011]2.3)在YOLOv5网络的特 征提取网络中加入注意力机制
[0012]3)训练网络;
[0013]4)利用训练好的模型进行detect, 从而得到检测网络模型。
[0014]所述步骤1)中: 首先, 进行行人数据采集, 采用旋转、 翻转及随机裁剪等数据增广
的方法扩 大样本, 每三十到六十帧截取一张图像; 增强处理后的图像进入分类网络, 经过多
层卷积, 提取图像特 征信息, 生成不同尺度的特 征图, 形成特 征金字塔进入检测网络 。说 明 书 1/3 页
3
CN 114926893 A
3
专利 采用卷积神经网络的视频行为检测方法
安全报告 >
其他 >
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:23:48上传分享