(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210368258.1
(22)申请日 2022.04.01
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 周志强 董云鹏 缪玲娟 明奇
宋俊杰
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于结构重参数化的目标检测加速方
法
(57)摘要
本发明公开了一种基于结构重参数化的目
标检测加速方法, 针对卷积神经网络目标检测模
型, 构造一种可重参数化的检测头结构, 构造出
的多分支解耦检测头经过训练后, 使用了通道切
分实现特征对齐, 也即通道切分层将输入特征切
分为两部分, 分别对应分类和回归任务, 实验证
明改进后网络训练收敛速度、 精度都有提升; 构
造的多分支解耦检测头结构, 可在实际部署推断
时等价的转换为单路结构, 在参数量、 计算量、 计
算密度方面都有对于推断速度的提升; 最后目标
检测头通过填充卷积核实现的分组卷积融合, 融
合后只有一个3 ×3卷积层, 计算密度、 并行度相
比现有设计具有显著优势。
权利要求书1页 说明书6页 附图2页
CN 114842241 A
2022.08.02
CN 114842241 A
1.一种基于结构重参数化的目标检测 加速方法, 其特 征在于, 包括:
针对图像中提取得到的包括表征目标位置和目标类别的特征数据后, 将其输入检测
头, 对检测头进行训练;
所述检测头包括特 征尺度变换 单元、 通道切换层以及两个 检测通道;
所述特征尺度变换单元包括顺 次设置的第一1 ×1卷积层、 第一批标准化层和激活函数
层;
所述通道切换层将特征尺度变换单元输出的特征数据切分为两部分, 两部分特征尺寸
变为
其中, H×W×C为特征尺度 变换单元输出的特征数据的尺寸, H、 W分别为特
征图像的高度和宽度, C为特 征图通道个数;
两个所述检测通道分别对应接收特征数据中的目标位置数据和目标类别数据; 每个检
测通道均包括顺次设置的第二1 ×1卷积层、 第二批标准化层、 第一3 ×3卷积层、 第三批标准
化层、 第三1 ×1卷积层以及第四批标准 化层;
用训练好的检测头进行目标检测。
2.如权利要求1所述的一种基于结构重参数化的目标检测加速方法, 其特征在于, 用训
练好的检测头进行目标检测前, 先对其进行等 价转换, 具体为:
首先, 将特征尺度变换单元中第一1 ×1卷积层和第一批标准化层转换为一个第四1 ×1
卷积层;
然后, 对两个 检测通道均进行第一次转换:
将第二1×1卷积层和第二批标准 化层转换为 一个第五 1×1卷积层;
将第一3×3卷积层和第三批标准 化层转换为 一个第二3 ×3卷积层;
将第三1×1卷积层以及第四批标准 化层转换为第六1 ×1卷积层;
最后, 对两个检测通道进行第 二次转换, 即: 将第 一次转换后的两个检测通道分别转换
为一个第三3 ×3卷积层;
利用等价转换后的检测头进行目标检测。
3.如权利要求2所述的一种基于结构重参数化的目标检测加速方法, 其特征在于, 在对
两个检测 通道进行第二次转换后, 再对其进行第三次转换, 然后再利用检测头进行目标检
测; 其中, 第三次转换为:
将两个第三3 ×3卷积层转换成一个第四3 ×3卷积层。
4.如权利要求3所述的一种基于结构重参数化的目标检测加速方法, 其特征在于, 所述
第三次转换的具体方法为: 将两个第三3 ×3卷积层对应拼接一个与各自尺度相同且权值为
0的卷积层后, 得到的两个卷积层再进行拼接, 从而得到一个第四3 ×3卷积层。权 利 要 求 书 1/1 页
2
CN 114842241 A
2一种基于结构重 参数化的目标 检测加速方 法
技术领域
[0001]本发明属于深度学习技术领域, 具体涉及 一种基于结构重参数化的目标检测加速
方法。
背景技术
[0002]当前卷积神经网络算法是计算机视觉领域的一个重要研究方向, 基于卷积神经网
络的目标检测模型获得了远超传统方法的优良性能。 然而, 目标检测模型性能的提升也使
得算法所需的计算量和存储需求大幅提升, 这对端侧嵌入式设备在低功耗、 实时处理等方
面提出了更高要求。 在自动 驾驶、 无人零售等新兴业务的应用场景中, 向云端 上传数据得到
结果后再回传的方法耗时过长, 实时性较差。 而为了满足实时性的要求, 将网络轻量化后部
署在嵌入式端侧设备中的方法具有显著的优势。 随着嵌入式设备算力的不断增强和模型轻
量化技术的发展, 深度学习目标检测模型开始在嵌入式端侧设备中使用, 但其部署后的运
行速度还难以满足实际需求, 存在很大 的改进空间。 本发明提出 的一种基于结构重参数化
的嵌入式卷积神经网络加速方法正是在这种背景 下的研究。
[0003]在实际场景中, 嵌入式端侧 设备计算能力较差, 一般先在拥有充足计算资源的服
务器端完成模型 的训练, 然后将其部署到嵌入式端侧设备上, 服务器端训练时消 耗的计算
资源对嵌入式端侧设备推理时的开销和 性能没有影响。 本发明基于结构重参数化, 在训练
时使用更多的计算资源来构造一种具有高精度但推断速度较慢的分支卷积神经网络结构,
而在实际部署应用时将网络 分支合并, 将其等价地转换为具有同样精度且推理速度快的网
络结构, 进 而实现卷积神经网络在嵌入式端侧设备 上的加速 。
[0004]现有的其他深度学习模型轻量化方法如模型剪枝、 模型量化、 直接设计轻量化网
络等, 在实际应用时存在部署困难、 实际加速效果微弱等问题, 比如本发 明所使用的NV IDIA
Jetson TX2嵌入式GPU平台不支持INT8计算, 也就无法使用INT8量化来对模 型进行加速; 一
些轻量化卷积神经网络虽然计算量、 参数量较小, 但其内存访问成本增加, 在嵌入式GPU设
备上加速效果微弱。 而本发明所提出 的加速方法可应用于各种端侧嵌入式设备, 同时在其
他现有深度学习模型加速方法可行 的情况下可结合使用, 实现进一步加速, 具有显著的优
势。
发明内容
[0005]有鉴于此, 本发明的目的是提供一种基于结构重参数化的目标检测加速方法, 可
提高检测精度和速度。
[0006]一种基于结构重参数化的目标检测 加速方法, 包括:
[0007]针对图像中提取得到的包括表征目标位置和目标类别的特征数据后, 将其输入检
测头, 对检测头进行训练;
[0008]所述检测头包括特 征尺度变换 单元、 通道切换层以及两个 检测通道;
[0009]所述特征尺度变换单元包括顺次设置的第一1 ×1卷积层、 第一批标准化层和激活说 明 书 1/6 页
3
CN 114842241 A
3
专利 一种基于结构重参数化的目标检测加速方法
安全报告 >
其他 >
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:34:02上传分享