专利 一种基于结构重参数化的目标检测加速方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210368258.1 (22)申请日 2022.04.01 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人周志强　董云鹏　缪玲娟　明奇　宋俊杰　 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于结构重参数化的目标检测加速方法 (57)摘要本发明公开了一种基于结构重参数化的目标检测加速方法，针对卷积神经网络目标检测模型，构造一种可重参数化的检测头结构，构造出的多分支解耦检测头经过训练后，使用了通道切分实现特征对齐，也即通道切分层将输入特征切分为两部分，分别对应分类和回归任务，实验证明改进后网络训练收敛速度、精度都有提升；构造的多分支解耦检测头结构，可在实际部署推断时等价的转换为单路结构，在参数量、计算量、计算密度方面都有对于推断速度的提升；最后目标检测头通过填充卷积核实现的分组卷积融合，融合后只有一个3 ×3卷积层，计算密度、并行度相比现有设计具有显著优势。权利要求书1页说明书6页附图2页 CN 114842241 A 2022.08.02 CN 114842241 A 1.一种基于结构重参数化的目标检测加速方法，其特征在于，包括：针对图像中提取得到的包括表征目标位置和目标类别的特征数据后，将其输入检测头，对检测头进行训练；所述检测头包括特征尺度变换单元、通道切换层以及两个检测通道；所述特征尺度变换单元包括顺次设置的第一1 ×1卷积层、第一批标准化层和激活函数层；所述通道切换层将特征尺度变换单元输出的特征数据切分为两部分，两部分特征尺寸变为其中， H×W×C为特征尺度变换单元输出的特征数据的尺寸， H、 W分别为特征图像的高度和宽度， C为特征图通道个数；两个所述检测通道分别对应接收特征数据中的目标位置数据和目标类别数据；每个检测通道均包括顺次设置的第二1 ×1卷积层、第二批标准化层、第一3 ×3卷积层、第三批标准化层、第三1 ×1卷积层以及第四批标准化层；用训练好的检测头进行目标检测。 2.如权利要求1所述的一种基于结构重参数化的目标检测加速方法，其特征在于，用训练好的检测头进行目标检测前，先对其进行等价转换，具体为：首先，将特征尺度变换单元中第一1 ×1卷积层和第一批标准化层转换为一个第四1 ×1 卷积层；然后，对两个检测通道均进行第一次转换：将第二1×1卷积层和第二批标准化层转换为一个第五 1×1卷积层；将第一3×3卷积层和第三批标准化层转换为一个第二3 ×3卷积层；将第三1×1卷积层以及第四批标准化层转换为第六1 ×1卷积层；最后，对两个检测通道进行第二次转换，即：将第一次转换后的两个检测通道分别转换为一个第三3 ×3卷积层；利用等价转换后的检测头进行目标检测。 3.如权利要求2所述的一种基于结构重参数化的目标检测加速方法，其特征在于，在对两个检测通道进行第二次转换后，再对其进行第三次转换，然后再利用检测头进行目标检测；其中，第三次转换为：将两个第三3 ×3卷积层转换成一个第四3 ×3卷积层。 4.如权利要求3所述的一种基于结构重参数化的目标检测加速方法，其特征在于，所述第三次转换的具体方法为：将两个第三3 ×3卷积层对应拼接一个与各自尺度相同且权值为 0的卷积层后，得到的两个卷积层再进行拼接，从而得到一个第四3 ×3卷积层。权　利　要　求　书 1/1 页 2 CN 114842241 A 2一种基于结构重参数化的目标检测加速方法技术领域 [0001]本发明属于深度学习技术领域，具体涉及一种基于结构重参数化的目标检测加速方法。背景技术 [0002]当前卷积神经网络算法是计算机视觉领域的一个重要研究方向，基于卷积神经网络的目标检测模型获得了远超传统方法的优良性能。然而，目标检测模型性能的提升也使得算法所需的计算量和存储需求大幅提升，这对端侧嵌入式设备在低功耗、实时处理等方面提出了更高要求。在自动驾驶、无人零售等新兴业务的应用场景中，向云端上传数据得到结果后再回传的方法耗时过长，实时性较差。而为了满足实时性的要求，将网络轻量化后部署在嵌入式端侧设备中的方法具有显著的优势。随着嵌入式设备算力的不断增强和模型轻量化技术的发展，深度学习目标检测模型开始在嵌入式端侧设备中使用，但其部署后的运行速度还难以满足实际需求，存在很大的改进空间。本发明提出的一种基于结构重参数化的嵌入式卷积神经网络加速方法正是在这种背景下的研究。 [0003]在实际场景中，嵌入式端侧设备计算能力较差，一般先在拥有充足计算资源的服务器端完成模型的训练，然后将其部署到嵌入式端侧设备上，服务器端训练时消耗的计算资源对嵌入式端侧设备推理时的开销和性能没有影响。本发明基于结构重参数化，在训练时使用更多的计算资源来构造一种具有高精度但推断速度较慢的分支卷积神经网络结构，而在实际部署应用时将网络分支合并，将其等价地转换为具有同样精度且推理速度快的网络结构，进而实现卷积神经网络在嵌入式端侧设备上的加速。 [0004]现有的其他深度学习模型轻量化方法如模型剪枝、模型量化、直接设计轻量化网络等，在实际应用时存在部署困难、实际加速效果微弱等问题，比如本发明所使用的NV IDIA Jetson TX2嵌入式GPU平台不支持INT8计算，也就无法使用INT8量化来对模型进行加速；一些轻量化卷积神经网络虽然计算量、参数量较小，但其内存访问成本增加，在嵌入式GPU设备上加速效果微弱。而本发明所提出的加速方法可应用于各种端侧嵌入式设备，同时在其他现有深度学习模型加速方法可行的情况下可结合使用，实现进一步加速，具有显著的优势。发明内容 [0005]有鉴于此，本发明的目的是提供一种基于结构重参数化的目标检测加速方法，可提高检测精度和速度。 [0006]一种基于结构重参数化的目标检测加速方法，包括： [0007]针对图像中提取得到的包括表征目标位置和目标类别的特征数据后，将其输入检测头，对检测头进行训练； [0008]所述检测头包括特征尺度变换单元、通道切换层以及两个检测通道； [0009]所述特征尺度变换单元包括顺次设置的第一1 ×1卷积层、第一批标准化层和激活说　明　书 1/6 页 3 CN 114842241 A 3

专利 一种基于结构重参数化的目标检测加速方法

专利一种基于结构重参数化的目标检测加速方法