专利 基于多标签图像识别的非机动车骑行人属性识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210924562.X (22)申请日 2022.08.02 (71)申请人浙江工商大学地址 310018 浙江省杭州市下沙高教园区学正街18号 (72)发明人陈雨蓉　陈卫刚　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师傅朝栋　张法高 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/56(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称基于多标签图像识别的非机动车骑行人属性识别方法 (57)摘要本发明公开了一种基于多标签图像识别的非机动车骑行人属性识别方法，属于计算机视觉领域。针对实际应用系统期望识别的非机动车骑行人属性，既有与较大范围图像区域相关的属性，又有只涉及较小图像区域的属性，本发明的识别方法采用多分支网络结构，分别由不同的分支网络识别那些涉及较小图像区域的属性、涉及中等尺寸图像区域的属性和涉及较大范围图像区域的属性；进一步地，本发明的特征提取模块和特征金字塔模块提取多个尺度、具有不同大小感受野的特征图，并选择合适大小感受野的特征图分别输入到上述各个分支网络，从而保证各个分支网络都具有较好的识别精度。权利要求书3页说明书7页附图3页 CN 115294650 A 2022.11.04 CN 115294650 A 1.一种基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，该方法包括： S1、构建用于实现多标签图像识别的深度神经网络模型，所述深度神经网络模型由特征提取模块、特征金字塔模块和多标签识别模块组成；所述特征提取模块采用ConvNeXt网络的前三级卷积层组，且在每级卷积层组后各附加一个空间注意力模块；输入到深度神经网络模型的待识别图像为RGB颜色空间的彩色图像其中W和H分别为图像的宽和高，首先将x转换成HSV颜色空间的图像x ′，并将 x′的色度分量图像和饱和度分量图像与x在通道方向拼接形成一个W ×H×5的图像作为特征提取模块中第一级卷积层组的输入，其余两级卷积层组分别以上一级卷积层组和空间注意力模块的输出特征图作为输入；所述特征金字塔模块用于对特征提取模块中各级卷积层组和空间注意力模块输出的特征图作进一步的处理，形成大小分别为和的特征图P1、 P2和P3；所述多标签识别模块包含三个分支网络，其中第一分支网络以特征图P1为输入，用于识别涉及第一尺度范围图像区域的属性；第二分支网络以P2为输入，用于识别涉及第二尺度范围图像区域的属性；第三分支网络以P3为输入，用于识别涉及第三尺度范围图像区域的属性；所述第一尺度范围、第二尺度范围和第三尺度范围的尺度依次递增；其中，对于多标签识别模块中的任意第 i个分支网络， i＝1,2,3，首先对通道数为Np的输入特征图Pi作自适应平均池化操作后形成一个Np×1的向量，然后将该向量输入到全连接层，再通过后接的 Sigmoid激活操作输出一个Ki×1的向量作为所述第i个分支网络的最终输出，其中Ki等于第 i个分支网络识别的属性数目；三个分支网络各自输出的向量被拼接成一个K ×1的向量后作为多标签识别模块最终输出的预测标签，向量中的第k个元素表示以概率形式给出的输入图像出现第k个属性的可能性，其中K＝K1+K2+K3为总的属性类别数； S2、对S1中构建的深度神经网络模型进行训练，特征提取模块、特征金字塔模块和多标签识别模块的各个网络层次的参数以学习的方式确定； S3、针对待识别图像将其输入经过S2中训练的深度神经网络模型中，由多标签识别模块输出对应的预测标签若向量的第j个元素大于预设的阈值τ，则判定输入图像具备第j个属性。 2.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，所述特征提取模块中，任意第i级卷积层组之后均附加一个空间注意力模块， i＝ 1, 2,3，内部数据处理流程如下：对于任意第i级卷积层组，该卷积层组中最后一个残差块的输出特征图为其中w、 h和Nc分别为特征图的高度、宽度和通道数；第i级卷积层组附加的空间注意力模块包含四个卷积层，前三个卷积层均包含Nc/16个卷积核，第四个卷积层包含1 个卷积核；第一和第四个卷积层的卷积核大小为1 ×1，卷积步长为1；第二和第三个卷积层采用卷积核大小为3 ×3、空洞率为4、填充大小为4、卷积步长为 1的空洞卷积；前三个卷积层均后接一个批标准化操作和ReLU激活操作；第四个卷积层的输出经Sigmoid函数计算后在权　利　要　求　书 1/3 页 2 CN 115294650 A 2通道方向以复制的方式扩展成与z ′相同大小的特征图Cp，最后以z ′ ×(1+Cp)作为第i级卷积层组和空间注意力模块的输出Ci。 3.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，所述特征金字塔模块对特征提取模块中各级卷积层组输出的特征图作进一步的处理，具体包括：特征金字塔模块的最顶层以接在ConvNeXt网络的第三级卷积层组后的空间注意力模块输出的特征图C3为输入，其中C3的大小为输入特征图C3首先经过一个包含 256个大小为1 ×1且步长为1的卷积核的卷积层，形成特征图然后特征图经过一个包含256个大小为3 ×3且步长为1的卷积核的卷积层，形成特征图P3；接在ConvNeXt网络的第二级卷积层组后的空间注意力模块输出的特征图C2的大小为特征图C2首先经过一个包含256个大小为1 ×1且步长为1的卷积核的卷积层，形成的特征图与经转置卷积上采样后的特征图进行逐元素的求和运算生成特征图然后特征图经过一个包含256个大小为3 ×3且步长为1的卷积核的卷积层，形成特征图P2；接在ConvNeXt网络第一级卷积层组后的空间注意力模块输出的特征图C1的大小为特征图C1首先经过一个包含256个大小为1 ×1且步长为1的卷积核的卷积层，形成的特征图与经转置卷积上采样后的特征图进行逐元素的求和运算生成特征图然后特征图经过一个包含256个大小为3 ×3且步长为1的卷积核的卷积层，形成特征图P1。 4.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，所述涉及第一尺度范围图像区域的属性包括是否佩戴头盔、头盔颜色、是否佩戴口罩、是否有置物、背包位置、下衣种类和下衣颜色。 5.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，所述涉及第二尺度范围图像区域的属性包括上衣种类、上衣颜色和车辆挡风颜色。 6.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，所述涉及第三尺度范围图像区域的属性包括骑行人性别、是否载人和非机动车类型。 7.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法，其特征在于，所述S2中，用于训练深度神经网络模型的训练样本集为其中N为集合中的样本数目； xl为第l个样本图像； yl为针对样本图像xl标注的标签数据，是一个K ×1 的向量，向量中的每个元素对应一个属性，若样本图像xl被标注具备第j个属性，则与该属性对应的元素yl,j＝1，否则yl,j＝0；以样本图像xl为深度神经网络模型的输入，由多标签识别模块的三个分支网络的输出经拼接形成的向量为按下式计算对应样本图像xl的损失函数：在学习阶段，将训练样本集中的样本图像输入模型，以最小化所有样本的损失函数之权　利　要　求　书 2/3 页 3 CN 115294650 A 3

专利 基于多标签图像识别的非机动车骑行人属性识别方法

专利基于多标签图像识别的非机动车骑行人属性识别方法