(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210924562.X (22)申请日 2022.08.02 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 陈雨蓉 陈卫刚  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 傅朝栋 张法高 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/56(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 基于多标签图像识别的非机动车骑行人属 性识别方法 (57)摘要 本发明公开了一种基于多标签图像识别的 非机动车骑行人属性识别方法, 属于计算机视觉 领域。 针对实际应用系统期望识别的非机动车骑 行人属性, 既有与较大范围图像区域相关的属 性, 又有只涉及较小图像区域的属性, 本发明的 识别方法采用多分支网络结构, 分别由不同的分 支网络识别那些涉及较小图像区域的属性、 涉及 中等尺寸图像区域的属性和涉及较大范围图像 区域的属性; 进一步地, 本发明的特征提取模块 和特征金字塔模块提取多个尺度、 具有不同大小 感受野的特征图, 并选择合适大小感受野的特征 图分别输入到上述各个分支网络, 从而保证各个 分支网络都具有较好的识别精度。 权利要求书3页 说明书7页 附图3页 CN 115294650 A 2022.11.04 CN 115294650 A 1.一种基于多标签图像识别的非机动车骑行人属性识别方法, 其特征在于, 该方法包 括: S1、 构建用于实现多标签 图像识别的深度神经网络模型, 所述深度神经网络模型由特 征提取模块、 特 征金字塔模块和多标签识别模块组成; 所述特征提取模块采用ConvNeXt网络的前三级卷积层组, 且在每级卷积层组后各附加 一个空间注意力模块; 输入到深度神经网络模型 的待识别图像为RGB颜色空间的彩色图像 其中W和H分别为图像的宽和高, 首先将x转换成HSV颜色空间的图像x ′, 并将 x′的色度分量图像和饱和度分量图像与x在通道方向拼接形成一个W ×H×5的图像作为特 征提取模块中第一级 卷积层组的输入, 其余两级 卷积层组分别以上一级 卷积层组和空间注 意力模块的输出 特征图作为输入; 所述特征金字塔模块用于对特征提取模块中各级卷积层组和 空间注意力模块输出的 特征图作进一步的处理, 形成大小分别为 和 的特 征图P1、 P2和P3; 所述多标签识别模块包含三个分支网络, 其中第一 分支网络以特征图P1为输入, 用于识 别涉及第一尺度范围图像区域的属性; 第二分支网络以P2为输入, 用于识别涉及第二尺度 范围图像区域的属性; 第三分支网络以P3为输入, 用于识别涉及第三尺度范围图像区域的 属性; 所述第一尺度范围、 第二尺度范围和第三尺度范围的尺度依次递增; 其中, 对于多标 签识别模块中的任意第 i个分支网络, i=1,2,3, 首先对通道数为Np的输入特征图Pi作自适 应平均池化操作后形成一个Np×1的向量, 然后将该向量输入到全连接层, 再通过后接的 Sigmoid激活操作输出一个Ki×1的向量作为 所述第i个分支网络的最终输出, 其中Ki等于第 i个分支网络识别的属性数目; 三个分支网络各自输出的向量被拼接成一个K ×1的向量后 作为多标签识别模块最终输出 的预测标签, 向量中的第k个元素表示以概率形式给出 的输 入图像出现第k个属性的可能性, 其中K=K1+K2+K3为总的属性类别数; S2、 对S1中构建的深度神经网络模型进行训练, 特征提取模块、 特征金字塔模块和多标 签识别模块的各个网络层次的参数以学习的方式确定; S3、 针对待识别图像 将其输入经过S2中训练的深度神经网络模型中, 由多标签识别 模块输出对应的预测标签 若向量 的第j个元素 大于预设的阈值τ, 则判定输入图像 具备第j个属性。 2.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法, 其特 征在于, 所述特征提取模块中, 任意第i级卷积层组之后均附加一个空间注 意力模块, i= 1, 2,3, 内部数据处 理流程如下: 对于任意第i级卷积层组 , 该卷积层组中最后一个残差块的输出特征图为 其中w、 h和Nc分别为特征图的高度、 宽度和 通道数; 第i级卷积层组附加的空 间注意力模块包含四个卷积层, 前三个卷积层均包含Nc/16个卷积核, 第四个卷积层包含1 个卷积核; 第一和第四个卷积层的卷积核大小为1 ×1, 卷积步长为1; 第二和第三个卷积层 采用卷积核大小为3 ×3、 空洞率为4、 填充 大小为4、 卷积步长为 1的空洞卷积; 前三个卷积层 均后接一个批标准化操作和ReLU激活操作; 第四个卷积层的输出经Sigmoid函数计算后在权 利 要 求 书 1/3 页 2 CN 115294650 A 2通道方向以复制的方式扩展成与z ′相同大小的特征图Cp, 最后以z ′ ×(1+Cp)作为第i级卷积 层组和空间注意力模块的输出Ci。 3.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法, 其特 征在于, 所述特征金字塔模块对特征提取模块中各级 卷积层组输出的特征图作进一步的处 理, 具体包括: 特征金字塔模块的最顶层以接在ConvNeXt网络的第三级卷积层组后的空间注意力模 块输出的特征图C3为输入, 其中C3的大小为 输入特征图C3首先经过一个包含 256个大小为1 ×1且步长为1的卷积核的卷积层, 形成特征图 然后特征图 经过一个包 含256个大小为3 ×3且步长为1的卷积核的卷积层, 形成特 征图P3; 接在ConvNeXt网络的第二级卷积层组后的空间注意力模块输出的特征图C2的大小为 特征图C2首先经过一个包含256个大小为1 ×1且步长为1的卷积核的卷积层, 形成的特征图与 经转置卷积上采样后的特征图进行逐元素的求和运算生成特征图 然 后特征图 经过一个包 含256个大小为3 ×3且步长为1的卷积核的卷积层, 形成特 征图P2; 接在ConvNeXt网络第一级卷积层组后的空间注意力模块输出的特征图C1的大小为 特征图C1首先经过一个包含256个大小为1 ×1且步长为1的卷积核的卷积层, 形成的特征图与 经转置卷积上采样后的特征图进行逐元素的求和运算生成特征图 然 后特征图 经过一个包 含256个大小为3 ×3且步长为1的卷积核的卷积层, 形成特 征图P1。 4.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法, 其特 征在于, 所述涉及第一尺度范围图像区域的属性包括是否佩戴头盔、 头盔颜色、 是否佩戴口 罩、 是否有置物、 背包位置、 下衣种类和下衣 颜色。 5.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法, 其特 征在于, 所述涉及第二尺度范围图像区域的属性包括上衣种类、 上衣 颜色和车辆挡风颜色。 6.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法, 其特 征在于, 所述涉及第三尺度范围图像区域的属 性包括骑行人性别、 是否载人和非机动车类 型。 7.根据权利要求1所述的基于多标签图像识别的非机动车骑行人属性识别方法, 其特 征在于, 所述S2中, 用于训练深度神经网络模型的训练样本集为 其中N为 集合中的样 本数目; xl为第l个样 本图像; yl为针对样 本图像xl标注的标签数据, 是一个K ×1 的向量, 向量中的每个元素对应一个属性, 若样本图像xl被标注具备第j个属性, 则与该属 性对应的元 素yl,j=1, 否则yl,j=0; 以样本图像xl为深度神经网络模型的输入, 由多标签识别模块的三个分支网络的输出 经拼接形成的向量 为 按下式计算对应样本图像xl的损失函数: 在学习阶段, 将训练样本集中的样本 图像输入模型, 以最小化所有样本的损 失函数之权 利 要 求 书 2/3 页 3 CN 115294650 A 3

.PDF文档 专利 基于多标签图像识别的非机动车骑行人属性识别方法

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多标签图像识别的非机动车骑行人属性识别方法 第 1 页 专利 基于多标签图像识别的非机动车骑行人属性识别方法 第 2 页 专利 基于多标签图像识别的非机动车骑行人属性识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 04:41:19上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。