(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210360028.0 (22)申请日 2022.04.07 (71)申请人 国网智慧能源交通 技术创新中心 (苏州) 有限公司 地址 215000 江苏省苏州市苏州高新区科 技城科灵路78号6号楼 201 申请人 国网电动汽车服 务有限公司   国网湖南电动汽车服 务有限公司   北京佰汇亿达科技有限公司   湖北经济学院 (72)发明人 耿学文 朱盛开 刘文平 葛慧  李明磊 朱卫东 肖建平 范学志  董磊 朱晓波 方向亮 周杰  (74)专利代理 机构 苏州汇诚汇智专利代理事务 所(普通合伙) 32623 专利代理师 庄米雪(51)Int.Cl. G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/40(2022.01) G06V 10/22(2022.01) G06T 5/00(2006.01) G06T 3/60(2006.01) G06N 3/04(2006.01) G06F 16/532(2019.01) (54)发明名称 一种融合ViT的跨模态行人重识别方法及装 置 (57)摘要 本发明提供了一种基于深度学习模型的跨 膜态行人重识别方法及装置, 属于人工智能图像 处理领域, 方法的主要步骤为: 对行人的可见光 图像和红外图像使用数据增强技术 以增加图像 数据的多样性; 使用ResNet50网络和ViT模块融 合设计一种混合双通路深度学习网络模型, 可以 用来提取可见光和红外两种模态图像的特征; 该 模型的损失函数使用分类损失函数和改进的三 元损失函数的组合, 并且这两个损失函数的权重 随训练过程中损失函数的值的改变而改变, 从而 能够平衡两个损失函数在模型训练过程中的重 要度; 在使用过程中, 使用该模型提取不同模态 图像的特征, 并以此判断不同图像是否表示为同 一个行人。 权利要求书3页 说明书8页 附图3页 CN 114898397 A 2022.08.12 CN 114898397 A 1.一种融合ViT的跨模态行人重识别方法, 其特征在于: 获取行人的可见光和/或红外 图像, 根据行人 的可见光和/或红外图像, 在可见光和/或红外图像数据库中查询出相同的 人。 2.根据权利1所述的一种融合ViT的跨模态行人重识别方法, 其特征在于: 所述融合ViT 的跨模态行 人重识别方法, 具体包括以下步骤: S1: 获取行人的可见光图像和/或红外图像, 进行 标注, 并构建模型的训练集; S2: 对经S1标注后的可 见光图像和/或红外图像进行 数据增强; S3: 融合ResNet50网络和ViT构成深度学习网络ResNet ‑ViT, 并使用ID分类损失函数和 改进的三元损失函数的组合作为所述深度学习网络ResNet ‑ViT的损失函数; S4: 将经过S2数据增强后的可见光 图像和/或红外图像输入S3中所描述的深度学习网 络ResNet ‑ViT中, 提取 可见光图像和/或红外图像的特 征, 并进行训练; S5: 在实际使用过程中, 通过计算经过S4获取的可见光图像和/或红外图像与待查询图 像的距离来判断他们是否为同一个行 人。 3.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, S1中所 述构建模型的训练集的具体方法如下: 使用目标检测方法将行人在可见光图像和红外图像 中的边界框找出, 并将包含行人 的边界框缩放为相对应大小的图像, 并对同一个行人 的图 像标注为相同的编码。 4.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, S2中所 述的数据增强方法具体如下: 针对行人的可见光图像, 使用包括: 随机擦除部分图像、 转换为灰度图像、 随机小角度 旋转、 左右翻转、 随机选择一个通道、 随机调整亮度、 随机调整对比度、 随机调整饱和度和随 机调整色调的方法的一种及上述方法的组合进行 数据增强; 或者, 针对行人的红外图像, 使用包括: 随机擦除部分图像、 转换为灰度图像、 随机小角 度旋转、 左右翻转、 随机选择一个通道、 随机调整亮度、 随机调整对比度、 随机调整饱和度和 随机调整色调的方法中的一种及上述方法的组合进行 数据增强。 5.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, S3中所 述深度学习网络ResNet ‑ViT的具体结构如下: 所述深度学习网络ResNet ‑ViT是一种混合双通路深度学习网络架构, 它的主干 网络由 ResNet50网络和ViT模块融合构成。 6.根据权利要求5所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, 所述 ResNet50网络包括一个卷积层块和四个残差网络块串联, 依次被标注为block0 ‑x、 residual block1‑x、 residual  block2‑x、 residual  block3和residual  block4。 7.根据权利要求6所述的一种融合ViT的跨模态行 人重识别方法, 其特 征在于, 所述深度学习网络ResNet ‑ViT图像处 理过程具体如下: 行人的可见光图像V和红外图像I分别放入block0 ‑x, residual  block1‑x和residual   block2‑x中提取浅层特征和各模态的固有特征, 然后输入具有共享参数的residual   block3和residual  block4残差块中提取高层特 征以及不同模型的不同模态的共有特 征; 所述深度学习网络ResNet ‑ViT使用ResNet50网络提取行人图像特征的同时, 在卷积层 块和每个残差块的输出分别使用V iT模块提取信息, 然后串 联起来, 最 终和ResNet50网络提权 利 要 求 书 1/3 页 2 CN 114898397 A 2取的特征合并在一起构成行人图像的特征F, 所述F为一个一 维向量; F再经过一个批处理层 输入到分类层。 8.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, S3中所 述深度学习网络ResNet ‑ViT的损失函数 具体为: 其中, 代表ID分类损失函数, 表示一种改进的三元损失函数, w1(t)和w2(t)分别 表示随训练迭代次数而动态改变的两个损失函数的系数; 所述ID分类损失函数 的具体定义 为: 其中, N表示一个训练批次中图像的数量, yj代表图像j所标注的行人编码, f(xj)表示图 像j经过ResNet ‑ViT分类层所 得到预测的行 人编码; 所述一种改进的三元损失函数 的具体定义 为: 其中, 和(i, j, k)表示一个三元组, 对 于一个图像样本xi, j和k分别表示和xi是同一个模态和不同模态的图像; 对 于一个图像样本 xi, Pi表示和xi标识为同一个行人 的图像集合, Ni表示和xi标识为不同行人 的图像集合; dij 表示两个图像i, j的距离; 所述w1(t)和w2(t)分别表示ID分类损失函数和一种改进的三元损失函数 的权重系 数, 其计算公式如下: 其中, k∈{1, 2}, Lk(t‑1)表示第k个损失函数在第t ‑1次迭代时的值。 9.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, S4中所 述深度学习网络ResNet ‑ViT训练过程具体如下: 深度学习网络ResNet ‑ViT中ResNet50网络 的初始参数采用针对ImageNet数据集的预训练模型, ViT模块的初始参数采用针对 ImageNet ‑21k数据集的预训练模 型, 每个训练过程同时选择n张行人的可见光图像和n张行 人的红外图像一起放入ResNet ‑ViT进行训练, 学习率采用动态自适应的策略进行, 其中n≥ 1。 10.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法, 其特征在于, S5所述 “在实际使用过程中, 通过计算经过S4 获取的可见光图像和/或红外图像与待查询图像的距 离来判断他们是否为同一个行 人”的具体步骤 包括: 当行人的可见光图像为待查询图像, 需要从红外图像组成的红外候选图像集中查询待 查询图像是同一人的红外图像, 使用深度学习网络ResNet ‑ViT提取行人的可见光图像的特 征和红外候选图像集中每张红外图像的特征, 然后根据图像的特征选出红外候选图像集中权 利 要 求 书 2/3 页 3 CN 114898397 A 3

.PDF文档 专利 一种融合ViT的跨模态行人重识别方法及装置

安全报告 > 其他 > 文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合ViT的跨模态行人重识别方法及装置 第 1 页 专利 一种融合ViT的跨模态行人重识别方法及装置 第 2 页 专利 一种融合ViT的跨模态行人重识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 07:35:26上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。