专利 一种融合ViT的跨模态行人重识别方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210360028.0 (22)申请日 2022.04.07 (71)申请人国网智慧能源交通技术创新中心（苏州）有限公司地址 215000 江苏省苏州市苏州高新区科技城科灵路78号6号楼 201 申请人国网电动汽车服务有限公司　国网湖南电动汽车服务有限公司　北京佰汇亿达科技有限公司　湖北经济学院 (72)发明人耿学文　朱盛开　刘文平　葛慧　李明磊　朱卫东　肖建平　范学志　董磊　朱晓波　方向亮　周杰　 (74)专利代理机构苏州汇诚汇智专利代理事务所(普通合伙) 32623 专利代理师庄米雪(51)Int.Cl. G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/40(2022.01) G06V 10/22(2022.01) G06T 5/00(2006.01) G06T 3/60(2006.01) G06N 3/04(2006.01) G06F 16/532(2019.01) (54)发明名称一种融合ViT的跨模态行人重识别方法及装置 (57)摘要本发明提供了一种基于深度学习模型的跨膜态行人重识别方法及装置，属于人工智能图像处理领域，方法的主要步骤为：对行人的可见光图像和红外图像使用数据增强技术以增加图像数据的多样性；使用ResNet50网络和ViT模块融合设计一种混合双通路深度学习网络模型，可以用来提取可见光和红外两种模态图像的特征；该模型的损失函数使用分类损失函数和改进的三元损失函数的组合，并且这两个损失函数的权重随训练过程中损失函数的值的改变而改变，从而能够平衡两个损失函数在模型训练过程中的重要度；在使用过程中，使用该模型提取不同模态图像的特征，并以此判断不同图像是否表示为同一个行人。权利要求书3页说明书8页附图3页 CN 114898397 A 2022.08.12 CN 114898397 A 1.一种融合ViT的跨模态行人重识别方法，其特征在于：获取行人的可见光和/或红外图像，根据行人的可见光和/或红外图像，在可见光和/或红外图像数据库中查询出相同的人。 2.根据权利1所述的一种融合ViT的跨模态行人重识别方法，其特征在于：所述融合ViT 的跨模态行人重识别方法，具体包括以下步骤： S1：获取行人的可见光图像和/或红外图像，进行标注，并构建模型的训练集； S2：对经S1标注后的可见光图像和/或红外图像进行数据增强； S3：融合ResNet50网络和ViT构成深度学习网络ResNet ‑ViT，并使用ID分类损失函数和改进的三元损失函数的组合作为所述深度学习网络ResNet ‑ViT的损失函数； S4：将经过S2数据增强后的可见光图像和/或红外图像输入S3中所描述的深度学习网络ResNet ‑ViT中，提取可见光图像和/或红外图像的特征，并进行训练； S5：在实际使用过程中，通过计算经过S4获取的可见光图像和/或红外图像与待查询图像的距离来判断他们是否为同一个行人。 3.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法，其特征在于， S1中所述构建模型的训练集的具体方法如下：使用目标检测方法将行人在可见光图像和红外图像中的边界框找出，并将包含行人的边界框缩放为相对应大小的图像，并对同一个行人的图像标注为相同的编码。 4.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法，其特征在于， S2中所述的数据增强方法具体如下：针对行人的可见光图像，使用包括：随机擦除部分图像、转换为灰度图像、随机小角度旋转、左右翻转、随机选择一个通道、随机调整亮度、随机调整对比度、随机调整饱和度和随机调整色调的方法的一种及上述方法的组合进行数据增强；或者，针对行人的红外图像，使用包括：随机擦除部分图像、转换为灰度图像、随机小角度旋转、左右翻转、随机选择一个通道、随机调整亮度、随机调整对比度、随机调整饱和度和随机调整色调的方法中的一种及上述方法的组合进行数据增强。 5.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法，其特征在于， S3中所述深度学习网络ResNet ‑ViT的具体结构如下：所述深度学习网络ResNet ‑ViT是一种混合双通路深度学习网络架构，它的主干网络由 ResNet50网络和ViT模块融合构成。 6.根据权利要求5所述的一种融合ViT的跨模态行人重识别方法，其特征在于，所述 ResNet50网络包括一个卷积层块和四个残差网络块串联，依次被标注为block0 ‑x、 residual block1‑x、 residual block2‑x、 residual block3和residual block4。 7.根据权利要求6所述的一种融合ViT的跨模态行人重识别方法，其特征在于，所述深度学习网络ResNet ‑ViT图像处理过程具体如下：行人的可见光图像V和红外图像I分别放入block0 ‑x， residual block1‑x和residual block2‑x中提取浅层特征和各模态的固有特征，然后输入具有共享参数的residual block3和residual block4残差块中提取高层特征以及不同模型的不同模态的共有特征；所述深度学习网络ResNet ‑ViT使用ResNet50网络提取行人图像特征的同时，在卷积层块和每个残差块的输出分别使用V iT模块提取信息，然后串联起来，最终和ResNet50网络提权　利　要　求　书 1/3 页 2 CN 114898397 A 2取的特征合并在一起构成行人图像的特征F，所述F为一个一维向量； F再经过一个批处理层输入到分类层。 8.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法，其特征在于， S3中所述深度学习网络ResNet ‑ViT的损失函数具体为：其中，代表ID分类损失函数，表示一种改进的三元损失函数， w1(t)和w2(t)分别表示随训练迭代次数而动态改变的两个损失函数的系数；所述ID分类损失函数的具体定义为：其中， N表示一个训练批次中图像的数量， yj代表图像j所标注的行人编码， f(xj)表示图像j经过ResNet ‑ViT分类层所得到预测的行人编码；所述一种改进的三元损失函数的具体定义为：其中，和(i， j， k)表示一个三元组，对于一个图像样本xi， j和k分别表示和xi是同一个模态和不同模态的图像；对于一个图像样本 xi， Pi表示和xi标识为同一个行人的图像集合， Ni表示和xi标识为不同行人的图像集合； dij 表示两个图像i， j的距离；所述w1(t)和w2(t)分别表示ID分类损失函数和一种改进的三元损失函数的权重系数，其计算公式如下：其中， k∈{1， 2}， Lk(t‑1)表示第k个损失函数在第t ‑1次迭代时的值。 9.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法，其特征在于， S4中所述深度学习网络ResNet ‑ViT训练过程具体如下：深度学习网络ResNet ‑ViT中ResNet50网络的初始参数采用针对ImageNet数据集的预训练模型， ViT模块的初始参数采用针对 ImageNet ‑21k数据集的预训练模型，每个训练过程同时选择n张行人的可见光图像和n张行人的红外图像一起放入ResNet ‑ViT进行训练，学习率采用动态自适应的策略进行，其中n≥ 1。 10.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法，其特征在于， S5所述 “在实际使用过程中，通过计算经过S4 获取的可见光图像和/或红外图像与待查询图像的距离来判断他们是否为同一个行人”的具体步骤包括：当行人的可见光图像为待查询图像，需要从红外图像组成的红外候选图像集中查询待查询图像是同一人的红外图像，使用深度学习网络ResNet ‑ViT提取行人的可见光图像的特征和红外候选图像集中每张红外图像的特征，然后根据图像的特征选出红外候选图像集中权　利　要　求　书 2/3 页 3 CN 114898397 A 3

专利 一种融合ViT的跨模态行人重识别方法及装置

专利一种融合ViT的跨模态行人重识别方法及装置