专利 基于Vit网络启发式自监督训练的抛洒物异常检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211041629.1 (22)申请日 2022.08.29 (71)申请人安徽大学地址 230000 安徽省合肥市肥西路3号 (72)发明人李根宇　姜入文　 (74)专利代理机构徐州迈程知识产权代理事务所(普通合伙) 32576 专利代理师胡建豪 (51)Int.Cl. G06V 20/54(2022.01) G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Vit网络启发式自监督训练的抛洒物异常检测方法 (57)摘要本发明公开基于Vit网络启发式自监督训练的抛洒物异常检测方法，包括以下步骤：获取高速公路抛洒物数据集、进行Vit网络的自监督训练、利用教师网络搭建二分类网络、在二分类网络中进行分类网络训练和异常区域定位并检测抛洒物异常；本发明基于Vit的教师学生网络，在超大规模自然图像数据集上进行自监督训练，使 Vit网络在高维空间中学习到自然正常图像的结构特征，从而能够在高速公路这一复杂场景环境下，发现异常图像局部的空间不规则性，然后在此基础上构建基于预训练的Vit骨架网络的二分类网络进行高速公路抛洒物异常检测，与传统的无监督和半监督方法相比，能够解决高速公路抛洒物异常检测问题，且具有通用性。权利要求书3页说明书6页附图2页 CN 115359441 A 2022.11.18 CN 115359441 A 1.基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于，包括以下步骤：步骤一：先利用不同高速路段上的高速公路摄像头对正常的高速公路路面进行图像采集，得到正常路面图像，再利用不同高速路段上的高速公路摄像头对带有抛洒物的异常高速公路路面进行图像采集，得到异常路面图像；步骤二：选取ImageNet数据集作为训练集，并在ImageNet数据集上对待训练图片进行视觉变换器网络的自监督训练，实现教师网络的训练；步骤三：待教师网络训练完毕后取出训练好的教师网络作为特征提取的骨架网络并冻结网络参数，再在骨架网络后面接入一个带线性整流模块的分类头，搭建二分类网络；步骤四：先将采集到的正常路面图像和异常路面图像进行掩码预处理，再将掩码预处理后的正常路面图像和异常路面图像输入到搭建好的二分类网络中进行分类网络训练；步骤五：待二分类网络训练完毕后，对于正常图像，将其特征抑制图舍去，对于异常图像，将其特征抑制图保留作为异常定位图并进行异常检测。 2.根据权利要求1所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述步骤一中，采集正常路面图像和异常路面图像的具体步骤为：先选定高速公路摄像头的位置并在选定的位置采集监控视频，再在采集的监控视频中选取抛洒物明显的视频和无抛洒物的视频，然后在选取的视频中每二十帧截取一帧，分别得到异常路面图像和正常路面图像。 3.根据权利要求1所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述步骤二中，自监督训练的具体步骤为： A1、将待训练的图片分别进行两种不同的数据增强，生成两部分数据，并分别送入结构相同的教师网络和学生网络； A2、将教师网络的输出向量进行中心化和锐化之后再和学生网络输出向量计算损失函数，反向传播更新学生网络参数； A3、根据当前教师网络参数和更新后的学生网络参数加权求和更新教师网络参数，并且由当前教师网络输出向量的中心值和当前批量的平均值加权求和更新当前的中心值，实现教师网络的训练。 4.根据权利要求3所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述A1 中，所述教师网络和学生网络结构相同，由基本的vit网络和将vit网络输出映射到高维特征空间的投影头组成，对于ImageNet数据集中的待训练图片，一方面通过数据增广T1统一缩放其尺寸为224 ×224×3，生成两张全局图Xg1和Xg2，并送入教师网络gt中，另一方面通过数据增广T2统一缩放其尺寸为112 ×112×3，生成n张局部图Xcn，将两张全局图和n张局部图送入学生网络gs中。 5.根据权利要求3所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述A2中，由前向传播过程得到教师网络的输出gt(Xg)和学生网络的输出gs(Xg+ Xc)，对学生网络的输出进行softmax 归一化，得到一个6 5536维的概率分布向量p1，其中：权　利　要　求　书 1/3 页 2 CN 115359441 A 2对于教师网络的输出gt(Xg)，先进行中心化和锐化处理，公式如下： gt(Xg)←(gt(Xg)‑C)/T(e) 式中， C为教师网络输出的各维度上的平均值， T(e)为随训练epoch变化的温度，然后对经过中心化和锐化处理后的教师网络输出gt(Xg)进行softmax归一化，提供分布监督信号 p2，其中：对学生网络的分布P1和教师网络的分布P2求交叉熵损失，得到整个网络的损失函数为： lossD＝‑P2logP1 计算每个全局图和任意一个局部图的交叉熵损失，求和之后再取平均值，则最终优化目标为：最后通过随机梯度下降的方式优化学生网络gs。 6.根据权利要求3所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：在学生网络完成参数更新的基础之上，利用指数移动平均的方式更新教师网络参数，跟据当前学生网络参数和上一个epoch的教师网络参数加权求和，更新教师网络参数，其公式如下： gt←α gt+(1‑α )gs 其中α采用余弦衰减的方式，范围在0.996～1之间，教师网络参数更新完毕后，更新教师网络输出的center变量C，公式如下：式中γ采用经验参数0.9，利用一个批量的均值对center变量C的跳变产生抑制作用。 7.根据权利要求1所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述步骤三中，所述二分类网络在有监督情况下进行微调训练，训练时冻结住骨架部分的参数，单独训练分类头网络，损失函数为lossF＝CrossEntropyLoss(Label, Output)。 8.根据权利要求1所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述步骤四中，所述掩码预处理的具体步骤为：先利用预训练的YoloV5网络，检测出高速公路上的车辆和行人，并将该区域用近似背景颜色的单一颜色掩码填充，然后再将填充后的图片缩放至720 ×360×3后送入到二分类网络。 9.根据权利要求1所述的基于Vit网络启发式自监督训练的抛洒物异常检测方法，其特征在于：所述步骤四中，所述骨架网络输出特征图后再经过一次线性整流模块的特征抑制，使正常图像和异常图像提取到的特征差异更加明显，计算过程如下：权　利　要　求　书 2/3 页 3 CN 115359441 A 3

专利 基于Vit网络启发式自监督训练的抛洒物异常检测方法

专利基于Vit网络启发式自监督训练的抛洒物异常检测方法