专利 一种视觉跟踪方法及跟踪装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210297392.7 (22)申请日 2022.03.24 (71)申请人清华大学深圳国际研究生院地址 518055 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼 (72)发明人王好谦　闫嘉依　 (74)专利代理机构深圳新创友知识产权代理有限公司 4 4223 专利代理师孟学英 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/70(2017.01) G06V 10/62(2022.01) G06V 10/25(2022.01) G06V 10/80(2022.01)G06V 10/776(2022.01) G06V 10/82(2022.01) G06V 20/30(2022.01) G06K 9/62(2022.01) (54)发明名称一种视觉跟踪方法及跟踪装置 (57)摘要本发明提供一种视觉跟踪方法及跟踪装置，方法包括：实时获取包含目标人物的待测视频；构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络，所述跟踪网络基于对比学习结构使用特征池结构更新模板特征；用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框，得到跟踪结果。通过增加特征池结构，优化模板分支的特征，特征池能够在低时间复杂度动态更新模板，更好地匹配后续帧特征，有效降低累计误差，缓解跟踪框漂移问题；特征池结构能够让跟踪网络模型在长时序列跟踪保持稳定，提高跟踪方法的鲁棒性。权利要求书3页说明书11页附图4页 CN 114638862 A 2022.06.17 CN 114638862 A 1.一种视觉跟踪方法，其特征在于，包括如下步骤： S1：实时获取包含目标人物的待测视频； S2：构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络，所述跟踪网络基于对比学习结构使用特征池结构更新模板特征； S3：用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框，得到跟踪结果。 2.如权利要求1所述的视觉跟踪方法，其特征在于，构建所述跟踪网络的结构如下：采用特征融合网络对特征池中的模板特征、头特征和后续帧特征进行增强和融合，得到融合特征图；采用预测头网络对所述融合特征图进行预测得到后续帧的跟踪结果。 3.如权利要求2所述的视觉跟踪方法，其特征在于，所述特征融合网络采用 Transformer网络结构，包含自注意力和互注意力两种机制；所述预测头网络包含分类分支、回归分支、中心测度分支三个并联结构；所述分类分支用于所述行人视频数据集中图像帧的前景和背景的二分类；所述回归分支用于所述行人视频数据集中图像帧的边界框的回归；所述中心测度分支用于归一化预测框内像素到目标中心的距离。 4.如权利要求3所述的视觉跟踪方法，其特征在于，基于对比学习结构使用特征池结构更新模板特征包括：特征池F＝{fi}，其中， fi是存储帧， i是正整数；存储帧按照下标大小存储为队列结构，下标越小，存储位置越靠前；其中， i＝ 1时为模板帧， i>1时为后续帧；对于所述后续帧，帧的分类分支预测置信度与中心测度分支置信度乘积越大，下标i越小；预先设置阈值，若所述特征池中帧数大于等于阈值，则融合所述特征池中与所述阈值数量相等的帧对应的特征向量，得到模板特征；若所述特征池中帧数小于所述阈值，则融合所述特征池中所有帧对应的特征向量得到模板特征。 5.如权利要求4所述的视觉跟踪方法，其特征在于，在所述特征池中增加头框和全身框，用所述头框和所述全身框中心的线段相对全身框对角线的比例与夹角共同约束相对位置的约束；所述头框和所述全身框均维护一组所述特征池结构，同一帧目标人物的头框和全身框在各自池内的存储位置相同。 6.如权利要求5所述的视觉跟踪方法，其特征在于，采用加权融合方式融合所述特征池中特征，权重系数为的幂次方，得到特征的加权和后调整整体系数，使得所有权重系数和为1，具体融合结果的表达式为：其中， Xk是特征池得到的融合特征模板， k 为从融合特征池中取的帧的数量。 7.如权利要求6所述的视觉跟踪方法，其特征在于，采集的行人视频数据集使用整体跟踪损失函数LT训练所述跟踪网络；权　利　要　求　书 1/3 页 2 CN 114638862 A 2所述整体跟踪损失函数表达式为由头轨迹约束损失LH和密集损失LC两部分组成： LT＝β LH+(1‑β )LC 其中， β 为超参数；其中，所述头约束损失LH的表达式为：其中， γ1、 γ2为超参数， l为标注的头框和全身框中心点距离， L为标注的全身框对角线长度， θ 为 l与L的夹角，为从对应预测结果中得到的值；所述密集损失函数LC的表达式为： Lc＝Lcls+λ1Lreg+λ2Lcent 其中， Lcls是分类损失， Lreg是回归损失， Lcent是中心测度损失， λ1和 λ2为权重参数；所述分类损失和中心测度损失均交叉熵损失形式表示，表达式为：其中， a是cls或cent， La是分类损失或中心测度损失， j是第j帧样本， yaj是第j帧的标签， paj是第j帧分类分支或中心测度分支的预测置信度；所述中心测度分支的预测置信度表达式为：其中， l*、 r*、 t*、 b*分别是预测的中心点到全身标签框左边界、右边界、上边界、下边界的距离；回归损失表达式为： Lreg＝LGIOU+α1Lagg‑α2Lrep 其中， LGIOU是泛化交并比损失， Lagg是聚合损失， Lrep是排斥损失， α1、 α2为权重参数。所述泛化交并比损失函数表达式为： LGIOU＝1‑GIOU(gt,bj) 所述泛化交并比表达式为：其中， gt是全身标签框， bj是全身预测框， C是能够包住gt和bj的最小框。所述聚合损失函数表达式为：其中， gtj是第j帧目标人物的全身标签框， pi是归属于第j帧标签框的全身预测框， |pj+| 是第j帧预测为正样本的候选框数目；所述smoothl1函数表达式为：权　利　要　求　书 2/3 页 3 CN 114638862 A 3

专利 一种视觉跟踪方法及跟踪装置

专利一种视觉跟踪方法及跟踪装置