(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210297392.7 (22)申请日 2022.03.24 (71)申请人 清华大学深圳国际研究生院 地址 518055 广东省深圳市南 山区西丽 街 道深圳大 学城清华校区A栋二楼 (72)发明人 王好谦 闫嘉依  (74)专利代理 机构 深圳新创友知识产权代理有 限公司 4 4223 专利代理师 孟学英 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/70(2017.01) G06V 10/62(2022.01) G06V 10/25(2022.01) G06V 10/80(2022.01)G06V 10/776(2022.01) G06V 10/82(2022.01) G06V 20/30(2022.01) G06K 9/62(2022.01) (54)发明名称 一种视觉跟踪方法及跟踪 装置 (57)摘要 本发明提供一种视觉跟踪 方法及跟踪装置, 方法包括: 实时获取包含目标人物的待测视频; 构建跟踪网络并用采集的行人视频数据集训练 所述跟踪网络, 所述跟踪网络基于对比学习结构 使用特征池 结构更新模板特征; 用训练好的跟踪 网络确定所述待测视频中的目标人物的目标人 物框, 得到跟踪结果。 通过增加特征池结构, 优化 模板分支的特征, 特征池能够在低时间复杂 度动 态更新模板, 更好地匹配后续帧特征, 有效降低 累计误差, 缓解跟踪框漂移问题; 特征池结构能 够让跟踪网络模 型在长时序列跟踪保持稳定, 提 高跟踪方法的鲁棒 性。 权利要求书3页 说明书11页 附图4页 CN 114638862 A 2022.06.17 CN 114638862 A 1.一种视 觉跟踪方法, 其特 征在于, 包括如下步骤: S1: 实时获取包 含目标人物的待测视频; S2: 构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络, 所述跟踪网络基于 对比学习结构使用特 征池结构更新模板特 征; S3: 用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框, 得到跟踪结 果。 2.如权利要求1所述的视 觉跟踪方法, 其特 征在于, 构建所述跟踪网络的结构如下: 采用特征融合网络对特征池中的模板特征、 头特征和后续帧特征进行增强和融合, 得 到融合特 征图; 采用预测头网络对所述融合特 征图进行 预测得到后续帧的跟踪结果。 3.如权利要求2所述的视觉跟踪方法, 其特征在于, 所述特征融合网络采用 Transformer网络结构, 包 含自注意力和互注意力两种机制; 所述预测头网络包 含分类分支、 回归分支、 中心测度分支三个并联 结构; 所述分类分支用于所述行 人视频数据集中图像帧的前 景和背景的二分类; 所述回归分支用于所述行 人视频数据集中图像帧的边界框的回归; 所述中心测度分支用于归一 化预测框内像素到目标中心的距离 。 4.如权利要求3所述的视觉跟踪方法, 其特征在于, 基于对比学习结构使用特征池结构 更新模板特 征包括: 特征池F={fi}, 其中, fi是存储帧, i是正整数; 存储帧按照下标大小存储为队列结构, 下标越小, 存储位置越靠前; 其中, i= 1时为模板帧, i>1时为后续帧; 对于所述后续帧, 帧的 分类分支预测置信度与中心测度分支置信度乘积越大, 下 标i越小; 预先设置阈值, 若所述特征池中帧数大于等于阈值, 则融合所述特征池中与所述阈值 数量相等的帧对应的特征向量, 得到模板特征; 若 所述特征池中 帧数小于所述阈值, 则融合 所述特征池中所有帧对应的特 征向量得到模板特 征。 5.如权利要求4所述的视觉跟踪方法, 其特征在于, 在所述特征池中增加头框和全身 框, 用所述头框和所述全身框中心的线段相对全身框对角线的比例与夹角共同约束相对位 置的约束; 所述头框和所述全身框均维护一组所述特征池结构, 同一帧目标人物的头框和全身框 在各自池内的存 储位置相同。 6.如权利要求5所述的视觉跟踪方法, 其特征在于, 采用加权 融合方式融合所述特征池 中特征, 权重系数为 的幂次方, 得到特征的加 权和后调整整体系数, 使得所有权重系数和 为1, 具体融合结果的表达式为: 其中, Xk是特征池得到的融合特 征模板, k 为从融合特 征池中取的帧的数量。 7.如权利要求6所述的视觉跟踪方法, 其特征在于, 采集的行人视频数据集使用整体跟 踪损失函数LT训练所述跟踪网络;权 利 要 求 书 1/3 页 2 CN 114638862 A 2所述整体跟踪损失函数表达式为由头 轨迹约束损失LH和密集损失LC两部分组成: LT=β LH+(1‑β )LC 其中, β 为超参数; 其中, 所述头约束损失LH的表达式为: 其中, γ1、 γ2为超参数, l为标注的头框和全身框中心点距离, L为标注的全身框对角线 长度, θ 为 l与L的夹角, 为从对应预测结果中得到的值; 所述密集损失函数LC的表达式为: Lc=Lcls+λ1Lreg+λ2Lcent 其中, Lcls是分类损失, Lreg是回归损失, Lcent是中心测度损失, λ1和 λ2为权重参数; 所述分类损失和中心测度损失均交叉熵损失形式表示, 表达式为: 其中, a是cls或cent, La是分类损失或中心测度损失, j是第j帧样本, yaj是第j帧的标 签, paj是第j帧分类分支或中心测度分支的预测置信度; 所述中心测度分支的预测置信度表达式为: 其中, l*、 r*、 t*、 b*分别是预测的中心点到全身标签框左边界、 右边界、 上边界、 下边界的 距离; 回归损失表达式为: Lreg=LGIOU+α1Lagg‑α2Lrep 其中, LGIOU是泛化交并比损失, Lagg是聚合损失, Lrep是排斥损失, α1、 α2为权重参数。 所述泛化交并比损失函数表达式为: LGIOU=1‑GIOU(gt,bj) 所述泛化交并比表达式为: 其中, gt是全身标签框, bj是全身预测框, C是能够包住gt和bj的最小框 。 所述聚合损失函数表达式为: 其中, gtj是第j帧目标人物的全身标签框, pi是归属于第j帧标签框的全身预测框, |pj+| 是第j帧预测为 正样本的候选 框数目; 所述smoothl1函数表达式为:权 利 要 求 书 2/3 页 3 CN 114638862 A 3

.PDF文档 专利 一种视觉跟踪方法及跟踪装置

安全报告 > 其他 > 文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视觉跟踪方法及跟踪装置 第 1 页 专利 一种视觉跟踪方法及跟踪装置 第 2 页 专利 一种视觉跟踪方法及跟踪装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 07:35:32上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。