(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210113830.X
(22)申请日 2022.01.30
(71)申请人 百度在线网络技 术 (北京) 有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦三层
(72)发明人 张丽 杜悦艺 孙亚生
(74)专利代理 机构 北京银龙知识产权代理有限
公司 11243
专利代理师 王莹
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
车牌检测方法、 模 型训练方法、 设备、 介质和
程序产品
(57)摘要
本公开提供了一种车牌检测方法、 模 型训练
方法、 设备、 介质和程序产品, 涉及计算机技术领
域, 尤其涉及深度学习技术领域。 具体实现方案
为: 基于多头注意力机制获取待识别图像的N个
特征图, 所述N个特征图的尺寸不同, N为大于1的
整数; 对所述N个特征图中的M个特征图进行语义
识别, 得到M个语义特征图, 并对所述M个语义特
征图进行融合, 得到融合语义特征图, 其中, M为
小于或者等于N的整数; 基于所述融合语义特征
图检测所述待识别图像中的车牌信息。 本公开可
以提高车牌检测的准确性。
权利要求书4页 说明书12页 附图5页
CN 114445690 A
2022.05.06
CN 114445690 A
1.一种车牌检测方法, 包括:
基于多头注意力机制获取待识别图像的N个特征图, 所述N个特征图的尺寸不同, N为大
于1的整数;
对所述N个特征图中的M个特征图进行语义识别, 得到M个语义特征图, 并对所述M个语
义特征图进行融合, 得到融合语义特 征图, 其中, M为小于或者 等于N的整数;
基于所述融合语义特 征图检测所述待识别图像中的车牌信息 。
2.根据权利要求1所述的方法, 其中, 所述基于多头注意力机制 获取待识别图像的N个
特征图, 包括:
基于窗口多头自注意层W ‑MSA机制和移位窗口多头自注意层SW ‑MSA机制, 获取待识别
图像的N个特 征图。
3.根据权利 要求2所述的方法, 其 中, 所述基于W ‑MSA机制和 SW‑MSA机制, 获取待识别图
像的N个特 征图, 包括:
基于W‑MSA机制获取所述待识别图像的第一特征图, 基于SW ‑MSA机制在所述第一特征
图的基础上, 获取所述待识别图像的第二特征图, 基于W ‑MSA机制在所述第二特征图的基础
上, 获取所述待识别图像的第三特征图, 基于SW ‑MSA机制在所述第三特征图的基础上, 获取
所述待识别图像的第四特 征图。
4.根据权利要求3所述的方法, 其中, 所述第 一特征图中的第 一目标基本单元的向量是
基于所述第一目标基本单元所在的第一窗口内的所有其他单元的向量计算得的, 所述第一
目标基本单元为所述第一特征图中任一基本单元, 所述第一窗口为W ‑MSA机制对应的固定
窗口;
所述第二特征图中的第二目标基本单元的向量是基于所述第二目标基本单元所在的
第二窗口内的所有其他单元的向量计算得的, 所述第二目标基本单元为所述第二特征图中
任一基本单 元, 所述第二窗口为SW ‑MSA机制对应的, 对所述第一窗口进行移动得到的窗口;
所述第三特征图中的第三目标基本单元的向量是基于所述第三目标基本单元所在的
第三窗口内的所有其他单元的向量计算得的, 所述第三目标基本单元为所述第三特征图中
任一基本单 元, 所述第三窗口为 W‑MSA机制对应的固定窗口;
所述第四特征图中的第四目标基本单元的向量是基于所述第四目标基本单元所在的
第四窗口内的所有其他单元的向量计算得的, 所述第四目标基本单元为所述第四特征图中
任一基本单 元, 所述第四窗口为SW ‑MSA机制对应的, 对所述第三窗口进行移动得到的窗口。
5.根据权利 要求3或4所述的方法, 其中, 所述基于W ‑MSA机制获取所述待识别图像的第
一特征图, 基于SW ‑MSA机制在所述第一特征图的基础上, 获取所述待识别图像的第二特征
图, 基于W ‑MSA机制在所述第二特征图的基础上, 获取所述待识别图像的第三特征图, 基于
SW‑MSA机制在所述第三特 征图的基础上, 获取 所述待识别图像的第四特 征图, 包括:
通过预先获取的目标模型中的第一转换器Swin Transformer网络中的第一Swin
Transformer单元基于W ‑MSA机制获取所述待识别图像的第一特征图, 其中, 所述第一Swin
Transformer网络包括所述第一Swin Transformer单元、 第二Swin Transformer单元、 第三
Swin Transformer单元和第四Swin Transformer单元, 所述第一Swin Transformer单元和
第三Swin Transformer单元包括W ‑MSA层, 所述第二Swin Transformer单元和第四Swin
Transformer单 元包括SW ‑MSA层;权 利 要 求 书 1/4 页
2
CN 114445690 A
2通过所述第二Swin Transformer单元基于SW ‑MSA机制在所述第一特征图的基础上, 获
取所述待识别图像的第二特 征图;
通过所述第三Swin Transformer单元基于W ‑MSA机制在所述第二特征图的基础上, 获
取所述待识别图像的第三特 征图;
通过所述第四Swin Transformer单元基于SW ‑MSA机制在所述第三特征图的基础上, 获
取所述待识别图像的第四特 征图。
6.根据权利要求5所述的方法, 其中, 所述目标模型还包括: 第二Swin Transformer网
络;
所述基于所述融合语义特 征图检测所述待识别图像中的车牌信息, 包括:
将所述融合语义特征图输入至所述第二Swin Transformer网络进行车牌信息预测, 得
到所述待识别图像中的车牌信息 。
7.一种车牌检测模型训练方法, 包括:
获取训练样本图像, 以及所述训练样本图像的标签信息;
通过待训练模型对训练样本图像执行预测操作, 得到预测结果, 所述预测操作包括: 基
于多头注意力机制获取所述训练样本图像的N个特征图, 所述N个特征图的尺寸不同; 对所
述N个特征图中的M个特征图进行语义识别, 得到M个语义特征图, 并对所述M个语义特征图
进行融合, 得到融合语义特征图; 基于所述融合语义特征图检测所述训练样本图像中的车
牌信息; N 为大于1的整数, M为小于或者 等于N的整数;
基于所述预测结果和所述标签信息, 对所述待训练模型的参数进行调整, 得到车牌检
测模型。
8.根据权利要求7所述的方法, 所述车牌检测模型包括第一Swin Transformer, 所述第
一Swin Transformer网络包括第一Swin Transformer单元、 第二Swin Transformer单元、
第三Swin Transformer单元和第四Swin Transformer单元, 所述第一Swin Transformer单
元和第三Swin Transformer单元包括W ‑MSA层, 所述第二Swin Transformer单元和第四
Swin Transformer单 元包括SW ‑MSA层;
所述第一Swin Transformer网络用于获取所述训练样本图像的4个尺寸不同的特征
图。
9.根据权利要求8所述的方法, 所述车牌检测模型还包括: 第二Swin Transformer网
络, 所述第二Sw in Transformer网络用于基于所述融合语义特 征图进行 车牌信息预测。
10.一种车牌检测装置, 包括:
获取模块, 用于基于多头注意力机制获取待识别图像的N个特征图, 所述N个特征图的
尺寸不同, N为大于1的整数;
识别模块, 用于对所述N个特征图中的M个特征图进行语义识别, 得到M个语义特征图,
并对所述M个 语义特征图进行融合, 得到融合语义特 征图, 其中, M为小于或者 等于N的整数;
检测模块, 用于基于所述融合语义特 征图检测所述待识别图像中的车牌信息 。
11.根据权利要求10所述的装置, 其中, 所述获取模块用于基于窗口多头自注意层W ‑
MSA机制和移位窗口多头自注意层SW ‑MSA机制, 获取待识别图像的N个特 征图。
12.根据权利要求11所述的装置, 其中, 所述获取模块用于基于W ‑MSA机制获取所述待
识别图像的第一特征图, 基于SW ‑MSA机制在所述第一特征图的基础上, 获取所述待识别图权 利 要 求 书 2/4 页
3
CN 114445690 A
3
专利 车牌检测方法、模型训练方法、设备、介质和程序产品
安全报告 >
其他 >
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:23:39上传分享