专利 车牌检测方法、模型训练方法、设备、介质和程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210113830.X (22)申请日 2022.01.30 (71)申请人百度在线网络技术（北京）有限公司地址 100085 北京市海淀区上地十街10号百度大厦三层 (72)发明人张丽　杜悦艺　孙亚生　 (74)专利代理机构北京银龙知识产权代理有限公司 11243 专利代理师王莹 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称车牌检测方法、模型训练方法、设备、介质和程序产品 (57)摘要本公开提供了一种车牌检测方法、模型训练方法、设备、介质和程序产品，涉及计算机技术领域，尤其涉及深度学习技术领域。具体实现方案为：基于多头注意力机制获取待识别图像的N个特征图，所述N个特征图的尺寸不同， N为大于1的整数；对所述N个特征图中的M个特征图进行语义识别，得到M个语义特征图，并对所述M个语义特征图进行融合，得到融合语义特征图，其中， M为小于或者等于N的整数；基于所述融合语义特征图检测所述待识别图像中的车牌信息。本公开可以提高车牌检测的准确性。权利要求书4页说明书12页附图5页 CN 114445690 A 2022.05.06 CN 114445690 A 1.一种车牌检测方法，包括：基于多头注意力机制获取待识别图像的N个特征图，所述N个特征图的尺寸不同， N为大于1的整数；对所述N个特征图中的M个特征图进行语义识别，得到M个语义特征图，并对所述M个语义特征图进行融合，得到融合语义特征图，其中， M为小于或者等于N的整数；基于所述融合语义特征图检测所述待识别图像中的车牌信息。 2.根据权利要求1所述的方法，其中，所述基于多头注意力机制获取待识别图像的N个特征图，包括：基于窗口多头自注意层W ‑MSA机制和移位窗口多头自注意层SW ‑MSA机制，获取待识别图像的N个特征图。 3.根据权利要求2所述的方法，其中，所述基于W ‑MSA机制和 SW‑MSA机制，获取待识别图像的N个特征图，包括：基于W‑MSA机制获取所述待识别图像的第一特征图，基于SW ‑MSA机制在所述第一特征图的基础上，获取所述待识别图像的第二特征图，基于W ‑MSA机制在所述第二特征图的基础上，获取所述待识别图像的第三特征图，基于SW ‑MSA机制在所述第三特征图的基础上，获取所述待识别图像的第四特征图。 4.根据权利要求3所述的方法，其中，所述第一特征图中的第一目标基本单元的向量是基于所述第一目标基本单元所在的第一窗口内的所有其他单元的向量计算得的，所述第一目标基本单元为所述第一特征图中任一基本单元，所述第一窗口为W ‑MSA机制对应的固定窗口；所述第二特征图中的第二目标基本单元的向量是基于所述第二目标基本单元所在的第二窗口内的所有其他单元的向量计算得的，所述第二目标基本单元为所述第二特征图中任一基本单元，所述第二窗口为SW ‑MSA机制对应的，对所述第一窗口进行移动得到的窗口；所述第三特征图中的第三目标基本单元的向量是基于所述第三目标基本单元所在的第三窗口内的所有其他单元的向量计算得的，所述第三目标基本单元为所述第三特征图中任一基本单元，所述第三窗口为 W‑MSA机制对应的固定窗口；所述第四特征图中的第四目标基本单元的向量是基于所述第四目标基本单元所在的第四窗口内的所有其他单元的向量计算得的，所述第四目标基本单元为所述第四特征图中任一基本单元，所述第四窗口为SW ‑MSA机制对应的，对所述第三窗口进行移动得到的窗口。 5.根据权利要求3或4所述的方法，其中，所述基于W ‑MSA机制获取所述待识别图像的第一特征图，基于SW ‑MSA机制在所述第一特征图的基础上，获取所述待识别图像的第二特征图，基于W ‑MSA机制在所述第二特征图的基础上，获取所述待识别图像的第三特征图，基于 SW‑MSA机制在所述第三特征图的基础上，获取所述待识别图像的第四特征图，包括：通过预先获取的目标模型中的第一转换器Swin Transformer网络中的第一Swin Transformer单元基于W ‑MSA机制获取所述待识别图像的第一特征图，其中，所述第一Swin Transformer网络包括所述第一Swin Transformer单元、第二Swin Transformer单元、第三 Swin Transformer单元和第四Swin Transformer单元，所述第一Swin Transformer单元和第三Swin Transformer单元包括W ‑MSA层，所述第二Swin Transformer单元和第四Swin Transformer单元包括SW ‑MSA层；权　利　要　求　书 1/4 页 2 CN 114445690 A 2通过所述第二Swin Transformer单元基于SW ‑MSA机制在所述第一特征图的基础上，获取所述待识别图像的第二特征图；通过所述第三Swin Transformer单元基于W ‑MSA机制在所述第二特征图的基础上，获取所述待识别图像的第三特征图；通过所述第四Swin Transformer单元基于SW ‑MSA机制在所述第三特征图的基础上，获取所述待识别图像的第四特征图。 6.根据权利要求5所述的方法，其中，所述目标模型还包括：第二Swin Transformer网络；所述基于所述融合语义特征图检测所述待识别图像中的车牌信息，包括：将所述融合语义特征图输入至所述第二Swin Transformer网络进行车牌信息预测，得到所述待识别图像中的车牌信息。 7.一种车牌检测模型训练方法，包括：获取训练样本图像，以及所述训练样本图像的标签信息；通过待训练模型对训练样本图像执行预测操作，得到预测结果，所述预测操作包括：基于多头注意力机制获取所述训练样本图像的N个特征图，所述N个特征图的尺寸不同；对所述N个特征图中的M个特征图进行语义识别，得到M个语义特征图，并对所述M个语义特征图进行融合，得到融合语义特征图；基于所述融合语义特征图检测所述训练样本图像中的车牌信息； N 为大于1的整数， M为小于或者等于N的整数；基于所述预测结果和所述标签信息，对所述待训练模型的参数进行调整，得到车牌检测模型。 8.根据权利要求7所述的方法，所述车牌检测模型包括第一Swin Transformer，所述第一Swin Transformer网络包括第一Swin Transformer单元、第二Swin Transformer单元、第三Swin Transformer单元和第四Swin Transformer单元，所述第一Swin Transformer单元和第三Swin Transformer单元包括W ‑MSA层，所述第二Swin Transformer单元和第四 Swin Transformer单元包括SW ‑MSA层；所述第一Swin Transformer网络用于获取所述训练样本图像的4个尺寸不同的特征图。 9.根据权利要求8所述的方法，所述车牌检测模型还包括：第二Swin Transformer网络，所述第二Sw in Transformer网络用于基于所述融合语义特征图进行车牌信息预测。 10.一种车牌检测装置，包括：获取模块，用于基于多头注意力机制获取待识别图像的N个特征图，所述N个特征图的尺寸不同， N为大于1的整数；识别模块，用于对所述N个特征图中的M个特征图进行语义识别，得到M个语义特征图，并对所述M个语义特征图进行融合，得到融合语义特征图，其中， M为小于或者等于N的整数；检测模块，用于基于所述融合语义特征图检测所述待识别图像中的车牌信息。 11.根据权利要求10所述的装置，其中，所述获取模块用于基于窗口多头自注意层W ‑ MSA机制和移位窗口多头自注意层SW ‑MSA机制，获取待识别图像的N个特征图。 12.根据权利要求11所述的装置，其中，所述获取模块用于基于W ‑MSA机制获取所述待识别图像的第一特征图，基于SW ‑MSA机制在所述第一特征图的基础上，获取所述待识别图权　利　要　求　书 2/4 页 3 CN 114445690 A 3

专利 车牌检测方法、模型训练方法、设备、介质和程序产品

专利车牌检测方法、模型训练方法、设备、介质和程序产品