专利 计算机视觉模型训练方法及装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210152495.4 (22)申请日 2022.02.18 (71)申请人北京市商汤科技开发有限公司地址 100080 北京市海淀区北四环西路58 号11层1101-1117室 (72)发明人窦浩轩　甘伟豪　 (74)专利代理机构北京林达刘知识产权代理事务所(普通合伙) 11277 专利代理师刘新宇 (51)Int.Cl. G06V 20/10(2022.01) G06V 40/16(2022.01) G06V 10/30(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称计算机视觉模型训练方法及装置、电子设备和存储介质 (57)摘要本公开涉及一种计算机视觉模型训练方法及装置、电子设备和存储介质，所述方法通过获取分别来自多个电子设备的多组模型参数，以根据预设的模型框架分别确定与各组模型参数对应的视觉模型，并根据各视觉模型生成多个合成图像。进一步地，通过各合成图像对各视觉模型进行模型蒸馏，得到目标视觉模型。本公开实施例可以通过与多个电子设备进行一次模型参数的通信得到多个视觉模型，并在不接收各电子设备训练集的情况下通过合成图像进行模型蒸馏，得到融合多个视觉模型特性的目标视觉模型。本公开实施例的训练方法能够通过模型蒸馏的方式融合多个视觉模型特性，且在融合模型特性的同时有效保护各电子设备的隐私。权利要求书2页说明书14页附图11页 CN 114549983 A 2022.05.27 CN 114549983 A 1.一种计算机视觉模型训练方法，其特征在于，所述方法包括：获取多个视觉模型；分别根据各所述视觉模型生成多个合成图像；将各所述合成图像分别作为各所述视觉模型的输入进行模型蒸馏，得到目标视觉模型。 2.根据权利要求1所述的方法，其特征在于，所述分别根据各所述视觉模型生成多个合成图像包括：确定初始的多个噪声图像；将各初始的所述噪声图像分别输入各所述视觉模型中进行迭代更新，直至第一损失函数的值满足收敛条件，得到与各所述噪声图像对应的合成图像，其中，所述第一损失函数的值根据第一损失、第二损失以及第三损失确定。 3.根据权利要求2所述的方法，其特征在于，所述第一损失用于表征对应视觉模型在检测所述噪声图像过程中产生的损失；所述第二损失用于表征所述噪声图像与真实图像相似程度；所述第三损失用于表征所述噪声图像在对应视觉模型的各批处理层传递过程中产生的损失。 4.根据权利要求3所述的方法，其特征在于，所述第一损失的确定过程包括：确定初始的每个所述噪声图像对应的第一标注结果；将各初始的所述噪声图像分别输入各所述视觉模型中，得到对应的第二标注结果；根据每个所述噪声图像的第一标注结果和第二标注结果确定第一损失。 5.根据权利要求3或4所述的方法，其特征在于，所述第二损失根据所述噪声图像中各像素值确定。 6.根据权利要求3 ‑5中任意一项所述的方法，其特征在于，所述第三损失根据所述噪声图像输入对应视觉模型后各批处理层输出的第一特征图，以及输入各所述批处理层的第二特征图确定。 7.根据权利要求1 ‑6中任意一项所述的方法，其特征在于，所述将各所述合成图像分别作为各所述视觉模型的输入进行模型蒸馏，得到目标视觉模型包括：在各所述视觉模型中确定用于迁移其他视觉模型检测性能的第一视觉模型，并将除了第一视觉模型以外的其他模型作为第二视觉模型；将各所述合成图像分别作为所述第一视觉模型和各所述第二视觉模型的输入进行模型蒸馏，得到目标视觉模型。 8.根据权利要求7所述的方法，其特征在于，所述将各所述合成图像分别作为所述第一视觉模型和各所述第二视觉模型的输入进行模型蒸馏，得到目标视觉模型包括：将各所述合成图像输入第一视觉模型得到第一检测结果；将各所述合成图像分别输入第二视觉模型得到第二检测结果；通过第二损失函数迭代训练所述第一视觉模型，得到目标视觉模型，所述第二损失函数根据所述第一检测结果和各所述第二检测结果确定。 9.根据权利要求1 ‑8中任意一项所述的方法，其特征在于，所述方法还包括：响应于接收到模型更新请求，返回所述目标视觉模型的目标模型参数。权　利　要　求　书 1/2 页 2 CN 114549983 A 210.根据权利要求8 或9所述的方法，其特征在于，所述第二损失函数为所述第一检测结果和每个所述第二检测结果的L2范数和。 11.根据权利要求7 ‑10中任意一项所述的方法，其特征在于，所述方法还包括：获取所述多个电子设备中存储的真实图像；所述将各所述合成图像分别作为所述第一视觉模型和各所述第二视觉模型的输入进行模型蒸馏，得到目标视觉模型包括：将各所述真实图像和各所述合成图像分别作为所述第一视觉模型和各所述第二视觉模型的输入进行模型蒸馏，得到目标视觉模型。 12.一种计算机视觉模型训练装置，其特征在于，所述装置包括：模型确定模块，用于获取多个视觉模型；图像生成模块，用于分别根据各所述视觉模型生成多个合成图像；模型蒸馏模块，用于将各所述合成图像分别作为各所述视觉模型的输入进行模型蒸馏，得到目标视觉模型。 13.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至11中任意一项所述的方法。 14.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至1 1中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114549983 A 3

专利 计算机视觉模型训练方法及装置、电子设备和存储介质

专利计算机视觉模型训练方法及装置、电子设备和存储介质