(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210152495.4
(22)申请日 2022.02.18
(71)申请人 北京市商汤科技 开发有限公司
地址 100080 北京市海淀区北四环西路58
号11层1101-1117室
(72)发明人 窦浩轩 甘伟豪
(74)专利代理 机构 北京林达刘知识产权代理事
务所(普通 合伙) 11277
专利代理师 刘新宇
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 40/16(2022.01)
G06V 10/30(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
G06K 9/62(2022.01)
(54)发明名称
计算机视觉模 型训练方法及装置、 电子设备
和存储介质
(57)摘要
本公开涉及一种计算机视觉模型训练方法
及装置、 电子设备和存储介质, 所述方法通过获
取分别来自多个电子设备的多组模 型参数, 以根
据预设的模型框架分别确定与各组模型参数对
应的视觉模 型, 并根据各视觉模 型生成多个合成
图像。 进一步地, 通过各合成图像对各视觉模型
进行模型蒸馏, 得到目标视觉模型。 本公开实施
例可以通过与多个电子设备进行一次模型参数
的通信得到多个视觉模型, 并在不接收各电子设
备训练集的情况下通过合 成图像进行模型蒸馏,
得到融合多个视觉模型特性的目标视觉模型。 本
公开实施例的训练方法能够通过模型蒸馏的方
式融合多个视觉模型特性, 且在融合模型特性的
同时有效保护各电子设备的隐私。
权利要求书2页 说明书14页 附图11页
CN 114549983 A
2022.05.27
CN 114549983 A
1.一种计算机 视觉模型训练方法, 其特 征在于, 所述方法包括:
获取多个视 觉模型;
分别根据各 所述视觉模型生成多个合成图像;
将各所述合成图像分别作为各所述视觉模型的输入进行模型蒸馏, 得到目标视觉模
型。
2.根据权利要求1所述的方法, 其特征在于, 所述分别根据 各所述视觉模型生成多个合
成图像包括:
确定初始的多个噪声图像;
将各初始的所述噪声图像分别输入各所述视觉模型中进行迭代更新, 直至第 一损失函
数的值满足收敛 条件, 得到与各 所述噪声图像对应的合成图像,
其中, 所述第一损失函数的值 根据第一损失、 第二损失以及第三损失确定 。
3.根据权利要求2所述的方法, 其特征在于, 所述第 一损失用于表征对应视觉模型在检
测所述噪声图像过程中产生的损失;
所述第二损失用于表征 所述噪声图像与真实图像相似程度;
所述第三损失用于表征所述噪声图像在对应视觉模型的各批处理层传递过程中产生
的损失。
4.根据权利要求3所述的方法, 其特 征在于, 所述第一损失的确定过程包括:
确定初始的每 个所述噪声图像对应的第一标注结果;
将各初始的所述噪声图像分别输入各 所述视觉模型中, 得到对应的第二标注结果;
根据每个所述噪声图像的第一标注结果和第二标注结果确定第一损失。
5.根据权利要求3或4所述的方法, 其特征在于, 所述第二损 失根据所述噪声图像中各
像素值确定 。
6.根据权利要求3 ‑5中任意一项所述的方法, 其特征在于, 所述第三损失根据所述噪声
图像输入对应视觉模型后各批处理层输出的第一特征图, 以及输入各所述批处理层的第二
特征图确定 。
7.根据权利要求1 ‑6中任意一项所述的方法, 其特征在于, 所述将各所述合成图像分别
作为各所述视觉模型的输入进行模型蒸馏, 得到目标视 觉模型包括:
在各所述视觉模型中确定用于迁移其他视觉模型检测性 能的第一视觉模型, 并将除了
第一视觉模型以外的其 他模型作为第二视 觉模型;
将各所述合成图像分别作为所述第一视觉模型和各所述第二视觉模型的输入进行模
型蒸馏, 得到目标视 觉模型。
8.根据权利要求7所述的方法, 其特征在于, 所述将各所述合成图像分别作为所述第 一
视觉模型和各 所述第二视 觉模型的输入进行模型蒸馏, 得到目标视 觉模型包括:
将各所述合成图像输入第一视 觉模型得到第一检测结果;
将各所述合成图像分别输入第二视 觉模型得到第二检测结果;
通过第二损 失函数迭代训练所述第一视觉模型, 得到目标视觉模型, 所述第二损 失函
数根据所述第一检测结果和各 所述第二检测结果确定 。
9.根据权利要求1 ‑8中任意一项所述的方法, 其特 征在于, 所述方法还 包括:
响应于接收到模型 更新请求, 返回所述目标视 觉模型的目标模型参数。权 利 要 求 书 1/2 页
2
CN 114549983 A
210.根据权利要求8 或9所述的方法, 其特征在于, 所述第 二损失函数为所述第 一检测结
果和每个所述第二检测结果的L2范 数和。
11.根据权利要求7 ‑10中任意 一项所述的方法, 其特 征在于, 所述方法还 包括:
获取所述多个电子设备中存 储的真实图像;
所述将各所述合成图像分别作为所述第一视觉模型和各所述第二视觉模型的输入进
行模型蒸馏, 得到目标视 觉模型包括:
将各所述真实图像和各所述合成图像分别作为所述第一视觉模型和各所述第二视觉
模型的输入进行模型蒸馏, 得到目标视 觉模型。
12.一种计算机 视觉模型训练装置, 其特 征在于, 所述装置包括:
模型确定模块, 用于获取多个视 觉模型;
图像生成模块, 用于分别根据各 所述视觉模型生成多个合成图像;
模型蒸馏模块, 用于将各所述合成图像分别作为各所述视觉模型的输入进行模型蒸
馏, 得到目标视 觉模型。
13.一种电子设备, 其特 征在于, 包括:
处理器;
用于存储处理器可执行指令的存 储器;
其中, 所述处理器被配置为调用所述存储器存储的指令, 以执行权利要求1至11中任意
一项所述的方法。
14.一种计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所述计算机
程序指令被处 理器执行时实现权利要求1至1 1中任意一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114549983 A
3
专利 计算机视觉模型训练方法及装置、电子设备和存储介质
安全报告 >
其他 >
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:23:34上传分享