(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210491668.5
(22)申请日 2022.05.07
(65)同一申请的已公布的文献号
申请公布号 CN 114596312 A
(43)申请公布日 2022.06.07
(73)专利权人 中国科学院深圳先进技 术研究院
地址 518055 广东省深圳市南 山区深圳大
学城学苑大道1068号
专利权人 华中科技大 学协和深圳医院
(72)发明人 乔宇 何军军 宋迪平 邹静
周蔚 李英
(74)专利代理 机构 北京市诚辉律师事务所
11430
专利代理师 耿慧敏 成丹(51)Int.Cl.
G06T 7/00(2017.01)
G06T 19/00(2011.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(56)对比文件
CN 114443899 A,2022.05.06
审查员 王菲
(54)发明名称
一种视频处 理方法和装置
(57)摘要
本发明公开了一种视频处理方法和装置。 该
方法包括: 利用医学影像、 腔镜手术视频和自然
图像三种类型图像, 构建无标签数据集; 以设定
的损失函数最小化为目标预训练迁移学习模型,
该迁移学习模 型包括编码器和解码器, 其中编码
器以针对所述无标签数据集进行序列化变换后
的图像作为输入图像, 学习所述三种类型图像的
通用知识表征, 解码器利用编码器的输出特征获
得重建图像; 将预训练的编码器迁移到视频理解
模型, 以对目标镜腔手术视频中对象进行检测和
分割。 本发明能够处理视频保真盲增强、 视频理
解等多种复杂任务, 并能迁移应用到多种场景。
权利要求书2页 说明书7页 附图3页
CN 114596312 B
2022.08.02
CN 114596312 B
1.一种视频处 理方法, 包括以下步骤:
利用医学影 像、 腔镜手术视频和自然图像三种类型图像, 构建无 标签数据集;
以设定的损失函数最小化为目标预训练迁移学习 模型, 该迁移学习模型包括编码器和
解码器, 其中编码器以针对所述无标签数据集进行序列化变换后的图像作为输入图像, 学
习所述三种类型图像的通用知识 表征, 解码器利用编码器的输出 特征获得重建图像;
将预训练 的编码器迁移到视频理解模型, 以对目标腔镜手术视频中的对象进行检测和
分割。
2.根据权利要求1所述的视频处理方法, 其特征在于, 根据以下步骤预训练所述迁移学
习模型:
利用医学影 像、 腔镜手术视频和自然图像构建包 含多模态图像样本的无 标签数据集;
对于所述无 标签数据集中的图像样本, 进行随机采样和裁 剪, 获得输入图像;
设计自监 督代理任务, 通过对输入图像进行多种变换, 获得序列化变换后的图像;
以所述序列化变换后的图像作为所述编码器的输入, 所述 解码器输出重建图像。
3.根据权利要求2所述的视频处理方法, 其特征在于, 所述编码器的输入根据以下步骤
获得:
对所述无 标签数据集中的图像样本进行随机采样和裁 剪, 得到输入影像X;
以设定的概 率阈值对X进行多种变换, 得到变换后图像
, 该变换过程表示 为:
其中p是随机得到的
之间的浮点数, threshold是设定的概率阈值, transform表
示变换;
将变换后图像
输入所述编码器, 进 而由所述 解码器输出重建图像
。
4.根据权利要求3所述的视频处理方法, 其特征在于, 所述多种变换包括基于分布的变
换、 基于涂画的变换和基于掩码的变换。
5.根据权利要求1所述的视频处理方法, 其特征在于, 所述视频理解模型包括迁移的编
码器、 多尺度特征适配器、 时空多尺度注意力模块、 像素解码器、 跨尺度注意力解码器和多
层感知器, 并执 行以下过程:
对于当前时刻T, 以一定间隔采样前m个时刻的历史信息, 构成含有m+1个视频帧的图像
序列, 所述编码器以图像序列作为输入, 提取不同编码阶段的特征输入所述多尺度特征适
配器, 得到多个时刻的特征金字塔, 随后将特征金字塔多个不同分辨率的特征拉平, 拼接得
到每一个时刻的空间多尺度特 征;
将多个视频帧的多尺度图像特征通过拼接方式进行融合, 并作为所述 时空多尺度注意
力模块的输入, 通过全局与局部自适应时空注意力机制挖掘时空信息, 建模目标对 象的运
动变化, 获得时刻T的时空融合特 征;
将该时空融合特 征输入所述像素解码器, 解码出融合时空信息的特 征金字塔;
所述跨尺度注意力解码器以所述融合时空信息的特征金字塔和可学习的全局嵌入作
为输入, 预测N个物体特征, 并将其输入所述多层感知器, 预测对应的掩模嵌入和实例包围
框与类别, 将所述融合时空信息的特征金字塔特中最高分辨率的特征与掩模嵌入进行卷积权 利 要 求 书 1/2 页
2
CN 114596312 B
2运算, 进而获得时刻T的检测分割结果。
6.根据权利要求1所述的视频处理方法, 其特征在于, 所述迁移学习模型的预训练过程
还包括基于对比学习 范式的自监督学习, 对比学习 范式对应的正样本对包括: 将同模态作
为正样本对; 将具有相同特性的作为正样本对; 将对同图片进行不同数据增强获得 的样本
作为正样本对。
7.根据权利要求1所述的视频处理方法, 其特征在于, 所述损失函数是均方差损失函
数, 反映所述输入图像与所述重建图像之间的损失。
8.根据权利要求1所述的视频处理方法, 其特征在于, 所述迁移学习模型基于转换器
transformer构建。
9.一种视频处 理装置, 包括:
数据获取单元: 用于利用医学影像、 腔镜手术视频和自然图像三种类型图像, 构建无标
签数据集;
预训练单元: 用于以设定的损 失函数最小化为目标预训练迁移学习模型, 该迁移学习
模型包括编 码器和解码器, 其中编 码器以针对所述无标签数据集进行序列化变换后的图像
作为输入图像, 学习 所述三种类型图像的通用知识表征, 解码器利用编码器输出特征获得
重建图像;
迁移学习单元: 用于将预训练的编码器迁移到视频理解模型, 以对目标腔镜手术视频
中对象进行检测 和分割。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器
执行时实现根据权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114596312 B
3
专利 一种视频处理方法和装置
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:35:34上传分享