专利 一种视频处理方法和装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210491668.5 (22)申请日 2022.05.07 (65)同一申请的已公布的文献号申请公布号 CN 114596312 A (43)申请公布日 2022.06.07 (73)专利权人中国科学院深圳先进技术研究院地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号专利权人华中科技大学协和深圳医院 (72)发明人乔宇　何军军　宋迪平　邹静　周蔚　李英　 (74)专利代理机构北京市诚辉律师事务所 11430 专利代理师耿慧敏　成丹(51)Int.Cl. G06T 7/00(2017.01) G06T 19/00(2011.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (56)对比文件 CN 114443899 A,2022.05.06 审查员王菲 (54)发明名称一种视频处理方法和装置 (57)摘要本发明公开了一种视频处理方法和装置。该方法包括：利用医学影像、腔镜手术视频和自然图像三种类型图像，构建无标签数据集；以设定的损失函数最小化为目标预训练迁移学习模型，该迁移学习模型包括编码器和解码器，其中编码器以针对所述无标签数据集进行序列化变换后的图像作为输入图像，学习所述三种类型图像的通用知识表征，解码器利用编码器的输出特征获得重建图像；将预训练的编码器迁移到视频理解模型，以对目标镜腔手术视频中对象进行检测和分割。本发明能够处理视频保真盲增强、视频理解等多种复杂任务，并能迁移应用到多种场景。权利要求书2页说明书7页附图3页 CN 114596312 B 2022.08.02 CN 114596312 B 1.一种视频处理方法，包括以下步骤：利用医学影像、腔镜手术视频和自然图像三种类型图像，构建无标签数据集；以设定的损失函数最小化为目标预训练迁移学习模型，该迁移学习模型包括编码器和解码器，其中编码器以针对所述无标签数据集进行序列化变换后的图像作为输入图像，学习所述三种类型图像的通用知识表征，解码器利用编码器的输出特征获得重建图像；将预训练的编码器迁移到视频理解模型，以对目标腔镜手术视频中的对象进行检测和分割。 2.根据权利要求1所述的视频处理方法，其特征在于，根据以下步骤预训练所述迁移学习模型：利用医学影像、腔镜手术视频和自然图像构建包含多模态图像样本的无标签数据集；对于所述无标签数据集中的图像样本，进行随机采样和裁剪，获得输入图像；设计自监督代理任务，通过对输入图像进行多种变换，获得序列化变换后的图像；以所述序列化变换后的图像作为所述编码器的输入，所述解码器输出重建图像。 3.根据权利要求2所述的视频处理方法，其特征在于，所述编码器的输入根据以下步骤获得：对所述无标签数据集中的图像样本进行随机采样和裁剪，得到输入影像X；以设定的概率阈值对X进行多种变换，得到变换后图像，该变换过程表示为：其中p是随机得到的之间的浮点数， threshold是设定的概率阈值， transform表示变换；将变换后图像输入所述编码器，进而由所述解码器输出重建图像。 4.根据权利要求3所述的视频处理方法，其特征在于，所述多种变换包括基于分布的变换、基于涂画的变换和基于掩码的变换。 5.根据权利要求1所述的视频处理方法，其特征在于，所述视频理解模型包括迁移的编码器、多尺度特征适配器、时空多尺度注意力模块、像素解码器、跨尺度注意力解码器和多层感知器，并执行以下过程：对于当前时刻T，以一定间隔采样前m个时刻的历史信息，构成含有m+1个视频帧的图像序列，所述编码器以图像序列作为输入，提取不同编码阶段的特征输入所述多尺度特征适配器，得到多个时刻的特征金字塔，随后将特征金字塔多个不同分辨率的特征拉平，拼接得到每一个时刻的空间多尺度特征；将多个视频帧的多尺度图像特征通过拼接方式进行融合，并作为所述时空多尺度注意力模块的输入，通过全局与局部自适应时空注意力机制挖掘时空信息，建模目标对象的运动变化，获得时刻T的时空融合特征；将该时空融合特征输入所述像素解码器，解码出融合时空信息的特征金字塔；所述跨尺度注意力解码器以所述融合时空信息的特征金字塔和可学习的全局嵌入作为输入，预测N个物体特征，并将其输入所述多层感知器，预测对应的掩模嵌入和实例包围框与类别，将所述融合时空信息的特征金字塔特中最高分辨率的特征与掩模嵌入进行卷积权　利　要　求　书 1/2 页 2 CN 114596312 B 2运算，进而获得时刻T的检测分割结果。 6.根据权利要求1所述的视频处理方法，其特征在于，所述迁移学习模型的预训练过程还包括基于对比学习范式的自监督学习，对比学习范式对应的正样本对包括：将同模态作为正样本对；将具有相同特性的作为正样本对；将对同图片进行不同数据增强获得的样本作为正样本对。 7.根据权利要求1所述的视频处理方法，其特征在于，所述损失函数是均方差损失函数，反映所述输入图像与所述重建图像之间的损失。 8.根据权利要求1所述的视频处理方法，其特征在于，所述迁移学习模型基于转换器 transformer构建。 9.一种视频处理装置，包括：数据获取单元：用于利用医学影像、腔镜手术视频和自然图像三种类型图像，构建无标签数据集；预训练单元：用于以设定的损失函数最小化为目标预训练迁移学习模型，该迁移学习模型包括编码器和解码器，其中编码器以针对所述无标签数据集进行序列化变换后的图像作为输入图像，学习所述三种类型图像的通用知识表征，解码器利用编码器输出特征获得重建图像；迁移学习单元：用于将预训练的编码器迁移到视频理解模型，以对目标腔镜手术视频中对象进行检测和分割。 10.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114596312 B 3

专利 一种视频处理方法和装置

专利一种视频处理方法和装置