(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210308992.9
(22)申请日 2022.03.28
(71)申请人 中国人民解 放军战略支援 部队信息
工程大学
地址 450000 河南省郑州市高新区科 学大
道62号
(72)发明人 李邵梅 吉立新 黄瑞阳 宋旭晖
高超 张建朋 汪浣沙
(74)专利代理 机构 郑州大通专利商标代理有限
公司 41111
专利代理师 张立强
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 20/62(2022.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04N 17/00(2006.01)
(54)发明名称
一种基于预训练多模态模型的伪造视频检
测方法及系统
(57)摘要
本发明公开一种基于预训练多模态模型的
伪造视频检测方法及系统, 该方法包括: 步骤1、
将待检测视频中声音信息转换成文本, 并完成字
幕和和视频帧的对齐; 步骤2、 筛选出含字幕的视
频帧集合; 步骤3、 基于预训练的多模态模型逐帧
判断含字幕的视频帧集合中每个视频帧的真伪;
步骤4、 综合含字幕的视频帧集合中所有视频帧
的真伪判断结果得出待检测视频的真伪。 本发明
利用事先训练好的多模态模型同时提取视频中
的画面和声音信息, 实现视觉和听觉信息的融
合, 提高对伪造 视频检测的精度。
权利要求书2页 说明书11页 附图2页
CN 114782858 A
2022.07.22
CN 114782858 A
1.一种基于预训练多模态模型的伪造 视频检测方法, 其特 征在于, 包括:
步骤1: 将待检测视频中声 音信息转换成文本, 并完成字幕和 和视频帧的对齐;
步骤2: 筛 选出含字幕的视频帧集 合;
步骤3: 基于预训练的多模态模型 逐帧判断含字幕的视频帧集 合中每个视频帧的真伪;
步骤4: 综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真
伪。
2.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述步骤1包括:
对待检测的视频, 首先进行视觉信 息的抽取得到视频帧序列; 然后, 提取视频中的音频
信息, 利用Google的语音转文本API将音频转写成文本; 最后, 对视频帧序列和转写后的文
本进行对齐;
对于没有语音内容的视频帧, 其字幕为空, 标记为 “NULL”。
3.根据权利要求2所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述对视频帧序列和转写后的文本进行对齐包括:
对于转写文本中的每句话, 对应找出其在原始视频中起始帧和结束帧的位置, 然后把
该句话的文本当作字幕标注在起始帧和结束帧的之间的每个视频帧上, 作为这些帧的字
幕。
4.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述模型由三层组成, 第一层是嵌入层, 由四种类型的信息嵌入进 行叠加得到视频帧的
嵌入; 第二层是特征编码层, 基于预训练的VL ‑BERT模型从视频帧中提取视觉和听觉信息,
得到统一表征的特征向量; 第三层是判决层, 基于多层感知机MLP对视频帧的真伪进行判
决。
5.根据权利要求4所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述步骤3包括:
将带字幕的视频帧中的文本元素和视觉元素共同转换成序列, 进行编码嵌入后送入到
预训练的VL ‑BERT模型中提取多模态统一特 征;
对输入序列进行嵌入, 输入序列的嵌入由四类信息组成, 第 一类信息是位置嵌入, 第二
类信息是片段嵌入, 第三类信息是视 觉特征嵌入, 第四类信息是To ken嵌入;
对于每个视频帧, 转换成输入序列后, 得到上述 四类信息的嵌入, 叠加后得到输入序列
的原始信息嵌入;
将上述原始信息嵌入输入到训练好的VL ‑BERT模型中, 得到融合视觉和语言信息的统
一表征;
将该统一表征输入到多层感知机 中进行判决, 该感知机的隐藏层有2个节点, 第 一个节
点的输出值作为该视频帧是真实视频帧的概率, 输出的结果如果大于0.5, 则该视频帧判为
真实, 否则判为伪造 。
6.根据权利要求5所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述视觉特征 由视觉几何特征和视觉外观特征组成; 每个视觉元素 的视觉几何嵌入用
一个四维向量表示
其中(xLT,yLT)和(xRB,yRB)分别表示左上角和右下权 利 要 求 书 1/2 页
2
CN 114782858 A
2角的坐标, W、 H表示输入视频帧的宽度和 高度; 输入序列中的视觉元素的视觉外观特征由
AlexNet检测器进行提取。
7.根据权利要求5所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述VL ‑BERT模型由多个双向Transformer编码器组成, 每个Tran sformer由自注意力层
和全连接层构成; 该模型事先在Co nceptual Captions数据集上进行 预训练。
8.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法, 其特征在
于, 所述步骤4包括:
对于每个视频, 如果判为真实的视频帧数量大于判为伪造的视频帧数量, 则判定该视
频是真实视频, 否则判定为伪造 视频。
9.一种基于预训练多模态模型的伪造 视频检测系统, 其特 征在于, 包括:
信息转换模块, 用于将待检测视频中声音信息转换成文本, 并完成字幕和和视频帧的
对齐;
筛选模块, 用于 筛选出含字幕的视频帧集 合;
第一判断模块, 用于基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视
频帧的真伪;
第二判断模块, 用于综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检
测视频的真伪。权 利 要 求 书 2/2 页
3
CN 114782858 A
3
专利 一种基于预训练多模态模型的伪造视频检测方法及系统
安全报告 >
其他 >
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:34:20上传分享