专利 一种基于预训练多模态模型的伪造视频检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210308992.9 (22)申请日 2022.03.28 (71)申请人中国人民解放军战略支援部队信息工程大学地址 450000 河南省郑州市高新区科学大道62号 (72)发明人李邵梅　吉立新　黄瑞阳　宋旭晖　高超　张建朋　汪浣沙　 (74)专利代理机构郑州大通专利商标代理有限公司 41111 专利代理师张立强 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/62(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 17/00(2006.01) (54)发明名称一种基于预训练多模态模型的伪造视频检测方法及系统 (57)摘要本发明公开一种基于预训练多模态模型的伪造视频检测方法及系统，该方法包括：步骤1、将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；步骤2、筛选出含字幕的视频帧集合；步骤3、基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；步骤4、综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。本发明利用事先训练好的多模态模型同时提取视频中的画面和声音信息，实现视觉和听觉信息的融合，提高对伪造视频检测的精度。权利要求书2页说明书11页附图2页 CN 114782858 A 2022.07.22 CN 114782858 A 1.一种基于预训练多模态模型的伪造视频检测方法，其特征在于，包括：步骤1：将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；步骤2：筛选出含字幕的视频帧集合；步骤3：基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；步骤4：综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。 2.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述步骤1包括：对待检测的视频，首先进行视觉信息的抽取得到视频帧序列；然后，提取视频中的音频信息，利用Google的语音转文本API将音频转写成文本；最后，对视频帧序列和转写后的文本进行对齐；对于没有语音内容的视频帧，其字幕为空，标记为 “NULL”。 3.根据权利要求2所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述对视频帧序列和转写后的文本进行对齐包括：对于转写文本中的每句话，对应找出其在原始视频中起始帧和结束帧的位置，然后把该句话的文本当作字幕标注在起始帧和结束帧的之间的每个视频帧上，作为这些帧的字幕。 4.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述模型由三层组成，第一层是嵌入层，由四种类型的信息嵌入进行叠加得到视频帧的嵌入；第二层是特征编码层，基于预训练的VL ‑BERT模型从视频帧中提取视觉和听觉信息，得到统一表征的特征向量；第三层是判决层，基于多层感知机MLP对视频帧的真伪进行判决。 5.根据权利要求4所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述步骤3包括：将带字幕的视频帧中的文本元素和视觉元素共同转换成序列，进行编码嵌入后送入到预训练的VL ‑BERT模型中提取多模态统一特征；对输入序列进行嵌入，输入序列的嵌入由四类信息组成，第一类信息是位置嵌入，第二类信息是片段嵌入，第三类信息是视觉特征嵌入，第四类信息是To ken嵌入；对于每个视频帧，转换成输入序列后，得到上述四类信息的嵌入，叠加后得到输入序列的原始信息嵌入；将上述原始信息嵌入输入到训练好的VL ‑BERT模型中，得到融合视觉和语言信息的统一表征；将该统一表征输入到多层感知机中进行判决，该感知机的隐藏层有2个节点，第一个节点的输出值作为该视频帧是真实视频帧的概率，输出的结果如果大于0.5，则该视频帧判为真实，否则判为伪造。 6.根据权利要求5所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述视觉特征由视觉几何特征和视觉外观特征组成；每个视觉元素的视觉几何嵌入用一个四维向量表示其中(xLT,yLT)和(xRB,yRB)分别表示左上角和右下权　利　要　求　书 1/2 页 2 CN 114782858 A 2角的坐标， W、 H表示输入视频帧的宽度和高度；输入序列中的视觉元素的视觉外观特征由 AlexNet检测器进行提取。 7.根据权利要求5所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述VL ‑BERT模型由多个双向Transformer编码器组成，每个Tran sformer由自注意力层和全连接层构成；该模型事先在Co nceptual Captions数据集上进行预训练。 8.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述步骤4包括：对于每个视频，如果判为真实的视频帧数量大于判为伪造的视频帧数量，则判定该视频是真实视频，否则判定为伪造视频。 9.一种基于预训练多模态模型的伪造视频检测系统，其特征在于，包括：信息转换模块，用于将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；筛选模块，用于筛选出含字幕的视频帧集合；第一判断模块，用于基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；第二判断模块，用于综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。权　利　要　求　书 2/2 页 3 CN 114782858 A 3

专利 一种基于预训练多模态模型的伪造视频检测方法及系统

专利一种基于预训练多模态模型的伪造视频检测方法及系统