专利 一种多尺度双流注意力视频语言事件预测的方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221041283 6.7 (22)申请日 2022.04.19 (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人王丹力　郑楠　马鑫伟　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师乔慧 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/52(2022.01) H04N 21/488(2011.01) (54)发明名称一种多尺度双流注意力视频语言事件预测的方法及装置 (57)摘要本发明提供一种多尺度双流注意力视频语言事件预测的方法及装置，方法包括：获取原始输入数据；原始输入数据中包括一个目标视频流、目标视频流对应的字幕以及多个未来候选事件；将原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到目标视频流的事件预测结果。多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块。基于此，全面的提取特征，并减少冗余特征，避免不同模态之间相互干扰造成的不利影响，有效的提高事件预测的准确率。权利要求书3页说明书16页附图4页 CN 115019137 A 2022.09.06 CN 115019137 A 1.一种多尺度双流注意力视频语言事件预测的方法，其特征在于，包括：获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。 2.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述多尺度视频特征的生成包括：采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧；对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征。 3.根据权利要求2所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述不同采样尺度的视频帧包括：密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧；相应地，所述对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征，包括：基于所述密集采样尺度的视频帧和预训练好的SlowFast模型，得到所述密集采样尺度的视频帧的第一视频特征；基于所述一般采样尺度的视频帧和预训练好的ResNet ‑152模型，得到所述一般采样尺度的视频帧的第二视频特征；基于所述稀疏采样尺度的视频帧和预训练好的SlowFast模型，得到所述稀疏采样尺度的视频帧的第三视频特征；基于所述稀疏采样尺度的视频帧和预训练好的ResNet ‑152模型，得到所述稀疏采样尺度的视频帧的第四视频特征；并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征；基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。 4.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述不同尺度的第一融合视频特征的生成，包括以下步骤：基于未来候选事件引导的单模态特征转换层，将所述多尺度视频特征中不同尺度的视频特征分别与每一所述未来候选事件的特征融合，得到未来候选事件引导的不同尺度的视频特征的第六视频特征；基于双流视频字幕跨模态融合层，将所述多尺度视频特征中不同尺度的视频特征分别与所述目标视频流对应的字幕的特征融合，并且将融合后的特征与每一所述未来候选事件的特征串联，得到字幕引导的不同尺度的视频特征；并将所述字幕引导的不同尺度的视频权　利　要　求　书 1/3 页 2 CN 115019137 A 2特征输入基于所述未来候选事件引导的单模态特征转换层，得到每一尺度的视频特征的第七视频特征；将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度的第一融合视频特征。 5.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述不同尺度的第一融合字幕特征的生成，包括以下步骤：基于未来候选事件引导的单模态特征转换层，将所述目标视频流对应的字幕的特征与每一所述未来候选事件的特征分别融合得到未来候选事件引导的第一字幕特征；基于双流视频字幕跨模态融合层，将所述目标视频流对应的字幕的特征与所述多尺度视频特征分别融合，得到不同尺度的视频帧引导的字幕特征；并且基于所述未来候选事件引导的单模态特征转换层，将融合后的特征与每一所述未来候选事件的特征分别融合，得到视频引导的多个第二字幕特征；将所述多个第一字幕特征和所述多个第二字幕特征拼接得到所述第一融合字幕特征。 6.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述多尺度双流注意力视频语言事件预测模型还包括字幕与未来候选事件特征提取模块，相应地，所述字幕的特征和所述多个未来候选事件的特征基于字幕与未来候选事件特征提取模块生成，包括：将所述目标视频流对应的字幕输入所述字幕与未来候选事件特征提取模块，得到所述字幕的特征；将所述多个未来候选事件输入所述字幕与未来候选事件特征提取模块，得到所述多个未来候选事件的特征。 7.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述多尺度双流注意力视频语言事件预测模型还包括多尺度融合模块，所述多尺度融合模块用于融合所述不同尺度的第一融合视频特征，得到第二融合视频特征，并用于融合所述不同尺度的第一融合字幕特征，得到第二融合字幕特征。 8.根据权利要求7所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述基于所述第一融合视频特征和所述第一融合字幕特征得到所述目标视频流的未来候选事件预测结果，包括：对所述第二融合视频特征进行压缩，得到压缩后的第二融合视频特征；并对所述第二融合字幕特征进行压缩，得到压缩后的第二融合字幕特征；基于所述压缩后的第二融合视频特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第一得分；并基于所述压缩后的第二融合字幕特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第二得分；将每一未来候选事件的第一得分与每一未来候选事件的第二得分相加，得到所述目标视频流对应每一未来候选事件的总得分；基于所述述目标视频流对应每一未来候选事件的总得分确定目标视频流对应的未来候选事件。 9.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特权　利　要　求　书 2/3 页 3 CN 115019137 A 3

专利 一种多尺度双流注意力视频语言事件预测的方法及装置

专利一种多尺度双流注意力视频语言事件预测的方法及装置