(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221041283 6.7
(22)申请日 2022.04.19
(71)申请人 中国科学院自动化研究所
地址 100190 北京市海淀区中关村东路95
号
(72)发明人 王丹力 郑楠 马鑫伟
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 乔慧
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/52(2022.01)
H04N 21/488(2011.01)
(54)发明名称
一种多尺度双流注意力视频语言事件预测
的方法及装置
(57)摘要
本发明提供一种多尺度双流注意力视频语
言事件预测的方法及装置, 方法包括: 获取原始
输入数据; 原始输入数据中包括一个目标视频
流、 目标视频流对应的字幕以及 多个未来候选事
件; 将原始输入 数据输入多尺度双流注意力视频
语言事件预测模 型, 得到目标视频流的事件预测
结果。 多尺度双流注意力视频语言事件预测模型
包括多尺度视频处理模块、 双流跨模态融合模块
以及事件预测模块。 基于此, 全面的提取特征, 并
减少冗余特征, 避免不同模态之间相互干扰造成
的不利影响, 有效的提高事 件预测的准确率。
权利要求书3页 说明书16页 附图4页
CN 115019137 A
2022.09.06
CN 115019137 A
1.一种多尺度双流注意力视频语言事 件预测的方法, 其特 征在于, 包括:
获取原始输入数据; 其中, 所述原始输入数据中包括一个目标视频流、 所述目标视频流
对应的字幕以及多个未来 候选事件;
将所述原始输入数据输入多尺度双流注意力 视频语言事件预测模型, 得到所述目标视
频流的事 件预测结果;
其中, 所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、 双流
跨模态融合模块以及事 件预测模块;
所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征;
所述双流跨模态融合模块用于基于所述字幕的特征、 所述多个未来候选事件的特征以及所
述多尺度视频特征, 生成不同尺度的第一融合视频特征和 不同尺度的第一融合字幕特征;
所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融
合字幕特征分别得到事件预测结果, 基于所述事件预测结果确定所述目标视频流的最终事
件预测结果。
2.根据权利要求1所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述多尺度视频 特征的生成包括:
采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧;
对所述不同采样尺度的视频帧进行 特征提取, 得到多尺度视频 特征。
3.根据权利要求2所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述不同采样尺度的视频帧包括: 密集采样尺度的视频帧、 一般采样尺度的视频帧和稀疏采
样尺度的视频帧; 相应地, 所述对所述不同采样尺度的视频帧进 行特征提取, 得到多尺度视
频特征, 包括:
基于所述密集采样尺度的视频帧和预训练好的SlowFast模型, 得到所述密集采样尺度
的视频帧的第一视频 特征;
基于所述一般采样尺度的视频帧和预训练好的ResNet ‑152模型, 得到所述一般采样尺
度的视频帧的第二视频 特征;
基于所述稀疏采样尺度的视频帧和预训练好的SlowFast模型, 得到所述稀疏采样尺度
的视频帧的第三视频特征; 基于所述稀疏采样尺度的视频帧和预训练好的ResNet ‑152模
型, 得到所述稀疏采样尺度的视频帧的第四视频特征; 并将所述第三视频特征和所述第四
视频特征拼接得到第五视频 特征;
基于所述第 一视频特征、 所述第 二视频特征以及所述第五视频特征确定多尺度视频特
征。
4.根据权利要求3所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述不同尺度的第一融合视频 特征的生成, 包括以下步骤:
基于未来候选事件引导的单模态特征转换层, 将所述多尺度视频特征中不同尺度的视
频特征分别与每一所述未来候选事件的特征融合, 得到未来候选事件引导的不同尺度的视
频特征的第六视频 特征;
基于双流视频字幕跨模态融合层, 将所述多尺度视频特征中不同尺度的视频特征分别
与所述目标视频流对应的字幕的特征融合, 并且将融合后的特征与每一所述未来候选事件
的特征串联, 得到字幕引导的不同尺度的视频特征; 并将所述字幕引导的不同尺度的视频权 利 要 求 书 1/3 页
2
CN 115019137 A
2特征输入基于所述未来候选事件引导的单模态特征转换层, 得到每一尺度的视频特征的第
七视频特征;
将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度
的第一融合视频 特征。
5.根据权利要求3所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述不同尺度的第一融合字幕特 征的生成, 包括以下步骤:
基于未来候选事件引导的单模态特征转换层, 将所述目标视频流对应的字幕的特征与
每一所述未来 候选事件的特征分别融合得到未来 候选事件引导的第一字幕特 征;
基于双流视频字幕跨模态融合层, 将所述目标视频流对应的字幕的特征与 所述多尺度
视频特征分别融合, 得到不同尺度的视频帧引导的字幕特征; 并且基于所述未来候选事件
引导的单模态特征转换层, 将 融合后的特征与每一所述未来候选事件的特征分别融合, 得
到视频引导的多个第二字幕特 征;
将所述多个第一字幕特 征和所述多个第二字幕特 征拼接得到所述第一融合字幕特 征。
6.根据权利要求1所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述多尺度双流注意力视频语言事件预测模型还包括字幕与未来候选事件特征提取模块, 相
应地, 所述字幕的特征和所述多个未来候选事件的特征基于字幕与未来候选事件特征提取
模块生成, 包括:
将所述目标视频流对应的字幕输入所述字幕与 未来候选事件特征提取模块, 得到所述
字幕的特 征;
将所述多个未来候选事件输入所述字幕与 未来候选事件特征提取模块, 得到所述多个
未来候选事件的特征。
7.根据权利要求1所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述多尺度双流注意力视频语言事件预测模型还包括多尺度融合模块, 所述多尺度融合模块
用于融合所述不同尺度的第一融合视频特征, 得到第二融合视频特征, 并用于融合所述不
同尺度的第一融合字幕特 征, 得到第二融合字幕特 征。
8.根据权利要求7所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述基于所述第一融合视频特征和所述第一融合字幕特征得到所述目标视频流的未来候选
事件预测结果, 包括:
对所述第二融合视频特征进行压缩, 得到压缩后的第二融合视频特征; 并对所述第二
融合字幕特 征进行压缩, 得到 压缩后的第二融合字幕特 征;
基于所述压缩后的第 二融合视频特征进行事件预测, 得到目标视频流对应多个未来候
选事件的多个第一得分; 并基于所述压缩后的第二融合字幕特征进行事件预测, 得到目标
视频流对应多个未来 候选事件的多个第二得分;
将每一未来候选事件的第 一得分与每一未来候选事件的第 二得分相加, 得到所述目标
视频流对应 每一未来 候选事件的总得分;
基于所述述目标视频流对应每一未来候选事件的总得分确定目标视频流对应的未来
候选事件。
9.根据权利要求3所述的多尺度双流注意力 视频语言事件预测的方法, 其特征在于, 所
述基于所述第一视频特征、 所述第二视频特征以及所述第五视频特征确定多尺度视频特权 利 要 求 书 2/3 页
3
CN 115019137 A
3
专利 一种多尺度双流注意力视频语言事件预测的方法及装置
安全报告 >
其他 >
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:34:27上传分享