(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221086946 5.5
(22)申请日 2022.07.22
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 张玥杰 许元武
(74)专利代理 机构 上海正旦专利代理有限公司
31200
专利代理师 陆飞 陆尤
(51)Int.Cl.
G06F 16/73(2019.01)
G06F 16/783(2019.01)
G06F 16/71(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06V 10/82(2022.01)G06V 20/40(2022.01)
(54)发明名称
基于时空语义分解的视频片段定位系统
(57)摘要
本发明属于多模态检索技术领域, 具体为基
于时空语义 分解的视频片段定位系统。 本发明系
统包括视频和文本的编码器模块、 时空语义分解
模块、 多模态注意力模块、 片段边界定位模块; 视
频和文本的编码器模块分别对视频和文本进行
特征提取, 生成含有上下文信息的特征; 时空语
义分解模块将文本按照词性分为空间词和时间
词, 将视频以不同的帧率采样得到快视频流和慢
视频流; 多模态注意力模块先计算空间词和慢视
频流的互注意力, 将结果和快视频流融合, 然后
再计算时间词和快视频流的互注 意力, 得到两种
模态的融合特征; 片段边界定位模块先计算目标
片段终点的帧, 然后 在预测的终点帧之前的帧中
回归起点帧。 本发明可提高对相似查询的区分能
力, 提升系统性能。
权利要求书3页 说明书8页 附图1页
CN 115309939 A
2022.11.08
CN 115309939 A
1.基于时空语义分解的视频片段定位系统, 其特征在于, 包括视频和文本的编码器模
块、 时空语义分解模块、 多模态注意力模块、 及片段边界定位模块; 所述视频和文本的编码
器模块分别对视频和文本进行特征提取, 生成含有上下文信息的特征; 所述时空语义分解
模块将文本按照词性分为空间词和时间词, 将视频以不同的帧率采样得到快视频流和慢视
频流; 所述多模态注意力模块先计算空间词和慢视频流的互注意力, 将结果和快视频流融
合, 然后再计算时间词和快视频流的互注意力, 得到两种模态的融合特征; 所述片段边界定
位模块先计算目标片段终点的帧, 然后在预测的终点帧之前的帧中回归起 点帧。
2.根据权利要求1所述的视频片段定位系统, 其特征在于, 所述视频编码器模块由骨干
网络和Transformer编码器组成; 文本编码器模块由骨干网络、 Transformer编码器以及关
系图卷积网络组成; 其中:
视频编码器模块中的骨干网络采用C3D和I3D深度卷积神经网络, 用于抽取视频特征;
将中心帧图像和其相 邻的31帧图像提取为一个4, 096维或1, 02 4维的向量; 视频编码器模块
中的Transformer编码器包含两个同构的计算单元, 作用于骨干网络提取的特征, 将 视频帧
的位置信息和上 下文信息编码融入其特 征, 输出的视频 特征维度为T ×d;
文本编码器模块中的骨干网络采用Glove词向量, 用来提取文本特征; 文本编码器模块
中的Transformer编码器与视频编码器模块中的Transformer编码器结构相同, 但是不共享
参数; 由骨干网络提取的文本特征, 经由Tr ansformer编码器进行上下文编码, 最后在文本
的句法依存树结构上使用带残差连接的关系图卷积进行关系编码; 该 过程表示 为:
其中,
表示第i个词在第l+1层关系图卷积中的特征; R表示句法依存树结构中边上
的关系集合;
表示第i个词在句法依存树结构中边上关系为r的邻居;
为第l层关系图
卷积中的可学习参数; 由于句法依存树结构中边上的关系R有55种, 考虑边的方向后关系数
翻倍, 会引入过多的参数矩阵
采用基分解的方法来减少参数量; 该 过程表示 为:
其中,
是第l层关系图卷积中的第i个基参数矩阵; B是基参数矩阵的个数;
是可学
习的线性组合系数。
3.根据权利要求2所述的视频片段定位系统, 其特征在于, 所述的时空语义分解模块,
分别对视频和文本进行时空分解, 即分解到各自的时间语义和空间语义; 所述对视频的时
空分解, 将原始帧率的视频作为快视频流, 在帧数为T的快视频流上进行每4帧选一帧的稀
疏采样而得到帧数为Tslow的慢视频流; 所述对文本的时空分解, 首先对查询中的文本进行
词性标注, 将查询中的名词和代词作为空间词, 将动词和副词作为时间词。
4.根据权利要求3所述的视频片段定位系统, 其特征在于, 所述多模态注意力模块用于
计算慢视频流和空间词的多模态 注意力, 作为快视频流和时间词的多模态 注意力的先验;
先计算两个模态之间多头注意力, 其过程表示 为:权 利 要 求 书 1/3 页
2
CN 115309939 A
2MultiHead(X, Y)=[A ttention1...h(X, Y)]WO, #(4)
其中, WQ, WK, WV和WO为可学习的线 性变换参数; h表示多头注意力使用的头数; X表示视 频
模态的特征, Y表示文本模态的特征; d表示特征的维度; σ 表示softmax函数; 计算慢视频流
和空间词的多模态 注意力的过程表示 为:
其中, Qs表示空间词;
表示慢视频流在第l层多模态注意力的计算结果; MultiHead
表示多头注意力机制; LN表示层归一化; MLP表示两层的感知机; 经过和空间词的多模态注
意力计算后, 慢视频流
中每一帧和文本中对应的空间语义得到更多关注; 为将慢视频
流和空间词的多模态注意力计算结果作为时间维度上定位的先验知识, 使用归一化后的慢
视频流在最后一层多模态 注意力中的注意力图, 计算方法为:
其中, Ns表示空间词的个数; A是慢视频流和空间词在最后一层多模态注意力的注意力
图; Ai表示多头注意力中第i个头中的二 维注意力图, 维度为Tslow×Ns;
表示多头注意力中
第i个头中二维注 意力图的第j列; minmax表 示最小值 ‑最大值归一化; 归一化后的注 意力图
a中每一帧对应的值大小反 映这一帧在与空间词的多模态注意力中的受注意程度, 值越高
则这一帧中出现文本中描述的物体、 场景等空间语义越多; 将最后一层多模态注意力输出
的慢视频流
的特征和快视频流Vfast相加, 同时将归一化后的注意力图a与快视频流
Vfast相乘; 该过程表示 为:
其中, upsample表示上采样操作; ⊙表示逐元素乘;
表示元素 都为1的向量; 由于慢视
频流的帧数和 快视频流不匹配, 在融合之前使用线性插值法将慢视频流上采样到Tfast帧;
在融合慢视频流的特征及注意力图a后, 计算快视频流Vfast, fused和时间词的多模态注意力,
得到最终融合视频和文本时空语义的特 征Vst, 其维度为T ×d。
5.根据权利要求4所述的视频片段定位系统, 其特征在于, 所述片段边界定位模块, 先
根据建模的片段终点 边缘分布P预测片段的终点
该过程表示 为:
其中, 终点边缘分布P使用一个两层的感知机建模; 该感知 机独立作用在融合特征Vst的
每个位置上, 对所有位置上的输出使用softmax 归一化得到概 率分布P;
所述片段边界定位模块还包括一个建模起点的条件期望的回归器, 对于第i帧回归归
一化的起点帧的期望E[start|end=i], 预测起点
时输出回归的期望和终点的积; 该过程权 利 要 求 书 2/3 页
3
CN 115309939 A
3
专利 基于时空语义分解的视频片段定位系统
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:14:30上传分享