专利 基于时空语义分解的视频片段定位系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221086946 5.5 (22)申请日 2022.07.22 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人张玥杰　许元武　 (74)专利代理机构上海正旦专利代理有限公司 31200 专利代理师陆飞　陆尤 (51)Int.Cl. G06F 16/73(2019.01) G06F 16/783(2019.01) G06F 16/71(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06V 10/82(2022.01)G06V 20/40(2022.01) (54)发明名称基于时空语义分解的视频片段定位系统 (57)摘要本发明属于多模态检索技术领域，具体为基于时空语义分解的视频片段定位系统。本发明系统包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块、片段边界定位模块；视频和文本的编码器模块分别对视频和文本进行特征提取，生成含有上下文信息的特征；时空语义分解模块将文本按照词性分为空间词和时间词，将视频以不同的帧率采样得到快视频流和慢视频流；多模态注意力模块先计算空间词和慢视频流的互注意力，将结果和快视频流融合，然后再计算时间词和快视频流的互注意力，得到两种模态的融合特征；片段边界定位模块先计算目标片段终点的帧，然后在预测的终点帧之前的帧中回归起点帧。本发明可提高对相似查询的区分能力，提升系统性能。权利要求书3页说明书8页附图1页 CN 115309939 A 2022.11.08 CN 115309939 A 1.基于时空语义分解的视频片段定位系统，其特征在于，包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块、及片段边界定位模块；所述视频和文本的编码器模块分别对视频和文本进行特征提取，生成含有上下文信息的特征；所述时空语义分解模块将文本按照词性分为空间词和时间词，将视频以不同的帧率采样得到快视频流和慢视频流；所述多模态注意力模块先计算空间词和慢视频流的互注意力，将结果和快视频流融合，然后再计算时间词和快视频流的互注意力，得到两种模态的融合特征；所述片段边界定位模块先计算目标片段终点的帧，然后在预测的终点帧之前的帧中回归起点帧。 2.根据权利要求1所述的视频片段定位系统，其特征在于，所述视频编码器模块由骨干网络和Transformer编码器组成；文本编码器模块由骨干网络、 Transformer编码器以及关系图卷积网络组成；其中：视频编码器模块中的骨干网络采用C3D和I3D深度卷积神经网络，用于抽取视频特征；将中心帧图像和其相邻的31帧图像提取为一个4， 096维或1， 02 4维的向量；视频编码器模块中的Transformer编码器包含两个同构的计算单元，作用于骨干网络提取的特征，将视频帧的位置信息和上下文信息编码融入其特征，输出的视频特征维度为T ×d；文本编码器模块中的骨干网络采用Glove词向量，用来提取文本特征；文本编码器模块中的Transformer编码器与视频编码器模块中的Transformer编码器结构相同，但是不共享参数；由骨干网络提取的文本特征，经由Tr ansformer编码器进行上下文编码，最后在文本的句法依存树结构上使用带残差连接的关系图卷积进行关系编码；该过程表示为：其中，表示第i个词在第l+1层关系图卷积中的特征； R表示句法依存树结构中边上的关系集合；表示第i个词在句法依存树结构中边上关系为r的邻居；为第l层关系图卷积中的可学习参数；由于句法依存树结构中边上的关系R有55种，考虑边的方向后关系数翻倍，会引入过多的参数矩阵采用基分解的方法来减少参数量；该过程表示为：其中，是第l层关系图卷积中的第i个基参数矩阵； B是基参数矩阵的个数；是可学习的线性组合系数。 3.根据权利要求2所述的视频片段定位系统，其特征在于，所述的时空语义分解模块，分别对视频和文本进行时空分解，即分解到各自的时间语义和空间语义；所述对视频的时空分解，将原始帧率的视频作为快视频流，在帧数为T的快视频流上进行每4帧选一帧的稀疏采样而得到帧数为Tslow的慢视频流；所述对文本的时空分解，首先对查询中的文本进行词性标注，将查询中的名词和代词作为空间词，将动词和副词作为时间词。 4.根据权利要求3所述的视频片段定位系统，其特征在于，所述多模态注意力模块用于计算慢视频流和空间词的多模态注意力，作为快视频流和时间词的多模态注意力的先验；先计算两个模态之间多头注意力，其过程表示为：权　利　要　求　书 1/3 页 2 CN 115309939 A 2MultiHead(X， Y)＝[A ttention1...h(X， Y)]WO， #(4) 其中， WQ， WK， WV和WO为可学习的线性变换参数； h表示多头注意力使用的头数； X表示视频模态的特征， Y表示文本模态的特征； d表示特征的维度； σ 表示softmax函数；计算慢视频流和空间词的多模态注意力的过程表示为：其中， Qs表示空间词；表示慢视频流在第l层多模态注意力的计算结果； MultiHead 表示多头注意力机制； LN表示层归一化； MLP表示两层的感知机；经过和空间词的多模态注意力计算后，慢视频流中每一帧和文本中对应的空间语义得到更多关注；为将慢视频流和空间词的多模态注意力计算结果作为时间维度上定位的先验知识，使用归一化后的慢视频流在最后一层多模态注意力中的注意力图，计算方法为：其中， Ns表示空间词的个数； A是慢视频流和空间词在最后一层多模态注意力的注意力图； Ai表示多头注意力中第i个头中的二维注意力图，维度为Tslow×Ns；表示多头注意力中第i个头中二维注意力图的第j列； minmax表示最小值 ‑最大值归一化；归一化后的注意力图 a中每一帧对应的值大小反映这一帧在与空间词的多模态注意力中的受注意程度，值越高则这一帧中出现文本中描述的物体、场景等空间语义越多；将最后一层多模态注意力输出的慢视频流的特征和快视频流Vfast相加，同时将归一化后的注意力图a与快视频流 Vfast相乘；该过程表示为：其中， upsample表示上采样操作； ⊙表示逐元素乘；表示元素都为1的向量；由于慢视频流的帧数和快视频流不匹配，在融合之前使用线性插值法将慢视频流上采样到Tfast帧；在融合慢视频流的特征及注意力图a后，计算快视频流Vfast， fused和时间词的多模态注意力，得到最终融合视频和文本时空语义的特征Vst，其维度为T ×d。 5.根据权利要求4所述的视频片段定位系统，其特征在于，所述片段边界定位模块，先根据建模的片段终点边缘分布P预测片段的终点该过程表示为：其中，终点边缘分布P使用一个两层的感知机建模；该感知机独立作用在融合特征Vst的每个位置上，对所有位置上的输出使用softmax 归一化得到概率分布P；所述片段边界定位模块还包括一个建模起点的条件期望的回归器，对于第i帧回归归一化的起点帧的期望E[start|end＝i]，预测起点时输出回归的期望和终点的积；该过程权　利　要　求　书 2/3 页 3 CN 115309939 A 3

专利 基于时空语义分解的视频片段定位系统

专利基于时空语义分解的视频片段定位系统