专利 一种针对跨模态视频检索模型的训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210429393.2 (22)申请日 2022.04.22 (71)申请人北京爱奇艺科技有限公司地址 100080 北京市海淀区海淀北一街2号鸿城拓展大厦10、 1 1层 (72)发明人李冠楠　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师吕俊秀 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 30/10(2022.01) G06F 16/732(2019.01) G06F 40/289(2020.01) (54)发明名称一种针对跨模态视频检索模型的训练方法及装置 (57)摘要本发明实施例提供了一种针对跨模态视频检索模型的训练方法及装置，通过切分视频流生成目标分段视频；获取视频序列位置标量和视频序列特征向量；生成分词和由分词组成的分词序列；提取文本序列特征向量和文本标签特征向量和文本位置标量；基于视频序列位置标量合并视频序列特征向量生成目标视觉特征向量；基于文本位置标量合并文本序列特征向量生成目标文本特征向量；将处于不同空间的向量分别映射至同一向量空间，计算出隐含特征向量相似度和标签特征向量相似度；基于文本标签特征向量、隐含特征向量相似度、标签特征向量相似度确定检索结果，从而提高了对长视频进行跨模态检索的检索精度，也实现了中文或中英文文本搜索视频的跨模态检索功能。权利要求书4页说明书27页附图4页 CN 114998777 A 2022.09.02 CN 114998777 A 1.一种针对跨模态视频检索模型的训练方法，其特征在于，所述跨模态视频检索模型包括隐藏向量空间、标签向量空间，所述方法包括：获取并切分视频流，生成多个目标分段视频；获取用于表达所述多个目标分段视频的视频序列位置的视频序列位置标量；获取视频流中用于表达视频序列的特征的多个视频序列特征向量；所述视频序列具有对应的文本序列；切分所述文本序列，生成分词和由所述分词组成的分词序列；提取针对所述分词的多个文本序列特征向量，和，针对所述分词序列的文本标签特征向量，和，用于表达文本位置的文本位置标量；基于所述视频序列位置标量合并所述多个视频序列特征向量，并生成目标视觉特征向量；基于所述文本位置标量合并所述多个文本序列特征向量，并生成目标文本特征向量；将所述目标视觉特征向量和所述目标文本特征向量映射至所述隐藏向量空间，并计算出针对于所述目标视觉特征向量和所述目标文本特征向量的隐含特征向量相似度；将所述目标视觉特征向量和所述目标文本特征向量映射至所述标签向量空间，并计算出针对于所述目标视觉特征向量和所述目标文本特征向量的标签特征向量相似度；基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。 2.根据权利要求1所述的方法，其特征在于，所述跨模态视频检索模型包括残差注意力模块，所述基于所述视频序列位置标量合并所述多个视频序列特征向量，并生成目标视觉特征向量的步骤包括：基于所述视频序列位置标量，通过所述残差注意力模块对所述多个视频序列特征向量进行时域融合，并生成目标视觉特征向量。 3.根据权利要求2所述的方法，其特征在于，所述残差注意力模块包括多头注意力单元和多层感知器，所述基于所述视频序列位置标量，通过所述残差注意力模块对所述多个视频序列特征向量进行时域融合，并生成目标视觉特征向量的步骤包括：按序对所述视频序列位置标量编码，生成针对所述视频序列位置标量的第一编码信息；对所述多个视频序列特征向量进行归一化操作，并生成多个目标视频序列特征向量；将所述多个目标视频序列特征向量与所述第一编码信息叠加作为第一输入信号；将所述第一输入信号输入至所述多头注意力单元，生成第一输出信号；将所述第一输出信号与所述多个视频序列特征向量叠加作为第二输入信号；对所述第二输入信号进行归一化操作，并生成目标第二输入信号；将所述目标第二输入信号输入至所述多层感知器，生成第二输出信号；将所述第二输出信号与所述第二输入信号叠加，作为目标视觉特征向量。 4.根据权利要求1所述的方法，其特征在于，所述跨模态视频检索模型包括残差注意力模块，所述基于所述文本位置标量合并所述多个文本序列特征向量，并生成目标文本特征向量的步骤包括：基于所述文本位置标量，通过所述残差注意力模块对所述多个文本序列特征向量进行权　利　要　求　书 1/4 页 2 CN 114998777 A 2时域融合，并生成目标文本特征向量。 5.根据权利要求4所述的方法，其特征在于，所述残差注意力模块包括多头注意力单元和多层感知器，所述基于所述文本位置标量，通过所述残差注意力模块对所述多个文本序列特征向量进行时域融合，并生成目标文本特征向量的步骤包括：按序对所述文本位置标量进行编码，生成针对所述文本位置标量的第二编码信息；对所述多个文本序列特征向量进行归一化操作，并生成多个目标文本序列特征向量；将所述多个目标文本序列特征向量与所述第二编码信息叠加作为第三输入信号；将所述第三输入信号输入至所述多头注意力单元，生成第三输出信号；将所述第三输出信号与所述多个文本序列特征向量叠加作为第四输入信号；对所述第四输入信号进行归一化操作，并生成目标第四输入信号；将所述目标第四输入信号输入至所述多层感知器，生成第四输出信号；将所述第四输出信号与所述第四输入信号叠加，作为初始目标文本特征向量；拼接所述初始目标文本特征向量与所述文本标签特征向量，并生成目标文本特征向量。 6.根据权利要求1所述的方法，其特征在于，所述将所述目标视觉特征向量和所述目标文本特征向量映射至所述隐藏向量空间，并计算出针对于所述目标视觉特征向量和所述目标文本特征向量的隐含特征向量相似度的步骤包括：分别将所述目标视觉特征向量和所述目标文本特征向量映射至所述隐藏向量空间，生成隐含视觉向量和隐含文本向量；确定所述隐含视觉向量和所述隐含文本向量的第一向量距离；采用所述第一向量距离计算出针对于所述目标视觉特征向量和所述目标文本特征向量的隐含特征向量相似度。 7.根据权利要求6所述的方法，其特征在于，所述跨模态视频检索模型包括多层全连接神经网络，所述多层全连接神经网络具有对应的网络参数，在所述确定所述隐含视觉向量和所述隐含文本向量的第一向量距离的步骤之前，还包括：采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数；所述第一目标损失函数包括第一损失函数值；通过控制所述网络参数，降低所述第一损失函数值。 8.根据权利要求1所述的方法，其特征在于，所述将所述目标视觉特征向量和所述目标文本特征向量映射至所述标签向量空间，并计算出针对于所述目标视觉特征向量和所述目标文本特征向量的标签特征向量相似度的步骤包括：分别所述目标视觉特征向量和所述目标文本特征向量映射至所述标签向量空间，生成标签视觉向量和标签文本向量；确定所述标签视觉向量和所述标签文本向量之间的第二向量距离；采用所述第二向量距离计算出针对于所述目标视觉特征向量和所述目标文本特征向量的标签特征向量相似度。 9.根据权利要求8所述的方法，其特征在于，所述跨模态视频检索模型包括多层全连接神经网络，所述多层全连接神经网络具有对应的网络参数，在所述确定所述标签视觉向量和所述标签文本向量之间的第二向量距离的步骤之前，还包括：权　利　要　求　书 2/4 页 3 CN 114998777 A 3

专利 一种针对跨模态视频检索模型的训练方法及装置

专利一种针对跨模态视频检索模型的训练方法及装置