(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210347546.9 (22)申请日 2022.04.01 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 俞俊 南瑞环 朱素果 范建平  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06T 7/269(2017.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于视频上下文信息融合的多模态密 集视频描述方法 (57)摘要 本发明公开了一种基于视频上下文信息融 合的多模态密集视频描述方法, 用于处理密集视 频描述任务。 本发明步骤如下: 步骤(1)、 数据预 处理, 提取视频多模态数据特征; 步骤(2)、 建立 多模态密集视频描述网络, 并引入时间 ‑语义关 系模块; 步骤(3)、 模型训练, 优化描 述生成器, 得 到模型在视频上的文本描述; 模 型通过采用稀 疏 采样和引入时间 ‑语义关系模块, 解决了视频描 述任务中普遍存在的视频信息冗余 以及视频事 件与事件之间关系的引入问题, 从而减少了模型 的计算量, 提高了生成句子的连贯性与一致性。 在数据集上的实验表明, 通过使用这两种方法, 能够有效提升模型生成文本描述的效果与性能。 权利要求书4页 说明书10页 附图1页 CN 114627162 A 2022.06.14 CN 114627162 A 1.一种基于视频上下文信息 融合的多模态密集视频描述方法, 其特征在于包括如下步 骤: 步骤(1)、 数据预处 理, 提取视频多模态数据特 征; 步骤(2)、 建立多模态密集视频描述网络, 并引入时间 ‑语义关系模块; 步骤(3)、 多模态密集视频描述网络的训练, 并优化描述生成器, 得到模型在视频上的 文本描述。 2.根据权利要求书1所述的一种基于视频上下文信息融合的多模态密集视频描述方 法, 其特征在于步骤(1)所述的数据为视频数据集, 包含来自ActivityNet的20k个视频, 按 照10024/4926/5044划分为训练集、 验证集以及测试集, 其中每个视频都带有一系 列时间定 位的描述, 且每句描述都覆盖 了视频中唯一的一段, 描述了发生的事 件。 3.根据权利要求书1或2所述的一种基于视频上下文信息融合的多模态密集视频描述 方法, 其特征在于音频特征和视觉特征在训练前预先计算, 具体的VGGish网络在AudioSet 上进行预先训练, 用于提取视频的音频特征, I3D网络在Kinetics数据集上进行了预先训 练, 用于提取视频的视觉特征; VGGish模 型处理0.96秒 长的音频片段, 这些音 频片段被表 示 为大小为96 ×64的对数梅尔比例谱图, 这些谱图通过短时傅立叶变换获得; STFT使用25毫 秒汉恩窗口, 对16kHz单声道音轨应用15毫秒步长; VGGish的预分类层为每个谱图输出128 维的嵌入; 因此, 视频数据集中第i个视频的音轨由长度为Tai的128维个特征序列表示, 堆 栈中的每个特征代表0.96秒的原始音轨; I3D输入以25 fps速度提取的, 大小为224 ×224的 64RGB和64光流帧; 其中, 使用PWCNet来提取光流帧; 首先, 调整两组帧的大小, 使min (Height,Widt h)=256; 然后, 将大小为224 ×224的中心区域裁剪出来; 之后, 两组视频帧都 通过相应的I3D输出1024 ‑d表示的RGB帧和光流帧; 最后将 输出的RGB帧和光流帧相加, 得到 最终为每个视频帧所生成的1024 ‑d表示, 因此第i个视频的视觉轨迹由长度为Tvi的1024‑d 特征序列表示, 其中每 个特征平均跨越原 始视频的2.5 6秒。 4.根据权利要求书1或2或3所述的一种基于视频上下文信 息融合的多模态密集视频描 述方法, 其特征在于文本描述的单词通过在Common  Crawl数据集上预先训练的全局向量表 示; 预先训练的模型将全局向量表示映射到维度为Dc的查找表中; 每个文本描述的单词都 用维度为Dc的描述词向量表示。 5.根据权利要求书1或2或3所述的一种基于视频上下文信 息融合的多模态密集视频描 述方法, 其特 征在于步骤(2)具体实现如下: 采用MDVC作为基准模型, 基于Transformer的多模态神经网络来提高视觉特征的利用 率, 生成更加准确的视频描述; 模型同时输入三个模态的数据, 即描述词向量、 视觉特征、 音 频特征; 采用预训练好的Glov e、 I3D和VGGish网络独立地进 行不同特征的提取, 维度大小分 别是300维、 1024维和128维; 模型使用self ‑attention编码特征信息, 使用multihead ‑attention融合两种不同的 特征序列; 这两种方法均基于缩放 点积注意力的概念, 其定义如下: 其中, 是一个比例因子, Q,K,V是查询、 键和值的序列;权 利 要 求 书 1/4 页 2 CN 114627162 A 2模型中引入多头概念, 以允许模型在每个位置学习H个不同的表示子空间, 同时保持相 同的计算效率, 通常表示 为带有参数化的输入: headh(q,k,v)=A ttention(qWhq,kWhk,vWhv),h∈[1,H]     (2) 其中, T*表示特征的长度, D*表示特征的维 度; 输入k和v具有相同的维度, 输入q的维度与k不同, 表示将相应的输入映射到内部空间 然后多头注意力被定义为映射回查询子空间Dq的H个注意力头的串联, 其中 Attention(q,k,v)=[head1(q,k,v),head2(q,k,v),. ..,headH(q,k,v)]Wout    (3) 模型使用batch大小为32进行训练, 并为了同一batch的一致性, 在 数据处理过程 中, 先 将所有特征填充到batch中最长的序列; 由于模态特征的维度大小不同, 因此需要将它们映 射到模型的内部空间中, 内部空间的维度大小为1024维, 模型基于Transformer, N为2层, H 为4头; 最 终生成器的输出维度与描述词向量大小一致, 为10172维; 在最终loss计算标签平 滑中使用γ =0.7, 丢失概率p=0.1; 使用默认超参 数和学习率为5 ×10‑5的Adam优化器 来训 练描述生成器, 并在验证集上选择超参数。 6.根据权利要求书5所述的一种基于视频上下文信息融合的多模态密集视频描述方 法, 其特征在于在视觉特征送入self ‑attention进行编码前, 先对视觉特征进行视频 帧的 稀疏采样; 视觉特征在送入self ‑attention时, 首先进行位置编码, 然后再从视觉特征中随 机提取k帧, 并保留随机提取的k帧视频的时序信息; 将提取的k帧作为视频的主要视觉特征 输入self ‑attention进行编码; 在模型运行的不同层均需对视 觉特征重新进行稀疏采样。 7.根据权利要求书6所述的一种基于视频上下文信息融合的多模态密集视频描述方 法, 其特征在于视觉特征在经过编 码后, 引入时间 ‑语义关系模块TSRM来捕获不同事件之间 在时间结构和语义方面的丰富信息, 结合场景级和帧级关系 特征, 为密集视频描述构建一 个以事件为中心的分层表示; TSRM的输入为整个视频的视 觉特征; TSRM包括时间关系模块和语义关系模块; 对于时间关系模块, 模型并不采取直接使用tIOU或两事件之间的距离的方式来构建事 件之间的时间关系, 而是通过自适应学习过程从数据中获得时间关系; 对于一组事件(pi, pj), 首先基于它 们的相对距离和长度执 行位置编码Pij: 其中, ci和li分别表示事件pi的中心位置和长度; [ ·,·]表示两个元素的连接; 首先采 用ci‑cj而不是|ci‑cj|来区分时间顺序; 其次将位置编码标准化, 以便在时间尺度上独立; 之后采用非线性函数将Pij嵌入到高维空间中, 然后再被送入全连接层, 以预测时间关系得 分 语义关系模块主要采用LSTM来捕获事件与事件之间的语义关系; 具体地, 首先采用 LSTM将帧级的视觉特征 编码成递归特征 对于每个事件pi, 通过连接递归特 征 和事件帧级视觉特征的平均池化来构建语义特征Si, 其中 和 分别表示事件pi的权 利 要 求 书 2/4 页 3 CN 114627162 A 3

.PDF文档 专利 一种基于视频上下文信息融合的多模态密集视频描述方法

安全报告 > 其他 > 文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于视频上下文信息融合的多模态密集视频描述方法 第 1 页 专利 一种基于视频上下文信息融合的多模态密集视频描述方法 第 2 页 专利 一种基于视频上下文信息融合的多模态密集视频描述方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 07:34:08上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。