(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210465333.6
(22)申请日 2022.04.29
(71)申请人 中国人民大 学
地址 100872 北京市海淀区中关村大街59
号
(72)发明人 蒋洪迅 张琳
(74)专利代理 机构 北京兴智翔达知识产权代理
有限公司 1 1768
专利代理师 张显益
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06F 40/289(2020.01)
G06F 40/232(2020.01)
G06F 16/75(2019.01)
G06F 16/783(2019.01)
G06F 16/78(2019.01)
G06F 16/71(2019.01)
G06F 16/901(2019.01)
(54)发明名称
一种视频标签 分类方法、 系统及计算机可读
存储介质
(57)摘要
本发明公开了一种视频标签 分类方法、 系统
及计算机可读存储介质, 方法包括: 提取视频数
据的视觉 特征和文本特征; 将所述视觉特征和文
本特征进行多模态融合以获得融合特征; 对所述
融合特征进行多任务预测以获得预测结果, 所述
预测结果为已进行分类的视频标签; 获取所述视
频数据的半结构化数据, 并根据所述半结构化数
据生成图谱信息; 所述图谱信息表征所述视频中
各类节点之间的关联信息; 基于所述图谱信息对
所述预测结果进行修正以获得修正结果。 本发明
通过多任务预测以及修正得到更准确的实体标
签预测结果, 且不需要大规模数据集并且取得了
较好的分类性能。
权利要求书2页 说明书7页 附图3页
CN 114758283 A
2022.07.15
CN 114758283 A
1.一种视频 标签分类方法, 其特 征在于, 所述方法包括:
提取视频 数据的视 觉特征和文本特 征;
将所述视 觉特征和文本特 征进行多模态融合以获得融合特 征;
对所述融合特征进行多任务预测以获得预测结果, 所述预测结果为已进行分类的视频
标签;
获取所述视频数据的半结构化数据, 并根据所述半结构化数据生成图谱信息; 所述图
谱信息表征 所述视频中各类节点之间的关联信息;
基于所述图谱信息对所述预测结果进行修 正以获得修 正结果。
2.如权利要求1所述的一种视频标签分类方法, 其特征在于, 提取视频数据的视觉特征
和文本特 征包括:
对所述视频数据进行抽帧处理以获得视频帧图像, 根据 所述视频帧图像抽取所述视觉
特征;
对所述视频数据中的文本信 息进行预处理以形成语料集合, 基于所述语料集合抽取所
述文本特 征。
3.如权利要求2所述的一种视频标签分类方法, 其特征在于, 所述预处理包括: 分词处
理以及停用词处 理。
4.如权利要求2所述的一种视频标签分类方法, 其特征在于, 根据 所述视频帧图像抽取
所述视觉特征包括: 获取视频 帧图像的图片编码{r1, r2, ..., rn}并将所述图片编码切分为
若干个图像分支; 基于所述图像分支获得视 觉特征Embi;
基于所述语料集合抽 取所述文本特征包括: 获取语料集合的文本序列{w1, w2, ..., wn}
并将所述文本序列切分为多个文本分支; 基于所述文本分支获得文本特 征Embt。
5.如权利要求1所述的一种视频标签分类方法, 其特征在于, 将所述视觉特征和文本特
征进行多模态融合以获得融合特 征包括:
学习视觉特征以及文本特 征的交互特征;
基于所述交 互特征获得融合特 征。
6.如权利要求1所述的一种视频标签分类方法, 其特征在于, 对所述融合特征进行多任
务预测以获得 预测结果包括:
所述融合特征经过若干个全连接层后分别 输入到分类网络和相似性网络, 以在所述分
类网络和相似性网络同时进行训练;
将所述分类网络和相似性网络分别输出的训练结果进行加权组合以获得 预测结果。
7.如权利要求6所述的一种视频标签分类方法, 其特征在于, 所述方法还包括: 所述分
类网络通过分类损失函数对所述融合特征进 行训练, 所述相似性网络通过度量学习损失函
数对所述融合特 征进行训练。
8.如权利要求1所述的一种视频标签分类方法, 其特征在于, 基于所述图谱信 息对所述
预测结果进行修 正以获得修 正结果包括:
构建邻接矩阵, 所述邻 接矩阵中包括邻居节点以及非邻居节点, 其中, 所述邻居节点的
注意力置为1, 非邻居节点的注意力置为0; 所述邻居节点为图谱信息与预测结果有连接关
系的节点;
计算所述邻接矩阵的概 率分布, 根据最高概 率的节点获得修 正结果。权 利 要 求 书 1/2 页
2
CN 114758283 A
29.一种视频 标签分类系统, 其特 征在于, 所述系统包括:
特征提取单元, 用于提取视频 数据的视 觉特征和文本特 征;
融合单元, 用于将所述视 觉特征和文本特 征进行多模态融合以获得融合特 征;
标签分类单元, 用于对所述融合特征进行多任务预测以获得预测结果, 所述预测结果
为已进行分类的视频 标签;
数据获取单元, 用于获取所述视频数据的半结构化数据, 并根据所述半结构化数据生
成图谱信息; 所述图谱信息表征 所述视频中各类节点之间的关联信息;
修正单元, 用于基于所述图谱信息对所述预测结果进行修 正以获得修 正结果。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机
程序, 所述计算机程序被处理器执行时实现如权利要求1 ‑8任一项所述的一种视频标签分
类方法的步骤。权 利 要 求 书 2/2 页
3
CN 114758283 A
3
专利 一种视频标签分类方法、系统及计算机可读存储介质
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:35:35上传分享