专利 一种视频标签分类方法、系统及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210465333.6 (22)申请日 2022.04.29 (71)申请人中国人民大学地址 100872 北京市海淀区中关村大街59 号 (72)发明人蒋洪迅　张琳　 (74)专利代理机构北京兴智翔达知识产权代理有限公司 1 1768 专利代理师张显益 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06F 40/289(2020.01) G06F 40/232(2020.01) G06F 16/75(2019.01) G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 16/71(2019.01) G06F 16/901(2019.01) (54)发明名称一种视频标签分类方法、系统及计算机可读存储介质 (57)摘要本发明公开了一种视频标签分类方法、系统及计算机可读存储介质，方法包括：提取视频数据的视觉特征和文本特征；将所述视觉特征和文本特征进行多模态融合以获得融合特征；对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；基于所述图谱信息对所述预测结果进行修正以获得修正结果。本发明通过多任务预测以及修正得到更准确的实体标签预测结果，且不需要大规模数据集并且取得了较好的分类性能。权利要求书2页说明书7页附图3页 CN 114758283 A 2022.07.15 CN 114758283 A 1.一种视频标签分类方法，其特征在于，所述方法包括：提取视频数据的视觉特征和文本特征；将所述视觉特征和文本特征进行多模态融合以获得融合特征；对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；基于所述图谱信息对所述预测结果进行修正以获得修正结果。 2.如权利要求1所述的一种视频标签分类方法，其特征在于，提取视频数据的视觉特征和文本特征包括：对所述视频数据进行抽帧处理以获得视频帧图像，根据所述视频帧图像抽取所述视觉特征；对所述视频数据中的文本信息进行预处理以形成语料集合，基于所述语料集合抽取所述文本特征。 3.如权利要求2所述的一种视频标签分类方法，其特征在于，所述预处理包括：分词处理以及停用词处理。 4.如权利要求2所述的一种视频标签分类方法，其特征在于，根据所述视频帧图像抽取所述视觉特征包括：获取视频帧图像的图片编码{r1， r2， ...， rn}并将所述图片编码切分为若干个图像分支；基于所述图像分支获得视觉特征Embi；基于所述语料集合抽取所述文本特征包括：获取语料集合的文本序列{w1， w2， ...， wn} 并将所述文本序列切分为多个文本分支；基于所述文本分支获得文本特征Embt。 5.如权利要求1所述的一种视频标签分类方法，其特征在于，将所述视觉特征和文本特征进行多模态融合以获得融合特征包括：学习视觉特征以及文本特征的交互特征；基于所述交互特征获得融合特征。 6.如权利要求1所述的一种视频标签分类方法，其特征在于，对所述融合特征进行多任务预测以获得预测结果包括：所述融合特征经过若干个全连接层后分别输入到分类网络和相似性网络，以在所述分类网络和相似性网络同时进行训练；将所述分类网络和相似性网络分别输出的训练结果进行加权组合以获得预测结果。 7.如权利要求6所述的一种视频标签分类方法，其特征在于，所述方法还包括：所述分类网络通过分类损失函数对所述融合特征进行训练，所述相似性网络通过度量学习损失函数对所述融合特征进行训练。 8.如权利要求1所述的一种视频标签分类方法，其特征在于，基于所述图谱信息对所述预测结果进行修正以获得修正结果包括：构建邻接矩阵，所述邻接矩阵中包括邻居节点以及非邻居节点，其中，所述邻居节点的注意力置为1，非邻居节点的注意力置为0；所述邻居节点为图谱信息与预测结果有连接关系的节点；计算所述邻接矩阵的概率分布，根据最高概率的节点获得修正结果。权　利　要　求　书 1/2 页 2 CN 114758283 A 29.一种视频标签分类系统，其特征在于，所述系统包括：特征提取单元，用于提取视频数据的视觉特征和文本特征；融合单元，用于将所述视觉特征和文本特征进行多模态融合以获得融合特征；标签分类单元，用于对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；数据获取单元，用于获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；修正单元，用于基于所述图谱信息对所述预测结果进行修正以获得修正结果。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1 ‑8任一项所述的一种视频标签分类方法的步骤。权　利　要　求　书 2/2 页 3 CN 114758283 A 3

专利 一种视频标签分类方法、系统及计算机可读存储介质

专利一种视频标签分类方法、系统及计算机可读存储介质