(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210145571.9
(22)申请日 2022.02.17
(71)申请人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 高跃 戴岳 赵曦滨
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 黄德海
(51)Int.Cl.
G06F 16/583(2019.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
(54)发明名称
跨模态的立体 视觉对象检索方法及装置
(57)摘要
本申请公开了一种跨模态的立体视觉对象
检索方法及装置, 其中, 方法包括: 提取各个模态
的深度特征, 得到实例; 构建模态域内动态图结
构, 使用动态图卷积编码实例特征和实例域内关
系, 得到实例域内增强特征; 构建跨模态动态二
分图结构, 使用动态二分图卷积编码实例特征和
实例跨域关系, 得到实例跨域增强特征; 对实例
特征进行变换编码, 得到实例自变换特征; 融合
上述特征, 生成实例融合表示, 进而生成类别预
测分数, 并使用梯度下降算法优化权重, 进而使
用实例融合表示间的余弦距离计算相似分数得
到实例对象的相关跨模态检索数据。 由此, 解决
了相关技术在模态间无法直接检索, 跨模态检索
精度、 速度受限等问题。
权利要求书2页 说明书11页 附图3页
CN 114547364 A
2022.05.27
CN 114547364 A
1.一种跨模态的立体视 觉对象检索方法, 其特 征在于, 包括以下步骤:
提取各个模态的深度特 征, 得到至少一个实例;
基于所述至少一个实例 构建模态域内动态图结构, 使用动态图卷积编码 实例特征和实
例域内关系, 得到实例域内增强特 征;
基于所述至少一个实例 构建跨模态动态二分图结构, 使用动态二分图卷积编码所述实
例特征和实例跨 域关系, 得到实例跨 域增强特 征;
对所述至少一个实例的实例特 征进行变换编码, 得到实例自变换 特征;
融合所述实例域内增强特征、 实例跨域增强特征、 实例自变换特征, 生成实例融合表
示;
根据所述实例融合表示 生成类别预测分数, 并使用梯度下降算法优化权 重; 以及
基于所述优化后的权重, 使用所述至少一个实例的实例融合表示间的余弦距离计算相
似分数得到实例对象的相关跨模态检索数据。
2.根据权利要求1所述的方法, 其特征在于, 所述提取各个模态的深度特征, 得到至少
一个实例, 包括:
利用预设的深度表示模型提取各个模态样例的深度特征, 其中, 所述深度表示模型由
点云立体数据、 网格立体数据、 视图立体数据中的一项或多项基于至少一个分类任务悬链
得到。
3.根据权利要求1所述的方法, 其特征在于, 所述基于所述至少一个实例 构建模态域内
动态图结构, 使用动态图卷积编码实例特征和实例域内关系, 得到实例域内增强特征, 包
括:
对于每个实例, 计算特征间的第一余弦距离, 并使用最近邻算法逐个确定所述每个实
例的邻居, 建立所述模态域内动态图结构;
基于实例的深度 特征和所述模态域内动态图结构的域内连接, 使用所述动态图卷积编
码生成所述实例域内增强特 征。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述至少一个实例 构建跨模态动
态二分图结构, 使用动态二分图卷积编码所述实例特征和实例跨域关系, 得到实例跨域增
强特征, 包括:
对于所述每个实例, 计算所述特征间的第二余弦距离, 使用最近邻算法得到所述每个
实例的域内邻居, 建立实例与其域内邻居对应的其他模态的实例的跨域连接, 构建所述动
态二分图结构;
基于所述实例的深度 特征和所述动态二分图结构的跨域连接, 使用所述动态二分图卷
积编码生成所述实例跨 域增强特 征。
5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述根据 所述实例融合表示生成
类别预测分数, 并使用梯度下降算法优化权 重, 包括:
使用至少一层的全连接层处 理所述实例融合表示, 生成实例的类别分数;
根据所述类别分数和标注类别, 使用梯度下降方法优化所述可 学习的所述权 重。
6.一种跨模态的立体视 觉对象检索装置, 其特 征在于, 包括:
特征提取模块, 用于提取 各个模态的深度特 征, 得到至少一个实例;
域内特征增强模块, 用于基于所述至少一个实例构建模态域内动态图结构, 使用动态权 利 要 求 书 1/2 页
2
CN 114547364 A
2图卷积编码实例特 征和实例域内关系, 得到实例域内增强特 征;
跨域特征增强模块, 用于基于所述至少一个实例构建跨模态动态二分图结构, 使用动
态二分图卷积编码所述实例特 征和实例跨 域关系, 得到实例跨 域增强特 征;
特征变换模块, 用于对所述至少一个实例的实例特征进行变换编码, 得到实例自变换
特征;
特征融合模块, 用于融合所述实例域内增强特征、 实例跨域增强特征、 实例自变换特
征, 生成实例融合表示;
权重优化模块, 用于根据所述实例融合表示生成类别预测分数, 并使用 梯度下降算法
优化权重; 以及
检索模块, 用于基于所述优化后的权重, 使用所述至少一个实例的实例融合表示间的
余弦距离计算相似分数 得到实例对象的相关跨模态检索数据。
7.根据权利要求6所述的装置, 其特 征在于, 所述 域内特征增强模块, 包括:
第一计算单元, 用于对于每个实例, 计算特征间的第 一余弦距离, 并使用最近邻算法逐
个确定所述每 个实例的邻居, 建立所述模态域内动态图结构;
第一生成单元, 用于基于实例的深度特征和所述模态域内动态图结构的域内连接, 使
用所述动态图卷积编码生成所述实例域内增强特 征。
8.根据权利要求7 所述的装置, 其特 征在于, 所述 跨域特征增强模块, 包括:
第二计算单元, 用于对于所述每个实例, 计算所述特征间的第二余弦距离, 使用最近邻
算法得到所述每个实例的域内邻居, 建立实例与其域内邻居对应的其他模态的实例的跨域
连接, 构建所述动态二分图结构;
第二生成单元, 用于基于所述实例的深度特征和所述动态二分图结构的跨域连接, 使
用所述动态二分图卷积编码生成所述实例跨 域增强特 征。
9.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所
述处理器上运行的计算机程序, 所述处理器执行所述程序, 以实现如权利要求 1‑5任一项所
述的跨模态的立体视 觉对象检索方法。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器
执行, 以用于实现如权利要求1 ‑5任一项所述的跨模态的立体视 觉对象检索方法。权 利 要 求 书 2/2 页
3
CN 114547364 A
3
专利 跨模态的立体视觉对象检索方法及装置
安全报告 >
其他 >
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:23:37上传分享