(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210145571.9 (22)申请日 2022.02.17 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 (72)发明人 高跃 戴岳 赵曦滨  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 黄德海 (51)Int.Cl. G06F 16/583(2019.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称 跨模态的立体 视觉对象检索方法及装置 (57)摘要 本申请公开了一种跨模态的立体视觉对象 检索方法及装置, 其中, 方法包括: 提取各个模态 的深度特征, 得到实例; 构建模态域内动态图结 构, 使用动态图卷积编码实例特征和实例域内关 系, 得到实例域内增强特征; 构建跨模态动态二 分图结构, 使用动态二分图卷积编码实例特征和 实例跨域关系, 得到实例跨域增强特征; 对实例 特征进行变换编码, 得到实例自变换特征; 融合 上述特征, 生成实例融合表示, 进而生成类别预 测分数, 并使用梯度下降算法优化权重, 进而使 用实例融合表示间的余弦距离计算相似分数得 到实例对象的相关跨模态检索数据。 由此, 解决 了相关技术在模态间无法直接检索, 跨模态检索 精度、 速度受限等问题。 权利要求书2页 说明书11页 附图3页 CN 114547364 A 2022.05.27 CN 114547364 A 1.一种跨模态的立体视 觉对象检索方法, 其特 征在于, 包括以下步骤: 提取各个模态的深度特 征, 得到至少一个实例; 基于所述至少一个实例 构建模态域内动态图结构, 使用动态图卷积编码 实例特征和实 例域内关系, 得到实例域内增强特 征; 基于所述至少一个实例 构建跨模态动态二分图结构, 使用动态二分图卷积编码所述实 例特征和实例跨 域关系, 得到实例跨 域增强特 征; 对所述至少一个实例的实例特 征进行变换编码, 得到实例自变换 特征; 融合所述实例域内增强特征、 实例跨域增强特征、 实例自变换特征, 生成实例融合表 示; 根据所述实例融合表示 生成类别预测分数, 并使用梯度下降算法优化权 重; 以及 基于所述优化后的权重, 使用所述至少一个实例的实例融合表示间的余弦距离计算相 似分数得到实例对象的相关跨模态检索数据。 2.根据权利要求1所述的方法, 其特征在于, 所述提取各个模态的深度特征, 得到至少 一个实例, 包括: 利用预设的深度表示模型提取各个模态样例的深度特征, 其中, 所述深度表示模型由 点云立体数据、 网格立体数据、 视图立体数据中的一项或多项基于至少一个分类任务悬链 得到。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述至少一个实例 构建模态域内 动态图结构, 使用动态图卷积编码实例特征和实例域内关系, 得到实例域内增强特征, 包 括: 对于每个实例, 计算特征间的第一余弦距离, 并使用最近邻算法逐个确定所述每个实 例的邻居, 建立所述模态域内动态图结构; 基于实例的深度 特征和所述模态域内动态图结构的域内连接, 使用所述动态图卷积编 码生成所述实例域内增强特 征。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述至少一个实例 构建跨模态动 态二分图结构, 使用动态二分图卷积编码所述实例特征和实例跨域关系, 得到实例跨域增 强特征, 包括: 对于所述每个实例, 计算所述特征间的第二余弦距离, 使用最近邻算法得到所述每个 实例的域内邻居, 建立实例与其域内邻居对应的其他模态的实例的跨域连接, 构建所述动 态二分图结构; 基于所述实例的深度 特征和所述动态二分图结构的跨域连接, 使用所述动态二分图卷 积编码生成所述实例跨 域增强特 征。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述根据 所述实例融合表示生成 类别预测分数, 并使用梯度下降算法优化权 重, 包括: 使用至少一层的全连接层处 理所述实例融合表示, 生成实例的类别分数; 根据所述类别分数和标注类别, 使用梯度下降方法优化所述可 学习的所述权 重。 6.一种跨模态的立体视 觉对象检索装置, 其特 征在于, 包括: 特征提取模块, 用于提取 各个模态的深度特 征, 得到至少一个实例; 域内特征增强模块, 用于基于所述至少一个实例构建模态域内动态图结构, 使用动态权 利 要 求 书 1/2 页 2 CN 114547364 A 2图卷积编码实例特 征和实例域内关系, 得到实例域内增强特 征; 跨域特征增强模块, 用于基于所述至少一个实例构建跨模态动态二分图结构, 使用动 态二分图卷积编码所述实例特 征和实例跨 域关系, 得到实例跨 域增强特 征; 特征变换模块, 用于对所述至少一个实例的实例特征进行变换编码, 得到实例自变换 特征; 特征融合模块, 用于融合所述实例域内增强特征、 实例跨域增强特征、 实例自变换特 征, 生成实例融合表示; 权重优化模块, 用于根据所述实例融合表示生成类别预测分数, 并使用 梯度下降算法 优化权重; 以及 检索模块, 用于基于所述优化后的权重, 使用所述至少一个实例的实例融合表示间的 余弦距离计算相似分数 得到实例对象的相关跨模态检索数据。 7.根据权利要求6所述的装置, 其特 征在于, 所述 域内特征增强模块, 包括: 第一计算单元, 用于对于每个实例, 计算特征间的第 一余弦距离, 并使用最近邻算法逐 个确定所述每 个实例的邻居, 建立所述模态域内动态图结构; 第一生成单元, 用于基于实例的深度特征和所述模态域内动态图结构的域内连接, 使 用所述动态图卷积编码生成所述实例域内增强特 征。 8.根据权利要求7 所述的装置, 其特 征在于, 所述 跨域特征增强模块, 包括: 第二计算单元, 用于对于所述每个实例, 计算所述特征间的第二余弦距离, 使用最近邻 算法得到所述每个实例的域内邻居, 建立实例与其域内邻居对应的其他模态的实例的跨域 连接, 构建所述动态二分图结构; 第二生成单元, 用于基于所述实例的深度特征和所述动态二分图结构的跨域连接, 使 用所述动态二分图卷积编码生成所述实例跨 域增强特 征。 9.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所 述处理器上运行的计算机程序, 所述处理器执行所述程序, 以实现如权利要求 1‑5任一项所 述的跨模态的立体视 觉对象检索方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行, 以用于实现如权利要求1 ‑5任一项所述的跨模态的立体视 觉对象检索方法。权 利 要 求 书 2/2 页 3 CN 114547364 A 3

.PDF文档 专利 跨模态的立体视觉对象检索方法及装置

安全报告 > 其他 > 文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 跨模态的立体视觉对象检索方法及装置 第 1 页 专利 跨模态的立体视觉对象检索方法及装置 第 2 页 专利 跨模态的立体视觉对象检索方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 01:23:37上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。