(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210392208.7 (22)申请日 2022.04.14 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号南京大学 (72)发明人 张建兵 马海程 马征 黄博  何亮 戴新宇 黄书剑 陈家骏  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 胡建华 于瀚文 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06N 20/00(2019.01) (54)发明名称 一种对图像描述的结果进行自动评估的方 法 (57)摘要 本发明提供了一种对图像描述的结果进行 自动评估的方法, 包括: 步骤1, 分别抽取图像和 文本的场景图; 步骤2, 利用多模态预训练模型 CLIP对相关元素进行编码; 步骤3, 计算得到句子 质量评价的最终分数。 本发明基于场景图来辅助 判断图像和文本之间的一致性, 提高了无标注场 景下质量评价的可信 度; 本发明使用CLIP 模型对 图像、 文本、 场景图进行编码, 不仅确保了语义空 间的一致性, 大大提高了场景图相似度比较的准 确性, 还保证 了编码能力的可 更新性。 权利要求书2页 说明书8页 附图5页 CN 114912512 A 2022.08.16 CN 114912512 A 1.一种对图像描述的结果进行自动评估的方法, 其特 征在于, 包括以下步骤: 步骤1, 分别抽取图像和文本的场景图; 步骤2, 利用多模态预训练模型CL IP对相关元 素进行编码; 步骤3, 计算得到句子质量评价的最终分数。 2.根据权利要求1所述的方法, 其特 征在于, 步骤1包括: 步骤101, 输入图像IMG并由图像描述模型生成描述句子Sent; 步骤102, 训练得到一个图像场景图生成器, 记作SG G‑TDE; 步骤103, 得到文本场景图生成器, 记作S PICE‑SG; 步骤104, 使用图像场景图生成器SGG ‑TDE, 输入图像IMG, 得到图像IMG对应场景图IMG ‑ SG; 步骤105, 使用文本场景图生成器SPICE ‑SG, 输入描述句子Sent, 得到描述句子Sent对 应场景图Sent ‑SG。 3.根据权利要求2所述的方法, 其特 征在于, 步骤2包括: 步骤201, 部署多模态预训练模型CLIP, 多模态预训练模型CLIP能够分别编码图像和文 本, 输出特征表示; 步骤202, 根据图像IMG对应场景图IMG ‑SG和描述句子S ent对应场景图Sent ‑SG, 从文本 场景图中提出涉及目标和关系, 记作(K, L); 对图像场景图IMG ‑SG中无效信息进行过滤, 从 过滤后的场景图中抽取涉及目标和关系, 记作(M, N); M表示图像中的目标集合, N表示图像 中的关系集 合, K表示文本中的目标集 合, L表示文本中的关系集 合; 步骤203, 使用CLIP模型对图像IMG、 描述句子Sent分别进行特征编码, 特征编码 分别记 作Img∈R1*D、 Txt∈R1*D; R1*D是1*D维的实数矩阵; D是模型编码的固定维度; 步骤204, 利用CLIP模型对(M, N)集合中的每个元素进行编码, 图像场景 图对应的目标 编码和关系编码分别记作Imgobj、 Imgrel, 在数学上分别表示为: <Imgobj∈R|M|*D, Imgrel∈R |N|*D>, |M|表示 集合M的元素个数; 步骤205, 利用CLIP模型对(K, L)集合中的每个元素进行编码, 文本场景 图对应的目标 编码和关系编码分别记作Txtobj、 Txtrel, 数学上分别表示为: <Txtobj∈R|K|*D, Txtrel∈R|L|*D >; 步骤206, 用每个目标各自对应关系的特 征对编码表示进行 更新; 步骤207, 用每 个关系对应的目标编码对其本身 进行更新; 步骤208, 循环执 行步骤20 6、 207k次。 4.根据权利 要求3所述的方法, 其特征在于, 步骤206包括: 设关系集合N中与目标a有关 的关系组成关系子集A, 目标a的特征表示为 关系集合A=a1, a2, ..., ap, 则 其中a∈Imgobj, 表示第k个关系ak的特征编码, 以此更新矩 阵Imgobj, k取值为1~p, t5是中间参数。 5.根据权利要求4所述的方法, 其特征在于, 步骤207包括: 设关系r=(x, z, y), 其中x, y 分别表示关系z对应的目标, x为主体, y为客体, 其中 初 始为模型CL IP对关系r的编码表示, 以此 更新矩阵Imgrel, t6是中间参数。权 利 要 求 书 1/2 页 2 CN 114912512 A 26.根据权利要求5所述的方法, 其特 征在于, 步骤3包括: 步骤301, 计算原 始图像和文本的编码相似度Fbase; 步骤302, 计算图像和文本目标集 合特征编码矩阵之间的精确度Pobj; 步骤303, 计算图像和文本目标集 合之间的召回率Robj; 步骤304, 以调和平均值Fobj作为图像目标集合与文本目标集合之间的相似度分数, 步 骤 3 0 5 , 计 算图 像 和文 本 关 系集 合 特 征 编 码 矩阵 之 间的 精 确 度 表示图像关系编码和文本关系编码计算所得的关系相似 度矩阵, 表示取相似度矩阵 中|L|列最大值的和; 步 骤 3 0 6 , 计 算图 像 和文 本关 系集 合 特 征 编码 矩阵 之间的 召回 率 其中 表示取相似度矩阵 中|N|行最 大值的和; 步骤307, 以调和平均 值 作为图像关系集合与文本目标集合之间 的相 似度分数; 步骤308, 计算最终得分CL IP‑SG。 7.根据权利要求6所述的方法, 其特征在于, 步骤301中, 采用如下公式计算原始图像和 文本的编码相似度Fbase: Fbase=cosin(Img, Txt), 其中Img表示图像经过模型CLIP编码后的特征向量, Txt表示句 子经过模型CL IP编码后的特 征向量, cosi n为余弦相似度计算。 8.根据权利要求7所述的方法, 其特征在于, 步骤302中, 采用如下公式计算图像和文本 目标集合特征编码矩阵之间的精确度Pobj: 其中hij表示相似度矩阵 中的第i行第j个元素, 表 示取相似度矩阵 中|K|列最大值的和。 9.根据权利要求8所述的方法, 其特征在于, 步骤303中, 采用如下公式计算图像和文本 目标集合之间的召回率Robj: 其中 表示取|M|行最大值的和。 10.根据权利要求9所述的方法, 其特征在于, 步骤308中, 采用如下公式计算最终得分 CLIP‑SG: CLIP‑SG=α Fbase+β Fobj+γFrel, 其中α 、 β 、 γ为权 重参数。权 利 要 求 书 2/2 页 3 CN 114912512 A 3

.PDF文档 专利 一种对图像描述的结果进行自动评估的方法

安全报告 > 其他 > 文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种对图像描述的结果进行自动评估的方法 第 1 页 专利 一种对图像描述的结果进行自动评估的方法 第 2 页 专利 一种对图像描述的结果进行自动评估的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 07:34:35上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。