(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210392208.7
(22)申请日 2022.04.14
(71)申请人 南京大学
地址 210023 江苏省南京市栖霞区仙林大
道163号南京大学
(72)发明人 张建兵 马海程 马征 黄博
何亮 戴新宇 黄书剑 陈家骏
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 胡建华 于瀚文
(51)Int.Cl.
G06K 9/62(2022.01)
G06V 10/74(2022.01)
G06V 10/80(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种对图像描述的结果进行自动评估的方
法
(57)摘要
本发明提供了一种对图像描述的结果进行
自动评估的方法, 包括: 步骤1, 分别抽取图像和
文本的场景图; 步骤2, 利用多模态预训练模型
CLIP对相关元素进行编码; 步骤3, 计算得到句子
质量评价的最终分数。 本发明基于场景图来辅助
判断图像和文本之间的一致性, 提高了无标注场
景下质量评价的可信 度; 本发明使用CLIP 模型对
图像、 文本、 场景图进行编码, 不仅确保了语义空
间的一致性, 大大提高了场景图相似度比较的准
确性, 还保证 了编码能力的可 更新性。
权利要求书2页 说明书8页 附图5页
CN 114912512 A
2022.08.16
CN 114912512 A
1.一种对图像描述的结果进行自动评估的方法, 其特 征在于, 包括以下步骤:
步骤1, 分别抽取图像和文本的场景图;
步骤2, 利用多模态预训练模型CL IP对相关元 素进行编码;
步骤3, 计算得到句子质量评价的最终分数。
2.根据权利要求1所述的方法, 其特 征在于, 步骤1包括:
步骤101, 输入图像IMG并由图像描述模型生成描述句子Sent;
步骤102, 训练得到一个图像场景图生成器, 记作SG G‑TDE;
步骤103, 得到文本场景图生成器, 记作S PICE‑SG;
步骤104, 使用图像场景图生成器SGG ‑TDE, 输入图像IMG, 得到图像IMG对应场景图IMG ‑
SG;
步骤105, 使用文本场景图生成器SPICE ‑SG, 输入描述句子Sent, 得到描述句子Sent对
应场景图Sent ‑SG。
3.根据权利要求2所述的方法, 其特 征在于, 步骤2包括:
步骤201, 部署多模态预训练模型CLIP, 多模态预训练模型CLIP能够分别编码图像和文
本, 输出特征表示;
步骤202, 根据图像IMG对应场景图IMG ‑SG和描述句子S ent对应场景图Sent ‑SG, 从文本
场景图中提出涉及目标和关系, 记作(K, L); 对图像场景图IMG ‑SG中无效信息进行过滤, 从
过滤后的场景图中抽取涉及目标和关系, 记作(M, N); M表示图像中的目标集合, N表示图像
中的关系集 合, K表示文本中的目标集 合, L表示文本中的关系集 合;
步骤203, 使用CLIP模型对图像IMG、 描述句子Sent分别进行特征编码, 特征编码 分别记
作Img∈R1*D、 Txt∈R1*D; R1*D是1*D维的实数矩阵; D是模型编码的固定维度;
步骤204, 利用CLIP模型对(M, N)集合中的每个元素进行编码, 图像场景 图对应的目标
编码和关系编码分别记作Imgobj、 Imgrel, 在数学上分别表示为: <Imgobj∈R|M|*D, Imgrel∈R
|N|*D>, |M|表示 集合M的元素个数;
步骤205, 利用CLIP模型对(K, L)集合中的每个元素进行编码, 文本场景 图对应的目标
编码和关系编码分别记作Txtobj、 Txtrel, 数学上分别表示为: <Txtobj∈R|K|*D, Txtrel∈R|L|*D
>;
步骤206, 用每个目标各自对应关系的特 征对编码表示进行 更新;
步骤207, 用每 个关系对应的目标编码对其本身 进行更新;
步骤208, 循环执 行步骤20 6、 207k次。
4.根据权利 要求3所述的方法, 其特征在于, 步骤206包括: 设关系集合N中与目标a有关
的关系组成关系子集A, 目标a的特征表示为
关系集合A=a1, a2, ..., ap, 则
其中a∈Imgobj,
表示第k个关系ak的特征编码, 以此更新矩
阵Imgobj, k取值为1~p, t5是中间参数。
5.根据权利要求4所述的方法, 其特征在于, 步骤207包括: 设关系r=(x, z, y), 其中x, y
分别表示关系z对应的目标, x为主体, y为客体,
其中
初
始为模型CL IP对关系r的编码表示, 以此 更新矩阵Imgrel, t6是中间参数。权 利 要 求 书 1/2 页
2
CN 114912512 A
26.根据权利要求5所述的方法, 其特 征在于, 步骤3包括:
步骤301, 计算原 始图像和文本的编码相似度Fbase;
步骤302, 计算图像和文本目标集 合特征编码矩阵之间的精确度Pobj;
步骤303, 计算图像和文本目标集 合之间的召回率Robj;
步骤304, 以调和平均值Fobj作为图像目标集合与文本目标集合之间的相似度分数,
步 骤 3 0 5 , 计 算图 像 和文 本 关 系集 合 特 征 编 码 矩阵 之 间的 精 确 度
表示图像关系编码和文本关系编码计算所得的关系相似
度矩阵,
表示取相似度矩阵
中|L|列最大值的和;
步 骤 3 0 6 , 计 算图 像 和文 本关 系集 合 特 征 编码 矩阵 之间的 召回 率
其中
表示取相似度矩阵
中|N|行最
大值的和;
步骤307, 以调和平均 值
作为图像关系集合与文本目标集合之间 的相
似度分数;
步骤308, 计算最终得分CL IP‑SG。
7.根据权利要求6所述的方法, 其特征在于, 步骤301中, 采用如下公式计算原始图像和
文本的编码相似度Fbase:
Fbase=cosin(Img, Txt), 其中Img表示图像经过模型CLIP编码后的特征向量, Txt表示句
子经过模型CL IP编码后的特 征向量, cosi n为余弦相似度计算。
8.根据权利要求7所述的方法, 其特征在于, 步骤302中, 采用如下公式计算图像和文本
目标集合特征编码矩阵之间的精确度Pobj:
其中hij表示相似度矩阵
中的第i行第j个元素,
表
示取相似度矩阵
中|K|列最大值的和。
9.根据权利要求8所述的方法, 其特征在于, 步骤303中, 采用如下公式计算图像和文本
目标集合之间的召回率Robj:
其中
表示取|M|行最大值的和。
10.根据权利要求9所述的方法, 其特征在于, 步骤308中, 采用如下公式计算最终得分
CLIP‑SG:
CLIP‑SG=α Fbase+β Fobj+γFrel,
其中α 、 β 、 γ为权 重参数。权 利 要 求 书 2/2 页
3
CN 114912512 A
3
专利 一种对图像描述的结果进行自动评估的方法
安全报告 >
其他 >
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:34:35上传分享