专利 一种对图像描述的结果进行自动评估的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210392208.7 (22)申请日 2022.04.14 (71)申请人南京大学地址 210023 江苏省南京市栖霞区仙林大道163号南京大学 (72)发明人张建兵　马海程　马征　黄博　何亮　戴新宇　黄书剑　陈家骏　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师胡建华　于瀚文 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06N 20/00(2019.01) (54)发明名称一种对图像描述的结果进行自动评估的方法 (57)摘要本发明提供了一种对图像描述的结果进行自动评估的方法，包括：步骤1，分别抽取图像和文本的场景图；步骤2，利用多模态预训练模型 CLIP对相关元素进行编码；步骤3，计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性，提高了无标注场景下质量评价的可信度；本发明使用CLIP 模型对图像、文本、场景图进行编码，不仅确保了语义空间的一致性，大大提高了场景图相似度比较的准确性，还保证了编码能力的可更新性。权利要求书2页说明书8页附图5页 CN 114912512 A 2022.08.16 CN 114912512 A 1.一种对图像描述的结果进行自动评估的方法，其特征在于，包括以下步骤：步骤1，分别抽取图像和文本的场景图；步骤2，利用多模态预训练模型CL IP对相关元素进行编码；步骤3，计算得到句子质量评价的最终分数。 2.根据权利要求1所述的方法，其特征在于，步骤1包括：步骤101，输入图像IMG并由图像描述模型生成描述句子Sent；步骤102，训练得到一个图像场景图生成器，记作SG G‑TDE；步骤103，得到文本场景图生成器，记作S PICE‑SG；步骤104，使用图像场景图生成器SGG ‑TDE，输入图像IMG，得到图像IMG对应场景图IMG ‑ SG；步骤105，使用文本场景图生成器SPICE ‑SG，输入描述句子Sent，得到描述句子Sent对应场景图Sent ‑SG。 3.根据权利要求2所述的方法，其特征在于，步骤2包括：步骤201，部署多模态预训练模型CLIP，多模态预训练模型CLIP能够分别编码图像和文本，输出特征表示；步骤202，根据图像IMG对应场景图IMG ‑SG和描述句子S ent对应场景图Sent ‑SG，从文本场景图中提出涉及目标和关系，记作(K， L)；对图像场景图IMG ‑SG中无效信息进行过滤，从过滤后的场景图中抽取涉及目标和关系，记作(M， N)； M表示图像中的目标集合， N表示图像中的关系集合， K表示文本中的目标集合， L表示文本中的关系集合；步骤203，使用CLIP模型对图像IMG、描述句子Sent分别进行特征编码，特征编码分别记作Img∈R1*D、 Txt∈R1*D； R1*D是1*D维的实数矩阵； D是模型编码的固定维度；步骤204，利用CLIP模型对(M， N)集合中的每个元素进行编码，图像场景图对应的目标编码和关系编码分别记作Imgobj、 Imgrel，在数学上分别表示为： <Imgobj∈R|M|*D， Imgrel∈R |N|*D>， |M|表示集合M的元素个数；步骤205，利用CLIP模型对(K， L)集合中的每个元素进行编码，文本场景图对应的目标编码和关系编码分别记作Txtobj、 Txtrel，数学上分别表示为： <Txtobj∈R|K|*D， Txtrel∈R|L|*D >；步骤206，用每个目标各自对应关系的特征对编码表示进行更新；步骤207，用每个关系对应的目标编码对其本身进行更新；步骤208，循环执行步骤20 6、 207k次。 4.根据权利要求3所述的方法，其特征在于，步骤206包括：设关系集合N中与目标a有关的关系组成关系子集A，目标a的特征表示为关系集合A＝a1， a2， ...， ap，则其中a∈Imgobj，表示第k个关系ak的特征编码，以此更新矩阵Imgobj， k取值为1～p， t5是中间参数。 5.根据权利要求4所述的方法，其特征在于，步骤207包括：设关系r＝(x， z， y)，其中x， y 分别表示关系z对应的目标， x为主体， y为客体，其中初始为模型CL IP对关系r的编码表示，以此更新矩阵Imgrel， t6是中间参数。权　利　要　求　书 1/2 页 2 CN 114912512 A 26.根据权利要求5所述的方法，其特征在于，步骤3包括：步骤301，计算原始图像和文本的编码相似度Fbase；步骤302，计算图像和文本目标集合特征编码矩阵之间的精确度Pobj；步骤303，计算图像和文本目标集合之间的召回率Robj；步骤304，以调和平均值Fobj作为图像目标集合与文本目标集合之间的相似度分数，步骤 3 0 5 ，计算图像和文本关系集合特征编码矩阵之间的精确度表示图像关系编码和文本关系编码计算所得的关系相似度矩阵，表示取相似度矩阵中|L|列最大值的和；步骤 3 0 6 ，计算图像和文本关系集合特征编码矩阵之间的召回率其中表示取相似度矩阵中|N|行最大值的和；步骤307，以调和平均值作为图像关系集合与文本目标集合之间的相似度分数；步骤308，计算最终得分CL IP‑SG。 7.根据权利要求6所述的方法，其特征在于，步骤301中，采用如下公式计算原始图像和文本的编码相似度Fbase： Fbase＝cosin(Img， Txt)，其中Img表示图像经过模型CLIP编码后的特征向量， Txt表示句子经过模型CL IP编码后的特征向量， cosi n为余弦相似度计算。 8.根据权利要求7所述的方法，其特征在于，步骤302中，采用如下公式计算图像和文本目标集合特征编码矩阵之间的精确度Pobj：其中hij表示相似度矩阵中的第i行第j个元素，表示取相似度矩阵中|K|列最大值的和。 9.根据权利要求8所述的方法，其特征在于，步骤303中，采用如下公式计算图像和文本目标集合之间的召回率Robj：其中表示取|M|行最大值的和。 10.根据权利要求9所述的方法，其特征在于，步骤308中，采用如下公式计算最终得分 CLIP‑SG： CLIP‑SG＝α Fbase+β Fobj+γFrel，其中α 、 β 、 γ为权重参数。权　利　要　求　书 2/2 页 3 CN 114912512 A 3

专利 一种对图像描述的结果进行自动评估的方法

专利一种对图像描述的结果进行自动评估的方法