专利 一种图文数据的多级关系分析与挖掘方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210875014.2 (22)申请日 2022.07.25 (71)申请人北方民族大学地址 750021 宁夏回族自治区银川市西夏区文昌北街204 号 (72)发明人王海荣　郭瑞萍　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/126(2020.01) G06F 40/194(2020.01) G06F 40/211(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种图文数据的多级关系分析与挖掘方法 (57)摘要本发明公开了一种图文数据的多级关系分析与挖掘方法，其引入BERT ‑Large提取文本特征构建文本连接图，利用Faster ‑RCNN网络提取图像特征来学习空间位置关系和语义关系并构建图像连接图，进而完成单模态内部语义关系计算，在此基础上，使用 “节点切分方法 ”和带多头注意力机制的图卷积网络，进行局部和全局的图文关系融合。此外，为提升关系分析与挖掘效率，采用了基于注意力机制的连边权重剪枝策略，用以增强重要分支表示，减少冗余信息干扰。在公开的Flickr30K、 MSCOCO ‑1K、 MSCOCO ‑5K数据集上进行方法实验，并与11种方法进行实验结果的对比分析，本发明在Flickr30K上的平均召回率提高了0.97％和0.57％，在MSCOCO ‑1K上的平均召回率提高了0.93％和0.63％，在MSCOCO ‑5K上的平均召回率提高了0.37％和0.93％。权利要求书5页说明书14页附图3页 CN 115098646 A 2022.09.23 CN 115098646 A 1.一种图文数据的多级关系分析与挖掘方法，其特征在于，包括以下步骤： 1)采集不同模态的图文数据，包含文本和图像； 2)对获取到的不同模态的图文数据分模态进行特征表示，提取文本和图像特征向量； 3)图文数据特征表示后，分别构建文本连接图和图像连接图，进行单模态内部关系挖掘，得到单模态内部关系相似度，即分别得到文本内部关系相似度和图像内部关系相似度； 4)参照文本连接图和图像连接图，计算连接图中局部某个节点与另一模态节点间的相似度，利用 “节点切分方法 ”进一步实施局部相似性操作，得到图文局部关系相似度；联合考虑从图像到文本、从文本到图像的局部相似性来学习全局相似性，采用带多头注意力机制的GCN通过相邻节点进行对应关系补全与传播，得到图文全局关系相似度； 5)加入基于注意力机制的连边权重剪枝策略，来增强重要关系展示，去除无用关系信息； 6)根据计算出的单模态内部关系相似度、图文局部关系相似度、图文全局关系相似度得到最终图文关系融合相似度，将关系相似度排序，取前k个候选集作为与检索例子有高度语义关联的结果。 2.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法，其特征在于，在步骤1)中，将采集到的图文数据表示为：式中， E表示文本实例， I表示图像实例， y＝1表示第一对文本图像数据，整个式子C表示 Y对图文数据。 3.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法，其特征在于，所述步骤2)包括以下两部分： a、文本特征提取与表示：给定一个句子E，采用NLP句法分析工具进行预处理后，添加两个特殊的标记： [CLS]和[SEP]，并将其输入预训练的BERT ‑Large模型作为整个模型的文本编码层，其计算公式为： Dx＝BERT‑Large(Ex),x∈[1,z] 式中， Ex是包含x个单词的句子向量， Dx代表将句子向量Ex输入到BERT ‑Large模型后的结果向量， z为组成句子的z个词，也就是句子中的最大单词量，将结果向量Dx通过双向GRU 网络即Bi ‑GRU网络映射到 h维嵌入空间中生成最终文本表示，其计算公式为： Tx＝Bi‑GRU(Dx),x∈[1,z] 式中， Tx表示利用前向GRU和后向GRU读取Dx后的结果； b、图像特征提取与表示：输入一张图像I，使用Faster ‑RCNN网络结合预训练的ResNet ‑ 101提取区域级图像特征；给定在图像中检测到的区域i，在平均池化操作后选择2048维特征ei，利用全连接层将ei转换为h维嵌入空间，其转换公式为： vi＝Wvei+pv 式中， vi表示区域i的图像特征向量， Wv和pv分别为图像特征向量的权重矩阵和偏差；图像区域特征提取的边界框用一个四维空间坐标Si＝{Ai,Bi,Gi,Hi}表示，式中， Si表示区域i 的边界框特征向量， (Ai,Bi)表示框中左上点坐标的横坐标与纵坐标， (Gi,Hi)是边界框的宽度和高度；每张图像用一组对象O＝{o1,o2,…,ot,…,oa}来表示， a代表图像区域数，每个对权　利　要　求　书 1/5 页 2 CN 115098646 A 2象ot都与图像特征向量vi、边界框特征向量Si相关联，整个图像写成O＝[v1||S1,v2||S2,…, vi||Si,…,va||Sa]。 4.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法，其特征在于，所述步骤3)包括以下两部分： a、文本数据特征表示完后，构建文本连接图来进行文本内部关系挖掘，得到文本内部关系相似度；首先，使用NLP句法分析工具识别句子中的语义依赖关系，采用预训练BERT ‑ Large模型结合Bi ‑GRU网络从输入句子中提取特征向量t；构建文本连接图时，将每个单词设置为节点，根据句法分析决定单词节点间是否连边，将文本连接图设为J＝(X,F)， X是单词节点的集合， F是边的集合，记单词节点数为c；通过内积公式计算文本连接图中两两单词节点间相似性，从而获得连边权重：设所求单词表示t的相似矩阵为Q， tx和ty分别表示第x个单词节点和第y个单词节点， Qxy 代表第x个和第y个单词节点间的相似性， λ是一个比例因子，使用参数λ乘以内积结果进行运算，利用softmax归一化得Q；由于F为文本连接图中边的集合，设f为单词节点之间的连边，单词节点间的语义依赖性用连边权重Wf来表示，具体公式为：式中，矩阵K表示节点的邻接矩阵，连边权重Wf通过相似度矩阵Q和邻接矩阵K相乘得到； b、图像数据特征表示完后，构建图像连接图来进行图像内部关系挖掘，得到图像内部关系相似度，主要从空间关系和语义关系两个层面进行；首先，给定两个区域对象，通过三元组<实体 ‑关系‑实体>形式表示，即qU,V＝<objectU,R,objectV>来表示其空间相对位置，用 objectU和objectV来表示两个实体，用R来表示关系信息；将空间区域图设为Zsp＝(v,qsp)，式中， v代表图像特征向量， qsp是带方向性的空间相对位置， qu,v和qv,u是对称方向的边；原始 GCN不包含有向边，因此空间图中不同的方向要通过变换矩阵进行转换；这里采用带多头注意力机制的GCN对空间图进行推理，把每个注意头的输出特征连接起来，通过聚焦重要边来挖掘空间关系，得到相应的区域图像表示，其计算公式为：式中， N表示头注意力的数量， ReLU( ·)是激活函数， N(vi)表示vi的邻居集合， vi表示区域i的图像特征向量， dir(i,j)为对每条边方向性敏感的变换矩阵，是一个相关权重矩阵， αijn是多头注意力系数， vj表示区域i的邻域j的图像特征向量， vi′代表经过多头注意力机制增强GCN之后得到具有空间关系感知的区域图像特征向量，注意力系数αij计算公式为：式中， Wβ为变换矩阵， Vdir(i,j)表示一个相关变换矩阵，通过基于注意力的空间关系编码权　利　要　求　书 2/5 页 3 CN 115098646 A 3

专利 一种图文数据的多级关系分析与挖掘方法

专利一种图文数据的多级关系分析与挖掘方法