(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210875014.2 (22)申请日 2022.07.25 (71)申请人 北方民族大 学 地址 750021 宁夏回族自治区银川市西夏 区文昌北街204 号 (72)发明人 王海荣 郭瑞萍  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 冯炳辉 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/126(2020.01) G06F 40/194(2020.01) G06F 40/211(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种图文数据的多 级关系分析与挖掘方法 (57)摘要 本发明公开了一种图文数据的多级关系分 析与挖掘方法, 其引入BERT ‑Large提取文本 特征 构建文本连接图, 利用Faster ‑RCNN网络提取 图 像特征来学习空间位置关系和语义关系并构建 图像连接图, 进而完成单模态内部语义关系计 算, 在此基础上, 使用 “节点切分方法 ”和带多头 注意力机制的图卷积网络, 进行局部和全局的 图 文关系融合。 此外, 为提升关系分析与挖掘效率, 采用了基于注 意力机制的连边权重剪枝策略, 用 以增强重要分支表示, 减少冗余信息干扰。 在公 开的Flickr30K、 MSCOCO ‑1K、 MSCOCO ‑5K数据集上 进行方法实验, 并与11种方法进行实验 结果的对 比分析, 本发明在Flickr30K上的平均召回率提 高了0.97%和0.57%, 在MSCOCO ‑1K上的平均召 回率提高了0.93%和0.63%, 在MSCOCO ‑5K上的 平均召回率 提高了0.37%和0.93%。 权利要求书5页 说明书14页 附图3页 CN 115098646 A 2022.09.23 CN 115098646 A 1.一种图文数据的多 级关系分析与挖掘方法, 其特 征在于, 包括以下步骤: 1)采集不同模态的图文数据, 包 含文本和图像; 2)对获取到的不同模态的图文数据分模态进行 特征表示, 提取文本和图像特 征向量; 3)图文数据特征表示后, 分别构建文本连接图和图像连接 图, 进行单模态内部关系挖 掘, 得到单模态内部关系相似度, 即 分别得到文本内部关系相似度和图像内部关系相似度; 4)参照文本连接图和图像连接图, 计算连接图中局部某个节点与另一模态节点间的相 似度, 利用 “节点切分方法 ”进一步实施局部相似性操作, 得到图文局部 关系相似度; 联合考 虑从图像到文本、 从文本到图像的局部相似性来学习全局相似性, 采用带多头注意力机制 的GCN通过相邻节点进行对应关系补全与传播, 得到图文全局关系相似度; 5)加入基于注意力机制的连边权重剪枝策略, 来增强重要关系展示, 去除无用关系信 息; 6)根据计算出的单模态内部关系相似度、 图文局部关系相似度、 图文全局关系相似度 得到最终图文关系融合相似度, 将关系相似度排序, 取前k个候选集作为与检索例子有高度 语义关联的结果。 2.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法, 其特征在于, 在步 骤1)中, 将采集到的图文数据表示 为: 式中, E表示文本实例, I表示图像实例, y=1表示第一对文本图像数据, 整个式子C表示 Y对图文数据。 3.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法, 其特征在于, 所述 步骤2)包括以下两 部分: a、 文本特征提取与表示: 给定一个句子E, 采用NLP句法分析工具进行预处理后, 添加两 个特殊的标记: [CLS]和[SEP], 并将其输入预训练的BERT ‑Large模型作为整个模型的文本 编码层, 其计算公式为: Dx=BERT‑Large(Ex),x∈[1,z] 式中, Ex是包含x个单词的句子向量, Dx代表将句子向量Ex输入到BERT ‑Large模型后的 结果向量, z为组成句子的z个词, 也就是句子中的最大单词量, 将结果向量Dx通过双向GRU 网络即Bi ‑GRU网络映射到 h维嵌入空间中生成最终文本表示, 其计算公式为: Tx=Bi‑GRU(Dx),x∈[1,z] 式中, Tx表示利用前向GRU和后向GRU读取Dx后的结果; b、 图像特征提取与表示: 输入一张图像I, 使用Faster ‑RCNN网络结合预训练的ResNet ‑ 101提取区域级图像特征; 给定在图像中检测 到的区域i, 在平均池化操作后选择2048维特 征ei, 利用全连接层将ei转换为h维嵌入空间, 其 转换公式为: vi=Wvei+pv 式中, vi表示区域i的图像特征向量, Wv和pv分别为图像特征向量的权重矩阵和偏差; 图 像区域特征提取的边界框用一个 四维空间坐标Si={Ai,Bi,Gi,Hi}表示, 式中, Si表示区域i 的边界框特征向量, (Ai,Bi)表示框中左上点坐标的横坐标与纵坐标, (Gi,Hi)是边界框的宽 度和高度; 每张图像用一组对象O={o1,o2,…,ot,…,oa}来表示, a代表图像区域数, 每个对权 利 要 求 书 1/5 页 2 CN 115098646 A 2象ot都与图像特征向量vi、 边界框特征向量Si相关联, 整个图像写成O=[v1||S1,v2||S2,…, vi||Si,…,va||Sa]。 4.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法, 其特征在于, 所述 步骤3)包括以下两 部分: a、 文本数据特征表示完后, 构建文本连接图来进行文本内部关系挖掘, 得到文本内部 关系相似度; 首先, 使用NLP句法分析工具识别句子中的语义依赖关系, 采用预训练BERT ‑ Large模型结合Bi ‑GRU网络从输入句子中提取特征向量t; 构建文本连接图时, 将每个单词 设置为节点, 根据句法分析决定单词节点间是否连边, 将文本连接图设为J=(X,F), X是单 词节点的集合, F是边的集合, 记单词节点数为c; 通过内积公 式计算文本连接图中两两单词 节点间相似性, 从而获得 连边权重: 设所求单词表示t的相似矩阵为Q, tx和ty分别表示第x个 单词节点和第y个 单词节点, Qxy 代表第x个和第y个单词节点间的相似性, λ是一个比例因子, 使用参数λ乘以内积结果进行 运算, 利用softmax归一化得Q; 由于F为文本连接图中边的集合, 设f为单词节点之间的连 边, 单词节点间的语义依赖性用连边权 重Wf来表示, 具体公式为: 式中, 矩阵K表示节点的邻接矩阵, 连边权 重Wf通过相似度矩阵Q和邻接矩阵K相乘得到; b、 图像数据特征表示完后, 构建图像连接图来进行图像内部关系挖掘, 得到图像内部 关系相似度, 主要从空间关系和语义关系两个层面进行; 首先, 给定两个区域对象, 通过三 元组<实体 ‑关系‑实体>形式表示, 即qU,V=<objectU,R,objectV>来表示其空间相对位置, 用 objectU和objectV来表示两个实体, 用R来表示关系信息; 将空间区域图设为Zsp=(v,qsp), 式中, v代表图像特征向量, qsp是带方向性的空间相对位置, qu,v和qv,u是对称方向的边; 原始 GCN不包含有向边, 因此空间图中不同的方向要通过变换矩阵进 行转换; 这里采用带多头注 意力机制的GCN对空间图进 行推理, 把每个注意头的输出特征连接起来, 通过聚焦重要边来 挖掘空间关系, 得到相应的区域图像表示, 其计算公式为: 式中, N表示头注意力的数量, ReLU( ·)是激活函数, N(vi)表示vi的邻居集合, vi表示区 域i的图像特征向量, dir(i,j)为对每条边方向性敏感的变换矩阵, 是一个相关权 重矩阵, αijn是多头注意力系数, vj表示区域i的邻域j的图像特征向量, vi′代表经过多头注 意力机制增强GCN之后得到具有空间关系感知的区域图像特征向量, 注意力系数αij计算公 式为: 式中, Wβ为变换矩阵, Vdir(i,j)表示一个相关变换矩阵, 通过基于注意力的空间关系编码权 利 要 求 书 2/5 页 3 CN 115098646 A 3

.PDF文档 专利 一种图文数据的多级关系分析与挖掘方法

安全报告 > 其他 > 文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图文数据的多级关系分析与挖掘方法 第 1 页 专利 一种图文数据的多级关系分析与挖掘方法 第 2 页 专利 一种图文数据的多级关系分析与挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:14:29上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。