(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210184010.X
(22)申请日 2022.02.24
(71)申请人 西安交通大 学
地址 710049 陕西省西安市咸宁西路28号
(72)发明人 王平辉 陶敬 张宇超 吕昕远
孙毅刚 邢舒明 韩婷 赵俊舟
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 苟冬梅
(51)Int.Cl.
G06F 16/901(2019.01)
G06V 10/762(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
面向图数据 的挖掘方法、 装置、 电子设备及
可读存储介质
(57)摘要
本申请提供了一种面向图数据的挖掘方法、
装置、 电子设备及可读存储介质, 属于数据处理
技术领域, 本申请实施例通过简化图卷积神经网
络, 以主动学习的方式对图结构数据中每个图节
点的中心度指标、 代表性指标和 信息熵指标进行
综合计算, 以得到每个图节点的价值得分, 将所
述价值得分最高的n个图节点作为主动学习本次
迭代所挖掘出的待标注数据子集。 本申请实施例
能够快速高效的在大规模海量图结构数据中挑
选出价值量高、 信息量多的待标注数据子集, 与
此同时对价值量较低、 信息量较少且相互冗余的
图节点数据进行剔除, 避免了数据分析人员直接
对海量大数据的全量分析操作, 节省了计算和存
储资源并降低了人力成本 。
权利要求书3页 说明书15页 附图3页
CN 114840717 A
2022.08.02
CN 114840717 A
1.一种面向图数据的挖掘方法, 其特 征在于, 所述方法包括:
将图结构原 始数据集输入简化图卷积神经网络, 以输出待标注数据子集;
其中, 所述简化图卷积神经网络用于执 行以下步骤:
对所述图结构原 始数据集进行 预处理, 得到特 征融合后的图结构数据;
计算所述图结构数据中每 个图节点的中心度指标;
对所述图结构数据中的所有图节点进行聚类, 得到多个聚类簇, 并计算每个图节点在
所属聚类簇中的代 表性指标;
计算所述图结构数据中每 个图节点的信息熵指标;
根据所述中心度指标、 所述代表性指标和所述信息熵指标, 得到每个图节点的价值得
分;
将所述价值得分最高的n个图节点作为所述待标注数据子集。
2.根据权利要求1所述的方法, 其特征在于, 对所述图结构原始数据集进行预处理, 得
到特征融合后的图结构数据, 包括:
对所述图结构原始数据集进行预处理, 得到 图结构数据的特征矩阵、 度矩阵和邻接矩
阵;
针对所述图结构数据中的任一图节点, 根据该图节点的K跳近邻 内的所有图节点的所
述特征矩阵、 所述度矩阵和所述邻接矩阵进行 特征融合, 得到特 征融合后的图结构数据。
3.根据权利要求1所述的方法, 其特征在于, 计算所述图结构数据中每个图节点的中心
度指标, 包括:
根据以下公式, 计算所述图结构数据中每 个图节点的中心度指标:
其中: Vi表示所述图结构数据中的第i个图节点;
表示Vi节点的中心度指
标; Vj表示所述图结构数据中的第j个图节点;
表示所述第j个图节点的中心
度指标; ∑kAjk表示所述第j个图节点的度; Aij表示0或1, 当Vi图节点和Vj图节点无连接关系
时, Aij取0, 当Vi图节点和Vj图节点有 连接关系时, Aij取1; ρ 为坍塌因子; N为所述图结构数据
中所有图节点的个数。
4.根据权利要求1所述的方法, 其特征在于, 计算每个图节点在所属聚类簇 中的代表性
指标, 包括:
根据以下公式, 计算每 个图节点在所属聚类簇中的代 表性指标:
其中: Vi表示所述图结构数据中的第i个 图节点;
表示Vi图节点的在所属
聚类簇中的代表性指标;
表示的是Vi图节点所属聚类簇中的中心节点;
是Vi图
节点在所属聚类簇中的向量表示;
表示
和
之间的欧氏距
离。
5.根据权利要求1所述的方法, 其特征在于, 根据所述中心度指标、 所述代表性指标和权 利 要 求 书 1/3 页
2
CN 114840717 A
2所述信息熵指标, 得到每 个图节点的价 值得分, 包括:
基于贝塔分布, 进行时间敏感性系数的采样, 得到所述中心度指标的第 一采样权重、 所
述代表性指标 的第二采样权重和所述信息熵指标的第三采样权重; 其中, 所述中心度指标
的第一采样权重随时间推移而减小, 所述代表性指标的第二采样权重和所述信息熵指标的
第三采样权 重随随时间推移而增大;
将所述第一采样权重、 所述第二采样权重和所述第三采样权重进行归一化, 对应得到
所述中心度指标的第一实际计算权重、 所述代表 性指标的第二实际计算权重和所述信息熵
指标的第三实际计算权 重;
根据所述中心度指标与所述第 一实际计算权重的第 一乘积、 所述代表性指标与所述第
二实际计算权重的第二乘积以及所述信息熵指标与所述第三实际计算权重的第三乘积之
间的和, 得到每 个图节点的价 值得分。
6.根据权利要求1所述的方法, 其特征在于, 其中, 所述图结构原始数据集包括已标注
的初始训练数据集, 所述方法还 包括:
获取已标注数据子集; 其中, 所述已标注数据子集是对所述待标注数据子集进行人工
标注后得到的;
将所述已标注数据子集加入所述初始训练数据集, 并将加入所述已标注数据子集后的
所述初始训练数据集输入所述简化图卷积神经网络进 行训练, 得到更新后的简化图卷积神
经网络;
将所述图结构原始数据集中除所述待标注数据子集外的未标注的图结构数据, 输入所
述更新后的简化图卷积神经网络中, 以将输出得到的n个图节点再加入所述待标注数据子
集;
重复以上迭代过程, 直到所述待标注数据子集中的图节点的数量达 到预设数量。
7.根据权利要求6所述的方法, 其特征在于, 直到所述待标注数据子集中的图节点的数
量达到预设数量之后, 所述方法还 包括:
获取目标已标注数据集; 其中, 所述目标已标注数据集是由所述待标注数据子集经过
人工标注后得到的;
将所述目标已标注数据集输入初始图卷积神经网络进行训练, 得到目标图卷积神经网
络;
通过预设测试数据集对所述目标图卷积神经网络对进行性能评估, 以得到准确率指
标、 宏平均F1指标和微平均F1指标;
在所述准确率指标、 所述宏平均F1指标和所述微平均F1指标均满足对应的指标要求的
情况下, 确定所述待标注数据子集有效。
8.一种面向图数据的挖掘装置, 其特 征在于, 所述装置包括:
数据挖掘模块, 用于将图结构原始数据集输入简化图卷积神经网络, 以输出待标注数
据子集;
其中, 所述数据 挖掘模块包括:
预处理子模块, 用于对所述图结构原始数据集进行预处理, 得到特征融合后的图结构
数据;
中心度计算子模块, 用于计算所述图结构数据中每 个图节点的中心度指标;权 利 要 求 书 2/3 页
3
CN 114840717 A
3
专利 面向图数据的挖掘方法、装置、电子设备及可读存储介质
安全报告 >
其他 >
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:23:52上传分享