全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111613756.X (22)申请日 2021.12.27 (71)申请人 湖南大学 地址 410000 湖南省长 沙市岳麓区麓山 南 路1号 (72)发明人 全哲 彭阳 乐雨泉  (74)专利代理 机构 湖南岑信知识产权代理事务 所(普通合伙) 43275 代理人 谷萍 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于分布校准的小样本实体关系抽取 方法 (57)摘要 本发明公开了一种基于分布校准的小样本 实体关系抽取方法, 其假设特征向量中的每个维 度都遵循高斯分布, 并观察到相似类通常具有相 似的特征表示均值和方差。 因此, 高斯分布的平 均值和方差可 以在类似的类别之间传递。 同时, 当有足够的样本时, 可以更准确地估计统计数 据。 因此, 重用来自多个类的分布统计量, 并根据 它们的类相似性可以更好地校准少数类的分布 统计量, 根据校准后的分布统计量可以生成更多 的样本。 本发明的有益效果: 使提取的特征更丰 富; 可以减少分散偏度, 能够让特征向量分布更 接近高斯分布; 大大减少了由于数据过少引起的 过拟合问题, 通过数据增强实现了关系抽取准确 度的提高; 能够极大地 提高模型的泛化能力。 权利要求书2页 说明书8页 附图1页 CN 114328921 A 2022.04.12 CN 114328921 A 1.一种基于分布校准的小样本实体关系抽取 方法, 其特 征在于, 该 方法包括如下步骤: 步骤一、 提供一包含多个关系类别的数据集, 并将该数据集按类别划分出训练集和测 试集, 其中, 训练集包 含的类别多于测试集包 含的类别, 每 个类别包含多个样本; 步骤二、 将训练集作为基类, 测试集作为新类, 使用BERT模型将基类和新类中各类别所 包含的样本进 行向量化, 提取样本的特征向量, 从而将训练集转化为基类特征向量集, 将测 试集转化为新类特征向量集; 步骤三、 通过公式(1)和(2)分别计算来自基类中的类别i的特征平均值 μi和特征协方差 矩阵∑i, 从而得出基类特征向量集的分布统计量; 其中, xj是基类中的类别i的第j个样本的特征向量, j为大于0的自然数; ni是类别i中的 样本总数; 步骤四、 使用基于Episode的元任务训练策略训练分类器, 每轮从新类特征向量集选取 N个类别, 从每个类别中分别抽取K个样 本作为支持集, 抽取Q个样 本作为查询集, 其中, N、 K、 Q均为大于 0的自然数; 步骤五、 通过Tukey幂阶变换将步骤四获得的支持集和查询集的特征向量通过公式(3) 进行映射, 得到特 征向量 其中, λ是一个超参数, 用于调整如何校准统计分布量; 步骤六、 通过公式(4)和(5)判断基类中所有类别 包含的特征平均值和新类的支持集包 含的特征向量 的相似度, 基于该相似度选择出基类中所有类别包含的特征平均值和新类 的支持集包 含的特征向量 最相似的前k个 类别; 其中, 为特征向量 与基类中所有类别包含的特征平均值计算距离的输入距离集, topk(·)为从输入距离集 中选择最近的k个元素的运算符; 为存储距离特征向量 的 前k个最近的基 类的类别; 为支持集中的一个特 征向量; Cb为基类特征向量集; 步骤七、 基于步骤六中选择的前k个类别的特征平均值μ ′和特征协方差矩阵∑ ′, 通过 公式(6)和(7)校准支持集包 含的特征向量 的分布统计量;权 利 要 求 书 1/2 页 2 CN 114328921 A 2其中,∝是一个超参数, 决定从分布统计量中采样的特 征向量的分散程度; 步骤八、 通过公式(8)和(9)从支持集中的类别y的一组通过步骤七校准后的分布统计 量 中采样 θ 个带有标签y的特 征向量扩充训练数据; 其中, μ′K, ∑′K分别是类别y 中第K个特征向量校准后的特征平均值和特征协方差矩阵; K为支持集中每 个类别的样本数量; 步骤九、 将步骤八采样得到的特征向量与新类支持集中的特征向量 共同作为分类器 的训练数据, 通过最小化采样得到的样本和支持集的样本的交叉熵损失来训练分类 器; 步骤十、 使用通过步骤九训练后的分类 器对新类查询集的样本进行 预测。 2.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在于: 在步骤一中, 所述数据集 为包含80个关系类别的大规模人工标注数据集F ewRel。 3.根据权利要求2所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在于: 所述训练集包 含64个类别, 所述测试集包 含16个类别。 4.根据权利要求2或3所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在 于: 在步骤一中, 训练集包 含的样本数量大于测试集包 含的样本数量。 5.根据权利要求4所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在于: 在步骤一中, 每 个类别包含700个样本。 6.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在于: 在步骤五中, λ 设置为1时, 可以恢复原 始特征。 7.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在于: 在步骤六中, 判断相似度的距离度量函数使用支 持集的特征向量 和基类特征平均值 μi之 间的欧式距离, 距离越近, 则相似度越高。 8.根据权利要求7所述的一种基于分布校准的小样本实体关系抽取方法, 其特征在于: 在步骤九中, 通过公式(10)训练分类 器: 其中, yT表示支持集的所有类别, 表示特征向量通过Turkey变换转换而来的支持集, 分类器由θ 参数化。权 利 要 求 书 2/2 页 3 CN 114328921 A 3

.PDF文档 专利 一种基于分布校准的小样本实体关系抽取方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分布校准的小样本实体关系抽取方法 第 1 页 专利 一种基于分布校准的小样本实体关系抽取方法 第 2 页 专利 一种基于分布校准的小样本实体关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:13:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。