全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111547267.9 (22)申请日 2021.12.16 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人 陈晋音 李秦峰 陈奕芃 赵云波  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 邱启旺 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于数据增强的深度学习模型去偏方 法与装置 (57)摘要 本发明公开了一种基于数据增强的深度学 习模型去偏方法与装置, 首先定义深度学习模型 的偏见: 再选择a dult数据集作为原始数据集, 利 用one‑hot编码对原始数据集的敏 感属性进行提 取扩充, 并对其他属性进行保留或削弱, 得到样 本数据集; 然后将样本数据集根据敏感属性和类 标分为四个子集, 利用数据生成法补全各个子 集, 使四个子集的数据条数相同, 进行数据增强; 再定义偏见指标函数: 最后构建深度学习鲁棒性 模型, 将数据增强得到的四个数据集子集进行融 合, 然后将融合后的数据集输入深度学习鲁棒性 模型进行训练, 利用 偏见指标函数进行检测, 直 至准确率和偏见程度达 到预设值, 完成训练。 权利要求书2页 说明书6页 附图3页 CN 114638374 A 2022.06.17 CN 114638374 A 1.一种基于数据增强的深度学习模型去偏方法, 其特 征在于, 包括以下步骤: (1)定义深度学习模型的偏见: (2)选择adult数据集作为原始数据集, 利用one ‑hot编码对原始数据集的敏感属性进 行提取扩充, 并对其 他属性进行保留或削弱, 得到样本数据集; (3)将步骤(2)得到的样本数据集根据敏感属性和类标分为四个子集, 利用数据生成法 补全各个子集, 使四个子集的数据条 数相同, 进行 数据增强; (4)定义偏见指标函数: (5)构建深度学习鲁棒性模型, 将步骤(3)数据增强得到的四个数据集子集进行融合, 然后将融合后的数据集输入深度学习鲁棒性模型进行训练, 利用步骤(4)定义的偏见指标 函数进行检测, 直至准确率和偏见程度达 到预设值, 完成训练。 2.根据权利要求1所述的基于数据增强的深度 学习模型去偏方法, 其特征在于, 所述步 骤(1)具体为: 将X和Y表示为数据集及其值域, 将A和xA表示为数据集X的敏感属性及其数 值, , 将NA和xNA表示为数据集X的非敏感属性及其数值; 对于深度 学习模型和样本实例x, 若 存在另一个样本实例x ′满足xA≠x′A, xNA=x′NA, θ(x)≠θ(x ′), 则称(x,x ′)为深度学习 模型 的个体歧视实例对, x和x ′都是个体歧视实例, 则深度学习模型存在个体歧视行为, 即深度 学习模型存在偏见。 3.根据权利要求1所述的基于数据增强的深度 学习模型去偏方法, 其特征在于, 所述步 骤(3)具体包括以下子步骤: (3.1)取步骤(2)中经过预处理的样本数据集, 分别根据敏感属性将样本数据集划分为 四个子集A ′、 B′、 C′、 D′; 记max_num为四个子集中数据条数最多的子集的数据条数作为数据 增强后各个子集的数据条 数; (3.2)利用数据生成法补全各个子集, 使四个子集的数据条 数相同, 完成数据增强。 4.根据权利要求3所述的基于数据增强的深度 学习模型去偏方法, 其特征在于, 所述步 骤(3.2)具体包括以下子步骤: (3.2.1)取一个子集, 用当前子集训练一个k ‑means分类器, 记训练好的k ‑means分类器 为KM; (3.2.2)从一个子集 中随机挑选一条数据作为父类数据, 利用步骤(1)训练好的KM寻找 距离父类数据最近的两条数据作为第一子类数据、 第二子类数据, 以概率p进 行判别是否接 受这两条子类数据, 若接受, 则将两条子类数据添加到样本数据集中; (3.2.3)判断当前子集数据条数是否达到max_num, 若未达到max_num, 则重复步骤 (3.2.2)再次生成数据, 若达到max_num则对下一个子集进行数据生成, 直至所有子集处理 完毕, 完成数据增强。 5.根据权利要求3所述的基于数据增强的深度 学习模型去偏方法, 其特征在于, 所述步 骤(4)中的偏见指标包括差异影响、 人口统计平等和机会平等指标, 将上述3个指标融合得 到偏见指标函数; 具体为: 所述差异影响指标公式如下: 权 利 要 求 书 1/2 页 2 CN 114638374 A 2其中, S表示受保护的属性, S=1为特权组, S≠1为非特权组; 表示预测为 正; 所述人口统计平等指标公式如下: 所述机会平等指标为: 融合上述偏见指标 得到偏见函数, 公式如下: 6.根据权利要求1所述的基于数据增强的深度 学习模型去偏方法, 其特征在于, 所述步 骤(5)包括以下子步骤: (5.1)构建深度学习模型, 所述深度学习模型包括特征提取器和分类器, 所述特征提取 器包括3个线性层, 所述分类 器包括2个全连接层; (5.2)对步骤(3)增强后得到的四个数据集子集A ′、 B′、 C′、 D′进行融合, 记融合后的数 据集为E, 输入步骤(5.1)构建的深度学习模型进行训练; (5.3)利用步骤(4)定义的偏见指标函数进行检测, 直至准确率和偏见程度达到预设 值, 完成训练。 7.一种基于数据增强的深度学习 模型去偏装置, 其特征在于, 包括一个或多个处理器, 用于实现权利要求1 ‑6中任一项所述的基于数据增强的深度学习模型去偏方法。 8.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时, 用于实现权利要求1 ‑6中任一项所述的基于数据增强的深度学习模型去偏方法。权 利 要 求 书 2/2 页 3 CN 114638374 A 3

.PDF文档 专利 一种基于数据增强的深度学习模型去偏方法与装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据增强的深度学习模型去偏方法与装置 第 1 页 专利 一种基于数据增强的深度学习模型去偏方法与装置 第 2 页 专利 一种基于数据增强的深度学习模型去偏方法与装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。