(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111600136.2
(22)申请日 2021.12.24
(65)同一申请的已公布的文献号
申请公布号 CN 114003511 A
(43)申请公布日 2022.02.01
(73)专利权人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 李一鸣 邱伟峰 薛峰 江勇
夏树涛
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
代理人 陈霁 周良玉
(51)Int.Cl.
G06F 11/36(2006.01)
G06V 10/776(2022.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(56)对比文件
CN 113255715 A,2021.08.13
US 20213 03609 A1,2021.09.3 0CN 113822144 A,2021.12.21
US 202123286 5 A1,2021.07.2 9
US 2021383262 A1,2021.12.09
CN 112861933 A,2021.0 5.28
US 2021248423 A1,2021.08.12
CN 113269308 A,2021.08.17
CN 113609482 A,2021.1 1.05
CN 113792289 A,2021.12.14
Y.Tian and G.L iu.MANE: Model-Agn ostic
Non-linear Explanati ons for De ep Learn ing
Model. 《2020 IE EE World Congress on
Services》 .2020,
苏炯铭 等.深度神经网络解释方法综述.
《计算机 工程》 .2020,第46卷(第9期),
S.Konate et al. .A Compariso n of
Saliency Methods for De ep Learn ing
Explainability. 《2021 Digital Ima ge
Computing: Techniques and Ap plications》
.2021,
S.Zhu et al. .Visual Explanati on for
Deep Metric Learn ing. 《IEEE Transacti ons
on Image Proces sing》 .2021,第3 0卷
审查员 赵鹏翔
(54)发明名称
针对模型解释工具的评测方法和装置
(57)摘要
本说明书实施例提供了一种针对模型解释
工具的评测方法和装置。 该方法的一具体实施方
式包括: 确定针对预先训练的带有后门的目标模
型的潜在触发器, 其中, 目标模型针对携带有后
门触发器的样本数据的输出为目标标签, 潜在触
发器具有使目标模型输出目标标签的功能; 响应
于确定潜在触发器和后门触发器满足预设条件,
确定目标模 型为评测用模型; 基于评测用模型和
预设的评测用样本数据, 使用待评测的模型解释
工具生成显著性信息, 其中, 评测用 样本数据中
添加有后门触发器, 显著性信息用于显示测评用样本数据的各部分对评测用模 型输出的影响; 根
据显著性信息和后门触发器, 确定评测指标, 其
中, 评测指标用于对 模型解释工具进行评测。
权利要求书3页 说明书10页 附图3页
CN 114003511 B
2022.04.15
CN 114003511 B
1.一种针对 模型解释工具的评测方法, 包括:
确定针对预先训练的带有后门的目标模型的潜在触发器, 其中, 所述目标模型针对携
带有后门触发器的样本数据的输出为目标标签, 所述潜在触发器具有使 所述目标模型输出
目标标签的功能;
响应于确定所述潜在触发器和所述后门触发器满足预设条件, 确定所述目标模型为评
测用模型, 其中, 所述预设条件包括所述潜在触发器和所述后门触发器的相似度超过预设
阈值;
基于所述评测用模型和预设的评测用样本数据, 使用待评测的模型解释工具生成显著
性信息, 其中, 所述评测用样本数据中添加有所述后门触发器, 所述显著性信息用于显示所
述评测用样本数据的各部分对所述评测用模型输出的影响;
根据所述显著性信 息和所述后门触发器, 确定评测指标, 其中, 所述评测指标用于对所
述模型解释工具进行评测。
2.根据权利要求1所述的方法, 其中, 所述方法还 包括:
响应于确定所述潜在触发器和所述后门触发器未满足所述预设条件, 针对所述潜在触
发器执行预设的泛化 性降低步骤, 其中, 所述泛化 性降低步骤 包括:
将所述潜在触发器添加到原始样本集的部分原始样本 中, 而不改变所述原始样本的标
签, 得到第一样本集;
基于所述第一样本集进一步训练所述目标模型, 得到调整后模型, 以及确定针对所述
调整后模型的更新触发器;
响应于确定所述更新触发器和所述后门触发器满足所述预设条件, 将所述调整后模型
确定为评测用模型。
3.根据权利要求2所述的方法, 其中, 所述方法还 包括:
响应于确定所述更新触发器和所述后门触发器未满足所述预设条件, 针对所述更新触
发器执行所述泛化 性降低步骤, 直至确定出评测用模型。
4.根据权利要求1所述的方法, 其中, 所述目标模型 是通过以下 方式训练得到的:
将所述后门触发器添加到原始样本集的部分原始样本 中, 并将其标签修改为所述目标
标签, 得到第二样本集;
使用所述第 二样本集和所述原始样本集中除所述部分原始样本之外的剩余样本, 进行
模型训练, 得到所述目标模型。
5.根据权利要求1所述的方法, 其中, 所述方法还 包括:
基于多个后门触发器, 确定多个评测用模型, 以及生成多个评测指标;
对所述评测指标和所述多个评测指标进行统计分析, 根据统计分析结果对所述模型解
释工具进行评测。
6.根据权利要求1所述的方法, 其中, 所述评测用样本数据为图像样本, 所述后门触发
器为预设图像, 所述显著性信息包括显著图; 以及
所述根据所述显著性信息和所述后门触发器, 确定 评测指标, 包括:
根据所述显著图和所述后门触发器 计算均交并比, 将计算结果作为评测指标。
7.根据权利要求1所述的方法, 其中, 所述评测用样本数据为文本信息, 所述后门触发
器为预设文本, 所述显著性信息包括所述评测用样本数据的各分词的显著性信息; 以及权 利 要 求 书 1/3 页
2
CN 114003511 B
2所述根据所述显著性信息和所述后门触发器, 确定 评测指标, 包括:
根据显著性信息, 从所述评测用样本数据的分词中确定 至少一个显著性分词;
计算所述至少一个显著性分词和所述预设文本的分词的交并比, 将计算结果作为评测
指标。
8.根据权利要求1所述的方法, 其中, 所述确定针对预先训练的带有后门的目标模型的
潜在触发器, 包括:
将设定的初始触发器添加到预设的样本数据, 得到目标样本数据;
以所述目标模型针对所述目标样本数据的输出趋近于所述目标标签为目标, 调 整所述
初始触发器, 得到潜在触发器。
9.根据权利要求1所述的方法, 其中, 所述确定针对预先训练的带有后门的目标模型的
潜在触发器, 包括:
基于所述后门触发器进行修改, 得到所述潜在触发器。
10.一种针对 模型解释工具的评测装置, 包括:
第一确定单元, 配置为确定针对预先训练 的带有后门的目标模型的潜在触发器, 其中,
所述目标模型针对携带有后门触发器的样本数据的输出为目标标签, 所述潜在触发器具有
使所述目标模型输出目标 标签的功能;
第二确定单元, 配置为响应于确定所述潜在触发器和所述后门触发器满足预设条件,
确定所述 目标模型为评测用模型, 其中, 所述预设条件包括所述潜在触发器和所述后门触
发器的相似度超过 预设阈值;
生成单元, 配置为基于所述评测用模型和预设的评测用样本数据, 使用待评测的模型
解释工具生成显著 性信息, 其中, 所述评测用样本数据中添加有 所述后门触发器, 所述显著
性信息用于 显示所述评测用样本数据的各部分对所述评测用模型输出的影响;
评测单元, 配置为根据所述显著性信息和所述后门触发器, 确定评测指标, 其中, 所述
评测指标用于对所述模型解释工具进行评测。
11.根据权利要求10所述的装置, 其中, 所述装置还 包括:
泛化性降低单元, 配置为响应于确定所述潜在触发器和所述后门触发器未满足所述预
设条件, 针对所述潜在触发器执行预设的泛化性降低步骤, 其中, 所述泛化性降低单元包
括:
添加单元, 配置为将所述潜在触发器添加到原始样本集的部分原始样本中, 而不改变
所述原始样本的标签, 得到第一样本集;
调整单元, 配置为基于所述第 一样本集进一步训练所述目标模型, 得到调整后模型, 以
及确定针对所述调整后模型的更新触发器;
模型确定单元, 配置为响应于确定所述更新触发器和所述后门触发器满足所述预设条
件, 将所述调整后模型确定为评测用模型。
12.根据权利要求1 1所述的装置, 其中, 所述装置还 包括:
继续执行单元, 配置为响应于确定所述更新触发器和所述后门触发器未满足所述预设
条件, 针对所述更新触发器执 行所述泛化 性
专利 针对模型解释工具的评测方法和装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:18:23上传分享