全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111539029.3 (22)申请日 2021.12.15 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 孔万增 崔岂铨 金宣妤 李倪  刘栋军 刘国文 郭继伟  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 陈炜 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06V 10/774(2022.01) (54)发明名称 一种基于强化学习的多源域迁移目标识别 方法 (57)摘要 本发明公开一种基于强化学习的多源域迁 移目标识别方法。 本发明使用强化学习来训练数 据选择策略, 以选择高质量的源域数据, 目的是 防止负转移及多个源域和目标域之间存在的域 差异。 在源域数据上的数据选 择器“作用”以找到 用于优化T L模型的子集, 而T L模型的性能可以提 供“奖励”以更新选择器。 我们基于SoftActor ‑ Critic(柔性执行器 ‑评价器)算法框架构建加强 数据选择器, 并将其集成到基于DNN的迁移学习 模型, 从而变成强化迁移学习(RT L)方法。 经过不 同的状态, 奖励和策略优化方法的设置, 确认本 发明提供的模型的稳健性。 对PI和NLI任务的广 泛实验表明, 本发明提供的模型可以优于具有统 计显着改进的现有方法。 权利要求书3页 说明书7页 附图2页 CN 114202031 A 2022.03.18 CN 114202031 A 1.一种基于强化学习的多源域迁移目标识别方法, 其特 征在于: 步骤1: 多源域 适配 分别获取多个有标签的源域数据和无标签的目标域数据; 源域数据与目标域数据为包 含相同类别的目标的图像; 各源域数据的集 合S={S1, ..., SNs}, Ns为源域数量; 步骤2: 数据选择 利用强化学习数据选择器从源数据集中选择样本, 输送至共享编码器中; 强化学习数 据选择器使用状态、 行为和奖励作为筛选机制, 对源域中的样本进 行筛选; 所述的强化学习 数据选择器中使用的SAC算法包括 一个actor网络和四个critic网络; 步骤3: 模型训练 筛选出的样本输入到共享编码器中作为训练集; 在训练期间, TL模型和强化学习数据 选择器联合学习, 进一步保留或删除源域的样本; 利用训练好的TL模型对目标域样本进行 识别。 2.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法, 其特征在于: 步骤2中所述的状态、 行为和奖励具体如下: 状态: 给定源域Xi的状态表示为连续的真实值矢量 其中, l是状态矢量的尺寸, Si代表以下功能的串联: (1)隐藏的表示Zi, 它是给定共享编码器的输出; (2)源模型Xi的训练损失; (3)目标模型Yi的测试损失; (4)共享编码器在源 模型Xi上的预测概 率; (5)共享编码器在目标模型Yi上的预测概 率; 行为: 表示为ai∈{0, 1}, 其用于指示从源数据中删除或保留样本, 根据学习策略函数Π (Si)产生的概 率分布来采样ai; Π(Si)的表达式如下: Π(Si)=softmax(W2Hi+b2) Hi=tan(WlSi+b2) 其中, Wk和bk是策略网络中的第k层的重量矩阵和偏置载体, k=1, 2, ..., l; l为策 略网 络中的层数; Hi是中间隐藏状态; 奖励: 预期总奖励r ′b的表达式如下: 其中, N是本轮中样本批次的数目; b为当前批次的序号; r ′b是样当前批次b的预期总奖 励, γ是奖励折扣系数; k 为策略网络的当前层序号。 3.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法, 其特征在于: 步骤2中所述的SAC算法的更新 步骤为: 目标找到最 柔性策略π*: 其中, 为策略π下获得的期望; R(st, at)为在st状态下选择行为at获得的奖励; st为状 态; at为行为; t表示时刻; α为温度系数, 用来平衡环境给出的奖励和 策略熵之间的重要程权 利 要 求 书 1/3 页 2 CN 114202031 A 2度; 为熵; 构建柔性值函数Vπ(st)如下: 其中, π(·|st)为所有动作的概 率, Q(st, at)为动作值 函数; 利用在学习样本的环境中采样构建柔 性动作值 函数Qπ(s, a)如下: 其中, Vπ(s′)为状态s ′下的柔性值函数, P(s ′|s, a)从环境中获得的轨 迹样本, 利用贝尔曼期望等式构建柔 性动作值 函数Qπ(s, a)如下: 其中, Qπ(a′, π(s′)为上一策略中获得的柔 性值函数; 进行策略改进如下: 其中, πnew为更新后的策 略; 是求出最小的 为经验池的KL散 度(相对熵), Qold(st,·)为先前策略下的Q 值函数, 为梯度的常量。 4.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法, 其特征在于: 步骤2中, 数据选择器从多源域中随机挑选一批样本放入经验池中, 从经验池采样一个 batch数据, 进行Q  Critic网络和 V Critic网络的更新, 产生的组合loss值对Actor网络进 行梯度下降训练, 以找到更优的策 略; 经验池中进行采样的一个batch数据作为源域, 与目 标域以TL模型为基础进行迁移学习; TL模型的l oss差作为奖励用于对Actor网络的更新。 5.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法, 其特征在于: 步骤3中, 在 优化TL模 型时, 基于一批训练样 本计算梯度; 通过选择有用的源域数据, 强化学 习数据选择器在 源模型更新的每一次迭代之前进 行干预; TL模型更新包括共享编码 器的更 新; TL模型依次提供奖励来评估 数据选择的效用; 在每一轮 之后, 策略网络使用SoftAct or‑ Critic算法更新, 包括状态、 动作以及奖励; 迭代中, 总损失 的表达式如下: 其中, 为第一次的损失; 为域对齐损耗; λ是一个独立的权重参数, 它控制 损失组件 之间的折衷; 第一次的损失 的表达式如下: 其中, fθ为分类模型; 为源域中的样本; 域对齐损耗 的表达式如下:权 利 要 求 书 2/3 页 3 CN 114202031 A 3

.PDF文档 专利 一种基于强化学习的多源域迁移目标识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的多源域迁移目标识别方法 第 1 页 专利 一种基于强化学习的多源域迁移目标识别方法 第 2 页 专利 一种基于强化学习的多源域迁移目标识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。