说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111612375.X (22)申请日 2021.12.27 (71)申请人 天翼云科技有限公司 地址 100007 北京市东城区青龙胡同甲1 号、 3号2幢2层20 5-32室 (72)发明人 范顺国 李兴达 李文成  (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称 一种基于强化学习迁移的目标任务处理方 法、 装置及设备 (57)摘要 本发明提供了一种基于强化学习迁移的目 标任务处理方法、 装置及设备。 所述方法包括以 下步骤: 获取预设源任务数据库中的子目标集 合, 所述源任务为已学习任务, 所述子目标集合 中包含所述源任务中与所述目标任务相对应的 子目标任务; 基于所述子目标集合提取所述子目 标任务的轨迹特征, 构建候选项集合; 从所述候 选项集合中筛选重用候选项, 基于所述重用候选 项对所述目标任务进行强化学习, 得到所述目标 任务的强化学习结果。 通过将已学习任务的候选 项集合迁移至目标任务中, 使得目标任务在强化 学习过程中收敛速度加快, 极大地提升了任务学 习速度。 权利要求书2页 说明书9页 附图6页 CN 114444713 A 2022.05.06 CN 114444713 A 1.一种基于强化学习迁移的目标任务处 理方法, 其特 征在于, 包括: 获取预设源任务数据库中的子目标集合, 所述源任务为已学习任务, 所述子目标集合 中包含所述源 任务中与所述目标任务相对应的子目标任务; 基于所述子目标集 合提取所述子目标任务的轨 迹特征, 构建候选项集 合; 从所述候选项集合中筛选重用候选项, 基于所述重用候选项对所述目标任务进行强化 学习, 得到所述目标任务的强化学习结果。 2.根据权利要求1所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 所述获 取预设源任务数据库中的子目标集 合, 包括: 基于所述预设源 任务数据库提取源 任务数据; 基于所述源 任务数据的访问频率对 源任务数据进行排序; 基于访问频率高于相邻源 任务数据预设数值的源 任务构建所述子目标集 合。 3.根据权利要求1所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 所述基 于所述子目标集 合提取所述子目标任务的轨 迹特征, 构建候选项集 合, 包括: 基于所述子目标集 合提取子目标轨 迹, 所述子目标轨 迹中包含起始状态和终止状态; 基于所述子目标轨 迹中除所述终止状态之外的其 他状态构建候选项; 基于所述 候选项进行强化学习, 得到所述 候选项集 合。 4.根据权利要求3所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 所述从 所述候选项集 合中筛选重用候选项, 包括: 计算所述 候选项集 合中各所述子目标任务与目标任务的相似度; 基于所述相似度从所述 候选项集 合中筛选所述重用候选项。 5.根据权利要求1 ‑4中任一项所述基于强化学习迁移 的目标任务处理方法, 其特征在 于, 所述基于所述重用候选项对所述目标任务进行强化学习, 包括: 将所述重用候选项的学习结果应用到所述目标任务中, 更新所述目标任务的特 征值; 基于更新的特 征值对所述目标任务进行强化学习。 6.根据权利要求5所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 在将所 述重用候选项的学习结果应用到所述目标任务中之前, 所述基于所述重用候选项对所述目 标任务进行强化学习, 还 包括: 基于所述重用候选项判断所述源 任务中是否存在与所述目标任务相似的重用候选项; 如果所述源任务中存在与 所述目标任务相似的重用候选项, 则执行将所述重用候选项 的学习结果应用到所述目标任务中, 更新所述目标任务的特征值的步骤到基于更新的特征 对所述目标任务进行强化学习的步骤。 7.根据权利要求6所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 在将所 述重用候选项的学习结果应用到所述目标任务中之前, 所述基于所述重用候选项对所述目 标任务进行强化学习, 还 包括: 如果所述源任务中不存在与所述目标任务相似 的重用候选项, 则使用QLearning方法 对所述目标任务的特 征值进行 更新; 基于更新的特 征值对所述目标任务进行强化学习。 8.一种基于强化学习迁移的目标任务处 理装置, 其特 征在于, 包括: 获取模块, 用于获取预设源任务数据库中的子目标集合, 所述源任务为已学习任务, 所权 利 要 求 书 1/2 页 2 CN 114444713 A 2述子目标集 合中包含所述源 任务中与所述目标任务相对应的子目标任务; 处理模块, 用于基于所述子目标集合提取所述子目标任务的轨迹特征, 构建候选项集 合; 迁移模块, 用于从所述候选项集合中筛选重用候选项, 基于所述重用候选项对所述目 标任务进行强化学习, 得到所述目标任务的强化学习结果。 9.一种基于强化学习迁移的目标任务处 理设备, 其特 征在于, 包括: 通信单元、 存储器和处理器, 所述存储器和所述处理器之间互相通信连接, 所述存储器 中存储有计算机指 令, 所述处理器通过执行所述计算机指 令, 从而执行权利要求 1‑7任一项 所述的方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使所述计算机执 行权利要求1 ‑7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114444713 A 3

.PDF文档 专利 一种基于强化学习迁移的目标任务处理方法、装置及设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习迁移的目标任务处理方法、装置及设备 第 1 页 专利 一种基于强化学习迁移的目标任务处理方法、装置及设备 第 2 页 专利 一种基于强化学习迁移的目标任务处理方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。