说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111612375.X (22)申请日 2021.12.27 (71)申请人 天翼云科技有限公司 地址 100007 北京市东城区青龙胡同甲1 号、 3号2幢2层20 5-32室 (72)发明人 范顺国 李兴达 李文成 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称 一种基于强化学习迁移的目标任务处理方 法、 装置及设备 (57)摘要 本发明提供了一种基于强化学习迁移的目 标任务处理方法、 装置及设备。 所述方法包括以 下步骤: 获取预设源任务数据库中的子目标集 合, 所述源任务为已学习任务, 所述子目标集合 中包含所述源任务中与所述目标任务相对应的 子目标任务; 基于所述子目标集合提取所述子目 标任务的轨迹特征, 构建候选项集合; 从所述候 选项集合中筛选重用候选项, 基于所述重用候选 项对所述目标任务进行强化学习, 得到所述目标 任务的强化学习结果。 通过将已学习任务的候选 项集合迁移至目标任务中, 使得目标任务在强化 学习过程中收敛速度加快, 极大地提升了任务学 习速度。 权利要求书2页 说明书9页 附图6页 CN 114444713 A 2022.05.06 CN 114444713 A 1.一种基于强化学习迁移的目标任务处 理方法, 其特 征在于, 包括: 获取预设源任务数据库中的子目标集合, 所述源任务为已学习任务, 所述子目标集合 中包含所述源 任务中与所述目标任务相对应的子目标任务; 基于所述子目标集 合提取所述子目标任务的轨 迹特征, 构建候选项集 合; 从所述候选项集合中筛选重用候选项, 基于所述重用候选项对所述目标任务进行强化 学习, 得到所述目标任务的强化学习结果。 2.根据权利要求1所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 所述获 取预设源任务数据库中的子目标集 合, 包括: 基于所述预设源 任务数据库提取源 任务数据; 基于所述源 任务数据的访问频率对 源任务数据进行排序; 基于访问频率高于相邻源 任务数据预设数值的源 任务构建所述子目标集 合。 3.根据权利要求1所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 所述基 于所述子目标集 合提取所述子目标任务的轨 迹特征, 构建候选项集 合, 包括: 基于所述子目标集 合提取子目标轨 迹, 所述子目标轨 迹中包含起始状态和终止状态; 基于所述子目标轨 迹中除所述终止状态之外的其 他状态构建候选项; 基于所述 候选项进行强化学习, 得到所述 候选项集 合。 4.根据权利要求3所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 所述从 所述候选项集 合中筛选重用候选项, 包括: 计算所述 候选项集 合中各所述子目标任务与目标任务的相似度; 基于所述相似度从所述 候选项集 合中筛选所述重用候选项。 5.根据权利要求1 ‑4中任一项所述基于强化学习迁移 的目标任务处理方法, 其特征在 于, 所述基于所述重用候选项对所述目标任务进行强化学习, 包括: 将所述重用候选项的学习结果应用到所述目标任务中, 更新所述目标任务的特 征值; 基于更新的特 征值对所述目标任务进行强化学习。 6.根据权利要求5所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 在将所 述重用候选项的学习结果应用到所述目标任务中之前, 所述基于所述重用候选项对所述目 标任务进行强化学习, 还 包括: 基于所述重用候选项判断所述源 任务中是否存在与所述目标任务相似的重用候选项; 如果所述源任务中存在与 所述目标任务相似的重用候选项, 则执行将所述重用候选项 的学习结果应用到所述目标任务中, 更新所述目标任务的特征值的步骤到基于更新的特征 对所述目标任务进行强化学习的步骤。 7.根据权利要求6所述的基于强化学习迁移的目标任务处理方法, 其特征在于, 在将所 述重用候选项的学习结果应用到所述目标任务中之前, 所述基于所述重用候选项对所述目 标任务进行强化学习, 还 包括: 如果所述源任务中不存在与所述目标任务相似 的重用候选项, 则使用QLearning方法 对所述目标任务的特 征值进行 更新; 基于更新的特 征值对所述目标任务进行强化学习。 8.一种基于强化学习迁移的目标任务处 理装置, 其特 征在于, 包括: 获取模块, 用于获取预设源任务数据库中的子目标集合, 所述源任务为已学习任务, 所权 利 要 求 书 1/2 页 2 CN 114444713 A 2述子目标集 合中包含所述源 任务中与所述目标任务相对应的子目标任务; 处理模块, 用于基于所述子目标集合提取所述子目标任务的轨迹特征, 构建候选项集 合; 迁移模块, 用于从所述候选项集合中筛选重用候选项, 基于所述重用候选项对所述目 标任务进行强化学习, 得到所述目标任务的强化学习结果。 9.一种基于强化学习迁移的目标任务处 理设备, 其特 征在于, 包括: 通信单元、 存储器和处理器, 所述存储器和所述处理器之间互相通信连接, 所述存储器 中存储有计算机指 令, 所述处理器通过执行所述计算机指 令, 从而执行权利要求 1‑7任一项 所述的方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使所述计算机执 行权利要求1 ‑7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114444713 A 3
专利 一种基于强化学习迁移的目标任务处理方法、装置及设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 23:14:06
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
T-CSAE 194—2021 汽车外饰件用PVD 涂层技术条件.pdf
GB-T 25970-2010 不燃无机复合板.pdf
信通院 量子信息技术发展与应用研究报告 2023年.pdf
GB-T 38472-2019 再生铸造铝合金原料.pdf
GB-T 42927-2023 金融行业开源软件测评规范.pdf
DB37-T 4203.3—2020 林业碳汇计量监测体系建设规范 第3部分:森林碳储量计算 山东省.pdf
GB-T 25098-2010 绝缘体带电清洗剂使用导则.pdf
GB-T 22838.11-2009 卷烟和滤棒物理性能的测定 第11部分:卷烟熄火.pdf
JR-T0167-2020 云计算技术金融应用规范 安全技术要求.pdf
DB23-T 3338—2022 电子政务云监管平台运维管理规范 黑龙江省.pdf
T-NKFA 010—2022 家具企业生产质量管理规范.pdf
NIST.SP.800-53r5-draft-IT系统和组织的安全与隐私控制_Security and Privacy Controls for Information Systems and Organizations .pdf
专利 一种圆筒形鳍片散热器.PDF
DB44-T 2368-2022 社会组织能力建设指南 广东省.pdf
YD-T 4028-2022 基于RoCE协议的数据中心高速以太无损网络测试方法.pdf
GB-T 3412.1-2009 大坝监测仪器 检测仪 第1部分:振弦式仪器检测仪.pdf
GM-T 0043-2015 数字证书互操作检测规范.pdf
GB-T 15320-2001节能产品评价导则.pdf
奇安信 网络安全应急响应典型案例集(2021).pdf
1
/
3
18
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。