专利 一种基于强化学习迁移的目标任务处理方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111612375.X (22)申请日 2021.12.27 (71)申请人天翼云科技有限公司地址 100007 北京市东城区青龙胡同甲1 号、 3号2幢2层20 5-32室 (72)发明人范顺国　李兴达　李文成　 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称一种基于强化学习迁移的目标任务处理方法、装置及设备 (57)摘要本发明提供了一种基于强化学习迁移的目标任务处理方法、装置及设备。所述方法包括以下步骤：获取预设源任务数据库中的子目标集合，所述源任务为已学习任务，所述子目标集合中包含所述源任务中与所述目标任务相对应的子目标任务；基于所述子目标集合提取所述子目标任务的轨迹特征，构建候选项集合；从所述候选项集合中筛选重用候选项，基于所述重用候选项对所述目标任务进行强化学习，得到所述目标任务的强化学习结果。通过将已学习任务的候选项集合迁移至目标任务中，使得目标任务在强化学习过程中收敛速度加快，极大地提升了任务学习速度。权利要求书2页说明书9页附图6页 CN 114444713 A 2022.05.06 CN 114444713 A 1.一种基于强化学习迁移的目标任务处理方法，其特征在于，包括：获取预设源任务数据库中的子目标集合，所述源任务为已学习任务，所述子目标集合中包含所述源任务中与所述目标任务相对应的子目标任务；基于所述子目标集合提取所述子目标任务的轨迹特征，构建候选项集合；从所述候选项集合中筛选重用候选项，基于所述重用候选项对所述目标任务进行强化学习，得到所述目标任务的强化学习结果。 2.根据权利要求1所述的基于强化学习迁移的目标任务处理方法，其特征在于，所述获取预设源任务数据库中的子目标集合，包括：基于所述预设源任务数据库提取源任务数据；基于所述源任务数据的访问频率对源任务数据进行排序；基于访问频率高于相邻源任务数据预设数值的源任务构建所述子目标集合。 3.根据权利要求1所述的基于强化学习迁移的目标任务处理方法，其特征在于，所述基于所述子目标集合提取所述子目标任务的轨迹特征，构建候选项集合，包括：基于所述子目标集合提取子目标轨迹，所述子目标轨迹中包含起始状态和终止状态；基于所述子目标轨迹中除所述终止状态之外的其他状态构建候选项；基于所述候选项进行强化学习，得到所述候选项集合。 4.根据权利要求3所述的基于强化学习迁移的目标任务处理方法，其特征在于，所述从所述候选项集合中筛选重用候选项，包括：计算所述候选项集合中各所述子目标任务与目标任务的相似度；基于所述相似度从所述候选项集合中筛选所述重用候选项。 5.根据权利要求1 ‑4中任一项所述基于强化学习迁移的目标任务处理方法，其特征在于，所述基于所述重用候选项对所述目标任务进行强化学习，包括：将所述重用候选项的学习结果应用到所述目标任务中，更新所述目标任务的特征值；基于更新的特征值对所述目标任务进行强化学习。 6.根据权利要求5所述的基于强化学习迁移的目标任务处理方法，其特征在于，在将所述重用候选项的学习结果应用到所述目标任务中之前，所述基于所述重用候选项对所述目标任务进行强化学习，还包括：基于所述重用候选项判断所述源任务中是否存在与所述目标任务相似的重用候选项；如果所述源任务中存在与所述目标任务相似的重用候选项，则执行将所述重用候选项的学习结果应用到所述目标任务中，更新所述目标任务的特征值的步骤到基于更新的特征对所述目标任务进行强化学习的步骤。 7.根据权利要求6所述的基于强化学习迁移的目标任务处理方法，其特征在于，在将所述重用候选项的学习结果应用到所述目标任务中之前，所述基于所述重用候选项对所述目标任务进行强化学习，还包括：如果所述源任务中不存在与所述目标任务相似的重用候选项，则使用QLearning方法对所述目标任务的特征值进行更新；基于更新的特征值对所述目标任务进行强化学习。 8.一种基于强化学习迁移的目标任务处理装置，其特征在于，包括：获取模块，用于获取预设源任务数据库中的子目标集合，所述源任务为已学习任务，所权　利　要　求　书 1/2 页 2 CN 114444713 A 2述子目标集合中包含所述源任务中与所述目标任务相对应的子目标任务；处理模块，用于基于所述子目标集合提取所述子目标任务的轨迹特征，构建候选项集合；迁移模块，用于从所述候选项集合中筛选重用候选项，基于所述重用候选项对所述目标任务进行强化学习，得到所述目标任务的强化学习结果。 9.一种基于强化学习迁移的目标任务处理设备，其特征在于，包括：通信单元、存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求 1‑7任一项所述的方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1 ‑7中任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114444713 A 3

专利 一种基于强化学习迁移的目标任务处理方法、装置及设备

专利一种基于强化学习迁移的目标任务处理方法、装置及设备