专利 一种基于符号选项和动作模型自学习的任务规划方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111553561.0 (22)申请日 2021.12.17 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人金牧　卓汉逵　 (74)专利代理机构深圳市创富知识产权代理有限公司 4 4367 代理人高冰 (51)Int.Cl. G06N 20/00(2019.01) G06V 10/77(2022.01) G06K 9/62(2022.01) A63F 13/67(2014.01) (54)发明名称一种基于符号选项和动作模型自学习的任务规划方法 (57)摘要本发明公开了一种基于符号选项和动作模型自学习的任务规划方法，该方法包括：基于符号状态映射模块，根据先验知识和数字图像处理将高维图像数据映射为符号状态；基于选项集合模块，根据随机动作和符号状态构建选项集合；基于动作模型学习模块，根据符号状态的变化学习动作模型和更新选项集合，得到新动作模型和规划目标基于规划器模块，根据新动作模型和规划目标求解规划路径，并根据规划结果探索是否存在新的动作模型。通过使用本发明，能够自动学习动作模型和符号选项以及它们之间的对应关系，进行规划和训练探索，以获得解决问题的动作策略。本发明作为一种基于符号选项和动作模型自学习的任务规划方法，可广泛应用于符号规划领域。权利要求书2页说明书6页附图2页 CN 114219099 A 2022.03.22 CN 114219099 A 1.一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，包括以下步骤：基于符号状态映射模块，根据先验知识和数字图像处理将高维图像数据映射为符号状态；基于选项集合模块，根据随机动作和符号状态构建选项集合；基于动作模型学习模块，根据符号状态的变化学习动作模型和更新选项集合，得到新动作模型和规划目标；基于规划器模块，根据新动作模型和规划目标求解规划路径，并根据规划结果探索是否存在新的动作模型。 2.根据权利要求1所述一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，所述基于符号状态映射模块，根据先验知识和数字图像处理将高维图像数据映射为符号状态这一步骤，其具体包括：根据先验知识和数字图像处理确定智能体，并定位智能体位置，得到智能体位置的符号命题；根据智能体位置的符号命题，将一个高位状态映射为两个命题组成的符号状态。 3.根据权利要求2所述一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，所述选项集合由多个符号状态选项和一个随机选项组成。 4.根据权利要求3所述一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，所述符号状态选项和随机选项均由三元组表示，所述符号状态选项包括前提条件、内部策略和效果，所述随机选项包括初始条件、策略和终止条件。 5.根据权利要求4所述一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，所述基于选项集合模块，根据随机动作和符号状态构建选项集合这一步骤，其具体包括：选项根据环境状态做出决策选择执行的动作；智能体执行动作后，环境会返回新的高维状态和奖励至选项；选项根据返回的奖励和状态调整策略，继续下一次交互直至达到选项的终止条件；循环执行和返回步骤，得到选项集合。 6.根据权利要求5所述一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，所述基于动作模型学习模块，根据符号状态的变化学习动作模型和更新选项集合，得到新动作模型和规划目标这一步骤，其具体包括：根据符号状态对计算其前提条件和效果；根据计算得到的前提条件和效果确定所对应的动作模型，并计算其对应的累积奖励的平均值；计算动作模型对应的获得奖励，得到新动作模型；根据新动作模型更新选项集合和确定新规划目标，并将新动作模型和新规划目标传递给规划器。 7.根据权利要求6所述一种基于符号选项和动作模型自学习的任务规划方法，其特征在于，所述基于规划器模块，根据新动作模型和规划目标求解规划路径，并根据规划结果探索是否存在新的动作模型这一步骤，其具体包括：根据动作模型和规划目标求解规划路径；权　利　要　求　书 1/2 页 2 CN 114219099 A 2根据规划结果确定选项集合选择的选项；判断到规划选项已经全部完成，选择随机选项探索是否存在新的动作模型。权　利　要　求　书 2/2 页 3 CN 114219099 A 3

专利 一种基于符号选项和动作模型自学习的任务规划方法

专利一种基于符号选项和动作模型自学习的任务规划方法