说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111553561.0 (22)申请日 2021.12.17 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 金牧 卓汉逵  (74)专利代理 机构 深圳市创富知识产权代理有 限公司 4 4367 代理人 高冰 (51)Int.Cl. G06N 20/00(2019.01) G06V 10/77(2022.01) G06K 9/62(2022.01) A63F 13/67(2014.01) (54)发明名称 一种基于符号选项和动作模型自学习的任 务规划方法 (57)摘要 本发明公开了一种基于符号选项和动作模 型自学习的任务规划方法, 该方法包括: 基于符 号状态映射模块, 根据先验知识和数字图像处理 将高维图像数据映射为符号状态; 基于选项集合 模块, 根据随机动作和符号状态构建选项集合; 基于动作模 型学习模块, 根据符号状态的变化学 习动作模型和更新选项集合, 得到新动作模型和 规划目标基于规划器模块, 根据新动作模型和规 划目标求解规划路径, 并根据规划结果探索是否 存在新的动作模型。 通过使用本发明, 能够自动 学习动作模型和符号选项以及它们之间的对应 关系, 进行规划和训练探索, 以获得解决问题的 动作策略。 本发 明作为一种基于符号选项和动作 模型自学习的任务规划方法, 可广泛应用于符号 规划领域。 权利要求书2页 说明书6页 附图2页 CN 114219099 A 2022.03.22 CN 114219099 A 1.一种基于符号选项和动作模型自学习的任务 规划方法, 其特 征在于, 包括以下步骤: 基于符号状态映射模块, 根据 先验知识和数字图像处理将高维图像数据映射为符号状 态; 基于选项集合模块, 根据随机动作和符号状态构建选项集 合; 基于动作模型学习模块, 根据符号状态的变化学习动作模型和更新选项集合, 得到新 动作模型和规划目标; 基于规划器模块, 根据新动作模型和规划目标求解规划路径, 并根据规划结果探索是 否存在新的动作模型。 2.根据权利要求1所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于符号状态映射模块, 根据先验知识和数字图像处理将 高维图像数据映射为 符号状态这 一步骤, 其具体包括: 根据先验知识和数字 图像处理确定智能体, 并定位智能体位置, 得到智能体位置的符 号命题; 根据智能体位置的符号命题, 将一个高位状态映射 为两个命题组成的符号状态。 3.根据权利要求2所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述选项集 合由多个符号状态选项和一个随机 选项组成。 4.根据权利要求3所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述符号状态选项和随机选项均由三元组表示, 所述符号状态选项包括前提条件、 内 部策略和效果, 所述随机 选项包括初始条件、 策略和终止条件。 5.根据权利要求4所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于选项集合模块, 根据随机动作和符号状态构建选项集合这一步骤, 其具体包 括: 选项根据环境状态 做出决策选择 执行的动作; 智能体执 行动作后, 环境会返回新的高维状态和奖励至 选项; 选项根据返回的奖励和状态调整策略, 继续下一次交互直至达到选项的终止条件; 循 环执行和返回步骤, 得到 选项集合。 6.根据权利要求5所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于动作模型学习模块, 根据符号状态的变化学习动作模 型和更新选项集合, 得 到新动作模型和规划目标这 一步骤, 其具体包括: 根据符号状态对计算 其前提条件和效果; 根据计算得到的前提条件和效果确定所对应的动作模型, 并计算其对应的累积奖励的 平均值; 计算动作模型对应的获得 奖励, 得到新动作模型; 根据新动作模型更新选项集合和确定新规划目标, 并将新动作模型和新规划目标传递 给规划器。 7.根据权利要求6所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于规划器模块, 根据新动作模型和规划目标求解规划路径, 并根据规划结果探 索是否存在新的动作模型这 一步骤, 其具体包括: 根据动作模型和规划目标求 解规划路径;权 利 要 求 书 1/2 页 2 CN 114219099 A 2根据规划结果确定 选项集合选择的选项; 判断到规划选项已经全部 完成, 选择随机 选项探索是否存在新的动作模型。权 利 要 求 书 2/2 页 3 CN 114219099 A 3

.PDF文档 专利 一种基于符号选项和动作模型自学习的任务规划方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于符号选项和动作模型自学习的任务规划方法 第 1 页 专利 一种基于符号选项和动作模型自学习的任务规划方法 第 2 页 专利 一种基于符号选项和动作模型自学习的任务规划方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。