说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111553561.0 (22)申请日 2021.12.17 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 金牧 卓汉逵 (74)专利代理 机构 深圳市创富知识产权代理有 限公司 4 4367 代理人 高冰 (51)Int.Cl. G06N 20/00(2019.01) G06V 10/77(2022.01) G06K 9/62(2022.01) A63F 13/67(2014.01) (54)发明名称 一种基于符号选项和动作模型自学习的任 务规划方法 (57)摘要 本发明公开了一种基于符号选项和动作模 型自学习的任务规划方法, 该方法包括: 基于符 号状态映射模块, 根据先验知识和数字图像处理 将高维图像数据映射为符号状态; 基于选项集合 模块, 根据随机动作和符号状态构建选项集合; 基于动作模 型学习模块, 根据符号状态的变化学 习动作模型和更新选项集合, 得到新动作模型和 规划目标基于规划器模块, 根据新动作模型和规 划目标求解规划路径, 并根据规划结果探索是否 存在新的动作模型。 通过使用本发明, 能够自动 学习动作模型和符号选项以及它们之间的对应 关系, 进行规划和训练探索, 以获得解决问题的 动作策略。 本发 明作为一种基于符号选项和动作 模型自学习的任务规划方法, 可广泛应用于符号 规划领域。 权利要求书2页 说明书6页 附图2页 CN 114219099 A 2022.03.22 CN 114219099 A 1.一种基于符号选项和动作模型自学习的任务 规划方法, 其特 征在于, 包括以下步骤: 基于符号状态映射模块, 根据 先验知识和数字图像处理将高维图像数据映射为符号状 态; 基于选项集合模块, 根据随机动作和符号状态构建选项集 合; 基于动作模型学习模块, 根据符号状态的变化学习动作模型和更新选项集合, 得到新 动作模型和规划目标; 基于规划器模块, 根据新动作模型和规划目标求解规划路径, 并根据规划结果探索是 否存在新的动作模型。 2.根据权利要求1所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于符号状态映射模块, 根据先验知识和数字图像处理将 高维图像数据映射为 符号状态这 一步骤, 其具体包括: 根据先验知识和数字 图像处理确定智能体, 并定位智能体位置, 得到智能体位置的符 号命题; 根据智能体位置的符号命题, 将一个高位状态映射 为两个命题组成的符号状态。 3.根据权利要求2所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述选项集 合由多个符号状态选项和一个随机 选项组成。 4.根据权利要求3所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述符号状态选项和随机选项均由三元组表示, 所述符号状态选项包括前提条件、 内 部策略和效果, 所述随机 选项包括初始条件、 策略和终止条件。 5.根据权利要求4所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于选项集合模块, 根据随机动作和符号状态构建选项集合这一步骤, 其具体包 括: 选项根据环境状态 做出决策选择 执行的动作; 智能体执 行动作后, 环境会返回新的高维状态和奖励至 选项; 选项根据返回的奖励和状态调整策略, 继续下一次交互直至达到选项的终止条件; 循 环执行和返回步骤, 得到 选项集合。 6.根据权利要求5所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于动作模型学习模块, 根据符号状态的变化学习动作模 型和更新选项集合, 得 到新动作模型和规划目标这 一步骤, 其具体包括: 根据符号状态对计算 其前提条件和效果; 根据计算得到的前提条件和效果确定所对应的动作模型, 并计算其对应的累积奖励的 平均值; 计算动作模型对应的获得 奖励, 得到新动作模型; 根据新动作模型更新选项集合和确定新规划目标, 并将新动作模型和新规划目标传递 给规划器。 7.根据权利要求6所述一种基于符号选项和动作模型自学习的任务规划方法, 其特征 在于, 所述基于规划器模块, 根据新动作模型和规划目标求解规划路径, 并根据规划结果探 索是否存在新的动作模型这 一步骤, 其具体包括: 根据动作模型和规划目标求 解规划路径;权 利 要 求 书 1/2 页 2 CN 114219099 A 2根据规划结果确定 选项集合选择的选项; 判断到规划选项已经全部 完成, 选择随机 选项探索是否存在新的动作模型。权 利 要 求 书 2/2 页 3 CN 114219099 A 3
专利 一种基于符号选项和动作模型自学习的任务规划方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 23:14:37
上传分享
举报
下载
原文档
(576.0 KB)
分享
友情链接
GB-T 20204-2006 水利水文自动化系统设备检验测试通用技术规范.pdf
T-GDYLSH 2.1—2022 旅居养老服务 第1部分:总则.pdf
NB-T 10858—2021 水电站进水口设计规范.pdf
GB 13561.1-2009 港口连续装卸设备安全规程 第1部分:散粮筒仓系统.pdf
NY-T 3928-2021 农作物品种试验规范 茶树.pdf
GB-T 10180-2017 工业锅炉热工性能试验规程.pdf
GB-T 24369.3-2017 金纳米棒表征 第3部分:表面电荷密度测量方法.pdf
GB-T 18725-2008 制造业信息化 技术术语.pdf
T-CEC 642—2022 电力5G通信模组通用技术要求.pdf
GB-T 30277-2013 信息安全技术 公钥基础设施 电子认证机构标识编码规范.pdf
JY-T 0580-2020 元素分析仪分析方法通则.pdf
GB-T 30240.10-2017 公共服务领域英文译写规范 第10部分:商业金融.pdf
T-ZZB 1934—2020 超高效节能电机用高绝缘漆包铜圆线.pdf
东北大学 工业控制网络安全态势白皮书 2021.pdf
GM-T 0036-2014 采用非接触卡的门禁系统密码应用技术指南.pdf
DL-T 2045-2019 中性点不接地系统铁磁谐振防治技术导则.pdf
GM-T 0013-2021 可信计算 可信密码模块接口符合性测试规范.pdf
ISO 13997 2023 Protective clothing — Mechanical properties — Determination of resistance.pdf
JFrog 中国解决方案架构师 企业级DevSecOps 开源治理方案演讲之路.pdf
GB-T 35679-2017 固体材料微波频段使用波导装置的电磁参数测量方法.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(576.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。