(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210938616.8 (22)申请日 2022.08.05 (71)申请人 北京空间飞行器总体设计 部 地址 100094 北京市海淀区友谊路104 号 (72)发明人 李剑飞 李群智 马超 田健  危清清  (74)专利代理 机构 工业和信息化部电子专利中 心 11010 专利代理师 田卫平 (51)Int.Cl. G06V 20/40(2022.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G06V 10/25(2022.01) G06V 10/26(2022.01)G06V 10/44(2022.01) G06V 10/50(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 单机任务场景信息获取及单智能体运动控 制方法 (57)摘要 本发明提供了一种单机任务场景信息获取 及单智能体运动控制方法, 单机任务场景信息获 取方法能够实现针对复杂动态环 境, 获取信息作 为智能策略的输入和训练基础; 单智能体运动控 制方法采用针对动态少样本任务条件的机器人 操作高效率强化学习策略, 有效解决机器人操作 学习任务的对象模拟、 策略生成、 任务泛化以及 经验迁移的全流程问题。 本发明研究适用于单机 任务场景下的智能感知数据的图像拍摄和数据 采集技术, 并将获取的信息作为可供深度学习训 练使用的训练数据库, 有效的服务于机器人感知 系统。 本发明的单智能体运动控制方法, 采用单 智能体运动控制策略, 基于深度强化学习方法研 究机械臂抓取不同目标技术, 可直接支撑未来的 智能空间机 器人。 权利要求书2页 说明书7页 附图2页 CN 115457424 A 2022.12.09 CN 115457424 A 1.一种单机任务场景信息获取 方法, 其特 征在于, 包括如下步骤: 步骤1, 通过运动目标检测, 在视频或图像序列中将感兴趣的运动目标与背景分离, 获 得运动目标的位置信息, 提取 出的目标对象; 步骤2, 对目标的特征进行分析, 并确定该目标在视频图像序列中的位置, 记录目标质 心的位置并计算出运动目标的轨 迹; 步骤3, 基于HOG特征和 SVM分类, 通过学习阶段与检测阶段, 实现对目标的识别, 完成单 机任务场景信息获取; 学习阶段包括如下步骤: 一是采集正、 负样本数据; 二是提取样本的 特征信息到特征向量空间中, 用向量模 型表示图像的特征信息, 得到特征向量; 三是将特征 向量输入到 分类器中训练学习, 生 成目标分类器; 检测阶段包括如下步骤: 一是在目标检测 的基础上, 对检测窗口图像进行特征提取; 二是得到目标特征向量后输入到训练好的目标 分类器上, 通过检测窗口扫描对目标进 行分类, 并用矩形框标识; 三是对输出结果进 行矩形 框合并, 将重 叠在一起的小矩形合并成一个大矩形框, 实现对目标的识别; 其中, HOG特征是检测到的局部对象轮廓能够被光强梯度或边 缘方向的分布所表征。 2.如权利要求1所述的方法, 其特征在于, HOG特征具体的实现为: 先对物体像素点进行 梯度计算, 然后将样本图像分割成一个个细胞单元cell, 每个cell是由n*n个像素组成, 不 同的样本图像选取n的大小不同, 每2*2个细胞单元cell组成一个block, 其中cell的大小为 检测窗口的滑动步长, 每个cell生成一个方向梯度直方图, 所述直方图的组合表示出描述 子, 将所有bl ock的HOG特征组合在一 起形成HO G特征向量。 3.如权利 要求2所述的方法, 其特征在于, 对细胞单元格进行归一化, 归一化该block中 的所有细胞 单元cell。 4.如权利要求1 ‑3任意一项所述的方法, 其特征在于, 所述步骤2中, 采用卡尔曼滤波、 扩展卡尔曼滤波、 粒子滤波或Mean  Shift跟踪算法进行 目标跟踪, 在跟踪过程中引入滤波 器, 根据目标的运动特性预测出目标 可能出现的位置 。 5.一种单智能体运动控制方法, 其特征在于, 采用如权利要求1 ‑4任意一项所述的方法 进行信息获取, 将获取到的信息作为运动控制的输入, 采用单智能体运动控制策略, 基于深 度强化学习方法控制机 械臂抓取不同目标。 6.如权利要求5所述的控制方法, 其特 征在于, 包括如下步骤: 步骤31, 构建包括六自由度机械臂物理模型、 运动的待抓捕 目标和周围环境物理属性 的仿真环境; 机械臂的传感器信息通过插件形式加入仿真环境, 并通过可视化的方式进行 显示; 步骤32, 拟合关节模型; 其中, 在物理机械臂装配前, 采集每个关节的输入端控制力矩 和关节端力矩传感器的数据, 训练一个全连接网络进行逼近; 神经网络模型拟合了关节的 电机、 模型、 减速器模型以及 摩擦模型; 步骤33, 将待抓捕目标的位置、 接触摩擦、 接触 刚度以及接触阻尼参数进行高斯随机化 处理, 随机化的各参数期 望值为真实世界的标称值, 并去掉不符合物理意义的负值; 待抓捕 目标初始在机械臂的工作 空间外, 以直线或自由落体的方式穿过机械臂的工作空间, 其射 入的方向、 位置以及速度进行 给定区间内的随机化处 理; 步骤34, 使用深度强化学习算法中的P PO算法训练控制器动作空间选为各关节的力矩: a=[ τ1, τ2, τ3, τ4, τ5, τ6]T权 利 要 求 书 1/2 页 2 CN 115457424 A 2状态空间选为目标的坐标、 机 械臂末端的坐标、 关节角度和角速度: 设计奖励函数为: 其中, λi(i=1,2,3)表示奖励函数各部分所占的权重, 通过调节 λi的相对大小来控制各 个指标的相对重要程度, 同时对 所消耗的能量进 行限制; x1, y1, z1表示笛卡尔坐标系下待抓 捕目标的三维坐标值, x, y, z表 示机械臂末端的坐标值; E表 示机械臂当前时刻消耗的能量, 使用6个电机的转速和输出转矩乘积的和来表示; Ts为采样时间, Tf为最大仿真时间, 第3项 表示抓捕时间越长, 负奖赏越大; 步骤35, 在仿真环境中开展训练, 直到累计奖赏函数达到要求值或者达到最大训练周 期数量; 步骤36, 将训练好的整个算法部分迁移到实际的机械臂控制板上, 采用仿真环境下机 械臂的初始状态作为控制器的输入, 运动 目标检测算法和跟踪算法部署在另一块控制板 上, 配置好相机系统, 转换到与仿 真环境中一致的坐标系, 将目标位置计算结果传送给机械 臂控制器, 通过机 械臂控制器实现对单智能体的运动控制。 7.如权利要求6所述的方法, 其特征在于, 以仿真中同区间的参数抛射目标物体, 测试 机械臂在实际环境下的动目标抓捕能力。权 利 要 求 书 2/2 页 3 CN 115457424 A 3

.PDF文档 专利 单机任务场景信息获取及单智能体运动控制方法

安全报告 > 其他 > 文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 单机任务场景信息获取及单智能体运动控制方法 第 1 页 专利 单机任务场景信息获取及单智能体运动控制方法 第 2 页 专利 单机任务场景信息获取及单智能体运动控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 04:40:27上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。