专利 单机任务场景信息获取及单智能体运动控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210938616.8 (22)申请日 2022.08.05 (71)申请人北京空间飞行器总体设计部地址 100094 北京市海淀区友谊路104 号 (72)发明人李剑飞　李群智　马超　田健　危清清　 (74)专利代理机构工业和信息化部电子专利中心 11010 专利代理师田卫平 (51)Int.Cl. G06V 20/40(2022.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G06V 10/25(2022.01) G06V 10/26(2022.01)G06V 10/44(2022.01) G06V 10/50(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称单机任务场景信息获取及单智能体运动控制方法 (57)摘要本发明提供了一种单机任务场景信息获取及单智能体运动控制方法，单机任务场景信息获取方法能够实现针对复杂动态环境，获取信息作为智能策略的输入和训练基础；单智能体运动控制方法采用针对动态少样本任务条件的机器人操作高效率强化学习策略，有效解决机器人操作学习任务的对象模拟、策略生成、任务泛化以及经验迁移的全流程问题。本发明研究适用于单机任务场景下的智能感知数据的图像拍摄和数据采集技术，并将获取的信息作为可供深度学习训练使用的训练数据库，有效的服务于机器人感知系统。本发明的单智能体运动控制方法，采用单智能体运动控制策略，基于深度强化学习方法研究机械臂抓取不同目标技术，可直接支撑未来的智能空间机器人。权利要求书2页说明书7页附图2页 CN 115457424 A 2022.12.09 CN 115457424 A 1.一种单机任务场景信息获取方法，其特征在于，包括如下步骤：步骤1，通过运动目标检测，在视频或图像序列中将感兴趣的运动目标与背景分离，获得运动目标的位置信息，提取出的目标对象；步骤2，对目标的特征进行分析，并确定该目标在视频图像序列中的位置，记录目标质心的位置并计算出运动目标的轨迹；步骤3，基于HOG特征和 SVM分类，通过学习阶段与检测阶段，实现对目标的识别，完成单机任务场景信息获取；学习阶段包括如下步骤：一是采集正、负样本数据；二是提取样本的特征信息到特征向量空间中，用向量模型表示图像的特征信息，得到特征向量；三是将特征向量输入到分类器中训练学习，生成目标分类器；检测阶段包括如下步骤：一是在目标检测的基础上，对检测窗口图像进行特征提取；二是得到目标特征向量后输入到训练好的目标分类器上，通过检测窗口扫描对目标进行分类，并用矩形框标识；三是对输出结果进行矩形框合并，将重叠在一起的小矩形合并成一个大矩形框，实现对目标的识别；其中， HOG特征是检测到的局部对象轮廓能够被光强梯度或边缘方向的分布所表征。 2.如权利要求1所述的方法，其特征在于， HOG特征具体的实现为：先对物体像素点进行梯度计算，然后将样本图像分割成一个个细胞单元cell，每个cell是由n*n个像素组成，不同的样本图像选取n的大小不同，每2*2个细胞单元cell组成一个block，其中cell的大小为检测窗口的滑动步长，每个cell生成一个方向梯度直方图，所述直方图的组合表示出描述子，将所有bl ock的HOG特征组合在一起形成HO G特征向量。 3.如权利要求2所述的方法，其特征在于，对细胞单元格进行归一化，归一化该block中的所有细胞单元cell。 4.如权利要求1 ‑3任意一项所述的方法，其特征在于，所述步骤2中，采用卡尔曼滤波、扩展卡尔曼滤波、粒子滤波或Mean Shift跟踪算法进行目标跟踪，在跟踪过程中引入滤波器，根据目标的运动特性预测出目标可能出现的位置。 5.一种单智能体运动控制方法，其特征在于，采用如权利要求1 ‑4任意一项所述的方法进行信息获取，将获取到的信息作为运动控制的输入，采用单智能体运动控制策略，基于深度强化学习方法控制机械臂抓取不同目标。 6.如权利要求5所述的控制方法，其特征在于，包括如下步骤：步骤31，构建包括六自由度机械臂物理模型、运动的待抓捕目标和周围环境物理属性的仿真环境；机械臂的传感器信息通过插件形式加入仿真环境，并通过可视化的方式进行显示；步骤32，拟合关节模型；其中，在物理机械臂装配前，采集每个关节的输入端控制力矩和关节端力矩传感器的数据，训练一个全连接网络进行逼近；神经网络模型拟合了关节的电机、模型、减速器模型以及摩擦模型；步骤33，将待抓捕目标的位置、接触摩擦、接触刚度以及接触阻尼参数进行高斯随机化处理，随机化的各参数期望值为真实世界的标称值，并去掉不符合物理意义的负值；待抓捕目标初始在机械臂的工作空间外，以直线或自由落体的方式穿过机械臂的工作空间，其射入的方向、位置以及速度进行给定区间内的随机化处理；步骤34，使用深度强化学习算法中的P PO算法训练控制器动作空间选为各关节的力矩： a＝[ τ1, τ2, τ3, τ4, τ5, τ6]T权　利　要　求　书 1/2 页 2 CN 115457424 A 2状态空间选为目标的坐标、机械臂末端的坐标、关节角度和角速度：设计奖励函数为：其中， λi(i＝1,2,3)表示奖励函数各部分所占的权重，通过调节 λi的相对大小来控制各个指标的相对重要程度，同时对所消耗的能量进行限制； x1， y1， z1表示笛卡尔坐标系下待抓捕目标的三维坐标值， x， y， z表示机械臂末端的坐标值； E表示机械臂当前时刻消耗的能量，使用6个电机的转速和输出转矩乘积的和来表示； Ts为采样时间， Tf为最大仿真时间，第3项表示抓捕时间越长，负奖赏越大；步骤35，在仿真环境中开展训练，直到累计奖赏函数达到要求值或者达到最大训练周期数量；步骤36，将训练好的整个算法部分迁移到实际的机械臂控制板上，采用仿真环境下机械臂的初始状态作为控制器的输入，运动目标检测算法和跟踪算法部署在另一块控制板上，配置好相机系统，转换到与仿真环境中一致的坐标系，将目标位置计算结果传送给机械臂控制器，通过机械臂控制器实现对单智能体的运动控制。 7.如权利要求6所述的方法，其特征在于，以仿真中同区间的参数抛射目标物体，测试机械臂在实际环境下的动目标抓捕能力。权　利　要　求　书 2/2 页 3 CN 115457424 A 3

专利 单机任务场景信息获取及单智能体运动控制方法

专利单机任务场景信息获取及单智能体运动控制方法