专利 面向行星际探测轨道设计的强化混合差分演化方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211118194.6 (22)申请日 2022.09.15 (65)同一申请的已公布的文献号申请公布号 CN 115204062 A (43)申请公布日 2022.10.18 (73)专利权人中国地质大学（武汉）地址 430000 湖北省武汉市洪山区鲁磨路 388号 (72)发明人彭雷　袁卓铭　戴光明　王茂才　宋志明　陈晓宇　 (74)专利代理机构武汉知产时代知识产权代理有限公司 42 238 专利代理师孔灿 (51)Int.Cl. G06F 30/27(2020.01)G06F 17/16(2006.01) G06N 3/12(2006.01) G06F 111/08(2020.01) 审查员柯东旭 (54)发明名称面向行星际探测轨道设计的强化混合差分演化方法及系统 (57)摘要本发明公开了一种面向行星际探测轨道设计的强化混合差分演化方法及系统，方法包括：（1） RL_HDE使用Q ‑Learning算法来自适应控制六种不同的变异策略，增强算法寻优能力。同时针对六种不同变异策略的自适应控制，全局算子使用LSHADE_EI G方法，该方法对国际演化计算竞赛（CEC2015）算法LSHADE_SPS_EIG做出改进，不再使用SPS框架；（2）使用强化学习Q ‑Learning算法自适应控制触发参数 ρ1,max和ρ2,max，平衡算法探索与开发能力。本发明有益效果是：可以有效提高行星际探测轨道优化设计的求解速度，提升探测器轨道计算精度。权利要求书5页说明书13页附图6页 CN 115204062 B 2022.12.30 CN 115204062 B 1.一种面向行星际探测轨道设计的强化混合差分演化方法，其特征在于：包括以下步骤： S1、确定所需解决的探测器深空轨道设计问题 M； S2、构建问题 M的目标函数 f(x)以及决策向量 x、全局搜索区域上边界 xub，下边界xlb； S3、初始化用于Q ‑learning的参数：学习率 α，折扣因子 γ；初始化CMA‑ES局部搜索区域边界的控制参数 Boundinit和Boundmin；初始化全局算子LSHADE_EIG最高停滞代数 ρ1,max和当前停滞代数 ρ1；初始化局部算子 CMA‑ES最高停滞次数 ρ2,max，当前停滞代数 ρ2；初始化内点法的比例因子参数 ls_eval；初始化目标函数最高求解次数MAX_FES以及当前求解次数FES；全局算子LSHADE_EIG用于对整个搜索空间进行初步探索，得到初步全局最优解；停滞代数ρ1用于记录全局算子LSHADE_EIG求解结束时的累计停滞次数；局部算子用于在初步求解空间中，进一步搜索计算，加快目标函数 f(x)的求解过程；停滞代数ρ2用于记录局部算子 CMA‑ES求解结束时的累计停滞次数；分别初始化用于自适应控制变异策略，触发参数 ρ1,max和ρ2,max的Q‑Table；其中， LSHADE_ EIG算子中的每个个体会初始化一个Q‑Table来自适应控制变异策略的选择； S4、采用Q ‑Learning算法自适应更新触发参数 ρ1,max； S5、判断ρ1是否小于ρ1,max，且FES是否小于 MAX_FES，若是，则进入步骤S6；否则进入步骤 S10，表示全局搜索空间求解结束，更新自适应控制触发参数 ρ1,max的Q‑Table矩阵，开始局部求解； S6、采用Q ‑Learning算法自适应选择变异策略； S7、全局算子LSHADE_EIG启动，开始对整个搜索空间进行初步探索求解； S8、更新自适应控制变异策略的Q ‑Table矩阵； S9、判断是否成立，其中为LSHADE_EIG得到的最优解， xgmin为全局最优解；若成立，则将停滞代数ρ1置零，将xgmin替换为；否则停滞代数ρ1自加1；ρ1更新后返回步骤S5； S10、根据和控制参数 Boundinit，Boundmin确定局部搜索空间； S11、在局部搜索空间中，采用Q ‑Learning算法自适应更新触发参数 ρ2,max； S12、判断ρ2是否小于ρ2,max，且FES是否小于 MAX_FES，若是，则进入步骤S13；否则更新自适应控制触发参数 ρ2,max的Q‑Table矩阵，进入步骤S15，表示C MA‑ES局部搜索求解结束； S13、局部算子 CMA‑ES启动，开始对局部搜索空间进行求解； S14、判断是否成立，为CMA‑ES得到的最优解， xgmin为全局最优解；权　利　要　求　书 1/5 页 2 CN 115204062 B 2若是则将停滞代数 ρ2置零，将xgmin替换为；否则停滞代数 ρ2自加1；ρ2更新后返回步骤S12； S15、判断当前求解次数 FES是否小于0.75 ×MAX_FES，如果是，则返回步骤S4；如果当前求解次数 FES不再小于 MAX_FES，那么进入步骤S16；如果当前求解次数 FES是否大于0.75 × MAX_FES 并小于MAX_FES ，则使用局部算子内点法更新全局最优解；判断是否成立，若成立，则将 xgmin替换为，为内点法得到的最优解；最后更新局部算子内点法参数，进入步骤S16； S16、判断当前求解次数 FES是否大于或等于 MAX_FES，若是，则求解结束，当前 xgmin为最终求解结果；若不是，则返回步骤S4。 2.如权利要求1所述的一种面向行星际探测轨道设计的强化混合差分演化方法，其特征在于：参数 ρ1,max的Q‑Table矩阵为 QDE，QDE根据参数 ScDE1的状态和参数 fDE1的状态，组合得到六种种群演化状态，并包括七种预设的第一动作更新值；其中种群演化状态作为矩阵 QDE 的行，第一动作更新值作为矩阵 QDE的列；参数 ScDE1包括三种状态；参数 fDE1包括两种状态；参数ScDE1和参数fDE1的计算满足下列式：（4.1）（4.2）其中，XDE为经过LSHADE_EIG算子演化后得到的最终种群， X0则为LSHADE_EIG算子开始演化的初代种群， diversity (*)函数用于评估输入种群的种群多样性， avg_fitness (*)函数则是计算输入种群中个体的平均适应度； (4.3) (4.4) L为搜索空间 S∈RD的对角线长度， NP为种群规模， f(xi)为个体xi所对应的目标函数值，是种群中所有个体第j维变量的平均值， xj,i是种群中第 i个个体的第j维变量值。 3.如权利要求2所述的一种面向行星际探测轨道设计的强化混合差分演化方法，其特征在于：更新触发参数 ρ1,max的具体公式为：权　利　要　求　书 2/5 页 3 CN 115204062 B 3

专利 面向行星际探测轨道设计的强化混合差分演化方法及系统

专利面向行星际探测轨道设计的强化混合差分演化方法及系统