type
status
date
slug
summary
tags
category
icon
password
背景:
The authors are with the Institute of Robotics and Automatic Information System, College of Artificial Intelligence, Nankai University, Tianjin 300071, China and also with the Tianjin Key Laboratory of Intelligent Robotics, Nankai University, Tianjin 300071, China (e-mail: theory@mail.nankai.edu.cn; zhangxuebo @nankai.edu.cn; qianchenxu@mail.nankai.edu.cn; wrunhua@nankai.edu.cn; zhaomh@nankai.edu.cn).
‣
IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE
Abstract:
In this paper, we present a novel curriculum reinforcement learning method that can automatically generate a high-performance autopilot controller for a 6-degree-of-freedom (6-DOF) aircraft with an unknown dynamic model, which is difficult to be handled using traditional control methods. In this method, a sigmoid-like learning curve is elegantly introduced to generate goals (the desired heading, altitude, and velocity) from easy to hard for autopilot. The shape of the learning curve can be intelligently adjusted to adapt to the training process of Proximal Policy Optimization (PPO). In addition, the conflict between multiple goals in autopilot training is solved by designing an adaptive reward function. Furthermore, the control inputs can avoid large oscillations by filtering the outputs from PPO with a first-order filter to ensure the smoothness. A series of simulation results show that the proposed method can not only observably improve the success rate and stability of training but also has superior performance in settling time and robustness compared with the traditional PID control and a state-of-the-art (SOTA) method. In the end, the applications of the controller, including the navigation task, pursuit-evasion, and dogfighting, are demonstrated to prove its feasibility to multiple tasks.
本文提出了一种新的课程强化学习方法,可以自动为具有未知动态模型的6自由度(6-DOF)飞机生成高性能的自动驾驶仪控制器,这是传统控制方法难以处理的。在这种方法中,优雅地引入了一条S形学习曲线,为自动驾驶仪从易到难生成目标(所需的航向、高度和速度)。学习曲线的形状可以智能调整,以适应近端策略优化(PPO)的训练过程。此外,通过设计自适应奖励函数,解决了自动驾驶训练中多个目标之间的冲突。此外,通过用一阶滤波器对PPO的输出进行滤波以确保平滑度,控制输入可以避免大的振荡。一系列仿真结果表明,与传统的PID控制和最先进的SOTA方法相比,该方法不仅可以显著提高训练的成功率和稳定性,而且在稳定时间和鲁棒性方面也具有优越的性能。最后,该控制器的应用,包括导航任务、追捕规避和斗狗,证明了其在多任务中的可行性。
一、提出了什么问题?
As far as we all know, there is rare work using RL to train autopilot controllers for fixed-wing UAVs. Two critical challenges lie in the conflict of multiple control goals and inefficient training of DRL in complex control tasks.
For the first point, the conflict is mainly between heading and velocity. It can be solved by reward shaping, in which the reward of speed increases non-linearly as the heading error gets smaller.
For the second point, it can be addressed by the curriculum learning (CL) [33]. CL can be used to pose auxiliary tasks to the agent, gradually guiding its learning trajectory from simple to difficult tasks until the target tasks are solved.
据我们所知,很少有工作使用RL来训练固定翼无人机的自动驾驶仪控制器。两个关键挑战在于多个控制目标的冲突和DRL在复杂控制任务中的低效训练。
对于第一点,冲突主要在于航向和速度之间。它可以通过奖励整形来解决,其中速度的奖励随着航向误差的减小而非线性增加。
对于第二点,可以通过课程学习(CL)来解决[33]。CL可用于向代理提出辅助任务,逐步引导其学习轨迹从简单任务到困难任务,直到目标任务得到解决。
大多数相关工作都集中在低级姿态控制或单横向/纵向控制。 Li等人成功地使用PPO训练了几个可以分别跟踪航向和高度的基本机动,这证明了PPO在复杂的飞行控制中具有很高的效率。然而,它无法满足自动驾驶功能。首先,它缺乏对速度的控制。其次,机动控制器是单独训练的,因此它不能同时跟踪航向和高度。
二、Contributions
By constructing an adaptive learning curve that can update its sigmoid-like shape intelligently according to the performance during the training stage, a new curriculum learning method for achieving autopilot controller is proposed, which can improve the success rate and stability of training.
An adaptive reward function is proposed to resolve the conflict between heading and speed in the autopilot training. Additionally, a new method has been designed to smooth the control input by filtering the output of the policy network with a first-order filter.
Through sufficient simulations and comparisons, the autopilot controller trained using the proposed method has superior performance in terms of settling time and robustness compared to traditional PID control and a SOTA method. The feasibility of the controller is demonstrated through its applications in navigation, pursuit-evasion, and dogfighting execution.
通过构建一条自适应学习曲线,可以根据训练阶段的性能智能地更新其S形形状,提出了一种实现自动驾驶控制器的新课程学习方法,可以提高训练的成功率和稳定性。
提出了一种自适应奖励函数,以解决自动驾驶训练中航向和速度之间的冲突。此外,还设计了一种新方法,通过用一阶滤波器对策略网络的输出进行滤波来平滑控制输入。
通过充分的仿真和比较,与传统的PID控制和SOTA方法相比,使用所提出的方法训练的自动驾驶仪控制器在稳定时间和鲁棒性方面具有更优的性能。通过其在导航、追捕规避和斗狗执行中的应用,证明了该控制器的可行性。
三、做了什么

主要内容

- Framework of Autopilot Training
当一集结束时,学习曲线(S形曲线)会被更新以安排训练课程,状态会根据自适应学习曲线重置。更新的细节如下:首先,这一集的回报是通过简单的指数平滑(SES)实现的。然后,将该值与线性函数生成的设计期望进行比较,以决定是否更新学习曲线。
如果它更大,光标将增加1以生成一个比率来分配下一集的目标和比率将被推送到一个名为KPI(关键绩效指标)数组的数组中。否则,计数将递增1。如果计数小于设计公差(Nt),则过程与上述相同,除了光标保持不变。否则,学习曲线将通过使用非线性最小二乘法拟合KPI数组来更新,下一集的目标将由新的目标分配。
KPI数组也将由新数组刷新。细节可以在算法3中看到。
当训练结束时,最终的参与者网络是训练有素的控制器。它可以根据在每个时间步从环境中接收到的状态采取行动,并形成完成飞行机动的轨迹。
- 6-DOF刚体运动方程
刚体运动

- 对JSBSim的二次开发,以开发控制器的MDP模型,包括状态空间、动作空间、终端状态、重置状态和奖励的设计。
- 状态和动作空间
- 自适应奖励函数
- 通过自适应学习曲线重置状态:在每次训练回合(episode)结束后,不是简单地把环境重置到同一个固定的初始目标,而是根据当前智能体的表现,动态调整下一个回合要练习的任务难度,从而形成“由易到难、按需授课”的课程学习(Curriculum Learning)策略

设置一阶滤波器来平滑控制命令。离散系统中一阶滤波器的实现如(7)所示。最后的状态和动作空间如(8)所示:

编码所需行为的基本奖励函数可以构造如下:


这里,WE是一个可变的权重矩阵,其元素(WEφ,weh,wevt)可以改变,以分配奖励函数中的误差比例,从而避免多个目标的冲突。
学习曲线由算法三生成:

用到的工具
- PPO, a widely used DRL algorithm, is chosen to interact with JSBSim to asymptotically train the autopilot controller. During training
- JSBSim is used as the environment for interaction due to its high-fidelity dynamics
四、结果
证明自适应学习曲线的有效性
通过引入自适应学习曲线,所提出的算法可以根据代理的当前能力将分配任务的难度从易调整到难。合理的任务分配可以充分利用代理的先验知识,从而减少所需的训练数据和时间。
为了证明自适应学习曲线的有效性,将其与其他两种方法进行了比较:
- 在一定范围内随机生成的目标
- 由固定学习曲线生成的目标。
随机生成的目标是指什么目标?
“随机生成的目标”就是 在每个训练回合开始时,不管智能体当前能力如何,直接在预设的最大可达范围内(比如航向±180°、高度±5000 ft、速度±200 km/h等)无任何顺序地从均匀分布中抽取目标航向、目标高度和目标速度。也就是说,它等价于每次都把任务难度比率 ratio 设为
然后根据这个比率在全范围里随机采样转弯角度、爬升/下降高度和加减速幅度。这样的做法不会按照“由易到难”来安排任务,训练时既可能一上来就给非常难的目标,也可能给很简单的目标,因此纯 PPO 很难稳定学习到一个可用的 autopilot 策略 。
比较三种训练方法奖励的消融如图4所示。它们中的每一个的阴影区域表示五次训练的平均奖励的标准差,每次训练的种子是随机的。
从图中可以明显看出,随机生成目标无法训练,从而获得了不可接受的奖励。
这表明自动驾驶任务很困难,因此纯PPO无法处理其巨大的状态和动作空间。
相比之下,通过固定学习曲线生成目标的回报远高于随机生成,但低于自适应学习曲线,这意味着自动驾驶仪控制器已成功实现,但性能可能并不令人满意。这表明课程设计有助于强化学习解决复杂的控制任务。

消融对比(图 4)里,随机目标一开始就可能给非常难的机动(极大航向/高度/速度变化),导致奖励长期低甚至训练无法起步; 而固定曲线虽能保证“从易到难”,但它是预先手工设定的,无法根据智能体学习进度做调整——当智能体已经掌握早期难度时,后续阶段要么难度提升过快(奖励下滑),要么提升过慢(收敛变缓); 自适应学习曲线则通过 SES+非线性最小二乘自动更新曲线参数,让每一回合的任务难度都恰好落在智能体能力边界附近:既不会过难,也不会过易。
控制器的评估主要是将其性能与PID控制器和标记为BFM-RL(基于RL的基本飞行机动控制器)的控制器进行比较。
与PID对比
- 除了速度控制相同外,我们的控制器在航向和高度控制方面的性能明显优于PID控制器。
- 我们提出的控制器在鲁棒性、瞬态性能和稳定时间方面优于PID控制器。
与BFM-RL对比
- [32]中的纵向控制器和横向控制器是单独训练的,需要水平飞行才能在执行中连接起来。相比之下,在我们的工作中,纵向和横向控制与速度控制相结合,从而同时跟踪高度、航向和速度。
如上所述,BFM-RL控制器需要采取措施进行操作,即航向不变的爬升和高度不变的转弯,并需要平飞将它们连接起来。否则,飞机将减速。因此,BFM-RL控制器的稳定时间比我们的控制器大,几乎长20秒。
- 由于自适应速度奖励,转弯率大大提高。由于速度的权重随着航向误差的减小而增加,它鼓励智能体快速转弯以获得更大的奖励
- 由于一阶滤波器的存在,我们的控制器的控制命令比BFM-RL控制器更平滑。
- 作者:spark
- 链接:http://sparkleaf.cn/article/CL24
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。