在空战中,斗狗提出了错综复杂的挑战,需要同时了解战略机动和敏捷战斗机的空中动态。在本文中,我们介绍了一种新颖的长短时间融合变换器 TempFuser,该变换器旨在学习空中斗狗中的战术和敏捷飞行动作。我们的方法采用两种不同的基于 LSTM 的输入嵌入来编码长期稀疏和短期密集状态表征。通过变压器编码器对这些嵌入进行整合,我们的模型捕捉到了战斗机的战术和灵活性,使其能够生成端到端的飞行指令,从而确保优势位置并超越对手。在高保真飞行模拟器中与各种类型的对手飞机进行广泛训练后,我们的模型成功地学会了执行复杂的战斗机机动动作,性能始终优于几个基线模型。值得注意的是,我们的模型即使在面对具有超强规格的对手时,也能表现出类似人类的战略机动能力,而这一切都无需依赖明确的先验知识。此外,它还在极具挑战性的超音速和低空环境中表现出强大的追击性能。
图片
图片
图 8:评估结果。(A): 针对对手的归一化伤害率的学习曲线。(B): 与对手交战的结果(左:F-15E,中:F-16,右:苏-27)。图中显示了本机(蓝色)和对手(红色)从开始到获胜时刻的三维飞行和水平投影轨迹。(C): 与高规格飞机(苏-30)对抗时学习到的机外战术机动的量化结果。(D): 与 F/A-18A 对手进行近音速对抗的量化结果。所有驾驶舱和外部视图均由 Tacview [36] 可视化。

在空中斗狗中学习战术和敏捷飞行机动

空对空作战是操纵战斗机智能体到达瞄准对手位置的战术艺术。它也被称为 ‘斗狗’,因为在大多数情况下,每架战斗机都会在短距离战斗中追击对方的机尾。
要想成功地进行斗狗,智能体需要从长期和短期角度出发,将态势感知、战略规划和机动性能结合起来。
首先,智能体要通过了解对手的长期轨迹来规划自己的战术位置。天真地追逐对手的近期位置可能会带来暂时的优势,但最终会使自己在日后处于弱势地位。因此,智能体应不断评估对手的长期操纵,对其行动做出反应,并对自己进行战略定位,以获得对对手的优势。
其次,智能体需要具备从短期动力学角度理解飞机敏捷机动性的能力。现代战斗机具有很高的机动性,能够迅速改变方向和速度,从而使交战情况迅速发生变化。因此,为了在与对手的交战中保持优势地位,智能体应及时从动态角度把握对手的敏捷动作和自身的潜在机动。
图片 图片

长时短时融合变换器(TempFuser)

长短期时态融合变换器(或称 TempFuser)是一种网络架构,专为空中激战中的策略模型而设计。该架构使用基于 LSTM 的输入嵌入和变换器编码器。它处理两种类型的状态轨迹:代表机动级状态转换的长期时间轨迹和表示动态级状态转换的短期时间轨迹。每种轨迹都使用基于 LSTM 的管道进行嵌入,然后通过变换器编码器进行整合。随后,使用多层感知器(MLP)模块和高斯策略架构将编码器输出转换为飞行指令。
图片

使用数字战斗模拟器(DCS)的高保真环境

在数字战斗模拟器(DCS)中使用深度强化学习(DRL)解决空中狗斗问题,DCS 被认为是最真实、最逼真的战斗机模拟环境之一。DCS 提供了一个独特的平台,可以配置各种高质量的飞机和空中场景。我们将斗犬问题表述为一个强化学习框架,并设计了一个可以学习战略性斗犬演习的奖励函数。
我们用各种对手飞机(如 F-15E、F-16、F/A-18A 和 Su-27)对我们的网络进行了广泛的训练和验证。结果表明,TempFuser 能够以端到端的方式学习具有挑战性的飞行动作,并在性能上优于各种对手飞机,包括那些具有卓越规格的飞机。此外,它还在低空和 1 马赫以上的高速飞行场景中表现出强大的追击性能。
图片
在tempfuser为基础的空中斗狗在DCS模拟器的快照。
图片
不同类型的飞机为对手:F- 15e, F/A-18A, F-16,苏-30,苏-27。

学习飞行行为(基本飞行动作)

图片
图:与F-15E交战
图片
图:飞行轨迹与水平投影
图片
图:与F-16交战
图片
图:飞行轨迹与水平投影
图片
图:与苏-27交战
图片
图:飞行轨迹与水平投影

学习飞行行为(战术飞行动作)

图片
图:对苏-30对手的定量结果

学习的飞行行为(超音速鲁棒追踪)

图片
图:对F/A-18A对手的定量结果
专知便捷查看