【论文笔记】Air Combat Strategy using Approximate Dynamic Programming 基于近似动态规划的空战策略论文阅读总结论文阅读分析I. IntroductionII. Approximate Dynamic Programming Method 近似动态规划方法III. ADP Applied to Air CombatIV. Simulation and Flight Tests

68 阅读 0 评论 45 点赞

我是靠谱客的博主无语石头，这篇文章主要介绍【论文笔记】Air Combat Strategy using Approximate Dynamic Programming 基于近似动态规划的空战策略论文阅读总结论文阅读分析I. IntroductionII. Approximate Dynamic Programming Method 近似动态规划方法III. ADP Applied to Air CombatIV. Simulation and Flight Tests，现在分享给大家，希望可以做个参考。

论文：Air Combat Strategy using Approximate Dynamic Programming (2010年)

原文链接 https://www.researchgate.net/publication/228931573_Air-Combat_Strategy_Using_Approximate_Dynamic_Programming

论文阅读总结

论文阅读分析

I. Introduction

I.A. Approach Summary 论文思路方法总结

I.B. Literature Review 文献回顾

II. Approximate Dynamic Programming Method 近似动态规划方法

II.A. Dynamic Programming Example 动态规划案例

II.B. Approximate Dynamic Programming Example 近似动态规划

III. ADP Applied to Air Combat

III.A. States, Goal, Control Inputs and Dynamics

III.B. Policy Learning

III.C. Feature Development 状态特征

III.D. Trajectory Sampling

III.E. Reward Shaping

III.F. On-line Policy Extraction

IV. Simulation and Flight Tests

论文阅读总结

1、近似动态规划的主要还是根据状态对状态值的拟合，使用函数拟合将离散状态扩展到连续状态。可以参考强化学习中值函数的参数拟合法

2、

3、

论文阅读分析

I. Introduction

尽管导弹技术发展进步，但近距空战依旧重要。目前无人机在军事和商业任务中逐渐取代了有人机，但由于空战动态性的本质，使得无人机依旧依托有人平台。例如2002年远程操控MQ-1进行combat，这种方法是一个飞行员对应一个无人机，并没有发挥出无人机的优势，自动控制决策的能力成为了一种需求。

论文的目的在于提出一种在线计算近似优化的决策方案。这要求一个较长的规划域，例如，人类飞行员在长期目标的框架内做出近期机动决策，这对成功进行空战至关重要，但是目前的方法无法满足这种复杂的计算。文中使用近似动态规划approximate dynamic programming (ADP)来解决空战问题。文中的方法比当前的方法改进了18.7%，比专家性能改进了6.9%。

I.A. Approach Summary 论文思路方法总结

The goal of air combat is to maneuver your aircraft into a position of advantage on the other aircraft,
from either an offensive or defensive starting position, while minimizing risk to your own aircraft.

空战的目标是使己方的飞行器从进攻或者防御的初始位置，机动到相比对方飞行器占优的位置，同时使自身风险最小化。

论文的目标是提出一种实时在线计算的方法，能够融合一个长规划时域，在没有专家经验知识的前提下计算机动控制时序，并可以完成攻防角色的相互转化。DP有计算机动策略的潜力，但exact的DP方法很难完成复杂的博弈问题，一个近似的方法可以得到较好的结果。在实现ADP算法中，论文提出了四个创新点，extensive feature development, trajectory sampling, reward shaping and an improved policy extraction technique。

I.B. Literature Review 文献回顾

Virtanen et al.[6]使用影响图方法建模，使用动态规划来解决，这种方法使用有限的规划域，只是缓解了计算的复杂度。

其他方法例如有限搜索、基于规则、非线性模型预测控制。

Austin et al[7,8]提出了博弈论递归搜索，这种方法在短的规划域中得到最优，而且必须使用一个启发式打分矩阵，这种方法得到的机动策略与专家经验类似。

Burgin and Sidor[9]提出了一个基于规则的自适应机动项目，在仿真实验中成功的与人进行对抗。但这种方法时间消耗太大，并且经验进行编码和人工评估以及机动选择的参数调整比较复杂。
文献[10,11]提出了一种非线性模型预测轨迹控制发方法，可以提供一种实时的方法实现躲避控制，算法没有能力实现追逃角色的转换。

II. Approximate Dynamic Programming Method 近似动态规划方法

由于离散状态空间及其参数变量的指数增长，动态规划无法实现大量的计算。该部分利用一个简单的实例（最短路径）来说明动态规划和近似动态规划。

II.A. Dynamic Programming Example 动态规划案例

最短路径动态规划问题，如图4*4的方格，机器人一步移动一格，四种动作{up, down, left, right}. 机器人的位置表示[行，列]（[row; column]），状态转移函数 $f(x,u)$ ，目标位置是[4,4]。确定一个策略，使任何状态下都能获得一个最优路径到达目标。

定义 $J(x)$ 代表每一个状态的未来回报值， $g(x)$ 代表每一个状态的值，状态转移函数 $f(x,u)$ ， $gamma$ 为折扣因子，

贝尔曼方程：

优化动作为：

【问题】

根据文中对回报值的设计，使用动态规划算法得到的结果与Figure1(b)的结果不同，得到的结果如下：

k = 0				k = 1				k = 2				k = 3				k = 4					k=100

0	0	0	10	0	0	9	10	0	8.1	9	18.1	7.29	8.1	16.29	18.1	7.29	14.66	16.29	24.66		38.36	42.62	47.36	52.62
0	0	0		0	0	0		0	0	8.1		0	7.29	8.1		6.561	7.29	14.66		……	34.52	38.36	42.62
0	0	0	0	0	0	0	0	0	0	0	0	0	0	7.29	0	0	6.561	7.29	6.561	……	31.07	34.52	38.36	34.52
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	6.561	0		27.96	31.07	6.561	31.07

在80次迭代后逐步收敛，代码后续附上。【在使用动态规划时要注意状态的表达】

II.B. Approximate Dynamic Programming Example 近似动态规划

利用一个连续的函数来近似代替连续状态的未来回报值，不仅可以减小计算量，还可以表示连续的状态空间。上述最短路径问题可以给出重新定义。

x的取值范围可以是0到4上的任意值， $J(x)$ 原本是一个离散点的查询表，现在使用一个连续的函数 $J_{approx}(x)$ 来代替，状态转移函数 $f(x,u)$ 需要重新定义，每一步的移动量为 $vDelta t$ 。用0对 $J_{approx}(x)$ 进行初始化，对状态空间进行采样，例如Figure2(b)中的9的状态样本。状态用 $X$ 表示，每一个状态下的贝尔曼转移方程为：