概述
论文:Air Combat Strategy using Approximate Dynamic Programming (2010年)
原文链接 https://www.researchgate.net/publication/228931573_Air-Combat_Strategy_Using_Approximate_Dynamic_Programming
目录
论文阅读总结
论文阅读分析
I. Introduction
I.A. Approach Summary 论文思路方法总结
I.B. Literature Review 文献回顾
II. Approximate Dynamic Programming Method 近似动态规划方法
II.A. Dynamic Programming Example 动态规划案例
II.B. Approximate Dynamic Programming Example 近似动态规划
III. ADP Applied to Air Combat
III.A. States, Goal, Control Inputs and Dynamics
III.B. Policy Learning
III.C. Feature Development 状态特征
III.D. Trajectory Sampling
III.E. Reward Shaping
III.F. On-line Policy Extraction
IV. Simulation and Flight Tests
论文阅读总结
1、近似动态规划的主要还是根据状态对状态值的拟合,使用函数拟合将离散状态扩展到连续状态。可以参考强化学习中值函数的参数拟合法
2、
3、
论文阅读分析
I. Introduction
尽管导弹技术发展进步,但近距空战依旧重要。目前无人机在军事和商业任务中逐渐取代了有人机,但由于空战动态性的本质,使得无人机依旧依托有人平台。例如2002年远程操控MQ-1进行combat,这种方法是一个飞行员对应一个无人机,并没有发挥出无人机的优势,自动控制决策的能力成为了一种需求。
论文的目的在于提出一种在线计算近似优化的决策方案。这要求一个较长的规划域,例如,人类飞行员在长期目标的框架内做出近期机动决策,这对成功进行空战至关重要,但是目前的方法无法满足这种复杂的计算。文中使用近似动态规划approximate dynamic programming (ADP)来解决空战问题。文中的方法比当前的方法改进了18.7%,比专家性能改进了6.9%。
I.A. Approach Summary 论文思路方法总结
The goal of air combat is to maneuver your aircraft into a position of advantage on the other aircraft,
from either an offensive or defensive starting position, while minimizing risk to your own aircraft.
空战的目标是使己方的飞行器从进攻或者防御的初始位置,机动到相比对方飞行器占优的位置,同时使自身风险最小化。
论文的目标是提出一种实时在线计算的方法,能够融合一个长规划时域,在没有专家经验知识的前提下计算机动控制时序,并可以完成攻防角色的相互转化。DP有计算机动策略的潜力,但exact的DP方法很难完成复杂的博弈问题,一个近似的方法可以得到较好的结果。在实现ADP算法中,论文提出了四个创新点,extensive feature development, trajectory sampling, reward shaping and an improved policy extraction technique。
I.B. Literature Review 文献回顾
Virtanen et al.[6]使用影响图方法建模,使用动态规划来解决,这种方法使用有限的规划域,只是缓解了计算的复杂度。
其他方法例如有限搜索、基于规则、非线性模型预测控制。
Austin et al[7,8]提出了博弈论递归搜索,这种方法在短的规划域中得到最优,而且必须使用一个启发式打分矩阵,这种方法得到的机动策略与专家经验类似。
Burgin and Sidor[9]提出了一个基于规则的自适应机动项目,在仿真实验中成功的与人进行对抗。但这种方法时间消耗太大,并且经验进行编码和人工评估以及机动选择的参数调整比较复杂。
文献[10,11]提出了一种非线性模型预测轨迹控制发方法,可以提供一种实时的方法实现躲避控制,算法没有能力实现追逃角色的转换。
II. Approximate Dynamic Programming Method 近似动态规划方法
由于离散状态空间及其参数变量的指数增长,动态规划无法实现大量的计算。该部分利用一个简单的实例(最短路径)来说明动态规划和近似动态规划。
II.A. Dynamic Programming Example 动态规划案例
最短路径动态规划问题,如图4*4的方格,机器人一步移动一格,四种动作{up, down, left, right}. 机器人的位置表示[行,列]([row; column]),状态转移函数,目标位置是[4,4]。确定一个策略,使任何状态下都能获得一个最优路径到达目标。
定义代表每一个状态的未来回报值,代表每一个状态的值,状态转移函数,为折扣因子,
贝尔曼方程:
优化动作为:
【问题】
根据文中对回报值的设计,使用动态规划算法得到的结果与Figure1(b)的结果不同,得到的结果如下:
k = 0 | k = 1 | k = 2 | k = 3 | k = 4 | k=100 | ||||||||||||||||||||||||
0 | 0 | 0 | 10 | 0 | 0 | 9 | 10 | 0 | 8.1 | 9 | 18.1 | 7.29 | 8.1 | 16.29 | 18.1 | 7.29 | 14.66 | 16.29 | 24.66 | 38.36 | 42.62 | 47.36 | 52.62 | ||||||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 8.1 | 0 | 7.29 | 8.1 | 6.561 | 7.29 | 14.66 | …… | 34.52 | 38.36 | 42.62 | |||||||||||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 7.29 | 0 | 0 | 6.561 | 7.29 | 6.561 | 31.07 | 34.52 | 38.36 | 34.52 | ||||||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 6.561 | 0 | 27.96 | 31.07 | 6.561 | 31.07 |
在80次迭代后逐步收敛,代码后续附上。【在使用动态规划时要注意状态的表达】
II.B. Approximate Dynamic Programming Example 近似动态规划
利用一个连续的函数来近似代替连续状态的未来回报值,不仅可以减小计算量,还可以表示连续的状态空间。上述最短路径问题可以给出重新定义。
x的取值范围可以是0到4上的任意值,原本是一个离散点的查询表,现在使用一个连续的函数来代替,状态转移函数需要重新定义,每一步的移动量为。用0对进行初始化,对状态空间进行采样,例如Figure2(b)中的9的状态样本。状态用表示,每一个状态下的贝尔曼转移方程为:
使用作为的近似拟合值,利用最小二乘法来拟合的超平面,现在问题在于如何构建拟合函数。
1、使用状态x来构建拟合函数,但并不直接使用,而是先构建一系列基函数,也即文中所说的特征量features。
2、使用标准的最小二乘法来计算近似值
Figure2(c)是对的可视化。
【解读】
文中使用线性拟合的方式,事先定义好各种基函数,拟合函数为基函数乘以参数再进行求和(加权和,权重在不断变化)。通过采样可以获得一系列的(状态--未来回报值)的点,利用这些离散的点来进行拟合,方法即为最小二乘法。
III. ADP Applied to Air Combat
将动态规划运用到空战中,只在二维平面内。
III.A. States, Goal, Control Inputs and Dynamics
状态
对系统的状态进行定义,主要包括位置坐标,航向角和倾斜角(坡度)[-180,180]
蓝方的目标是进入和保持对红方的优势区域,优势区域的设计非常简单,使用相对角度和距离来定义,具体计算方法见算法1,图示如Figure8
计算方法:距离为0.1-3m,
仿真间隔 0.25s
动作: 左转、保持、右转
状态转移函数
【没有明白如何计算状态转移的】
红方策略:
最大最小搜索技术,剪枝技术,向下搜索6步。红方策略的目的在于生成双方交互的训练数据,该策略可以被任何其他的合理策略或是智能策略代替。
III.B. Policy Learning
值函数的计算
使用近似的值函数来选择策略
III.C. Feature Development 状态特征
1、状态特征量的选取参考了飞行员的的经验,一般飞行员使用作为评估和决策的依据。
2、可用于构建拟合函数的特征量:
3、最终选取13个作为特征量
III.D. Trajectory Sampling
1、与最短路径问题类似,在状态空间进行采样,采样越密集拟合的越好。
2、论文表示100000个点是比较合理的,一次DP迭代需要60s,
3、利用高斯分布来选择初始状态点,初始的航向角和坡度角的选择符合正态分布
4、轨迹采样如下,红方的轨迹中有很多圆形?
III.E. Reward Shaping
打分函数
k=0.1,R_d = 2
goal function
g_pa为0或1,进入优势区域为1,否则为0。具体定义参考上述算法1.
贝尔曼公式:
III.F. On-line Policy Extraction
使用分类网络来代替红方的策略搜索,以减小时耗
IV. Simulation and Flight Tests
仿真和测试,包含计算机仿真和实物飞行测试。
1、设置测试所需的初始参数,红蓝双方的性能参数
2、如何评估学习到的策略的好坏(构建性能指标)
最后
以上就是无语石头为你收集整理的【论文笔记】Air Combat Strategy using Approximate Dynamic Programming 基于近似动态规划的空战策略论文阅读总结论文阅读分析I. IntroductionII. Approximate Dynamic Programming Method 近似动态规划方法III. ADP Applied to Air CombatIV. Simulation and Flight Tests的全部内容,希望文章能够帮你解决【论文笔记】Air Combat Strategy using Approximate Dynamic Programming 基于近似动态规划的空战策略论文阅读总结论文阅读分析I. IntroductionII. Approximate Dynamic Programming Method 近似动态规划方法III. ADP Applied to Air CombatIV. Simulation and Flight Tests所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复