概述
最近一直在看用cv的方法进行轨迹预测,大老板说也许可以用强化学习来做,于是读了21年的 “Deep Reinforcement Learning for Autonomous Driving: A Survey” 这篇文章。这里对文章进行了简单的概括分享,作为我之后工作的一个基础,也希望能帮助到同样做自动驾驶的同学。
原文链接:https://ieeexplore.ieee.org/document/9351818
监督学习不适合自动驾驶任务
机器学习分为监督学习、非监督学习以及强化学习(RL)。自动驾驶研究是一个解决序列决策的问题,得到的最优行动就等于强化学习中的策略。而监督学习不适用于这类研究,原因如下:
- 智能体的行为预测改变了未来传感器从环境中接收到的观察结果;
- 碰撞时间等参数在环境中不确定。需要最大化的随机代价函数来解决;
- 学习的环境时刻在变化。有些任务要在驾驶的每一刻预测最优,就要一直学习环境的新配置。
自动驾驶的感知模块(perception module)
- 车道位置;
- 可行驶区域;
- 车辆、行人;
- 交通灯状态。
以上的这些从感知模块中获得,为中级抽象表示,经过Scene Understanding生成高级动作或决策模块。这个过程包括场景理解、决策以及规划,而且这个过程往往综合了激光雷达、相机以及雷达所获得的信息。
自动驾驶的控制器
控制器基于经典最优控制理论。其从预先确定的地图或专家驾驶记录获得路径上每个点所需的速度,转向角度,制动动作。
强化学习的一些基础概念
- 一个奖励函数 r 评估一个智能体(agent)的表现;
- 用ε-greedy和softmax来管理权衡策略以达到探索未知东西的目的;
- 马尔可夫决策过程(MDPs)用来解决单个智能体的序列决策问题。
应用强化学习可以应用在控制器优化、路径优化、高级驾驶策略开发、交叉口合并与分割策略学习等任务。深度强化学习(DRL)包括状态空间、行动空间和奖励功能。在自动驾驶这个课题下,状态空间就是自己车辆的位置、方向和速度,以及其它障碍物。
已有的自动驾驶(AD)任务
- 车道保持;
- 车道改变;
- 斜坡合并;
- 超车;
- 十字路口;
- 运动规划。
设计自动驾驶的奖励函数仍然是一个非常开放的问题,因为会受速度、人行道等因素的影响。
自动驾驶安全政策
已有系统对失去控制、看不见的障碍物作出反应。此时的外在奖励是专家,内在奖励是预测的误差。用多智能体强化学习(MARL)制定自动驾驶安全策略,可以应用于平衡高速公路上的超车行为,通过没有信号控制的十字路口等。
未来挑战
作者认为多智能体在自动驾驶领域会有更大的发展空间。
最后
以上就是背后绿茶为你收集整理的强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey的全部内容,希望文章能够帮你解决强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复