强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey

212 阅读 0 评论 140 点赞

我是靠谱客的博主背后绿茶，这篇文章主要介绍强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey，现在分享给大家，希望可以做个参考。

最近一直在看用cv的方法进行轨迹预测，大老板说也许可以用强化学习来做，于是读了21年的 “Deep Reinforcement Learning for Autonomous Driving: A Survey” 这篇文章。这里对文章进行了简单的概括分享，作为我之后工作的一个基础，也希望能帮助到同样做自动驾驶的同学。

原文链接：https://ieeexplore.ieee.org/document/9351818

监督学习不适合自动驾驶任务

机器学习分为监督学习、非监督学习以及强化学习（RL）。自动驾驶研究是一个解决序列决策的问题，得到的最优行动就等于强化学习中的策略。而监督学习不适用于这类研究，原因如下：

智能体的行为预测改变了未来传感器从环境中接收到的观察结果；
碰撞时间等参数在环境中不确定。需要最大化的随机代价函数来解决；
学习的环境时刻在变化。有些任务要在驾驶的每一刻预测最优，就要一直学习环境的新配置。

自动驾驶的感知模块（perception module）

车道位置；
可行驶区域；
车辆、行人；
交通灯状态。

以上的这些从感知模块中获得，为中级抽象表示，经过Scene Understanding生成高级动作或决策模块。这个过程包括场景理解、决策以及规划，而且这个过程往往综合了激光雷达、相机以及雷达所获得的信息。

自动驾驶的控制器

控制器基于经典最优控制理论。其从预先确定的地图或专家驾驶记录获得路径上每个点所需的速度，转向角度，制动动作。

强化学习的一些基础概念

一个奖励函数 r 评估一个智能体（agent）的表现；
用ε-greedy和softmax来管理权衡策略以达到探索未知东西的目的；
马尔可夫决策过程（MDPs）用来解决单个智能体的序列决策问题。

应用强化学习可以应用在控制器优化、路径优化、高级驾驶策略开发、交叉口合并与分割策略学习等任务。深度强化学习（DRL）包括状态空间、行动空间和奖励功能。在自动驾驶这个课题下，状态空间就是自己车辆的位置、方向和速度，以及其它障碍物。

已有的自动驾驶（AD）任务

车道保持；
车道改变；
斜坡合并；
超车；
十字路口；
运动规划。

设计自动驾驶的奖励函数仍然是一个非常开放的问题，因为会受速度、人行道等因素的影响。

自动驾驶安全政策

已有系统对失去控制、看不见的障碍物作出反应。此时的外在奖励是专家，内在奖励是预测的误差。用多智能体强化学习（MARL）制定自动驾驶安全策略，可以应用于平衡高速公路上的超车行为，通过没有信号控制的十字路口等。

未来挑战

作者认为多智能体在自动驾驶领域会有更大的发展空间。

最后

以上就是背后绿茶最近收集整理的关于强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey的全部内容，更多相关强化学习与自动驾驶-Deep内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：机器学习
浏览次数：212 次浏览
发布日期：2023-03-08 13:44:01
本文链接：https://www.kaopuke.com/article/k-p-k_14_ujo_6_fw_13_j_22_y.html

强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey

监督学习不适合自动驾驶任务

自动驾驶的感知模块（perception module）

自动驾驶的控制器

强化学习的一些基础概念

已有的自动驾驶（AD）任务

自动驾驶安全政策

未来挑战

最后

评论列表共有 0 条评论

发表评论取消回复

强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey

监督学习不适合自动驾驶任务

自动驾驶的感知模块（perception module）

自动驾驶的控制器

强化学习的一些基础概念

已有的自动驾驶（AD）任务

自动驾驶安全政策

未来挑战

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复