强化学习(RL)

75 阅读 0 评论 50 点赞

我是靠谱客的博主贪玩羊，这篇文章主要介绍强化学习(RL)，现在分享给大家，希望可以做个参考。

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。——wiki

强化学习在许多学科都有应用，除了AI外，还包括自动化的控制理论，数学中的运筹学和认知科学。

在机器学习中，通常可以分为有监督学习（分类，回归），无监督学习（聚类，降维）和强化学习（无监督数据，只有奖励信号，且奖励信号不一定实时，大部分情况下滞后；研究的非i.i.d【独立同分布数据】，而是time sequence；当前行为会影响后续数据分布）。

强化学习中使用非确定性模型，要求选择一定的行为系列以最大化未来的总体奖励最大化，有时候宁愿牺牲即时（短期）的奖励以获取更多的长期奖励。

两个例子：

以上就是贪玩羊最近收集整理的关于强化学习(RL)的全部内容，更多相关强化学习(RL)内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。