我是靠谱客的博主 贪玩羊,最近开发中收集的这篇文章主要介绍强化学习(RL),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。——wiki


强化学习在许多学科都有应用,除了AI外,还包括自动化的控制理论,数学中的运筹学和认知科学。

在机器学习中,通常可以分为有监督学习(分类,回归),无监督学习(聚类,降维)和强化学习(无监督数据,只有奖励信号,且奖励信号不一定实时,大部分情况下滞后;研究的非i.i.d【独立同分布数据】,而是time sequence;当前行为会影响后续数据分布)。

强化学习中使用非确定性模型,要求选择一定的行为系列以最大化未来的总体奖励最大化,有时候宁愿牺牲即时(短期)的奖励以获取更多的长期奖励。

两个例子:

最后

以上就是贪玩羊为你收集整理的强化学习(RL)的全部内容,希望文章能够帮你解决强化学习(RL)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(40)

评论列表共有 0 条评论

立即
投稿
返回
顶部