【强化学习1.0】导论 & 多臂赌博机问题(multi-armed bandit)导论:何为强化学习?多臂赌博机问题(multi-armed bandit)
首发于知乎:【强化学习1.0】导论 & 多臂赌博机问题(multi-armed bandit)欢迎关注导论:何为强化学习?强化学习(Reinforcement Learning,下面简称RL)研究的是在交互中学习的方式。通俗来说,就是“做什么能让我们最终的收益最大化”。最常举例的一个场景就是游戏,比如下棋。对于每一步都没有标准答案可供学习,但是最终的收益是固定的,比如胜一场1分、平0分、负一场-1分。因此,一个训练有素的智能体(agent)应该能够总结经验,从而在每一步骤都向着最