2023年06月归档_忐忑酸奶的博客_PHP编程,python编程,系统进程,是什么,机器学习,Other领域博主

【强化学习1.0】导论 & 多臂赌博机问题（multi-armed bandit）导论：何为强化学习？多臂赌博机问题（multi-armed bandit）

首发于知乎：【强化学习1.0】导论 & 多臂赌博机问题（multi-armed bandit）欢迎关注导论：何为强化学习？强化学习（Reinforcement Learning，下面简称RL）研究的是在交互中学习的方式。通俗来说，就是“做什么能让我们最终的收益最大化”。最常举例的一个场景就是游戏，比如下棋。对于每一步都没有标准答案可供学习，但是最终的收益是固定的，比如胜一场1分、平0分、负一场-1分。因此，一个训练有素的智能体（agent）应该能够总结经验，从而在每一步骤都向着最

机器学习 2023-06-30 184 点赞 2 评论 278 浏览

忐忑酸奶

【强化学习1.0】导论 & 多臂赌博机问题（multi-armed bandit）导论：何为强化学习？多臂赌博机问题（multi-armed bandit）

他的专栏

他的归档

热门文章