强化学习7日打卡营-学习小结
我在今年6月份参加了百度的强化学习7日打卡营。我把这几天来的学习简要总结一下。强化学习(RL)分为两部分:agent、enviroment,有三要素:state、action、reward。RL应用于游戏、机器人、推荐、金融、交通等领域。监督学习处理认知问题,强化学习处理决策问题。强化学习有两种学习方案:基于价值(value-based)、基于策略(policy-based)。强化学习环境有算法库PARL和环境库GYM。Sarsa全称是state-action-reward-state'-act