强化学习 # 概述强化学习算法分类图概述学术性的导入代码实现:Reference
博主在学习强化学习和深度强化学习中对RL/DRL的归纳总结。1 Introduction强化学习的关键是:exploitation(利用) 和 exploration (探索),也可以解读为trial和reward。和监督学习算法的区别是:监督学习:已知数据、标签强化学习:一开始没有标签,通过try获得data和labelRL的一些基本算法:通过行为的价值来选取特定行为的方法, 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network,.