强化学习笔记:强化学习的约束1 所需的样本数量过大2 探索阶段代价太大3 超参数的影响非常大4 实验效果严重依赖于实现的好坏5 实验对比的可靠性问题6 稳定性极差
再举几个例子。AlphaGo Zero 用了 2 千 9 百万局自我博弈,每一局约有 100 个状态和动作。TD3 算法 在 MuJoCo 物理仿真环境中训练 Half-Cheetah、Ant、Hopper 等模拟机器人,虽然只有几个关节需要控制,但是在样本数量 100 万时尚未收敛。甚至 连 Pendulum、Reacher 这种只有一两个关节的最简单的控制问题,TD3 也需要超过 10 万 个样本。 神经网络结构超参数包括层的数量、宽度、激活函数,这些都对结果有很大影响。...