2024年09月归档_老迟到糖豆的博客_PHP编程,JavaScript,python编程,DOS编程,Windows 2008,CF & 练习赛,Other,强化学习,mysql领域博主

强化学习笔记：强化学习的约束1 所需的样本数量过大2 探索阶段代价太大3 超参数的影响非常大4 实验效果严重依赖于实现的好坏5 实验对比的可靠性问题6 稳定性极差

再举几个例子。AlphaGo Zero 用了 2 千 9 百万局自我博弈，每一局约有 100 个状态和动作。TD3 算法在 MuJoCo 物理仿真环境中训练 Half-Cheetah、Ant、Hopper 等模拟机器人，虽然只有几个关节需要控制，但是在样本数量 100 万时尚未收敛。甚至连 Pendulum、Reacher 这种只有一两个关节的最简单的控制问题，TD3 也需要超过 10 万个样本。神经网络结构超参数包括层的数量、宽度、激活函数，这些都对结果有很大影响。...

强化学习 2024-09-17 174 点赞 2 评论 263 浏览

老迟到糖豆

强化学习笔记：强化学习的约束1 所需的样本数量过大2 探索阶段代价太大3 超参数的影响非常大4 实验效果严重依赖于实现的好坏5 实验对比的可靠性问题6 稳定性极差

他的专栏

他的归档

热门文章