C51 是一种对策略梯度 (Policy Gradient) 的改进算法。它通过使用离散分布来增强了 Q-Learning 算法的表示能力,并且在强化学习领域中取得了较好的效果。
以上就是传统舞蹈最近收集整理的关于C51的全部内容,更多相关C51内容请搜索靠谱客的其他文章。
发表评论 取消回复