我是靠谱客的博主 传统舞蹈,这篇文章主要介绍C51,现在分享给大家,希望可以做个参考。

C51 是一种对策略梯度 (Policy Gradient) 的改进算法。它通过使用离散分布来增强了 Q-Learning 算法的表示能力,并且在强化学习领域中取得了较好的效果。

最后

以上就是传统舞蹈最近收集整理的关于C51的全部内容,更多相关C51内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(71)

评论列表共有 0 条评论

立即
投稿
返回
顶部