【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
论文题目:Reinforcement Learning with Deep Energy-Based Policies所解决的问题?背景 以往的方法是通过stochastic policy来增加一点exploration,例如增加噪声,或者使用一个entropy很高的policy来对其进行初始化。 在有些情况下我们需要去学习一个stochastic policy,为什么要去学这样...