漂亮钥匙

文章
3
资源
0
加入时间
2年10月21天

【李弘毅深度强化学习】 5.Q-learning (Continuous Action)

Q Learning是一种很好的方法,但是q learning很难处理连续动作的情况。因为q学习是基于值得,如果动作连续,q表太大,则很难计算。但是凡是问题都有解决的方法,如何解决Q Learning难以应对连续动作得问题呢!解决方法一:在连续得动作中,我们sample采样出一部分n个,将其变成有限动作的问题。但是这种方法的缺点就是采样不完整,可能会造成以后的问题解决方法二:我们用...

很可爱的输入框

<!DOCTYPEhtmlPUBLIC"- W3C DTDXHTML1 0Transitional EN""http: www w3 org TR xhtml1 DTD xhtml1-transitio