强化学习——随机策略与策略梯度
1.value-based 与policy-based2.softmax函数3.举例:策略网络输入的是整个图像(向量或矩阵),输出的是3个动作的概率(向量)代表策略输出的概率,在状态s下选择a的概率,由于环境的随机性,不同的策略到不同的环境,这个概率用p来表述,称作状态转移概率。代表智能体在环境s选择动作a后有多少概率去s'(智能体的选择是可以优化的,环境的随机性是无法人为控制的)期望回报:在正常的情况下不会穷举所有的轨迹,且环境转移概率也不易计算,所以当