陶醉酸奶

文章
9
资源
0
加入时间
3年1月20天

深度强化学习详解与实例(一)1. 概率论与蒙特卡洛

1. 概率论与蒙特卡洛1.1 概率论基础在强化学习中会反复用到概率质量函数(Probability Mass Function,PMF)或者概率密度函数(Probability Density Function,PDF)。PMF用来描述离散概率分布,例如抛硬币的概率质量函数如下:∑x∈Xp(x)=1\sum_{x \in \mathcal{X}} p(x)=1x∈X∑​p(x)=1PDF用来描述连续概率分布,例如正态分布就是一种常见的连续概率分布,随机变量XXX的取值范围是所有实数RRR