深度强化学习详解与实例(一)1. 概率论与蒙特卡洛
1. 概率论与蒙特卡洛1.1 概率论基础在强化学习中会反复用到概率质量函数(Probability Mass Function,PMF)或者概率密度函数(Probability Density Function,PDF)。PMF用来描述离散概率分布,例如抛硬币的概率质量函数如下:∑x∈Xp(x)=1\sum_{x \in \mathcal{X}} p(x)=1x∈X∑p(x)=1PDF用来描述连续概率分布,例如正态分布就是一种常见的连续概率分布,随机变量XXX的取值范围是所有实数RRR