机器学习概率论相关知识了解一下

74 阅读 0 评论 49 点赞

我是靠谱客的博主玩命河马，这篇文章主要介绍机器学习概率论相关知识了解一下，现在分享给大家，希望可以做个参考。

条件概率和独立

如果A发生的概率依赖于B，所以A和B同时发生的概率： P(AB)=P(A|B)P(B) P ( A B ) = P ( A | B ) P ( B ) ；如果用 P(A|B¯¯¯¯) P ( A | B ¯ ) 表示B不发生时A发生的概率，则 P(A)=P(A|B)P(B)+P(A|B¯¯¯¯)(1−P(B)) P ( A ) = P ( A | B ) P ( B ) + P ( A | B ¯ ) ( 1 − P ( B ) ) ;
如果A发生的概率和B毫无关系， P(A|B)=P(A)P(B) P ( A | B ) = P ( A ) P ( B )

期望值和方差、协方差

期望值：变量值与其对应概率的乘积在整个定义域的求和，通俗点说，就是在长时间重复观测下，目标数据的平均值。 E[X]=∑ni=1xiP(xi) E [ X ] = ∑ i = 1 n x i P ( x i )
方差： Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2 V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 ，度量的是当个变量的离散程度。
协方差： cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y] c o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] ,衡量的是两个变量离散程度的大小以及相互之间的趋势的一致性。当x大于E[X]时，y也大于E[Y]，则协方差大于0，若趋势相反则小于0，如果没有什么关联，则协方差会接近0.所以协方差实际上包含了两个变量之间的统计相关性。
协方差矩阵：实际应用中，通常 X1,X2,...,Xn X 1 , X 2 , . . . , X n 一组变量，其协方差矩阵定义为：

$\sum = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ c o v (X 1, X 1) c o v (X 2, X 1) ⋮ c o v (X n, X 1) c o v (X 1, X 2) c o v (X 2, X 2) ⋮ c o v (X n, X 2) . . . . . . ⋱ \dots c o v (X 1, X n) c o v (X 2, X n) ⋮ c o v (X n, X n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \sum = [ c o v ( X 1 , X 1 ) c o v ( X 1 , X 2 ) . . . c o v ( X 1 , X n ) c o v ( X 2 , X 1 ) c o v ( X 2 , X 2 ) . . . c o v ( X 2 , X n ) ⋮ ⋮ ⋱ ⋮ c o v ( X n , X 1 ) c o v ( X n , X 2 ) \dots c o v ( X n , X n ) ]$
协方差矩阵可以描述方差，还有变量间的趋势相关性，不过不同维度的协方差一栏与两个维度的方差大小，所以可以采用相关系数矩阵，相关性系数矩阵的值等效于将数据做了方差归一化之后的协方差矩阵的值。

熵

衡量分布的无序程度

$H (X) = E [- log 2 (P (X))] = - \sum i = 1 n P (X i) log 2 (P (x i)) H ( X ) = E [ - log 2 ( P ( X ) ) ] = - \sum i = 1 n P ( X i ) log 2 ( P ( x i ) )$

最大似然估计

似然函数： L(Θ|X)=P(X|Θ) L ( Θ | X ) = P ( X | Θ ) ，即给定了观测数据和分布形式，把分布参数作为输入，得到在该组参数下观测到的数据x在该分布下的概率。
所以，如果给定观测的数据和分布，如何才能找到一组参数，让分布和数据最大程度的拟合？

$Θ^= a r g Θ m a x [L (Θ | X)] = a r g Θ m a x [\prod i = 1 n P (x i | Θ)] Θ ^ = a r g Θ m a x [ L ( Θ | X ) ] = a r g Θ m a x [ \prod i = 1 n P ( x i | Θ ) ]$