我是靠谱客的博主 跳跃芝麻,最近开发中收集的这篇文章主要介绍机器学习与概率论的爱恨情仇,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

概率论

  • 事件互斥
  1. 定义

事件A与事件B不可能同时发生,则A、B为互斥事件

  1. 互斥事件的并集

P ( A ∪ B ) = P ( A ) + P ( B ) Pbig( A cup B big) = Pbig(A big) +Pbig(Bbig) P(AB)=P(A)+P(B)

  • 事件独立
  1. 定义

A事件的发生对B事件的发生没有影响

  1. 独立事件的交集运算

P ( A ∩ B ) = p ( A ) ∗ ( B ) Pbig( A cap Bbig)=pbig(Abig)*big(Bbig) P(AB)=p(A)(B)

  • 条件概率
  1. 定义

X事件发生的情况下Y事件发生的概率

  1. 条件概率计算

P ( Y ∣ X ) = P ( X Y ) / P ( X ) Pbig( Y|Xbig)=Pbig( XYbig)/Pbig( Xbig) P(YX)=P(XY)/P(X)

  • 联合概率
  1. 定义

X和Y同时发生的概率 = X先发生的概率乘以X发生的情况下Y发生的概率

  1. 表达式

P ( X Y ) = P ( X ) ∗ P ( Y ∣ X ) Pbig( XYbig)=Pbig(Xbig)*Pbig(Y|Xbig) P(XY)=P(X)P(YX)

  • 贝叶斯公式
  1. 定义

P ( X Y ) = P ( X ∣ Y ) ∗ P ( Y ) = P ( Y ∣ X ) ∗ P ( X ) Pbig(XYbig)=Pbig(X|Ybig)*Pbig(Ybig)=Pbig(Y|Xbig)*Pbig(Xbig) P(XY)=P(XY)P(Y)=P(YX)P(X)

  1. 变形

P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) / P ( X ) Pbig(Y|Xbig)=Pbig(X|Ybig)*Pbig(Ybig)/Pbig(Xbig) P(YX)=P(XY)P(Y)/P(X)

  1. 细节解释

P ( Y ∣ X ) Pbig(Y|Xbig) P(YX)后验概率
P ( Y ) Pbig(Ybig) P(Y) 先验概率

  • 生成模型与判别模型
  1. 目标

P ( Y ∣ X ) Pbig(Y|Xbig) P(YX)

  1. 生成模型

P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) / P ( X ) Pbig(Y|Xbig)=Pbig(X|Ybig)*Pbig(Ybig)/Pbig(Xbig) P(YX)=P(XY)P(Y)/P(X)

  1. 判别模型

P ( Y ∣ X ) Pbig( Y|Xbig) P(YX)

  • 离散随机变量
  1. 伯努利分布: P ( Y = 1 ) = p = 1 − P ( Y = 0 ) = 1 − q Pbig(Y=1big)=p=1-Pbig(Y=0big)=1-q P(Y=1)=p=1P(Y=0)=1q
  2. 多项分布:多次伯努利
  • 期望
  1. 定义

E [ X ] = x 1 p 1 + x 2 p 2 + . . . x n p n E[X]=x_1p_1+x_2p_2+...x_np_n E[X]=x1p1+x2p2+...xnpn

  1. 性质

E [ X + Y ] = E [ X ] + E [ Y ] , E [ a X ] = a E [ X ] E[X+Y]=E[X]+E[Y],E[aX]=aE[X] E[X+Y]=E[X]+E[Y],E[aX]=aE[X]
如果X,Y相互独立,那么 E [ X Y ] = E [ X ] ∗ E [ Y ] E[XY]=E[X]*E[Y] E[XY]=E[X]E[Y]

  • 方差
    假设 μ mu μ为期望, x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn对应的概率为 p 1 , p 2 , . . . p n p_1,p_2,...p_n p1,p2,...pn,那么 X X X的方差(Variance)为:
  1. V a r [ X ] = ( x 1 − μ ) 2 p 1 + . . . + ( x n − μ ) 2 p n Var[X]=big(x_1-mubig)^2p_1+...+big(x_n-mubig)^2p_n Var[X]=(x1μ)2p1+...+(xnμ)2pn
  2. V a r [ X ] = E [ ( X − μ ) 2 ] Var[X]=E[big( X-mubig)^2] Var[X]=E[(Xμ)2]
  3. V a r [ X ] = E [ X 2 ] − E [ X ] 2 Var[X]=E[X^2]-E[X]^2 Var[X]=E[X2]E[X]2
  4. 如果X和Y独立,则 V a r [ X + Y ] = V a r [ X ] + V a r [ Y ] Var[X+Y]=Var[X]+Var[Y] Var[X+Y]=Var[X]+Var[Y]
  • ROC曲线(一般应用于二分类)
  1. 准确率的缺陷

如果数据Label不平衡,则最好不使用准确率
precision=TP/(TP+FP)

  1. 召回率

recall=TPR=TP/(TP+FN)
recall=FPR=FP/(FP+TN)

  1. AOC特指描述的曲线,AUC特指曲线与坐标轴构成的面积

AOC一般以FPR为横坐标,TPR为纵坐标

  • 连续随机变量
  1. 条件: f ( X ) ≥ 0 , X ⊆ Ω , ∫ f ( x ) d x = 1 fbig(Xbig)geq0,XsubseteqOmega,int fbig(xbig)d_x=1 f(X)0,XΩ,f(x)dx=1
  2. 概率: P ( X ⊂ S ) = ∫ s f ( x ) d x Pbig(Xsubset Sbig)=int_sfbig(xbig)d_x P(XS)=sf(x)dx
  3. 期望: E [ X ] = ∫ X f ( X ) d x E[X]=int Xfbig(Xbig)d_x E[X]=Xf(X)dx
  4. 方差: V a r [ X ] = ∫ ( X − μ ) 2 f ( x ) d x Var[X]=intbig(X-mubig)^2fbig(xbig)d_x Var[X]=(Xμ)2f(x)dx
  • 正态分布
  1. 定义
    X   N ( μ , δ 2 ) , f ( X ) = 1 2 π δ 2 e x p ( − 1 2 δ 2 ( x − μ ) 2 ) X~Nbig(mu,delta^2big),fbig(Xbig)=frac{1}{sqrt{2pidelta^2}}expbig(-frac{1}{2delta^2}big(x-mubig)^2big) X N(μ,δ2),f(X)=2πδ2 1exp(2δ21(xμ)2)
  2. 参数
    E ( X ) = μ Ebig(Xbig)=mu E(X)=μ
    V a r [ X ] = δ 2 Var[X]=delta^2 Var[X]=δ2
  • 协方差和相关系数
  1. c o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] covbig(X,Ybig)=E[big(X-Ebig(Xbig)big)big(Y-E[Y]big)]=E[XY]-E[X]E[Y] cov(X,Y)=E[(XE(X))(YE[Y])]=E[XY]E[X]E[Y]
  2. c o v ( X , Y ) = c o v ( X , Y ) V a r ( X ) V a r ( Y ) covbig(X,Ybig)=frac{covbig(X,Ybig)}{sqrt{Varbig(Xbig)Varbig(Ybig)}} cov(X,Y)=Var(X)Var(Y) cov(X,Y)
  • 朴素贝叶斯(假设各因子间相互独立)

P ( Y ∣ X 1 , X 2 , . . . , X n ) = P ( X 1 , X 2 , . . . , X P ∣ Y ) P ( Y ) P ( X 1 , X 2 , . . . , X P ) = P ( X 1 ∣ Y ) P ( X 2 ∣ Y ) . . . P ( X P ∣ Y ) P ( Y ) P ( X 1 , X 2 , . . . . , X P ) Pbig(Y|X_1,X_2,...,X_nbig)=frac{Pbig(X_1,X_2,...,X_P|Ybig)Pbig(Ybig)}{Pbig(X_1,X_2,...,X_Pbig)}=frac{Pbig(X_1|Ybig)Pbig(X_2|Ybig)...Pbig(X_P|Ybig)Pbig(Ybig)}{Pbig(X_1,X_2,....,X_Pbig)} P(YX1,X2,...,Xn)=P(X1,X2,...,XP)P(X1,X2,...,XPY)P(Y)=P(X1,X2,....,XP)P(X1Y)P(X2Y)...P(XPY)P(Y)

  1. 定义
    H ( X ) = − ∑ i P ( X i ) l o g P ( X i ) Hbig(Xbig)=-sum_iPbig(X_ibig)logPbig(X_ibig) H(X)=iP(Xi)logP(Xi)
  2. 含义
    代表不确定性
  • KL 散度 (KL DIVERGENCE)
  1. 定义

给定两个概率分布p,q,定义KL Divergence为:

K L ( p ∣ ∣ q ) = ∑ i p i l o g p i q i KLbig(p||qbig)=sumlimits_{i}p_ilogfrac{p_i}{q_i} KL(pq)=ipilogqipi

  • 互信息
  1. 定义

I ( X , Y ) = K L ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) Ibig(X,Ybig)=KLbig(Pbig(X,Ybig)||Pbig(Xbig)Pbig(Ybig)big) I(X,Y)=KL(P(X,Y)P(X)P(Y))

  1. 性质

I ( X , Y ) ≥ 0 Ibig(X,Ybig)geq0 I(X,Y)0当且仅当 P ( X , Y ) = P ( X ) P ( Y ) Pbig(X,Ybig)=Pbig(Xbig)Pbig(Ybig) P(X,Y)=P(X)P(Y)时, I ( X , Y ) = 0 Ibig(X,Ybig)=0 I(X,Y)=0

I ( X , Y ) = H ( X ) − H ( X ∣ Y ) Ibig(X,Ybig)=Hbig(Xbig)-Hbig(X|Ybig) I(X,Y)=H(X)H(XY)

最后

以上就是跳跃芝麻为你收集整理的机器学习与概率论的爱恨情仇的全部内容,希望文章能够帮你解决机器学习与概率论的爱恨情仇所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部