我是靠谱客的博主 爱笑煎蛋,最近开发中收集的这篇文章主要介绍正则化和贝叶斯先验,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

参考自here
事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,Gauss(高斯)先验会导出L2正则化。

高斯分布公式

f ( x ) = 1 2 π δ e x p ( − ( x − μ ) 2 2 δ 2 ) f(x) = frac{1}{sqrt{2π}delta}exp(-frac{(x-mu)^2}{2delta^2}) f(x)=2π δ1exp(2δ2(xμ)2)

最大似然估计

如果数据集 ( X , Y ) (X,Y) (X,Y),并且 Y Y Y是有白噪声(就是与测量得到的 Y Y Y与真实的 Y r e a l Y_{real} Yreal有均值为零的高斯分布误差),目的是用新产生的 X X X来得到 Y Y Y,如果用线性模型来测量,那么有:
f ( x ) = ∑ i ( x i θ i ) + ϵ = X θ T + ϵ f(x) = sum_i(x_itheta_i) + epsilon = Xtheta^T+ epsilon f(x)=i(xiθi)+ϵ=XθT+ϵ
其中 ϵ epsilon ϵ是白噪声,即 ϵ epsilon ϵ服从 N ( 0 , δ 2 ) N(0,delta^2) N(0,δ2)分布。
一对数据集 ( X i , Y i ) (X_i,Y_i) (Xi,Yi)来用,在这个模型中用 X i X_i Xi得到 Y i Y_i Yi的概率是 Y i Y_i Yi服从 N ( f ( X i ) , δ 2 ) N(f(X_i),δ^2) N(f(Xi),δ2):
P ( Y i ∣ X i , θ ) = 1 2 π δ e x p ( − ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 2 δ 2 ) P(Y_i|X_i,theta) = frac{1}{sqrt{2π}delta}exp(-frac{||f(X_i)-Y_i||^2}{2delta^2}) P(YiXi,θ)=2π δ1exp(2δ2f(Xi)Yi2)
假设数据集中每一对数据都是独立的,那么对于数据集来说由 X X X得到 Y Y Y的概率是:
P ( Y i ∣ X i , θ ) = ∏ i 1 2 π δ e x p ( − ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 2 δ 2 ) P(Y_i|X_i,theta) = prod_i frac{1}{sqrt{2π}delta}exp(-frac{||f(X_i)-Y_i||^2}{2delta^2}) P(YiXi,θ)=i2π δ1exp(2δ2f(Xi)Yi2)
根据决策论可知,可以使概率 P ( Y ∣ X , θ ) P(Y|X,theta) P(YX,θ)最大的参数 θ ∗ theta* θ就是最好的参数。那么我们可以直接得到最大似然估计的直观理解:对于一个模型,调整参数 θ theta θ,使得用X得到Y的概率最大。那么 θ theta θ可由下式得到:

θ ∗ = a r g m a x θ ( ∏ i 1 2 π ϵ e x p ( − ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 2 δ 2 ) ) = a r g m a x θ ( − 1 2 δ 2 ∑ i ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 + ∑ i l n ( δ 2 π ) = a r g m i n θ ( ∑ i ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 ) begin{aligned} theta* &= argmax_theta(prod_i frac{1}{sqrt{2π}epsilon}exp(-frac{||f(X_i)-Y_i||^2}{2delta^2})) \ &= argmax_theta(-frac{1}{2delta^2}sum_i||f(X_i)-Y_i||^2+sum_iln(deltasqrt{2π})\ & =argmin_theta(sum_i||f(X_i)-Y_i||^2) \ end{aligned} θ=argmaxθ(i2π ϵ1exp(2δ2f(Xi)Yi2))=argmaxθ(2δ21if(Xi)Yi2+iln(δ2π =argminθ(if(Xi)Yi2)
从最大到最小,中间加了一步 L ( θ ) L(theta) L(θ) l n L ( θ ) lnL(theta) lnL(θ)
这就是最小二乘法计算公式,最小(min)二乘(平方) = 使得平方和最小。

所谓最小二乘,其实也可以叫做最小平方和,其目的就是通过最小化误差的平方和,使得拟合对象无限接近目标对象。换句话说,最小二乘法可以用于对函数的拟合。

拉普拉斯分布

概率密度函数分布为:
f ( x ∣ μ , b ) = 1 2 b e x p ( − ∣ x − μ ∣ b ) f(x|mu,b) = frac{1}{2b}exp(-frac{|x-mu|}{b}) f(xμ,b)=2b1exp(bxμ)
分布图像为:
在这里插入图片描述
可以看到拉普拉斯分布集中在 μ mu μ附近,而且b越小,分布越集中。

拉普拉斯先验

P ( θ i ) = λ 2 e x p ( − λ ∣ θ i ∣ ) P(theta_i) = frac{lambda}{2}exp(-lambda|theta_i|) P(θi)=2λexp(λθi)
其中 λ lambda λ是控制参数 θ theta θ集中情况的超采纳数, λ lambda λ越大,参数的分布就越集中在0附近。
在前面所说的极大似然估计事实上是假设了 θ theta θ是均匀分布的,也就是 P ( θ ) = c o n s t a n t P(theta) = constant P(θ)=constant,我们要最大化后验估计,就是:

最后

以上就是爱笑煎蛋为你收集整理的正则化和贝叶斯先验的全部内容,希望文章能够帮你解决正则化和贝叶斯先验所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部