我是靠谱客的博主 大力大白,最近开发中收集的这篇文章主要介绍学习理论-贝叶斯统计和正则化,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

之前为了降低产生过拟合的可能性,我们从样本的所有属性中选取一部分属性集用以训练模型,这里介绍一种防止过拟合的不同的方法—正则化,它将会保留所有属性。

之前我们一直是通过求最大似然值确定参数(maximum likelihood (ML)):
这里写图片描述
上式中的 θ 是基于频率学派(frequentist)的观点对待的,频率学派认为, θ 是一个固定不变的常量,只是我们现在还不知道它的值,而我们的目的就是基于统计学原理获得 θ 的近似值。
然而,贝叶斯学派(Bayesian)对于 θ 的观点与频率学派的观点是不同的,它们认为, θ 是一个未知的随机变量,因此可以给出关于 θ 分布情况的先验概率 p(θ) ,例如 θ 可能满足高斯分布等等(这是一种假设或者说是统计结果,此时并未考虑我们的训练样本).给定训练样本集 S={(x(i),y(i))}mi=1 , 我们可以求θ的后验概率:
这里写图片描述
注:
1、显然 θ 是一个向量,包含了 θ1,θ2...,θm .
2、 θ1,θ2...,θm 已经是从贝叶斯学派的角度对待,它已经不是一个固定的值,而是“有很多可能值”,例如 θ1 可以是服从正态分布的连续变量。
3、上式中,分母处的积分是对向量 θ 中的元素 θ1,θ2...,θm 积分的简写。是一个高维积分。
4、 p(y(i)|x(i),θ) 依赖于所选择的模型,如果是逻辑回归 p(y(i)|x(i),θ)=hθ(x(i))y(i)(1hθ(x(i)))1y(i) .其中 hθ(x(i))=11+eθTx(i)

如果新来一个样例特征为 x,那么为了预测 y。我们可以使用下面的公式:
这里写图片描述
p(θ|S) 由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:
这里写图片描述

注:
大多数时候我们只需求使得 p(y|x,S) 中最大的 y 即可(在 y 是离散值的情况下)。这次求解 p(y|x,S) 与之前的方式不同,以前是先求 θ ,然后直接预测,这次是对所有可能的θ作积分。

在频率学派中最大似然估计没有将 θ 视作y 的估计参数,认为 θ 是一个常数,只是未知其值而已,比如我们经常使用常数 c作为 y=2x+c 的后缀一样。因此对于 p(y(i)|x(i);θ) 中的 θ ,对极大似然估计求导后,可以求出一个确定的值 θ
而贝叶斯估计将θ视为随机变量, θ 的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。
然而在上述贝叶斯估计方法中, 虽然公式合理优美,但后验概率p(θ|S)很难计算,看其公式知道计算分母时需要在所有的 θ 上作积分,然而对于一个高维的θ来说,枚举其所有的可能性太难了。

因此,为了近似的代替 θ 的后验概率分布,我们一般使用中单点估计代替,这种方法称为最大
后验概率估计(MAP (maximuma posteriori) estimate ):
这里写图片描述
可以看出,这与我们之前的最大似然值公式很相似,只是后面多了一个关于 θ 的先验概率。
一般情况下我们认为 θN(0,τ2I) .
其实我觉得 p(θ) 可以理解为权重,对于一些噪音属性, p(θ) 小,权重小。。。不知可否。

最后

以上就是大力大白为你收集整理的学习理论-贝叶斯统计和正则化的全部内容,希望文章能够帮你解决学习理论-贝叶斯统计和正则化所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(33)

评论列表共有 0 条评论

立即
投稿
返回
顶部