概述
在学习概率论的时候我们都学习过贝叶斯公式,即
贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。
朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是别的大洲的人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
所以朴素贝叶斯分类的基础就是贝叶斯公式,只不过我们得把表达式换一换:
一般来说,整个朴素贝叶斯分类分为三个阶段:
准备工作阶段,任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
我们通过朴素贝叶斯的共识可以发现, 若某个属性值在训练集中没有与某个类同时出现过,那么无论该样本的属性如何,他的概率都是变成零,这在某些情况下是不合理的,这种时候我们就需要进行某种平滑。即拉普拉斯平滑,引入拉普拉斯平滑系数。
使公式变为,m为特征个数。
显然,拉普拉斯修正避免了因训练集不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程所引入的先验的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。
最后
以上就是迷人翅膀为你收集整理的朴素贝叶斯分类算法的全部内容,希望文章能够帮你解决朴素贝叶斯分类算法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复