朴素贝叶斯分类算法

253 阅读 0 评论 167 点赞

我是靠谱客的博主迷人翅膀，这篇文章主要介绍朴素贝叶斯分类算法，现在分享给大家，希望可以做个参考。

在学习概率论的时候我们都学习过贝叶斯公式，即

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是别的大洲的人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

所以朴素贝叶斯分类的基础就是贝叶斯公式，只不过我们得把表达式换一换：

一般来说，整个朴素贝叶斯分类分为三个阶段：

准备工作阶段，任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

我们通过朴素贝叶斯的共识可以发现，若某个属性值在训练集中没有与某个类同时出现过，那么无论该样本的属性如何，他的概率都是变成零，这在某些情况下是不合理的，这种时候我们就需要进行某种平滑。即拉普拉斯平滑，引入拉普拉斯平滑系数。

使公式变为，m为特征个数。

显然，拉普拉斯修正避免了因训练集不充分而导致概率估值为零的问题，并且在训练集变大时，修正过程所引入的先验的影响也会逐渐变得可忽略，使得估值渐趋向于实际概率值。