我是靠谱客的博主 迷人翅膀,最近开发中收集的这篇文章主要介绍朴素贝叶斯分类算法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在学习概率论的时候我们都学习过贝叶斯公式,即

贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是别的大洲的人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

所以朴素贝叶斯分类的基础就是贝叶斯公式,只不过我们得把表达式换一换:

 

一般来说,整个朴素贝叶斯分类分为三个阶段:

准备工作阶段,任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。



 

我们通过朴素贝叶斯的共识可以发现, 若某个属性值在训练集中没有与某个类同时出现过,那么无论该样本的属性如何,他的概率都是变成零,这在某些情况下是不合理的,这种时候我们就需要进行某种平滑。即拉普拉斯平滑,引入拉普拉斯平滑系数。

使公式变为,m为特征个数。

显然,拉普拉斯修正避免了因训练集不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程所引入的先验的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。

最后

以上就是迷人翅膀为你收集整理的朴素贝叶斯分类算法的全部内容,希望文章能够帮你解决朴素贝叶斯分类算法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部