机器学习特征选择之卡方检验与互信息

413 阅读 0 评论 273 点赞

我是靠谱客的博主雪白冰棍，这篇文章主要介绍机器学习特征选择之卡方检验与互信息，现在分享给大家，希望可以做个参考。

本文转载于：https://blog.csdn.net/yihucha166/article/details/50646615

特征选择的主要目的有两点：

1. 减少特征数量提高训练速度，这点对于一些复杂模型来说尤其重要

2. 减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化（generalization），从而在测试集中表现较差。另外从模型复杂度的角度来看，特征越多模型的复杂度越高，也就越容易发生overfitting。

互信息（Mutual information）和卡方检验（chisquare）是两种比较常用的特征选择方法：

互信息

互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量，具体的计算公式为：

其中U、C代表两个事件，e的取值可以为0或者1，1代表出现这个事件，0代表不出现。

把上述公式拆解为统计形式为：

其中N11是表示全部数据中两个事件同时出现的概率，N表示全部事件出现的次数，而N0.则表示N01+N00。

实际做单特征选择的时候，我们把某个特征是否出现和分类是否正确这两个事件放在一起计算。把得分较高的特征进行保留。

需要注意的是计算时会遇到四种情况也就是，10,11,01,00，对于其中的某一种情况，当计算得到的值是0时，代表了两者没有关联，当计算出的值是正值时，表示两者共同出现的概率比较高，当值为负时，表示两者是负相关。例如：00情况是负值是，表示两者互相排斥，出现A时，B出现的概率就比较小，这个时候往往01情况和10情况的值为正（check）