我是靠谱客的博主 帅气服饰,最近开发中收集的这篇文章主要介绍基尼系数一,基尼系数定义 ,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

信息量,信息熵,纯度,参考博文:https://blog.csdn.net/u010916338/article/details/91127242

条件熵,信息增益(互信息)参考博文:https://blog.csdn.net/u010916338/article/details/91432832

信息增益率,参考博文:https://blog.csdn.net/u010916338/article/details/94653402

一,基尼系数定义 

解释:如公式所示,p_k代表的是某个属性A(共有K个类)的第k个分类占样本总体的概率。 那么p_k^2指的就是两次取值都属于第k类的概率。sum_{k=1}^{K}p_k^2指的是两次取值都属于同一类的概率。1-sum_{k=1}^{K}p_k^2指的是两次取值不属于同一类的概率。

二,基尼系数意义

                                                                  表一

DayTemperatrueOutlookHumidityWindyPlayGolf?
07-05hotsunnyhighfalseno
07-06hotsunnyhightrueno
07-07hotovercasthighfalseyes
07-09coolrainnormalfalseyes
07-10coolovercastnormaltrueyes
07-12mildsunnyhighfalseno
07-14coolsunnynormalfalseyes
07-15mildrainnormalfalseyes
07-20mildsunnynormaltrueyes
07-21mildovercasthightrueyes
07-22hotovercastnormalfalseyes
07-23mildsunnyhightrueno
07-26coolsunnynormaltrueno
07-30mildsunnyhighfalseyes

                                                                  表二

                Day       Temperatrue               Outlook               Humidity            Windy
07-05  1/14no   1/1hot   4/14yes 2/4sunny      8/14yes   3/8high      7/14  yes   3/7false  8/14yes   6/8
no   2/4no     5/8no     4/7no     2/8
07-06  1/14no   1/1cool  4/14yes  3/4overcast  4/14yes   4/4normal  7/14yes   6/7true  6/14yes  3/6
no    1/4no     0/4no     1/7no    3/6
07-07  1/14yes  1/1mild  6/14yes  4/6rain          2/14yes   2/2    
no    2/6no     0/2
07-09  1/14yes  1/1        
07-10  1/14yes  1/1        
07-12  1/14no   1/1        
07-14  1/14yes  1/1        
07-15  1/14yes  1/1        
07-20  1/14yes  1/1        
07-21  1/14yes  1/1        
07-22  1/14yes  1/1        
07-23  1/14no   1/1        
07-26  1/14no   1/1        
07-30  1/14yes  1/1        

                                                                      表三

                Day TemperatrueOutlookHumidity Windy
基尼系数0.92860.65310.57140.50.4898
信息增益率0.2470.01880.28640.15190.0488
信息增益0.94030.02930.39490.15190.0481

 

(1)以Day作为基准来分析,显然Day是不能作为特征被使用的,决策过程中,他应该排在最后一位。

信息增益把Day列为第一影响因素,显然不合适。

信息增益率一定程度上削弱了Day的影响程度,但是仍然没有将其排到最后。

基尼系数是按照从小到大来筛选的,此时Day已经变成最不重要因素。

 (2)以Outlook,Humidity,Windy作为基准来分析。

信息增益:Day>Outlook>Humidity>Windy>Temperatrue

信息增益率:Outlook>Day>Humidity>Windy>Temperatrue

基尼系数:Windy>Humidity>Outlook>Temperatrue>Day

                                                          表四:排名

                Day TemperatrueOutlookHumidity Windy
基尼系数54321
信息增益率25134
信息增益15234
排名之和814689

总结: 在没加上Day的情况下,Outlook,Humidity,Windy一直都作为主要影响因素排在前几名,不同计算方式名次稍有不同,但整体影响不大。在加上Day的情况下,Day必须排除,只有基尼系数可以做到。

最后

以上就是帅气服饰为你收集整理的基尼系数一,基尼系数定义 的全部内容,希望文章能够帮你解决基尼系数一,基尼系数定义 所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(49)

评论列表共有 0 条评论

立即
投稿
返回
顶部