概述
信息量,信息熵,纯度,参考博文:https://blog.csdn.net/u010916338/article/details/91127242
条件熵,信息增益(互信息)参考博文:https://blog.csdn.net/u010916338/article/details/91432832
信息增益率,参考博文:https://blog.csdn.net/u010916338/article/details/94653402
一,基尼系数定义
解释:如公式所示,代表的是某个属性A(共有个类)的第个分类占样本总体的概率。 那么指的就是两次取值都属于第类的概率。指的是两次取值都属于同一类的概率。指的是两次取值不属于同一类的概率。
二,基尼系数意义
表一
Day | Temperatrue | Outlook | Humidity | Windy | PlayGolf? |
---|---|---|---|---|---|
07-05 | hot | sunny | high | false | no |
07-06 | hot | sunny | high | true | no |
07-07 | hot | overcast | high | false | yes |
07-09 | cool | rain | normal | false | yes |
07-10 | cool | overcast | normal | true | yes |
07-12 | mild | sunny | high | false | no |
07-14 | cool | sunny | normal | false | yes |
07-15 | mild | rain | normal | false | yes |
07-20 | mild | sunny | normal | true | yes |
07-21 | mild | overcast | high | true | yes |
07-22 | hot | overcast | normal | false | yes |
07-23 | mild | sunny | high | true | no |
07-26 | cool | sunny | normal | true | no |
07-30 | mild | sunny | high | false | yes |
表二
Day | Temperatrue | Outlook | Humidity | Windy | |||||
---|---|---|---|---|---|---|---|---|---|
07-05 1/14 | no 1/1 | hot 4/14 | yes 2/4 | sunny 8/14 | yes 3/8 | high 7/14 | yes 3/7 | false 8/14 | yes 6/8 |
no 2/4 | no 5/8 | no 4/7 | no 2/8 | ||||||
07-06 1/14 | no 1/1 | cool 4/14 | yes 3/4 | overcast 4/14 | yes 4/4 | normal 7/14 | yes 6/7 | true 6/14 | yes 3/6 |
no 1/4 | no 0/4 | no 1/7 | no 3/6 | ||||||
07-07 1/14 | yes 1/1 | mild 6/14 | yes 4/6 | rain 2/14 | yes 2/2 | ||||
no 2/6 | no 0/2 | ||||||||
07-09 1/14 | yes 1/1 | ||||||||
07-10 1/14 | yes 1/1 | ||||||||
07-12 1/14 | no 1/1 | ||||||||
07-14 1/14 | yes 1/1 | ||||||||
07-15 1/14 | yes 1/1 | ||||||||
07-20 1/14 | yes 1/1 | ||||||||
07-21 1/14 | yes 1/1 | ||||||||
07-22 1/14 | yes 1/1 | ||||||||
07-23 1/14 | no 1/1 | ||||||||
07-26 1/14 | no 1/1 | ||||||||
07-30 1/14 | yes 1/1 |
表三
Day | Temperatrue | Outlook | Humidity | Windy | ||||||
基尼系数 | 0.9286 | 0.6531 | 0.5714 | 0.5 | 0.4898 | |||||
信息增益率 | 0.247 | 0.0188 | 0.2864 | 0.1519 | 0.0488 | |||||
信息增益 | 0.9403 | 0.0293 | 0.3949 | 0.1519 | 0.0481 |
(1)以Day作为基准来分析,显然Day是不能作为特征被使用的,决策过程中,他应该排在最后一位。
信息增益把Day列为第一影响因素,显然不合适。
信息增益率一定程度上削弱了Day的影响程度,但是仍然没有将其排到最后。
基尼系数是按照从小到大来筛选的,此时Day已经变成最不重要因素。
(2)以Outlook,Humidity,Windy作为基准来分析。
信息增益:Day>Outlook>Humidity>Windy>Temperatrue
信息增益率:Outlook>Day>Humidity>Windy>Temperatrue
基尼系数:Windy>Humidity>Outlook>Temperatrue>Day
表四:排名
Day | Temperatrue | Outlook | Humidity | Windy | ||||||
基尼系数 | 5 | 4 | 3 | 2 | 1 | |||||
信息增益率 | 2 | 5 | 1 | 3 | 4 | |||||
信息增益 | 1 | 5 | 2 | 3 | 4 | |||||
排名之和 | 8 | 14 | 6 | 8 | 9 |
总结: 在没加上Day的情况下,Outlook,Humidity,Windy一直都作为主要影响因素排在前几名,不同计算方式名次稍有不同,但整体影响不大。在加上Day的情况下,Day必须排除,只有基尼系数可以做到。
最后
以上就是帅气服饰为你收集整理的基尼系数一,基尼系数定义 的全部内容,希望文章能够帮你解决基尼系数一,基尼系数定义 所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复