【机器学习算法】决策树-2 ID3分类树算法的决策依据，ID3算法的4大缺点。

93 阅读 0 评论 62 点赞

我是靠谱客的博主美满裙子，最近开发中收集的这篇文章主要介绍【机器学习算法】决策树-2 ID3分类树算法的决策依据，ID3算法的4大缺点。，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

之前我们的案例，使用准确率作为指标，其实ID3和C4.5，C5.0是用的其他公式来筛选字段。

为什么我们不使用错误率来作为字段好坏的指标呢，因为很多字段的错误率会相同，就说之前的案例，2个字段都是提高5/11。没法细分字段好坏。

ID3公式使用：INmformation信息获利

C4.5/C5.0：Gain Ratio信息获利比例 CART：gini Index CHAID：一种统计量Chi-Square

我们把这种选择的指标叫做goodness function。

1. 1. ID3分类树算法

-ID3的字段选择方法、ID3算法的一些问题。

ID3的goodness function：

我们首先去看这些字段的记录，是不是偏某一类，因为我们倾向用字段进行切割之后，它的结果是偏那一类的。

我们可以发现yes有9个no有5个

我们想看看这9个yes，5个no是不是平均分布，还是偏向某一类。

我们应用化学的一个方法Entropy（熵），来达到上面的想法。

我们的公式是最后一行，负号是为了结果为正数。Entropy是在0~1之间如果Entropy越接近1，那么这个数据就越平均，如果Entropy越接近0，代表它偏向某一类。上面的案例求出的结果是0.940，所以趋近平均分布。最平均肯定是7：7，最不平均就是0:14

我们回到案例

根节点：9:5 entropy=0.94

根据年龄字段进行分割

根据年龄字段进行分割的这一层，entropy的值就是：按各自的比例与各自的entropy乘积。是0.694,。说明它已经偏向某一类了。原本我们的数值的0.94.如果越偏某一类，entropy的值就会越小。

所以我们ID3是运用entropy来表示该字段切割得到效果。

信息获利：40-0.649=0.246.让我的数据偏向某一类的程度。信息获利越大，说明预测结果越准确。

从这个图我们可以看出，左边的表格学生与年级的比例相同，可以拿学生的进行切割，entropy可以直接下降到0

从右边的图我们可以看出，如果用信誉评分来做分割，就可以让entropy下降到0

最终的决策树如下

ID3是不会做减枝条的成立。它会把数据的gain的值降到最低。

ID3的4大缺点：

1.会倾向使用字段的分支最多。（因为分支越多，就越容易把数据区分开。）但其实字段多少，不应该区分字段选择。

比如：

这里面ID没删，它就会把ID分为很多枝。

这样对测试数据有效吗？完全无效

2.ID3假设所有字段都属于类别字段。如果数值型字段不做分箱，它是识别不出来数值型字段。分箱怎么分，也是需要考虑的。

3.ID3假设所有值都不会有空值，有缺失值必须填补后在。C4.5就可以处理

4.它（not prune tree）不进行减枝处理。容易出现过拟合情况。

最后

以上就是美满裙子为你收集整理的【机器学习算法】决策树-2 ID3分类树算法的决策依据，ID3算法的4大缺点。的全部内容，希望文章能够帮你解决【机器学习算法】决策树-2 ID3分类树算法的决策依据，ID3算法的4大缺点。所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：数据分析师
浏览次数：93 次浏览
发布日期：2023-06-26 17:20:01
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_26_f2_13_zgx.html

【机器学习算法】决策树-2 ID3分类树算法的决策依据，ID3算法的4大缺点。

概述

最后

评论列表共有 0 条评论

发表评论取消回复

【机器学习算法】决策树-2 ID3分类树算法的决策依据，ID3算法的4大缺点。

概述

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复