决策树详解(三)1.对于分类树,大量的正常数据在其中之混杂着一个两个的异常数据,所以分类结果很可能认为出现的数据都是正常的。2.某些样本缺失某个特征属性,但该特征属性又是最佳分叉属性,如何对该样本进行分叉?3.过拟合
训练决策树有三个关键问题:1.对于分类树,大量的正常数据在其中之混杂着一个两个的异常数据,所以分类结果很可能认为出现的数据都是正常的。为了避免这种情况的出现,我们设置先验概率(例如根据今天的天气,来预测明天的天气),异常出现的情况,我们人为进行增加,这样决策树就会被适当的增加。设Qj为设置的第j个先验概率,Nj为该分类的样本数,则考虑了样本率并进行归一化处理的先验概率qj为: ...