概述
一、 关于随机森林的回归问题中,比较了原始数据和ilr数据结合所有环境变量和根据importance函数挑选出的重要性较高的部分环境变量,做30次取平均值后得到的表格(以sand为例),并比较了几个评价指标:
RandomForest and GLM regression | ||||
INDEX | RandomForest_ilr_all | RandomForest_ilr_part | RandomForest_ogrin_all | GLM |
ME | -0.0000000000000011 | 0.0000000000000034 | 0.0000000000000033 | 0.00000000000000148 |
MAE | 10.40466314 | 10.92294871 | 10.55936747 | 11.86528444 |
MSE | 226.5249574 | 247.0669171 | 227.0074473 | 278.896173 |
RMSE | 15.01576303 | 15.68610575 | 15.04399931 | 16.67251019 |
RR | 51.43391097 | 49.2543858 | 52.13297887 | 42.42996682 |
RRadj | 52.23444924 | 50.02032843 | 52.94461346 | 43.08758534 |
RMSPE | 1.690978746 | 1.779908419 | 1.842654968 | 2.126333008 |
MAPE | 0.646936624 | 0.654470062 | 0.700718587 | 0.768215434 |
得到的结论为:
他们的ME都很小,很接近0,RMSE为15左右,都是较好的结果,但是经过对ilr_all和ilr_part的数据结果进行比较后,看出剔除掉重要性不高的环境变量后其指标并没有明显的提高相反还有一些下降,所以说对于回归问题来说,选择全部的环境变量是可靠的,应该全部加上。我们还可以看到在RR中,原始数据的RR值更高,而且在glm的方法中指标并不高,我们在这里使用的为高斯methond,但是由于效果的不好,所以我们可以再接下来的工作中,对数据的分布进行研究。
二、对于土壤质地的分类问题中,我运用了随机森林、支持向量机和神经网络的方法进行评价,评价了分类精度和kappa系数的指标(一些方法没有输出混淆矩阵,无kappa系数的指标),得到了以下的指标:
Direct classification | Indirect classification | |||||
Index | RandomForesrt | SVM | NNET | RF_orgin_all | RF_origin_part | RFt_ilr_all |
Accuracy | 64.54231434 | 63.7133 | 59.6891 | 62.60794 | 61.1399 | 62.6943 |
Kappa | 0.262840194 | 0.17278 | - | - | - | - |
AccuracyLower | 0.57361301 | 0.56514 | - | - | - | - |
AccuracyUpper | 0.71268815 | 0.70484 | - | - | - | - |
分析此表格我们可以看出,直接对土壤质地的分类情况,三种分类器中随机森林的分类精度最高为64.5%,kappa系数为0.26,在通过回归方法得到sand_silt_clay的含量后转回到土壤质地类型中的随机森林方法中,用所有环境变量和部分环境变量的准确率相差不大,再与直接分类做比较后,发现准确率有一定的下降,得到结论:在对土壤质地的分类中直接用土壤质地类型进行预测比回归后再进行土壤质地分类要更好。
三、 哑变量的设置
在分类问题或是glm和xgboost中需要对factor的类型进行哑变量的转换,转换方法有以下两种:
1.trainall=read.csv("classT.csv")
index<-sample(1:nrow(trainall), 449)
train<- trainall[index,]
testdata<-trainall[-index, ]
q <-model.matrix(~class, train)
##head(cbind(dummyclass,train$class))
2. qq <- class.ind(train$class)
##可直接生成矩阵
找这种方法还需要进一步的研究讨论。
最后
以上就是追寻发带为你收集整理的随机森林等机器学习方法的分类和回归问题评价以及哑变量的设置的全部内容,希望文章能够帮你解决随机森林等机器学习方法的分类和回归问题评价以及哑变量的设置所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复