我是靠谱客的博主 追寻发带,最近开发中收集的这篇文章主要介绍随机森林等机器学习方法的分类和回归问题评价以及哑变量的设置,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、 关于随机森林的回归问题中,比较了原始数据和ilr数据结合所有环境变量和根据importance函数挑选出的重要性较高的部分环境变量,做30次取平均值后得到的表格(以sand为例),并比较了几个评价指标:

RandomForest and GLM regression

INDEX

RandomForest_ilr_all

RandomForest_ilr_part

RandomForest_ogrin_all

GLM

ME

-0.0000000000000011

0.0000000000000034

0.0000000000000033

0.00000000000000148

MAE

10.40466314

10.92294871

10.55936747

11.86528444

MSE

226.5249574

247.0669171

227.0074473

278.896173

RMSE

15.01576303

15.68610575

15.04399931

16.67251019

RR

51.43391097

49.2543858

52.13297887

42.42996682

RRadj

52.23444924

50.02032843

52.94461346

43.08758534

RMSPE

1.690978746

1.779908419

1.842654968

2.126333008

MAPE

0.646936624

0.654470062

0.700718587

0.768215434

 

得到的结论为:

他们的ME都很小,很接近0,RMSE为15左右,都是较好的结果,但是经过对ilr_all和ilr_part的数据结果进行比较后,看出剔除掉重要性不高的环境变量后其指标并没有明显的提高相反还有一些下降,所以说对于回归问题来说,选择全部的环境变量是可靠的,应该全部加上。我们还可以看到在RR中,原始数据的RR值更高,而且在glm的方法中指标并不高,我们在这里使用的为高斯methond,但是由于效果的不好,所以我们可以再接下来的工作中,对数据的分布进行研究。

 

二、对于土壤质地的分类问题中,我运用了随机森林、支持向量机和神经网络的方法进行评价,评价了分类精度和kappa系数的指标(一些方法没有输出混淆矩阵,无kappa系数的指标),得到了以下的指标:

Direct classification

Indirect classification

Index

RandomForesrt

SVM

NNET

RF_orgin_all

RF_origin_part

RFt_ilr_all

Accuracy

64.54231434

63.7133

59.6891

62.60794

61.1399

62.6943

Kappa

0.262840194

0.17278

-

-

-

-

AccuracyLower

0.57361301

0.56514

-

-

-

-

AccuracyUpper

0.71268815

0.70484

-

-

-

-

分析此表格我们可以看出,直接对土壤质地的分类情况,三种分类器中随机森林的分类精度最高为64.5%,kappa系数为0.26,在通过回归方法得到sand_silt_clay的含量后转回到土壤质地类型中的随机森林方法中,用所有环境变量和部分环境变量的准确率相差不大,再与直接分类做比较后,发现准确率有一定的下降,得到结论:在对土壤质地的分类中直接用土壤质地类型进行预测比回归后再进行土壤质地分类要更好。

三、 哑变量的设置

在分类问题或是glm和xgboost中需要对factor的类型进行哑变量的转换,转换方法有以下两种:

1.trainall=read.csv("classT.csv")

index<-sample(1:nrow(trainall), 449)

train<- trainall[index,]

testdata<-trainall[-index, ]

 

q <-model.matrix(~class, train)

##head(cbind(dummyclass,train$class))

2. qq <- class.ind(train$class)

##可直接生成矩阵

找这种方法还需要进一步的研究讨论。

最后

以上就是追寻发带为你收集整理的随机森林等机器学习方法的分类和回归问题评价以及哑变量的设置的全部内容,希望文章能够帮你解决随机森林等机器学习方法的分类和回归问题评价以及哑变量的设置所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部