我是靠谱客的博主 结实钢笔,最近开发中收集的这篇文章主要介绍R语言生成频数表和列联表crosstable函数讲解,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

列联表crosstable

列联表不仅可以用来做简单的描述性统计,还可以在机器学习中用来比较识别正确率,FPR,TPR等等数据,以便我们比较不同的ML模型 or 调参。

2x2列联表一般长下面这样:

Total Observations in Table:
143
| test_cancer$diagnosis
lda.class |
0 |
1 | Row Total |
-------------|-----------|-----------|-----------|
0 |
82 |
11 |
93 |
|
0.882 |
0.118 |
0.650 |
|
0.988 |
0.183 |
|
|
0.573 |
0.077 |
|
-------------|-----------|-----------|-----------|
1 |
1 |
49 |
50 |
|
0.020 |
0.980 |
0.350 |
|
0.012 |
0.817 |
|
|
0.007 |
0.343 |
|
-------------|-----------|-----------|-----------|
Column Total |
83 |
60 |
143 |
|
0.580 |
0.420 |
|
-------------|-----------|-----------|-----------|

创建列联表crosstable

推荐使用R中“gmodels”包的CrossTable()函数来做。

举例

## 使用knn模型做预测
knn_pred_1 = knn(train_cancer[,2:4], test_cancer[,2:4], train_cancer$diagnosis, k=1)
## 创建列联表看预测效果
CrossTable(x = knn_pred_1, y = test_cancer$diagnosis, prop.chisq = FALSE)
>
Cell Contents
|-------------------------|
|
N |
|
N / Row Total |
|
N / Col Total |
|
N / Table Total |
|-------------------------|
Total Observations in Table:
143
| test_cancer$diagnosis
knn_pred_1 |
0 |
1 | Row Total |
-------------|-----------|-----------|-----------|
0 |
77 |
8 |
85 |
|
0.906 |
0.094 |
0.594 |
|
0.928 |
0.133 |
|
|
0.538 |
0.056 |
|
-------------|-----------|-----------|-----------|
1 |
6 |
52 |
58 |
|
0.103 |
0.897 |
0.406 |
|
0.072 |
0.867 |
|
|
0.042 |
0.364 |
|
-------------|-----------|-----------|-----------|
Column Total |
83 |
60 |
143 |
|
0.580 |
0.420 |
|
-------------|-----------|-----------|-----------|

注意事项

在crosstable函数中,prop.chisq 这个argument默认是true,但实际上大部分使用场景不需要这个卡方概率,所以可以单独在函数中设置prop.chisq = FALSE

函数语法

CrossTable(x, y, digits=3, max.width = 5, expected=FALSE, prop.r=TRUE, prop.c=TRUE,
prop.t=TRUE, prop.chisq=TRUE, chisq = FALSE, fisher=FALSE, mcnemar=FALSE,
resid=FALSE, sresid=FALSE, asresid=FALSE,
missing.include=FALSE,
format=c("SAS","SPSS"), dnn = NULL, ...)

参数说明:

x,y:列联表的两个特征向量
digit:指定结果小数位数
prop.r:行比例是否加入
prop.c:列比例是否加入
prop.t:表比例是否加入
prop.chisq:每个单元的卡方值是否加入
chisq:卡方检验结果是否加入

频数表

频数表给出了各个特征值出现的频数,下面使用R自带的数据集“CO2”举例

head(CO2)
#得到“conc”特征的频数表
table(CO2$conc)

结果:

95 175 250 350 500 675 1000
12 12 12 12 12 12 12

最后

以上就是结实钢笔为你收集整理的R语言生成频数表和列联表crosstable函数讲解的全部内容,希望文章能够帮你解决R语言生成频数表和列联表crosstable函数讲解所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(36)

评论列表共有 0 条评论

立即
投稿
返回
顶部