R 数据的预处理：数据中缺失值（NA）的处理

301 阅读 0 评论 199 点赞

我是靠谱客的博主幽默糖豆，这篇文章主要介绍R 数据的预处理：数据中缺失值（NA）的处理，现在分享给大家，希望可以做个参考。

训练一个机器学习模型，其实大量的时间是花在数据的预处理和探索性数据分析上。尤其是实际中遇到的data都不会太干净，所以花较长的时间来做数据的预处理是很有必要的。

首先来建立一个简单的数据集

library（mice）
name = c（“Andy”，“Helly”，“Ann”，“Ketay”，“Wang”，“Liu”）
country = c（“UK”，“US”，“US”，“US”，“CH”，“CH”）
gender = c（“male”，“female”，NA，“female”，“male”，NA）
age = c（22,19,26,31,45,32）
income = c（12，NA，55,77,32，NA）
data = data.frame（name，country，gender，age，income）
data
# name country gender age income
# 1 Andy UK male 22 12
# 2 Helly US female 19 NA
# 3 Ann US <NA> 26 55
# 4 Ketay US female 31 77
# 5 Wang CH male 45 32
# 6 Liu CH <NA> 32 NA

查找NA

存在NA的rows

complete.cases（data）#当一笔数据是完整的，回传TRUE；当一笔数据有遗漏值，回传FALSE
#[1] TRUE FALSE FALSE TRUE TRUE FALSE

查找缺失值的位置

which（is.na（data））#返回缺失值的位置

计算数据集中有缺失的数据笔数所占比例

loss = sum（is.na（data））#计算数据集中的缺失值总数
have = sum（complete.cases（data））#统计数据集中完整样本的个数
ratio = loss/（loss have）#计算缺失值数据的比重

填补NA

na.omit（）可以删除所有含有缺失数据的row

data1 = na.omit（data）
data1
# name country gender age income
# 1 Andy UK male 22 12
# 4 Ketay US female 31 77
# 5 Wang CH male 45 32

最高频率来填补缺失值.尝试找到这些缺失值最可能的值。

对于变数分布近似正态分布时可以选用平均值；偏态分布一般采用中位数代表数据中心趋势的指标。

# mean_income = mean（data$income）
data2 = data
#一些函式计算时拥有na.rm=TRUE，可以在计算以前移除缺失值并使用剩馀值进行计算
data2[is.na（data2$income），“income”] = mean（data2$income，na.rm = T）#用平均数补充income的缺失值
data2
# name country gender age income
# 1 Andy UK male 22 12
# 2 Helly US female 19 44
# 3 Ann US <NA> 26 55
# 4 Ketay US female 31 77
# 5 Wang CH male 45 32
# 6 Liu CH <NA> 32 44

函式centralImputation（）可以用数据的中心趋势值来填补数据集的所有缺失值

data3 = data
data3$income <- centralImputation（data3$income）

通过变数的相关关系填补缺失值

#函式cor（）的功能是产生变数之间的相关值矩阵，参数use =“complete.obs”可以忽略含有NA的记录
cor（data[，c（“age”，“income”）]，use =“complete.obs”）# =cor（data[，4:5]，use =“complete.obs”）
# age income
# age 1.00000000 0.07670152
# income 0.07670152 1.00000000
lm（age~income，data = data）
#函式lm（）可以用来获取线性模型
#可以使用上述线性关系计算变数的缺失值

用K-Nearest Neighbours填补遗漏值

require（DMwR）
imputeData <- knnImputation（data）

一个无聊的数据分析公众号，时常有一些脑洞的实例分析。
让我们一起学习，打通各种技能！
file

本文由博客一文多发平台 OpenWrite 发布！

最后

以上就是幽默糖豆最近收集整理的关于R 数据的预处理：数据中缺失值（NA）的处理的全部内容，更多相关R内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：R 数据科学
浏览次数：301 次浏览
发布日期：2024-05-04 12:40:01

通过 blast 结果查看测序数据fastq是否被污染，以及污染reads所属物种、所占比例

【R 语言】根据列名寻找列在数据框内所在位置

带你和Python与R一起玩转数据科学: 探索性数据分析（附代码）

R语言矩阵操作：根据值找到行号和列号

R 数据的预处理：数据中缺失值（NA）的处理

R语言使用rowMeans函数、rowSums计算dataframe中的所有数据行的行数据平均值和加和（数据列函数类似）、设置na.rm = TRUE的计算结果R语言使用rowMeans函数、rowSums计算dataframe中的所有数据行的行数据平均值和加和（数据列函数类似）、设置na.rm = TRUE的计算结果

R 数据的预处理：数据中缺失值（NA）的处理

查找NA

填补NA

最后

评论列表共有 0 条评论

发表评论取消回复

R 数据的预处理：数据中缺失值（NA）的处理

查找NA

填补NA

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复