我是靠谱客的博主 温柔海燕,这篇文章主要介绍R的数据操作基础(一)——变量操作与数值处理,现在分享给大家,希望可以做个参考。

在掌握数据的结构和导入之后(参见R的数据结构与导入),我们开始对数据进行操作处理,在本次笔记中我们使用一个5行10列的,主题是“领导行为的性别差异”的简单数据集,q1-q5是五项服从力评分,分数没有显著的优劣性。年龄=99代表缺失。整个数据集如下:
在这里插入图片描述
下文我们用le(leadship)的数据框变量来承载这个数据集。

变量操作

新变量

创建新变量的格式是变量名 <- 表达式,除了四则运算以外,**^**表示求幂,x%%y表示求余(x mod y),x%/%y表示整数除法(x div y)。比如我们想要求出Q1+Q2的和,并把这一列并入原数据框中,那么有如下几种办法:

复制代码
1
2
3
4
5
6
7
8
le$sum <- le$Q1+le$Q2 sumQ <- le$Q1+le$Q2 le <- cbind(le,sumQ) #按行合并 le <- transform(le, sum = Q1+Q2) #这里只能用等于号

不同方法有不同特点,第一个最简单,但是容易写得冗长;第二个要注意行列合并的特点,第三个使用了transform(),注意内部只能使用=

重编码

利用逻辑运算可以对数据框中的变量进行重编码,下面给出一些逻辑运算:

复制代码
1
2
3
< ; <= ; > ; >= ; == ; != #分别是小于、小于等于、大于、大于等于、严格相等(浮点型慎用)、不相等 !x ; x | y ; x & y ; isTRUE(x) #分别是非x,x或y,x与y,测试x是否为True

比如我们可以使用within函数对le增加一列年龄分布,定义30以下为Young,30-40为Mid,40以上为Old,当然我们不能忘记对缺失值的处理。

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
le$Age[le$Age==99] <- NA le <- within(le, { agecat <- NA agecat[Age>40] <- "Old" agecat[Age<=40 & Age>30] <- "Mid" agecat[Age<=30] <- "Young" }) > le ID Date National Sex Age Q1 Q2 Q3 Q4 Q5 sum sumQ agecat 1 1 10/24/14 US M 32

最后

以上就是温柔海燕最近收集整理的关于R的数据操作基础(一)——变量操作与数值处理的全部内容,更多相关R内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(49)

评论列表共有 0 条评论

立即
投稿
返回
顶部