R的数据操作基础(一)——变量操作与数值处理

284 阅读 0 评论 188 点赞

我是靠谱客的博主温柔海燕，这篇文章主要介绍R的数据操作基础(一)——变量操作与数值处理，现在分享给大家，希望可以做个参考。

在掌握数据的结构和导入之后（参见R的数据结构与导入），我们开始对数据进行操作处理，在本次笔记中我们使用一个5行10列的，主题是“领导行为的性别差异”的简单数据集，q1-q5是五项服从力评分，分数没有显著的优劣性。年龄=99代表缺失。整个数据集如下：
在这里插入图片描述
下文我们用le(leadship)的数据框变量来承载这个数据集。

变量操作

新变量

创建新变量的格式是变量名 <- 表达式，除了四则运算以外，**^**表示求幂，x%%y表示求余（x mod y)，x%/%y表示整数除法（x div y）。比如我们想要求出Q1+Q2的和，并把这一列并入原数据框中，那么有如下几种办法：

le$sum <- le$Q1+le$Q2

sumQ <- le$Q1+le$Q2
le <- cbind(le,sumQ)  #按行合并

le <- transform(le,
                         sum = Q1+Q2)  #这里只能用等于号

不同方法有不同特点，第一个最简单，但是容易写得冗长；第二个要注意行列合并的特点，第三个使用了transform()，注意内部只能使用=

重编码

利用逻辑运算可以对数据框中的变量进行重编码，下面给出一些逻辑运算：

< ; <= ; > ; >= ; == ; !=  #分别是小于、小于等于、大于、大于等于、严格相等（浮点型慎用）、不相等
!x ; x | y ; x & y ; isTRUE(x)  #分别是非x，x或y，x与y，测试x是否为True

比如我们可以使用within函数对le增加一列年龄分布，定义30以下为Young，30-40为Mid，40以上为Old,当然我们不能忘记对缺失值的处理。

le$Age[le$Age==99] <- NA
le <- within(le,
{
   
  agecat <- NA
  agecat[Age>40] <- "Old"
  agecat[Age<=40 & Age>30] <- "Mid"
  agecat[Age<=30] <- "Young"
})
> le
  ID    Date National Sex Age Q1 Q2 Q3 Q4 Q5 sum sumQ agecat
1  1 10/24/14      US  M  32