提问



我有一个包含6列的R数据框,我想创建一个只有三列的新数据框。


假设我的数据帧是df,并且我想提取列ABE,这是我能想出的唯一命令:


 data.frame(df$A,df$B,df$E)


有更紧凑的方式吗?

最佳参考


就在这里。


# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[,c("A","B","E")]

其它参考1


这是subset()函数的作用:[24]


> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> subset(dat, select=c("A", "B"))
  A B
1 1 3
2 2 4

其它参考2


有两个明显的选择:约书亚乌尔里希的df[,c("A","B","E")]


df[,c(1,2,5)]


如在


> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> df
  A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
  A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
  A B E
1 1 3 8
2 2 4 8

其它参考3


使用dplyr包,如果你的data.frame被调用df1:[25]


library(dplyr)

df1 %>%
  select(A, B, E)


这也可以在没有%>%管道的情况下编写:


select(df1, A, B, E)

其它参考4


您还可以使用sqldf包对R数据帧执行选择:


df1 <- sqldf("select A, B, E from df")


这给出了一个数据帧df1作为输出,列为:A,B,E。

其它参考5


再次使用dplyr,其中df1是您的原始数据框:


df2 <- subset(df1, select = c(1, 2, 5))

其它参考6


仅出于某种原因


df[, (names(df) %in% c("A","B","E"))]


为我工作。所有上述语法都产生了未定义的列选择。

其它参考7


[和子集不可替代:


如果只选择了一列,[会返回一个向量。


df = data.frame(a="a",b="b")    

identical(
  df[,c("a")], 
  subset(df,select="a")
) 

identical(
  df[,c("a","b")],  
  subset(df,select=c("a","b"))
)