育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

R 语言中的汇总统计:如何批量计算不同因素不同水平的平均值

已有 402 次阅读 2019-7-16 07:40 |个人分类:R语言|系统分类:科研笔记

参考

https://stackoverflow.com/questions/12478943/how-to-group-data-table-by-multiple-columns

实际工作中,我们需要对数据进行平均值计算,这里我比较了aggregatedata.table的方法,测试主要包括:

1,对数据yield计算平均值
2,计算N不同水平的平均值
3, 计算N和P不同水平的平均值

1. 常规方法aggregate

代码:

data(npk)
head(npk)

aggregate(yield~N,data=npk,FUN = mean)
aggregate(yield~N+P,data=npk,FUN = mean)

结果

> aggregate(yield~N,data=npk,FUN = mean)
  N    yield
1 0 52.06667
2 1 57.68333
> aggregate(yield~N+P,data=npk,FUN = mean)
  N P    yield
1 0 0 51.71667
2 1 0 59.21667
3 0 1 52.41667
4 1 1 56.15000

2. 使用data.table方法

代码:

data(npk)
head(npk)

library(data.table)
setDT(npk)

# 单个变量
npk[,mean(yield),by=N]

# 两个变量
npk[,mean(yield),by=c("N","P")]

# 两个变量的另一种写法
npk[,mean(yield),by=list(N,P)]
npk[,mean(yield),by=.(N,P)]

结果:

> # 单个变量
> npk[,mean(yield),by=N]
   N       V1
1: 0 52.06667
2: 1 57.68333
> 
> # 两个变量
> npk[,mean(yield),by=c("N","P")]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
> 
> 
> # 两个变量的另一种写法
> npk[,mean(yield),by=list(N,P)]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
> npk[,mean(yield),by=.(N,P)]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667

要点:

data.table速度更快,语法更简单。

wechat.jpg



http://blog.sciencenet.cn/blog-2577109-1189703.html

上一篇:矩阵计算中直和和直积的概念
下一篇:学习Julia与弯道超车

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-8-26 04:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部