赖江山的博客分享 http://blog.sciencenet.cn/u/laijiangshan 生态、统计与R语言

博文

R专题ppt

已有 20350 次阅读 2010-11-6 07:25 |个人分类:未分类|系统分类:科研笔记| R语言, 统计软件

R语言作为新兴的统计软件,以开源、自由、免费等特点已经风靡全球。虽然在国内生态学及生物多样性研究中,R软件应用时间相对较短,但其优点迅速得到国内同行、特别是年轻的科研人员和研究生们的认可。为了促进R在生态学和生物多样性研究中的应用,让更多的人了解R,特在今年11月4-6日在厦门大学召开的“第九届生物多样性保护与持续利用研讨会”增加新的专题,即“R 统计在生态学和生物多样性研究中的应用”,召集人: 赖江山 lai@ibcas.ac.cn 牛克昌 kechangniu@pku.eud.cn.
报告题目 时间 报告人 报告时间 报告人单位
R语言历史、发展和现状 10分钟 赖江山 4日晚6:30-6:40 中科院植物所
R的基本用法与做图 25分钟 牛克昌 4日晚6:40-7:05 北京大学
用R做贝叶氏斯分析 25分钟 储成进 4日晚7:05-7:30 兰州大学
R语言在地统计学中的应用 25分钟 原作强 4日晚7:30-7:55 中科院沈阳生态所
基于R的多元统计分析 25分钟 赖江山 4日晚7:55-8:20 中科院植物所
基于R的混合效应模型的应用 25分钟 陈磊 4日晚8:20-8:45 中科院植物所
基于R的系统发育分析 25分钟 张金龙 4日晚8:45-9:10 中科院植物所

R语言历史、发展和现状
赖江山
(中国科学院植物研究所生物多样性与生物安全研究组)
R语言是一个用于统计计算和统计制图的优秀软件,与著名的统计编程语言S有着密切的关系。20世纪90年代早期,新西兰奥克兰大学统计系的Robert Gentleman和Ross Ihaka两位学者按照S语言的规范开始开发R,并将R作为一个自由软件进行发布。尽管R语言历史不长,但以其开源、自由、免费等特点已经风靡全球。目前用R作为统计工具的科技论文成指数级增长。从2004年起至今(2005年除外),R开发团队每年都会举办一次R的国际会议,参会者和报告人数不断增加。R也有其刊物“R News”,创办于2001年,自2009年起,“R News”将更名为“The R Journal”。
中国人民大学统计系就R语言在国内推广做了很多贡献,比如多次举办R的全国会议,开办统计之都论坛(http://cos.name/cn/)R的版块,翻译多本R的中文教程并免费放在网站供下载。
国内生态学及生物多样性研究人员认识R和使用R历史并不长。普兰塔论坛及中国科学院生物多样性委员会为R在生态学界的推广应用做了不少工作。曾多次举办R的培训班,包括在本届研讨会设立R的专题等等。R语言也逐步受到国内生态学工作者,特别是青年学者和研究生们的青睐。希望本专题的推广,让更多参会者了解R语言,并利用它在统计分析上的优势为自己的专业问题提供灵活的解答。


R软件在生态学和生物多样性研究中的应用简介
牛克昌
(北京大学 城市与环境学院生态学系)
近年来随着数据分析方法和数学模型在生态学和生物多样性研究中的迅速发展,传统的统计软件已经很难满足迅速发展的数据分析要求。R 软件发展十年,以其灵活、开放、易于掌握、免费等诸多优点,在生态学和生物多样性研究领域,迅速赢得研究者们的青睐。然而,R软件在国内生态学和生物多样性研究中的应用还相对较少。很多初学者因R需要输入命令并做些简单编程,而望而却步。为此,本文从R软件的发展入手,深入浅出地简单介绍了R的常用命令、失量赋值和运算、数据录入和管理以及结果输出等基本操作。进而用R软件举例介绍了生态学和生物多样性研究中常用的数据分布、方差分析、线性模型和最大似然估计等数据分析方法。并重点介绍了生态学和生物多样性研究中常用的sem、smatr、ade4、vegan、ape、untb、bidiversityR等一些程序包的命令、用法和应用前景。R软件的迅速流行不仅仅是因为它在数据分析上的强大和灵活,更重要的是它可以将数据分析和作图展现集成于一体,输出高质量图片。为此,本文以Paul Murrell的《R Graphics》书为篮本,重点介绍了 R的基本作图命令、方法和个性化拓展。并进一步简单介绍了用ggplot、lattice和grid等一些程序包进行高级作图方法。最后,本文也介绍了国外一些学习R的网上资源,组织结构和会议活动等。并呼吁在国内生态学和生物多样性研究中积极应用R软件。

贝叶斯推断在生态学中的应用及R2WinBUGS包介绍
储诚进
兰州大学

自然系统是复杂的,统计之目的就是要从复杂的现象中发现规律,探索机制。而我们常见的频度(frequentist)统计手段尽管在生态学的发展历史上功不可没,但是许多时候都不能很好的解决自然系统复杂性问题,其将多种不确定性因子作为“噪音”(noise)包含在模型的残差中,这导致一些情况下不可解释的残差太大,严重影响了对生态学现象的深入理解。贝叶斯层次模型是近年来兴起的处理生态学复杂性的统计方法,与传统的统计手段如线性回归与方差分析相比,能够非常好在数据分析中包含多个不确定性因子,如个体间、物种间差异与空间异质性等。通过超参数,构建不同层次的统计模型。对于某一参数,综合先验知识(未获取数据之前对参数的认识)与实验数据(似然函数形式),从而得到该参数的后验估计(经过实验数据校正后的参数值)。本文首先系统介绍了贝叶斯统计的基础,然后以Niklas等生物量分配数据为例,介绍了WinBUGS软件进行贝叶斯分析的一般步骤,最后介绍了R2WinBUGS包,阐述如何综合BUGS与R进行相关数据分析。模型中参数以概率分布的形式给出,因而很方便也很自然地得到参数的平均值和中位数以及对应的区间估计等。不同于传统统计中采用p值来观察某实验处理的效果是否明显,贝叶斯统计主要依赖于参数的可信区间(credible interval)进行相关的判断。

R语言在地统计学中的应用
原作强
中科院沈阳应用生态研究所
地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关和依赖性的自然现象的科学。如今,地统计学已经被广泛用于地理学、生态学、环境科学、土壤学等诸多领域。与传统的地统计(如ArcGIS,GS+,ISATIS)软件相比,R软件具有免费、灵活、交互、可控性强等特点。本文以geoR和gstat包为基础,系统介绍了在地统计分析过程的几个常见步骤(1)数据的建立及正态性检验,当数据不符合正态分布时如何进行Box-Cox转换(2)模型建立过程中如何使用4种不同的方法,方便地从15个理论模型中选择最优的模型,并介绍如何通过转置计算,得到半方差函数的包迹线(envelop),从而直观的判断数据点之间是否存在空间自相关关系(3)如何根据要求,任意选择空间点差值(point interpolation)或面差值(areal interpolation),差值方法包括simple kriging、ordinary kriging, trend kriging and external (universal)trend kriging等(4)介绍两种不同模型检验(Validation)方法,即部分验证整体和交互验证(Cross-Validation)(5)如何在R软件中进行高斯模拟(Gaussian simulation)操作。最后简要介绍了差值图形的输出及软件使用过程中经常出现的问题。


基于vegan包的多元统计分析
赖江山
(中国科学院植物研究所生物多样性与生物安全研究组)
多元统计分析是群落生态学最常用分析方法,其核心部分是排序(ordination)。从群落学角度将,排序的过程是将样方或植物种排列在一定的空间,使得排序轴能够反映一定的生态梯度,从而,能够解释植被或植物种的分布与环境因子间的关系,也就是说排序是为了揭示植被-环境间的生态关系。能够做排序的软件比较多,其中使用最广泛的是荷兰著名生物统计学家TerBraak 编写的CANOCO软件。CANOCO容易操作,熟悉过程比较快,为广大的研究人员熟悉,估计90%用到排序的文章都是引用这个软件。笔者曾经编译了《Multivariate Analysis of Ecological Data using CANOCO》(Jan Leps和 Petr Smilauer 著)部分章节,并放在网上供下载,受到广泛的关注。尽管CANOCO使用广泛,操作简单,但其最大的缺点就是本身是商业软件,而且价格不菲,版本更新速度很慢。尽管有破解版或是过期版的可以用,但使用过程容易出问题,帮助内容也不容易理解。这些缺点造就了R的Vegan包将可以取代CANOCO 的可能。Vegan是”Vegetation analysis”的缩写, 专门是植被群落分析的软件包(作者 Jari Oksanen )。Vegan 软件包内函数囊括了常用的排序方法,如PCA、CA、RDA和CCA等 ,还有很多方法是CANCO软件里面没有的,比如更多数据标准化的方法,显示更多排序轴内容,可以做三维排序图等等。本报告将CANOCO里面的分析与Vegan里的函数做了对比,让熟悉CANOCO的人能也能尽快熟悉R的函数。

基于Lme4包的混合效应模型
陈磊
(中国科学院植物研究所生物多样性与生物安全研究组)
由于混合效应模型在分析大量复杂数据方面具有较大优势,因此其在最近几年受到了生态学研究者的关注。作为一个自由、免费、源代码开放的软件,大量的软件包被数学家开发并植入了R这个开放的平台,其中Lme4 软件包就是其中的一个专门用于分析混合效应模型的特色软件包。该软件包由威斯康星大学麦迪逊分校的Douglas Bates教授牵头组建,目前的最新版本是2010年8月19日发布的lme4_0.999375-35。该软件包不仅能够进行线性混合效应模型的计算还能对广义线性混合效应模型以及非线性混合效应模型进行参数估计。另外,该软件还将MCMC(Markov Chain Monte Carlo)方法整合到了线性混合效应模型的参数估计中,使用者能够通过非常简单的操作就能准确对待估参数的置信区间以及显著度进行计算。与其他的混合效应模型计算软件(如:SAS,SPASS等)相比,lme4软件包无论在计算方法的多样性、前沿性还是在可操作性方面都具有较大的优势。

基于R的物种生态位进化分析摘要
张金龙
(中国科学院植物研究所生物多样性与生物安全研究组)
随着标本数字化及文献数字化的进行,物种的分布资料被陆续整理成物种分布数据库。生态学家已经开发出多种分布模型,以预测物种的潜在分布区,包括Bio-Climate, GARP, Maxent等。以往的物种分布模型多没有考虑到物种之间的进化关系。最近发展出的方法使得人们可以利用物种分布记录和物种之间的系统发育关系,对物种的适应性进化进行推断。首先基于物种分布记录,获得该物种的潜在分布区,以获得该种的适应性范围。获得每个种的适应性范围后,即可利用系统发育比较方法中的祖先状态重建来推断各节点的状态,即相应节点的适应性范围,从而获得物种对各气候因子的适应性的分化情况。R的phyloclim程序包基于ape、adehabitat、ade4等程序包,可以完成上述分析,从而使得人们对物种进化过程的了解更加全面和深入。
R专题ppt

http://blog.sciencenet.cn/blog-267448-380876.html

上一篇:基于CANOCO的生态学数据的多元统计分析(第十章)
下一篇:CANOCO4.5 无需更改时间

2 沈小梅 高建国

发表评论 评论 (6 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-3-6 20:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部