衣带渐宽终不悔分享 http://blog.sciencenet.cn/u/tuqiang2014 在康河的柔波里,做一条水草, 向青草更青处漫溯。

博文

环境与生态统计笔记||绪论

已有 4151 次阅读 2018-10-21 22:48 |系统分类:科研笔记

在上一本《数量生态学:R语言应用》将要结束的时候,我就开始物色下一本可以按章节更新笔记的书籍。这时排在我面前的是三本书:《机器学习实战》,《环境与生态统计:R语言应用》、《网络数据的统计分析:R语言实践 》。《机器学习实战》是早就想写的了,毕竟那么高大上的东西,是不想早点靠近呢,何况还是python那么美的语言写就的?相比之下后两本的R语言的应用就显得有些基础了。

但是最终还是选择了这本书:《环境与生态统计:R语言应用》,正是因为他的基础。而且同《数量生态学:R语言应用》一样全书就围绕一个案例,这样也好理解。今天,2018年10月18日,一个普通的不能再普通的日子,我依旧是那么的忙,依旧会有所思念,依旧会胡思乱想很多本来就无意义的事,但是今天我下了一个决心:在简书上更新这本书的笔记。

全书共10章360页,计划在2019年3月份更新完毕。大概是五个多月的时间(也只是业余的时间),四五~二十周,平均两周一章,其实我每周能拿出来的大块时间大概也就是一个半天。读书是碎片的,这半天用来写作,时间也是蛮紧的。期间,还会参考《R统计应用开发实战》这本书。

我将放弃什么?我最先想到的就是远离电子产品。

其实我对统计已经不陌生了,念书的时候学过《概率论与数理统计》、《植物营养学研究方法》、《生物统计学》、《实验设计与研究方法》等课程,也用过Excel、SPSS、origin、R等统计与绘图工具。理论上这本书是一种回顾,但是其实和重新学没啥区别——之前的学习这基本上是囫囵吞枣。

不管怎样,您既然看到这er,说明我们至少是有缘人。在未来的不长的一个时期里希望我们一起跟随钱松老师的步伐,探究美国佛罗里达Everglades湿地生态环境的变迁——当然是用统计学的方法。在今后的文章中我会不时配上几幅该地的图片(来自网络,侵删)。下面我们有必要介绍一下这个世界上最大的淡水湖(之一)。

Everglades湿地(或译为大沼泽地)是磷限制型生态系统,千百年来静静演化,物种丰富、环境优美,但在1948年通过法律要求修建堤岸和运河以防止南佛罗里达发生洪涝灾害并为人类生活提供用水。雨水被从该地区排出,注入大西洋或改道流向农场和城市。大沼泽地的水位在那时被人工随意加以调节,影响了水质、水量、分布和季节周期的时机。此外,紧邻欧基求碧湖南面约3,100平方公里(1,200平方哩)的土地得到灌溉并改为种植甘蔗、蔬菜和饲养肉牛的耕地,切断了大沼泽地其他地方与该湖的连通。自然水流以及农田径流的这些改变造成了自然栖息地的巨大变化,生出有毒的水藻,破坏了海石竹河床,形成高浓度的有机汞,使季节性野生动物的进食地和筑巢地被洪水淹没。不断延展的城市区和外来物种的引进也造成了生态问题;大约有一半的原始自然沼泽地已遭到毁坏。

在下面的一个时间轴中我们大致能看出片净土这大半个世纪在人类的欲望与理智之间的演化过程。要形成这么一个生态系统需要亿万斯年,不知道要比出落一个才貌双全的女郎困难多少倍,而破坏她却是那样的容易!

在设定环境标准的工程中,统计学扮演着重要的角色。水质发生着自然的变化,生态条件也是如此,我们如何确定水质的变化是人为引起的(污染)而不是自然变化引起的(非污染)呢?如何衡量一个区域的水质,又要如何确定水质超没超标以及修复到哪个水平算是达到了正常标准的呢?这就要闪现人类理智的光辉了——统计学。

在生态系统的研究中,生态学家测定不同的参数或者生物学属性值来代表系统的不同方面。而衡量一个生态系统最主要的就是这里物种数量与分布的状态,而由于在低营养级上,相同的生态功能可以有很多物种来完成,当环境变化时,尽管某几个个物种多寡的变化,并不会影响其稳定性,这就是生态系统的同化能力。换句话说,一个生态系统能够吸收一定量的污染物直至某个阈值而不发生功能上的明显变化。磷的阈值就是不引起生态功能明显变化的最高磷浓度。

在本案例中,佛罗里达环保局采用了参考条件(reference condition)的方法来确定磷的环境标准。即在那些未受到人类影响的区域中(参考区域),对总磷(TP)的概率分布做出估计(参考分布),将参考分布的某个百分点用作衡量标准。佛罗里达环保局用的是第75个百分点。这一过程,涉及了不少重要的统计学概念。

    1. 概率分布。

让我们回到统计学入门处。概率分布常定义为一个装有无限个球的坛子,如果球上标有1到100 的数字,而且我们知道坛子中有10%的球上标着小于3或者大于97的数字。我们就会期望能有十分之一的机会拿到小于3或者大于97的数字。

从生态环境中采集一个水样并把水样送到实验室测定磷浓度,和从坛子中随机取球并记录球的编号是一样的。如果我们知道坛子里的内容,就可以计算出带有某个取值范围标签的概率。那么,我们知道概率分布,就可以计算出超过某个特定值的概率。

参考站点的总磷浓度分布是  一个装有无限球的坛子这一经典概念与环境管理中的重要物理特征之间的直接联系。概率分布可以描述数据的分散状况、参数值和误差。

统计学中用到的最多的分布是正态分布或者叫高斯分布。这是因为:

  1. 它只需要均值和方差两个参数来描述。
  2. 中心极限定理保证了很多独立随机变量都是接近正态的。

经常用来描述环境浓度变量的是对数正态分布。如果一个变量符合对数正态分布,该变量的对数符合正态分布。因此,分析环境与生态数据第一经验就是分析之前先把数据取对数。对数正态分布的两个参数分别是对数均值(\mu)h和对数标准差(\sigma)。\mue^\mu)的指数被称为几何均值。湿地的TP浓度标准是用年几何均值定义的。当我们知道对数正态分布的对数均值(\mu)h和对数标准差(\sigma)后,原始数据的均值和标准差分别为e^{\mu+\frac{1}{2} \sigma^2}e^{\mu+\frac{1}{2} \sigma^2}\sqrt{e^{\sigma^2} -1}。对数正态分布的标准差正比于其期望值,比例常数\sqrt{e^{\sigma^2}-1}就是变异系数cv

    1. 样本设计(抽样)

要估计TP参考浓度的分布,就必须获得TP的代表样本,这是一个样本设计问题。统计推断是一个从样本中认识分布特征的过程。由于样本只是总体的一部分,估计出来的模型参数就不可避免地依赖样本数据。每一次抽样都会产生一个新的估计值,换句话说,带估计的参数是一个随机变量。如果样本不是随机抽取的,该样本就有可能导致有偏估计。

    1. 统计假设

所有的统计学方法都依赖于以下假设:数据是总体这样或那样的随机样本。最常用的统计假设是正态性假设。

    1. 统计推断

统计推断不仅能提供参考数值,而且可以提供跟估计值联系在一起的不确定信息。在实践中,采样误差和测量误差同时存在于数据中。采样误差描述的是估计出的总体特征于真实的总体特这之间的差异;测量误差在整个总体观测中都会出现。统计推断的重点在于对误差予以量化。

一旦环境标准定了,评价水体是否满足标准就成为不断进行统计假设检验的问题。以上,我们是在检验水体达标的零假设和水体不达标的备择假设。在美国很多州要求如果要宣称水体达标,那么水体超标的时间不能超过10%。因此,特别重要的量就是浓度分布的90个百分点。当第90个百分点低于水质标准,水体被认为是达标的;当第90个百分点高于水质标准,水体被认为是超标的。

参考:
Everglades National Park
Florida Everglades - Activities and Attractions
Code&Data| github
everglades 佛罗里达湿地国家公园
美国·佛罗里达州——劳德戴尔堡 之 EVERGLADES



https://blog.sciencenet.cn/blog-1835014-1142117.html

上一篇:数量生态学笔记||典范排序概述
下一篇:NGS通识第零讲||NGS通识
收藏 IP: 123.151.22.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 06:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部