luria的个人博客分享 http://blog.sciencenet.cn/u/luria

博文

Alpha多样性指数之simpson指数

已有 62602 次阅读 2017-8-4 16:56 |个人分类:Metagenomics|系统分类:科研笔记| diversity, Shannon, Alpha, simpson, 16SrRNA

在查阅过一些材料文献后,发现此处〔1〕讲解得最为通俗透彻,故摘取精要,将其翻译出来,如有翻译不当处,麻烦大家指正,谢谢!

# ======================= 译文开始 =============================

Biological diversity - the great variety of life !

在探索simpson指数之前,我们需要理解几个很重要的概念:

生物多样性可以用很多种方式定量,其中两个主要的因素是丰富度(richness)和均匀度(evenness)。

1. Richness

丰富度即每个样本的物种数,样本中物种越多,样本越丰富

物种丰富度从概念上讲,并不考虑(样本中)每个物种有多少个个体。它给于个体数少的物种与个体数多的数种相同的权重。因此,在某地区1雏菊1000朵金凤花对丰富度的影响是一样的。

2. Evenness

均匀度即不同物种的相对丰度(abundance,它与丰富度互相补充,相辅相成make up)。

[译者注] 这里其实有三个概念:Richness, Evennes abundance。例如A组:类13个,类25个,类36个;B组:类14个,类24个,类34个。那么A组有3类,B组也有3类,所以它们的richness是一样的;A组中3个类所含个体数均不相同,而B组中3个类所含个体数相同,因此A组和B组的evennes不同;A组类13个,B组类14个,所以就类1而言B组的abundance更高。

我们对两个地区不同的野花进行取样,以此为例。第1个地区包括300雏菊335蒲公英365金凤花。第2个地区包括20朵雏菊,49朵蒲公英和931朵金凤花,如下表。两个样本丰富度相同(均有3个物种),总的个体数也相同(均为1000朵)。然而第1个地区样本的均匀度比第2个地区样本的均匀度更高。这是因为(在第1个地区)3个物种个体分布较均匀,第2个地区大多数是金凤花,仅有少数雏菊蒲公英。因此认为样本2比样本1的多样性更低。

相比于由相丰度的许多物种组成的群落,由一两个优势物种组成的群落具有更低的多样性。

多样性随物种丰富度和均匀度的增加而增加。Simpson指数兼顾丰富度和均匀度。

Simpson多样性指数实际上涉及三个相似的指数:

Simpson’s Index (D)

它反映的是在同一个样本中随机的抽取2个个体,这两个个体来自同一个类的概率。有以下两个版本的公式来计算simpson指数。两者不矛盾,均可接受。

n = the total number of organisms of a particular species
N = the total number of organisms of all species

D值在0-1之间。0表示无限多样,1表示没有多样性。也就是说D值越大,多样性越低。这与直觉和逻辑不符,为了解决这个问题,通常会用1减去D

Simpson’s Index of Diversity 1-D

这个值也在0-1之间,但是此时,值越大多样性越高,这就变得更直观了。这种情况下,指数代表的意义是在同一个样本中随机的抽取2个个体,这两个个体来自不同类的概率

对于违背直觉的D值,还有另一种处理办法,即用1除以D:

Simpson's Reciprocal Index 1 / D

1/D的最小值为1。当它为1时表示样本仅由1个物种组成。值越大,多样性越高。最大值是样本中的物种数。例如,假设一个样本中有5个物种,则1/D的最大值为5

[译者注] 当样本中这5个物种的丰度都相等时1/D达到最大值5。大家可以通过求二阶偏导来求出极值,因非本文重点,证明从略

以上三个指数想用哪一个取决于使用者的分析需求,但是在研究中需指明使用哪一个指标作为simpson指数![译者注:该文作者着重强调了这一点,请注意!]

# ====================== 译文结束 =======================

这篇材料提供的案例很好,但是遗憾的是仅说明了simpson指数与evennes关系。为了进行单因素比较,作者将两组丰富度设为相同。那么如果丰富度不同呢?而且simpson指数是否与shannon指数一样与丰度无关呢?这里再举一个例子(因为各组相互独立,这里就不给生物学意义,直接上数字了,具体可查看另一篇shannon指数博文[2])

A组:2, 4, 6, 8

B组:20, 40, 60, 80

C组:5, 5, 5, 5

D组:5, 5, 5, 5, 5

代入公式1-D计算(因为微生物16SrRNA经典流程QIIME使用的scikit库是利用这个公式计算的〔3〕),我们可以得出:

Asimpson指数为: 1-((2/20)^2+(4/20)^2+(6/20)^2+(8/20)^2) = 0.7

Ashannon指数为 1.846439(计算公式见博文[2],下同)

Bsimpson指数为: 1-((20/200)^2+(40/200)^2+(60/200)^2+(80/200)^2) = 0.7

Bshannon指数为 1.846439  

Csimpson指数为: 1-((5/20)^2)*4 = 0.75

Cshannon指数为 2.0

Dsimpson指数为: 1-((5/25)^2)*5 = 0.8

Dshannon指数为 2.321928

从上面的计算过程很明显看出A组和B组相等,C组和D组不相等,A组和C组也不相等。

AB组结果相同显示出在丰富度一致时simpson指数与丰度无关,它只与相对丰度(均匀度)有关。这和shannon指数一致,归根结底是因为公式中自变量都是相对丰度pi

CD组结果不同显示出在均匀度一致时simpson指数与丰富度有关,丰富度越大,simpson指数越小。这一点也和shannon指数的情况一致,归根结底,原因在于公式中都有加和项,而且加和部分无论是simpson指数的(pi)2还是shannon指数的x*log2(x)在区间(0,1〕上均大于0(有关x*log2(x)>0, x∈(0,1〕可以查看博文〔2〕中的y= - x*log2(x)那张图)。因此,无论是shannon指数还是simpson指数每多加一项(即丰富度增加),值都会越来越小。回到抽样上来讲,当样本中每种个体数都相同时,在一个样本中随机抽取两个个体,种类越多抽到的这两个个体来自同一个种类的概率越大。

AC组显示出当丰富度相同时,样本中种类越均一,simpson指数越大,即种类越均一,随机抽取两个个体属于同一个种类的概率越大。这一点可以查看博文〔2〕中的分析过程。对应shannon指数的y = - x*log2(x), simpson指数的y = - x2 (0,1〕间区上,也是一个斜率逐渐减小的单调递减函数。

综上,simpsonshannon指数都是均匀度和丰富度的综合指标。

〔1〕 http://www.countrysideinfo.co.uk/simpsons.htm

〔2〕 http://blog.sciencenet.cn/blog-2970729-1069399.html

〔3〕 http://scikit-bio.org/docs/latest/generated/generated/skbio.diversity.alpha.simpson.html#skbio.diversity.alpha.simpson




https://blog.sciencenet.cn/blog-2970729-1069539.html

上一篇:Alpha多样性指数之shannon指数
下一篇:Qualimap2.多样本高通量数据高级QC工具
收藏 IP: 58.62.32.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 07:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部