luria的个人博客分享 http://blog.sciencenet.cn/u/luria

博文

Alpha多样性指数之Chao1指数

已有 44885 次阅读 2017-9-8 19:44 |个人分类:Metagenomics|系统分类:科研笔记| diversity, Index, Alpha, QIIME, chao1


1. 准备

在认识Chao1指数前有两个概念需要理清:

singletons,即仅含有一条readOTUdoubletons,即仅含有两条readsOTU

可以这样理解:在一个放了各种各样玩具模型的水池中(例如下图。水池很大,其中玩具有相同的,有不同的,且各种类型及数目不限),随机来捞玩具。这时捞起来一个,发现之前有个玩具和这个捞起的玩具一模一样,这时有两个这种玩具在手上,这个玩具模型就是doubletons;当然也可能捞起一个玩具发现手里没有相同的,那这个就叫singletons

注意:手里如果已经有两个或以上,再捞一个起来这类情况对Chao1指数是没有贡献的!


2. 公式

Chao1的经典公式如下〔1〕

Sobs表示样本中观察到的物种数目。F1F2分别表示singletonsdoubletons的数目。

Chao1指数还有另外一种修正偏差的公式,在scikit-bio[1]上也有提到了(注:QIIME使用的是scikit-bio),如下:

由经典公式可以看到,当doubletons0(即F20)时计算的结果没有意义,修正公式可以解决这个问题。

可以这样理解这个修正公式(虽然不太严格):它从singletons中拿出1条来(严格来说与经典公式相比还不到1条),当作doubletons,这样分母一定会大于0

QIIME代码来看,QIIME调用skbio.diversity.alpha.chao1bias_corrected为默认值True,表示按经典公式计算。

3. 对公式的理解

从公式我们可以看到chao1指数是用来反映物种丰富度的指标。它通过观测到的结果推算出一个理论的丰富度,这个丰富度更接近真实的丰富度。一般来讲能观测到的物种丰富度肯定会比实际少,那么两者之间的差距有多大呢?chao1指数给出的答案是(F1^2)/(2*F2),它通过singletonsdoubletons进行了合理的推算。分析chao1指数的后半段(F1^2)/(2*F2)我们不难发现它对singletons的权重要高于doubletons (F1^22*F2变化的速度更快)

Chao1指数是基于这样一种假设:在一个群体中随机抽样,当稀有的物种(singletons)依然不断的被发现时,则表明还有一些稀有的物种没有被发现;直到所有物种至少被抽到两次(doubletons)时,则表明不会再有新的物种被发现。(The idea behind the estimator is that if a community is being sampled, and rare species (singletons) are still being discovered, there is likely still more rare species not found; as soon as all species have been recovered at least twice (doubletons), there is likely no more species to be found.〔2〕)

综上,chao1是度量物种丰富度的指标,它和丰度、均匀度无关,但是它对稀有的物种很敏感。(这也正是丰富度指标应该具有的特性!)

4. 举例

菌落A,有50OTUs,其中仅有两条readsOTUs10个,仅有一条readOTU12个,那么其chao1指数值为50+(12^2)/(2*10) = 57.2

菌落B,有50OTUs,其中仅有两条readsOTUs20个,仅有一条readOTU5个,那么其chao1指数值为50+(5^2)/(2*20) = 50.625

菌落C,有80OTUs,其中仅有两条readsOTUs10个,仅有一条readOTU12个,那么其chao1指数值为80+(12^2)/(2*10) = 87.2

菌落D,有40OTUs,其中仅有两条readsOTUs3个,仅有一条readOTU20个,那么其chao1指数值为40+(20^2)/(2*3) = 106.6667 ! Amazing!

可以将菌落B、菌落C和菌落D分别是茵落A进行比较,更加感性的去认识这一指数,这里就不再赘述了。


参考材料

[1] http://scikit-bio.org/docs/0.4.1/generated/generated/skbio.diversity.alpha.chao1.html#skbio.diversity.alpha.chao1

[2] http://palaeo-electronica.org/2011_1/238/estimate.htm

[3] Chao, A. 1984. Non-parametric estimation of the number of classes in a population. Scandinavian Journal of Statistics 11, 265-270.




http://blog.sciencenet.cn/blog-2970729-1074963.html

上一篇:BioConda --生信工作者的福音
下一篇:Speedseq的安装和使用

2 李学友 信忠保

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-17 12:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部