|||
1. 准备
在认识Chao1指数前有两个概念需要理清:
singletons,即仅含有一条read的OTU,doubletons,即仅含有两条reads的OTU。
可以这样理解:在一个放了各种各样玩具模型的水池中(例如下图。水池很大,其中玩具有相同的,有不同的,且各种类型及数目不限),随机来捞玩具。这时捞起来一个,发现之前有个玩具和这个捞起的玩具一模一样,这时有两个这种玩具在手上,这个玩具模型就是doubletons;当然也可能捞起一个玩具发现手里没有相同的,那这个就叫singletons。
注意:手里如果已经有两个或以上,再捞一个起来这类情况对Chao1指数是没有贡献的!
2. 公式
Chao1的经典公式如下〔1〕:
Sobs表示样本中观察到的物种数目。F1和F2分别表示singletons和doubletons的数目。
Chao1指数还有另外一种修正偏差的公式,在scikit-bio[1]上也有提到了(注:QIIME使用的是scikit-bio),如下:
由经典公式可以看到,当doubletons为0(即F2为0)时计算的结果没有意义,修正公式可以解决这个问题。
可以这样理解这个修正公式(虽然不太严格):它从singletons中拿出1条来(严格来说与经典公式相比还不到1条),当作doubletons,这样分母一定会大于0。
从QIIME代码来看,QIIME调用skbio.diversity.alpha.chao1时bias_corrected为默认值True,表示按经典公式计算。
3. 对公式的理解
从公式我们可以看到chao1指数是用来反映物种丰富度的指标。它通过观测到的结果推算出一个理论的丰富度,这个丰富度更接近真实的丰富度。一般来讲能观测到的物种丰富度肯定会比实际少,那么两者之间的差距有多大呢?chao1指数给出的答案是(F1^2)/(2*F2),它通过singletons和doubletons进行了合理的推算。分析chao1指数的后半段(F1^2)/(2*F2)我们不难发现它对singletons的权重要高于doubletons (即F1^2比2*F2变化的速度更快)。
Chao1指数是基于这样一种假设:在一个群体中随机抽样,当稀有的物种(singletons)依然不断的被发现时,则表明还有一些稀有的物种没有被发现;直到所有物种至少被抽到两次(doubletons)时,则表明不会再有新的物种被发现。(The idea behind the estimator is that if a community is being sampled, and rare species (singletons) are still being discovered, there is likely still more rare species not found; as soon as all species have been recovered at least twice (doubletons), there is likely no more species to be found.〔2〕)
综上,chao1是度量物种丰富度的指标,它和丰度、均匀度无关,但是它对稀有的物种很敏感。(这也正是丰富度指标应该具有的特性!)
4. 举例
菌落A,有50个OTUs,其中仅有两条reads的OTUs有10个,仅有一条read的OTU有12个,那么其chao1指数值为50+(12^2)/(2*10) = 57.2
菌落B,有50个OTUs,其中仅有两条reads的OTUs有20个,仅有一条read的OTU有5个,那么其chao1指数值为50+(5^2)/(2*20) = 50.625
菌落C,有80个OTUs,其中仅有两条reads的OTUs有10个,仅有一条read的OTU有12个,那么其chao1指数值为80+(12^2)/(2*10) = 87.2
菌落D,有40个OTUs,其中仅有两条reads的OTUs有3个,仅有一条read的OTU有20个,那么其chao1指数值为40+(20^2)/(2*3) = 106.6667 ! (Amazing!)
可以将菌落B、菌落C和菌落D分别是茵落A进行比较,更加感性的去认识这一指数,这里就不再赘述了。
参考材料
[2] http://palaeo-electronica.org/2011_1/238/estimate.htm
[3] Chao, A. 1984. Non-parametric estimation of the number of classes in a population. Scandinavian Journal of Statistics 11, 265-270.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 14:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社