|
近几年,单细胞测序技术有了突飞猛进的发展,也越来越多的被用来学习生物组织、器官里的单个细胞之间分子基因组、转录组、修饰组的差异,更是被nature methods评为2013年年度的方法学进展。但是单细胞测序的生物信息学分析软件的开发远远跟不上实验技术发展的速度,近日我们在Frontier In Oncology上发表了题为”current challenge in the bioinformatics of single cell genomics”的review文章。总结了目前这个领域遇到的挑战,同时,对于从事生物信息学研究人员来说,这也意味着一个很好的机遇。
单细胞测序技术相对传统的大量样本的多细胞测序技术,由于每个细胞中含有的DNA(或者RNA)的量非常少,没有到达目前主流的Illumina测序平台建库的要求,需要先进行一步全基因组(或全转录组)的扩增。无论是DNA还是RNA,现在市场上都有一些相对成熟的试剂盒,比如DNA,有MALBAC(亿康),WGA4(Sigma-Aldrich),以及经典的方法MDA来进行全基因组的DNA的扩增;对RNA也有,像Smart-seq,Smart-seq2等相对成熟的扩增方法。但是,这些扩增技术,也存在其局限性,主要表现在两个方面:1. 很难做到真正的全基因组水平上的扩增。最终导致,基因组里面某些区域扩增到了,有些区域没有被扩增到,没扩增到的这些区域将无法被测序。2. 扩增过程会导致Bias,也就是说在扩增到的区域,有些区域会扩增的多,有些区域会扩增的少些。而这两个方面的问题,都会给后续的生物信息学分析带来挑战。
对单细胞基因组测序来说,拷贝数变异(CNV)和单碱基核苷酸多态性(SNP)也是其重要研究内容。对于SNP来说,单细胞基因组的全基因组扩增会带来以下问题:1. 低的基因组覆盖度。对于扩增未覆盖的区域,这些区域的SNP信息是未知的。同时,对于二倍体基因组不完全的扩增,很可能导致等位基因丢失(allele dropout)。2. 扩增过程的错误。由于扩增中使用的DNA聚合酶的存在一定的错误率,故其在扩增的过程中,也会引入新的“SNP”。同时,单细胞的测序存在成本问题,对于大量细胞高深度的测序花费巨大,怎样从低测序深度的数据中获得有效的SNP信息是单细胞SNP calling过程的一个难点。同时区分真的SNP和可能的扩增错误测序错误也是一个难点。对于CNV来说,扩增过程中的偏性,会影响CNV的识别的准确度和分辨率。
对于单细胞转录组来说,全转录组的扩增也会带来一些问题。1.目前单细胞转录组扩增技术,很难得到全长转录本。虽然smart-seq2相比其前一个版本上已有所提高。2.扩增的偏性。有些转录本或者某些区域容易被扩增一些,使得最终的基因的表达量之间的数量关系并没有真实的反应细胞里的真实情况。3.低表达量的转录本很难检测出来。4. 扩增过程3’和5’端的偏性会导致表达量计算过程中出现问题。因此在后续的生物信息学分析中,怎样有效去除扩增偏性,以及怎样衡量基因的表达量将会是一个重要的方面。
尽管如此,单细胞基因组测序技术已经被成功用于学习很多重要的生物问题。比如被用于研究肿瘤细胞的演化,或是胚胎的发育过程,或是神经细胞的基因组的差异。但是,目前可以说是还没有专门针对单细胞尤其是对特定扩增方法的生物信息分析软件、算法的存在。当然随着单细胞数据的增多,新的算法和软件(开源)一定很快涌现的。对于从事生物信息学研究的学生,如果你没有其他很好的研究idea,我建议可以去开发单细胞测序的生物信息学软件,一定是可以又快又好的发表文章的。
全文:Ning L, Liu G, Li G, Hou Y, Tong Y and He J 2014) Current challenges in the bioinformatics of single cell genomics. Front.Oncol. 4:7. doi: 10.3389/fonc.2014.00007
http://journal.frontiersin.org/Journal/10.3389/fonc.2014.00007/abstract
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 11:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社