|||
Our new methods final launched on Nature Protocols, where we developed a series of methods and related C++/R combined software package, Sclust(around 1.5Gb,大文件谨慎下载). In Sclust , you can do copy number calling, cancer tissue purity estimating and clone and subclone structure inferring from normal-tumor paired whole genome/exon sequencing data.
1. 可以准确地做copy number calling, tumor purity estimating,subclonal inferring;
2. subclonal inferring的速度超级快。4000~6000 个SNVs 的 clonal inferring 过程在个人电脑上只需3到5秒。
3. sclust 给出了每个集群的倍数树变异,目前还有少数个软件提供这个功能。
欢迎使用软件,欢迎咨询,欢迎交流。
联系邮件:yp.cun@outlook.com。
下面clonal 推断一些背景。
现代基因组测序技术快速发展为癌症等疾病研究提供了绝好的工具,同时测序产出的大量数据也对计算和模型提出了挑战。如何快速、准确地找出癌症基因组中的遗传变异就成了计算生物学中重要挑战。
通过多年对癌症二代基因组数据的分析,我们开发了一系列独立的模型用于发现癌症基因组中的突变(体细胞和种系细胞突变)、SNP,基因拷贝数变异、结构变异等遗传变异、组织样本纯度估计、突变聚类。这一套模型最早由我博后导师2012年Nature Genetics的文章中(Peifer et al 2012 Nature Genetics)提出, 我在2013年9月加入后参与了基因拷贝数变异、结构变异等遗传变异、组织样本纯度估计等模型的优化和改进,并和Martin合作提出了一个新的方法用于体细胞的单核苷酸位点变异(single nucleotide variants,SNV)聚类,从而发现癌症病人基因组中的clonal和subclonal结构,进而构建癌细胞在体内的扩散过程。我们这个工作的最亮点也就在于聚类部分。
我们先来介绍一下癌症基因组里的clonal和subclonal的概念。癌症里的clonal演化概念由Nowell 1976年在Science里提出来的(Science. 1976 Oct 1;194(4260):23-8.),他假设人体的某个体细胞发生突变后经历了数个clonal扩增(演化)过程,最终这个含突变的体细胞集群就演化成了癌组织。这个过程和群体遗传学的溯祖理论(colescent)的祖先想,以后的colnal 演化模型借鉴共同祖先这个概念不是溯祖理论本身。clonal被广泛翻译“克隆”。我觉得这种译法不妥当,因为这里的clonal指的的带突变的细胞群落。所以,我这里把clonal译成集群,subclonal译成子集群比较合适。
随着二代测序技术的发展,这个假说经历了漫长的沉寂期后在2008s左右迎来了癌症集群演化研究的爆发期。最显著的代表就是国际癌症研究组织(ICGC)的引领者Mike Stratton和相关团队针对各个癌症类型的一系列CNS研究文章。我有幸在2009年参与吴仲义教授领导北京基因组所的肝癌研究组的讨论,之后吴老师及其合作者建立一个纯正分子演化出生的肝癌基因组的达尔文演化模型(Tao et al. , PNAS,2011)。
借用Florian Markowetz博士的图片,我们来说明为什么要找出个体中的集群结构,并用集群结构来建构癌症发生的系统发育树。当然,大部分癌症演化模型都只是借用群体遗传学和分子演化的概念,然后再建立模型来构树。在Tsample时间点上,我们对癌症样本进行基因组测序,然后得到体细胞的单核苷酸位点变异集合。然后基于单核苷酸位点变异的突变频率,我们构建一个模型,找出突变的源头T0,第一次集群扩增T1和子集群扩增T2和T3。 这里我们可以从SNV推断出集群结构:A就是集群,ABD和ABC就是子集群;然根据集群结构构建集群间的关系。由于癌症组织里有部分正常细胞污染,所以我们必须组织测序数据进行癌细胞纯度校准。 (下两图来自Florian Markowetz 的博客 https://scientificbsides.wordpress.com)
得到集群结构后,我们可以构建出癌细胞在个体中演化模型,从而得到癌症不同子类型演化的路径,并给临床医生提供参考。
所以,如何推断癌基因组中的集群结构对理解癌症的发生和异质性有着重要的影响。2012年Nik-Zainal 等在Cell提出一个对肿瘤内的体细胞突变进行集群结构推断的模型, 他们用Bayesian Dirichlet 混合模型来推断集群结构。 之后几乎所有的模型都一改进Bayesian Dirichlet混合模型的计算为主来推断集群结构。 由于这个模型需要用MCMC来找到最优参数,其计算时间是通常需要1天到1个星期左右的性能计算来完成。所以,我们用如下的信号处理的方法来推断集群结构,通过一个spline和反卷积计算的模型,超快速地找出集群结构 (Cun, et al., 2018)。具体理论推导见我们文章的补充材料。 我们在ICGC pan cancer analysis-11项目组的多个分析比较中,通常我们的方法只需6个小时左右就能算完2千6百多个癌基因组的集群结构推断,而其他组则需要2到4个星期来完成。 这快速、精准的推断为下游分析验证提供了充裕的时间。
这是和Nik-Zainal 等 2012 Cell文章i的方法比较,同时也囊括了最流行的PyClone。 集群结构的精度和Nik-Zainal et al 2012的结果一致。
我们方法Sclust计算时间和其他的方法相比较的结果。
Sclust和主流的软件相比,功能很大。
相关文献:
CunY., et al.; Copy number analysis and inference of subclonal populations incancer genomes using Sclust; Nature Protocols; 2018(已接收)
Peifer M. et al, Integrative genome analyses identify key somatic driver mutations of small-cell lung cancer. Nat Genet. 2012 Oct;44(10):1104-10. doi: 10.1038/ng.2396. 2012
George J, Lim JS, Jang SJ, Cun Y, et al., Comprehensive genomic profiles of small cell lung cancer. Nature. 2015 Aug 6;524(7563):47-53. doi: 10.1038/nature14664. 2015
Peifer M. et al,Telomerase activation by genomic rearrangements in high-risk neuroblastoma. Nature. 2015 Oct 29;526(7575):700-4. doi: 10.1038/nature14980. Epub 2015 Oct 14.
Herling CD et al., Clonal dynamics towards the development of venetoclax resistance in chronic lymphocytic leukemia. Nat Commun. 2018 Feb 20;9(1):727. doi: 10.1038/s41467-018-03170-7. 2018
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 11:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社