||| |
相信经常做SNP或者SNV突变位点研究的人,对GATK的名字一定很熟悉,它的全称是Genome Analysis ToolKit,是一款从高通量测序数据中分析变异信息的软件。GATK主要用于人类的全基因组和外显子组的测序数据,目前大部分数据来源于Illumina测序平台。当然,随着技术不断发展,现在也可以用于其他物种的分析,也支持Copy Number Variation和Structure Variation的检测。目前最新版本是4.0.4.0, 即GATK4,与之前的版本相比,版本4在算法上进行了优化,运行速率有所提高,同时也整合了picard软件的功能。
GATK软件提供了5套完整分析流程,我们一般叫它 GATK Best Practices: 1) Germline SNPs + Indels; 2) Somatic SNVs + Indels; 3) RNAseq SNPs + Indels; 4) Germline CNVs; 5) Somatic CNVs。 可以看到,GATK 更多的是倾向于DNA 测序数据的分析,主要识别SNP和CNV 两大类型的变异。详细可以见官网的描述:https://software.broadinstitute.org/gatk/documentation/。
这里我们主要讨论一下 Somatic SNVs + Indels这套分析流程中的故事。研究癌症,寻找somatic 突变是必不可少的一步。 通常癌症研究是将正常组织和癌症组织一起进行全基因组测序或者全外显子组测序,然后过滤掉种系突变(Germline mutation),从而获得肿瘤组织的体细胞突变(Somatic mutation)。当然,我们也要注意很多影响因素对我们寻找somatic突变的作用,包括受到测序文库、测序深度、肿瘤纯度以及软件缺陷等等因素的影响。例如,由于一些肿瘤切片组织含有过多的正常组织细胞,会对肿瘤细胞造成干扰;肿瘤突变可能是异质性的;一些突变常常是非整倍性的,如拷贝数变异导致的。所以选择好的软件,很好的理解软件的使用,对得到可靠的结果,并做出合理解释是非常有帮助的。
这里我们讨论一下GATK最新版本GATK4的Mutect2与之前的版本GATK3的MuTect2之间的差异。
首先,我们可以从名字的设定上就有差别:GATK3的MuTect2是大写的T,而GATK4的Mutect2是小写的t。这样的设计,可以让我们很好地区分它们是不同的版本软件,另外我们在type输入命令的时候也很容易,不用切换大小写。
下面我们再给出两个版本GATK 的不同工作流程(Workflow)参数用法:
从上表中我们可以看到,GATK3对calling variants和过滤somatic calls都是用的MuTect2,而GATK4则是选择Mutect2进行calling,而过滤用的是一个独立工具 FilterMutectCalls。另外一个很大的区别是如果一个突变位点在匹配的正常组织中出现,或者是在注释库如dbSNP中出现,则GATK3 MuTect2是不对这位点call somatic的;这是因为根据随机突变假说,这样的位点要么不太会是somatic突变。而GATK4 Mutect2会充分考虑germline的位点和是否与Tumor位点匹配(matched)。详见下表的解释:
需要注意的是由于一些样品制备、测序以及序列配对过程中会产生系统性的误差,会在calling somatic突变中形成噪音。同时,GATK4 Mutect2主要是根据对正常-肿瘤样本进行位点比较寻找somatic突变,如果没有正常样本,虽然GATK4 Mutect2软件也能正常跑通产生结果,但假阳性或者说噪音也会很高。因此需要利用多个匹配的normal样本,然后使用GATK4 Mutect2中与癌症样本使用相同参数,构建一个PoN库;如果有了这种PoN库,GATK4 Mutect2会在局部重组装,有助于过滤掉常见的germline突变位点。这期就介绍到这里,敬请期待!
生信草堂
浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!
加微信bioinformatics88拉您进生信交流群
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-30 02:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社