||| |
说起基因组分析,人们第一想到的往往是作为黄金标准的GATK。GATK最新出到了4.0.12版本,准确度上有了进一步的提高,其引用率从2010年到现在更是达到了9000+,可见其受欢迎的程度。但是,随着技术的进步和大量生信人员发文章的需求,总会有一些软件出来挑战GATK的地位,本次笔者依据18年发表在SCIENTIFIC REPORTS的一篇文章来为大家介绍下两个很有潜力的软件,DeepVariant和SpeedSeq。
DeepVariant是基于谷歌的TensorFlow训练开发的,通过卷积神经网络(CNN)模型对已知样本进行训练得到了一个可以在低覆盖度测序样本分析时显著提高准确度的软件。该软件18年发表在nature biotechnology上,笔者认为,基于TensorFlow深度学习的火爆程度,估计很多国内大牛课题组都想发表一篇TensorFlow相关的提高生信分析准确度的高分文章。而现在WGS分析的已经被抢先了,可见做分析不但要紧密的学习世界上最新的技术,还要加班加点的和世界范围内的竞争者赛跑!
本文的另个一软件SpeedSeq于2016年发表在nat methods上,以提高分析效率著称,分析精确度稍逊于GATK,通过笔者的使用发现,其使用方法也比GATK容易很多,软件安装简单,只是第一步从git上下载时速度稍慢。SpeedSeq更像是集成了很多软件的pipeline,由shell脚本进行了封装,对于喜欢用shell写流程的笔者来说在此感到很满意!更让笔者满意的是,SpeedSeq的安装文件里自带了cnvnator,这是分析CNV最常用的软件之一,经常有人安装时翻车,之前笔者自己装了两次都没装成功,后来借着SpeedSeq竟然装成功了!
下面简单介绍下文章内容,首先作者绘制了目前WGS的应用图谱:
作者使用了NA12878作为参考样本对三款软件的效果进行了评估,发现DeepVariant在三款软件中有着最优异的表现。具体效果如下表所示,在30X数据的SNV分析中,DeepVariant、Speedseq和GATK4.0的F1 score分别为0.98048、0.97698和0.978159,DeepVariant得分略微胜出。随着测序深度的下降,DeepVariant的得分优势越来越明显,在10X数据的SNV分析中,DeepVariant的0.946459相对于GATK4.0的0.938647分有轻度领先,而相对于Speedseq的0.905934已经有了大幅的领先。
目前来说INDEL分析的准确度低于SNV分析,所有软件的得分普遍有限。在三款软件的INDEL比对分析中,DeepVariant的优势更加明显,在30X中的得分为0.943685,而同期的Speedseq和GATK4.0得分分别只有0.838796和0.902112。在测序深度降到10X之后,DeepVariant的得分降到了0.837433,而SpeedSeq和GATK4.0则降到了0.704578和0.771742。DeepVariant在10X的F1 score得分和GATK4.0在15X的得分一致,可以看到DeepVariant有助于降低WGS分析的测序成本。
在文章的最后,作者提了点速度方面的问题,DeepVariant的最小硬件环境为16GB RAM,SpeedSeq在72 core/100GB RAM的服务器上单个样品的时间可以降到3小时/样本,但是如果给DeepVariant用上4 GB的显存和CUDA计算,则每个样本的时间可以再降低50%。
最后笔者稍微总结一下,目前看来,基于神经网络的DeepVariant前途一片光明,而speedseq借助于其较快的速度仍有助于其挤占GATK一定的份额。GATK在升级到4.0后算法上有了改进,其黄金标准的地位目前来说依旧不会动摇。而未来是谁的天下,就不好说了。
生信草堂
浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!
加微信bioinformatics88拉您进生信交流群
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-8 17:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社