|
01
—
2019 年 3 月 27 日,Bioinforamtics 杂志上在线发表了由 Verily 生命科学公司、Google 公司和卡耐基·梅隆大学的学者完成的 GenomeWarp 工具,是一个基于 alignment 的变异数据坐标转换工具。GenomeWarp 相比于其它同类软件的优势在于可以精确转换 gVCF 格式的文件。
02
—
大家在使用 GATK 时可能会注意到,GATK HaplotypeCaller 是可以输出 Genome VCF (gVCF) 格式的变异数据文件的。GATK 也集成了很多处理 gVCF 格式的文件的工具。gVCF 格式与 VCF 格式的关键区别在于 gVCF 包含所有位点的记录,也就是既包括存在变异的位点,也包括不存在变异的位点。这样做的目的是为了方便后续的群体分析(方便合并不同批次获得的变异数据)。gVCF 格式还包含每一个位点与参考基因组序列相同的可信度。两者的差异也如下图所示,可以看出 gVCF 多出很多 non-var block records。
(https://gatkforums.broadinstitute.org/gatk/discussion/4017/what-is-a-gvcf-and-how-is-it-different-from-a-regular-vcf)
03
—
在基因组学研究的过程中,参考基因组会不断改进,以纠正错误或填补 gap。对于通过旧版本的参考基因组获得变异数据文件,往往需要转换坐标以反映新的基因组组装。目前已经存在很多坐标转换的工具,比如 UCSC LiftOver 和 CrossMap。这些工具支持多种格式的转换,包括 BAM、BED、BigWig、GFF、GTF、SAM、Wiggle 和 VCF。但都不支持精确地转换 gVCF 格式。
这篇论文报道的 GenomeWarp 软件可以在不同的基因组版本之间高效地转换变异数据。GenomeWarp 以一种保守的方式转换数据,以减少假阳性和阴性变异。作者用一组人类基因组的数据做了测试,将参考基因组 GRCh37 转换为 GRCh38,结果发现超过 99.9% 地区域可以成功转换。同时 GenomeWarp 对计算资源的消耗并不大,速度也比较快。下图为 GenomeWarp 在不同 assemblies 之间转换坐标的算法示例。
04
—
GenomeWarp 的源代码地址为:https://github.com/verilylifesciences/genomewarp。软件由 Java 编写,可以跨平台运行。
GenomeWarp 的运行需要以下五个文件:
一个 BED 文件定义 query assembly 的可信区域;
一个 VCF 文件包含 query assembly 中的变异数据(可信区域外的变异数据会被忽略掉);
一个 FASTA 格式的 query assembly 的序列;
一个 FASTA 格式的 target assembly 的序列;
一个 Chain 格式的从 query assembly 到 target assembly 的坐标转换情况。
GenomeWarp 运行的命令如下:
参考文献:
McLean CY, Hwang Y, Poplin R, DePristo MA. GenomeWarp: an alignment-based variant coordinate transformation. Bioinforamtics, 2019, btz218. https://doi.org/10.1093/bioinformatics/btz218
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 13:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社