|
高通量技术产生的巨量数据是以包含短的基因组序列、对应的质量数值和序列名称这些数据块的形式存在的。因为FASTQ数据集中这一显著的数据结构,通用的文件压缩工具(gzip, bzip2 等)不能很好地利用许多可继承地信息冗余。尽管现在已设计开发过很多 FASTQ 压缩工具,比如之前介绍过的 Quip 软件(《利用Quip软件压缩FASTQ/SAM/BAM文件》)。之前发表的FASTQ 压缩工具大多不具备一条或多条下面这些关键特性,支持可变序列长度、支持高覆盖度的数据、双末端数据压缩和无损压缩。
2018年12月7日,《Bioinformatics》发表了 SPRING 软件的论文,该软件是一个不依赖参考基因组的 FASTQ 文件的压缩工具。SPRING 支持多种压缩模式和特性,包括无损压缩、双末端数据压缩、质量数值的有损压缩、长序列压缩和随机读取。SPRING 软件相比于现有工具具有较大提高,例如 SPRING 可以把 25X 的人类全集因组数据 195 GB 的 Illumina NovaSeq 测序仪生成的 FASTQ 文件压缩到 7 GB,比之前最先进的 FASTQ 压缩工具小 1.6 倍。不过,SPRING 获得这样的改进需要消耗可观的计算资源。
SPRING 的的源代码地址:https://github.com/shubhamchandak94/SPRING
参考文献:
Shubham Chandak, Kedar Tatwawadi, Idoia Ochoa, Mikel Hernaez, Tsachy Weissman. SPRING: A next-generation compressor for FASTQ data. https://doi.org/10.1093/bioinformatics/bty1015
https://github.com/shubhamchandak94/Spring
欢迎关注“植物基因组”微信公众号
搜索微信公众号“植物基因组”或“plant-genomes”关注
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 09:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社