李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

SPRING: 一个新的 FASTQ 数据压缩工具

已有 4006 次阅读 2018-12-13 09:37 |系统分类:论文交流

高通量技术产生的巨量数据是以包含短的基因组序列、对应的质量数值和序列名称这些数据块的形式存在的。因为FASTQ数据集中这一显著的数据结构,通用的文件压缩工具(gzip, bzip2 等)不能很好地利用许多可继承地信息冗余。尽管现在已设计开发过很多 FASTQ 压缩工具,比如之前介绍过的 Quip 软件(《利用Quip软件压缩FASTQ/SAM/BAM文件》)。之前发表的FASTQ 压缩工具大多不具备一条或多条下面这些关键特性,支持可变序列长度、支持高覆盖度的数据、双末端数据压缩和无损压缩。


2018年12月7日,《Bioinformatics》发表了 SPRING 软件的论文,该软件是一个不依赖参考基因组的 FASTQ 文件的压缩工具。SPRING 支持多种压缩模式和特性,包括无损压缩、双末端数据压缩、质量数值的有损压缩、长序列压缩和随机读取。SPRING 软件相比于现有工具具有较大提高,例如 SPRING 可以把 25X 的人类全集因组数据 195 GB 的 Illumina NovaSeq 测序仪生成的 FASTQ 文件压缩到 7 GB,比之前最先进的 FASTQ 压缩工具小 1.6 倍。不过,SPRING 获得这样的改进需要消耗可观的计算资源。


SPRING 的的源代码地址:https://github.com/shubhamchandak94/SPRING



参考文献:

  1. Shubham Chandak, Kedar Tatwawadi, Idoia Ochoa, Mikel Hernaez, Tsachy Weissman. SPRING: A next-generation compressor for FASTQ data. https://doi.org/10.1093/bioinformatics/bty1015

  2. https://github.com/shubhamchandak94/Spring


欢迎关注“植物基因组”微信公众号


搜索微信公众号“植物基因组”或“plant-genomes”关注




https://blog.sciencenet.cn/blog-656335-1151292.html

上一篇:MapOptics: 一个轻量的、跨平台的光学图谱 alignment 数据可视化工具
下一篇:【基因编辑】CRISPR-Local: 无参本地设计 sgRNA
收藏 IP: 202.127.144.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 05:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部