微生信分享 http://blog.sciencenet.cn/u/chinapubmed 0代码在线绘制160+科研图

博文

为什么上传GEO前需要校验fastq文件正确性,并使用md5值验证文件完整性?

已有 2281 次阅读 2023-3-5 10:58 |系统分类:科研笔记

GEO数据库

Gene Expression OmnibusGEO)是美国NCBI开发的一个大型综合数据库,它存储了超过500万个样品的芯片/测序原始数据文件。因为数据一般可公开获得且免费使用,所以GEO已经成为生物医学研究者最喜爱的网站之一。芯片或/和测序原始数据上传GEO,分配GEO号,以保证数据的可重复性,几乎是发文必备。

fig1.png

1. GEO数据库

Fastq文件

Fastq文件是二代测序的下机原始文件,以文本文件格式存储了每条测序read的碱基和测序质量分数。如图2所示:每4行为一条read第一行以@开头,描述了测序仪编号、flowcell号,lane号,tile号,clusterX/Y坐标等信息;第二行为所测read的碱基;第三行为其他描述信息,一般为+;第4行为碱基质量分数。

fig2.png

2. Fastq文件格式

校验Fastq文件正确性及验证文件完整性

随着测序成本的降低和读长的增加,一次测序往往产生数亿条reads,导致fastq文件越来越大,每个文件高达几GB甚至几十GB。这么大的数据一般通过网络或者快递硬盘传输,然而由于网络延迟、中断,硬盘读写、插拔等非人为或者人为原因,会造成fastq文件损坏、不完整。这给数据分析人员带来了极大困难 -- 文件损坏就无法分析,无法上传GEO,相当于这个样品的测序结果无效,钱白花了。因此我们迫切需要对fastq文件进行校验,并验证测序仪下机文件与你收到的文件是否一致。 

使用seqkit软件校验fastq文件

seqkit是沈伟老师开发的一款fasta/fastq文件处理“瑞士军刀”软件。这里,我们使用子命令stats统计fastq文件的reads数、碱基数、Q30等信息,以完成对fastq文件的校验。

命令:seqkit stats -a sample_R1.fastq.gz -T -j 4

参数说明:

-a    指定待校验的fastq文件(支持gzip压缩)

-T   结果以制表符(\t)分割

-j     使用的CPU数,默认4

fig3.png

图3. seqkit校验结果

如图3所示,上面的为正确的fastq格式,校验成功,输出Q30reads数等信息;而下面的为错误的fastq格式,报“序列长度和质量分数长度不同”的错误,表明该文件是一个无效的fastq文件。出现无效fastq文件的原因主要是“数据传输不完整”,当然也包括其他人为错误。例如miRNA测序一般将150 bp裁剪为50 bp,新手可能仅切了序列行,而忘了切质量分数行。

来自GEO工作人员的常见报错反馈包括:

invalid compressed data--format violated,无效的压缩数据 – 违反格式

invalid compressed data--crc error,无效的压缩数据 – 循环冗余校验码 (CRC)出错

invalid compressed data--length error,无效的压缩数据 – 长度错误

md5值

我们一般使用文件的md5值来验证文件的完整性,以判断文件是否被篡改。MD5是报文摘要算法5(Message-Digest Algorithm 5)的缩写,该算法对任意长度的信息逐位进行计算,产生一个二进制长度为128位(十六进制长度就是32位)的“指纹”(或称“报文摘要”),不同的文件产生相同的报文摘要的可能性非常小。

一般情况下,下机fastq文件的md5值会与原始fastq文件一起返回给用户,因此,如果下机文件的md5值和你重新计算的md5值完全匹配,则说明你收到的文件跟下机文件是一致的。如果两者不一致,则说明你收到的文件可能出错了,需要立即找原始数据提供者重新提供。一般会有一个缓冲期(例如1个月),过了缓冲期才会删掉数据。

计算md5值

我们可以借助第三方软件,或者使用系统命令来计算文件的md5值。

Win10系统:Certutil -hashfile sample.fastq.gz md5

Linux系统:md5sum sample.fastq.gz

Mac系统:md5 sample.fastq.gz 

注意:

1)md5sum 是校验文件内容,与文件名是否相同无关

2)md5sum值逐位校验,所以文件越大,校验时间越长

fig4.png

图4. Fastq文件及md5值

情况1:左侧的fastq文件有效,且左右两侧md5值相等,确定右侧的fastq也有效

情况2:左侧的fastq文件无效,虽然左右两侧md5值相等,但两侧的fastq均无效

情况3:左侧的fastq文件有效,左右两侧的md5值不相等,确定右侧的fastq无效 

因此,我们在拿到原始数据,或者将原始数据上传GEO数据库前,首先需要校验fastq文件的正确性(即文件是否符合fastq文件的标准)并验证文件的完整性(从上游数据提供者那里拿到的数据是否完整)。这样双重保险,避免文件损坏,实验白做。

微生信助力高分文章,用户74000+,引用1000+




https://blog.sciencenet.cn/blog-707141-1378970.html

上一篇:使用ChIPSeeker进行ChIP-seq, ATAC-seq,cut&tag等富集峰的基因组注释
下一篇:同样都是鸾尾花iris数据,为什么PCA图相反?
收藏 IP: 114.84.52.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 20:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部