|
GEO数据库
Gene Expression Omnibus(GEO)是美国NCBI开发的一个大型综合数据库,它存储了超过500万个样品的芯片/测序原始数据文件。因为数据一般可公开获得且免费使用,所以GEO已经成为生物医学研究者最喜爱的网站之一。芯片或/和测序原始数据上传GEO,分配GEO号,以保证数据的可重复性,几乎是发文必备。
图1. GEO数据库
Fastq文件
Fastq文件是二代测序的下机原始文件,以文本文件格式存储了每条测序read的碱基和测序质量分数。如图2所示:每4行为一条read,第一行以@开头,描述了测序仪编号、flowcell号,lane号,tile号,cluster的X/Y坐标等信息;第二行为所测read的碱基;第三行为其他描述信息,一般为+;第4行为碱基质量分数。
图2. Fastq文件格式
校验Fastq文件正确性及验证文件完整性
随着测序成本的降低和读长的增加,一次测序往往产生数亿条reads,导致fastq文件越来越大,每个文件高达几GB甚至几十GB。这么大的数据一般通过网络或者快递硬盘传输,然而由于网络延迟、中断,硬盘读写、插拔等非人为或者人为原因,会造成fastq文件损坏、不完整。这给数据分析人员带来了极大困难 -- 文件损坏就无法分析,无法上传GEO,相当于这个样品的测序结果无效,钱白花了。因此我们迫切需要对fastq文件进行校验,并验证测序仪下机文件与你收到的文件是否一致。
使用seqkit软件校验fastq文件
seqkit是沈伟老师开发的一款fasta/fastq文件处理“瑞士军刀”软件。这里,我们使用子命令stats统计fastq文件的reads数、碱基数、Q30等信息,以完成对fastq文件的校验。
命令:seqkit stats -a sample_R1.fastq.gz -T -j 4
参数说明:
-a 指定待校验的fastq文件(支持gzip压缩)
-T 结果以制表符(\t)分割
-j 使用的CPU数,默认4
图3. seqkit校验结果
如图3所示,上面的为正确的fastq格式,校验成功,输出Q30,reads数等信息;而下面的为错误的fastq格式,报“序列长度和质量分数长度不同”的错误,表明该文件是一个无效的fastq文件。出现无效fastq文件的原因主要是“数据传输不完整”,当然也包括其他人为错误。例如miRNA测序一般将150 bp裁剪为50 bp,新手可能仅切了序列行,而忘了切质量分数行。
来自GEO工作人员的常见报错反馈包括:
invalid compressed data--format violated,无效的压缩数据 – 违反格式
invalid compressed data--crc error,无效的压缩数据 – 循环冗余校验码 (CRC)出错
invalid compressed data--length error,无效的压缩数据 – 长度错误
md5值
我们一般使用文件的md5值来验证文件的完整性,以判断文件是否被篡改。MD5是报文摘要算法5(Message-Digest Algorithm 5)的缩写,该算法对任意长度的信息逐位进行计算,产生一个二进制长度为128位(十六进制长度就是32位)的“指纹”(或称“报文摘要”),不同的文件产生相同的报文摘要的可能性非常小。
一般情况下,下机fastq文件的md5值会与原始fastq文件一起返回给用户,因此,如果下机文件的md5值和你重新计算的md5值完全匹配,则说明你收到的文件跟下机文件是一致的。如果两者不一致,则说明你收到的文件可能出错了,需要立即找原始数据提供者重新提供。一般会有一个缓冲期(例如1个月),过了缓冲期才会删掉数据。
计算md5值
我们可以借助第三方软件,或者使用系统命令来计算文件的md5值。
Win10系统:Certutil -hashfile sample.fastq.gz md5
Linux系统:md5sum sample.fastq.gz
Mac系统:md5 sample.fastq.gz
注意:
1)md5sum 是校验文件内容,与文件名是否相同无关
2)md5sum值逐位校验,所以文件越大,校验时间越长
图4. Fastq文件及md5值
情况1:左侧的fastq文件有效,且左右两侧md5值相等,确定右侧的fastq也有效
情况2:左侧的fastq文件无效,虽然左右两侧md5值相等,但两侧的fastq均无效
情况3:左侧的fastq文件有效,左右两侧的md5值不相等,确定右侧的fastq无效
因此,我们在拿到原始数据,或者将原始数据上传GEO数据库前,首先需要校验fastq文件的正确性(即文件是否符合fastq文件的标准)并验证文件的完整性(从上游数据提供者那里拿到的数据是否完整)。这样双重保险,避免文件损坏,实验白做。
微生信助力高分文章,用户74000+,引用1000+
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 20:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社