微生信分享 http://blog.sciencenet.cn/u/chinapubmed 0代码在线绘制160+科研图

博文

Fastq文件的Q30能达到100%吗?且看Cell文章的神操作

已有 588 次阅读 2024-11-25 10:54 |系统分类:科研笔记

封面.png

 

最近在进行ac4C-seq数据分析时,从GEO上下载了Cell文章“Acetylation of Cytidine in mRNA Promotes Translation Efficiency”的原始数据,发现GSM2724031这个原始文件的Q30竟然是100%。于是总结下,供大家参考。

 1GEO数据库简介

fig1.png

1,芯片,测序原始数据仓库。基因组,转录组,修饰等,但是不存蛋白质谱和代谢数据

2,发文章一般都要上传原始数据,保证数据的可重复性,真实性

3,大量数据共享,可挖掘发文章:没有数据,挖掘GEO;数据不够,GEO来凑

4,数据质量参差不齐,需要自行甄别

2Illumina测序仪下机Fastq原始数据格式

fig2.png 3,质量分数Q计算方法

Q=−10 log10(P)

P是碱基识别的错误概率,来自碱基识别算法(base calling algorithm)并依赖于多少信号被捕获。

fig3.png

 Q30值一般用百分比展示,表示Q值大于30的碱基比例。例如Q30=85.75%表示这个(或者双端时R1+R2fastq文件的全部total个碱基中,有total*0.8575个碱基的Q值都大于30。所以Q30是衡量数据质量的一个很重要的标准。Illumina官方以80%为阈值,实际中一般可以做到95%,甚至更高。虽然理论上Q30可以是100%,但是目前还做不到。

4,测序质量分数为什么越往后越差?

Illumina测序技术基于边合成边测序(Sequencing by Synthesis)的原理,利用DNA聚合酶在模板DNA上逐个添加荧光标记的dNTP,从而实现对DNA序列的测定。在测序初期,由于合成反应尚未完全稳定,因此虽然DNA聚合酶的活性较高,但在高质量区域(通常指测序的前1-30个碱基对)内可能会出现一定的波动。随着测序的进行,合成反应逐渐稳定,但随着时间的推移,DNA聚合酶的活性会逐渐降低,导致特异性下降,从而增加了后续测序过程中出错的概率。

Illumina测序中,随着DNA聚合酶活性的降低,测序错误率也会随之升高,这可能是由于聚合酶保真度降低以及二代测序固有的特点导致的。

5GEOSRA的区别

GEO最开始是存储的芯片数据,包括芯片原始文件,处理过的表格等。后来测序出来后,GEO也开始存储测序的数据,再后来由于原始数据越来越多,越来越大,为了区分就又重开了个存储测序原始数据的SRA。上传到GEO的原始fastq也会随后存到SRA里边。所以,对用户来说,区别就是数据上传到SRA时,可以不用上传processed data,而上传到GEO时,必需上传processed data

  • GEO数据库的数据结构包括PlatformGPL)、SampleGSM)、SeriesGSE)和DatasetGDS)。GSE通常指代一个研究项目,GSM是单个样本的数据,而GDS是整理后的数据分析集。

  • SRA数据库的数据结构包括StudiesERP/SRP)、ExperimentsSRX)、SamplesSRS)和RunsSRR)。Studies代表研究课题,Experiments代表实验设计,Samples代表样本信息,而Runs代表测序结果集

6GEO/SRA对原始fastq的处理

原始下机fastq文件在上传GEO/SRA后,工作人员会对其进行处理,将每条read的测序仪相关信息(read name)去掉,替换成诸如123,或者是SRR123456.1SRR123456.2这种序列编号(2018年前的可能会保留read name信息)。

fig4.png

7GEO/SRA原始fastq下载

一般直接使用sratoolkit来下载。命令为:

prefetch -X 200G SRR123456 -o SRR123456

fastq-dump --split-files -F SRR123456

 

8GEO/SRAfastq文件都是原始下机数据吗?

一般是原始下机数据(read长度完全一样),但是也有去接头之后的clean数据(长度不一样)。

我们来看看GSM2724031的原始文件,下载后,转成fastq文件。

发现这个fastq的质量分数全是?,而其他原始数据不存在这个问题,推测GSM2724031样品的原始fastq文件在上传GEO前,fastq里边的质量分数被人为替换了,替换的原因就无从知晓了,也许“这世界就是个巨大的草台班子”。

fig5.png

微生信助力高分文章,用户230000,谷歌学术4600



https://blog.sciencenet.cn/blog-707141-1461558.html

上一篇:在线绘制Nature Communication同款双X轴富集分析结果条形图+折线图
下一篇:生信入门第十一课​:基因集富集分析( Gene Set Enrichment Analysis,GSEA)原理和R代码
收藏 IP: 101.229.186.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 04:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部