微生信分享 http://blog.sciencenet.cn/u/chinapubmed 0代码在线绘制160+科研图

博文

NCBI GEO王炸:GEO2R直接分析RNA-seq数据,几家欢喜几家愁?

已有 2564 次阅读 2023-7-15 11:56 |系统分类:科研笔记

GEO2RNCBI GEO团队针对上传到GEO的芯片数据开发的一款在线差异分析、可视化作图工具,是广大数据分析人员的福音。然而,一直以来GEO2R仅针对芯片数据,对于越来越多的测序数据,只能下载所上传的matrix矩阵,进行分析,若没有上传表达矩阵,或者基因组版本不合适的话,往往还得下载原始数据重新分析,耗时耗力。

最近,NCBI GEO团队推出了一项“王炸”更新:GEO2R可以直接分析RNA-seq测序数据了

 

小伙伴们:喜大泪奔(喜闻乐见、大快人心、普天同庆、奔走相告)!

同事和我:工作要丢了么?时代抛弃我,连声招呼都不打啊!

111.gif

1,NCBI GEO为什么要给我们准备RNA-seq count数据?

A major barrier to fully exploiting and reanalyzing the massive volumes of public RNA-seq data archived by SRA is the cost and effort required to consistently process raw RNA-seq reads into concise formats that summarize the expression results. To help address this need, the NCBI SRA and GEO teams have built a pipeline that precomputes RNA-seq gene expression counts and delivers them as count matrices that may be incorporated into commonly used differential expression analysis and visualization software.

 

大白话就是:SRA服务器上存了大量数据,一般人要分析,得下载,得比对,费时费力,反正数据在他们NCBI服务器上,服务器闲着也是闲着,直接套个pipelineRNA-seq基因表达count处理好,放出来供大家使用。不知道又要革了多少人的命。

fig1.png

2,支持的物种

目前仅人类。小鼠的在路上,预计2023年秋。

3,数据类型:

raw count:可以下载用DESeq2edgeR或者limma voom进行后续的差异分析。

Normalized counts:根据测序深度和测序长度标准化的count,包括:FPKM Fragments Per Kilobase Million,双端)、RPKMReads Per Kilobase Million,单端)和TPMTranscripts Per Kilobase Million

注释:基因idgene symboldescrptiongene ontology等。fig2.png

4,分析流程

使用hisat2将物种为human,类型为transcriptomic的数据比对到GCA_000001405.15 参考基因组上。比对率大于50%的用featureCounts输出raw count文件。注释数据库用的Annotation Release 109.20190905.

5,如何下载?

https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE164073

直接换成自己的GSE号就行了

6,局限

GEO上的数据太杂了,GEO team没有对数据质量等深入检查(合不合适他们不管,先跑了再说),所以有以下局限性:

1counts表达矩阵可能跟已发表文章的不一致

这个很容易理解,不同软件,甚至不同版本算出来的都不一样。

2)超过50%比对率的transcriptomic数据用于分析,所以质检可能很松,并且缺样品

上传的数据类型多样,可能不能直接比较,例如RNA-seqRIP-seq都在矩阵里,但是不好直接比较。

3Normalized矩阵文件并非充分标准化的。 

对生信数据分析行业带来的冲击:

1GEORNA-seq分析几乎要变得免费,无门槛了

2)有了表达矩阵,直接省了下载、比对的时间,极大提高了工作效率

3)有了统一标准?

4)大规模利用GEO数据的时代又来了

5)伦理问题

欢迎留言讨论!

原文:https://www.ncbi.nlm.nih.gov/geo/info/rnaseqcounts.html

微生信助力高分文章,用户100000+,引用1500+



https://blog.sciencenet.cn/blog-707141-1395441.html

上一篇:微生信云平台注册用户突破100000
下一篇:微生信 -- 0代码科研绘图,助力发高分文章
收藏 IP: 114.84.44.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 03:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部