LLina的个人博客分享 http://blog.sciencenet.cn/u/LLina

博文

三点搞定GEO数据上传

已有 13999 次阅读 2016-10-26 10:39 |系统分类:科研笔记

做芯片或测序相关实验,发表文章有时需将数据上传至GEO,获得相应的ID号。

那如何上传呢?

今天在这里给大家整理了一份操作指南

1st GEO简介

GEO,Gene Expression Omnibus的简称,是NCBI旗下的一个分支数据库,其主要存储高通量功能基因组学数据,如芯片和测序的数据。GEO分为GEO DataSets数据库和GEO Profiles数据库,GEO DataSets 收录整个试验的数据GEO Profiles则收录一个基因在一次试验中的定量表达数据


接受数据类型:原始数据或者经过处理的数据(符合“有关芯片试验的最小信息(minimum information about a microarray experiment,MIAME)”标准)
存储数据格式:web格式、spreadsheets格式、XML格式和纯文本格式


2nd 上传步骤
那具体如何上传呢?
很简单,准备三样东西即可,注册一个上传的账号在GEO上下载一份信息填写模板最后将表格和你的原始数据打包上传即可,流程图如下:


下面我们来看看具体如何操作。


1
登录或注册NCBI账号

https://www.ncbi.nlm.nih.gov/
NCBI支持第三方账号登陆,可用google或NIH账号等。

2 获取GEO account

上传数据除了NCBI账号,还需另外获取一个GEO account。若3个月之内没有数据上传,则GEO账号会被删除。
登陆GEO数据库https://www.ncbi.nlm.nih.gov/geo/,在上传者信息板块中点击登陆,填写相关信息,获取GEO账号。


默认数据上传者和注册者为同一个人,若不是,可将上传者的信息填于右侧信息栏中。



3下载信息表格模板

登陆账号后,上传者信息栏如下所示,点击上传指南进入上传界面。


上传界面如下所示,若首次上传,可在GEOarchive下的complete instructions中查看上传所需文档的详细解释。
根据自己试验平台在数据类型中选择相应类型,如点击Affymetrix进入affy芯片提交指南。



Affy芯片提交界面如下图所示,第一个红框中列出了上传所需要的文件列表,matadata表, processed表(matrix表)及CEL格式的原始数据

matadata表和matrix表是表格中的两个子表,在下方即可下载但需根据芯片类型选择相应的表格


4 表格填写

信息表格填写是最重要也是最费时的一步,GEO为方便广大用户,每一栏都有相应的注释信息,并在后面附有示例表格作为参考。
metadata表,主要填写跟文章相关的样本信息和实验信息。matrix表,将项目中归一化数据复制粘贴进去即可。

metadata表


matrix表


在metadata表中的sample板块,填写芯片名字或GEO platform ID可回到GEOarchive界面的complete instructions中进行查找。

平台信息



5打包上传

将填好的表格和原始数据打包,重命名进行上传,选择上传类型及数据公开时间


6 审核

上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日,经审核数据没有问题,GEO会以邮件形式通知数据的GSM(实验样本编号)、GSE(研究项目编号)。


如何让GEO尽快发布数据,还有一个小窍门,戳原文获取






http://blog.sciencenet.cn/blog-3227893-1010931.html

上一篇:芯片Meta分析,菜鸟进阶第一步
下一篇:轻松发4.5分SCI,你也可以的

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-16 23:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部