崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

GEO:基因表达大棚车(Gene Expression Omnibus)

已有 30337 次阅读 2008-10-12 08:27 |个人分类:生物信息学| 数据库, 生物信息学, 基因表达

GEO Database

  近年来,利用高通量方法检测基因表达越来越普及,诸如微阵列杂交和基因表系列分析(SAGE)可以同时测量数以万计的基因转录脚本(gene transcript)。基因表达大棚车(GEOGene Expression Omnibus)则是归档和自由分发科研人员提交的高通量基因表达数据的公共仓库。目前,GEO存储了大约10亿单个基因表达的数据,来自于100多种生物,内容广泛涉及到各种生物学问题。这些大容量的数据可以使用用户友好的以Web为基础的工具进行有效的挖掘,检索和可视化表达。GEO的网址是www.ncbi.nih.gov/geo

结构

提交者提供的基因表达数据包括四个部分:

  • 平台:描述阵列的特性。例如,cDNA,寡聚核苷酸等等。
  • 样本:描述处理样本的生物学材料和实验条件,以及从中衍生的各种特点的大量检测。
  • 系列:定义被认为是一个实验的部分内容的一组相关样品。
  • 补充数据:原始微阵列扫描图或者粗糙的定量数据。

样本数据被组装到具有生物学意义并且可以比较的GEO数据集。数据集的记录提供关于实验的综合性的纲要,以此作为GEO数据表现和分析工具的基础。

数据挖掘

GEO中的数据可以通过两个NCBIEntrez数据库查询:

  1. Entrez GEODataSets从实验的角度组织GEO中的数据。感兴趣的实验可以通过查询属性(如自由文本的关键词,技术类型,作者,生物和实验变量信息)检索到,找到相关DataSet后,就可以利用在DataSet记录上的补充工具,进一步查找该实验中感兴趣的基因表达图谱。可以通过:www.ncbi.nih.gov/entrez/query.fcgi?db=gds登录。

GDS记录中可以使用的工具有

l  聚类热图:可选择系统聚类和K-means聚类算法,对于感兴趣的类别可以选定、扩大、下载、plotted as line charts或者将其直接链接到Entrez GEO-Profiles

l  两个查询结果的比较:该工具帮助找到在同一个DataSet中两个特定样本集之间标记出表达水平有差异的基因,差异计算采用T检验或者fold difference。符合用户定义标准的基因在Entrez GEO-Profiles中表达。

l  作用检索:检索到所有标记为对特定实验变量(如“年龄”或者“株”)有显著作用的图谱。

  1. Entrez GEOProfiles从基因的角度组织GEO中的数据,可以通过检索诸如基因名称,GenBank登录号,SAGE标签,GEO登录号,描述或者一些被标注上对特定的实验变量具有重要作用的图谱等属性,找到感兴趣的基因表达图谱(gene expression profile)。Entrez GEOProfiles可以通过:www.ncbi.nih.gov/entrez/query.fcgi?db=geo登录。

Entrez GEO-Profiles结果页面上可以使用的工具有

l  图谱邻居:返回在给定的DataSet中显示相似表达模式的一系列基因。

l  序列邻居:检索通过BLAST计算出来的在核酸序列上相似的相关图谱。

l  同源邻居:检索属于相同同源基因组(HomoloGene)的基因图谱。

l  链接:链接到其他NCBI Entrez 数据库,包括:GenBankPubMedGeneUniGeneOMIMHomologeneTaxonomySAGEMapMapviewer



https://blog.sciencenet.cn/blog-82196-42338.html

上一篇:从文本资源中建立医学本体的方法(节译)
下一篇:MetaMap程序是如何把生物医学文本有效地匹配到一体化医学语言系统的超级词表的
收藏 IP: .*| 热度|

1 唐小卿

发表评论 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 01:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部