jiyanbio1983的个人博客分享 http://blog.sciencenet.cn/u/jiyanbio1983

博文

“如何玩转生物大数据”系列:ENCODE数据分析经验分享(一)

已有 14771 次阅读 2017-7-17 13:55 |个人分类:生物信息|系统分类:科研笔记

ENCODE是一个伟大的项目,目的是创建基因组注释目录。该项目通过各种实验技术,研究了近千种细胞系和组织。ENCODE的访问网址,https://www.encodeproject.org/。




ENCODE数据分析有一定难度,这里我分享一些经验和资料。


首先,面对一个ENCODE dataset,建议先问下面七个问题,它们有助于引出思路:

  • 用的是什么assays?

  • 这些assay测的是什么?

  • 样本来源于哪些器官?

  • 样本来源于哪些亚细胞结构?

  • 样本是有细胞周期注释?

  • 对样本用了哪些转染方法?

  • 样本的给药信息?


元数据

所有ENCODE实验数据,元数据和相关的计算分析都提交给ENCODE数据协调中心(DCC)。随着基因组数据库越来越大,互联越来越多,元数据的标准化对于允许不同科学项目之间的数据进行勘探和比较变得越来越重要。ENCODE DCC使用本体来标准化实验元数据。


下面,列举出一些常用的ontologies:

  • Tissues: Uber Anatomy Ontology (UBERON), http://uberon.github.io/

  • Primary cells: Cell Ontology (CL), http://cellontology.org/

  • Immortalized cell lines: Experimental Factor Ontology (EFO), http://www.ebi.ac.uk/efo/

  • Experimental assays (such as RNA-seq, ChIP-seq): Ontology for Biomedical Investigations (OBI),http://obi-ontology.org/page/Main_Page

  • Chemical treatments (such as estradiol, ethanol): Chemical Entities of Biological Interest (ChEBI), http://www.ebi.ac.uk/chebi/


有一篇文章详细描述了ENCODE Ontologies,推荐阅读。它的标题是“Ontology application and use at the ENCODE DCC”,链接 http://europepmc.org/articles/PMC4360730。


质量控制

ENCODE有很严格的数据质量控制,https://www.encodeproject.org/data-standards/。它的一些指标已经成为了标准。质量度量的典型值可以在不同测定中,或者甚至在相同测定中的不同特征之间变化,例如在ChIP-seq实验中使用的抗体。 目前,没有一个单一的测量可以识别所有高品质或低质量的样品。 与其他类型实验的质量控制一样,多次评估(包括手动检查曲目)是有用的,因为不同的评估可能会引起不同的关注。 实验方法之间的比较(例如,比较彼此的重复,比较几种细胞类型中的一种抗体的值,或者比较不同实验室之间的相同抗体和细胞类型)可帮助识别可能的随机误差。ENCODE使用这些措施制定标准,详细列出优秀,可通过和不良数据的标准。


分析工具

ENCODE项目的目标是生成所有功能元素的综合目录。为了促进这个任务,联盟成员开发和完善了软件工具。https://www.encodeproject.org/software/。


  1. Software tools used to identify ENCODE elements(https://www.encodeproject.org/search/?type=software&used_by=ENCODE): On this page are brief descriptions of some of the software used to identify ENCODE elements. Software for identification of functional elements, for integrated analysis of multiple data types, and for quality measurement of the data are described.

  2. Software tools used to generate ENCODE quality metrics(https://www.encodeproject.org/search/?type=software&used_by=ENCODE&software_type=quality%20metric): On this page are brief descriptions of some of the software used to generate quality metrics for ENCODE datasets.

  3. External software tools used to create the ENCODE resource(https://www.encodeproject.org/search/?type=software&references.published_by=community&used_by=ENCODE): On this page are brief descriptions of some of the software used to create the ENCODE resource.  This software was not funded by ENCODE, or developed by the consortium.

  4. Software tools and resources for applying and analyzing ENCODE data(https://www.encodeproject.org/search/?type=software&purpose=community%20resource): On this page are brief descriptions of software and resources that others might find useful for analyzing and using ENCODE data in their own research.


其他推荐:

1,nature上ENCODE系列文章:http://www.nature.com/encode/category/research-papers

2,ENCODE raw data处理软件列表:

http://genome.med.umich.edu/ENCODE/encodeTools.html

3,ENCODE data的高级分析工具: http://genome.ucsc.edu/ENCODE/analysisTools.html

4,UCSC的ENCODE的可视化:http://genome.ucsc.edu/ENCODE/

5,Ensembl的ENCODE教程:http://www.ensembl.org/info/website/tutorials/encode.html

6,ENCODE的升级版项目ROADMAP:

http://www.encode-roadmap.org/,http://epigenomesportal.ca/ihec/



关注“如何玩转生物大数据”微信公众号,及时获取更多内容







https://blog.sciencenet.cn/blog-3291578-1066782.html

上一篇:“如何玩转生物大数据”系列:基于ArrayExpress网站快速搜索功能
下一篇:“如何玩转生物大数据”系列:理解ENCODE metadata
收藏 IP: 202.127.20.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 00:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部