科学网

 找回密码
  注册
“如何玩转生物大数据”系列:理解ENCODE metadata
冀颜 2017-7-19 23:30
ENCODE的数据量非常庞大,有将近14000个实验(experiments)。 为了帮助用户方便检索dataset及其metdata,ENCODE提供了网络接口,具体方法见 https://www.encodeproject.org/help/rest-api/ 。它详细解释了检索的URL格式,如何解析返回结果。在结尾“Additional search examples”部分,给出了一些非常好 ...
个人分类: 生物信息|4122 次阅读|没有评论
“如何玩转生物大数据”系列:ENCODE数据分析经验分享(一)
冀颜 2017-7-17 13:55
ENCODE是一个伟大的项目,目的是创建基因组注释目录。该项目通过各种实验技术,研究了近千种细胞系和组织。ENCODE的访问网址, https://www.encodeproject.org/。 ENCODE数据分析有一定难度,这里我分享一些经验和资料。 首先,面对一个ENCODE dataset,建议先问下面七个问题,它们有助于引出思路 ...
个人分类: 生物信息|14794 次阅读|没有评论
“如何玩转生物大数据”系列:基于ArrayExpress网站快速搜索功能
冀颜 2017-7-16 22:19
Find functional genomics data quickly and easily by using ArrayExpress Yan Ji ArrayExpress is a database of functional genomics data ( http://www.ebi.ac.uk/arrayexpress/ ). It stores data from high-throughput functional genomics experiments, and provides these data for reuse to the research com ...
个人分类: 生物信息|8270 次阅读|没有评论
“如何玩转生物大数据”系列:幽门螺旋杆菌感染胃癌样本特异表达
冀颜 2017-7-14 19:27
这个分析是基于公共数据TCGA的胃癌RNASeq表达谱数据。这批数据中,有20个样本 幽门螺旋杆菌 (+),有153个样本 幽门螺旋杆菌 感染(-),其他样本没有检测数据。 差异基因寻找方法:t检验,p value 0.05 当然,还有其他常用的差异基因寻找方法:1) SAM; 2) edgeR or DEseq。这些方法的结果,暂时不公 ...
个人分类: 生物信息|3653 次阅读|没有评论
“如何玩转生物大数据”系列:奇怪的GBMLGG,COADREAD
冀颜 2017-7-13 19:12
自己动手分析过TCGA数据的朋友们,都会遇到这样的肿瘤类型组合 1)GBM,LGG,GBMLGG 2)COAD,READ,COADREAD 我一直认为,既然TCGA这样命名,它们肯定是不同的肿瘤。 BUT! 真想居然是: 1)GBMLGG = GBM + LGG 2)COADREAD = COAD + READ 不多说了,直接上图(venn图,彼此间 ...
个人分类: 生物信息|7804 次阅读|没有评论
“如何玩转生物大数据”系列:TCGA的样本注释信息和数据类型统计
热度 1 冀颜 2017-7-12 21:28
TCGA样本原数据(metadata)可以从 https://portal.gdc.cancer.gov 下载。文件格式是JSON,因此需要一个解析文件的步骤,把JSON转化成便于阅读的表格。有很多工具可以做这件事情,我用的方法是R包httr中fromJSON函数,非常简单,推荐使用。 这里,通过一个例子,展示 原数据(metadata)的组成(elements)。 ...
个人分类: 生物信息|13634 次阅读|1 个评论 热度 1
测序数据质量控制:多样本的fastqc结果,一目了然!
冀颜 2017-7-9 19:24
The analysis report of quality control of fastq files Introduction to FASTQC software The quality control of fastq data produced by high throughput sequencers is performed by FastQC software. FastQC aims to provide a QC report which can spot problems which originate either in the sequ ...
个人分类: 生物信息|7217 次阅读|没有评论
《实验医学研究导论》阅读笔记
冀颜 2017-2-23 11:49
第二篇 第一章 第六节 我们所追求的科学成果是“掌握生命现象的必然性”。 实验分析就是将一切复杂的现象连续地分解成越来越简单的现象,如果可能的话,最后将它们分成两个基本条件。 对于生理学家来,生物体内的积极元素是解剖学或者组织学元素。 当我们分析了一个机体的复杂表现时,应当把它们引导到元 ...
个人分类: 阅读笔记|3686 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 17:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部