科学网

 找回密码
  注册
“如何玩转生物大数据”系列:理解ENCODE metadata
冀颜 2017-7-19 23:30
ENCODE的数据量非常庞大,有将近14000个实验(experiments)。 为了帮助用户方便检索dataset及其metdata,ENCODE提供了网络接口,具体方法见 https://www.encodeproject.org/help/rest-api/ 。它详细解释了检索的URL格式,如何解析返回结果。在结尾“Additional search examples”部分,给出了一些非常好 ...
个人分类: 生物信息|4148 次阅读|没有评论
“如何玩转生物大数据”系列:ENCODE数据分析经验分享(一)
冀颜 2017-7-17 13:55
ENCODE是一个伟大的项目,目的是创建基因组注释目录。该项目通过各种实验技术,研究了近千种细胞系和组织。ENCODE的访问网址, https://www.encodeproject.org/。 ENCODE数据分析有一定难度,这里我分享一些经验和资料。 首先,面对一个ENCODE dataset,建议先问下面七个问题,它们有助于引出思路 ...
个人分类: 生物信息|14865 次阅读|没有评论
“如何玩转生物大数据”系列:基于ArrayExpress网站快速搜索功能
冀颜 2017-7-16 22:19
Find functional genomics data quickly and easily by using ArrayExpress Yan Ji ArrayExpress is a database of functional genomics data ( http://www.ebi.ac.uk/arrayexpress/ ). It stores data from high-throughput functional genomics experiments, and provides these data for reuse to the research com ...
个人分类: 生物信息|8298 次阅读|没有评论
“如何玩转生物大数据”系列:幽门螺旋杆菌感染胃癌样本特异表达
冀颜 2017-7-14 19:27
这个分析是基于公共数据TCGA的胃癌RNASeq表达谱数据。这批数据中,有20个样本 幽门螺旋杆菌 (+),有153个样本 幽门螺旋杆菌 感染(-),其他样本没有检测数据。 差异基因寻找方法:t检验,p value 0.05 当然,还有其他常用的差异基因寻找方法:1) SAM; 2) edgeR or DEseq。这些方法的结果,暂时不公 ...
个人分类: 生物信息|3677 次阅读|没有评论
“如何玩转生物大数据”系列:奇怪的GBMLGG,COADREAD
冀颜 2017-7-13 19:12
自己动手分析过TCGA数据的朋友们,都会遇到这样的肿瘤类型组合 1)GBM,LGG,GBMLGG 2)COAD,READ,COADREAD 我一直认为,既然TCGA这样命名,它们肯定是不同的肿瘤。 BUT! 真想居然是: 1)GBMLGG = GBM + LGG 2)COADREAD = COAD + READ 不多说了,直接上图(venn图,彼此间 ...
个人分类: 生物信息|7844 次阅读|没有评论
“如何玩转生物大数据”系列:TCGA的样本注释信息和数据类型统计
热度 1 冀颜 2017-7-12 21:28
TCGA样本原数据(metadata)可以从 https://portal.gdc.cancer.gov 下载。文件格式是JSON,因此需要一个解析文件的步骤,把JSON转化成便于阅读的表格。有很多工具可以做这件事情,我用的方法是R包httr中fromJSON函数,非常简单,推荐使用。 这里,通过一个例子,展示 原数据(metadata)的组成(elements)。 ...
个人分类: 生物信息|13709 次阅读|1 个评论 热度 1
用于聚类验证的R包:clValid
冀颜 2017-7-10 21:53
聚类是一种无监督技术,用于在多维特征空间中对彼此接近的对象进行分组,通常是为了揭示数据所具有的一些固有结构。聚类是高通量基因组数据分析中常用的一种方法,其目的是将具有相似表达模式的基因或蛋白质组合在一起,并可能共享共同的生物通路。 目前存在大量的聚类算法,其中许多算法在分析基因组数据时表现出 ...
个人分类: 生物信息|5156 次阅读|没有评论
测序数据质量控制:多样本的fastqc结果,一目了然!
冀颜 2017-7-9 19:24
The analysis report of quality control of fastq files Introduction to FASTQC software The quality control of fastq data produced by high throughput sequencers is performed by FastQC software. FastQC aims to provide a QC report which can spot problems which originate either in the sequ ...
个人分类: 生物信息|7243 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-8 06:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部