|||
本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome
作者:小丸子和小丫 来源:嘉因
不知道该选哪个工具的时候,怎么办?
最省力的办法就是问前辈,包括问师兄师姐、去群里问、搜论坛。前辈用的不一定是最好的,甚至是错的,所以这个方法省力但不一定省时间,会走弯路;
其次是问文献,有些文章对比了多个工具,列出了优缺点,算是比较理性的选择;
最费力的办法是自己去读说明书,挨个尝试,亲自体验各种工具的优缺点,知道什么时候该用哪个,找出最适合自己数据的工具。把尝试的过程记录下来,再遇到相关问题,直接搜笔记,效率更高。
更多方法论看这篇:《生信入门路 | 生物/医学人的生信启蒙》
《去TCGA看表型,来CistromeCancer挖机制》讲了怎样用ChIP-seq数据挖机制。其实无论是挖机制之前、还是挖到机制之后,都要用TCGA讲故事。今天请来TCGA资深用户小丸子,分享她的笔记。为啥说她资深呢?因为她从2011年就开始处理TCGA数据了。
先科普TCGA大致的数据结构:
临床信息。每个癌症病人来了之后,会记录好他的临床信息,这个记录可以非常详细,年龄、性别、抽不抽烟、用过什么药、之前有没有被治疗过、什么发病原因、什么肿瘤时期、什么分型等等。
各种组学数据。同一个病人可能会测RNA-seq的、miRNA-seq、做甲基化芯片等等,但是并不是每个人每种都测了一遍,可能有人只测了RNA-seq,他就只有RNA-seq数据。另外,一个人可能既取了肿瘤组织,也取了远端的组织或者血液样本,这就是为什么会有normal的sample,但不一定每个人都取了,所以你会发现normal的样本总是很少,甚至没有。
很多时候我们关心怎么用TCGA做以下事情:
某基因在肿瘤中不同分期或分型中的表达情况。
某基因的表达高低对于病人生存情况的影响。
某基因及其相关基因在病人中表达相关性。
最出名,http://www.cbioportal.org/
特色:最基本的简单分析基因突变、共表达/共突变的基因,下载数据也可以,最常看的应该还是oncoPrint那个。
详细用法:TCGA数据库的数据怎么查?
最方便,Ge-mini
特色:手机app,可随时查看,主要关注基因表达量的变化
最细致,http://ualcan.path.uab.edu/index.html
特色:1. 对肿瘤样本做了很细很专业的分组subgroup,生存分析、表达量都可以选择更细的亚型或临床表型做对比。
2. 生存分析时,还能对比不同分期、性别、年龄、体重等临床特征。
最懒,http://www.oncolnc.org/
特色:mRNA, miRNA, or lncRNA的生存分析
Here you can link TCGA survival data to mRNA, miRNA, or lncRNA expression levels. To get started simply input either a Tier 3 TCGA mRNA, miRNA, or MiTranscriptome beta lncRNA.
详细用法:懒人怎么做肿瘤病人的生存分析?
最权威,https://portal.gdc.cancer.gov/
特色:TCGA官网上是这么介绍的:这是一个交互的数据系统,可以供研究者查找、下载、上传及分析癌症组学数据集包括TCGA的。
详细用法:数据库专题之TCGA
最人性化,http://www.firebrowse.org/,我经常会在这里下载数据。
特色:1. download everything with 1 command
2. 图形化显示一起发生突变的基因,还能在网页上交互式的改图
详细用法:TCGA数据库在线使用
最强大,http://xena.ucsc.edu/getting-started/
特色:把hub下载下来,体验不一样的TCGA。
Securely analyze and visualize your private functional genomics data set in the context of public and shared genomic/phenotypic data sets.
详细用法:UCSC XENA - 集大成者(TCGA, ICGC)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-9 13:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社