||
TCGA样本原数据(metadata)可以从https://portal.gdc.cancer.gov 下载。文件格式是JSON,因此需要一个解析文件的步骤,把JSON转化成便于阅读的表格。有很多工具可以做这件事情,我用的方法是R包httr中fromJSON函数,非常简单,推荐使用。
这里,通过一个例子,展示原数据(metadata)的组成(elements)。
{
"diagnoses": [
{
"days_to_death": null,
"vital_status": "alive",
"age_at_diagnosis": 24773,
"primary_diagnosis": "c34.2"
}
],
"disease_type": "Lung Adenocarcinoma",
"demographic": {
"gender": "male",
"race": "white",
"ethnicity": "not hispanic or latino"
},
"submitter_id": "TCGA-95-8494",
"project": {
"program": {
"name": "TCGA"
},
"project_id": "TCGA-LUAD"
},
"case_id": "6ee9caec-65ac-46db-9426-ffaa31967ae2",
"primary_site": "Lung",
"summary": {
"data_categories": [
{
"file_count": 1,
"data_category": "DNA Methylation"
},
{
"file_count": 5,
"data_category": "Transcriptome Profiling"
},
{
"file_count": 1,
"data_category": "Biospecimen"
},
{
"file_count": 16,
"data_category": "Simple Nucleotide Variation"
},
{
"file_count": 1,
"data_category": "Clinical"
},
{
"file_count": 4,
"data_category": "Copy Number Variation"
},
{
"file_count": 4,
"data_category": "Raw Sequencing Data"
}
],
"file_count": 32
}
}
下面,JSON转换为表格的示例。同时,我们提供了完整内容的下载,链接可在末尾找到。
在TCGA中,主要有下面的数据类型:
1)转录组数据(Transcriptome)
2)甲基化数据(Methylation)
3)基因突变数据(Mutation)
4)拷贝数变化数据 (CNV)
对于TCGA的肿瘤,不是每一个样本都有上面四种数据。
下面给出了每种肿瘤中,含有这四种数据的样本数。
下载地址:
TCGA样本注释信息完整版,http://pan.baidu.com/s/1i5P2PnR
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-19 22:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社