jiyanbio1983的个人博客分享 http://blog.sciencenet.cn/u/jiyanbio1983

博文

“如何玩转生物大数据”系列:TCGA的样本注释信息和数据类型统计

已有 14658 次阅读 2017-7-12 21:28 |个人分类:生物信息|系统分类:科研笔记


TCGA样本原数据(metadata)可以从https://portal.gdc.cancer.gov 下载。文件格式是JSON,因此需要一个解析文件的步骤,把JSON转化成便于阅读的表格。有很多工具可以做这件事情,我用的方法是R包httr中fromJSON函数,非常简单,推荐使用。


这里,通过一个例子,展示原数据(metadata)的组成(elements)。

{

"diagnoses": [

  {

    "days_to_death": null,

    "vital_status": "alive",

    "age_at_diagnosis": 24773,

    "primary_diagnosis": "c34.2"

  }

],

"disease_type": "Lung Adenocarcinoma",

"demographic": {

  "gender": "male",

  "race": "white",

  "ethnicity": "not hispanic or latino"

},

"submitter_id": "TCGA-95-8494",

"project": {

  "program": {

    "name": "TCGA"

  },

  "project_id": "TCGA-LUAD"

},

"case_id": "6ee9caec-65ac-46db-9426-ffaa31967ae2",

"primary_site": "Lung",

"summary": {

  "data_categories": [

    {

      "file_count": 1,

      "data_category": "DNA Methylation"

    },

    {

      "file_count": 5,

      "data_category": "Transcriptome Profiling"

    },

    {

      "file_count": 1,

      "data_category": "Biospecimen"

    },

    {

      "file_count": 16,

      "data_category": "Simple Nucleotide Variation"

    },

    {

      "file_count": 1,

      "data_category": "Clinical"

    },

    {

      "file_count": 4,

      "data_category": "Copy Number Variation"

    },

    {

      "file_count": 4,

      "data_category": "Raw Sequencing Data"

    }

  ],

  "file_count": 32

}

}



下面,JSON转换为表格的示例。同时,我们提供了完整内容的下载,链接可在末尾找到。



在TCGA中,主要有下面的数据类型:

1)转录组数据(Transcriptome)

2)甲基化数据(Methylation)

3)基因突变数据(Mutation)

4)拷贝数变化数据 (CNV)


对于TCGA的肿瘤,不是每一个样本都有上面四种数据。


下面给出了每种肿瘤中,含有这四种数据的样本数。




下载地址:

TCGA样本注释信息完整版,http://pan.baidu.com/s/1i5P2PnR


关注“如何玩转生物大数据”微信公众号,及时获取更多内容







https://blog.sciencenet.cn/blog-3291578-1066017.html

上一篇:用于聚类验证的R包:clValid
下一篇:“如何玩转生物大数据”系列:奇怪的GBMLGG,COADREAD
收藏 IP: 202.127.20.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-19 22:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部