|
1, TCGA简介
TCGA(The Cancer Genome Atlas)收集了大量癌症样本的数据,涉及33种不同癌症、超过 20000个样本,包括外显子组测序、RNA 测序、microRNA 测序、拷贝数变异、蛋白质组和甲基化组,临床信息等数据,研究者可以利用各种生物信息学工具和统计方法来挖掘数据中的有用信息,推动癌症研究的进展。
2,TCGAplot简介
华科同济医院的王雄老师课题组利用TCGA数据库,开发了一个TCGA多组学数据泛癌分析和可视化R包TCGAplot[1]。用于泛癌表达以及基因表达与 TMB、MSI、TIME 和启动子甲基化之间相关性等分析。
该包整合了配对和未配对的TPM矩阵,Meta、TMB、MSI、启动子甲基化、免疫细胞比率和免疫评分等数据,极大地方便了我们进行泛癌分析,堪称泛癌分析的“神器”。
3,一键在线泛癌肿瘤vs正常box图
然而,由于R包安装与使用需要相关专业知识,受众有限。为了更好地帮助大家挖掘TCGA,我们与王老师沟通后,决定将TCGAplot R包的强大功能逐步做成在线版供大家免费使用。
今天,给大家带来的第一个函数:某个基因在肿瘤和正常样品中的表达box图。
3.1 打开作图URL
3.2 填写感兴趣的基因,选择参数并提交
将感兴趣的基因symbol粘贴到输入框,由于基因名会更新(见:基因名坑你没商量 -- 有关基因名的坑),所以提交的基因symbol必需在所提供的genelist里边。例如这里填写基因KLF7,即Kruppel-like factor 7,它是一种转录因子,在生物体内各组织中广泛表达,并参与调控细胞的增殖、分化、再生以及肿瘤发生等重要的生理功能。
我们提供了肿瘤组的颜色和正常组的颜色,legend的位置,统计方法,字体等参数供大家选择使用。选择好参数后,点击提交按钮。
3.3 下载图片及数据
由于需要从上万个样品中调取数据并绘图,约30秒后,会出来box图和对应的数据。我们提供了pdf、svg两种矢量图,png、tiff两种标量图供大家下载使用。同时也提供了图片对应的数据供下载。
图片说明:
X轴是33种癌症,按照字母顺序排列。Y轴为log2(TPM+1)表达值。图中红色表示癌症,绿色表示正常。若某癌种没有正常样品则仅显示肿瘤样品(例如ACC)。图片最上面的一排星号表示显著性水平:*表示p<0.05, **表示p<0.01, ***表示p<0.001, ****表示p<0.0001。
缩写 | 英文名 | 中文翻译 |
ACC | Adrenocortical carcinoma | 肾上腺皮质癌 |
BLCA | Bladder Urothelial Carcinoma | 膀胱尿路上皮癌 |
BRCA | Breast invasive carcinoma | 乳腺浸润癌 |
CESC | Cervical squamous cell carcinoma and endocervical adenocarcinoma | 宫颈鳞癌和腺癌 |
CHOL | Cholangiocarcinoma | 胆管癌 |
COAD | Colon adenocarcinoma | 结肠癌 |
DLBC | Lymphoid Neoplasm Diffuse Large B-cell Lymphoma | 弥漫性大B细胞淋巴瘤 |
ESCA | Esophageal carcinoma | 食管癌 |
GBM | Glioblastoma multiforme | 多形成性胶质细胞瘤 |
HNSC | Head and Neck squamous cell carcinoma | 头颈鳞状细胞癌 |
KICH | Kidney Chromophobe | 肾嫌色细胞癌 |
KIRC | Kidney renal clear cell carcinoma | 肾透明细胞癌 |
KIRP | Kidney renal papillary cell carcinoma | 肾乳头状细胞癌 |
LAML | Acute Myeloid Leukemia | 急性髓细胞样白血病 |
LGG | Brain Lower Grade Glioma | 脑低级别胶质瘤 |
LIHC | Liver hepatocellular carcinoma | 肝细胞肝癌 |
LUAD | Lung adenocarcinoma | 肺腺癌 |
LUSC | Lung squamous cell carcinoma | 肺鳞癌 |
MESO | Mesothelioma | 间皮瘤 |
OV | Ovarian serous cystadenocarcinoma | 卵巢浆液性囊腺癌 |
PAAD | Pancreatic adenocarcinoma | 胰腺癌 |
PCPG | Pheochromocytoma and Paraganglioma | 嗜铬细胞瘤和副神经节瘤 |
PRAD | Prostate adenocarcinoma | 前列腺癌 |
READ | Rectum adenocarcinoma | 直肠腺癌 |
SARC | Sarcoma | 肉瘤 |
SKCM | Skin Cutaneous Melanoma | 皮肤黑色素瘤 |
STAD | Stomach adenocarcinoma | 胃癌 |
TGCT | Testicular Germ Cell Tumors | 睾丸癌 |
THCA | Thyroid carcinoma | 甲状腺癌 |
THYM | Thymoma | 胸腺癌 |
UCEC | Uterine Corpus Endometrial Carcinoma | 子宫内膜癌 |
UCS | Uterine Carcinosarcoma | 子宫肉瘤 |
UVM | Uveal Melanoma | 葡萄膜黑色素瘤 |
数据说明:
数据包括4列:
Caseid:TCGA数据库的ID,由-分割,其中最后一个为01-09的是癌症样品,其他数字为正常样品
Cancer:肿瘤类型
Group:癌症或正常
KLF7:该基因的log2(TPM+1)值,由于存储空间及精度原因,这里仅保留了2位小数。
与其他数据库相比,TCGAplot数据库使用的数据是比较新的,在日常工作中,可以快速查看某基因在癌症中的表达情况。例如比较下NOP2基因在gepia2[2]和TCGAplot上的表达值,并通过人工下载TCGA数据,我们发现gepia2的肿瘤数据针对这个基因似乎有一定的偏差,gepia2的LAML肿瘤样品表达中位值约5.8,TCGAplot和我们自己下载的数据算出来的都约是1.7的样子,差异明显。然而针对FUCA2基因在STAD中,两者结果几乎无差异。感兴趣的小伙伴可以自己试试看。所以,我们在做科研的时候,要多方印证,做出自己的判断,尽信书则不如无书。
NOP2比较(差异明显)
FUCA2比较(几乎无差异)
参考文献:
[1] Liao C, Wang X. TCGAplot: an R package for integrative pan-cancer analysis and visualization of TCGA multi-omics data. BMC Bioinformatics. 2023 Dec 17;24(1):483. doi: 10.1186/s12859-023-05615-3. PMID: 38105215; PMCID: PMC10726608
[2] Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res. 2017 Jul 3;45(W1):W98-W102. doi: 10.1093/nar/gkx247. PMID: 28407145; PMCID: PMC5570223.
微生信助力高分文章,用户163000,引用2960
www.bioinformatics.com.cn 微生信云平台提供200多款科研图片的在线绘制,帮助生命科学、医学等领域的科研工作者0代码分析数据,0代码展示分析结果。同时,我们也提供专业的生物信息学数据分析服务,助力科研,发高分文章。小伙伴赶紧扫码联系我们吧!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 21:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社