博文

多组学的基本要素

已有 7660 次阅读 2022-5-16 08:49 |个人分类:科普|系统分类:科普集锦

多组学的基本要素

多组学是测序技术的产物，它通常包括基因组学、转录组学、蛋白质组学、代谢组学、微生物组学等多个维度数据。在现代生物学领域，多组学之所以迅猛发展，其前提条件是，单一组学数据对于探究生物学问题具有单一局限性，然而生物体问题的解决往往需要多维度信息进行表征。例如，在癌症研究领域中，就强调了癌症多组学来探究癌症的发生和发展机理（图1）。

图1 癌症多组学

在癌症多组学研究领域，使用测序技术产生多组学数据是中间环节。在前端，高质量的组织、细胞和液体活检样本是关键。在后端，计算分析手段（如机器学习和人工智能等）是多组学应用于后续临床的重要保障。

目前，多组学研究与临床应用之间存在较大鸿沟。首先，在基因组层面，虽然人类基因组测序的花费下降迅速，并且不断打破摩尔定律（图2）。但是随着生物知识的不断积累，我们日益清醒地认识到：DNA测序不可能是我们唯一的预测模型。例如免疫检测点通路抑制、微细片段不稳定性、肿瘤突变负担、PD-1/ PD-L1表达等都可能指导临床治疗。在转录组层面，虽然RNA测序为预测药物反应和耐药性提供了新的预测标志物，但是离临床标准还有一段距离。并且，基于组织的RNA非常不稳定，对组织收集和处理要求高。解释RNA结果和将其转化为特定临床建议将是以后关键的步骤。在蛋白质组层面，相关技术更新也很快（图3）。虽然定量蛋白质组学已经经历了很长的一段路，但是高敏感性和高通量性仍然是挑战。另外，亟需建立大而全面的数据库来反应和了解临床肿瘤。在循环组学层面，主要通过液体活检样本来了解作为潜在癌症生物标志物的外泌体等情况。最典型的临床实践是循环肿瘤DNA（ctDNA）。

图2 近20年人类基因组测序的花费情况

图3 蛋白质组学技术进展

在分析多组学数据过程中，机器学习、人工智能、数字病理学技术也面临了不同程度的挑战。虽然这些技术能够处理人类难以完成的学习和预测任务，但是其泛化能力、可解释性等需要大幅度提升。

多组学数据的产生依赖于高质量的组织样本，其重要性不言而喻。另外，这些高质量的组织样本也需要考虑是否符合伦理。关于多组学的基本要素详细研究进展可以参见文献[1]（图4）。

图4 多组学基本要素相关文献

后话

多组学分析和研究是奔着临床应用领域的精准医疗来的，虽然挑战不断，但是机遇空间也很大。正如计算机科学家Alan Kay名言“The best way to predict the future is to invent it.”，在多组学领域也如此“The best way to predict the disease is to analyze it.”。

参考文献

[1] Marshall JL, Peshkin BN, Yoshino T, et al. The Essentials of Multiomics. Oncologist. 2022;27(4):272-284. doi:10.1093/oncolo/oyab048

以往推荐如下：

5. R/Shiny交互式生物Web应用程序

6. VOSviewer：文献图谱可视化

7. 卡片式笔记工具：Roam Research

8. 国外知乎：Quora

9. 生信问答平台：Biostars