博文

扩展生物信息学：迈向从数据到理论的范式转变

已有 2276 次阅读 2026-4-26 17:46 |个人分类:科普|系统分类:科普集锦

扩展生物信息学：迈向从数据到理论的范式转变

生物信息学是一个跨学科领域，整合了生物学、计算机科学、数学、统计学等，在 20 世纪 60 年代作为一个独立学科出现。自那时起，在多个相关领域的快速进步推动下，并得益于人类基因组计划（HGP）等几个里程碑式的基因组计划于 1990 年启动的加速，生物信息学得到了快速发展，将生物学从纯粹依赖实验室的科学转变为支持假设驱动和数据驱动研究的信息科学。毫无疑问，生物信息学被广泛认可为 21 世纪的重要学科，在应对日益增长的多维生物数据方面发挥着至关重要的作用。

本质上，生物信息学是一个快速发展的学科，它随着生物技术（BT）和信息技术（IT）等相关学科中先进技术的发展而共同进化，并受到这些技术的支持。因此，它正变得越来越数据密集，并有望通过人工智能（AI）、统计学习等方法解决复杂的生物学问题。如今，随着生物系统在多个层次和尺度上不断产生越来越多的数据，生物信息学具有推动生物学范式转变的巨大潜力。

1. 生物学当前的范式是什么？

“范式”一词源自托马斯·库恩著名的科学革命概念，指的是一组根本性的概念、研究方法、假设和规范，这些被科学界广泛接受为指导框架。随着时间的推移，一个范式与当前框架无法解决的新现象和问题不相容，从而激发新范式的创建，这一新范式标志着科学革命，用以取代原有范式，并由此导致范式从一种转变为另一种。

首先，重要的是要知道科学中有四种范式：（1）第一范式——经验科学，基于对自然现象的实验和观察以及经验数据的积累；（2）第二范式——理论科学，随着科学理论的发展来解释自然现象背后的原理；（3）第三范式——计算科学，涉及计算建模、模拟和算法开发；（4）第四范式——数据驱动科学，通过处理大量数据来发现知识。需要注意的是，这四种范式是连贯关联的，不能证明一种范式优于另一种范式。

那么，问题在于生物学当前的范式是什么。只有知道了这一点，我们才能更好地理解范式转变的方向。乍一看，生物学似乎涵盖了所有四个范式。但在这里，生物学主要处于第一个范式，因为我们仍然缺乏大量的高质量实证数据。尽管生物技术（BT）在过去几年中取得了迅速发展，信息技术（尤其是人工智能）在生物学中得到了广泛利用，但我们不得不承认，多维数据一直以不同的质量被生成，最重要的是，它们仅占物种、生物体、器官、组织和细胞在所有时空尺度上的数据宇宙的极小部分。简而言之，生物学仍处于通过观察和实验积累高质量经验数据的第一个范式阶段。

2. 生物学的范式转变：数据洪流，理论荒漠

因此，很清楚生物学范式转变的方向是理论科学的第二范式，旨在发展由经验科学第一范式中积累的数据推导出的理论。不幸的是，生物学中的理论受到严重低估，其在推动生物学发展中的重要性并未得到充分认识。然而，与其他学科（如物理学）相比，生物学目前的理论相对有限，尤其是定量理论（如 1952 年提出的查加夫规则）。作为生物学的一个组成部分，理论有巨大潜力整合零散的研究成果，并指导理论指导的 AI 建模和实验。正如列奥纳多·达·芬奇（1452-1519）所说：“热爱实践而无理论的人，就像没有舵和罗盘就登船的船员，永远不知道会驶向何方”。只有具备理论，我们才能避免盲目漂泊，在生物学科学的大海中明确方向，最终揭示复杂生物系统的基本原理。

值得注意的是，生物学被分割成许多子学科。因此，研究结果的碎片化类似于盲人摸象的故事，在连接不同领域的研究成果、从整体角度理解复杂的生物系统以及形成理论框架以转变范式方面带来了巨大挑战。

3. 将生物信息学从数据扩展到理论

可以说，将数据转化为理论可以被视为一场科学革命，推动生物学范式的转变。因此，是时候通过定义和扩展其研究领域来更深入地理解生物信息学。那么为什么是生物信息学能够实现生物学的范式转变呢？多年来，生物信息学已经在生命科学、医学和健康科学等广泛研究领域产生了历史性影响。如前所述，生物学正处于数据泛滥而理论荒漠的时代，渴望基本理论来从整体视角全面理解复杂的生物系统。生物信息学通过系统地整合生物数据、计算方法和计算资源，代表了一种整体方法来解析生物系统的复杂性，相应地，通过理论的推广和概念化，承诺实现范式转变。

为推动生物学范式的转变，生物信息学应立足于生命科学的整体视角，站在跨学科的前沿，拓展其独特的研究领域，从数据到理论（图 1）：（1）数据库：建立数据库资源，通过增值性管理和整合来管理数据；（2）算法：开发算法（以及相关的工具和流程），以辅助数据建模和模拟；（3）分析：分析数据并以生物学上有意义的方式解释它们；以及（4）理论：基于大量高质量的多维数据，制定理论原则和规律。在大数据时代，理论对于指导生物学研究和指导具有改进可解释性和减少参数空间的 AI 至关重要。

图1生物信息学研究领域，包括数据库、算法、分析和理论，旨在从数据到理论实现范式转变

前三个领域伴随着生物信息学的诞生而出现，尽管当时可用的数据和计算资源非常有限。对于前两个领域，通常来说，玛格丽特·戴伊夫（1925-1983）通过在 1965 年构建《蛋白质序列和结构图谱》，开展了开创性工作，并为该领域做出了重要贡献，首个包含 65 条蛋白质序列的生物序列数据库在第一版问世，并于 1962 年开发了 COMPROTEIN——首个用于确定蛋白质一级结构的计算机程序。对于第三领域，即基因组序列数据分析，作为人类基因组计划实现的关键组成部分，已被证明是生物信息学的里程碑。关于第四领域，一个典型案例是全基因组复制作为进化创新的有力机制这一概念，它最终通过分析酿酒酵母及其近缘物种的完整基因组而得到证实。另一个例子是基因组核苷酸组成的三大定律，它们可作为研究基因组组织和进化以及推动合成基因组工程的理论框架。显然，与其他学科不同，生物信息学具有跨学科、快速发展的、广泛涉猎的、大数据驱动、整体性特征和协作愿景，因此，通过发展基础理论并重振理论生物学研究，它具有巨大的潜力来解读生命密码（这极大地受到了埃尔温·薛定谔（1887–1961）于 1944 年出版的《生命是什么？》一书的启发）。

结语

生物学是一门自然科学，因此生物信息学可以被视为一门关于生命的资料科学，它涉及从分子和细胞到物种和种群的各个尺度的多学科方法。本质上，生物信息学是一门跨学科、快速发展和范围广泛的学科，它随着相关学科的快速发展而逐步扩展。回顾过去，生物信息学经历了与里程碑事件相关的不同阶段（图 2），即序列导向阶段（自 1952 年， Chargaff 规则以来）、组学驱动阶段（自 1990 年，人类基因组计划启动以来）和人工智能驱动阶段（自 2018 年，AlphaFold 以来）。向前看，生物信息学将进入理论指导阶段（2024 年以后），指导生物学中的人工智能建模和实验。不可避免地，挑战在前，这些挑战主要源于数据。具体来说，数据（尤其是高质量数据）是理论形成的关键，而理论反过来又可导致更成功的 AI 应用，理想情况下，这些应用表现为用更少的参数捕捉关键模式、降低训练成本和时间，以及通过生物推理增强可解释性。这种反馈链——其中数据指导理论，理论进一步指导 AI——创造了并加速了生物学中的范式转变。

图2生物信息学四个阶段的示意图及其主要里程碑。生物信息学的历史大致可分为四个阶段，未来仍具开放性：自 1952 年以来的序列导向阶段、自 1990 年以来的组学驱动阶段、自 2018 年以来的 AI 驱动阶段，以及 2024 年以后的理论指导阶段。生物信息学的主要里程碑包括：1952 年的查加夫规则、1962 年的 COMPROTEIN、1965 年的蛋白质序列和结构图谱、1970 年的全局序列比对 Needleman-Wunsch 算法、1981 年的局部序列比对 Smith-Waterman 算法、1982 年的 GenBank、1990 年的 BLAST（基本局部比对搜索工具）、2010 年的 TCGA 数据门户，以及2018年的 AlphaFold

总体而言，跨学科的性质以及向许多生物学研究领域的扩展，使生物信息学能够引领从数据到理论的范式转变，即从第一个范式到第二个范式，这可以从整体视角指导生物学研究，并进一步增强其学科身份和一致性。

参考文献

[1] Zhang Z. Expanding bioinformatics: Toward a paradigm shift from data to theory. Fundam Res. 2026;6(1):3-5. https://doi.org/10.1016/j.fmre.2024.11.019

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC