博文

人工智能时代的科学发现

已有 1504 次阅读 2023-9-8 10:07 |个人分类:科普|系统分类:科普集锦

人工智能时代的科学发现

形成科学见解和理论的基础是如何收集、转换和理解数据。2010年代初，深度学习的兴起极大地扩展了这些科学发现过程的范围和雄心。人工智能(AI)越来越多地应用于科学学科，用于整合大量数据集，改进测量，指导实验，探索与数据兼容的理论空间，并提供与科学工作流程集成的可操作且可靠的模型，用于自主发现。

数据收集和分析是科学理解和科学发现的基础，而科学发现是科学的两个中心目标。长期以来，定量方法和新兴技术，从显微镜等物理仪器到自展法等研究技术，一直被用于实现这些目标。20世纪50年代，数字化的引入为计算机在科学研究中的普遍应用铺平了道路。自2010年代以来，数据科学的兴起使人工智能能够通过从大型数据集中识别科学相关的模式来提供有价值的指导。

尽管科学实践和程序在科学研究的各个阶段有所不同，但人工智能算法的发展跨越了传统上孤立的学科(图1)。此类算法可以增强科学研究的设计和执行。它们正在变成通过优化参数和功能，自动化收集、可视化和处理数据的程序，探索候选假设的广阔空间以形成理论，产生假设并估计其不确定性以提出相关实验，已成为研究人员必不可少的工具。

图1 人工智能时代的科学。科学发现是一个多方面的过程，涉及几个相互关联的阶段，包括假设形成、实验设计、数据收集和分析。人工智能将通过扩大和加速这一过程的每个阶段的研究，重塑科学发现。这里展示的原理和说明性研究突出了对加强科学理解和发现的贡献

自2010年代初以来，由于大型数据集的可用性，快速和大规模并行计算和存储硬件(图形处理单元和超级计算机)以及新算法的帮助，人工智能方法的能力大大增强。后者包括深度表征学习，特别是多层神经网络，它能够识别基本的、紧凑的特征，这些特征可以同时解决构成科学问题的许多任务。其中，几何深度学习已被证明有助于整合科学知识，以物理关系、先验分布、约束和其他复杂描述符(如分子中原子的几何形状)的紧凑数学陈述的形式呈现。自监督学习使在标记或未标记数据上训练的神经网络能够将学习到的表示转移到具有很少标记示例的不同领域，例如，通过预训练大型基础模型并使其适应于解决不同领域的不同任务。此外，生成模型可以估计复杂系统的底层数据分布，并支持新的设计。与人工智能的其他用途不同，强化学习方法通过探索许多可能的场景，并根据指标(如从考虑的实验中预期的信息增益)为不同的行动分配奖励，找到环境的最佳策略。在人工智能驱动的科学发现中，可以使用适当的归纳偏差将科学知识纳入人工智能模型，归纳偏差是表示结构、对称性、约束和先验知识的假设，作为紧凑的数学陈述。然而，应用这些定律可能会导致一些方程过于复杂，即使使用传统的数值方法，人类也无法求解。一种新兴的方法是将科学知识纳入人工智能模型，包括有关物理定律或分子结构原理和蛋白质折叠结合原理的基本方程的信息。这种归纳偏差可以通过减少达到相同精度所需的训练样本数量，并将分析扩展到尚未探索的科学假设的广阔空间，从而增强人工智能模型。

与利用人工智能的其他人类活动领域相比，将人工智能用于科学创新和发现带来了独特的挑战。最大的挑战之一是科学问题中假设空间的浩瀚，使得系统的探索不可行。例如，在生物化学领域，估计有1060种类似药物的分子有待探索。人工智能系统有可能通过加速流程和提供接近实验精度的预测来彻底改变科学工作流程。然而，为人工智能模型获得可靠的注释数据集存在挑战，这可能涉及耗时且资源密集的实验和模拟。尽管存在这些挑战，但人工智能系统可以实现高效、智能和高度自主的实验设计和数据收集，人工智能系统可以在人类监督下运行，以评估、评估结果并采取行动。这种能力促进了人工智能代理的发展，这些代理可以在动态环境中持续互动，例如，可以做出实时决策来导航平流层气球。人工智能系统可以在解释科学数据集和以广义方式从科学文献中提取关系和知识方面发挥重要作用。最近的研究结果表明，无监督语言人工智能模型有潜力捕捉复杂的科学概念，如元素周期表，并在功能材料发现前几年预测其应用，这表明有关未来发现的潜在知识可能嵌入在过去的出版物中。

最近的进展，包括成功解开长达50年的蛋白质折叠问题，以及人工智能驱动的数百万粒子分子系统模拟，都证明了人工智能在解决具有挑战性的科学问题方面的潜力。然而，发现的非凡前景伴随着新兴领域“AI for Science”(AI4Science)的重大挑战。与任何新技术一样，AI4Science的成功取决于我们将其融入日常实践的能力，以及了解其潜力和局限性的能力。在科学发现中广泛采用人工智能的障碍包括发现过程中每个阶段特有的内部和外部因素，对方法、理论、软件和硬件效用的担忧，以及潜在的滥用。综述文献《Scientific discovery in the age of artificial intelligence》旨在探索AI4Science的发展和解决关键问题，包括科学行为、传统怀疑主义和实施挑战。

正篇综述从五个方面对AI在科学发现中扮演的角色进行了阐述：

1. 人工智能辅助的科学研究数据收集和整理

2. 学习科学数据的有意义表示

3. 基于人工智能的科学假设生成

4. 人工智能驱动的实验和模拟

5. 重大挑战

总之，人工智能系统有助于科学理解，能够对无法以任何其他方式可视化或探索的过程和对象进行调查，并通过从数据中构建模型并将其与模拟和可扩展计算相结合，系统地激发想法。为了实现这一潜力，必须通过负责任和深思熟虑的技术部署来解决使用人工智能带来的安全和安保问题。在科学研究中负责任地使用人工智能，我们需要衡量人工智能系统的不确定性、误差和效用。这种理解对于准确解释人工智能输出和确保我们不会过于依赖可能存在缺陷的结果至关重要。随着人工智能系统的不断发展，优先考虑可靠的实施和适当的保障措施是最大限度地降低风险和最大化效益的关键。人工智能有可能解开以前遥不可及的科学发现。

参考文献

[1] Wang H, Fu T, Du Y, Gao W, Huang K, Liu Z, Chandak P, Liu S, Van Katwyk P, Deac A, Anandkumar A, Bergen K, Gomes CP, Ho S, Kohli P, Lasenby J, Leskovec J, Liu TY, Manrai A, Marks D, Ramsundar B, Song L, Sun J, Tang J, Veličković P, Welling M, Zhang L, Coley CW, Bengio Y, Zitnik M. Scientific discovery in the age of artificial intelligence. Nature. 2023 Aug;620(7972):47-60. doi: 10.1038/s41586-023-06221-2.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC