博文

科研创新与人工智能

已有 9438 次阅读 2024-11-1 04:41 |系统分类:科研笔记

引领当下方兴未艾、炙手可热的计算机科学,人工智能(artificial intelligence or AI)旨在建造具有人类智力(如学习、推理),并以类似或超出人类行动能力的方式做出反应的智能机器或机器人。换言之,人工智能运用以统计学为基础的程序(或规则),分析大规模历史数据,执行原本由人脑完成的认知任务,包括归纳与预测(即机器学习),或模式识别与预测(即深度学习)。更确切地说,人工智能试图通过模拟、延伸和扩展等,将人类的思维过程和智能行为[如看(图像识别、文字识别等)、听(语音识别、机器翻译等)、说(语音合成、人机对话等)、学习(机器学习、知识表示等)、思考(人机对弈、定理证明等)、行动(机器人、自动驾驶汽车等)]逆向工程到机器上。鉴于统计学在人工智能中的举足轻重的角色,马斯克(Elon Reeve Musk)曾调侃道,掀开机器学习的神秘外衣,不难窥见其统计学的本质。

人工智能的兴起得益于20世纪中叶以来的一系列理论性与技术性突破,包括哥德尔(Kurt Gödel)在1931年奠定的理论计算机科学和人工智能理论基础(把人类的全部认知归结为无数条定理,并用数学模式表示和逻辑推导这些定理),麦卡洛克(Warren McCulloch)和皮茨(Walter Pitts)在1943年创建的人工神经元系统(或人工神经网络模型)(以助力模拟感性行为),图灵(Alan Mathison Turing)在1950年设计的图灵测试(以检测人工智能是否达到与人类相当或没有区别的智能),麦卡锡(John McCarthy)在1956年提出的“人工智能”概念(通过符号推理与表示让机器像人一样进行思考与行动), 塞缪尔(Arthur Samuel)在1956年阐述的机器学习原理(使计算机系统,在没有明确指令/编程的情况下,从数据中找出隐藏的模式,学习并改进其性能,进而做出预测和执行任务),和辛顿(Geoffrey E. Hinton)在2006年建立的超过三层训练模型的深度神经网络(或深度学习算法)(使用多层神经网络来模拟人脑处理信息的方式,让机器自动执行如图像和语音等复杂任务)。

这些关键的突破为规划人工智能的阶段性发展提供了路径依据: 从(1)专门领域AI (narrow AI, 目前至2030年;不具备真正的理解或意识,只执行特定或有限任务的智能系统,如语音助手、图像识别、机器翻译、搜索引擎、自动驾驶);(2)通用人工智能(artificial general intelligence or AGI/general AI,预计2030年-2050年间;具有广泛认知能力的智能系统,像人类一样感知、思考和行动,胜任多个领域的复杂任务);(3)超人工智能(artificial super intelligence or ASI,预计2050年-2075年间;具有尖端的认知功能和高度发达的思维能力的智能系统,在几乎所有方面发挥出优于人类的功能,如认知、创新、行动); 到(4)自主人工智能(autonomous AI,预计2075年后;具备完全自主性的智能系统,无需人工干预、输入或直接监督即可制定目标并采取行动)。

人工智能具有可扩展性、一致性和高速度的特征, 可以显著地提升自动化程度,减少人为错误,消除重复任务。处于专门领域AI阶段的人工智能,在强化学习、生成模型、记忆网络、数据学习、仿真环境、医疗技术、教育和物流管理等方面,表现出无所不能的威力和无所不及的变通力。然而, 我们必须充分认识到,人工智能的运行机制依赖开发者输入的数据以达到模仿人类思维与行为的目的。因此,人工智能无法超越人类智慧的范畴,更不可能凌驾于人类智慧之上。下面,通过分析人工智能在科研创新理论构建与验证中的应用的代表性案例, 我们可以看到,人工智能虽然替代不了人类智慧在以溯因和归纳为主线的科研创新理论构建的作用,但却可极大地增加基于演绎的科研创新理论验证的效率。

理论构建。作为获得和完善模式化/公式化的知识体系(即科学)的必要手段,科研创新包含两大步骤:理论构建和理论验证。其中,科研创新的理论构建主要由溯因和归纳来实现,并引发整体的,颠覆性的,战略性的质变(见前面的博文《科研创新的理论构建与验证》)。

具体而言,溯因以某种现象为终点,通过追溯和排查已知规则和结论,找到导致该现象的可能原因,提出解释该现象的假设。在运作层面,溯因就像做数学题前的酝酿(斟酌)与排查,而演绎则是解题过程。溯因常应用于对新近观察的现象给予合理的解释,对长期困惑人们的难题(猜想/瓶颈)提出有效的解决方案,和对患者的病痛做出准确的诊断。

值得一提的是,瓶颈之所以存在,并不意味着从未有人尝试解决过,只是所提出的解决方案大都逃脱不出常规思路的桎梏,故而于事无补。例如,DNA亚硫酸氢盐转化曾是DNA甲基化研究的瓶颈。常规DNA亚硫酸氢盐转化涉及DNA变性和转化。尽管从1990年代起,人们对DNA变性和转化分别进行了优化,但至今绝大多数实验室采用的常规亚硫酸氢盐转化方法依然需要3小时。为此,我无事不登三宝殿,请教OpenAI: DNA亚硫酸氢盐转化的最佳方案是什么？(what is the best method for bisulfite conversion of DNA?) OpenAI对答如流:DNA亚硫酸氢盐转化的最佳方案是:(1)用氢氧化钠在室温下处理DNA 15分钟(以促进变性/脱磺),(2)用亚硫酸氢钠在50^oC处理变性了的DNA 2-4小时(以实现转化)。很显然,OpenAI的答复源自各专业杂志与书籍所发表的方法。十几年前,我加入DNA亚硫酸氢盐转化研究时,避免生搬硬套传统的变性和转化方法,而是将原来的一步一步往里添加化学物直到形成最后混合物改成从最后混合物里一点一点往外拿出化学物以找到最佳条件,使DNA亚硫酸氢盐转化从3小时缩短到15分钟(或许其间变性和转化得以同步进行,但验证此假设离不开飞秒化学手段),成功突破了一个长期困人们的瓶颈。由于我所优化的DNA亚硫酸氢盐转化方法既没在专业杂志上发表,也未申请专利,因此,OpenAI自然不可能将此收入囊中。同理,人工智能可以裨益常见病的诊断,但在疑难杂症的诊断时将面临不同程度的挑战。

归纳以多种相关现象为起点,通过归纳(概括/总结/升华), 形成新的、可预测未来现象的概念/模式/理论, 或改进、丰富和完善现有的概念/模式/理论。不少人把归纳误解为简单的列表。其实, 列表只是归纳的初级形式; 从已经列入的和一些尚未列入的选项里,找出相关性(或用处)最大,而非出现频率最高(或名声最响,噪音最大)的东西才是归纳的高级形式。在运作层面,归纳犹如撰写文章摘要,或将相关文章缩写成综述。归纳常用于对多种相关现象(包括新近观察的现象和现存的概念/模式/理论)的综合与提炼, 以获得规律性的、具有指导意义的模式(或窍门/诀窍),或推动从假设、概念、模式/模型、定理/定律、到理论的逐步升华。例如,科研创新能力的培养是科学教育界的最重要使命之一。不出意外, 几乎每一所研究型大学都有专为强化科研创新技能的课程。这些精心设置的课程,包罗万象,面面俱到,生怕遗漏任何关键因素,结果让科研新人,在不停的猜测中, 直到课程结束,都没弄明白科研创新的要领究竟是什么? 于是,我求助OpenAI: 如何有效地实现科学突破？(how to effectively achieve scientific breakthroughs?) OpenAI爽快回答: 科学突破是创造力、毅力和系统方法论的有机结合, 包括:(1)确定重大问题,(2)研究现有工作,(3)提出假设,(4)协作,(5)设计稳健的实验,(6)对失败持开放态度,(7)保持好奇心和灵活性,(8) 学术交流,(9)寻求资金和资源,(10)坚持。这个列表可谓滴水不漏,与研究型大学开办的强化科研创新技能的课程如出一辙。从其中的任何一项里,你都挑不出毛病; 倘若按部就班地做下去,却不保证你能得到原创性突破。

值得庆幸的是,我虽身陷各种强化科研创新技能课程的迷魂阵,却丝毫未敢放松个人的努力。我在博士研究生期间归纳出来的科研创新的三策略(争先,更好,不同)和有效思路(递推,平行,因果,逆向,随机),不仅简洁精练,而且行之有效; 让我在后来的科研创新中, 灵感泉涌,佳报频传,超前达到三个项目的主要目标,发表众多以第一作者署名的研究报告(见前面的博文《我的科研创新策略》,《科研创新的有效思路》,《科研创新的灵感》)。

显而易见,人工智能基于统计学原理,按出现频率进行排列,是难于在科研创新的理论构建(如溯因,归纳)中大有作为的, 因为传统的、主流的、和常识性的东西无疑会霸屏, 而非传统的、非主流的、和非常识性的东西大概率会被忽略。数不胜数的过往实例与经验表明, 科研难题的解决方案一般不是源于传统的、主流的、和常识性的观念, 而是出自非传统的、非主流的、和非常识性的观念。

理论验证。限于相关现象/观察的不完整性以及人们的认知水平与判断能力,理论构建所产生的假设/概念/模式/理论并不一定都能客观地反映真相。只有经过以演绎(包括实验手段) 为主线的理论验证,才能有效地检验假设/概念/模式/理论的准确度与预测力, 从而改进、扩展和完善已知概念/模式/理论。理论验证大多带来局部的,渐进性的,战术性的量变。在运作层面,演绎好比解析数学题的过程,而溯因则是做题前的酝酿(斟酌)与排查。一般地说, 形式科学(如数学、逻辑学、系统论、理论计算机科学、人工智能等)的理论验证不依赖实验手段, 但自然科学(如物理学、化学、天文学、地球科学、生物学等)和社会科学(如心理学、社会学、经济学等)的理论验证都倚仗实验手段的支持(见前面的博文《科研创新的理论构建与验证》) 。

在科研创新的理论构建中表现平平的人工智能,却在科研创新的理论验证中让人刮目相看。例如,使用深度学习算法对超过170,000种蛋白质序列进行训练,哈萨比斯(Demis Hassabis)和江珀(John M. Jumper) 团队,从改进AlphaFold 1(2018)和AlphaFold 2(2020)中获得了AlphaFold 3(2024),不仅可以精准地预测单链蛋白质的3D结构,而且可以高效地预测与DNA、RNA、翻译后修饰以及选定配体和离子的蛋白质复合物的结构。

又例如,2019 年,柯林斯(James Collins) 团队使用计算机深度学习方法,从约1,700种FDA批准的药物和一组800种具有不同结构和广泛生物活性的天然产物中,将2009年开发的用于治疗糖尿病的实验药物halicin[一种c-Jun N末端激酶(JNK)的酶抑制剂]识别为可能的广谱抗生素。后续体外细胞培养测试和小鼠体内测试表明,halicin通过隔离细菌细胞内铁与破坏细菌调节细胞膜电化学梯度而诱发细胞死亡,对多种致病细菌(如艰难梭菌、鲍曼不动杆菌、结核分枝杆菌)的耐药菌株具有活性。

必须注意的是,不管是AlphaFold揭示的蛋白质结构,还是计算机深度学习发现的新抗菌素halicin,都属于现存概念与理论的延伸与拓展,代表渐进性的、而非颠覆性的突破。即便如此,充满超级数据处理潜力的人工智能势必在未来的科研创新理论验证(包括增强数据分析、创建精确模型、优化实验程序、预测分子行为、筛选潜在药物等)中得到更广泛的应用,分辨出更新颖的药物,为人类提供更高效的治疗方案。

综上所述,人工智能是指通过基于统计学程序的大数据分析, 模拟、延伸和扩展人类的思维过程和智能行为,让机器(或计算机)自主地执行原本由人脑完成的任务(包括学习、思考、行动等)。人工智能享有出类拔萃的可扩展性、一致性和高速度,可以大幅度提升自动化程度,减少人为错误。然而, 人工智能依赖数据输入以模仿人类思维与行为的事实,注定其无法超越人类智慧的范畴,更不可能凌驾于人类智慧之上。换言之,人类智慧不会被人工智能所打败,只会被自我陶醉与颓废所打败。尽管人工智能替代不了人类智慧在以溯因和归纳为主线的科研创新理论构建中获取颠覆性突破的作用,但其却可极大地增加在基于演绎的科研创新理论验证中寻求渐进性突破的效率。毫无疑问,人工智能将在科研创新的理论验证(包括增强数据分析、创建精确模型、优化实验程序、预测分子行为、筛选潜在药物等)中占据更为醒目的位置。