精选
|
最近的股市涨得不错,尤其是AI相关的几支股票。原因之一,不可否认是与2023年初OpenAI的chatGPT快速出圈有关,它引发了随后的百团大战。
两年过去了,我们看到了大量新的突破,比如Sora-2短视频的制作水平提升,谷歌人工智能套餐包括Gemini-3、NotebookLM和Nano banana Pro的推出。我们也看到了最近Meta收购全自动智能体Manus的争议。这些都意味着人工智能又向前迈进了一个台阶。
但是,我们还是需要思考下,人工智能的方向是否走对了。
带着这个疑问,前两天我与学生在贵州调研期间,和我其中一位研究生孙睿有了一段有趣的讨论。
我们先讨论了Transformer这个架构到底能不能像人一样做长的思考。小孙说,Transformer这样的架构已经可以对足够长的Token进行回溯和关联,比如25万字的长篇小说,因此,大模型是可以做到比人有更强的长思考能力。
我接着说,这种能力是需要代价的。因为需要大量的数据来学习和训练,模型的参数调整又需要好的并行能力。所以,我们现在大模型的方案基本上都是高耗能的。
这在自然界几乎上不可想象的。试想,如果在一个能源需要自给的自然环境下,耗能的动物有没有可能生存下来,比如曾经为地球主宰的恐龙。
而自然界能生存下来的都是比较节能的,像七星瓢虫,也许十来粒米的能量就能够飞一天。这可能是自然界长期随机演化的结果。虽然,这种演化不一定时时刻刻都朝着最优的方向,有的时候还会倒退,但总体来看,它获得了一种平衡。
这一平衡,如果用人工智能对大模型的调参来比拟,那它是自然界通过上亿年的调参获得的。只不过,结构上和现在人工智能的做法可能是完全不同的。
我们的大模型是建立在巨量参数基础上的,但受限于人类所能提供的算力影响,输入的特征却不多。像面向图像的深度网络,输入特征一般是256*256,1024*1024这样的,而特征层则会将需要学习的参数变得异常巨大。类似的,受自然语言处理和注意力启发的Transformer、LLM也是如此,中间层的参数非常大。从某种角度来看,这两种网络都是更多的关注对“抽象层”的统计特征学习。而要学习好这些参数,必不可少的需要巨量的数据。又为了形成高的计算效率,我们不得不依赖显卡或GPU集群来加速。
与之相反,人类或其它生命的输入层要复杂得多,比如有着极其丰富的传感器。它也导致了一个无法攻克的莫拉维克悖论的出现,即人类觉得简单的,机器觉得复杂;人类觉得复杂的,机器觉得简单。后者的复杂主要表现在学习上,可是,如果学习一旦可以程序化、流程化、规范化,机器必然会觉得简单。这一点在围棋上已经得到印证,也正在在所有与学习相关的任务中逐渐验证人工智能的强大。
而人类觉得简单的,却是自然演化出来的丰富传感器导致的。这些传感器的设计,大多数远比人类设计的要精妙且难以模仿。比如即使是一根针,蚊子的针、蝎子的针,和人类的注射针头相比,都要复杂得多。与学习相比,它有可能会导致与身体技能相关的一些工作很难被人工智能取代。
由此推开来看,我和小孙同学似乎有了一个更有意思的观点。
如果把自然界的演化看成是一种神经网络或深度网络,那这个网络的输入层会是巨量的参数,比如10的22次方或更高数量级的,而网络也许很浅,模型的优化也并一定聪明,甚至还会有极强的随机性掺杂其中。
但是,和人类相比,自然界的优化最不缺的不是能源,而是时间。它可以用上亿年来优化这个模型。相反,人类,作为单个人,能够贡献出来工作或投身人工智能研究的时间就少得可怜,只有自然界认为可以忽略不计的一瞬间。
因此,也不得不退全而求次,只针对智能的某一个方面来穷极一生进行优化。现在能找到的、也能形成成就感的优化点是预测相关的,或任何能转成预测问题的。比如人脸识别、大语言模型等。
为了能让这些预测问题的性能变好,人类会通过消耗大量的能源来换取时间上的加速。
事实上,这种时间换空间的做法不仅在人工智能方面是如此,在气候变化方面,人类也有类似的行为。比如自汽车发明以来,人类短时间内消耗的能源总和是自然界可能千万年的积累,于是它不可避免地影响了全球气候。
也许,从自然界的角度来看,人类就是一个极其贪婪的动物,即使现在有了人工智能的夹持和赋能。而这种做法,从短时来看,人类可以获得巨大的收益。但如果放到自然界的时间尺度来看,人类的这种加速就不一定是对的,甚至目前人工智能的做法也不一定是对的。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-12 23:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社