精选
|
2007年,我在加州大学圣地亚哥分校(UCSD)访问,在那学习英语、听各类研究生课程,既听了计算机视觉大咖Serge Belongie开的计算机视觉的课程,也听了机器学习大神Yoav Freund开的机器学习课程。前者课程轻松愉快、常有免费比萨,也不知道买比萨的经费从哪来的,毕竟30多人的大课。后者喜欢在白板推公式,偶尔还有推错被学生发现差点下不来台的时候,好在听课人数加我也不到10人,大家也不在意老师慢慢找回正确线索的时间。实在推不出也可以说下次课再讲正确答案,Yoav也确实做到了。我也从这些课里学到了不同的上课理念和技巧,潜移默化地影响了我随后的科研和授课。除了听课,我也听讲座。UCSD计算机方向里有一个Distinguished Lecturer的系列讲座,有一次请到了Geoffrey Hinton。他过来讲他在Science刚发表不久的深度学习。很多人去听了,我也去了,但那会真没有太多人愿意跟进他的工作。毕竟,当时机器学习仍然更为完善,要理论有理论,要算法有算法,性能也不差。
但2012年Hinton带学生Alex在IMAGENET竞赛上取得决定性的胜利后,局势完全翻盘了(需要指出的是,这一胜利在此之前已有端倪)。深度网络开始主导人工智能的发展,机器学习被远远甩在后面,被多数深度网络研究者认为是只在小规模数据集上才有一定优势的研究方向。
实际上,这期间机器学习学者还是有过不少想翻盘的尝试。比如我在国外的一位朋友曾在2012年左右跟我说过,有次开会,辛顿跟他说,深度就是比浅层的机器学习方法好。而我这朋友就想试试,能不能用浅层的无监督机器学习,即通过高维映射到那个平方可积、但又不需要显式知道映射函数的重建核希尔伯特空间,再低维映射回原空间。用这个方式构造一个无监督的浅层自编码网络,来获得与深度学习类似的性能。我的学生和他一起尝试过,但很不幸,花了很多时间,效果并不理想,最终也没有形成合作成果。
自2012年至今,差不多13年过去了,目前的深度学习很明显在往巨量参数模型上发展,以前浅层的机器学习算法中从未见过的百万级甚至亿级、十亿级以上的参数,对于深度的大模型来说,已不显见。因为需要高效训练这些参数,并行计算成了必然,它就导致了GPU显卡价格的一路飚升和能耗的显著增加。而多模态大模型的出现,也让人们似乎看到通向AGI的曙光。为了弥补其对世界感知的不足,VLA(Vision-Language-Action)、空间计算、世界模型等也纷纷出炉。
然而,这些努力似乎有意无意地避开一个问题,即输入层的参数量级远远小于随后层数交互后的参数量级。道理上是讲得通的,如果输入层过大,比如百万级或更高量级的输入参数,那么,如果第二层是在此基础上进行卷积和键值的升维,任何单卡GPU的显存,在不考虑分布式的前提下都会爆掉。即使能分卡进行训练,但到测试或推理时,从可实用的角度考虑,比如在自动驾驶上应用,也没法放一个巨量的显卡集群来运行。
结果,输入层在目前的深度学习主导下,以及硬件条件限制下,几乎不可能做到极高的参数量。
但是,从上一篇我谈到的感知与认知的关系来看,丰富的感知能力才是认知的基础,它也可能是自然界生命低耗能的原因之一。
那么,一个自然的问题是,如果重建一个浅层模型,但输入层是巨量的参数,是否有可能能重新回归到传统的浅层机器学习模型的研究上呢?是否有可能不需要同样巨量的高质量数据标量,也不需要大量的耗能,就能在某些问题上获得与深度学习一样好的学习性能呢?是否能从理论上解决莫拉维克悖论里的“人类觉得简单的,机器觉得复杂”这个目前人工智能尚显不足的部分呢?
欲知后事,下回分解!
附:浅层巨量参数的模型,实际上还有其他人也考虑过。比如华南理工大学的陈俊龙教授,他曾提出过宽度网络,并发表了相关的论文。但从我的理解来看,这个宽度还没有达到巨量参数的规模。
张军平
2026年1月16日星期五
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-16 13:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社