博文

人工智能的时装轮回：超高维感知与格式塔精选

已有 8738 次阅读 2026-3-8 08:11 |系统分类:科研笔记

时装经常是二十年一轮回，原来过时的时装有可能会再次流行起来，虽然这个轮回的时间线会有长有短。其原因在于审美本身并不是一个进化的问题，而是一直在随着时间环境而变化其品味。比如80年代末到90年代初曾一度流行的健美裤，也有称踩脚裤或脚蹬裤的，沉寂许多年后，最近这些年又开始流行了，不过通过改良制作工艺，舒适度提升不少，也因更适合锻炼，名字换成瑜伽裤重生了。那么，人工智能的研究有没有与时装轮回类似的规律呢？

当然有。从人工智能的历史来看，自1956年开始，一度流行的是连接主义，以罗森布莱特的感知机为代表，但由于最初的模型缺乏非线性求解方式，不能解决异或问题，很快就没了声音，让位于人工智能的其他研究方向。到1986年，由于反向传播算法的推出，神经网络又重新兴起。但十年后，1995年统计学习理论出山，在理论算法方面都略胜一筹，以至于神经网络的研究再次进入低谷期。曾有一段时间，神经网络的论文投稿很容易被拒，因为既缺乏理论性的证明，算法的参数也严重依赖经验调整。

但2006年辛顿提出深度学习概念后，人工智能又开始慢慢转向，到2012年Alex网络在ImageNet竞赛上远超传统统计学习方向性能后，人工智能正式迈入了深度学习的时代。人工智能的学者们发现，只要有巨量的高质量数据，有足够量参数的深度模型，通过购买大量的显卡后，进行深度调参后，往往能取得应用级的性能。俗话说，君子报仇，十年不晚。现在统计学习的文章投稿时，常会因为要分好两步或多步才能完成，而不是端到端一步实现而被人工智能顶会的专家诟病。

不过，一个人工智能学者可能会思考的问题是，如何暂时还找不到全新的人工智能理论体系，来突破现有深度学习和大模型建立的王国的话，统计学习这套理论体系是否还能再次回归，就像时装一样出现轮回呢？。

不妨再回顾下，之前我在前文提到过的预测模式和t-sne（t分布随机邻域嵌入）可视化技术。目前深度学习模型、大语言模型凑效的主要原因是通过足量的数据集来训练模型，以实现高精度的预测。而预测通常是需要有标签的。这种标签可以是人工标注、也可以是自监督学习或通过强化学习中的奖励模型等获得，也可能通过蒸馏其它模型来获得高质量的输入输出对，也可以通过掩码技术来利用序列特征的前若干个预测随后的一个或多个token。但不管如何表述，本质上都是依赖标签实现监督。而要获得高性能的预测，往往会回到一个基本概念：即通过优化模型参数使得相同类的距离应该足够近，不同类的应该足够远。

如何看出效果的好坏呢，除了定量指标，另一个便是辛顿的t-sne可视化了。然而，需要注意的是，通过模型来提升类间距离和缩小类内距离，存在一个不足。即当输入数据的维度偏低时，才会导致数据集在原空间里，不同类的有可能挤到一起，傻傻分不清楚。

因此，才需要通过巨量参数进行特征的升维，再通过判别分析、对比学习或类似的算法来将类别分开。

但是，如果输入的维度本身就是高维，或者超高维，那么就有可能在不需要引入巨量模型参数前，原本的空间就能得到很好的数据分离，也因此可以得到好的学习效果，且不需要再利用提及的判别分析技术将数据原本可呈现的几何、拓扑结构压缩扭曲。

那么，超高维输入维度的数据结构，以前有没有研究过呢？至少在我的知识认知框架下，我还没见过，比如10的8次方的输入维度或更高数量级维度的输入特征。从网络报道的信息看，手机摄像头目前有做到2亿像素的，但图像和视频真正作为深度学习模型的输入端时，往往会大幅度压缩，比如2048*2048，否则目前的显存会在计算内积时直接爆掉。

而生命在感知方面，往往具备极为丰富、功能多样、且有精细感知能力的传感器，它也意味着如果将这些多模态的输入合并在一起来看的话，其特征维度必然会张成一个超高维度空间。

一个自然的问题是，如此高维的输入会有什么好处或优势呢？

多数生命是无法与人类交流的，所以我们也很难完全清楚它们是如何利用这些高维输入来帮助其生存和演化的。

但人类科学家还是发现过不少有意思的规律，比如格式塔心理学。人类对视觉可见的图形，能通过无标签或无监督的方式，自动对图形进行聚类，比如根据黑白点的疏密性自动聚成团，对缺失的圆进行自动补全，对不同视角的图像可以按关注点来自动生成合适的结构，对散点能根据自己的知识能产生相对应的图案，对不同角度的立方形来进行虚拟旋转，判断其在不同角度的形状，诸如此类。这可以视为是在视觉空间完成的自动聚类。

而对于更高维的、不同于视觉的多模态感知数据，一个可以想象的情况是，如前所述，在这个超高维空间的，同类型的感知数据会更自然地靠在一起，不同类的会相对疏远。因而，人类或其它生命体有可能能借助这个超高维感知空间获得足够的稀疏性，并利用类似于格式塔的聚类机制，来总结、归纳式地学习知识，而无需考虑或较少需要考虑利用现在深度学习或大语言模型里类似对比学习、判别分析的方式来完成，因为高维空间中本就能很好地实现不同类足够远，同类足够近。

如果此构想成立，那么，就并不需要进行大量的手工或自动标注数据，也就无需巨量的数据来帮助学习和优化模型。这也许就是感知先行、认知后成可能有的好处。

它同时也可以让传统统计学习重新发挥其力量，只是需要改变下思维模式，即在已有的理论算法基础上考虑一个新的、但更难的研究方向，有限超高维输入样本下的统计（机器）学习。

而它也意味着，我们需要对很多旧瓶装入新的酒，比如如何构造相应的超高维多模态数据集来帮助测试，是否能够发展出有限样本的超高维统计学习理论，如何发现超高维输入之间的相互协同关系和长程关系等等。不仅在理论算法层面需要有新的酒，在输入端也是如此。比如如何人工合成超高维的多模态传感器、如何进行仿真模拟等。与深度学习可以无限制快速增加参数不一样的是，输入端的增加、合成是与生命科学仿生学材料工艺等学科密切相关的，而这些方向的发展都是实打实要消耗时间的，很多通过时间加速器来实现。

除此以外，超高维输入除了能够帮助学习，在帮助建设“自我”上也可能有着特别的意义。下回再说！

转载本文请联系原作者获取授权，同时请注明本文来自张军平科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3389532-1524881.html

上一篇：人工智能与感知：从马尾巴的功能说起
下一篇：数字果蝇与庄周梦蝶

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 218.82.93.*| 热度|

当前推荐数：4 推荐人：彭雷 郑永军 崔锦华 钱大鹏

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

张军平

扫一扫，分享此博文

heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

人工智能的时装轮回：超高维感知与格式塔精选

当前推荐数：4 推荐人：彭雷 郑永军 崔锦华 钱大鹏

该博文允许注册用户评论请点击登录评论 (1 个评论)

张军平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

人工智能的时装轮回：超高维感知与格式塔 精选

当前推荐数：4 推荐人： 彭雷 郑永军 崔锦华 钱大鹏

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

张军平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

人工智能的时装轮回：超高维感知与格式塔精选

当前推荐数：4 推荐人：彭雷郑永军崔锦华钱大鹏

该博文允许注册用户评论请点击登录评论 (1 个评论)