etreeasky的个人博客分享 http://blog.sciencenet.cn/u/etreeasky

博文

深度学习多隐层架构数理逻辑浅析(二十)(1)

已有 507 次阅读 2026-4-8 19:11 |系统分类:科研笔记

第二十章 广义旋量(旋转变换)特征元20.1 erlangen纲领与 ImageNet 项目图片归类

1872年, 23 岁的德国人克莱因在erlangen大学准备了一篇讲稿,这篇讲稿提出一个划时代的观点:每一种几何对应一个变换群, 每一种几何研究的对象是各形体在‘相应变换群下不变’的性质。

erlangen纲领最为人所知的是关于几何学的纲领,但是实际上远不止此,而是贯穿了几何、代数、复分析、群论和数学物理等多个方面。 erlangen纲领认为数学分成不同的领域、不同的逻辑方法论,只不过是表面的现象,因为数学的核心逻辑思维是统一的。不同学科的各种逻辑,只不过是不同群变化下的表现。比如,从数学上来讲狭义相对论是在lorentz变换群下的不变量理论,而广义相对论则是在一般点变换群下的不变量理论,在这个意义上相对论只是克莱因的《erlangen纲领》的一个应用事例而已。

erlangen纲领的关键是主张各个分支的逻辑统一,而这种大一统的通用逻辑方法,正是未来通用人工智能模型的理论基础。

一、erlangen纲领

1.1、默比乌斯映射SL2(R)群矩阵

下面我们来粗略探讨erlangen纲领的对于深度学习人工智能的指导思想。 [以下主要内容摘自《Erlangen纲领初阶:从群SL2(R)开始》]

我们知道“深度学习”是高阶张量,是一种多重线性映射。所以这里借用一个最初阶的多重线性映射---“双线性”(分式线性映射)的默比乌斯映射为例:

进一步看,默比乌斯映射的SL2(R)群矩阵g可以分解成:

其中的矩阵A表示膨胀变换,矩阵N表示左平移作用,矩阵K是旋转变换。

现在,我们考虑某个研究对象(比如圆形)对于默比乌斯映射(膨胀变换、左平移作用、旋转变换的复合变换)的特征属性“不变性”:

在初等几何中,我们谈论一个图形是否“不变”,指的是“全等”,也就是刚体力学的几何体(长度在欧氏变换群下不变)。这相当于左平移作用、旋转变换的复合变换的“不变性”。这是不变性的第一层含义。

1.2、等价类

erlangen纲领思想中,“不变性”可以扩展到第二层含义,比如在上述平移作用、旋转变换加入伸缩变换, 这样就得到更大的 “相似变换群”。对于群论而言,“相似”是一个等价类,构成一个不变子群,标示了某‘类’不变的特征属性。比如上图不同半径的圆周, 在相似几何中就被视为同样的一类图形。这时刚体几何中的 “全等”概念,等同于相似变换群下的“相似”。这里的一类‘不变量’的逻辑概念,由A=B,扩展成了

在深度学习人工智能中,识别图片猫,也可依此层次逻辑:

比如,第一层的‘类特征属性’识别,图像可以平移、可以旋转,都视为不变的“全等”的同一只猫:

第二层的‘类特征属性’识别,扩张增加了膨胀变换,所以“相似”的大小不一的图像,也会被为同一种类的猫:

在实际环境中,深度学习识别猫,可能面临更普遍意义下的更多层次性概念问题。所谓的“猫”,并不是一个绝对意义的“全等”概念,而是具有千姿百态的亚属性。

那么,怎样把狸花猫、波斯猫、缅甸猫、暹罗猫、长毛猫、短毛猫、公猫、野猫、白猫、黑猫......,都一视同仁的看作有共同特征属性的“猫类”呢?如何抽象出猫的整体的共有属性,而不区分猫的各个分支的亚属性呢?

换句话说,如何来标示不同层次逻辑的特征属性呢?

关键在于群!

1.3、‘不同群变换g’对应于‘不同层次等价类’

表征变换的群G不同,则得到的等价类抽象属性就不同。比如,射影几何仿射几何是比欧式几何更大的抽象类。在仿射几何里所有的平行四边形都是相同的, 而射影几何的椭圆、抛物线、双曲线都看作是同一种类图形。

为什么,射影几何中能够把椭圆、抛物线、双曲线看作是同一种类图形,究其根本是因为三者的射影变换群轨道都是圆锥体的表面,而群轨道表征了一个群结构的基本结构。

更进一步,我们甚至还可以考虑更高阶的张量空间,对“圈”的特征概念在更大范围统一。比如,将具有专属结构的“圈”概念看作某个更高阶空间的“点”。而这个更高阶空间应该具备一个适当的结构,从而能够从外部容纳“圈”对象的内部结构性质信息。

凡是具有等价关系(比如矩阵相似、群共轭:

)的图形都属于同一类,同一类里的一切图形所具有的共同几何性质必是变换群G下的不变量(类的固有特征属性)。在更高阶空间中,变换群G意义是不同的。也就是说,不同‘类别’的固有特征属性的‘不变性’是相对的,对应于不同层次意义上的变换群G。并且,erlangen纲领指出,群变换层次越高(越是普遍性的),则这种变换下的共同类的不变性质就越稳定。

不仅仅几何学的圈,还有泛函分析的函数,在不同群变换g下都具有层次抽象的普遍意义。用矩阵的代数不变量来标识圈的几何不变量,深刻揭示了逻辑的普适统一性,而不是各个分支各行其道的逻辑专有性。

在正交变换群下保持几何性质不变的是欧式几何,在仿射变换群下保持不变的是仿射几何,在射影变换群下保持不变的是射影几何,在微分同胚群下保持不变的是微分几何。将“距离”概念抽象化而提炼出“单比”概念,进一步将“单比”抽象化而提炼出“交比”概念,于是,从欧式几何中舍弃“距离不变”而保留更普遍的“单比不变”,得到仿射几何;从仿射几何中舍弃“单比不变”而保留更普遍的“交比”,得到一般的射影几何。从欧式空间(长度,夹角)到内积空间(模,不严格的夹角)再到赋范空间(范,完全抛弃夹角)也是如此,不断的改良(抽象、提炼),一改再改,但最终改到不能再改时,就完成了一个革命——甚至连范数(最熟悉因而最不愿抛弃的度量或度规)也抛弃了,从不严格的距离发展到不确定的距离(邻域δ,就像前面提到的无穷小量一样不确定),得到了里程碑式的“拓扑空间”的概念。 经由欧式空间的连续函数抽象出度量空间的连续映射,一直到抽象出拓扑空间中的同胚映射,一层又一层的抽象是关键。 因为抽象所以普适,因为抽象所以一般,因为抽象所以能抓住本质。

不仅仅几何图形等价关系可以群变换,群变换在代数系统也具有普遍性。除了上面提到的几何图形等价关系,还有各种各样的代数等价关系。例如同余类、商群(以陪集为元素构成的集合)等概念。普遍意义下,对于两个群,不论它们的元素多么地不同,只要运算性质相同,彼此就是同构的,并且可以因此认为是相同的代数对象而不加区别。比如复指数函数,不论膨胀、收缩、转动、反演都可以统一起来;双曲型方程,不论弦振动、声音、流体、电磁波都可以统一起来。

所谓的学科分支,在erlangen纲领看来只是一种错觉。无论是几何、代数、泛函、复指数傅立叶分析,还是相对论、量子力学,不同领域、不同参照系,在高阶张量群结构中有深刻内在联系。

因为不同层次的群变换,表征了不同层次类别的抽象特征。所以基于群结构的深度学习模型,不仅可以识别一只猫、可以从不同亚属的猫中抽象共同类的特征属性,甚至还可以演算出猫属于一种生物,可以理解猫和狗的类之间的不变内积关系。也就是说,未来群结构的深度学习,将会赋予人工智能普遍意义的“通用”观念。

二、Erlangen 纲领与 ImageNet 项目图片归类

📊 ImageNet 是一个用于视觉对象识别研究的大规模图像数据库,它是推动深度学习革命的决定性因素之一。这个项目旨在构建一个能够反映真实世界的大规模、高质量图像数据库。它的核心是为机器学习算法提供海量的、经过人工标注的、有组织结构的视觉数据,以训练和评估计算机视觉模型。

● 核心规模: 数据库包含超过 1400万 张图像,覆盖了 2万多个 类别(如“气球”、“草莓”)。

● 精细标注: 所有图像都经过人工注释,其中超过100万张图像还提供了边界框,标明了对象在图片中的具体位置。

● 组织结构: 项目创新性地利用语言学数据库 WordNet 的层次结构来组织图像类别,使得类别之间存在清晰的语义关系(例如,“德国牧羊犬”属于“犬科”,而“犬科”又属于“哺乳动物”)

Erlangen 纲领以群变换下的不变性为核心,构建了数学各分支统一的逻辑基底,而 ImageNet 作为计算机视觉领域的里程碑式图像分类项目,其底层的图片归类逻辑与模型设计思想,本质上是 Erlangen 纲领在深度学习视觉任务中的具象化落地。二者的核心联结在于以 “变换群的不变性 / 等变性” 为核心,实现对视觉对象的层次化抽象与类别化表征,Erlangen 纲领为 ImageNet 的归类逻辑提供了数学本质的解释,而 ImageNet 则成为 Erlangen 纲领在人工智能视觉认知领域的经典实践验证,具体的深层联系体现在核心原理、层次化抽象、模型设计、认知泛化四个维度。

2.1、核心原理同构:群变换的不变性是二者的底层逻辑基石

Erlangen 纲领的核心论断是“每一种几何对应一个变换群,几何研究的是形体在对应变换群下的不变性质”,将数学的核心逻辑统一为 “群变换下的不变量求解”—— 不同的变换群(欧氏变换群、相似变换群、仿射变换群、射影变换群)定义了不同的 “等价类”,同一类对象共享该变换群下的固有不变特征,而变换群的层次越高,抽象出的不变性质越普适、越稳定。

这一原理直接构成了 ImageNet 图片归类的核心数学前提:ImageNet 的核心任务是将海量异构的图像(同一物体的不同姿态、尺度、位置、背景)归为同一类别,其本质是寻找视觉对象在 “图像变换群” 下的不变特征类。ImageNet 所面对的图像变换,本质是 Erlangen 纲领中几何变换群在二维视觉空间的延伸,包括:

  1. 欧氏变换群:图像的平移、旋转、翻转(对应刚体几何的全等不变性),如 ImageNet 中 “猫” 的图像无论出现在画面左侧还是右侧、正放还是旋转 90 度,都需被归为猫类;

  2. 相似变换群:图像的缩放、拉伸(对应相似几何的相似不变性),如大猫、小猫的图像虽尺度不同,但其核心视觉特征的相似性不变,需被归为同一类;

  3. 仿射 / 射影变换群:图像的视角畸变、透视变换(如从正面、侧面拍摄的同一物体),对应更广义的几何不变性,是 ImageNet 对复杂真实场景图像归类的重要依据。

ImageNet 的归类目标,本质上就是让模型学习到上述视觉变换群下的不变特征类表示,这与 Erlangen 纲领 “通过变换群定义等价类,提取类的不变属性” 的核心逻辑完全同构。

2.2、‘层次化’抽象一致:从具象特征到‘类别本质的逐级提炼’

Erlangen 纲领揭示了数学领域“变换群层次越高,抽象程度越高,不变性质越本质” 的规律:从欧氏变换群(保留长度、夹角,抽象程度低)到相似变换群(保留形状,舍弃绝对尺度),再到仿射变换群(保留平行性,舍弃形状)、射影变换群(保留交比,舍弃平行性),通过不断舍弃次要特征、提炼核心不变量,实现对对象的高层次抽象;甚至进一步抽象到拓扑空间,舍弃所有度量,仅保留最本质的拓扑不变性,抓住对象的根本特征。

这一层次化抽象逻辑,正是 ImageNet 图片归类和基于 ImageNet 训练的深度模型(如 CNNViT)的核心设计思路:

  1. 底层特征层(低阶变换群不变性):模型卷积层、注意力层首先学习欧氏变换群下的局部不变特征,如边缘、纹理、角点,这些特征不受图像平移、旋转的影响(CNN 的卷积操作天然具有平移等变性,池化操作进一步实现平移不变性),对应 Erlangen 纲领中 “刚体几何的全等不变性”,是对图像最具象的特征提取;

  2. 中层特征层(中阶变换群不变性):模型通过多层卷积、特征融合,学习相似变换群、仿射变换群下的全局不变特征,如物体的形状、轮廓、局部结构组合,舍弃图像的尺度、视角等次要特征,如 ImageNet 中不同大小、不同拍摄角度的 “狗”,其轮廓和肢体结构的相似性成为核心归类依据,对应 Erlangen 纲领中 “相似几何 / 仿射几何的类不变性”;

  3. 高层特征层(高阶变换群不变性):模型的全连接层、全局汇聚层最终学习射影变换群甚至拓扑空间下的本质不变特征,舍弃物体的具体形态、纹理细节,提炼出类别级的核心属性,如将狸花猫、波斯猫、黑猫等不同亚属的猫,抽象为 “猫类” 的本质特征,将猫、狗、兔抽象为 “动物类” 的拓扑特征,对应 Erlangen 纲领中 “射影几何 / 拓扑空间的高阶抽象不变性”,实现从 “具象对象” 到 “类别本质” 的跨越。

ImageNet 的标注体系本身也体现了这种层次化抽象:从细粒度的子类(如 “西伯利亚哈士奇”“阿拉斯加雪橇犬”)到粗粒度的大类(如 “犬科”“哺乳类”),其类别划分的依据正是不同层次变换群下的不变特征类,与 Erlangen 纲领的层次化抽象逻辑高度契合。

2.3、模型设计呼应:Erlangen 纲领指导下的视觉特征学习范式

ImageNet 的成功,离不开以 CNN 为代表的深度模型的支撑,而这些模型的核心设计范式,均是 Erlangen 纲领 “群变换的等变性 / 不变性” 在工程上的具体实现,Erlangen 纲领为模型设计提供了明确的数学指导,而 ImageNet 的海量数据则让模型能够学习到不同变换群下的视觉不变量,二者形成了 “理论指导 + 数据验证” 的闭环。

①卷积操作的平移等变性:欧氏变换群的工程实现:CNN 的卷积核权重共享机制,让模型对图像的平移操作具有等变性(平移输入图像,输出特征图也对应平移),而池化操作(最大池化、平均池化)则将等变性转化为不变性(忽略局部平移的细微差异,保留核心特征)。这一设计直接呼应 Erlangen 纲领的欧氏变换群不变性,解决了 ImageNet 中 “同一物体在图像不同位置需被归为同一类” 的核心问题,也是模型能够处理海量异构图像的基础。

②数据增强的变换群扩充:相似 / 仿射变换群的模拟:ImageNet 训练过程中广泛使用的数据增强策略(随机缩放、裁剪、旋转、翻转、透视变换),本质上是在人工扩充视觉变换群的规模,让模型能够学习到更广义变换群下的不变特征。例如,对图像进行随机缩放,模拟相似变换群;对图像进行随机透视变换,模拟仿射 / 射影变换群。这一操作的数学本质,正是按照 Erlangen 纲领的思想,通过扩充变换群的范围,让模型提炼出更普适、更稳定的类别不变特征,从而提升模型在真实场景中的泛化能力。

③层次化网络结构:变换群的层次化表征:深度模型的 “浅层 - 中层 - 高层” 层次化结构,与 Erlangen 纲领的 “低阶变换群 - 高阶变换群” 层次化结构一一对应:浅层网络处理低阶变换群(欧氏)的局部不变特征,高层网络处理高阶变换群(相似、仿射、射影)的全局本质特征。而模型的全局汇聚层(Global Average Pooling)则进一步舍弃空间位置信息,仅保留类别级的不变特征表示,实现了从 “图像信号” 到 “类别符号” 的转化,这正是 Erlangen 纲领中 “通过高阶变换群抽象出对象本质” 的工程落地。

④视觉 Transformer 的全局注意力:拓扑不变性的探索:基于 ImageNet 训练的视觉 Transformer(ViT),通过将图像划分为 patch 并引入全局自注意力机制,突破了 CNN 的局部感受野限制,能够学习到图像的全局拓扑特征—— 不依赖局部的边缘、纹理,而是通过 patch 之间的关联关系,提取物体的整体拓扑结构不变性,对应 Erlangen 纲领中 “拓扑空间的同胚映射不变性”,是对更高阶变换群不变特征的学习,也让 ImageNet 的归类逻辑更贴近人类的视觉认知方式。

2.4、认知泛化同源:从数据集归类到通用视觉认知的延伸

Erlangen 纲领的终极价值,并非仅解释现有几何体系,而是通过群变换的统一逻辑,实现数学不同分支的融合与泛化;而 ImageNet 的终极意义,也并非仅完成1400万张高清图片的2.2万个类别的归类,更重要的是通过标签明确了视觉变换群下的不变特征类的层级关系,为通用计算机视觉认知现实世界的自然常识奠定统一图谱基础,二者的泛化逻辑同源,均是 “通过不变性的提炼,实现从特殊个性特征类别共性特征层级包含关系的统一框架的认知跨越”。

①Erlangen 纲领的数学泛化:从几何到全数学的统一:Erlangen 纲领将几何的逻辑推广到代数、复分析、群论、数学物理等领域,指出不同学科的逻辑差异只是 “不同群变换下的表现”,其核心都是对不变量的研究 —— 例如狭义相对论是洛伦兹变换群下的不变量理论,广义相对论是一般点变换群下的不变量理论。这种 “以不变量为核心的跨领域泛化”,是数学从 “分支化” 走向 “统一化” 的关键。

②ImageNet 的视觉泛化:从数据集归类到通用视觉任务:ImageNet 训练的模型,通过学习到视觉变换群下的通用不变特征,能够轻松迁移到其他计算机视觉任务(目标检测、语义分割、图像生成、人脸识别等),这正是Erlangen 纲领泛化逻辑的视觉落地:在 ImageNet 中学习到的 “猫类”“狗类” 的不变特征,本质是视觉对象的通用特征表示,能够适配不同任务的特征需求 —— 例如目标检测任务需要在复杂背景中识别物体,其核心仍是寻找物体在背景变换群下的不变特征;人脸识别任务需要在姿态、表情、光照变换下识别身份,其核心是寻找人脸在欧氏 / 相似变换群下的身份不变特征。 ImageNet 推动的 “几何深度学习” 研究,本质是以 Erlangen 纲领为理论基础,试图构建统一的视觉认知数学框架:将图像、点云、图结构等不同视觉数据,统一为 “几何域上的信号”,通过群表征理论学习不同几何变换群下的等变 / 不变特征,实现对所有视觉数据的统一建模,这与 Erlangen 纲领 “统一数学各分支” 的终极目标高度一致。 Erlangen 纲领与 ImageNet 项目的底层联系,是 “群变换下的不变性” 这一核心数学思想,从纯理论领域向人工智能视觉认知领域的深度渗透与具象化 。Erlangen 纲领为 ImageNet 的图片归类提供了基本数学解释:ImageNet 的归类并非孤立的 “特征匹配”,而是对视觉对象在不同变换群下的不变特征类的层次化提炼;而 ImageNet 则为 Erlangen 纲领提供了最具代表性的工程实践验证,证明了 “以不变性为核心的层次化抽象” 不仅是数学的统一逻辑,也是人工智能实现视觉认知的核心路径。

ImageNet 项目在人工智能发展史上的不可或缺意义,在于其图片分门别类架构群层级脉络。从呱呱坠地𨒂生那天,深度学习AI就和群理论深度绑在一起了。



https://blog.sciencenet.cn/blog-1666470-1529513.html

上一篇:深度学习多隐层架构数理逻辑浅析(十九)(8)
下一篇:深度学习多隐层架构数理逻辑浅析(二十)(2)
收藏 IP: 117.188.23.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-13 21:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部