博文

[转载]赫布学习遇见霍普菲尔德网络

已有 56 次阅读 2026-6-30 13:46 |个人分类:评论文章|系统分类:观点评述|文章来源:转载

赫布学习遇见霍普菲尔德网络：一种始终比Transformer更聪明的架构

在过去的十年里，Transformer及其注意力机制主导了人工智能领域。从GPT到BERT再到视觉Transformer，“注意力就是一切”的口号重塑了我们对机器学习的认知。将数据进行表示转换的编解码器管道成为了从语言处理到图像生成等一切任务的基础。它们是革命性的，是强大的。

而如今，它们正撞上一堵墙。

具有讽刺意味的是，解决方案早在1982年就已存在。那年，约翰·霍普菲尔德在《美国国家科学院院刊》上发表了一篇论文，介绍了一种循环神经网络，拥有Transformer从未真正实现的特性：通过能量最小化保证收敛到稳定状态。霍普菲尔德网络不仅仅学习模式，它还将模式存储为能量景观中的物理吸引子，即使输入有噪声或不完整也能检索出来。

人工智能界现在才开始内化物理学和神经科学界几十年前就知道的事实：基于能量的联想方法并非历史的奇珍，而是一种基础范式，Transformer时代仅仅是在未完全理解的情况下在其基础上构建的。

Transformer的天花板

Transformer通过自注意力同时计算序列中每个元素之间的关系。这对于语言来说是绝妙的，对于有清晰序列模式的结构化数据也是如此。但现实世界——机器人技术、嵌入式电路、传感器驱动的决策和边缘计算的世界——并不会把自己组织成整齐的序列等待被处理。

Transformer架构假设资源充裕：充足的计算能力、充足的内存、充足的电力。自注意力随序列长度呈二次方扩展。前馈层线性增长但体量巨大。当你在仓库导航的移动机器人上部署基于Transformer的系统，或将其嵌入控制机械臂的电子电路中时，这些假设就崩塌了。

编解码器范式有其自身的局限：它将智能主要视为固定表示之间的转换问题。编码输入，解码输出。但真正的智能不仅仅是翻译，它还会记忆、联想，即使输入受损或模糊，也能收敛到稳定的解释。

我们一直在使用量化、蒸馏、剪枝和无数其他优化技巧来修补这些问题。2025年的边缘AI调查证实，在嵌入式硬件上部署深度学习仍然“受到内存、计算和能源严格限制的约束”。但对一个根本上不匹配的架构进行优化只会推迟清算的到来。我们需要一种将内存、稳定性和能效作为首要原则，而非事后补救的架构。

进入霍普菲尔德神经网络

霍普菲尔德网络是一种循环神经网络，由单层神经元组成，每个神经元都与其他所有神经元相连（自身除外）。网络形成一个完全无向图，每对神经元共享对称的连接权重，意味着从神经元i到j的强度与从j到i完全相同。没有自连接，没有分层层级，没有顺序处理管道。相反，整个网络作为一个单一的、相互连接的动力系统运行，随时间演化至稳定平衡状态。

霍普菲尔德网络的完全连接神经元。每个节点通过对称权重（wij=wji）连接到其他所有节点，形成一个完全无向图。不存在自连接。

这种架构的优雅之处在于其能量函数。霍普菲尔德证明了他的网络拥有一个相关的李雅普诺夫能量函数：

E=−21i∑j∑wijsisj−i∑θisi

该能量保证在每次神经元更新时减少或保持不变。网络总是收敛——它永远不会无休止地振荡，永远不会发散，永远不会陷入无限计算循环。它会安定下来。布鲁克在1990年证明，这种安定行为与关联图中的割有关——网络本质上在每一步更新时执行最大割问题的贪算法。

网络安定下来的地方就是智能所在。存储的模式对应能量函数的局部极小值——能量景观中的山谷。当你向网络展示一个存储模式的损坏、噪声或不完整版本时，动力学将使网络状态向山下滚动，直到落入最近的山谷：与输入最匹配的存储模式。

霍普菲尔德网络的能量景观。每个山谷（局部极小值）对应一个存储的记忆模式。从任何初始状态开始，网络动力学都会向“下坡”滚动，直到安定在最近的吸引子中，从部分或噪声输入中恢复完整模式。

这就是内容寻址联想记忆——能够从部分线索中回忆起完整的记忆，这是生物大脑毫不费力就能做到的，而Transformer只能通过昂贵的计算来近似实现。

其与物理学的联系很深。霍普菲尔德网络在数学上等同于伊辛模型——统计力学中用于描述磁性的相同框架。1975年发表的谢林顿-柯克帕特里克自旋玻璃模型，本质上就是一个具有随机权重的霍普菲尔德网络。霍普菲尔德的洞见是有意利用这一特性，设计能量景观使得每个极小值对应一个有用的存储模式。

赫布学习：一起激发的神经元连在一起

使霍普菲尔德网络工作的学习规则可以追溯到更早，源于唐纳德·赫布1949年的著作《行为的组织》，该书提出了现在被认为是神经学习理论基础的原则。

赫布学习在数学上执行无监督的主成分分析（PCA）——网络自然地从环境中提取最具统计显著性的特征。

1997年，阿莫斯·斯托基引入了一种改进的学习规则，考虑了每个神经元的局部场，实现了比标准赫布学习更大的存储容量。这表明即使在相同的架构内，学习算法的选择也至关重要——这一原则与神经网络研究的更广泛教训相呼应。

突破：“霍普菲尔德网络即你所需要的一切”

2020年，胡贝特·拉姆绍尔领导的约翰内斯·开普勒大学林茨团队发表了一篇论文，标题戏仿了Transformer的起源故事：“霍普菲尔德网络即你所需要的一切”。他们的贡献是数学证明了许多人怀疑的事情：Transformer中的自注意力机制正是现代连续霍普菲尔德网络的更新规则。

等价性

Transformer注意力是现代霍普菲尔德更新

现代霍普菲尔德网络存储指数数量的模式·单次更新检索·指数级小的误差·存储容量 2N/2vs 经典 0.138N

现代霍普菲尔德网络与Transformer注意力的联系。Transformer中基于softmax的注意力机制在数学上等同于具有指数能量函数的连续霍普菲尔德网络的一步更新规则。图片来自Ramsauer等人，“Hopfield Networks is All You Need”。

这不仅仅是一个类比。团队表明，通过将经典霍普菲尔德能量函数推广到连续状态并使用指数交互项，得到的更新规则变为：

Z=softmax(β⋅RWqWkTYT)YWkWv

这正是Transformer的注意力公式。现代霍普菲尔德网络可以存储指数数量的模式（与联想空间的维度相关），单次更新即可检索，并具有指数级小的检索误差。

该论文在现代框架中识别了三种类型的能量极小值：（1）对所有存储模式取平均的全局不动点，（2）对模式子集取平均的亚稳态，以及（3）存储单个模式的不动点。Transformer较低层的头倾向于在全局平均机制下运行，而较高层的头使用亚稳态来收集和处理信息——这一发现深刻揭示了Transformer为何以这种方式工作。

实际影响立竿见影：该团队发布了霍普菲尔德层作为即用型PyTorch模块，可以替代池化层、GRU/LSTM层和标准注意力层。在基准测试中，这些霍普菲尔德层在免疫组库分类（每个样本有数十万个实例）、多示例学习问题和传统深度学习方法通常表现不佳的UCI分类基准上取得了最先进的结果。

到2025年12月，增田和濑木的一篇NeurIPS论文更进一步，表明超越“绝热近似”揭示了霍普菲尔德-Transformer对应关系中的隐藏状态，可以解决困扰深层Transformer的秩崩溃和令牌均匀性问题，在无需增加任何训练参数的情况下提高准确率。

日益形成的共识：还有谁在这么说？

认为霍普菲尔德网络代表Transformer之后下一个范式的论点并非推测。它正被主要研究机构积极推进，证据积累迅速。以下是汇聚到同一结论的关键声音和论文。

IBM研究院与德米特里·克罗托夫

2025年1月，IBM研究院发表了与德米特里·克罗托夫（霍普菲尔德的长期合作者，密集联想记忆的架构师之一）的广泛访谈。克罗托夫直接提出了理由：由于霍普菲尔德网络反映了大脑的循环反馈回路——与当前90% AI模型的的前馈架构不同——它们代表了“当今前馈网络的一个有前途的替代品”。他指出，Transformer仅在一个方向上处理信息，随着上下文窗口变长，计算复杂度迅速增加。相比之下，大脑使用循环反馈回路来总结并将过去的信息存储在记忆中。霍普菲尔德网络也是如此。

克罗托夫还描述了能量Transformer（NeurIPS 2023），这是IBM研究院与佐治亚理工学院的合作成果，它不仅将霍普菲尔德的见解叠加到现有的Transformer上，而是用单一的庞大联想记忆模型取代了整个前馈Transformer块序列。能量Transformer中的注意力机制明确不同于传统注意力：它是从能量最小化第一性原理推导出来的，而不是修补在前馈管道上。

IBM研究院“寻找受大脑启发的人工智能算法”（2025年1月）	能量Transformer arXiv:2302.07253 (NeurIPS 2023)

约翰内斯·开普勒大学——霍克赖特团队

LSTM的共同发明人塞普·霍克赖特领导的团队发表了“霍普菲尔德网络即你所需要的一切”。他们的霍普菲尔德层代码库提供了生产就绪的PyTorch模块，可作为Transformer注意力层、池化层和循环层的直接替代品。配套的博客文章详细推导了数学过程，表明softmax注意力公式是现代霍普菲尔德更新规则的一个特例，并且霍普菲尔德层提供了标准注意力无法提供的额外功能，包括静态学习原型和灵活的联想记忆配置。

霍普菲尔德网络即你所需要的一切 - ICLR 2021	PyTorch霍普菲尔德层 - GitHub	交互式博客 - http://ml-jku.github.io

NeurIPS 2025：霍普菲尔德注意力改进GPT和视觉Transformer

最新的证据来自增田和濑木2025年12月的NeurIPS论文。他们表明，添加了源自完整（非绝热）霍普菲尔德动力学的隐藏状态的现代霍普菲尔德注意力（MHA）系统地改进了GPT-2和LLaMA语言模型以及视觉Transformer。改进无需增加任何训练参数。更重要的是，研究发现MHA解决了秩崩溃问题（深层Transformer中的注意力矩阵退化，导致所有令牌收敛到相似的表示）——这是困扰Transformer扩展努力的一个根本性病理。作者总结道：“我们希望这项研究将为利用霍普菲尔德网络系统性设计Transformer架构开辟新的可能性。”

论现代霍普菲尔德网络隐藏状态在Transformer中的作用 arXiv:2511.20698 (NeurIPS 2025)

《自然-通讯》：生物合理的在线学习

2024年5月，《自然-通讯》发表了一项关于稀疏量化霍普菲尔德网络的研究——这是一种在在线持续场景中利用局部学习规则学习的模型，正如生物大脑所做的那样。这解决了Transformer的一个基本限制，即需要非局部反向传播和在精选数据集上进行离线训练。该论文将基于霍普菲尔德的架构定位为人工神经网络与神经形态计算硬件之间的天然桥梁。

用于在线持续记忆的稀疏量化霍普菲尔德网络《自然-通讯》(2024)

用于大型基础模型的离群高效霍普菲尔德层

2024年的一篇论文解决了大型Transformer模型中的一个实际问题：倾向于将注意力分配给无信息令牌（分隔符、标点符号）——即“无操作离群”问题。他们的解决方案是一个离群高效的霍普菲尔德能量函数，对这些令牌进行分类并将其路由到一个零能量点，防止它们稀释有用的注意力。由此产生的模型将Softmax1注意力作为特例包含在内，并在BERT、OPT和视觉Transformer上进行了验证。这是霍普菲尔德理论在解决现实世界Transformer工程问题。

用于大型基于Transformer模型的离群高效霍普菲尔德层 (2024)

Transformer作为能量最小化器（2026年1月）

最新的理论研究发表于2026年1月，将整个Transformer前向传播构建为内在能量最小化——完全采用霍普菲尔德视角作为解释Transformer为何有效的框架。该论文将稀疏现代霍普菲尔德模型与整个注意力变体系列（softmax、sparsemax、α-entmax）联系起来，表明它们都是基于能量的检索动力学的特例。

Transformer作为内在优化器：通过能量原理进行前向推理 (2026年1月)

综述论文与社区资源

更广泛的研究界正围绕这一趋同组织起来：

“基于能量的学习与霍普菲尔德网络的演变” (TechRxiv, 2025年4月)：一篇全面的综述，追溯了从霍普菲尔德(1982)到玻尔兹曼机，再到将Transformer注意力重新解释为现代霍普菲尔德动力学的完整轨迹。→ 阅读论文
“基于能量的视角看Transformer中的注意力机制”：一篇深入的技术博客，认为通过霍普菲尔德能量透镜理解Transformer“可能会带来与仅仅依靠扩展和减少计算复杂度截然不同的改进”。→ 阅读博客
Awesome Modern Hopfield Networks：一个精选的GitHub仓库，跟踪跨领域的50多篇现代霍普菲尔德网络论文：资产配置、变化检测、创造性思维重构、分布外检测、免疫组库分类等。→ 浏览合集
“霍普菲尔德网络即你所需要的一切？” (Analytics India Magazine, 2024年12月)：面向从业者的报道，介绍霍克赖特团队如何证明霍普菲尔德网络“可与最先进的Transformer模型互换”。→ 阅读文章
“霍普菲尔德网络新研究：简短介绍” (Medium, 2024年7月)：易懂的概述，指出通过指数激活函数，存储容量已从0.138N增长到 2N/2。→ 阅读Medium文章

轨迹是清晰的。这不是一个实验室的提议或一篇论文的推测。IBM研究院、约翰内斯·开普勒大学、MIT、NeurIPS、《自然-通讯》以及更广泛的机器学习界正从不同方向汇聚到同一个结论：霍普菲尔德建立的基于能量的联想记忆范式，不仅仅是Transformer在不知不觉中建立的基础，它更是将AI带到Transformer单独无法实现之境的框架。

为何现在重要：切换的理由安全关键系统的保证收敛

Transformer产生输出，但没有数学上的稳定性保证。霍普菲尔德网络通过证明收敛到稳定状态——能量函数单调递减。对于机器人技术、自动驾驶车辆、医疗设备以及任何可靠性不容妥协的系统来说，这是Transformer无法提供的要求。

联想记忆作为核心能力

如果你训练一个霍普菲尔德网络，使得状态(1,-1,1,-1,1)是一个能量极小值，并呈现损坏的输入(1,-1,-1,-1,1)，网络会收敛到正确的存储模式。它不是猜测或插值，而是在能量景观中向最近的吸引子滚动。对于传感器被遮挡的机器人、数据有噪声的嵌入式系统，以及任何需要从部分输入完成模式的任务，这是变革性的。

通用优化引擎

霍普菲尔德和大卫·坦克在1985年演示了霍普菲尔德网络可以解决旅行推销员问题。如果一个成本函数可以写成霍普菲尔德能量的形式，那么网络的平衡点就是解。此后，该架构已应用于作业车间调度、无线网络信道分配、图像恢复、模数转换、移动路由和组合优化。2024年《自然-通讯》的一篇论文介绍了一种稀疏量化霍普菲尔德网络，用于在线持续记忆学习，使用与生物大脑相同的局部规则——这是Transformer从根本上缺乏的能力。

无需软件的硬件

对称权重约束（wij=wji）直接映射到模拟电子电路——电阻连接本质上是对称的。霍普菲尔德网络可以被制造成ASIC或FPGA，推理时间在纳秒级。《自然》2025年关于神经形态计算的合集证实了这一方向：在边缘实现节能的模拟硬件，运行神经网络动力学，具备无需GPU、CPU和软件栈的内容寻址记忆。

直接在硬件中实现神经网络动力学的神经形态和模拟AI芯片。霍普菲尔德网络对称的、基于能量的结构自然映射到电阻电路，无需传统软件栈即可在纳秒级实现AI推理。

二进制与连续灵活性

经典霍普菲尔德网络使用二进制神经元（+1或-1）；连续变体使用S型激活和微分方程。更新可以是异步的（一次一个神经元，保证收敛）或同步的（一次全部，实现并行）。同一架构可以从只有千字节RAM的微控制器适配到大规模并行FPGA，并且现在通过现代霍普菲尔德层适配到GPU加速的深度学习管道。

存储容量：诚实的约束

经典的局限性是明确的：一个拥有N个神经元的网络在伪状态破坏检索之前可靠地存储大约0.138N个模式。这是一个真实的约束，但它是诚实的。Transformer何时开始产生幻觉没有清晰的数学界限。

此外，现代霍普菲尔德网络（Krotov & Hopfield, 2016; Demircigil et al., 2017）通过高阶交互项实现了指数级存储容量。研究继续拓展这些边界：稀疏和结构化的霍普菲尔德网络、长序列霍普菲尔德记忆以及用于资产配置的霍普菲尔德网络都是活跃的发展领域，相关论文积累迅速。

实际部署：从PC到电路

早期神经网络研究者的原始愿景很明确：一个可以描述一次并随处部署的框架。霍普菲尔德的架构实现了这一点：

计算机应用：一个权重矩阵和一个更新规则。无需GPU。
互联网应用：用于相似性搜索、推荐和去重的内容寻址记忆。
机器人技术：实时控制回路的保证收敛。电机模式存储为吸引子，即使来自噪声传感器输入也能召回。
嵌入式系统：二进制霍普菲尔德网络仅依靠整数运算在微控制器上运行。
电子电路：对称权重映射到电阻网络。智能直接制造在硅片中。

前进之路

Transformer时代给了我们非凡的语言机器。但前沿正在扩展到物理世界——机器人、传感器、执行器和实时决策。这个前沿需要稳定、高效、可解释且可部署在边缘实际存在的硬件上的架构。

2020年证明Transformer注意力是现代霍普菲尔德更新规则不仅仅是数学上的好奇——它揭示了一直以来我们都在使用霍普菲尔德网络，只是包裹在一个掩盖了其真实本质的框架中。2025年NeurIPS的研究表明霍普菲尔德隐藏状态解决了Transformer的病理如秩崩溃，暗示了下一步：不是用霍普菲尔德的见解修补Transformer，而是直接建立在霍普菲尔德范式本身之上。

约翰·霍普菲尔德在1982年为我们指明了道路。唐纳德·赫布在1949年奠定了生物学基础。研究界现在正汇聚于此。

是时候切换了。

参考文献

Hopfield, J.J.(1982)."Neural networks and physical systems with emergent collective computational abilities." PNAS, 79(8), 2554-2558.
Hebb,D.O.(1949). The Organization of Behavior. Wiley.
Ramsauer,H.et al.(2020)."Hopfield Networks is All You Need." ICLR 2021.arXiv:2008.02217
Krotov,D.& Hopfield,J.J.(2016)."Dense Associative Memory for Pattern Recognition." NeurIPS.
Storkey, A.(1997)."Increasing the capacity of a Hopfield network without sacrificing functionality." ICANN.
Hoover,B.,Krotov,D.et al.(2023)."Energy Transformer." NeurIPS 2023.arXiv:2302.07253
Masumura,T.& Taki, M.(2025)."On the Role of Hidden States of Modern Hopfield Network in Transformer." NeurIPS 2025. arXiv:2511.20698
Alonso, N.& Krichmar, J.(2024)."A sparse quantized Hopfield network for online-continual memory." Nature Communications, 15, 3722. http://nature.com
Hu,J.Y.et al.(2024)."Outlier-Efficient Hopfield Layers for Large Transformer-Based Models." arXiv:2404.03828
Hu,J.Y.et al.(2026)."Transformers as Intrinsic Optimizers: Forward Inference through the Energy Principle." arXiv:2511.00907
Hopfield,J.J.& Tank,D.W.(1985)."Neural' Computation of Decisions in Optimization Problems." Biological Cybernetics, 52, 141-152.
Bruck,J.(1990)."On the convergence properties of the Hopfield model."Proceedings of the IEEE.
Krotov,D.(2025)."Searching for brain-inspired AI algorithms." IBM Research http://Blog.research.ibm.com
"Energy-Based Learning and the Evolution of Hopfield Networks." TechRxiv, April http://2025.techrxiv.org