博文

重新审视愉悦分子多巴胺精选

已有 11412 次阅读 2026-3-19 08:10 |系统分类:海外观察

重新审视愉悦分子多巴胺

长期以来，多巴胺一直被认为是大脑中负责奖赏的调控物质，但最新研究发现可能颠覆这一经典的多巴胺功能理论。

图片2.png

今年5月，神经科学家将齐聚西班牙塞维利亚，参加多巴胺学会年度会议，其中一场讨论或将异常热烈。第31场会议将展开一场学术辩论，参与的研究者们对多巴胺在大脑中的作用持有根本性分歧。

多巴胺是研究最为广泛的神经递质之一，这类化学物质负责在细胞间传递信号。它也是神经科学领域外知名度最高的物质：常被称作“愉悦化学物质”，被描述为人们从消遣性毒品、刷社交媒体中获得的奖赏快感。

研究人员一致认为，这是对多巴胺功能的极度简化。但除此之外，曾经解释大脑中多巴胺运作机制的简单模型，如今正面临诸多挑战——这些挑战试图修正，甚至推翻该理论。

这不仅会对基础神经科学产生影响，也关乎临床医生如何解释并治疗注意缺陷多动障碍（多动症）、成瘾等疾病。倘若该模型错误或需要修正，那么关于这类疾病的致病机制与最优治疗方案的部分假设，或许也需要重新考量。

经典理论被称为奖赏预测误差假说（RPE），该假说认为，大脑中多巴胺的瞬时释放会将刺激与奖赏关联，助力强化满足人或动物需求的联结。数十年来，该模型主导并指导着该领域的研究，为解读动物实验数据提供了数学框架，也能很好地解释行为机制。

对于试图用简单理论解读大脑极度复杂性的研究者而言，这一理论极为珍贵。英国诺丁汉大学神经科学家马克·汉弗莱斯表示：“多巴胺是神经科学领域中，唯一一个我们拥有计算模型、能明确信号含义及其运算逻辑的研究方向。”

该领域学者早已知晓，奖赏预测误差模型的部分假设过于简化，但作为对大脑局部功能的实用解读，它被视作重大突破。

过去几年，该模型的主导地位开始动摇。大约十年前，实验技术革新，让动物实验中监测神经元释放多巴胺的过程变得更为简便，这彻底打开了研究格局，更多实验室得以收集并分析数据。

诸多研究数据表明，多巴胺在大脑中的功能远不止调控奖赏，还参与注意力、工作记忆等认知功能，甚至影响社交行为。另有研究显示，多巴胺神经元会对新刺激、威胁、运动做出反应。汉弗莱斯称，原有模型已不足以解释所有现象。

这让该领域面临一个核心问题，也是塞维利亚会议第31场论坛将探讨的议题：神经科学这一最受推崇的模型，是否已走到尽头？还是说，这一理论及其被临床医生用于解读多动症、精神分裂症、成瘾的应用模式，已然根深蒂固、难以颠覆？

美国阿拉巴马大学伯明翰分校神经科学家考埃·科斯塔表示：“我确实认为现有理论框架存在不足。但你知道，想要挑战权威，就必须一击即中。”

奖赏预测

奖赏预测理论源于20世纪俄罗斯心理学家伊万·巴甫洛夫的著名实验。他提出经典条件反射理论，证实狗会学会将环境线索与期待食物建立关联。

这一原理在20世纪60年代启发了计算机科学家研发机器学习理论，并在90年代被用于设计神经网络。

图片3.png

1997年，神经科学家借助这一理论解读了一项灵长类动物实验数据。英国剑桥大学的沃尔夫勒姆·舒尔茨及其团队发现，猴子学会期待奖赏时，大脑深处多巴胺神经元的活动会发生变化。

起初，猴子意外获得一滴果汁时，这些神经元会被激活并释放多巴胺；随后，研究人员在果汁出现前点亮灯光，之后多巴胺神经元会被代表奖赏预测的灯光触发，而非果汁本身。若猴子期待果汁却未得到，多巴胺神经元的放电频率会骤然下降。

奖赏预测误差假说认为，多巴胺信号能让大脑逐步更精准地判断奖赏（食物、配偶、安全场所）的来源。

美国新泽西州普林斯顿大学神经科学家纳撒尼尔·道称，这是“计算神经科学的璀璨成果”，该理论将单个神经元的活动脉冲与复杂行为关联，“从神经锋电位、突触连接，到行为表现、成瘾机制，都能给出合理的解释”。

该理论支持者认为，多巴胺的瞬时释放本质上是传递“价值”信号：告知个体某一事物、行为或结果的主观价值、吸引力与实用性，帮助动物确定行为优先级。

举个经典例子：孩子第一次听到冰淇淋车铃声，随后吃到冰淇淋，会感到惊喜又开心。这份意外奖赏的价值，会促使释放多巴胺的神经元剧烈活跃。多次经历后，这份价值（以及多巴胺释放）会完全与铃声绑定；奖赏如期而至，没有预测误差，也就不会产生信号。

某天孩子听到铃声却没吃到冰淇淋，就会产生负向奖赏预测误差，神经元活动受抑制，从而弱化这一联结。久而久之，这种联结会强化部分神经元间的连接，重塑神经通路。

图片4.png

数十年来，研究者不断拓展奖赏预测误差理论，用其探究大脑学习、储存除奖赏之外各类事物预测的机制，这一拓展理论被称为时序差分强化学习（TDRL）。

该理论通过预测价值与实际价值的差值，更新预测、优化行为，以实现未来收益最大化。大量实验数据支撑这一理论，但近几年，越来越多重磅论文打破了这一简单认知。

部分研究针对多巴胺神经元亚群展开分析，发现多数神经元除传递奖赏信号外，还会编码非奖赏变量。例如，部分神经元会对动物在迷宫中的位置、移动速度做出反应；还有神经元会编码动物当前运动与目标的远近程度，而非目标本身的价值。

更多研究进一步拓展了多巴胺的功能：多巴胺信号可同时编码多种潜在奖赏，帮助动物优先选择某一种。比如，鸣禽口渴时，多巴胺反应会偏向水源；附近有潜在配偶时，则会优先聚焦鸣叫，只是这类神经元的调节机制尚不明确。

多巴胺的经典理论认为其传递奖赏预测误差信号，但最新研究对此提出质疑。2025年一项研究表明，多巴胺还参与行为预测，进而促使行为重复发生，这意味着重复行为或成瘾习惯，或许并非奖赏预测误差导致。

同样，研究观察到多巴胺会传递威胁、厌恶刺激、新奇刺激的预测信号，而非仅针对奖赏。

美国马里兰州约翰·霍普金斯大学医学院神经科学家杰弗里·舍恩鲍姆（将主持塞维利亚这场论坛）表示，这些发现提出的核心问题是：该领域是否该停止修改、补充现有模型来解释新数据，转而“采用底层假设完全不同的新型模型”。

他说：“在长期占据主导地位后，奖赏预测误差假说已然显露疲态。”

挑战权威

美国田纳西州范德堡大学药理学家艾琳·卡利帕里，极力想要打破多巴胺与奖赏的绑定关系。她认为，应从更宏观的视角解读多巴胺：它是大脑引导、促进信息处理与学习的机制。但她发现，阐述这一观点的论文很难发表。

2021年，卡利帕里刚成为独立课题组长，组建自己的实验室，准备发表实验室首批论文之一。研究显示，小鼠大脑释放多巴胺，是对足部轻微电击等压力刺激的反应，这一结果无法用奖赏理论解释，也遭到审稿人强烈反对，被要求补充更多与奖赏相关的实验。

她坦言：“大家对此极为不满，反驳意见简直糟透了。”

对奖赏预测误差理论最直接的挑战，来自美国加州大学旧金山分校神经科学家维贾伊·莫汉·南布迪里，他提出了一种与该理论完全相反的替代模型。

奖赏预测误差假说认为，动物先感知线索，再将其与奖赏关联；而南布迪里主张恰恰相反：动物先获得奖赏，再回溯寻找对应的线索。

他的团队以小鼠为对象，开展多项实验，区分这种回溯式学习与原始奖赏预测误差理论。例如，研究人员随机给未受过训练的小鼠喂食糖水。

按照奖赏预测误差理论，小鼠的多巴胺反应初期会很强烈，随后因熟悉奖赏出现规律而减弱。但南布迪里推测，若动物是回溯寻找线索，那么多次获得奖赏后，多巴胺释放会增强，因为它在传递“该事件有意义”的信号，并启动记忆搜索，探寻诱因。

实验结果支撑了他的理论，他将其命名为因果关系调整净关联性（ANCCR）。

南布迪里认为，这种回溯式学习更符合直觉。人类大多是先获得奖赏，再回溯寻找原因，而非时刻追踪环境中的所有细节，再对应后续出现的奖赏。

这一理论反响褒贬不一。汉弗莱斯说：“我没遇到过完全理解这个模型的人，我们还专门开了期刊俱乐部研讨会讨论它。”

但南布迪里表示，倘若科学家对多巴胺在学习中作用的认知完全颠倒，将会影响脑部疾病的临床治疗。比如，这能解释成瘾为何难以治愈。

他指出，成瘾复发的一大诱因，是个体接触曾与毒品绑定的线索。“我戒烟后，看到别人抽烟，就会触发抽烟的冲动。”

他认为，时序差分强化学习模型无法解释这一现象：按照该理论，戒烟者每次看到别人抽烟却不吸烟，负向预测误差会弱化联结。

而依据因果关系调整净关联性理论，这种联结会持续存在，因为抽烟这一有意义的事件，会促使多巴胺释放，让大脑回溯寻找解释性线索。“你之前每次摄入尼古丁时，都看到别人抽烟，对吧？所以这种回溯式联结是百分百牢固的。”

若这一理论成立，便能印证众多戒烟失败者的经历：即便多次克制，也无法消除相关记忆。

挑战现状

汉弗莱斯表示，批判奖赏预测误差/时序差分强化学习模型的一大难点在于，该理论自提出三十年来，已针对各类质疑被多次修改完善。

他说：“我们所说的模型，已经分化为众多分支模型。”对于南布迪里这类批判者而言，这就成了一个移动靶，时序差分强化学习理论难以被证伪。

以动物对预期奖赏的预判为例：大约十年前，实验发现，即便小鼠已学会线索预示奖赏，靠近奖赏的过程中，多巴胺释放仍会持续增强。但经典时序差分强化学习模型认为，多巴胺释放应完全转移到线索上，这种逐步增强的反应与奖赏预测误差理论不符。

随后多篇论文提出，经典模型其实可以兼容多巴胺逐步增强的反应。只需重新解读动物的认知逻辑：若动物将线索到奖赏的过程，视作连续的时间节点，而非单一突变，那么越靠近奖赏，其价值感知越强，进而产生逐步增强的信号。

美国马萨诸塞州哈佛大学神经科学家塞缪尔·格什曼借鉴机器学习中的奖赏预测误差概念，修改经典时序差分强化学习模型，以适配多巴胺逐步增强的现象。

他表示：“重要的是，这些并非随意的临时修改，不是单纯调整理论参数去贴合数据。”

美国弗吉尼亚州霍华德·休斯医学研究所珍妮莉亚研究园区神经科学家乔希·杜德曼称，对经典模型的质疑越来越多，因为如今科学家能更精准地，在多种情境下监测位于大脑深层、难以触及的多巴胺神经元活动。

大约十年前，科学家开始能将基因编码传感器植入多巴胺神经元，通过光纤监测其活动。杜德曼说：“突然间，我们能在各种场景下测量多巴胺，也发现了大量例外情况，模型不再适用。”

卡利帕里认为，探究多巴胺在大脑中单独执行哪些孤立功能，本身就是错误的方向。在她看来，多巴胺的作用是提升其他神经系统的运作效率，强化任务相关活动，加快决策速度。

她说：“所以我认为，无论研究什么课题，多巴胺都参与其中。”

她表示，简单的数学模型应用于人类大脑时，其适用性会大打折扣。“我不认为这些模型本身不好，问题在于，人们固守一个仅能解释精细数据的模型，却用它解读整个大脑。”

《自然》杂志联系的该领域所有研究者均认可，新数据对时序差分强化学习理论的挑战日益加剧，但对其意义的看法各不相同。

美国明尼苏达大学神经科学家戴维·雷迪什说：“我们开始认识到多巴胺的复杂性，但我还不想全盘否定原有理论。”

杜德曼等学者则更愿意尝试新理论：“我很接受我们或许该尝试截然不同思路的观点，但我知道，这会让很多在会议上和我争论的同事感到不安。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1526216.html

上一篇：氢气吸入对脑血流的影响大【新进展】
下一篇：应激会诱发湿疹发作——终于弄清原因

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 39.144.43.*| 热度|

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

重新审视愉悦分子多巴胺精选

当前推荐数：5 推荐人：郑永军 钱大鹏 崔锦华 石晓燕 李志林

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

重新审视愉悦分子多巴胺 精选

当前推荐数：5 推荐人： 郑永军 钱大鹏 崔锦华 石晓燕 李志林

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

重新审视愉悦分子多巴胺精选

当前推荐数：5 推荐人：郑永军钱大鹏崔锦华石晓燕李志林

该博文允许注册用户评论请点击登录评论 (0 个评论)