氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

重新审视愉悦分子多巴胺 精选

已有 663 次阅读 2026-3-19 08:10 |系统分类:海外观察

重新审视愉悦分子多巴胺

长期以来,多巴胺一直被认为是大脑中负责奖赏的调控物质,但最新研究发现可能颠覆这一经典的多巴胺功能理论。

图片2.png 

今年5月,神经科学家将齐聚西班牙塞维利亚,参加多巴胺学会年度会议,其中一场讨论或将异常热烈。第31场会议将展开一场学术辩论,参与的研究者们对多巴胺在大脑中的作用持有根本性分歧。

多巴胺是研究最为广泛的神经递质之一,这类化学物质负责在细胞间传递信号。它也是神经科学领域外知名度最高的物质:常被称作“愉悦化学物质”,被描述为人们从消遣性毒品、刷社交媒体中获得的奖赏快感。

研究人员一致认为,这是对多巴胺功能的极度简化。但除此之外,曾经解释大脑中多巴胺运作机制的简单模型,如今正面临诸多挑战——这些挑战试图修正,甚至推翻该理论。

这不仅会对基础神经科学产生影响,也关乎临床医生如何解释并治疗注意缺陷多动障碍(多动症)、成瘾等疾病。倘若该模型错误或需要修正,那么关于这类疾病的致病机制与最优治疗方案的部分假设,或许也需要重新考量。

经典理论被称为奖赏预测误差假说(RPE),该假说认为,大脑中多巴胺的瞬时释放会将刺激与奖赏关联,助力强化满足人或动物需求的联结。数十年来,该模型主导并指导着该领域的研究,为解读动物实验数据提供了数学框架,也能很好地解释行为机制。

对于试图用简单理论解读大脑极度复杂性的研究者而言,这一理论极为珍贵。英国诺丁汉大学神经科学家马克·汉弗莱斯表示:“多巴胺是神经科学领域中,唯一一个我们拥有计算模型、能明确信号含义及其运算逻辑的研究方向。”

该领域学者早已知晓,奖赏预测误差模型的部分假设过于简化,但作为对大脑局部功能的实用解读,它被视作重大突破。

过去几年,该模型的主导地位开始动摇。大约十年前,实验技术革新,让动物实验中监测神经元释放多巴胺的过程变得更为简便,这彻底打开了研究格局,更多实验室得以收集并分析数据。

诸多研究数据表明,多巴胺在大脑中的功能远不止调控奖赏,还参与注意力、工作记忆等认知功能,甚至影响社交行为。另有研究显示,多巴胺神经元会对新刺激、威胁、运动做出反应。汉弗莱斯称,原有模型已不足以解释所有现象。

这让该领域面临一个核心问题,也是塞维利亚会议第31场论坛将探讨的议题:神经科学这一最受推崇的模型,是否已走到尽头?还是说,这一理论及其被临床医生用于解读多动症、精神分裂症、成瘾的应用模式,已然根深蒂固、难以颠覆?

美国阿拉巴马大学伯明翰分校神经科学家考埃·科斯塔表示:“我确实认为现有理论框架存在不足。但你知道,想要挑战权威,就必须一击即中。”

奖赏预测

奖赏预测理论源于20世纪俄罗斯心理学家伊万·巴甫洛夫的著名实验。他提出经典条件反射理论,证实狗会学会将环境线索与期待食物建立关联。

这一原理在20世纪60年代启发了计算机科学家研发机器学习理论,并在90年代被用于设计神经网络。

图片3.png 

1997年,神经科学家借助这一理论解读了一项灵长类动物实验数据。英国剑桥大学的沃尔夫勒姆·舒尔茨及其团队发现,猴子学会期待奖赏时,大脑深处多巴胺神经元的活动会发生变化。

起初,猴子意外获得一滴果汁时,这些神经元会被激活并释放多巴胺;随后,研究人员在果汁出现前点亮灯光,之后多巴胺神经元会被代表奖赏预测的灯光触发,而非果汁本身。若猴子期待果汁却未得到,多巴胺神经元的放电频率会骤然下降。

奖赏预测误差假说认为,多巴胺信号能让大脑逐步更精准地判断奖赏(食物、配偶、安全场所)的来源。

美国新泽西州普林斯顿大学神经科学家纳撒尼尔·道称,这是“计算神经科学的璀璨成果”,该理论将单个神经元的活动脉冲与复杂行为关联,“从神经锋电位、突触连接,到行为表现、成瘾机制,都能给出合理的解释”。

该理论支持者认为,多巴胺的瞬时释放本质上是传递“价值”信号:告知个体某一事物、行为或结果的主观价值、吸引力与实用性,帮助动物确定行为优先级。

举个经典例子:孩子第一次听到冰淇淋车铃声,随后吃到冰淇淋,会感到惊喜又开心。这份意外奖赏的价值,会促使释放多巴胺的神经元剧烈活跃。多次经历后,这份价值(以及多巴胺释放)会完全与铃声绑定;奖赏如期而至,没有预测误差,也就不会产生信号。

某天孩子听到铃声却没吃到冰淇淋,就会产生负向奖赏预测误差,神经元活动受抑制,从而弱化这一联结。久而久之,这种联结会强化部分神经元间的连接,重塑神经通路。

图片4.png 

数十年来,研究者不断拓展奖赏预测误差理论,用其探究大脑学习、储存除奖赏之外各类事物预测的机制,这一拓展理论被称为时序差分强化学习(TDRL)。

该理论通过预测价值与实际价值的差值,更新预测、优化行为,以实现未来收益最大化。大量实验数据支撑这一理论,但近几年,越来越多重磅论文打破了这一简单认知。

部分研究针对多巴胺神经元亚群展开分析,发现多数神经元除传递奖赏信号外,还会编码非奖赏变量。例如,部分神经元会对动物在迷宫中的位置、移动速度做出反应;还有神经元会编码动物当前运动与目标的远近程度,而非目标本身的价值。

更多研究进一步拓展了多巴胺的功能:多巴胺信号可同时编码多种潜在奖赏,帮助动物优先选择某一种。比如,鸣禽口渴时,多巴胺反应会偏向水源;附近有潜在配偶时,则会优先聚焦鸣叫,只是这类神经元的调节机制尚不明确。

多巴胺的经典理论认为其传递奖赏预测误差信号,但最新研究对此提出质疑。2025年一项研究表明,多巴胺还参与行为预测,进而促使行为重复发生,这意味着重复行为或成瘾习惯,或许并非奖赏预测误差导致。

同样,研究观察到多巴胺会传递威胁、厌恶刺激、新奇刺激的预测信号,而非仅针对奖赏。

美国马里兰州约翰·霍普金斯大学医学院神经科学家杰弗里·舍恩鲍姆(将主持塞维利亚这场论坛)表示,这些发现提出的核心问题是:该领域是否该停止修改、补充现有模型来解释新数据,转而“采用底层假设完全不同的新型模型”。

他说:“在长期占据主导地位后,奖赏预测误差假说已然显露疲态。”

挑战权威

美国田纳西州范德堡大学药理学家艾琳·卡利帕里,极力想要打破多巴胺与奖赏的绑定关系。她认为,应从更宏观的视角解读多巴胺:它是大脑引导、促进信息处理与学习的机制。但她发现,阐述这一观点的论文很难发表。

2021年,卡利帕里刚成为独立课题组长,组建自己的实验室,准备发表实验室首批论文之一。研究显示,小鼠大脑释放多巴胺,是对足部轻微电击等压力刺激的反应,这一结果无法用奖赏理论解释,也遭到审稿人强烈反对,被要求补充更多与奖赏相关的实验。

她坦言:“大家对此极为不满,反驳意见简直糟透了。”

对奖赏预测误差理论最直接的挑战,来自美国加州大学旧金山分校神经科学家维贾伊·莫汉·南布迪里,他提出了一种与该理论完全相反的替代模型。

奖赏预测误差假说认为,动物先感知线索,再将其与奖赏关联;而南布迪里主张恰恰相反:动物先获得奖赏,再回溯寻找对应的线索。

他的团队以小鼠为对象,开展多项实验,区分这种回溯式学习与原始奖赏预测误差理论。例如,研究人员随机给未受过训练的小鼠喂食糖水。

按照奖赏预测误差理论,小鼠的多巴胺反应初期会很强烈,随后因熟悉奖赏出现规律而减弱。但南布迪里推测,若动物是回溯寻找线索,那么多次获得奖赏后,多巴胺释放会增强,因为它在传递“该事件有意义”的信号,并启动记忆搜索,探寻诱因。

实验结果支撑了他的理论,他将其命名为因果关系调整净关联性(ANCCR)。

南布迪里认为,这种回溯式学习更符合直觉。人类大多是先获得奖赏,再回溯寻找原因,而非时刻追踪环境中的所有细节,再对应后续出现的奖赏。

这一理论反响褒贬不一。汉弗莱斯说:“我没遇到过完全理解这个模型的人,我们还专门开了期刊俱乐部研讨会讨论它。”

但南布迪里表示,倘若科学家对多巴胺在学习中作用的认知完全颠倒,将会影响脑部疾病的临床治疗。比如,这能解释成瘾为何难以治愈。

他指出,成瘾复发的一大诱因,是个体接触曾与毒品绑定的线索。“我戒烟后,看到别人抽烟,就会触发抽烟的冲动。”

他认为,时序差分强化学习模型无法解释这一现象:按照该理论,戒烟者每次看到别人抽烟却不吸烟,负向预测误差会弱化联结。

而依据因果关系调整净关联性理论,这种联结会持续存在,因为抽烟这一有意义的事件,会促使多巴胺释放,让大脑回溯寻找解释性线索。“你之前每次摄入尼古丁时,都看到别人抽烟,对吧?所以这种回溯式联结是百分百牢固的。”

若这一理论成立,便能印证众多戒烟失败者的经历:即便多次克制,也无法消除相关记忆。

挑战现状

汉弗莱斯表示,批判奖赏预测误差/时序差分强化学习模型的一大难点在于,该理论自提出三十年来,已针对各类质疑被多次修改完善。

他说:“我们所说的模型,已经分化为众多分支模型。”对于南布迪里这类批判者而言,这就成了一个移动靶,时序差分强化学习理论难以被证伪。

以动物对预期奖赏的预判为例:大约十年前,实验发现,即便小鼠已学会线索预示奖赏,靠近奖赏的过程中,多巴胺释放仍会持续增强。但经典时序差分强化学习模型认为,多巴胺释放应完全转移到线索上,这种逐步增强的反应与奖赏预测误差理论不符。

随后多篇论文提出,经典模型其实可以兼容多巴胺逐步增强的反应。只需重新解读动物的认知逻辑:若动物将线索到奖赏的过程,视作连续的时间节点,而非单一突变,那么越靠近奖赏,其价值感知越强,进而产生逐步增强的信号。

美国马萨诸塞州哈佛大学神经科学家塞缪尔·格什曼借鉴机器学习中的奖赏预测误差概念,修改经典时序差分强化学习模型,以适配多巴胺逐步增强的现象。

他表示:“重要的是,这些并非随意的临时修改,不是单纯调整理论参数去贴合数据。”

美国弗吉尼亚州霍华德·休斯医学研究所珍妮莉亚研究园区神经科学家乔希·杜德曼称,对经典模型的质疑越来越多,因为如今科学家能更精准地,在多种情境下监测位于大脑深层、难以触及的多巴胺神经元活动。

大约十年前,科学家开始能将基因编码传感器植入多巴胺神经元,通过光纤监测其活动。杜德曼说:“突然间,我们能在各种场景下测量多巴胺,也发现了大量例外情况,模型不再适用。”

卡利帕里认为,探究多巴胺在大脑中单独执行哪些孤立功能,本身就是错误的方向。在她看来,多巴胺的作用是提升其他神经系统的运作效率,强化任务相关活动,加快决策速度。

她说:“所以我认为,无论研究什么课题,多巴胺都参与其中。”

她表示,简单的数学模型应用于人类大脑时,其适用性会大打折扣。“我不认为这些模型本身不好,问题在于,人们固守一个仅能解释精细数据的模型,却用它解读整个大脑。”

《自然》杂志联系的该领域所有研究者均认可,新数据对时序差分强化学习理论的挑战日益加剧,但对其意义的看法各不相同。

美国明尼苏达大学神经科学家戴维·雷迪什说:“我们开始认识到多巴胺的复杂性,但我还不想全盘否定原有理论。”

杜德曼等学者则更愿意尝试新理论:“我很接受我们或许该尝试截然不同思路的观点,但我知道,这会让很多在会议上和我争论的同事感到不安。”



https://blog.sciencenet.cn/blog-41174-1526216.html

上一篇:智能手表数据可揭示胰岛素抵抗的早期迹象
收藏 IP: 39.144.43.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-19 12:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部