lisw05的个人博客分享 http://blog.sciencenet.cn/u/lisw05

博文

大脑中的多时间尺度强化学习机制研究!

已有 258 次阅读 2026-2-21 21:45 |个人分类:神经生物学|系统分类:科研笔记

大脑中的多时间尺度强化学习机制:计算优势与神经基础

传统强化学习理论,尤其是时间差分学习,在解释大脑多巴胺系统的学习功能方面取得了巨大成功。然而,该理论通常假设智能体使用一个单一的折扣因子来评估未来奖励,导致对未来价值的评估呈指数衰减。这与人类和动物在跨期决策中普遍表现出的非指数型折扣(如双曲线折扣)行为相矛盾。2025年发表于《自然》杂志的一项突破性研究,从计算建模与神经生理实验两个层面,系统性地提出并验证了“大脑采用多时间尺度强化学习机制”的假说,为解决这一矛盾提供了全新的范式。

一、 多时间尺度强化学习的核心计算优势

研究团队首先通过计算模型,对比了单一时间尺度与多时间尺度强化学习智能体在复杂任务中的表现。其核心思想是,智能体不再使用一个标量折扣因子,而是并行使用一组不同的折扣因子(例如γ = [0.6, 0.9, 0.99]),从而形成对未来奖励的向量化价值表征,或称“折扣价值谱”。

这种多尺度表征带来了几项关键的计算优势:

  1. 解耦奖励的时间与大小信息:在单一尺度模型中,线索的价值是一个标量,无法区分该价值是源于“小额近期奖励”还是“大额远期奖励”。而多尺度系统通过价值谱的形状,可以清晰地将这两种信息分离。

  2. 灵活实现任意折扣函数:多尺度系统隐含了所有未来时刻的指数折扣值,通过简单的线性重加权(如基于拉普拉斯变换的解码器),就能在有机体层面复现出类似双曲线的折扣行为,而无需改变学习规则本身。

  3. 在未完全学习时推断奖励时机:即使学习尚未收敛,系统也能从价值谱的瞬时形状中解码出预期的奖励延迟时间,加速学习过程。

  4. 动态调整决策视野:系统可以根据环境不确定性,灵活地在“短视”与“远见”策略之间切换,优化在不完全信息下的决策。

二、 多巴胺神经元的异质性:多时间尺度的神经证据

计算模型的优势需要神经证据的支持。研究团队在小鼠执行两种行为任务时,记录了腹侧被盖区多巴胺能神经元的电活动。

  1. 任务设计:一是“气味延迟任务”,不同气味线索预测不同延迟的水奖励;二是在虚拟现实线性跑道中接近目标获得奖励的任务。

  2. 单个神经元的指数折扣特性:研究发现,单个多巴胺神经元对预测线索的瞬时反应幅度,随奖励延迟的增加而衰减,且其衰减曲线符合指数模型,而非双曲线模型。这表明每个神经元本身遵循经典的强化学习规则。

  3. 神经元群体的折扣谱多样性:关键在于,不同神经元表现出广泛分布的折扣因子。有些神经元的反应衰减很快(“短视型”,高折扣率),有些则衰减很慢(“远见型”,低折扣率)。正是这种群体水平的异质性,构成了多时间尺度编码的神经基础。

  4. 解释“多巴胺攀升”现象:在接近奖励的过程中,多巴胺信号常表现为缓慢上升的“斜坡”。该研究提出,只需假设所有神经元共享一个共同的价值函数,但各自以不同的折扣因子对该函数的时间导数进行响应,就能自然地解释实验中观察到的攀升形态多样性(包括上升、下降或非单调变化),而无需引入额外的独立机制。

三、 细胞特异性与跨任务稳定性

一个至关重要的发现是,单个多巴胺神经元的折扣因子具有细胞特异性,并且在不同的行为任务中高度相关。这意味着,一个在气味任务中表现为“短视”的神经元,在跑道任务中很可能依然保持“短视”特性。这种跨任务的稳定性表明,折扣因子可能是神经元固有的、由细胞分子特性或局部环路连接决定的属性,而非由任务临时塑造。

四、 机制总结与深远意义

综合来看,该研究描绘的机制如下:大脑并非使用一个统一的“时钟”来评估未来,而是利用多巴胺神经元群体固有的、多样化的时间常数(折扣因子),并行地计算未来奖励的向量化预测误差。下游脑区(可能通过基底神经节等结构)可以像执行逆拉普拉斯变换一样,从这个丰富的“折扣谱”中灵活解码出关于奖励时机、大小以及适应环境的最优折扣策略所需的所有信息。

这一发现具有多重深远意义:

  • 神经科学范式革新:为理解多巴胺神经元的功能异质性提供了统一的新框架,将许多看似异常的活动模式(如多巴胺攀升的多样性)整合进扩展的强化学习理论中。

  • 连接行为与疾病:为人类和动物的非指数折扣行为提供了坚实的机制基础。研究指出,折扣谱的“校准”失调(如“短视”或“远视”神经元比例失衡)可能导致冲动行为或缺乏动力,这为理解成瘾、抑郁症等精神疾病的决策缺陷提供了新视角。

  • 人工智能算法启示:这项研究揭示了大自然亿万年优化的神经算法,为人工智能领域设计更高效、更灵活的多时间尺度强化学习算法开辟了新途径。例如,在人工神经网络中引入类似的多尺度并行价值估计模块,可能使智能体更好地处理复杂环境中的时序不确定性和长期规划问题。

当然,该机制仍有许多未解之谜,例如不同折扣因子神经元的解剖学分布规律、它们如何被特定任务“招募”或调节,以及其他神经递质(如血清素)在此过程中的作用等。这些都将成为未来神经科学与人工智能交叉研究的前沿方向。



https://blog.sciencenet.cn/blog-2636671-1522952.html

上一篇:自身免疫性神经炎症导致神经元死亡的机制研究!
收藏 IP: 36.147.115.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-22 03:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部