博文

基于分层策略强化学习的多类型流量差异化路由优化

已有 469 次阅读 2026-7-1 15:58 |系统分类:博客资讯

引用本文

赵之栩, 刘坤, 王璐瑶, 夏元清. 基于分层策略强化学习的多类型流量差异化路由优化. 自动化学报, 2026, 52(4): 709−723 doi: 10.16383/j.aas.c250413

Zhao Zhi-Xu, Liu Kun, Wang Lu-Yao, Xia Yuan-Qing. Differentiated routing optimization for multi-type traffic based on hierarchical policy reinforcement learning. Acta Automatica Sinica, 2026, 52(4): 709−723 doi: 10.16383/j.aas.c250413

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250413

关键词

多类型流量，深度强化学习，注意力机制，差异化路由，QoS优化

摘要

路由是优化网络资源分配的重要方法. 然而, 传统路由算法依赖静态策略优化单一服务质量指标, 难以应对多类型流量爆发性增长下的差异化需求. 尽管深度强化学习为动态网络环境下的路由优化提供了新思路, 现有方法仍缺乏对流量类型的精细化感知能力, 无法灵活调整路由策略. 为此, 本文针对不同类型流量的差异化路由需求, 设计一种基于分层策略强化学习的流量感知路由算法. 首先, 引入流量分类模块, 实现对不同流量差异化业务需求的精细感知. 其次, 利用图卷积网络对网络拓扑进行高效建模, 并在此基础上设计分层决策网络以及差异化奖励函数, 引导智能体生成自适应路由决策, 实现对各流量类别路由策略的动态调整. 同时, 在演员−评论家框架中引入全局注意力机制, 增强智能体对网络状态时空依赖关系的建模能力, 并通过广义优势估计和近端策略优化算法提升训练的效率与稳定性. 最后, 在多种拓扑网络上验证了所提算法的有效性.

文章导读

在全球数字化转型加速推进的背景下, 多任务流呈现爆发性增长态势. 据统计, 截至2024年底, 我国5G基站已超419万个, 5G用户达10.14亿户, 数字经济规模稳居世界第二[1−3]. 与此同时, 网络业务呈现出高度异构化和任务密集化趋势. 新兴应用场景不断涌现, 涵盖4K/8K超高清视频、云游戏、智能制造、自动驾驶、远程医疗等多个领域, 不同类型流量对网络的性能需求差异显著[4−5]. 在此背景下, 如何有效识别业务类型、区分其服务需求并实现差异化的服务质量(quality of service, QoS)保障, 已成为网络调度系统面临的核心问题之一[4].

然而, 传统路由策略如开放最短路径优先(open shortest path first, OSPF)协议[6]所采用的单路径路由算法, 已无法满足现代网络应用对带宽、延迟等QoS需求的不断提升. 等价多路径(equal-cost multipath, ECMP)[7]虽然提高了网络的负载均衡能力和整体性能, 但其严重依赖静态配置且求解优化问题的复杂度较高、缺乏对流量类型的感知能力、静态策略往往响应滞后, 难以适应多样化的QoS需求, 尤其是在高负载场景下, 难以实现精细的流量控制. 尽管软件定义网络(software defined networking, SDN)和知识定义网络(knowledge defined networking, KDN)等新型架构在提升控制灵活性方面展现出优势, 但在大规模异构网络中, 仍面临路径性能难以实时评估、流量差异难以感知、策略收敛与执行效率不足等关键问题[8−12].

面对上述传统路由策略的不足与局限, 基于深度学习的路由方法凭借其在流量特征提取方面的显著优势, 为解决复杂网络环境下的QoS感知难题提供了新的可能. 例如, RouteNet利用图神经网络学习网络结构与性能的映射关系[13], NeuTM框架通过长短时记忆网络实现流量矩阵预测[14], 但这类方法多作为辅助模块用于流量预测或链路状态评估, 未直接参与路径选择决策, 且依赖离线训练, 难以应对实时动态的网络环境. 在基于强化学习的路由优化研究中, 已有方法展现出良好的效果. 例如, DRL-TE方法[15]利用历史经验进行策略优化, 实现低时延路径的选择. IQoR-LSE链路状态估计算法[16], 通过结合链路拥塞推断优化动作空间的探索过程, 缓解了复杂策略搜索中的收敛难题, 并显著降低了网络抖动与丢包率. 尽管现有方法在路由优化中展现出一定优势, 但仍存在以下局限: 其一, 流量类型感知缺失, 且未将流量分类结果纳入决策过程, 无法满足多类型流量的差异化需求, 导致网络资源分配失衡; 其二, 全局动态感知能力不足, 无法灵活调整路由策略, 从而降低了网络的整体效率和可靠性.

针对上述挑战, 本文提出一种基于分层策略强化学习的流量感知路由算法(traffic-aware routing algorithm based on hierarchical policy reinforcement learning, TR-HPRL). TR-HPRL以分层策略强化学习为核心框架, 通过共享基础特征提取以及类型专属决策输出, 在实现差异化路由策略生成的同时, 有效避免了参数冗余与收敛缓慢问题, 提升了异构流量的QoS保障能力. 具体而言, 首先, 利用一维卷积神经网络(1D-convolutional neural network, 1D-CNN)对流量进行实时分类, 将其划分为延迟敏感型、丢包敏感型和容错型三类, 并将分类结果作为强化学习状态输入的一部分. 其次, 面向多类型流量的差异化需求, 设计分层策略网络以生成对应的路由策略. 为提升智能体对环境的感知能力, 策略网络采用图卷积网络(graph convolutional network, GCN)作为共享编码器, 高效提取全局网络状态特征; 在此基础上, 将共享GCN特征输入带有类型特异性策略头与全局注意力机制的演员−评论家(actor-critic, A-C)网络, 使生成的差异化路由策略可以适应动态变化的环境, 实现高效响应. 最后, 在多种拓扑网络上训练测试, 验证了所提算法的有效性.

本文其余部分结构如下: 第1节介绍多路径路由的相关工作; 第2节对多路径路由通信网络以及QoS问题进行模型构建; 第3节详细阐述TR-HPRL的路由框架、模型构建以及训练流程; 第4节通过多种拓扑网络对算法的收敛性与QoS性能进行验证; 第5节对全文进行总结, 并展望未来研究方向. 为方便阅读, 现将文中使用的主要数学符号在表1中进行集中说明.

图1 多路径路由模型

图2 智能路由系统框架

图3 TR-HPRL模型

针对传统路由算法在应对多任务流量和动态QoS需求时存在的局限性, 本文设计了一种基于分层策略强化学习的流量感知路由算法TR-HPRL. 该算法首先通过基于深度学习的流量分类方法, 将网络中不同应用的流量划分为延迟敏感型、丢包敏感型和容错型, 从而实现对不同业务需求的精细感知; 然后利用共享GCN编码器对网络拓扑进行高效建模作为底层特征, 并在此基础上设计带有类型特异性策略头的分层决策网络, 实现对各类别流量路由策略的差异化以及动态调整; 最后在全局注意力机制和GAE优势估计的辅助下, TR-HPRL实现了网络延迟和丢包率的降低, 提高了资源利用率和QoS满足率, 并在实验中展现出快速收敛性和鲁棒性, 为复杂网络环境下的多任务流路由优化提供了切实可行的解决方案.