IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

中科院王飞跃教授团队:平行增强学习最新理论框架与案例

已有 5243 次阅读 2018-7-2 14:45 |系统分类:科研笔记

 

来自中科院自动化所王飞跃教授团队、中国科学院大学和慧拓智能机器有限公司的多位学者联合发表在IEEE/CAA Journal of Automatica Sinica 2018年第4期的论文“Parallel Reinforcement Learning: A Framework and Case Study”中,针对现有基于数据驱动的方法对新目标缺乏泛化能力、数据匮乏和数据的分布和联系不明显等问题,提出了一种平行增强学习的理论框架并展示了多个应用案例。


文章导读


机器学习,特别是深度增强学习在最近几年呈现飞速的发展态势。无论是在传统的视觉检测、机器人灵巧的操控、能量效率的提升、目标定位或新颖的Atari游戏、Leduc扑克、Doom游戏和基于文本的游戏等领域,基于数据驱动的学习方法在提升控制效果和精度方面都展现了巨大的潜能。然而,将深度增强学习应于真实复杂系统的控制时,仍然遇到以下几个难点。


第一个难点是缺乏对新目标的泛化能力。控制器在应对新的目标时,需要收集新的数据和学习新的模型。训练新的模型的过程十分耗时。因此,我们需要利用有限的数据来获取控制,去适应不同的环境。


第二个难点是数据匮乏。针对复杂系统,获取大规模的行动和交互数据十分困难。在没有指导的前提下,去探索策略也十分不易。因此,需要有效地利用历史数据,用于新的数据获取和行动选择。


最后一个难点是数据的分布和联系并不明显。在实际系统中,数据之间联系往往是不确定的,数据的概率分布也经常时变。因此,控制器很难对这样的数据进行分析,并获得有效的行动指导。


为了处理上述问题,王飞跃教授团队提出针对于复杂系统控制的平行增强学习框架。通过构建与真实系统并行的人工系统,获得平行系统。通过将转移学习、预测学习和深度学习与增强学习融合,用于处理数据获取和行动选择过程,同时表达获得的知识。最后,介绍了几个平行增强学习应用的案例。本文提出的平行增强学习的框架可以看作是平行学习的一个实例。


中科院自动化所王飞跃教授于2004年提出了平行系统的思想,试图用一种适合复杂系统的计算理论与方法(ACP方法)解决社会经济系统中的重要问题。ACP方法是指人工社会(A)用于建模,计算实验(C)用于分析,平行执行(P)用于控制。人工系统往往通过建模获得,用于数据获取和行动选择。通过实际系统与人工系统相辅相成地运行,控制器能够变得更高效,同时对数据的依赖度也会减少。ACP方法用于复杂系统中解决不同的领域的问题参见文献。


转移学习强调将解决某一问题的知识转化并扩展,应用于同类型的其他问题。论文以车辆驾驶工况为例,通过平均驱动力(MTF)组件对它们实现转化。这样做可以有效地减缓缺乏泛化能力的问题。预测学习指通过已有的数据和知识构建预测模型,对不同环境中的控制进行预测。本文以需求功率为例,提出模糊编码预测器对未来的需求功率进行不同步长的预测。可以有效地减轻数据匮乏问题。深度学习定义为学习数据的表现形式,包括多层的非线性处理单元和监督或非监督学习方法去学习每层的特征表达。增强学习关心控制对象如何从环境中获取控制来最大化累积回报。


该文章通过将转移学习、预测学习和深度学习与增强学习融合构建深度增强学习的理论框架,用于处理论文开始提出的几个难点问题。


01

平行增强学习框架和平行系统


平行增强学习的框架如图1所示。数据代表人工系统和真实系统的输入和参数。知识代表从状态空间到控制空间的记录,在真实系统中叫作经验,在人工系统中叫作策略。经验用于修正人工模型,策略用于指导真实系统的运行。


最近,信息物理系统越来越受到关注,源于它们处理复杂计算过程的能力。同时,信息物理社会系统加入了人和社会的特性,从而能够更有效地进行设计和操作。基于ACP的平行系统框架如图2所示。人工系统和真实系统统称为平行系统。


1.webp.jpg

图1 平行增强系统框架


2.webp.jpg

图2 基于ACP的平行系统框架


在该平行系统中,物理定义的真实系统与软件定义的人工系统通过三个模块耦合。这三个模块分别是控制和管理、实验和评估以及学习和训练。第一个模块属于决策与规划模块、第二个属于数据评价模块、第三个模块属于学习控制模块。


人工系统常通过观察实际系统的表现,而后通过描述学习构建。它能够帮助学习控制器存储更多的计算结果,同时做更有效的行动。针对特定的平行智能系统,计算实验常通过不同的学习方法来获得不同的经验或策略。平行执行则是人工系统和真实系统在平行空间中相辅相成的运行,不断地修改建模精度和指导实际系统运行。


02

转移学习


本文以车辆的行驶工况为例来介绍转移学习,如图3所示。本文介绍基于平均驱动力组件的转移工况方法。该方法能够将已有的工况数据转移为与当前环境契合的等效数据。


3.webp.jpg

图3 转移学习用于工况转移


平均驱动力定义为在特定的时间区间[0,T]内,驱动能除以行驶距离:

4.webp.jpg

其中,xT=∫v(t)dt是行驶距离,v是车辆速度。F是纵向驱动力:

5.webp.jpg

其中,Fa 是空气阻力,Fr 是滚动阻力,Fm 是惯性力。ρa 是空气密度,M是车辆质量,Cd 是空气阻力系数,A是迎风面积。g重力加速度,滚动阻力系统,a是加速度。


车辆的驱动模式可分为驱动,巡航,制动和怠速。根据不同模型下驱动力的不同,时间区间可分为:

6.webp.jpg

其中,TtrTco是驱动模式和巡航模式,Tbr代表车辆制动,Tid 是怠速时间集。


对式(3)来说,车辆传动系统只有在驱动模式下提供正的功率。因此式(1)中的驱动力可以改写为:

7.webp.jpg

随后,特定工况下的驱动力组件(αβγ)可以定义为:

8.webp.jpg

最终,工况的转移过程可以定义为非线性规划问题。其中的代价函数可以表达为:

9.webp.jpg

其中10.webp.jpg是转移后的工况,(α′, β′, γ′)是目标驱动力组件,vcoast 是巡航速度。gi  hj 是特定的约束。


转移学习的目的是将历史可用数据转化为与真实环境契合的等效数据,它可以用于自适应控制,从而解决泛化能力和数据匮乏问题。


03

预测学习


本文以需求功率为例来介绍预测学习,如图4所示。论文介绍基于模糊编码控制器的需求功率预测方法。该方法可以用于获得不同复杂系统的未来经验和策略。


需求功率建模为有限的马尔科夫链,Pdem={pj=1, …, MX,需求功率的转移概率通过极大似然估计求得

11.webp.jpg

其中,πij是从pi pj的转移概率。p p+是当前和下一步的转移概率。Nij代表从pi pj的转移概率的总转移次数,Ni是起始于pi 的总转移次数。


图4 预测学习用于预测未来需求功率


所有转移概率πij组成转移概率矩阵Π在模糊编码方法中,X被分为有限个模糊子集,Φjj=1, …, MΦj称为勒贝格隶属函数,定义为

13.webp.jpg

其中,μj(p)反应在 μj pX 的隶属度。需要注意的是,一个连续状态pX在模糊编码方法中,可以拥有对个隶属函数


模糊编码预测器包含两步:第一步是为每个p∈X分配M维的可能度矢量

14.webp.jpg

第二步称为成比例的可能到概率的转移,将可能度矢量转移为概率矢量:

15.webp.jpg

最后,需求功率的预测公式为:

16.webp.jpg

预测学习的目的是通过存在的数据和实时的观察来预测未来的情况。生成的数据可以指导真实系统的学习,从而解决数据匮乏和数据分布不确定的问题。


(a) 深度神经网络


(b) 双向长短记忆网络

图5 深度神经网络和双向长短记忆网络


04

增强学习


在增强学习框架中,环境与被控对象的交互过程可以建模为五维数组(S, A, Π, R, γ),其中s∈S 和 a∈A 称为状态变量和控制变量集合,Π 是转移概率矩阵,r∈R是汇报函数,γ∈(0, 1)是折扣因子。


控制值函数Q(s,a)定义为:

19.webp.jpg

强化学习中,Q-learning算法的迭代公式为:

当控制变量包含多个子控制at时,直接对Q值建模十分困难。在这种情况下,我们控制和状态变量输入深度神经网络进行近似,如图5所示。


最终,经训练后的控制值函数表达为:

其中,K是子控制变量的个数,Q(st, cit)代表期望的累积回报。


融合平行系统、转移学习、预测学习、深度学习和增强学习,可以构建如图1所示的平行增强学习框架,下一节讨论几个平行增强学习应用的应用案例。


05

平行增强学习典型应用案例介绍


平行增强学习的概念应用到了不同的复杂系统控制领域,比如交通系统,视觉系统和其他的社会系统。文献中主要讨论交通流的预测过程,包括构建人工系统(名为栈式自编码模型)用于学习一般的交通流特性。然后,深度学习用于训练人工系统和真实系统提供的综合数据。最后,预测学习用于预测未来的交通流,同时指导平行系统。


同时,平行增强学习理论还用于解决视觉感知问题。构建人工视觉系统,其产生数据与真实系统数据融合,用于特征分析、目标分析和场景分析。衍生的新的视觉感知研究方法称为平行视觉。


最后,旨在提升车辆能量效率的车辆自主学习系统也可以归为平行增强学习的范畴。首先,插电式的混合动力模型用于构建平行系统;随后,深度神经网络和增强学习用于处理综合数据,得到最优的燃油使用控制策略;最后,获得的策略用于指导实际系统的运行,同时提升控制特性。


综合车辆的工况转移方法和增强学习,本文提出混合动力车辆的自适应能量管理策略。它可以解决两个潜在的困难:首先,大多数能量管理策略无法适应不同的环境;其次,基于模型的能量管理策略常常需要准备的车辆模型,同时对计算能力的要求较高。基于平行增强学习的自适应能量管理策略如图6所示。


6. 平行增强学习在混合动力轮式车辆能量管理中应用


图7平行增强学习在混合动力履带车辆

上层主要解决车辆行驶工况的转移问题,下层主要通过增强学习来求得对应的控制。实验结果证明基于平行增强学习的能量管理策略在计算速度和控制效果上都远优于传统的增强学习方法。


最后,本文还将平行增强学习的理论应用到了混合动力履带车的节油控制中,如图7所示。首先,利用预测学习对履带车辆的需求功率进行预测,然后利用增强学习对最优的节油控制进行计算。比较结果分析显示,平行增强学习能够有效地提升燃油经济性,同时有潜能实现实时控制。将来,平行增强学习的理论还拟用到自动驾驶的各项任务中。包括:决策与规划、速度规划和路径规划等等。


文章信息


T. Liu, B. Tian, Y. F. Ai, L. Li, D. P. Cao, and F.-Y. Wang, “Parallel reinforcement learning: a framework and case study,” IEEE/CAA J. of Autom. Sinica, vol. 5, no. 4, pp. 827-835, July 2018.


Parallel_Reinforcement_Learning__A_Framework_and_Case_Study.pdf




https://blog.sciencenet.cn/blog-3291369-1121904.html

上一篇:融合对抗学习的因果关系抽取
下一篇:2018 多智能体研讨会暨第十二期自动化前沿热点论坛
收藏 IP: 159.226.21.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 08:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部