|
代理技术Agent 在智能车辆与驾驶中的应用现状
沈宇,王晓,韩双双,陈龙,王飞跃
【摘要】从智能体的角度出发, 对智能车辆作为单智能体系统的研究进行介绍和总结; 针对智能网联汽车中多智能体系统在典型场景下控制问题的研究进展进行了分析与阐述; 介绍了“车端感知, 远端管控” 的平行驾驶技术是未来智能车的发展趋势, 并且阐述了Intel 的RSS 模型从法律角度对智能汽车决策的规范. 最后, 对基于多智能体系统的智能汽车控制策略进行了展望.
【关键词】 智能汽车, 智能体, 多智能体系统, 平行驾驶, RSS 模型
【引用格式】 沈宇, 王晓, 韩双双, 陈龙, 王飞跃. 代理技术Agent 在智能车辆与驾驶中的应用现状[J]. 指挥与控制学报, 2019, 5(2):87-98
Agent-Based Technology in Intelligent Vehicles and Driving: State-of-the-Art and Prospect
SHEN Yu, WANG Xiao,HAN Shuang-Shuang,CHEN Long, WANG Fei-Yue
Abstract The recent achievements in the study of multi-agent based connected intelligent vehicles in typical scenarios are reviewed. Parallel driving characterized by “Local Sensing, Remote Control” will be the trend of future intelligent vehicles and the RSS model of Intel regulates the decision-making of intelligent vehicles from a legal perspective is elaborated. Finally, the prospect for the control strategies of multiagent-based intelligent vehicles is given.
Key words intelligent vehicles, agent system, multiagent systems, parallel driving, RSS model
Citation SHEN Yu, WANG Xiao, HAN Shuang-Shuang, CHEN Long, WANG Fei-Yue. Agent-based technology in intelligent vehicles and driving:state-of-the-art and prospect[J]. Journal of Command and Control, 2019, 5(2): 87-98
智能传感、大数据、云计算及物联网等人工智能关键技术近几年的飞速发展, 极大推动了智能汽车这一集感知 – 规划 – 决策 – 执行功能于一体的复杂智能系统的进步. 智能汽车的出现将极大地改善 交通状况、降低环境污染、减少交通负荷、保证交通安全, 从而更好地推动社会发展.
智能体 (Agent), 又称代理系统, 是在 20 世纪 80 年代中期兴起的属于分布式人工智能的一个概念, 从 20 世纪 80 年代起, 智能体和多智能体系统经历了快速的发展. 智能体成为一个成熟的、有前途的研究和应用领域, 它汇集并借鉴了许多学科的成果、 概念和思想, 包括人工智能、计算机科学、社会学、 经济学、组织和管理科学和哲学. 智能体系统的成功使得分布式人工智能 (Distributed Artificial Intelligent, DAI) 有了更加现代化的定义: 多智能体系统的研究、 构建和应用; 也就是说, 多个追求一定目标或者完成一些任务的相互交互、智能的智能体构成的系统[1]. 基于智能体的方法由于在地理分布上的特性和周期性的忙闲操作的特点, 非常适合用于交通和运 输管理系统. 值得注意的是, 空中交通控制和冲突管 理系统是智能体技术最先应用的几个领域, 并且相关研究依然很火热[2]. 分布式交通监控任务 (DVMT) 是智能体研究和分布式人工智能历史上另一个早期的里程碑. Lesser 和 Corkill 针对地理上不同分布的 智能体之间数据和目标的通信, 提出了 “黑板” 的概 念[3−4]. 每个智能体可以感知被监控区域的一部分. 然而, 随着现代控制尤其是分级控制的兴起, 城市交通管理问题的解决方案、基于功能分解的传统控制方法在理论研究和实际应用中越来越盛行[5]. 目前大部分的研究工作集中在发展分级结构、分析建模、优化算法等在实时交通中有效地应用, 比如 CRONOS, OPAC, SCOOT, SCAT, PRODYN, RHODES[6−8] 等交通控制系统.
未来的智能交通系统 (Intelligent Traffic Systems, ITS) 应当全部由智能化、自主化的智能体系统构成. 这些智能体运行在交通控制中心、道路交叉口、高速、街道等之间, 通过因特网、无线网和自组织网在 合适的时间获取准确的信息并且作出最正确的决策, 使交通系统最终实现智能.
近些年来, 越来越多的研究将基于智能体的方法应用到智能车的问题中去. 例如自动泊车、运输 规划、分布式控制和交通仿真等[9]. 尽管这些都是交 通系统中的重要问题, 但是并没有系统地解决智能 交通系统的核心问题[10]. 网联智能汽车利用 (Vehicle to Everything) V2X 技术实现车辆和其他智能体之间 的信息交互, 将汽车从传统的孤立驾驶环境下解放出来, 能够有效降低交通事故、缓解交通堵塞以及提高交通出行效率. 使用 BDI 模型[11] 将智能汽车建模为具有信念 (Belief)、愿望 (Desire) 和意图 (Intention) 的智能体, 信念为 Agent 对世界的认知, 包含描述环境的数据和描述自身功能的数据, 例如周围智能车的运动状态、道路状况、交通信号以及智能车本身的导航、速度等, 是 Agent 思维活动的基础; 愿望是 Agent 对环境状态的一种期待和判断, 车辆需要基于信念信息判断当前加减速、是否并线、保持安全等; 意图是 Agent 要达到的目标, 对于当前动作具有指导作用. 传统的控制系统被分解为多个任务取向的 Agent, 能够在处理效率以及能耗等方面得到极大的优化[12], 这对于追求安全、高效的智能车技术具有 非常重要的意义.
本文第 1 部分从智能体的基本特性出发, 首先 介绍了智能汽车本身作为由感知层、管理层和决策层等多个智能体模块构成的整体, 分析各智能体模 块之间协同与合作, 构成可进化、发展的自主驾驶学习系统. 接下来, 第 2 部分介绍网联智能汽车中 Agent 技术的应用, 对网联智能汽车场景下, 车辆作为 Agent 在车辆换道、交叉路口以及车辆编队等典 型场景下的控制策略进行了概述. 第 3 部分则总结了基于 Agent 的智能汽车仿真系统框架. 第 4 部分介绍了基于 Agent 的平行驾驶是智能汽车安全上路的安全高效智能途径以及 RSS 模型如何从法律角度规 范智能汽车 Agent 的行为. 最后进行了总结, 并对未 来智能体技术在智能汽车中的应用进行了展望.
1 基于多 Agent 的智能车架构
对于智能体 Agent 最为广泛接受的定义来自于 Russell 和 Norvig 的拥有感知周围环境并通过执行 器进行操作能力的灵活且自主的实体[13], 图 1 给出 了智能体系统构成.
与一般简单控制器相比, 智能体的特性如下:
1) 情境性: 智能体可以通过传感器和执行器与周围环境进行交互, 智能体所有输入都是其与环境 交互的直接结果. 这一点使其与专家系统不同.
2) 自治性: 智能体能够独立自主地选择自己的行为, 而不受人为干预以及网络中其他智能体的影响. 该属性保证智能体内部状态不受外界干扰的影响, 尤其是外部扰动而导致的不稳定性.
3) 推理性: 智能体可以基于观察而推理得到概括信息的抽象目标特性的能力, 这可以通过利用可供使用的相关内容实现.
4) 响应性: 智能体能够感知环境的状况, 并且针对环境的变化作出及时响应的能力, 这一点在一些实时性要求很高的应用中尤为重要.
5) 积极性: 智能体具备一定的机会主义特性, 能够根据目标需要主动对环境中的变化作出反应, 尤其是动态变化的环境.
6) 社会性: 尽管智能体可以不受到外界环境变化的影响, 但是它需要在实现目标的过程中与外界环境进行交互. 同时应该通过分享经验的过程帮助其他智能体完成目标.
智能车从任务类型上可被看作为由感知、规划和决策多个智能体组成的异构智能体混合系统[14]. 智能系统的智能性体现在可以通过学习得到知识和技能, 并将此应用于提高性能上.
智能驾驶汽车利用激光雷达、毫米波雷达、摄 像头以及 GPS 等传感器组成的感知系统, 如图 2 所 示, 实时采集周围环境的数据完成识别红绿灯、检测 车道线、障碍物, 以及行人等一系列行为完成感知的任务, 感知得到的信息经过车载中央处理器处理后, 对智能车下一步换道、刹车等动作进行决策, 在联网 环境下可以与其他车辆、云端和路基设备进行通信, 实现感知和运行信息共享任务[15].
整个过程涉及多个任务的并行处理、计算资源的分配和信息交互等, 如何保证实时准确地得到理 想的结果, 保证智能车安全平稳的运行是目前研究的热点. 基于智能体的智能车控制是解决这个问题 的一个有效方案.
传感器系统是智能车感知环境的基础, 多样性的传感器保证了信息获取的全面性, 但是多传感器系统的数据融合和资源管理的复杂性问题也应运而生. 将智能体技术引入多传感器系统[16] 可以有效解决这个问题. 在多传感器系统中智能体不仅仅起管理作用, 智能体获取传感器的数据, 并为传感器在传感范围、资源分配和执行时间上做规划.
一种基于信息融合的多智能体智能车辆导航 系统[17], 将导航任务分为可协调式和反应式, 智能体间完成信息交互、协调运作, 结合图像处理、信息 融合的方法实现多传感器信息融合, 达到避障导航的效果. 此外, 当前智能车各功能模块的任务处理比 较复杂, 因此, 可以将多个任务分配给多个相互协作的智能体执行 (如图 3).
基于多 Agent 的智能车可以对可能导致冲突的环境参数进行建模减少交通事故, 例如根据车辆模型、重量、状态和天气因素等参数计算安全的跟车 距离. 此外, 多 Agent 系统可以重复对多个处理器执行并行计算, 使得智能车的各个模块实时通信, 提高 决策效果. 多 Agent 技术可应用于单个智能车系统中去. 系统架构由决策层、管理层和传感层组成, 每层又由若干可相互通信的智能体构成. 不同智能体之间的并行通信保证了它们任务的同步性, 从而达到减少执行时间的目的[18] . 系统架构如表 1.
该系统采用一种中心化的控制架构, 主体 Agent 拥有最高控制权限, 使用强化学习提高决策能力, 感 知层的 Agent 权限最低, 负责向高层提供感知信息, 高层可以向底层下达控制命令.
2 网联智能车Agent 控制
当前的智能车研究主要集中于单车系统在感知、规划和决策等模块的研究, 车辆各自执行自己的检测、避障、识别标志等任务, 每台车采集到的数据相互之间也是不共享的, 这就要求单车本身各功能模块非常可靠. 而智能网联汽车的诞生将极大提高单车效率. 智能网联汽车是指搭载先进的车载传感器、控制器、执行器等装置, 并融合现代通信与网络技术, 实现人– 车– 路– 云端等信息交换、共享, 具备复杂环境感知、智能决策、协同控制等功能的新一代汽车[5], 典型架构如图4 所示.
智能汽车与通信技术的结合促进了协同感知和协同操作技术的发展, 协同感知允许多个智能汽车相互之间共享感知信息, 协同操作使得车辆执行器间的协调得以实现. 这些特点保证了智能汽车之间协作性的可能, 从而提高了整体的行驶品质和行驶安全.
下文将从换道场景、交叉路口以及车辆编队等典型场景介绍对智能车Agent 的控制策略.
2.1 换道场景
智能汽车在复杂环境下尤其是非结构化道路条件下的决策能力是衡量其智能化的标准.在任何交通模型和仿真系统中, 换道场景都是非常重要的研究点, 在换道问题的研究中, 必须要考虑车辆间信息的交互, 智能汽车如何基于对周围车辆行驶意图的预测, 以及环境的变化并结合自身动态信息及时、有效、安全地作出决策是换道场景问题研究的重点. 换道场景可以分为自由换道、强制换道和协作式换道3 个场景, 如图5 所示. 自由换道场景下, 待换道车辆Agent 不需要与周围车辆Agent进行交互, 可根据与周围车辆Agent 之间的安全距离选择换道时机; 强制换道为待换道车辆Agent 以强制周围车辆Agent 减速形成安全距离的方式进行换道,而协作式换道则基于待换道车辆Agent 与周围车辆Agent 进行信息交互, 周围车辆Agent 主动调整自身驾驶策略保证待换道车辆Agent 安全换道. 模型对待换道车辆Agent 的换道条件作了限制. 换道并线的点称为MP (Merge Point), 到达并线点MP 的加速度为AM (Merge Acceleration).
其中, dx 为当前位置到达 MP 点的距离, vMP 和 aMP分别为车辆在 MP 点处的速度与加速度, vs 为待换道车辆 Agent 的速度. 当车辆到达换道点, 基于车辆间距离 (gap)、车辆间相对速度以及限定 AM 决定是否适合换道[19].
两种常用的控制速度和决定何时换道的模型是 建模汽车纵向动态特性的智能驾驶员模型 (Intelli- gent Driving Model, IDM) [20] 和基于换道最小化刹车 次数 MOBIL 决定何时换道的模型[21].
控制车速和换道可看成是强化学习问题[22], 在IDM 和MOBIL 模型基础上提出一种深度学习与Q学习相结合的深度Q- 网络[23]DQN 智能体来学习Q函数, 根据已知的周围车辆的状态和可用的道路信息, 智能体在其动作空间选择最佳的换道、加速和减速的动作, 智能体的动作空间定义如表2.
如表2 所示, Agent1 仅仅控制着换道决策, 其速度则由IDM 模型自动地控制着:
Agent2 则在使用IDM 模型控制速度并估计周围车辆Agent 速度的基础上, 使用MOBIL 模型进行换道决策, 决策条件为:
其中, ae, an, ao 分别代表当前车辆的加速度、目标车道后续车辆的加速度、当前车道后续车辆的加速度.
WANG[24] 等利用长短时记忆(Long Short-Term Memory, LSTM) 网络建模交互环境, 将包含历史驾驶信息的内部状态传到深度Q 网络DQN 中, 在深度强化学习架构下, 交互环境长期影响的累计收益可以用来决定最好的控制策略, 这可用于智能车在复杂的交叉路口的驾驶和执行换道.人类驾驶汽车经常可以依靠对周围交通状况的观察和感觉轻松地在高速公路完成换道超车, 但很多时候突然出现的加塞和变道会增加行车过程中发生事故的几率, 影响其他驾驶员的正常驾驶. 而对于智能汽车来说, 换道这些动作都需要决策系统完成,因此, 智能车需要作出安全、和谐的决策.
当出现需要超车时, 智能车首先在行驶过程中需要不断对周围车辆的行为进行预测, 然后在与他车协作换道或者保持自己行车状态之间博弈, BMW公司将预测算法加入到决策过程中去, 先使用多项式回归分类器进行实时预测, 然后在动作空间选择对应的避让或不避让策略, 最终实现基于他车不确定因素的协作行为的博弈.
2.2 交叉路口
城市中的交叉路口(如图6) 一般是拥堵最为严重的区域, 过去也尝试过很多方法来解决交叉路口的拥堵问题. 例如对交叉路口的交通信号灯进行优化控制[25]、将路口的状况发送给司机让其提前改道[26]、车辆按照先进先出的顺序排序[27] 等, 这些都是静态的处理方法, 效果不是非常理想.
交叉路口智能汽车Agent 之间的协调策略[28] 一般分为中心化和去中心化两种方法(如表3 所示):
去中心化的多智能体系统因为其分布式、可交互特性可应用在交叉路口的无人驾驶车辆的协调上[29], 将车辆与交叉路口智能体网联起来, 车辆智能体之间进行信息交互、协调运行. ROOZEMOND[30]提出一种基于智能体的城市交叉路口控制系统, 及时反应交通环境的变化, 并基于内部状态调整自己的决策. 该系统包含多个交叉路口交通信号智能体(ITSAs)、道路分割智能体(RSAs) 和一些管理智能体. ITSAs 在RSAs 帮助下管理交叉路口的控制信号,管理智能体控制和协调ITSAs 得到全局最优的结果.Choy[31] 则给出了分层多智能体系统, 最底层为交叉路口控制器智能体(ICAs), 中间层为空间控制器智能体(ZCAs), 最高层为区域控制器智能体(RCAs).智能体基于神经网络和模糊控制技术进行决策, 来适应动态变化的环境.
交通信号控制系统在物理位置和控制逻辑上分散于动态变化的交通网络, 将每个路口的交通信号控制器看作为异构的智能体, 非常适合采用无模型、自学习、数据驱动的多智能体强化学习方法建模[32].强化学习智能体与被控对象在闭环系统中不断进行交互, 通过观察交通环境的实时状态提取信号控制所需要的交通状态信息和反馈奖励信息, 以累计回报收益最大为目标选取最优控制策略. 作为一种无模型、自学习的迭代性数据驱动方法, 多智能体强化学习(Multiagent reinforcement learning, MARL) 为实现闭环反馈的自适应控制提供了一种内涵式的解决方法. 在交通信号控制领域, 从控制理论来看, MARL控制可根据控制效果的反馈信息自主学习并优化策略知识, 是一种闭环反馈控制[32]; 根据智能体间交通状态和信号动作的协调水平, 交通网络MARL 控制可以分为3 类[33]: 完全独立的多智能体强化学习控制、部分状态合作的多智能体强化学习控制和动作联动的多智能体强化学习控制. 从系统可拓展性来看, 分散式MARL 控制具有统一的结构模型, 可针对特定路网结构和交通流特性进行相应的改造[34]. 从控制实时性来看, 它没有复杂的模型优化模块, 可实时响应时变交通流的变化.
在不考虑所有交通参与者之间交互的情况下, 传统的基于知识的方法假设周围车辆的状态和意图是己知的, 而基于规划的方法则是假设Agent 可以依据其反应性和快速重规划行为保持速度恒定, 但这往往得到的都是次优结果. 与此相反的一种考虑交互性的方法是部分可见的马尔科夫过程 (POMDP)[35]. 该方法将智能车 Agent 周围车辆的路 径视为部分可见变量, 使用一个运动交互模型模拟车辆之间的交互、一个随机观测模型得到周围车辆 未来潜在的测量参数, 从而优化智能车 Agent 在未来场景中的规划. 它们的框架具有以下几个特点:
1) 适用于任何几何结构的交叉路口和可变数量 的交通参与者;
2) 考虑当前状态、可以预测其他交通参与者未 来意图的不确定性并且不依赖于 V2V 通信;
3) 在连续状态空间操作、可在线调节.
2.3 车辆编队
智能网联汽车的一个重要应用场景就是编队 车辆. 队伍中的每台车可以建模为具有感知、自组织和决策能力的智能体, 多个车辆使用 (Vehicle-to- Vehicle, V2V) 设备进行通信. 相同车道的车辆可以保持较小的车间距离, 增加道路容量和行驶安全、减少交通拥堵发生、增加燃油经济性.
作为智能网联汽车中关键技术的无线传感器网 络 (Wireless Sensor Network, WSN) 是网联的基础, 安装在车上、道路的传感器网络是感知模块的核心. 路基传感器网络可以对车流量、该区域的车辆运动信息等进行监控, 还可以用于对特定车辆或者目标进行跟踪. 基于 WSN 的目标跟踪算法大致可分为两类: 非预测跟踪和预测跟踪[36].
WSN 作为一种分布式系统, 节点拥有独立解决问题的能力, 具有自治特性, 与多智能体系统非常相似, 当单个智能体由于缺乏信息、知识、能力、资源而无法独立完成任务时, 多智能体的协作可以很好地解决问题. 因此, 可以将传感器节点看作智能体, 将多智能体技术应用到传感器网络的协同目标跟踪应用中. 感知智能体 (SA)、管理智能体 (MA) 以及警 告智能体 (AA) 形成动态的联盟, 在跟踪环节, 当跟踪目标出现时, AA 智能体发出信号, SA 智能体进行动态跟踪、进行本地决策, 将监测数据和状态信息发送给 MA 智能体. 整个跟踪过程中 3 种智能体的状态不断变化, 传感器网络中的被激活智能体也随着被跟踪物体位置变化而变化, 即联盟及成员处在不断新生和解除的动态过程中. 在联盟内 SA 智能体与 MA 智能体的数据, 采用贝叶斯估计的方法进行协同信息处理, 传感器网络中智能体间的信息交流保证了新的管理智能体 MA 以最高效的方式产生.
车辆编队通常包含一个主导车辆和一队跟随车辆, 然而一个显著问题就是编队中会时刻有车辆加入和离开, 处理好这种动态变化的环境就变得非常重要[37].
文献 [37] 研究了去中心化的动态网联车联盟结 构生成算法 cvCSG, 将车辆集合分解为相互不兼容 的联盟, 每个联盟有一个主导, 主导利用与成员的通 信确定联盟的组合方式是否有益, 并且决定其成员 何时离开和新成员的加入 (如图 7). 算法使用场景特点如下:
1) 交通系统没有中心处理节点, 主导者只对自 己联盟有控制效应;
2) 没有具有全局知识的中心节点, 所有主导及 其成员通过 V2V 通信获得他们所需要的周围信息;
3) 通信以单段或多段路径规划方式实现;
交通环境是动态变化的, 网络拓扑结构持续变化并且这些变化事先未知.
使用编队算法[38] 仅仅需要临近车辆的动态信 息, 因此, 也适用于大的编队场景且容易在有车辆加 入和离开时收敛到理想的队形. 一种集群环境下的信息 – 物理车辆编队控制算法[39], 利用移动智能体 自组织网络的协调整体特性, 将智能车的集体行为 建模为多目标的汇聚运动 (Multi-Objective Flocking), 不同于车辆固定队型编队运行, 汇聚运动容许车辆 随时加入或者离开编队, 这就使得车队在遇到障碍 物和前方变窄道路时变得更加灵活. 其灵活性还体 现在车队中的智能车 Agent 不必拥有相同的目的地, 队形也不必像固定编队 Platoon 那样不可变通. 当多 个 Agent 满足只与其所属环境邻域的智能体交流, 并 且在一定时间区间内具有凝聚、自组织和自调整能 力时可以被视为具有汇聚行为. 基于汇聚行为的理 论基础, 分别研究了:
1) 弯道、直线、纠缠态等道路行驶环境下智能 车 Agent 防碰撞;
2) 多车道情况下的换道;
3) 紧急情况下的刹车控制;
4) 转弯和防止碰撞行人.
网联环境下的智能车由于具有V2V通信和V2X通信能力, 可以在智能体系统的协调下 根据当前交通动态来规划自己的路径, 并且与别的车辆共享自己的部分导航信息, 如图 8 所示. 这种交互协作可以在没有红绿灯的情况下, 保证交叉路口车辆顺利通行而不会发生拥堵, 车辆根据交叉路口智能 体分配的权限按照先进先出的原则通过[40].
在一般的网联智能汽车研究中, 智能汽车 Agent 主要利用自身的感知模块对环境信息进行感知, V2X 模块则用于与周围可通信设备交互, 获取额外的信 息. 这种模式对于智能汽车 Agent 的要求较高. DE[41] 等提出一种基于 Agent 的学习框架, 以路边的基础设 施为主体, 对道路环境进行监控, 基于交通环境为进 入该区域的智能汽车 Agent 做最合理的规划. 网联 智能车被建模成理性智能体, 基于 (Vehicle to Infras- tructure, V2I) 的通信架构利用深度模仿学习实现道 路基础设施主导的策略学习. 可动态决策的 Agent 的 运动被仿真为在有恒定速度障碍物环境下的走迷宫, 配合车间多传感器信息融合[42], 如图 9 所示, 利用强 化学习为智能汽车 Agent 的具体行为作决策.
2.4 基于 Agent 的智能车仿真
车流量增多和车祸、并线引起的车速降低是导致高速公路拥堵的主要原因. 为了研究车流量预测方法和交通拥堵缓解策略, 交通仿真可以模拟出现实中难以重现的交通状况. 多智能体系统非常适合用来建模和仿真交通系统, 因为它提供了一种直观的方式来描述每个层级的智能实体. 在多智能体交通仿真系统中, 每个智能实体被建模为一个智能体, 智能体可以以竞争和合作的方式与别的智能体共存. 之前有一些利用遗传算法[43] 和元胞自动机[44] 的交 通仿真研究, 但是缺少预测最佳拥堵缓解策略的高效算法.
强化学习中的深度 Q 学习可以在复杂环境下确定最佳策略[45]. 在自动驾驶环境下交通环境的仿真 中[46], 仿真环境将每辆车作为一个智能体与环境不断交互完成以下工作: 1) 观察当前环境状态; 2) 确定智能体的行为; 3) 智能体执行相应动作; 4) 将环境改变到另一个状态; 5) 得到对应于状态变化的收益; 6) 执行 Q 学习. 采取一种逐场景的优化方法, Q 值的计 算应用卷积神经网络训练得到.
交通系统因其地理上分布性、处于动态环境中和子系统间需要, 以一种灵活的方式交互而非常适合使用基于智能体的方法模拟仿真. GM[47] 等基于多模型开源车辆 – 交通仿真器 MovSim 套件进行扩展, 提出协作式交通建模. 利用多智能体系统中对环境的局部感知特性、信息交互、协作执行等特性 (如 图 10), 车辆完成协作式感知、决策和执行.
为降低紧急情况下智能车辆在路口等待时间和其他车辆的行驶时间, KT[48] 等设计一 种可用于仿真智能车在交叉路口的控制系统, 他们使用SUMO(Simulation of Urban Mobility) 作为微观交通仿真器, 使用 JADE(Java Agent Development Frame- work) 框架基于多智能体系统重现与真实交通系统相类似的仿真系统, 引入 Q 学习使得交通灯智能体更加智能. 交通仿真对于智能车的发展来说是至关重要的, 因为真实环境中不可能人为制造特殊的场景来测试紧急情况下车辆的反应.
BN[49] 等基于多智能体技术为智能车设计了一 种仿真调试系统 (如图 11).
它使用一种分布式架构, 将智能车的二维、三维、信息融合、道路规划、车辆控制等建模成智能体, 各智能体之间相互配合, 有效提高了系统执行效率和执行时间. 总结来说, 基于智能体的交通仿真系 统有如下优点[50]: 1) 系统可以在不使用真实场景设 备的情况下测试、验证; 2) 虚拟世界中可以安全地对一些危险、极端的状况进行复现; 3) 数据可以被重复 使用, 仿真环境也可以非常方便地重复进行直至想 要的结果出现; 4) 仿真过程可以基于需求在时间维度进行扩展.
当前的智能车技术主要围绕着单车智能体的发展, 集中于无人干预下的环境感知、路径规划和行为决策. 网联汽车将通信技术与无人驾驶技术结合起来, 从点到块到网络, 使得从局部到全局的车辆协同 感知、规划以及信息交互得以实现, 智能交通系统的 可靠性、多功能性得到了提升. 然而, 网联环境下系统元素的多样性、时变性、复杂性以及 “人车共驾” 所导致的社会信号 (Social Signal) 的引入, 使得系统行为越来越难以被精确地刻画, 实际行为与模型行为差异性带来的 “模型鸿沟”[51] 为复杂的交通管理 带来了新的挑战.
3 平行驾驶
当前无人驾驶技术的发展还处于 “人车共驾” 的时代, 人类行为的加入导致了智能交通系统复杂 性的增加, 社会信号的加入使得复杂系统从简单的 物理系统、信息物理系统, 向着信息物理社会系统 (Cyber-Physics-Social Systems, CPSS) 过渡. “建模鸿 沟” 的出现迫使我们从利用可以控制系统行为的 “牛 顿定律” 进行建模, 向着能够影响系统行为的 “默顿 定律” 进行转化[52]. 默顿系统的典型特征就是即使 给定其当前状态与控制条件, 也无法通过求解精确 地预测系统的下一步状态. 网联汽车作为一种 CPSS 系统也是一种典型的莫顿系统, 以 “车端感知, 云端 管控” 为特征的基于 ACP 理论的平行驾驶理论为此 寻找了一种好的解决方案[53].
ACP 理论包含人工系统[54](Artificial System)、计 算实验 (Computational experiment) 和平行执行 (Par- allel Execution), 它提供了一种高效的解决复杂系统的方法, 如图 12 所示. 基于 CPSS 的平行驾驶技术是 以 ACP 理论为基础的. ACP 的结构如下:
传统的车辆被认为是软件定义车辆, 未来的智能网联汽车则包含 3 个主要部分: 1) 车辆 Agent(具 有物理属性); 2) 人类驾驶员 Agent(具有物理属性和 认知属性); 3) 与驾驶有关联的控制 Agent.
平行驾驶是新一代的云端化网联自动驾驶技术, 通过充分利用数字化及信息化资源, 将云端、道路及车辆上的信息无缝衔接 (如图 13), 利用平行视觉[55] 、 平行感知[56] 、平行学习[57] 、平行规划[33] 和平行控 制[58] 等最新开发的前沿关键技术, 把智能车、管控 平台及驾驶模拟器实时连接起来[59], 提高了车辆对动态变化环境的响应速度, 最终实现车路互动、多车协同、平行操控、安全行驶.
平行驾驶理论是基于信息物理社会系统(CPSS), 通过将人工系统与真实系统虚实结合起来, 它使用 ACP 方法, 实现:
1) 利用自底向上的多 Agent 方法对人工场景中 的对象及其相互关系进行建模, 模拟实际交通场景 中的动静态特征;
2) 利用计算实验方法对于人工场景中的 Agent 进行计算实验, 例如: 使用机器学习方法对虚拟环境下的网联汽车 Agent 进行并线、换道甚至是追尾等 场景的控制策略进行评估, 分析得到多 Agent 系统之 间以何种策略进行信息交互、协同合作等;
3) 将计算实验得到的控制算法在实际场景和人工场景中平行执行, 使模型训练和评估在线化、长期化. 通过人工与实际之间的虚实互动, 持续优化系统.
平行驾驶技术是传统的基于 Agent 智能车控制技术的一次重要变革, 它将智能汽车带入到一个与现实世界平行的虚拟世界. 基于 CPSS 理论基础的“车内简单、车外复杂” 平行驾驶框架, 以 “车端感知、 云端管控” 为基本理念, 利用智能车行驶状态信息和交通环境信息结合虚拟系统的相关数据, 通过大数据分析学习系统进行分析决策, 实现对智能车的预测、指挥和控制[60].
为理解车联网不同层次的结构和功能特性以及内在动力学特性, 为混合交通形态下的系统管理提供科学的解决方案, WANG[61] 等将 ACP 方法推广到车联网领域, 提出了一种新的智能车辆网联管理与控制系统: 平行车联网. 平行车联网由3步构成.
第1 步: 人工车联网, “生长型” 系统模型构建与培育. 其本质是利用人工社会的理论与方法构建可计算、可编程、可重构的软件定义对象. 采用多Agent 方法对系统建模, 通过定义Agent 之间的交互规则、组织规则和协同行为规则, 构建适用于不同交通场景的人工车联网子系统.
第2 步: 计算实验, 智能车辆网联管理与控制策略的试验与评估. 基于人工车联网设计各类Agent的数量组合策略及时序互动规则, 生成各种复杂的交通场景, 以计算的手段让车辆学习经验知识用于分析与评估.
第3 步: 平行执行, 车联网的智能引导管理与控制. 平行车联网综合考虑车内网、车际网、车路网以及社会网的平行, 实际车联网向平行车联网提供用于建立和优化人工车联网模型的状态参数, 人工车联网中的计算实验结果以虚实互动的平行执行方式反馈给实际车联网, 循环往复, 协同优化.
平行车联网以可计算、可实现、可比较的方式对复杂车联网系统不同层次和功能特性进行解析,为未来智能交通控制与管理提供新思路.
作为CPSS 系统中社会信号一部分的法律法规对于规范智能汽车的行为决策具有重要的意义. 目前, 针对无人驾驶车辆上路的法律法规尚不健全,为此, Intel 联合Mobileye 提出了责任– 敏感– 安全(Responsibility-Sensitive-Safety) 的RSS 模型[62]. 概括起来说, RSS 模型规定了车辆行驶过程中的路权以被给予而非争夺的方式取得. RSS 模型中将无人驾驶车辆看成是多智能体系统, 类似于人类驾驶, 事故情况下的权责是不等的, 这也适用于多智能体系统, RSS 模型以“定责” 的方式给车辆行驶定下规则,从而保证无人车成为紧急情况下事故参与者而非制造者. 对此以数学模型的方式给出了4 个常识为:
1) 与前方车辆保持安全距离, 对于紧急刹车及时作出判断; 同向行驶的车辆必须保持一定的刹车安全距离避免追尾发生, 安全距离依赖于反应时间t、最大加速加速度amax;accel, 最大刹车加速度amax; brake, 最小刹车加速度amin;brake 几个参数.
对于无人驾驶车辆与有人驾驶车辆混合的场景,机器人与人的反应时间t 是不一样的, 不同天气状况下的参数也是不一样的. RSS 模型同时给出了碰撞发生阈值时间, 并基于此决定碰撞责任该归咎于反应不够快的智能体系统.
2) 基于车辆动力学原理[63], 与侧面车辆保持安全距离, 在进行侧向并线时给侧向车辆留出足够反应时间;
3) 路权是被给予的, 而非争夺的; 在多几何结构的道路中往往涉及到路权分配的问题. 例如红绿灯路口不仅仅依照红灯停和绿灯行的规则, 智能体还需要考虑避免事故的因素.
4) 对于遮挡区域和行人保持足够警惕.在驾驶策略的选择上依然采用强化学习的方法,不同于传统的几何描述的动作空间, RSS 模型使用一种语义描述动作空间的方法, 来解决求解Q 函数时计算复杂的问题. 在语义动作空间使用类似“跟随超车, 从左侧超车” 等的语义指令代替向前开13 m后以0.8 m/s2 的加速度前进的数值指令, 语义指令在降低计算资源的基础上, 可以获得未来较长时间内行驶品质的比较精确的估计.
RSS 将人们对安全驾驶的概念转化为可验证的模型, 配备逻辑上可验证的规则, 定义恰当的响应行为, 以确保自动驾驶汽车做出安全决策, 并避免陷入由其他车辆导致的危险情况.
4 总结与展望
本文对基于Agent 的智能汽车控制进行总结. 单个智能汽车由于其具有感知、规划和决策能力, 而其本身软硬件平台是由多个复杂的模块构成, 非常适合使用Agent 技术对其进行建模, 用于处理类似多传感器数据融合等任务, 从而保证系统可靠工作, 降低能耗. 车与人、车与车、车与道路基础设施等构成的车联网系统, 则进一步扩大了Agent 技术的应用. 在通信的情况下, 智能车Agent 不再完全依赖与自身的环境感知系统, 而是可以在云端Agent 协同控制下与其他Agent 系统进行必要信息的共享. 基于Agent 的智能交通系统使得智能汽车Agent 拥有更多的环境信息, 能够更准确地对环境中的不确定性因素进行分析, 从而更好地、更安全地运行.
References
1 WEISS G. Multiagent systems: a modern approach to distributed artificial intelligence[M]. Cambrige: MIT Press, 2000.
2 CAMMARATA S J, MCARTHUR D, STEEB R. Strategies of coopera- tion in distributed problem solving[C]// Eighth International Joint Confer- ence on Artificial Intelligence. Morgan Kaufmann Publishers Inc, 1983.
3 CORKILL D D, LESSER V R. The use of meta-level control for coordi- nation in a distributed problem solving network[C]// Eighth International Joint Conference on Artificial Intelligence. Morgan Kaufmann Publishers Inc, 1983.
4 DURFEE E H. Coordination of distributed problem solvers[M]. Berlin: Springer Science & Business Media, 2012.
5 LEE C S G, SARIDIS G N. Hierarchically intelligent control and man- agement of traffic systems[J]. IFAC Proceedings Volumes, 1981, 14(2): 2395−2400.
6 WANG F Y, TANG S, SUI Y, et al. Toward intelligent transportation sys- tems for the 2008 Olympics[J]. IEEE Intelligent Systems, 2003, 18(6): 8−11.
7 DIAKAKI P, KOTSIALOS D, WANG. Review of road traffic control strategies[J]. Proceedings of the IEEE, 2004, 91(12): 2041−2042.
8 MIRCHANDANI P, WANG F Y. RHODES to intelligent transportation systems[J]. IEEE Intelligent Systems, 2005, 20(1): 10−15.
9 JENNINGS N R, SYCARA K, WOOLDRIDGE M. A roadmap of agent research and development[J]. Autonomous Agents and Multi-Agent Sys- tems, 1998, 1(1): 7−38.
10 WANG F Y, WANG C H. Agent-based control systems for operation and management of intelligent network-enabled devices[C]// IEEE Interna- tional Conference on Systems. IEEE, 2003.
11 MALESˇ L, RIBARIS′ . A model of extended BDI agent with autonomous entities(integrating autonomous entities within BDI agent)[C]// 2016 IEEE 8th International Conference on Intelligent Systems (IS). IEEE, 2016: 205−214.
12 WANG F Y. Agent-based control for networked traffic management sys- tems[J]. IEEE Intelligent Systems, 2005, 20(5): 92-96.
13 Wooldridge M J. An introduction to multi-agent systems.[J]. Wiley & Sons, 2009, 4(2): 125−128.
14 WATKINS C J C H, DAYAN P. Technical note: Q-learning[J]. Machine Learning, 1992, 8(3−4): 279−292.
15 ULBRICH S, RESCHKA A, RIEKEN J, et al. Towards a functional sys- tem architecture for automated vehicles[EB/OL]. (2017-03-30)[2019-06- 20]. https://arxiv.org/pdf/1703.08557.pdf.
16 GRIVAULT L, FALLAH-SEGHROUCHNI A E, GIRARD-CLAUDONR. Agent-based architecture for multi-sensors system deployed on air- borne platform[C]// IEEE International Conference on Agents. IEEE, 2017: 86−89.
17 陈无畏, 王檀彬, 焦俊, 等. 基于信息融合的多智能体混合体系智能车 辆导航 [J]. 农业机械学报, 2011, 42(6): 1−5.
18 AYACHE N, YAHYAOUY A, ABDODELOUAHED S M. An autonomous vehicular system based on muli-agents control: architecture and behavior simulation[C]//2017 Intelligent Systems and Computer Vi- sion (ISCV). IEEE, 2017: 1−7.
19 HIDAS P. Modelling vehicle interactions in microscopic simulation of merging and weaving[J]. Transportation Research Part C, 2005, 13(1): 37−62.
20 TREIBER M, HENNECKE A, HELBING D. Congested traffic states in empirical observations and microscopic simulations[J]. Physical Review E, 2000, 62(2): 1805−1824.
21 KESTING A, TREIBER M, HELBING D. General lane-changing model mobil for car-following models[J]. Transportation Research Record Jour- nal of the Transportation Research Board, 2007, 1999(1): 86−94.
22 HOEL C,WOLFF K, LAINE L, et al. Automated speed and lane change decision making using deep reinforcement learning[C]// International Conference on Intelligent Transportation Systems, 2018: 2148−2155.
23 MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529.
24 WANG P, CHAN C. Formulation of deep reinforcement learning archi- tecture toward autonomous driving for on-ramp merge[C]// International Conference on Intelligent Transportation Systems, 2017: 1−6.
25 GAO K, ZHANG Y, SADOLLAH A, et al. Optimizing urban traffic light scheduling problem using harmony search with ensemble of local search[J]. Applied Soft Computing, 2016, 48: 359−372.
26 SUMNER R L. Cell messaging process for an in-vehicle traffic congestion information system: U.S. patent 5, 182, 555[P]. 1993−01−26.
27 JIN Q, WU G, BORIBOONSOMSIN K, et al. Multi-agent intersection management for connected vehicles using an optimal scheduling ap- proach[C]. International Conference on Connected Vehicles and Expo, 2012: 185−190.
28 RIOS-TORRES J, MALIKOPOULOS A A. A survey on the coordina- tion of connected and automated vehicles at intersections and merging at highway on-ramps[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(5): 1066−1077.
29 LAMOUIK I, YAHYAOUY A, SABRI M A. Smart multi-agent traffic coordinator for autonomous vehicles at intersections[C]// International Conference on Advanced Technologies for Signal and Image Processing. IEEE, 2017: 1−6.
30 ROOZEMOND D A. Using intelligent agents for pro-active, real-time urban intersection control[J]. European Journal of Operational Research, 2001, 131(2): 293−301.
31 CHOY M C, SRINIVASAN D, CHEU R L. Cooperative, hybrid agent architecture for real-time traffic signal control[J]. IEEE Transactions on Systems, Man, and Cybernetics – Part A: Systems and Humans, 2003, 33(5): 597−607.
32 杨文臣, 张轮, Zhu Feng. 多智能体强化学习在城市交通网络信号控制 方法中的应用综述 [J]. 计算机应用研究, 2018, 35(6): 1613−1618.
33 CHEN L, HU X, TIAN W, et al. Parallel planning: a new motion planning framework for autonomous driving[J]. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 236−246.
34 BAZZAN A L. Opportunities for multiagent systems and multiagent re- inforcement learning in traffic control[J]. Autonomous Agents and Multi- Agent Systems, 2009, 18(3): 342.
35 HUBMANN C, BECKER M, ALTHOFF D, et al. Decision making for autonomous driving considering interaction and uncertain prediction of surrounding vehicles[C]// Intelligent Vehicles Symposium. IEEE, 2017: 1671−1678.
36 BROOKS R R, RAMANATHAN P, SAYEED A M. Distributed target classification and tracking in sensor networks[J]. Proceedings of the IEEE, 2003, 91(8): 1163−1171.
37 MANOOCHEHRI H E, WENKSTERN R Z. Dynamic coalition structure generation for autonomous connected vehicles[C]// IEEE International Conference on Agents. IEEE, 2017: 21−26.
38 MARJOVI A, VASIC M, LEMAITRE J, et al. Distributed graph-based convoy control for networked intelligent vehicles[C]// 2015 IEEE Intelli- gent Vehicles Symposium (IV). IEEE, 2015: 138−143.
39 IFTEKHAR L, OLFATI-SABER R. Autonomous driving for vehicular networks with nonlinear dynamics[C]// Intelligent Vehicles Symposium. IEEE, 2012: 723−729.
40 QIAN X, GREGOIRE J, MOUTARDE F, et al. Priority-based coordina- tion of autonomous and legacy vehicles at intersection[C]// 17th Inter- national IEEE Conference on Intelligent Transportation Systems (ITSC). IEEE, 2014: 1166−1171.
41 DE S V, WANG X, ALADAGLI D, et al. An agent-based modelling framework for driving policy learning in connected and autonomous vehicles[EB/OL].(2018-08-23)[2019-06-20]. https://arxiv.org/ftp/arxiv/papers/1709/1709.04622.pdf.
42 BENTO L C, PARAFITA R, NUNES U, et al. Inter-vehicle sensor fusion for accurate vehicle localization supported by V2V and V2I communica- tions[C]// International Conference on Intelligent Transportation Systems, 2012: 907−914.
43 TEO K T K, KOW W Y, CHIN Y K. Optimization of traffic flow within an urban traffic light intersection with genetic algorithm[C]// Second Interna- tional Conference on Computational Intelligence, Modelling and Simula- tion. IEEE, 2010: 172−177.
44 WAKITA Y, KURODA T, KITA E. Cellular automata simulation of traffic jam in sag section[C]// International Conference on Cellular Automata for Reseach and Industry. Springer-Verlag, 2008: 441−446.
45 YU A, PALEFSKY-SMITH R, BEDI R. Deep reinforcement learning for simulated autonomous vehicle control[J]. Course Project Reports: Winter, 2016: 1−7.
46 KASHIHARA K. Deep Q learning for traffic simulation in autonomous driving at a highway junction[C]// IEEE International Conference on Sys- tems, Man, and Cybernetics. IEEE, 2017.
47 GUERIAU M, BILLOT R, HASSAS S, et al. An extension of MovSim for multi-agent cooperative vehicles modeling[C]// International Conference on Connected Vehicles and Expo. IEEE, 2015: 859−860.
48 KRISTENSEN T, EZEORA N J. Simulation of intelligent traffic control for autonomous vehicles[C]// IEEE International Conference on Informa- tion and Automation. IEEE, 2017: 459−465.
49 BOURBAKIS N, FINDLER M. Smart cars as autonomous intelligent agents[C]// IEEE International Conference on TOOLS with Artificial In- telligence. IEEE Computer Society, 2001: 25.BARBOSA J, LEITA˜ O P. Simulation of multi-agent manufacturing sys- tems using gent-based modelling platforms[C]// IEEE International Con- ference on Industrial Informatics. IEEE, 2011: 477−482.
51 桂卫华, 刘晓颖. 基于人工智能方法的复杂过程故障诊断技术 [J]. 控 制工程, 2003, 9(4): 1−6.
52 王飞跃. 软件定义的系统与知识自动化: 从牛顿到默顿的平行升华[J]. 自动化学报, 2015, 41(1): 1−8.
53 曹银平. 车端感知云端管控 —— 慧拓智能发布 “第三代平行驾驶系 统”[J]. 自动化博览, 2018, 35(4): 18−19.
54 WANG F Y. Parallel control and management for intelligent transportation systems: concepts, architectures, and applications[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630−638.
55 王坤峰, 苟超, 王飞跃. 平行视觉: 基于 ACP 的智能视觉计算方法 [J].自动化学报, 2016, 42(10): 1490−1500.
56 孟样冰, 王蓉, 张梅, 等. 平行感知: ACP 理论在视觉 SLAM 技术中的 应用 [J]. 指挥与控制学报, 2017, 3(4): 350−358.
57 LI L, LIN Y L, CAO D P, et al. Parallel learning: a new framework for machine learning[J]. Acta Automatica Sinica, 2017, 43(1): 1−8.
58 刘志杰, 欧阳云呈, 宋宇骋, 等. 分布参数系统的平行控制: 从基于模 型的控制到数据驱动的智能控制 [J]. 指挥与控制学报, 2017, 3(3):177−185.
59 刘腾, 于会龙, 田滨, 等. 智能车的智能指挥与控制: 基本方法与系统 结构 [J]. 指挥与控制学报, 2018, 4(1): 22−31.
60 WANG F Y. Parallel control and management for intelligent transportation systems: concepts, architectures, and applications[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630−638.
61 王晓, 要婷婷, 韩双双, 等. 平行车联网: 基于 ACP 的智能车辆网联管 理与控制 [J]. 自动化学报, 2018, 44(8): 1391−1404.
62 SHALEV-SHWARTZ S , SHAMMAH S , SHASHUA A. On a formal
model of safe and scalable self-driving cars[EB/OL]. (2018-10-27)[2019- 06-20]. https://arxiv.org/pdf/1708.06374.pdf.
63 高洪波, 李升波, 谢国涛, 等. 智能汽车横向轨迹跟踪的离散时间模型 预测控制 [J]. 指挥与控制学报, 2018, 4(4): 297−305.
作者简介
沈 宇 (1992−), 男, 博士研究生, 主要研究方向为平 行驾驶、计算机视觉、平行场景流.
王 晓 (1988−), 女, 博士, 副研究员, 主要研究方向 为社会计算、社会网络结构分析及其内容挖掘、知识自动化.
韩双双 (1984−), 女, 博士, 助理研究员, 主要研究方向为平行网络、物联网、智能交通、无线通信关键技术.
陈 龙 (1985−), 男, 博士, 副教授, 主要研究方向为自动驾驶、机器人技术、人工智能.
王飞跃 (1961−), 男, 博士, 研究员, 主要研究方向为平行系统的方法与应用、社会计算、复杂系统、平行智能以及知识自动化. 本文通信作者. E-mail: feiyue.wang@ia.ac.cn
后记:本文2019年6月发表于《指挥与控制学报》第5卷第2期
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-26 00:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社