SU S, ZHU Q Y, WEI Q L, et al. A DQN-based approach for energy-efficient train driving control[J]. CHINESE JOURNAL OF INTELLIGENT SCIENCE AND TECHNOLOGY, 2020, 2(4): 372-384.
第一类方法是基于列车最优控制模型的数值解法。Ichikawa K将列车的基本运行阻力线性化,并忽略线路的坡度阻力和限速,提出了列车的基本节能控制模型。他使用庞特里亚金极大值原理(Pontryagin maximum principle,PMP)对模型进行求解,得出列车的节能驾驶工况由最大加速(maximum acceleration,MA)、巡航(cruising, CR)、惰行(coasting,C)和最大制动(maximum braking,MB)组成的结论。Howlett P在平坦线路和固定限速的条件下,使用 PMP 证明了列车的节能驾驶策略由MA、CR、C和MB这4种工况组成。在此基础上,Howlett P考虑了在不同坡度、不同限速的线路条件下,列车采用离散控制档位的节能驾驶问题,给出了使列车牵引能耗最小的关键方程,并以此为依据计算不同驾驶工况的转换点。Liu R R等人利用PMP确定了列车的节能驾驶工况,同时基于汉密尔顿函数的连续性提出了一种计算工况转换点的数值计算方法。实验表明,该方法既可以优化单站间的列车节能驾驶控制策略,也可以优化多站间的运行时分分配,进而优化时刻表。Khmelnitsky E使用PMP计算出连续坡度和限速的线路条件下列车最优的驾驶工况,并设计了一种迭代算法计算最优工况转换点。同时,他发现列车的运行时分越短,其巡航速度越大,并从理论上证明了巡航速度与节能驾驶策略之间的关系。曲健伟等人对基于 PMP 的驾驶策略求解方法进行了简化,引入连接函数和连接误差对C工况的连接效果进行表征,并基于最优工况切换条件,提出了给定目标牵引恒速条件下求解最优C连接段的数值算法。Aradi S 等人提出了一种预测优化模型,即在考虑当前位置的工况时,引入对未来一定距离内驾驶策略的预测,并使用逐次二次规划方法求解该模型。Wang Y H等人在确定最优驾驶策略的同时考虑了列车的能耗和舒适度,提出了伪谱法和混合整数线性规划方法两种求解列车最优驾驶策略的方法。很多学者在优化单车控制策略的同时还引入了再生制动,进一步降低了能耗。Scheepmaker G M等人在列车的节能控制模型中考虑了再生制动,利用 PMP 计算出节能驾驶工况,并通过高斯伪谱方法求解不同工况的转换点。经过实际线路测试发现,引入再生制动后,列车的巡航速度下降,惰行点后移,高速驾驶时会更早使用制动工况以获得更多的再生能。Albrecht A等人在考虑再生制动的基础上提出适用于连续坡度和限速的线路条件的列车节能控制模型,并指出应该在陡下坡时使用 RB 工况,以此让列车以固定的速度保持巡航的状态。
第二类方法是基于启发式搜索的方法。Morris B等人采用遗传算法求解列车的节能驾驶曲线,该方法的目标函数包含了列车能耗和针对晚点的惩罚因子,同时考虑了列车节能和准时性。仿真结果表明,使用该方法可以节约 32.89%的牵引能耗。Domnguez M等人设计了一种计算机辅助选择最优驾驶策略的方法,他根据列车自动控制(automatic train operation,ATO)系统的控制性能、线路信息、车辆性能等参数构造一系列可行的驾驶策略,并使用帕累托寻优法选择满足规定运行时分且能耗最小、舒适度最优的驾驶策略。这种方法还可以扩展到考虑再生制动的场景中,从而优化列车时刻表。Zhang C Y等人开发了基于数据驱动的列车驾驶(data-driven train operation,DTO)模型,该模型将数据挖掘方法与专家知识结合起来,利用专家知识获得更优的驾驶策略,并设计了启发式停车算法,以保证列车停车精度。Liu X等人在考虑线路信息和调度条件的基础上,以列车牵引能耗和准时性为优化指标,建立了列车优化控制模型,并采用布谷鸟搜索算法对模型进行求解。Cheng R J等人开发了一种基于数据挖掘技术的高速列车自动驾驶系统。该方法首先对采集的高速列车驾驶数据进行分类和筛选,其次使用分类与回归树提取驾驶数据中的专家经验,进而控制列车输出相应的控制工况。仿真实验表明,该方法求得的驾驶策略的能耗降低了7.3%。厉高等人通过分析列车节能最优控制的工况集,将列车运行区间分段,进而使用时间逼近的搜索方法对列车工况转换点的坐标进行求解,然后对不同区段的列车惰行时间进行分配,得到最优控制方法。
随着人工智能技术的不断进步,机器学习的相关算法也被引入列车节能驾驶问题中。Huang Y N等人针对长陡下坡中的重载列车安全驾驶问题,提出了使用神经网络计算列车驾驶曲线的方法。他们使用专家司机的驾驶数据对网络进行训练,并使用训练后的神经网络控制重载列车的循环制动,保证了制动过程的安全性和稳定性。Yin J T等人提出了一种基于强化学习的智能列车驾驶方法,首先定义了列车节能驾驶场景下的状态、动作和奖励,并基于贝尔曼方程和ε-贪婪策略确定不同状态的值函数及其更新方式。该方法可以在线实时获得驾驶策略,比离线优化方式减少了10%的能耗。Zhou R等人使用actor-critic方法在线求解列车的节能驾驶策略。他使用两个神经网络分别输出控制工况和评估各状态下的值函数,并使用深度确定性梯度下降法对两个网络进行参数更新,进而同时得到最优策略和最优值函数。Huang K等人提出了一种基于数据驱动的列车驾驶策略优化模型,基于列车的实际运行数据,使用随机森林回归(random forest regression,RFR)算法离线规划最优驾驶策略,使用支持向量机(support vector machine,SVM)实时调整列车运行速度,并计算牵引能耗。通过案例分析得知,该算法比普通的节能驾驶算法平均可以减少2.84%的能耗。Huang J等人提出了一种BLSTM-DDQN方法进行驾驶策略优化。他使用双向长短期记忆(bidirectional long short term memory,BLSTM)网络,从与时间相关的运行信息中提炼列车的前向和反向运行特征,利用自动编码器提炼列车的性质;利用双重深度Q网络(double deep Q network,DDQN)优化列车的驾驶策略。Zhou K C等人结合数据挖掘技术和强化学习方法,以专家司机的驾驶经验为训练数据,提出了基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)方法的智能列车驾驶(smart train operation based on DDPG,STOD)方法和基于归一化优势函数的智能列车驾驶(smart train operation based on normalized advantage function,STON)方法两种方法,将它们应用于连续状态和动作空间下的多目标列车驾驶优化问题。实验表明,与人工驾驶相比, STOD方法和STON方法可分别节约9.4%和11.7%的能耗。Qi X W等人针对现有的列车能耗管理系统无法适用于变化的线路条件,缺乏自适应性的问题,提出使用深度Q网络学习方法,在列车与环境的交互过程中自主学习最优的能耗管理策略,以降低列车的运营能耗。实验表明,该方法可以节约16.3%的牵引能耗。张淼等人综合考虑线路和列车等约束条件,建立了基于Q学习算法的列车节能优化模型。该模型中,状态为列车的位置和速度,值函数为准时性和能耗的加权叠加。实验结果表明,与传统动态规划方法相比,该方法得到的驾驶策略减少了8.8%的牵引能耗。
3.列车节能驾驶控制模型
3.1 问题描述
在列车节能驾驶问题中,优化目标为最小化指定区间的能耗,因此目标函数如式(1)所示:
其中,uf(x)指列车在位置 x 处输出的相对牵引力,用来衡量牵引力的输出级位;F(v)指在列车运行速度v下输出的最大牵引力;μ(uf, v)指列车在输出的相对牵引力为uf、运行速度为 v 时从电网吸收电能的传递效率;S指待优化区间的终点位置。 除此之外,在列车运行过程中,还要考虑以下限制条件。首先,列车在起点、终点的速度为0,同时为保证列车在运行过程中不触发紧急制动,列车的速度不能超过线路的限速;其次,列车输出的牵引力或制动力不得超过列车牵引、制动装置所能提供的最大牵引力或制动力;最后,电网传递的电能无法全部转化为列车的机械能,因此电网的传递效率取值必须满足相应的边界约束。这些限制条件如式(2)所示:
其中,v0、vT分别表示列车的初速度、末速度,V(x)表示线路在位置x处的限速值,ub表示相对制动力,用来衡量制动力的输出级位,μmin、μmax 分别表示能量传递效率的上界、下界。 根据PMP,可以将以上目标函数与限制条件转化成一个汉密尔顿函数,该函数与uf和ub有关: 其中,H表示汉密尔顿函数,F表示列车的牵引力, B 表示列车的制动力,R 表示列车的基本阻力,G表示列车受到的坡度阻力,m表示列车的质量,L1、L2表示松弛因子。 依据式(3)中松弛项的不同取值,可以得到5种对应的工况,见表1。