IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于强化学习的综合能源系统管理综述

已有 2191 次阅读 2022-7-17 18:11 |系统分类:博客资讯

引用本文

 

熊珞琳, 毛帅, 唐漾, 孟科, 董朝阳, 钱锋. 基于强化学习的综合能源系统管理综述. 自动化学报, 2021, 47(10): 23212340 doi: 10.16383/j.aas.c210166

Xiong Luo-Lin, Mao Shuai, Tang Yang, Meng Ke, Dong Zhao-Yang, Qian Feng. Reinforcement learning based integrated energy system management: A survey. Acta Automatica Sinica, 2021, 47(10): 23212340 doi: 10.16383/j.aas.c210166

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210166

 

关键词

 

强化学习,能源管理,电力系统,综合能源系统 

 

摘要

 

为了满足日益增长的能源需求并减少对环境的破坏, 节能成为全球经济和社会发展的一项长远战略方针, 加强能源管理能够提高能源利用效率、促进节能减排. 然而, 可再生能源和柔性负载的接入使得综合能源系统(Integrated energy system, IES)发展成为具有高度不确定性的复杂动态系统, 给现代化能源管理带来巨大的挑战. 强化学习(Reinforcement learning, RL)作为一种典型的交互试错型学习方法, 适用于求解具有不确定性的复杂动态系统优化问题, 因此在综合能源系统管理问题中得到广泛关注. 本文从模型和算法的层面系统地回顾了利用强化学习求解综合能源系统管理问题的现有研究成果, 并从多时间尺度特性、可解释性、迁移性和信息安全性4个方面提出展望.

 

文章导读

 

能源是人类社会生存和发展的重要物质基础, 社会的发展伴随着能源需求日益增长, 化石能源的大量使用带来环境污染、生态破坏和全球气候变暖等一系列问题[1-2]. 为了解决能源可持续供应以及环境污染等问题, 以电能为核心, 在源端整合了太阳能、风能、生物质能、海洋能、地热能等清洁可再生能源, 在终端实现热、电、冷联供的综合能源系统(Integrated energy system, IES)成为当今世界能源领域研究的热点[3]. 随着全球能源供应多元化和社会对各类能源需求的不断增加, 加强对综合能源的管理不仅能够提高能源利用率、减少对环境的破坏, 也能提升经济发展质量和效益[4]. 电能作为综合能源的核心, 是把握国家经济命脉的关键因素[3], 因此本文从系统层面将综合能源管理问题分为仅考虑单一电能的电力系统管理问题和考虑多种能源的综合能源系统管理问题.

 

综合能源系统的大规模区域互联使其逐渐发展成为大型高维系统, 间歇性可再生能源和包含电动汽车(Electric vehicle, EV)、分布式储能设备在内的柔性负载的接入增加了综合能源系统的复杂动态特性[5-6], 另外用户能源消耗行为的随机性、能源多样性和不同形式能源之间的耦合关系也给现代化能源管理带来了巨大的挑战[7-8]. 混合整数规划[9]、线性规划[10]、非线性规划[11]等传统优化算法往往依赖于精确的数学模型和参数, 考虑到综合能源系统是具有高度不确定性的复杂动态系统, 精确的模型构造十分困难, 因此传统优化算法在求解综合能源系统管理问题中的应用受到限制[12].

 

作为人工智能的一个重要分支, 强化学习(Reinforcement learning, RL)因其强大的自主学习能力, 获得了许多专家学者的关注[13-19]. 具体来讲, 强化学习不需要监督信号来直接指导学习, 只依赖于一个反馈回报信号, 对其试错过程进行评估, 间接指导智能体向反馈回报值最大的方向进行学习, 从而减少对精确的系统模型的依赖. 目前, 强化学习算法已广泛应用于机器人导航[13]、计算机游戏[14]、计算机视觉[15]和化学合成[16]等领域.

 

针对综合能源系统的高度不确定性, 传统优化方法需要对不确定因素提前预测[20]并利用动态场景生成方法对环境进行估计, 进一步建立能源系统动态模型. 这类方法不仅计算量大, 而且优化结果极大程度上取决于不确定因素预测和动态场景生成的准确度, 当预测结果偏差较大时, 即使性能优良的求解算法也无法得到最优解[21]. 然而在强化学习方法中, 智能体可以在不同的系统状态下尝试不同的动作, 并从奖励回报中学习知识以获得最优策略, 智能体与环境交互的整个过程可以不依赖于详细精确的模型信息, 因此所得策略的性能也不受制于预测结果的精度[22].

 

针对综合能源系统的变量高维度特性, 强化学习可以采用多层马尔科夫决策过程(Markov decision process, MDP)模型进行分层优化. 在面对一些具有连续动作和状态空间的问题时, 强化学习还可以与具有出色数据处理能力的深度学习相结合构成深度强化学习算法(Deep reinforcement learning, DRL), 进而求解得到具有高维变量的综合能源系统的最优管理策略[23], 并且该方法相较于传统优化方法在实际生活场景下更容易实现[21].

 

基于强化学习的无模型依赖性、变量复杂性的优点, 许多专家学者致力于利用强化学习算法来处理综合能源系统管理问题, 并取得了一系列研究成果[17-19]. 同时一些学者基于这些研究作了相关综述, 例如文献[24]从拓扑结构、优化目标、时间尺度、调度优化结构等方面综述了互联微电网的能源管理方案; 文献[25]基于大功耗家庭供暖通风空调控制系统(Heating, ventilation, and air conditioning, HVAC)、智能家庭、智能商业和住宅建筑这三个系统的能源管理问题, 综述了利用深度强化学习算法求解的能源管理方案; 文献[26]系统地总结了强化学习、深度强化学习和多智能体强化学习分别在电力和能源系统中的应用.

 

本文在现有研究成果和相关综述的基础上, 从模型和算法两个方面系统回顾了基于强化学习的综合能源系统管理问题. 在模型方面, 将单一电能从综合能源中提出来单独讨论, 把综合能源管理问题分为电力系统和综合能源系统管理问题, 在电力系统管理中依次讨论了微电网、智能家庭以及公共电动汽车这三个关注度较高的电能优化管理问题, 即互联微电网电能调度、智能家庭用电管理和电动汽车充放电规划. 在算法方面, 主要分析各类问题中用到的不同强化学习算法并对比其性能1是本文的结构框架及主要内容. 1节主要介绍强化学习算法的定义、分类及面临的挑战和解决方法; 2节主要总结了强化学习算法在电力系统优化管理中的应用; 3节聚焦于多种异质能源协调优化、互补互济的综合能源系统中, 分别介绍了综合能源系统优化管理模型和利用强化学习算法求解得到的综合能源系统管理方案; 4节对综合能源系统管理问题面临的挑战进行展望, 并结合强化学习方法提出相应的潜在解决方案; 5节对本文工作进行简单总结.

 1  结构及主要内容

 2  微电网管理方案

 

本文综述了基于强化学习的综合能源系统管理优化研究. 首先从模型角度将综合能源系统管理问题分为对单一电能的管理和对综合能源的管理. 在电能管理问题中, 分别从微电网、智能家庭和电动汽车三个方面进行阐述, 总结发现相较于传统优化求解方法, 强化学习在解决没有先验知识且具有多重不确定性的优化问题中具有突出表现. 当多种能源通过耦合技术相互转换、相互连接形成综合能源系统之后, 由于变量之间相互耦合, 不同种类的能源具有不同的特性使得场景变得更加复杂. 此时在对比传统求解算法的基础上, 对已有的基于强化学习的相关文献进行分析, 结果表明强化学习在求解综合能源系统管理问题时具有卓越性能. 最后本文对综合能源系统管理问题进行展望, 得益于人工智能的发展, 利用深度强化学习算法能够处理具有高维变量的复杂动态系统优化问题. 未来能源管理中多时间尺度特性、可解释性、迁移性和信息安全性的问题将得到人们越来越多的重视, 相应的多时间尺度优化、机理知识与数据驱动相融合的方法以及迁移学习、元学习等算法也将与强化学习算法相结合, 用于综合能源系统管理优化问题.

 

作者简介

 

熊珞琳

华东理工大学信息科学与工程学院博士研究生. 主要研究方向为强化学习, 智能电网. E-mail: Y11200038@mail.ecust.edu.cn

 

毛帅

华东理工大学信息科学与工程学院博士研究生. 主要研究方向为多智能体系统, 分布式优化. E-mail: mshecust@163.com

 

唐漾

博士, 华东理工大学教授. 主要研究方向为分布式估计/控制/优化, 信息物理融合系统, 混杂动力系统, 计算机视觉和强化学习. E-mail: yangtang@ecust.edu.cn

 

孟科

博士, 澳大利亚新南威尔士大学电气工程与电信学院高级讲师. 主要研究方向为电力系统建模, 稳定性分析, 可再生能源系统和电网集成. E-mail: kemeng@ieee.org

 

董朝阳

博士, 澳大利亚新南威尔士大学电气工程与电信学院能源系统教授. 主要研究方向为智能电网, 电力系统规划, 电力系统安全, 负荷建模, 电力市场和计算智能及其在电力工程中的应用. E-mail: zydong@ieee.org

 

钱锋

博士, 中国工程院院士, 华东理工大学副校长. 主要研究方向为化工过程资源与能源高效利用的流程制造智能控制, 系统集成优化理论方法与关键技术研究. 本文通信作者. E-mail: fqian@ecust.edu.cn



https://blog.sciencenet.cn/blog-3291369-1347644.html

上一篇:噪声环境下基于蒲丰距离的依概率多峰优化算法
下一篇:基于深度学习的单幅图像超分辨率重建算法综述
收藏 IP: 222.131.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 08:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部