基于深度强化学习的智能暖气温度控制系统
1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190
【摘 要】 研究如何通过暖气设备自适应地调节室温,提升室内环境的舒适度,具有非常重要的意义。因此,提出了基于双深度Q网络方法的智能暖气温度控制系统,根据人的表情信息控制暖气设备的阀门开度,实时调整室温。首先,介绍针对原始输入状态的预处理算法。然后,设计通过双深度Q网络方法学习控制暖气设备阀门开度的最佳策略。最后,通过仿真结果验证提出的方法的有效性。 【关键词】 深度强化学习 ; 暖气设备 ; 温度控制 ; 疲劳检测 ; 图像处理
李涛, 魏庆来. 基于深度强化学习的智能暖气温度控制系统[J]. 智能科学与技术学报, 2020, 2(4): 348-353.
LI T, WEI Q L. Intelligent heating temperature control system based on deep reinforcement learning[J]. Chinese Journal of Intelligent Science and Technology , 2020, 2(4): 348-353.
随着我国经济、科技水平的不断提高,越来越多的人开始追求更加舒适的居住、工作环境。在影响环境舒适度的众多因素中,温度是非常重要的因素之一。相关研究表明,过高或过低的温度都会使人感到不舒适,降低人的工作效率。暖气设备是常见的室温调节装置。研究如何根据室内人员的需求通过暖气设备自动地调节室温,对于提升室内环境的舒适度具有非常重要的意义。 传统的通过暖气设备控制室温的方法包括比例-积分-微分控制、动态矩阵预测控制以及模糊控制等。在传统的控制方法中,室温的设定值通常是预先设定的固定值,控制器需要调节暖气设备,使得室温尽可能稳定在设定值附近。然而,相关研究表明,稳定的室温无法有效提升人的工作效率,甚至会降低人的工作效率。因此,本文抛弃了常规的固定室温设定值的控制思路,直接以消除人的困倦为控制目标,根据人的状态实时调整室温。本文设计了一种将人的表情作为输入的自学习控制器。这种自学习控制器能够根据人的表情自主学习到合适的控制策略,通过调整暖气设备的阀门开度控制室温,从而尽可能地消除室内人员的疲劳,提升室内人员的工作效率。 户外天气情况的变化和室内人员的自由活动使得房屋的热模型具有很强的不确定性。这导致在实际应用时基于模型的控制方法往往无法取得良好的效果。因此,许多研究者使用无模型的学习算法,尤其是强化学习方法来研究室温控制问题。在参考文献 中,Barrett E使用贝叶斯学习方法预测室内人员的活动情况,使用Q学习方法学习控制策略。Barrett E使用Bang-Bang控制方法控制加热设备,控制器的输入状态包括室温、时间和天气等。显然,由于传统强化学习算法的限制,控制器的输入状态只能是人们已经提取好的环境信息,无法直接从高维信息中自动学习到控制需要的特征。 近年来,深度学习取得了巨大进展,深度强化学习也得到了越来越多的关注。在参考文献 中,Wei T S采用深度Q网络方法学习控制策略,控制器的输入状态包括时间、室温以及室外环境的干扰。尽管参考文献 使用了深度神经网络,但是仍然使用人们已经提取好的环境特征作为控制器的输入,没有发挥深度神经网络自动提取特征的能力。在参考文献 中,Wei Q L等人使用深度Q网络方法,将人的表情和空调温度设定值作为控制器输入,通过控制空调设备调节室温。然而,参考文献 中的空调设备并不同于本文所要研究的暖气设备。第一,空调制热会造成室内空气干燥,降低人的舒适度;而暖气设备由下向上加热室内空气,使热空气分布更均匀,人感觉较舒适,因此暖气设备比空调更有利于提升人的舒适度。第二,空调通常具有自动调温功能,只需给定温度设定值,空调即可自动地将房间温度调整到设定值附近,完成闭环控制;而大多暖气设备并不具有自动调温功能,只能通过控制暖气设备的阀门开度控制暖气设备向房间中输入的热量,间接调节室温,进行开环控制。基于这两方面的不同,有必要研究基于深度强化学习的智能暖气控制方案。 本文以消除人的疲劳、提升人的工作效率为直接目标,将人的表情作为控制器的输入状态,使用双深度Q网络方法,通过暖气设备控制室温。接下来,本文将依次介绍总体方案设计、仿真环境与实验结果。
本文提出了一种基于深度强化学习方法,将人的表情作为输入状态,以消除人的困意为直接目标的自适应暖气设备调温系统。通过使用双深度Q网络方法,智能体能够直接从图像中学习到控制策略。仿真结果表明,智能体在充分学习后能够控制暖气设备自适应地将室温调整到最合适的温度。 在未来的工作中,笔者将使用预训练好的卷积神经网络作为Q网络的初值,从而避免从头训练Q网络,减小训练耗时。 作者简介 About authors
李涛(1996-),男,中国科学院自动化研究所复杂系统管理与控制国家重点实验室博士生,主要研究方向为深度强化学习、自适应动态规划、最优控制。。
魏庆来(1979-),男,博士,中国科学院自动化研究所研究员,复杂系统管理与控制国家重点实验室副主任,中国科学院大学岗位教授,青岛智能产业技术研究院智能技术创新中心主任,主要研究方向为自学习控制、平行控制、自适应动态规划、智能控制、最优控制及其工业应用。
转载本文请联系原作者获取授权,同时请注明本文来自王晓科学网博客。 链接地址: https://blog.sciencenet.cn/blog-951291-1281710.html
上一篇:
[转载]面向数据中心绿色可靠运行的强化学习方法 下一篇:
[转载]基于深度强化学习算法的自主式水下航行器深度控制