||
基于改进bin算法的风电机组风速-功率数据清洗
王新, 王政霞
摘要 风速-功率是风电机组发电性能的重要指标,对风电场的运行管理具有重要意义。风速-功率数据是通过安装在风电场的监视控制与数据采集(SCADA)系统采集得到的,原始数据存在大量噪声,给后续应用研究带来了很大的挑战。基于风速-功率数据的空间分布特征,将风速-功率数据分为3类,并改进了数据预处理方法bin算法,提出了基于分区域(dbin)算法的异常数据识别清洗方法及流程。实验结果表明,dbin算法识别异常数据的效率比传统算法更高,具有较强的通用性。
关键词: 风电机组 ; 风速功率 ; dbin ; 监视控制与数据采集
引用格式 王新, 王政霞.基于改进bin算法的风电机组风速-功率数据清洗. 智能科学与技术学报[J], 2020, 2(1): 62-71
WANG Xin, WANG Zhengxia
Abstract Wind power is an important indicator of the generating performance of wind turbines,which is of great significance to the operation and management of wind farms.The wind-speed and power data were collected through the monitoring and control (SCADA) system installed in the wind farm.There are a lot of noises in the original data,which brings great challenges to the subsequent application research.Based on the spatial distribution characteristics of wind-speed and power data,wind-speed and power data was divided into three categories,the data preprocessing method bin algorithm was improved,and the method and process of abnormal data identification and cleaning based on district bin(dbin) algorithm were proposed.The experimental results show that the dbin algorithm proposed in this paper is more efficient than the traditional algorithm in identifying abnormal data,and has strong universality.
Keywords wind turbines ; wind-speed and power ; dbin ; supervisory control and data acquisition
Ctiation WANG Xin.Wind speed-power data cleaning of wind turbine based on improved bin algorithm. Chinese Journal of Intelligent Science and Technology[J], 2020, 2(1): 62-71
1 引言
随着社会经济的不断发展,传统能源的短缺问题已成为制约当今社会经济发展的首要问题。风能作为可再生的清洁能源,储量巨大、分布广泛,且开发利用成本较低,是可再生能源中最具开发前景的一种能源[1]。风能作为一种成熟的技术,在过去的几十年中得到了快速的发展。但是在风力发电过程中,风具有高度随机性和波动性,风速-功率也会变化,这对电力系统有一定的影响。通过风力发电机组输出功率和风速得到的风速-功率曲线可以对风电机组的发电性能做出有效的评估,同时,风速-功率曲线也是预测风电场风速-功率的重要指标[2]。通常,风电机组运行的风速-功率数据是通过安装在风电场的监视控制与数据采集(supervisory control and data acquisition,SCADA)系统采集得到的,但是,SCADA系统采集到的运行数据中存在大量的异常数据。产生异常数据的原因主要有3种。一是风机多位于风能资源丰富的区域,其运行环境较为恶劣[3],例如戈壁、荒野、高山等都会对风机造成一定的影响,导致传感器易产生故障,风电机组因检修故障计划停机也可能造成测量数据偏离正常值。二是由于SCADA系统的控制终端与风电场距离较远,数据传输过程中会产生噪声及外界电磁干扰,使运行数据产生异常。三是弃风限电[4]现象,弃风限电是当地电网接纳能力不足和风电不稳定等导致的部分风机暂停的现象。弃风限电会导致风电机组的输出功率长期维持在一个较低的水平,即使风速超过额定风速,输出功率也会低于额定功率,这就会造成原始数据中存在大量的异常数据,这些异常数据会直接影响预测模型的建模精度。因此,为了提高运行数据的数据质量,有必要对SCADA系统采集到的运行数据进行数据清洗[5],以提高运行数据的质量。
风电机组风速-功率数据清洗是风电机组异常运行数据识别与清洗中的研究热点,其中,将风电机组风速-功率数据清洗分为 3 类。第一类是基于数理统计的清洗方法(如密度、距离、中位数、方差、平均值等),但该类方法对分布密集的异常数据的识别效果有限,例如文献[6]采用四分位法对异常数据进行处理,但是在风电数据中异常数据所占比重较大,四分位法会去除大量正常数据;文献[7]采用四分位法与聚类分析法剔除异常数据,但没有给出具体的剔除标准,可能会导致正常数据被误删,对数据处理结果影响较大;文献[8]利用局部离群因子(local outlier factor,LOF)算法来检测异常值,该算法根据风速-功率曲线,计算曲线附近的相对密度,去除异常点。第二类是基于数据挖掘的方法,即在大量的数据中通过无监督的学习方法辨识特征表现异常的数据,用于数据分析处理,该类方法不需要事先建立一个模型,具有较好的抗干扰性,例如文献[9]采用LOF和支持向量机相结合的方法,通过LOF值固定异常范围,然后利用支持向量机建立判别机制,从而判定异常值,有效地避免了基于距离聚类方法的异常值淹没现象。文献[10]用最优方差算法实现了分散型异常数据的有效识别,但不能有效识别密度较高的堆积型异常数据。第三类方法基于数据的分布特征,该类方法的依据是位于风速-功率曲线之外的数据为异常数据,可实现多类型异常数据的清洗,例如在假定风速-功率的概率密度误差服从正态分布的基础上,文献[11]提出了基于“3σ法则”的判定方法来检测异常值,即位于[0,3σ]之外的误差为异常误差,位于[0,3σ]之内的误差为正常误差,从而达到数据清洗的目的。但是风速-功率的概率密度往往为多峰,精度不高。文献[12]利用成熟预测算法获取残差的误差信息,对误差概率密度特性进行了综合分析,并确定异常信息。文献[13]提出了一种不需要求取概率密度分布函数的四分位算法,避免了拟合概率密度的复杂过程。
综上所述,基于数理统计和数据挖掘的方法对分布密集的异常数据的识别效果有限,且需要大量正常数据作为样本,普适性较差。本文提出的dbin方法根据异常数据的位置,将位于风速-功率曲线之外的数据作为异常数据,可实现多类型异常数据的清洗,而且不需要数据样本来训练,通用性强。
风速-功率曲线的建立需要风速-功率的历史数据,而风电机组标准的风速-功率曲线是由风电机厂商依据GB/T 18451.2-2012《风力发电机组 功率特性测试》绘制的。其中规定,标准空气密度为1.225 kg/m3,评估方法按照10 min内的统计平均值进行评估,即计算风电机组正常运行的每个10 min时间段内的平均风速、平均功率。某额定功率为2.1 mW、切入风速为3 m/s、额定风速为11 m/s、切出风速为22 m/s的风电机组的标准风速-功率曲线如图1所示。
图1 2.1 mW风电机组的标准风速-功率曲线
在风速达到切入风速时,机组开始产生并输出功率;随着风速增加,输出功率也逐渐增加;风速达到额定风速时,机组输出功率达到额定值2.1 mW;当风速超过额定风速时,通过变桨控制可使输出功率稳定在限定值(即额定功率2.1 mW)。
从风电场采集到的数据中通常包含大量异常数据,这些异常数据会直接影响预测模型的建模精度,对风速-功率预测有一定的影响。按照数据点在标准风速-功率曲线上的分布特征,异常数据可分为3类:第一类为曲线底部连续时间内风速很大但功率为零的数据;第二类为曲线中部风速很大、功率很小或小于额定功率的数据,即弃风数据或故障数据;第三类为风速很小但功率很大的数据。这里选取国内某风场风电机组的运行数据进行验证,该风场风机的基本参数为:切入风速 3 m/s,切出风速22 m/s,额定功率2 100 kW,额定风速11 m/s。这里选取异常数据分布比较典型的1号、2号、3号风机连续12个月的数据。1号风机的各类异常数据的分布如图2所示。
图2 1号风机风速ԟ功率异常数据特征分布
第一类异常数据在风速-功率曲线中表现为风速很大、功率为零。此类异常数据产生的原因是传感器故障或风电机组因检修故障计划停机。在这种情况下,风力发电机的输出为零,但风机的检测系统仍需要工作,故而会产生负功率的数据[14]。
第二类异常数据在风速-功率曲线中表现为一条或多条位于风速-功率曲线下界的横向密集数据带和密度较低的无规律散点。弃风限电和信号噪声、环境因素、极端天气是此类数据产生的主要原因,在风电场的实际运行过程中,由于目前电力系统的调峰调频能力和输电能力不足,强制弃风已成为常态[15],这就使得风电机组的输出功率低于正常输出功率,在图2中表现为一条或多条横向密集数据带。
第三类异常数据为风速很小但功率很大的数据,在风速-功率曲线中表现为多条功率曲线上界之外的横向密集数据带,产生的原因是风速传感器失灵或通信错误[16]。
bin 算法[17]用于对监测数据进行平滑处理,其基本原理是:在切入风速(Vmin)与切出风速(Vmax)之间划出若干个风速区间,将所有数据点按照其风速大小归入各个风速区间,然后对各区间内的数据点进行统计分析,得出各个监测参数的统计值,最终以这些风速区间内监测参数的统计值代替原始数据进行后续的数据分析工作。1 号风机数据拟合结果如图3所示。
图3 1号风机 bin方法拟合风速-功率曲线
bin算法如下。
算法1 bin算法
3.2 district bin算法
bin算法使用期望值描述单个SCADA数据,减少了 SCADA 数据中由“异常值”引起的统计误差,实现了数据规约、数据平滑和异常值剔除。然而,bin算法没有考虑到在风速位于额定风速与切出风速之间时功率保持不变的情况。使用 bin算法会导致风功率为额定功率时出现拟合不准的现象(如图3所示)。本文在bin的基础上进行改进,提出了使用分区域(district bin)算法(即dbin算法)进行划区域计算,这样能有效避免风速-功率曲线在额定功率时出现拟合不准的现象(如图4所示)。dbin算法的基本原理是:在切入风速(Vmin)、额定风速(Vr)、切出风速(Vmax)之间划出N1=[Vmin,Vr]和N2=[Vr,Vmax]两个风速区间,将所有数据点按照其风速大小归入这两个风速区间,然后仍使用bin算法对N1风速区间内的数据进行统计分析,基于式(1)和式(2)对 N2 风速区间内的数据进行统计分析,得出各个监测参数的统计值,最终以这些风速区间内监测参数的统计值代替原始数据进行后续的数据分析工作。dbin 算法保留了 bin 算法实现的数据规约、数据平滑和异常值剔除的优点,同时能够有效地避免风功率为额定功率时出现拟合不准的现象。1 号风机数据拟合结果如图4所示。
图4 1号风机 dbin方法拟合风速-功率曲线
3.3 数据清洗流程
第3.2节的结果表明,dbin算法可对风电机组的风速-功率曲线进行有效的拟合,拟合结果更契合厂商给出的标准风速-功率曲线,这为后面的数据清洗提供了理论依据。通过分析风电机组的实际风速-功率曲线发现,风速-功率运行数据中第二类堆积型异常数据居多。因此,在进行数据清洗时,首先要基于限电功率对原始异常数据进行清洗,去除大部分第二类堆积型异常数据,继而采用dbin算法对数据进行训练,拟合参考功率曲线。将功率曲线拉直,横坐标仍为实际运行的风速,纵坐标为实际的运行功率与在参考功率曲线中对应的参考功率的差值,实际运行功率越接近参考功率,这个差值越小。根据风机运行数据统计差值分布的标准差σ,位于3σ内的数据为正常数据,否则为异常数据,从而达到清洗原始数据的目的。具体的数据清洗流程如图5所示。
选取国内某风场风电机组的运行数据进行验证,该风场风电机组的基本参数为:切入风速3 m/s,切出风速22 m/s,额定功率2 100 kW,额定风速11 m/s。这里选取异常数据分布比较典型的1号、2号、3号风机连续12个月的数据来进行验证。由图6(a)~图6(c)可知,1号、2号、3号风机连续12个月的原始数据中存在大量的第二类异常数据。基于历史数据中的限电数据对原始数据进行初步预处理,得到对应的高质量数据集,但仍存在大量的异常数据,如图6(d)~图6(f)所示。
图5 数据清洗流程
根据风机设计的标准设计风速-功率曲线,风机的运行数据分布在设计曲线两侧。继而分别采用dbin算法、bin算法、支持向量回归(support vector regression,SVR)算法、反向传播(back propagation, BP)算法对数据进行训练,并拟合参考功率曲线,由图7,图8,图9可以看出,dbin算法的拟合曲线最贴近标准风速-功率曲线。
图6 风机风速-功率数据集
(1)1号风机风速-功率曲线拟合
图7 1号风机风速-功率曲线拟合
(2)2号风机风速-功率曲线拟合
图8 2号风机风速-功率曲线拟合
(3)3号风机风速-功率曲线拟合
图9 3号风机风速-功率曲线拟合
将功率曲线拉直,横坐标仍为实际运行的风速,纵坐标为实际的运行功率与在参考功率曲线中对应的参考功率的差值,实际运行功率越接近参考功率曲线,这个差值越小。根据风机运行数据统计差值分布的标准差σ,位于3σ内的数据为正常数据,其余为异常数据。由图10 可知,bin算法中大部分数据位于3σ之外,不能进行有效地数据清洗;BP算法中,预测的数据明显小于实际风速,不符合预测标准;SVR算法能够较好地进行预测且数据位于3σ之内,但其得到的预测值误差范围波动较大,不易于进行数据清洗;dbin 算法中大部分数据位于3σ之内,能够有效地对数据进行清洗。
图11,图12,图13分别为dbin算法、bin算法、SVR算法、BP算法对3个机组异常数据的清洗结果,其中蓝色为各风机原始数据,红色为处理后的正常数据。如图11,图12,图13 所示,dbin 算法能够对提出的 3 类异常数据进行有效清洗,清洗后的数据符合标准风速-功率曲线的分布特点;bin算法也能够对提出的 3类异常数据进行有效的清洗,但 bin 算法也会对正常数据进行清洗,不符合标准风速-功率曲线分布特点;BP算法和SVR算法对第二类异常数据的识别效果不佳,不能达到数据清洗的目的。
图10 1号风机参考功率与实际功率差值分布
(1)1号风机数据清洗
图11 1号风机数据清洗结果
(2)2号风机数据清洗
图12 2号风机数据清洗结果
(3)3号风机数据清洗
图13 3号风机数据清洗结果
表1记录了dbin算法、bin算法、SVR算法、BP算法对3个机组的数据删除率和清洗效率。bin算法能够去除异常数据,但风功率为额定功率时出现拟合不准的现象,会导致正常数据被删除,且其数据删除率达到了75.4%;BP算法和SVR算法对第二类异常数据的识别效果不佳,数据删除率分别为66.8%和56.7%,且SVR算法的处理时间较长;dbin算法对数据的清洗效果最好,能对所有类型的异常数据进行有效识别,且清洗后的数据更加符合标准风速-功率曲线的分布特征。此算法对各类异常数据的删除率均在40.9%左右,耗时约为3.4( s 这与异常数据的多少有关),清洗效率较高,具有较高的可行性。
综上所述,dbin 算法为风电机组风速-功率运行数据的清洗提供了高效、合理、可靠的方法。dbin算法能实现对风速-功率曲线中堆积型异常数据和分散型异常数据的有效识别,可满足不同机组、不同异常数据分布状况的清洗需求,特别是当机组的风速-功率数据中存在大量堆积型异常数据时,dbin算法具有明显的优势。
表1 不同算法的数据清洗效果
清洗方案 | 机组编号 | 原始数据/条 | 剩余数据/条 | 数据删除量 | 清洗时间/s |
bin | 1 | 156 919 | 49 272 | 68.6% | 3.38 |
2 | 175 806 | 40 895 | 76.7% | 3.40 | |
3 | 230 817 | 41 313 | 82.1% | 3.73 | |
BP | 1 | 156 919 | 43745 | 72.1% | 6.33 |
2 | 175 806 | 60 515 | 65.6% | 6.250 | |
3 | 230 817 | 85 930 | 62.8% | 10.03 | |
SVR | 1 | 156 919 | 84 853 | 45.9% | 854.64 |
2 | 175 806 | 62 457 | 64.5% | 171.37 | |
3 | 230 817 | 93 024 | 59.7% | 670.33 | |
dbin | 1 | 156 919 | 102 415 | 34.7% | 3.38 |
2 | 175 806 | 98 765 | 43.8% | 3.53 | |
3 | 230 817 | 128 463 | 44.3% | 3.43 |
5 结束语
风速-功率数据中通常包含大量异常数据,这些异常数据会直接影响预测模型的建模精度,因而对电力系统有一定的影响。本文依据标准风速-功率曲线,提出了基于dbin算法的数据清洗方案,并与传统的 bin 算法、BP 算法、SVR 算法进行了对比。实例表明,基于dbin算法的清洗流程能够有效识别异常数据,效率较高。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 11:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社