博文

2013年以前的PM2.5数据缺失怎么办? 机器学习“算”出来 | NSR

已有 2535 次阅读 2021-1-21 16:43 |个人分类:国家科学评论|系统分类:论文交流

自2013 年起，生态环境部建立了地基监测站点，开始对细颗粒物（PM_2.5）污染进行业务观测。但是，此前的历史数据难以获取，导致长序列PM_2.5数据缺失，为认识中国PM_2.5长期变化带来了挑战。

为解决这一问题，中国气象科学研究院张小曳团队基于国家级地面气象观测网，抽取空间特征并结合先进的机器学习技术LightGBM，构建了考虑空间气象效应的高性能机器学习模型，能够获取1960年代以来的长序列PM_2.5历史数据集。该数据集将对理解气溶胶长期变化趋势、环境和气候影响以及通过同化到化学-天气耦合模型中构建长期再分析数据具有重要价值。

建模：气象数据+空间特征

目前，已经存在基于卫星气溶胶光学厚度(AOD)来估算PM_2.5的方法，但卫星数据中存在大量缺失值、采样频率低且整体预测能力不高，估算结果在很大程度上受到了影响。

与卫星数据相比，地面气象观测具有序列时间长、时间分辨率高、数据完整性好等优势。在我国，中国气象局的国家级气象观测网始建于20世纪50年代，能够连续观测逐小时的温、压、风、湿等气象数据。1960年后国家级观测站数量超过2000个，而后稳定在2450个左右，此外，还有超过6万个区域观测站。因此，如果能够利用这些地面气象数据来估算我国的历史PM_2.5数据，可能会取得更好的效果。

(a)全国1440个PM_2.5国控站和2450个国家级气象观测站的空间分布; (b)空间特征提取和模型构建的概念模型。

要建立反演PM_2.5历史数据的机器学习模型，我们应该以哪些数据作为输入的“已知条件”呢？

首先是气象要素。现有研究表明，如果在一段时间内排放水平基本稳定，那么不利的气象条件将成为控制PM_2.5污染形成、加剧和消散的关键因素。因此通过温、压、风、湿等气象要素来反演PM_2.5在理论上是可行的。

其次是能见度数据。由于PM_2.5会显著影响能见度，因此引入能见度能够在一定程度上反推PM_2.5在不同时间尺度的变化。

此外，还有空间效应。对于单个环境监测站点，其PM_2.5浓度不仅与最近气象站的观测要素密切相关，还会因输送等过程受到周边气象条件的影响。

综合上述思考，研究人员选取了最近站点的气象要素，并从周边19个气象站中提取了5个变量，包括纬度、经度、能见度、温度和相对湿度，对于每个变量依次计算出平均值、最大值、最小值、标准差和偏度值，分别将其作为特征用于构建模型。

最后，研究人员将超过三千万条的2016-2018年逐小时数据用于模型训练，并将超过一千万条的2019年数据用于模型评估。

模型效果：优于已有模型

研究人员使用十折交叉验证方法，验证了这个模型的准确性。十折交叉验证是机器学习中参数调优和模型验证的常用方法，即将训练数据集分成十份，轮流将其中9份作为训练数据，另1份作为测试数据，每次试验都会得出相应的评价值，最后求其均值，作为对模型准确性的估计。

十折交叉验证结果表明，该模型的逐小时PM_2.5观测值与估计值的决定系数(R²)和均方根误差（RMSE）分别为0.80和19.80 μg m^-3。在更大的日、月、年时间尺度上，模型的表现更为出色，R²值分别增加到0.89、0.94和0.98，RMSE值分别降低到12.78 μg m^-3、6.78 μg m^-3和2.16 μg m^-3。

研究人员还将交叉验证的评分与其他模型进行了比较。如下表所示，该模型从日到年尺度都优于其他模型，其小时尺度R²（0.80）甚至优于其他大多数模型日尺度R²（0.41~0.85）。

不同模型的验证性能和预测能力比较统计

为了检验模型的预测能力，研究人员将模型预测的2019年PM_2.5数值和观测的实际数值进行了比较。结果表明，在小时(R²=0.75)、日(R²=0.84)、月(R²=0.88)年(R²=0.87)时间尺度上，该模型都能够以前所未有的预测能力准确估算PM_2.5质量浓度。与上表中的其他模型相比，该文的模型不仅可以对PM_2.5进行逐小时预测，在日、月、年尺度的预测能力上也都展示出相当大的优势，而这些优势主要来自于空间气象效应的引入。

2019年观测的PM_2.5和预测的PM_2.5在(a)小时、(b)日、(c)月和(d)年时间尺度上的密度散点图（颜色为概率分布密度）。

为了评估模型在我国不同地区的预测能力，研究人员绘制了小时尺度R²的空间分布（下图）。在下图中，研究人员选择了5个重点污染区域进行着重分析，包括(1)华北平原和关中平原；(2)长三角地区和长江中下游的两湖流域；(3)珠三角地区；(4)四川盆地；和(5)东北平原。

2019年观测和预测的逐小时PM_2.5的R²的空间分布

结果发现，该模型在以上 5 个地区均具有较好的预测能力, 特别是在污染较重的地区。在这些地区中，模型对华北平原PM_2.5的预测能力最为突出，R²普遍大于0.80，在关中平原对PM_2.5的预测也表现出较高的准确性，R²超过0.80。在四川盆地由于常年多云，AOD缺失超过70%，但地面观测不受影响，模型呈现出可靠的预测性能，R²约为0.75。在长三角和四川盆地，R²值在0.65和0.90之间波动，但在大多数情况下仍超过0.80。在东北平原和珠三角地区，R²值在0.70左右波动。进一步的分析表明，这5个区域R²的区域差异受污染水平、相对湿度、气象站分布等3个因素影响。

总之，该文构建的模型具有良好的准确性和预测能力，由此获得的历史PM_2.5数据集也将会较为准确。

除了补足历史数据，这个模型还能做什么？

目前，我国PM_2.5站点的空间分布不均，大部分都位于中东部城市地区。相比之下，气象站的分布较为均匀，且密度较高。因此，这个模型还能使用气象站数据，构建出高时间分辨率的密集PM_2.5格点网络。研究人员以华北地区为例，呈现了PM_2.5站点观测和预测PM_2.5网络的分布情况(下图a，b)。可以看到，网格化PM_2.5与观测的PM_2.5浓度准确对应，并提供了更详细的空间分布信息。

(a，b)华北平原年尺度上观测到的PM_2.5和我们预测到的PM_2.5的网格化网络的空间分布；(c)北京地区在训练过程中使用过的12个国家站(蓝色)和23个未接触过的区域站 (橙色)的分布；(d)国家站和区域站的R²分布；(e) 12个国家站小时尺度上观测到的PM_2.5和预测到的PM_2.5的密度散点图；(f)23个未使用的区域站小时尺度上观测到的PM_2.5和预测到的PM_2.5的密度散点图。

为了进一步验证观测站点外的格点PM_2.5浓度的准确性，研究人员选取了23个未在模型训练中使用的PM_2.5区域站（上图c），通过模型预测这些站点的PM_2.5小时浓度，并与2019年的PM_2.5观测值进行对比。如上图d所示，在23个区域站中，有22个区域站的R²值超过0.75，并且在国家站和区域站之间没有表现出显著差异。对于所有23个区域站的PM_2.5小时浓度，R²和RMSE分别为0.81和20.30，仅比12个国家站的R²和RMSE（R²=0.83，RMSE=18.90）稍弱（上图e，f）。这些结果表明，该模型能够很好地预测训练站范围内外地点的PM_2.5浓度，网格化PM_2.5的准确性值得信任。

上述成果发表于《国家科学评论》（National Science Review，NSR）中国气象科学研究院博士研究生仲峻霆为该论文第一作者，中国气象科学院张小曳院士和桂柯博士为共同通讯作者，合作作者还包括王亚强研究员、车慧正研究员、孙俊英研究员、张养梅研究员、沈小静博士、张磊博士和博士研究生张文杰。

文章信息：[点击下方链接可阅读原文]

Robust prediction of hourly PM_2.5from meteorological data using LightGBM

https://doi.org/10.1093/nsr/nwaa307

wechat logo.png

转载本文请联系原作者获取授权，同时请注明本文来自科学出版社科学网博客。
链接地址：https://blog.sciencenet.cn/blog-528739-1268267.html

上一篇：载流子注入平衡助力钙钛矿QLED外量子效率突破21% | Science Bulletin
下一篇：痛的领悟

收藏 IP: 124.17.27.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

科学出版社

扫一扫，分享此博文

科学出版社分享 http://blog.sciencenet.cn/u/sciencepress 中国最大的综合性科技出版机构之一，科学家的出版社！

博文

2013年以前的PM2.5数据缺失怎么办? 机器学习“算”出来 | NSR

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

科学出版社

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

科学出版社分享 http://blog.sciencenet.cn/u/sciencepress 中国最大的综合性科技出版机构之一，科学家的出版社！

博文

2013年以前的PM2.5数据缺失怎么办? 机器学习“算”出来 | NSR

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

科学出版社

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)