||
原文出自 ISPRS IJGI 期刊:
Georganos, S.; Kalogirou, S. A Forest of Forests: A Spatially Weighted and Computationally Efficient Formulation of Geographical Random Forests. ISPRS Int. J. Geo-Inf. 2022, 11, 471.https://doi.org/10.3390/ijgi11090471
ISPRS International Journal of Geo-Information (IJGI) 期刊的 Jack Dangermond 奖由 MDPI 和 ESRI 联合赞助,旨在鼓励和激励个人或团体向期刊提交高质量的科学论文,推广和宣传期刊,并致敬 Jack Dangermond 对地理空间科学研究和发展的杰出贡献。该奖项包含 ISPRS 颁发的证书和 10,000 美元的奖金,每四年颁发一次。目前 2022 年的最佳论文已经由 Jack Dangermond 奖项委员会选出,该文章将与 2023~2025 年期间产生的其他三篇最佳论文一起角逐最终的 Jack Dangermond 大奖。本文将简要介绍该优秀论文的研究内容,欢迎阅读。
文章信息
A Forest of Forests: A Spatially Weighted and Computationally Efficient Formulation of Geographical Random Forests
森林的森林:地理随机森林的空间加权和高效计算形式
Stefanos Georganos and Stamatis Kalogirou
文章导读
机器学习 (Machine Learning, ML) 算法的空间适应性研究逐渐成为热门话题,本文介绍了一种先进的地理空间分析算法—地理随机森林 (Geographical Random Forest, GRF)。来自瑞典的 Stefanos Georganos 和来自卢森堡的 Stamatis Kalogirou 借助 R 包“SpatialML”研究总结了 GRF 算法的最新进展,并重点解决了空间加权、带宽优化和计算效率等问题。相关研究成果发表在 ISPRS International Journal of Geo-Information (IJGI) 期刊上。该研究表明 GRF 算法提高了随机森林回归模型的预测能力,同时解决了地理数据中常见的空间依赖性问题。作者将该算法应用于欧盟地区平均家庭收入的建模分析,发现其预测能力与已有技术相比有所提高。
研究过程与方法
为了研究的可重复性与便于理解,本文定义了一个简单的 GRF 收入模型,并进行了区域平均家庭可支配收入与总失业率、受过高等教育的经济活动人口比例、技术和知识密集型部门工人的比例等因素之间的回归分析。GRF 是局部校准随机森林 (Random Forest, RF) 模型的集合,其校准方程如等式 (1) 所示。
公式中,a (ui, vi) xi 为应用于位置 I 的 RF 模型的训练数据,(ui, vi) 为地理坐标。GRF 模型首先使用最近的局部 RF 模型来推断已知点的空间位置,再选择使用所有数据点的全局 RF 模型来进行预测其他点的位置。结合社会科学理论和先前已有研究结果,作者预计失业率对家庭收入有负面影响,而高教育程度对区域层面的家庭收入有积极影响。
GRF 计算效率
在已有研究中 GRF 算法很难实现并行,这导致在使用大带宽或大量训练数据时计算时间长。本研究使用“Ranger”R 包开发了可并行化的局部和全局 RF 模型,并研究了不同带宽下计算时间的差异以证明其计算效率。
GRF 带宽优化
GRF 算法发展的挑战之一是确定最佳带宽。本文提出了一种利用 GRF 的包外精度 (Out-of-Bag, OOB) 选择最佳带宽的方法,即提取不同带宽下的 OOB 精度,并选择性能最好的一个。图 1 展示了 GRF 模型的带宽优化结果。结果显示:使用 OOB R2 作为锚点,邻近点为 20 的带宽达到峰值性能,随着临近点数量的增加性能会不断下降。
图 1. GRF 模型的带宽优化
空间加权
本研究使用地理加权回归 (Geographically Weighted Regression, GWR)、随机森林 (RF) 和普通最小二乘 (Ordinary Least Squares, OLS) 回归等作为对比模型验证了 GRF 的预测潜力 (表 1)。显然,空间模型比非空间模型的表现要好得多。GWR 和传统 GRF 均表现出较高的精度,GRF-W (本文提出的对局部观测进行空间加权的 GRF) 表现最好,R2 为 0.82。
表 1. 不同模型在验证数据时的性能
研究总结
本文总结了 GRF 算法的最新进展,发现该算法的难点主要在于计算复杂度高。为缓解该问题,本研究通过用“Ranger”包替换 R 中的“随机森林”RF 实现了多线数据并行。研究表明,对于中等到较大的带宽,并行化是可行的。不过当样本量增加时,内存消耗过大仍是一个困扰的难题。解决这个问题的一种方法是避免在训练过程中将局部模型作为对象存储,而只保存性能评估和推断所需的信息。
本文以 GRF 收入模型为例,阐明了在局部模型的核内对观测值进行空间加权的重要性。加权变异显著改善了模型性能,并且更有效的加权方法仍需进一步探索。而在 GRF 中确定合适的空间尺度 (带宽参数) 是一项具有挑战性的任务。此外,机器学习算法应该广泛应用于地理空间分析,而不是更传统的统计方法。未来对空间机器学习方法的改进,应集中在提高预测变量在系数和重要性方面的可解释性以及特征选择。
ISPRS IJGI 期刊介绍
主编:Wolfgang Kainz, University of Vienna, Austria
期刊主题涵盖地理信息科学和技术各个方面,主要包括空间数据模型与管理、空间分析与决策、地理空间人工智能、地图制图、空间数据基础设施、地理空间网络、志愿地理信息、基于位置的服务、轨迹分析、智慧城市和前沿地理空间应用等。期刊定期发表研究性论文、综述和通讯等,旨在鼓励研究者们尽可能将其实验及理论研究成果表述得详尽和具体。
2022 Impact Factor:3.4
2022 CiteScore:6.2
5-year Impact Factor:3.5
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 10:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社