博文

我们经常使用的评价指标对链路预测算法的评估一致吗？

已有 6756 次阅读 2024-11-24 11:12 |系统分类:论文交流

链接预测是网络科学中最活跃且重要的分支之一，在过去的二十年中，已有数千种链路预测算法被提出。随之而来的问题是如何评估这些链路预测算法的性能呢？

目前已有的研究中已经使用了许多评估指标，包括受试者工作特征曲线下的面积（AUC）、平衡精确度（BP）、精确率-召回率曲线下的面积（AUPR）、精确度（Precision）、召回率（Recall）、F1得分（F1-measure）、Matthews相关系数（MCC）、归一化的折扣累积增益（NDCG）、精确率曲线下的面积（AUC-Precision）等。面对这么多的评价指标，它们评估链路预测算法的性能是一致的吗？应该选取哪些评价指标才可以更科学且公平地评估链路预测算法的性能呢？这些问题一直未被详细地探讨。

图1：衡量任意两个评价指标M1和M2之间相关性的流程图。

我们在最近的研究中，提出了一种方法来度量指标间的一致性。对于任意两个评价指标M1和M2，考虑P种链路预测算法A1, A2, ..., AP，对于任意一个网络G，M1和M2将分别给出两个对P中链路预测算法的排名序列（见图1.A所示），然后通过测量这两个排名的相关性来获得M1和M2之间的相关性，考虑多个网络G1,G2,G3,.....GQ来计算任意两个评估指标之间的平均相关性（见图1.B和C所示，以Q=3为例）。

图2：评价指标对间的Kendall秩相关系数图。

当随机选取300个真实网络，使用26种经典链路预测算法时，评价指标之间的关联性见图2所示。经过实验和分析后，我们从信息的角度提出了关于链接预测中选择评估指标的四点建议：（i）推荐AUC作为链路预测评估中的评价指标，因为它与大多数指标具有中等的相关性，其相对于其他指标可以提供更多的额外信息；（ii）推荐选择AUPR、AUC-Precision和NDCG中的一个作为评价指标；（iii）当正样本和负样本显著不平衡时，应考虑使用AUC-gROC；（iv）如果我们没有线索确定阈值，则最好不要使用阈值相关指标，如：精确度(Precision)、召回率(Recall)等，而对于某个特定的问题，某些阈值是有意义的，我们可以从阈值相关指标中选择一个指标作为算法的评估指标。

论文信息：Yilin Bi, Xinshan Jiao, Yan-Li Lee, Tao Zhou, Inconsistency among evaluation metrics in link prediction, PNAS Nexus 3 (2024) pgae498.

免费下载链接：https://doi.org/10.1093/pnasnexus/pgae498

作者信息：毕祎琳（电子科技大学，共同第一作者）；焦鑫善（电子科技大学，共同第一作者）；李艳丽（西华大学，合作者）；周涛（电子科技大学，合作者）。

转载本文请联系原作者获取授权，同时请注明本文来自周涛科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3075-1461418.html

上一篇：Applied Sciences 图挖掘专栏 —— 欢迎投稿
下一篇：2024年看过的81套，138册书

欢迎参加科学网十佳博文评选活动！

主办单位：