||
简而言之,缺失值就是数据集中某个或某些属性的值为空。在现实数据中,这种现象普遍存在。比如,医生记录病人的信息时候,有些拿不定的属性值,习惯性的空缺。另外,有些测不出来的属性值,默认为空缺。导致缺失值的原因主要分为三类:完全随机,随机以及非随机。数据既然存在缺失,那么填充这些空缺成为数据预处理的必要手段。缺失值填充方法有很多,最简单粗暴的是删除具有缺失值的样本。如果想保留样本,其余方法都是利用非缺失值的信息来填补或预测缺失值可能的值。本次,就介绍一个专门用于填充蛋白质组学数据缺失值的一个工具:NAguideR(图1,https://github.com/wangshisheng/NAguideR)。
图1 NAguideR论文
在不删除样本前提条件下,填充缺失值主要有三种类型方法:单值方法(single value)、全局结构方法(global structure)和局部相似方法(local similarity)。
NAguideR提供完整的蛋白质组学数据填充以及评估流程(图2),其中数据填充方法有23种(涵盖单值方法、全局结构方法和局部相似方法),评估标准有8个(4个经典评估方法和4个蛋白质组学评估方法)。
4个经典评估方法分别为Normalized root mean square error (NRMSE)、NRMSE based sum of ranks (SOR)、Average correlation coefficient between the original and imputed values (ACC/ACC OI)和Procrustes statistical shape analysis (PSS),4个蛋白质组学评估方法分别为Average correlation coefficient within the different charge states of each peptide (ACC Charge)、Average correlation coefficient within the different peptides of each protein (ACC PepProt)、Average correlation coefficient within every protein complex based on CORUM database (ACC CORUM)和Average correlation coefficient within each cluster of protein-protein interaction network based on hu.MAP database (ACC PPI)。
将NAguideR应用于3个蛋白质组学数据中发现:NAguideR能够借助评估标准帮助用户挑选最优缺失值填充方法。详细结果可参见文献[2]。
图2 NAguideR工作流程
后话
NAguideR虽然旨在处理蛋白质学数据的缺失值,但是大部分缺失值处理方法也适用于其它数据类型。另外,4个经典评估方法同样适用于评估其他数据类型的缺失值填充效果。如果不知道选择什么缺失值填充方法来处理数据,NAguideR是一个好的候选工具。
参考链接和文献
[1] https://github.com/wangshisheng/NAguideR
[2] Wang S, Li W, Hu L, Cheng J, Yang H, Liu Y. NAguideR: performing and prioritizing missing value imputations for consistent bottom-up proteomic analyses. Nucleic Acids Res. 2020;48(14):e83.
以往推荐如下:
1. 因果推理综述推荐一篇
2. 生物学家的机器学习指南
3. 基础模型的机遇与风险
4. 一份单细胞数据分析教程
8. 国外知乎:Quora
11. 预印本知多少?
14. mRNA表达无法取代蛋白质表达
15. scIB:单细胞数据融合基准框架
16. 临床医疗维修店铺
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-1 15:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社