zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

NAguideR:填充蛋白质组学数据缺失值

已有 5600 次阅读 2022-3-7 17:36 |个人分类:科普|系统分类:科普集锦

简而言之,缺失值就是数据集中某个或某些属性的值为空。在现实数据中,这种现象普遍存在。比如,医生记录病人的信息时候,有些拿不定的属性值,习惯性的空缺。另外,有些测不出来的属性值,默认为空缺。导致缺失值的原因主要分为三类:完全随机,随机以及非随机。数据既然存在缺失,那么填充这些空缺成为数据预处理的必要手段。缺失值填充方法有很多,最简单粗暴的是删除具有缺失值的样本。如果想保留样本,其余方法都是利用非缺失值的信息来填补或预测缺失值可能的值。本次,就介绍一个专门用于填充蛋白质组学数据缺失值的一个工具:NAguideR(图1https://github.com/wangshisheng/NAguideR)。

 

image.png  

1 NAguideR论文

 

在不删除样本前提条件下,填充缺失值主要有三种类型方法:单值方法(single value)、全局结构方法(global structure)和局部相似方法(local similarity)。

 

NAguideR提供完整的蛋白质组学数据填充以及评估流程(图2),其中数据填充方法有23种(涵盖单值方法、全局结构方法和局部相似方法),评估标准有8个(4个经典评估方法和4个蛋白质组学评估方法)。

 

4个经典评估方法分别为Normalized root mean square error (NRMSE)NRMSE based sum of ranks (SOR)Average correlation coefficient between the original and imputed values (ACC/ACC OI)Procrustes statistical shape analysis (PSS)4个蛋白质组学评估方法分别为Average correlation coefficient within the different charge states of each peptide (ACC Charge)Average correlation coefficient within the different peptides of each protein (ACC PepProt)Average correlation coefficient within every protein complex based on CORUM database (ACC CORUM)Average correlation coefficient within each cluster of protein-protein interaction network based on hu.MAP database (ACC PPI)

 

NAguideR应用于3个蛋白质组学数据中发现:NAguideR能够借助评估标准帮助用户挑选最优缺失值填充方法。详细结果可参见文献[2]

image.png

2 NAguideR工作流程

 

后话

NAguideR虽然旨在处理蛋白质学数据的缺失值,但是大部分缺失值处理方法也适用于其它数据类型。另外,4个经典评估方法同样适用于评估其他数据类型的缺失值填充效果。如果不知道选择什么缺失值填充方法来处理数据,NAguideR是一个好的候选工具。

 

参考链接和文献

[1] https://github.com/wangshisheng/NAguideR

[2] Wang S, Li W, Hu L, Cheng J, Yang H, Liu Y. NAguideR: performing and prioritizing missing value imputations for consistent bottom-up proteomic analyses. Nucleic Acids Res. 2020;48(14):e83.

 

以往推荐如下:

1. 因果推理综述推荐一篇

2. 生物学家的机器学习指南

3. 基础模型的机遇与风险

4. 一份单细胞数据分析教程

5. R/Shiny交互式生物Web应用程序

6. VOSviewer:文献图谱可视化

7. 卡片式笔记工具:Roam Research

8. 国外知乎:Quora

9. 生信问答平台:Biostars

10. IT问答平台:Stack Overflow

11. 预印本知多少?

12. 借助Bioconductor策划单细胞分析

13. 要选哪个蛋白质互作数据库作为先验信息?

14. mRNA表达无法取代蛋白质表达

15. scIB:单细胞数据融合基准框架

16. 临床医疗维修店铺

 

image.png

image.png 




https://blog.sciencenet.cn/blog-571917-1328431.html

上一篇:临床医疗维修店铺
下一篇:怎样做好一项研究?
收藏 IP: 183.225.51.*| 热度|

3 李宏翰 汪运山 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-18 00:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部