||
单细胞数据中数据特异性差异表达基因识别
基因差异表达分析是转录组等数据分析中非常常规的手段之一,其重要意义在于能够帮助理解所要研究的生物学问题。本质上,基因差异表达分析也是一种预处理(降维)方法。尤其是在处理样本少、变量多(即多n少p问题)的数据时,基因差异表达分析能够化繁为简。在前面,我们已经介绍了传统差异表达分析方法Wilcoxon rank-sum test的魅力(参见差异表达分析:经典方法未必逊色于流行方法)。众所周知,每种差异表达分析方法都具有数据特异性,如何选择每个数据适合的差异表达分析方法是大家比较关心的问题。本次就介绍一个数据特异性差异表达基因识别工具包scCODE(图1)。
图1 scCODE扩展包的性能评估和架构
scCODE并不是单纯做基因差异表达分析,因为在差异表达分析之前,它还特别注重过滤操作(Filtering)。以往研究表明,过滤操作能够提高差异表达分析方法的性能。因此,为了更加精确的识别差异表达基因,scCODE将过滤操作和差异表达分析方法组合起来使用,以期在每个单细胞数据中选择最优组合识别差异表达基因。
在scCODE工具包内,提供了4种过滤操作(conquer、OGFSC、scmap和No-filter)和10种常用差异表达分析方法(表1)。因此,组合策略就是40种。
表1 10种差异表达分析方法
接下来,scCODE做了一件事情,就是集成前N(5、10,20和40)个最优策略并且提出两个新度量指标(Consistent DE genes order,简称CDO;Area under concordance curve,简称AUCC)对每个基因的差异程度进行重新排序。所以本质上,scCODE是一种差异表达分析集成方法(Ensemble)。
对选择有恐惧症的,可以用用scCODE。如果想测试scCODE工具包,各位可以从https://github.com/XZouProjects/scCODE链接中获取源代码。
参考文献
[1] Zou J, Deng F, Wang M, et al. scCODE: an R package for data-specific differentially expressed gene detection on single-cell RNA-sequencing data. Brief Bioinform. 2022;23(5):bbac180. doi:10.1093/bib/bbac180
以往推荐如下:
2. 因果推理综述推荐一篇
5. 你想了解因果推理吗?
6. 因果学习工具:Causal Explorer和Causal Learner
7. 小样本学习
8. 样本异质性定量化
9. 生物标志物定义及其应用
13. miRNA靶基因预测工具:“我们到了哪里,又该往哪去?”
14. 人类细胞互作数据库:CITEdb
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-17 02:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社