zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

MIMIQ:单细胞数据的快速互信息计算与显著性检验

已有 174 次阅读 2026-5-16 21:29 |个人分类:科普|系统分类:科普集锦

MIMIQ:单细胞数据的快速互信息计算与显著性检验 

在已测序的细胞中计算基因共变关系,是众多分析流程中的关键环节,这些分析流程包括细胞类型推断、聚类分析、调控网络分析以及细胞轨迹推断等。衡量这种共变关系的最直接指标是皮尔逊相关系数或斯皮尔曼相关系数。然而,这些指标无法识别那些由多种遗传相互作用所导致的复杂非线性关联。变量对之间的互信息能够反映在测量其中一个变量时所获得的关于另一个变量的信息量,是一种与具体模型无关的相互作用度量指标。此外,互信息本身也是一个有意义的量度指标,特别是在研究信号转导过程中的信息流动或免疫受体的多样性。 

精确计算所有基因对之间的互信息在计算上十分复杂,因此不适用于现代单细胞 RNA 测序实验中涉及的成千上万个基因(数亿个基因对)。相反,那些通过固定区间来计算互信息的更快但更近似的方法,在数据分布偏斜时往往不够准确。RNA 测序数据通常属于长尾、过度离散的分布类型。 

最近,O’Hanlon等人介绍了基于“边际信息量”概念的 MI 计算方法(MIMIQ,图1 https://github.com/dpohanlon/mimiq)。该框架能够在不牺牲准确性的前提下,快速计算成对 MI 值,同时对底层数据分布的假设要求较低。该方法专为处理可能具有零膨胀特征的整数计数数据而设计,例如 scRNA-seq 实验中得到的数据,这类数据可用零膨胀负二项分布来描述。为实现这一目标,作者们利用 k-d 树对原始计数数据进行自适应分组处理,并结合 Copula 变换,从而能够同时计算用于显著性检验的χ检验统计量。在实践中,作者们构建了一种基于 MI 的重连度量指标,并利用它来研究 SARS-CoV-2 感染期间幼稚 T 细胞的基因相互作用重连过程。 

image.png

1 MIMIQ运行时间 

参考文献

[1] Daniel O’Hanlon, Sergio Garcia Busto, Rubén Pérez Carrasco. MIMIQ: Fast mutual information calculation and significance testing for single-cell RNA sequencing analysis bioRxiv 2026.04.10.717770; doi: https://doi.org/10.64898/2026.04.10.717770 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1535119.html

上一篇:从生源到深度建模:miRNA-疾病预测计算方法的全面综述与实验比较
下一篇:超越以基因为中心差异表达的基因组规模表达的多模态生物信息学分析
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-17 07:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部