zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

无模型假设的单细胞和空间转录组数据差异表达分析

已有 305 次阅读 2025-12-30 09:26 |个人分类:科普|系统分类:科普集锦

无模型假设的单细胞和空间转录组数据差异表达分析 

从单细胞(scRNA-Seq)和空间(spRNA-Seq)转录组学中鉴定上调和下调基因是许多生物学研究的关键要素。对这种差异基因表达(DGE)的统计分析日益重要,然而在 scRNA-Seq 中假阳性结果是一个已知问题。为了提高统计效率同时减少假阳性结果,人们提出了许多不同的数据分析方法。然而,所有常用的和较新的分析方法仍然依赖于不必要的简化、数据拟合和/或参数化,这些可能导致假阳性结果。例如,Wilcoxon 检验没有考虑到从细胞到细胞检测到的转录本数量高达 100 倍的差异。一种常用的伪批量方法假设细胞按比例贡献于检测到的转录本数量,类似于批量 RNA-Seq。常用 DGE 分析方法中的这种隐含假设与实验数据不一致。 在单细胞 RNA 测序中,每个细胞是一个独立的实验集群,检测到的转录本数量是集群的大小,集群大小及其变异性的影响在先前的集群随机化实验统计学中已被充分确立。 

此外,转录本分布的参数化(例如,使用负二项分布来重新缩放 SCTransform 中的计数)对于分析高质量的 scRNA-Seq spRNA-Seq 数据并没有益处。计算机模拟中持续存在的测序深度变化和其他测试表明,基于参数化修改原始数据以及广泛使用的对数标准化可能会产生DGE 分析中的显著伪影。 

最近,Margolin等人提出了一种新的 scRNA-Seq spRNA-Seq 差异基因表达分析方法,该方法除了随机技术噪声和抽样外不进行任何假设,从而更准确地描述数据。利用 scRNA-Seq 的已知物理特性,直接从测量的转录本计数中推导所需的数据分布矩,而不假设数据的特定形式或对其进行建模。不假设不同细胞中转录本计数的准确性相同,因为总计数中观察到的细胞间差异表明准确性变化很大。相反,推断相对贡献通过利用成熟的非偏差加权平均方法,直接从数据中计算不同细胞的基因表达均值及其方差。 

与常用方法进行比较,发现结果存在显著差异。因此,使用模拟数据、经过明确表达变化的实验数据以及模拟测序深度变化的实验数据计数子采样对所有方法进行基准测试。基于已知的真实情况,统计测试显示,与该方法相比,常用方法中存在更多的假阳性和假阴性结果。相关测试和模拟的注释 R 代码可在 https://github.com/sergeyleikin/sc-sp-RNASeq 中获取。 

理解该方法的基本原理及其实际应用,无需任何特殊专业知识。作者们已将所有数据分析程序实现为一系列简单函数,这些函数与 R 编程语言中流行的 Seurat 包(https://satijalab.org/seurat/)生成的数据对象兼容,这些函数集及其源代码可在 https://github.com/sergeyleikin/sc-sp-RNASeq 下载。为简化并保持一致性,作者们使用公开可用的 10X Genomics scRNA-Seq 数据集(https://www.10xgenomics.com/datasets)和通过 10X Genomics Visium HD 检测试验收集的 spRNA-Seq 数据,比较该方法与 Seurat 工作流中标准模型产生的结果。 

参考文献

[1] Gennady Margolin, Andrew Tang, Sergey Leikin. Differential expression analysis in single cell and spatial RNASeq without model assumptions. bioRxiv 2025.10.20.683496; doi: https://doi.org/10.1101/2025.10.20.683496 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png 

 



https://blog.sciencenet.cn/blog-571917-1516376.html

上一篇:scPER:基于总RNA测序与癌症表型一致的肿瘤细胞亚型确定
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-31 00:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部