zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

FedPyDESeq2:转录组数据差异表达分析的联邦框架

已有 413 次阅读 2025-1-3 09:22 |个人分类:科普|系统分类:科普集锦

FedPyDESeq2:转录组数据差异表达分析的联邦框架

无论是在bulk还是单细胞分辨率下,差异表达分析(Differential expression analysisDEA)是转录组数据的主要应用。基于转录组数据,DEA旨在利用edgeRlimmaDESeq2及其最近提出的Python替代方案PyDESeq2等统计软件,识别两种情况下(例如处理和对照样本)的差异表达基因。

为了获得相关结果,样本量是一个关键因素。以往研究得出结论,重复数对DEA的影响大于库的大小,特别是在高样本可变性的背景下。正如以往研究指出:“对于高度多样化的样本,例如来自癌症患者肿瘤的临床组织,可能需要更多的重复才能确定确实有变化。”

抛开RNA测序成本不谈,存在更大队列的主要障碍之一是基因组数据非常敏感,其交换受到隐私保护的法律约束和严格监管。因此,DEA通常受到单个机构持有的转录组数据数量限制。当不可能在机构之间共享数据时,可以使用元分析来汇总在每个数据中心独立分析的本地结果。然而,这是以统计能力为代价的,特别是在数据异构的情况下。

最近,联邦学习(federated learningFL)已经成为一种有前途的技术来面对来自孤立数据的困难。FL是一种源自机器学习(Machine learningML)社区的分布式计算范式,其中多方(客户端或中心)在中央服务器的监督下协作拟合联合模型,而无需交换私有数据。FL的主要好处是它允许客户保持对其数据的控制,同时允许他们构建ML模型,就像数据汇集在一起一样。简而言之,FL包括以下步骤:(1)客户端对其私有数据执行计算,(2)将其本地模型传输到服务器,(3)服务器聚合模型以形成单个全局模型,并将其共享回客户端。然后从步骤(1)开始重复该过程,以此类推。

为了克服与医疗数据相关的固有隐私限制,最近的一些工作已成功地将FL应用于生物医学任务。例如,FedECA引入了一种联邦学习处理加权逆概率(IPTW)方法,作为实现外部控制的手段。FL也被用于药物发现,或预测三阴性乳腺癌对新辅助化疗的组织学反应。最后,Flimma的目的是在FL条件下重现limma-voomDEA工作流。Flimma是迄今为止进行DEA研究的唯一联邦框架。

最近,Muzellec等人介绍了一种新方法FedPyDESeq2(图1),一个用于联邦DEA的软件,旨在再现存在数据孤岛的DESeq2结果。FedPyDESeq2基于Substra(这是一个由Linux基金会托管的用于人工智能和数据开源FL软件)和PyDESeq2(原始DESeq2扩展包的Python实现版本)。FedPyDESeq2的目标是从孤立的bulk转录组数据中输出尽可能接近于在汇集数据后应用PyDESeq2所获得的结果。为此,FedPyDESeq2遵循DESeq2管道,实现每个步骤的等效版本,同时确保没有从中心传输单独的数据。

image.png

1 (A)对孤立转录组数据进行DEA聚合分析(左)、元分析(中)和联邦学习(右)方法的比较。虽然聚合分析是首选方法,但它需要将所有中心的数据汇集到一个处理中心,这通常是不可行的。元分析通过在每个中心本地运行一个完整的DEA管道来规避这个问题,在失去统计能力的情况下,将结果的对数倍变化和p值共享到服务器进行聚合。另一方面,联邦学习目标是通过在网络上分配计算来重现聚合研究算法,而不让私有数据离开它们的前提。(B) FedPyDESeq2(1)在每个中心独立运行的本地步骤和(2)由服务器集中运行的聚合步骤之间交替,在(3)服务器输出最终结果之前,这是在Substra编排的联邦网络上进行的多轮操作。为了确保隐私,数据中心只能共享汇总数据

作者们已经在来自癌症基因组图谱(TCGAhttps://www.cancer.gov/tcga)的bulk转录组数据上评估了FedPyDESeq2,依据8种不同条件并且采用两种不同方法对数据进行了划分。首先,通过根据采样源站点拆分数据来恢复实际的联邦数据集,最终将其分组为7个区域。其次,为了进一步对FedPyDESeq2的稳健性进行基准测试,生成了一套不断增加异质性的模拟划分。然后在联邦网络上运行FedPyDESeq2,其中每个分割存储在独立的机器中。在这两种设置中,实验结果表明:FedPyDESeq2结果与PyDESeq2在池化数据上产生的结果非常接近。最后,将FedPyDESeq2与各种元分析方法进行比较,这些方法通过汇总每个中心的局部DEA结果来输出全局结果。实验表明,使用联邦分析方法代替元分析可以提高统计能力和灵敏度。

FedPyDESeq2MIT许可下可在https://github.com/owkin/fedpydeseq2获得。

参考文献

[1] Boris Muzellec, Ulysse Marteau-Ferey, Tanguy Marchand. FedPyDESeq2: a federated framework for bulk RNA-seq differential expression analysis. bioRxiv, 2024.12.06.627138; doi: https://doi.org/10.1101/2024.12.06.627138

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 



https://blog.sciencenet.cn/blog-571917-1467160.html

上一篇:你研究的“microRNA”可能不是microRNA
下一篇:文章发表 | 癌症ncRNA协同调控模式建模
收藏 IP: 39.128.49.*| 热度|

3 许培扬 张俊鹏 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-5 14:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部