||
FedPyDESeq2:转录组数据差异表达分析的联邦框架
无论是在bulk还是单细胞分辨率下,差异表达分析(Differential expression analysis,DEA)是转录组数据的主要应用。基于转录组数据,DEA旨在利用edgeR、limma或DESeq2及其最近提出的Python替代方案PyDESeq2等统计软件,识别两种情况下(例如处理和对照样本)的差异表达基因。
为了获得相关结果,样本量是一个关键因素。以往研究得出结论,重复数对DEA的影响大于库的大小,特别是在高样本可变性的背景下。正如以往研究指出:“对于高度多样化的样本,例如来自癌症患者肿瘤的临床组织,可能需要更多的重复才能确定确实有变化。”
抛开RNA测序成本不谈,存在更大队列的主要障碍之一是基因组数据非常敏感,其交换受到隐私保护的法律约束和严格监管。因此,DEA通常受到单个机构持有的转录组数据数量限制。当不可能在机构之间共享数据时,可以使用元分析来汇总在每个数据中心独立分析的本地结果。然而,这是以统计能力为代价的,特别是在数据异构的情况下。
最近,联邦学习(federated learning,FL)已经成为一种有前途的技术来面对来自孤立数据的困难。FL是一种源自机器学习(Machine learning,ML)社区的分布式计算范式,其中多方(客户端或中心)在中央服务器的监督下协作拟合联合模型,而无需交换私有数据。FL的主要好处是它允许客户保持对其数据的控制,同时允许他们构建ML模型,就像数据汇集在一起一样。简而言之,FL包括以下步骤:(1)客户端对其私有数据执行计算,(2)将其本地模型传输到服务器,(3)服务器聚合模型以形成单个全局模型,并将其共享回客户端。然后从步骤(1)开始重复该过程,以此类推。
为了克服与医疗数据相关的固有隐私限制,最近的一些工作已成功地将FL应用于生物医学任务。例如,FedECA引入了一种联邦学习处理加权逆概率(IPTW)方法,作为实现外部控制的手段。FL也被用于药物发现,或预测三阴性乳腺癌对新辅助化疗的组织学反应。最后,Flimma的目的是在FL条件下重现limma-voom的DEA工作流。Flimma是迄今为止进行DEA研究的唯一联邦框架。
最近,Muzellec等人介绍了一种新方法FedPyDESeq2(图1),一个用于联邦DEA的软件,旨在再现存在数据孤岛的DESeq2结果。FedPyDESeq2基于Substra(这是一个由Linux基金会托管的用于人工智能和数据开源FL软件)和PyDESeq2(原始DESeq2扩展包的Python实现版本)。FedPyDESeq2的目标是从孤立的bulk转录组数据中输出尽可能接近于在汇集数据后应用PyDESeq2所获得的结果。为此,FedPyDESeq2遵循DESeq2管道,实现每个步骤的等效版本,同时确保没有从中心传输单独的数据。
图1 (A)对孤立转录组数据进行DEA聚合分析(左)、元分析(中)和联邦学习(右)方法的比较。虽然聚合分析是首选方法,但它需要将所有中心的数据汇集到一个处理中心,这通常是不可行的。元分析通过在每个中心本地运行一个完整的DEA管道来规避这个问题,在失去统计能力的情况下,将结果的对数倍变化和p值共享到服务器进行聚合。另一方面,联邦学习目标是通过在网络上分配计算来重现聚合研究算法,而不让私有数据离开它们的前提。(B) FedPyDESeq2在(1)在每个中心独立运行的本地步骤和(2)由服务器集中运行的聚合步骤之间交替,在(3)服务器输出最终结果之前,这是在Substra编排的联邦网络上进行的多轮操作。为了确保隐私,数据中心只能共享汇总数据
作者们已经在来自癌症基因组图谱(TCGA,https://www.cancer.gov/tcga)的bulk转录组数据上评估了FedPyDESeq2,依据8种不同条件并且采用两种不同方法对数据进行了划分。首先,通过根据采样源站点拆分数据来恢复实际的联邦数据集,最终将其分组为7个区域。其次,为了进一步对FedPyDESeq2的稳健性进行基准测试,生成了一套不断增加异质性的模拟划分。然后在联邦网络上运行FedPyDESeq2,其中每个分割存储在独立的机器中。在这两种设置中,实验结果表明:FedPyDESeq2结果与PyDESeq2在池化数据上产生的结果非常接近。最后,将FedPyDESeq2与各种元分析方法进行比较,这些方法通过汇总每个中心的局部DEA结果来输出全局结果。实验表明,使用联邦分析方法代替元分析可以提高统计能力和灵敏度。
FedPyDESeq2在MIT许可下可在https://github.com/owkin/fedpydeseq2获得。
参考文献
[1] Boris Muzellec, Ulysse Marteau-Ferey, Tanguy Marchand. FedPyDESeq2: a federated framework for bulk RNA-seq differential expression analysis. bioRxiv, 2024.12.06.627138; doi: https://doi.org/10.1101/2024.12.06.627138
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 14:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社