||
scPerturb:协调单细胞扰动数据
扰动实验探测细胞或细胞系统对环境变化的反应。传统上,在实验室实验中,通过改变温度或添加药物等方式,这些变化对所有细胞的作用是均等的。如今,随着先进的功能基因组技术,单细胞遗传扰动作用于单个细胞成分是可用的。使用不同技术的扰动针对蛋白质生产层次的不同层(图1)。在最低层,CRISPR-cas9直接作用于基因组,使用插入-删除多态性诱导移码突变,有效敲除一个或多个指定基因。较新的CRISPRi和CRISPRa技术分别抑制或激活转录。CRISPR-cas13作用于蛋白质生产层次的下一层,促进RNA降解。 相比之下,小分子药物通常直接作用于酶和受体等蛋白质产物。当这些技术应用于大规模筛选时,它们创建了基因型、转录本、蛋白质、染色质可及性,在某些情况下,还有表型之间的图谱。与独特的CRISPR引导扰动相关的条形码与单细胞RNA测序(scRNA-seq), CITE-seq(通过测序对转录组和表位进行细胞索引)或scATAC-seq(转座酶可及染色质的单细胞测序测定)一起读取,以确定每个细胞的扰动条件。
图1 单细胞的扰动响应谱。不同的扰动作用于基因表达和蛋白质产生的不同层次(紫色箭头)。scPerturb中包含的干扰包括CRISPR-cas9,它直接干扰基因组,激活靶基因转录的CRISPRa,阻断目标基因转录的CRISPRi,CRISPR-cas13切割目标mRNA并促进其降解。结合细胞表面受体的细胞因子,以及扰乱各种细胞机制的小分子。单细胞测量探测对扰动的响应,也在基因表达的不同层:scATAC-seq直接探测染色质状态,scRNA-seq测量mRNA。目前,蛋白质计数数据通常是通过与蛋白质结合的抗体获得的。REAP-seq为RNA表达和蛋白测序
大规模单细胞扰动响应筛选使探索复杂的细胞行为成为可能。在没有干预或时间序列数据的情况下,是无法推断调节网络模型的方向性。具有目标扰动的实验可以建模为影响调节网络模型的单个节点,从而可以研究机制过程和调节相互作用及其方向性的推断。然而,通常情况下,扰动数据集太小,无法阐明细胞系统的复杂性。因此,调控相互作用的准确预测模型仍然难以推断。随着数据集大小的不断增加,这个限制将会减少。更直接的是,药物筛选已被用于通过分析目标药物的详细分子效应,以及设计新的单一或组合扰动来建议治疗干预措施。
对越来越大的扰动数据集的可靠分析需要有效的统计工具来利用大量的细胞和扰动。扰动响应数据固有的高维性使扰动之间距离的计算变得复杂,细胞间的变化和数据稀疏性也是如此。目前有在扰动研究中对响应剖面的统计比较没有惯例。一些研究通过将给定扰动设置中的所有细胞组合起来进行伪体积计算。这意味着丢失了细胞间反应变化的信息。混合细胞类型的研究已经发展出复杂的方法来量化异质细胞群体之间的相似性。基于细胞的统计测量可以用来成功地识别受扰动的细胞,但目前还不能量化扰动效应的相似性。理想情况下,扰动之间的统计比较和扰动强度的量化应该基于细胞集之间的多元距离测量。这种距离测量描述了不同扰动处理的细胞表达谱之间的差异或相似之处,从而推断出独特或共享的机制或识别扰动靶点,这些靶点往往会产生类似的分子谱变化。近年来,单细胞社区已经探索了scRNA-seq的多种距离度量,包括在最优运输框架中计算的Wasserstein距离,最大平均差异,基于邻域的度量和能量距离E-distance。E-distance是点云之间距离的基本统计度量,可以在统计测试中用于识别强或弱扰动,以及区分影响不同细胞子过程的扰动。相关能量测试(E-test)是一种统计可靠的工具,用于计算诊断特定扰动的信息内容,并且可以为训练扰动效应统计模型的实验设计和数据选择提供信息。
大型扰动筛选是专门设计用于研究特定系统,如在一系列感兴趣的扰动下的细胞系。随着时间的推移,该领域积累了各种不同细胞类型的单细胞扰动响应数据,如永生化细胞系和诱导多能干细胞衍生模型,以及不同的扰动技术,包括敲除、激活、干扰、碱基编辑和引物编辑。需要计算方法来有效地协调这些不同的扰动数据集。这种综合分析由于批效应和原代组织和细胞培养之间的生物学差异而变得复杂。已发表的微扰数据计算方法主要集中在单个数据集上。从单数据集分析到多数据集分析需要发展定量方法来研究微扰生物学。
虽然存在几个具有大量读数的大型微扰数据库,但单细胞微扰技术较新,数据不统一。现有的数据集主要是一种过滤手段,不能提供扰动的统一格式。然而,统一的数据集是开发可推广的机器学习方法和建立多模态数据集成的关键。最近一篇关于机器学习的单细胞扰动数据的综述和存储库列出了22个数据集,但只有6个数据集提供了清洁和格式统一的数据。访问单细胞数据的统一框架正在积极开发中,但目前不支持微扰数据集或标准化微扰注释。
最近,Peidli等人开发了scPerturb工具。它是一个标准化数据集资源,报告单细胞读数的目标扰动,以促进系统生物学计算方法的发展和基准测试。作者们从25篇出版物中收集了44个公开可用的扰动响应数据集(表1)。对扰动强度的量化和实验特定变量的比较,如扰动次数和每次扰动的细胞数,可以作为未来单细胞实验优化设计的参考。还将E-distance和E-test描述为细胞集的统计比较工具,并对其鲁棒性和适用性进行基准测试,以区分数据集和模式之间的扰动。scPerturb的web界面可在scperturb.org访问,也可以从Python (PyPI: scperturb)和R (CRAN: scperturbR)获取开发包。
表1 scPerturb.org上数据集的关键元数据
参考文献
[1] Peidli S, Green TD, Shen C, Gross T, Min J, Garda S, Yuan B, Schumacher LJ, Taylor-King JP, Marks DS, Luna A, Blüthgen N, Sander C. scPerturb: harmonized single-cell perturbation data. Nat Methods. 2024 Jan 26. doi: 10.1038/s41592-023-02144-y.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 12:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社