||
北京时间2022年8月8日晚23时,美国生物科技公司Calico Life Sciences研究员袁瀚与David Kelley在Nature Methods上发表了题为”scBasset: sequence-based modeling of single-cell ATAC-seq using convolutional neural networks”的研究成果。
该论文介绍了一种新的基于深度卷积神经网络的对单细胞ATAC进行建模的方法——scBasset。scBasset在多个下游任务中展现了最先进的性能,包括细胞聚类,去噪,消除批次效应以及转录因子活动预测。
袁瀚为论文第一作者及通讯作者,David Kelley为论文通讯作者。
Single cell ATAC-seq(scATAC)可以在单细胞水平上揭示表观基因组景观【1】。这项技术已经成功的被应用于获得细胞类型,揭示细胞异质性的调控机制,绘制与疾病相关的调控元件,以及重建分化轨迹【2–4】。然而由于数据高纬性和稀疏性的特点,scATAC的分析依然面临着大量挑战。已有的scATAC分析方法大致可以分为两种:利用DNA序列的模型,和不依赖DNA序列的模型。不依赖DNA序列的模型(例如PCA, VAE)利用peak-by-cell matrix中具有生物学意义的协方差来对细胞进行有效的表示(embedding)。这些方法依赖于额外的工具才能建立染色质开放区域(chromatin accessibility)与转录因子(transcription factors,TFs)之间的联系。另一方面,利用DNA序列的scATAC分析方法(例如chromVAR, BROCKMAN)虽然具有更好的可解释性,但由于模型相对简单,在学习细胞表示及可视化时表现较差【5】。
在这项最新研究中,袁瀚等提出scBasset ,一个基于DNA序列的深度卷积神经网络(CNN),来对scATAC数据进行建模。在bulk数据中,CNN 已经展示了预测表观遗传图谱的最先进性能,并已成功用于遗传变异效应预测和转录因子语法推断【6–9】。这类CNN模型一般用DNA序列作为输入,通过一系列的卷积层(convolutional layer)以及全连接层(dense layer)预测输入序列在不同细胞类型中的可及性(accessibility)。研究人员将模型视为一个特征学习(representation learning)机器。scBasset模型通过一系列的卷基层学习到了一个低维的sequence embedding。模型的最后一层是一个将这个embedding用于预测每个单细胞可及性的线性变换。这个线性变换矩阵包含着每个细胞的向量表示(图1)。我们可以把向量的每个潜在特征(latent feature)理解为代表着基于DNA序列的调控因素,例如转录因子结合点位或核苷酸组成。而线性变换的权重决定了每个细胞在多大程度上依赖于这些因素。研究人员将这些单细胞向量作为细胞表示,用于下游任务,例如可视化和聚类。scBasset在多个下游任务中展现了最先进的性能,包括细胞聚类,去噪,消除批次效应(batch effect)以及转录因子活动预测。
图1,scBasset的框架结构
scBasset可以学习细胞表示。研究人员将scBasset最后一层的线性变换矩阵作为单细胞的低维表示。在三个不同的数据集上(Buenrostro2018,10x multiome PBMC,10x multiome mouse brain),研究人员展示了基于scBasset的细胞表示相比于其他方法展现出了更优秀的聚类性能(图2)。
图2,scBasset细胞表示相比于其他方法展现出了更优秀的聚类性能
scBasset可以用于消除数据集中的批次效应。为了应对数据中的批次效应(batch effect),研究人员对模型框架进行了微调。具体来说,研究人员在卷积层之后增加了第二个全连接层,用以预测批次效应对可及性的贡献。在新的模型(scBasset-BC)中,与批次效应相关的可及性信息会被新的全联接层学习,而原有的全连接层仅会学习到有生物学意义的信息。研究人员在两个不同的数据集上比较了scBasset-BC与其他方法对于批次效应的消除效果,看到scBasset-BC可以在批次混合以及保留细胞的特异性之间获得最好的平衡(图3)。
图3,scBasset可以用于消除数据集中的批次效应
scBasset可以在单细胞、单点位分辨率下预测转录因子活动。转录因子活动是染色质可及性的主要驱动力,而转录因子和DNA的结合具有序列特异性。因为scBasset可以从DNA序列预测染色质可及性,研究人员认为scBasset模型学习到了转录因子的序列特异性,从而可用以预测单细胞中转录因子的活动。为了预测单细胞中的转录因子活动,研究人员可以将一对DNA序列输入经过训练的 scBasset 模型。其中一段是合成的随机序列,另一段把第一段序列的中间部分换成了TF motif。比较scBasset对两段序列在每个细胞当中预测的可及性的差值,研究人员可以估计对应的转录因子在每个细胞当中的活动。分析显示,相比于chromVAR,scBasset可以更好的预测转录因子活动。另外利用in silico saturation mutagenesis(ISM)的方法,研究人员甚至可以预测每一个核苷酸在每个细胞中对可及性的影响,并将他们与转录因子活动对应(图4)。
图4,scBasset可以在单细胞、单点位分辨率下预测转录因子活动
scBasset已经在github上开源共享(https://github.com/calico/scBasset),欢迎使用。
相关论文信息:
https://doi.org/10.1038/s41592-022-01562-8
参考文献
1. Buenrostro, J. D. et al. Single-cell chromatin accessibility reveals principles of regulatory variation. Nature (2015). doi:10.1038/nature14590 2. Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nat. Biotechnol. (2019). doi:10.1038/s41587-019-0206-z 3. Miao, Z. et al. Single cell regulatory landscape of the mouse kidney highlights cellular differentiation programs and disease targets. Nat. Commun. (2021). doi:10.1038/s41467-021-22266-1 4. Cusanovich, D. A. et al. A Single-Cell Atlas of In Vivo Mammalian Chromatin Accessibility. Cell (2018). doi:10.1016/j.cell.2018.06.052 5. Chen, H. et al. Assessment of computational methods for the analysis of single-cell ATAC-seq data. Genome Biol. (2019). doi:10.1186/s13059-019-1854-5 6. Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: Learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. (2016). doi:10.1101/gr.200535.115 7. Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, (2015). 8. Kelley, D. R. et al. Sequential regulatory activity prediction across chromosomes with convolutional neural networks. Genome Res. (2018). doi:10.1101/gr.227819.117 9. Avsec, Z. et al. Base-resolution models of transcription-factor binding reveal soft motif syntax. Nat. Genet. (2021). doi:10.1038/s41588-021-00782-6
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 18:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社