||
北京时间2021年10月28日晚23时,美国宾夕法尼亚大学佩雷尔曼医学院生物统计系李明瑶教授课题组在《自然—方法》上发表论文,提出了空间转录组数据分析的新算法SpaGCN。
博士生胡健和李明瑶教授为该论文的共同通讯作者,博士生胡健为第一作者。
空间转录组(Spatially Resolved Transcriptoms, SRT)技术的发展让科研工作者能够测定组织样本中的所有基因活动,并定位该活动发生的位置[1]。了解组织中不同细胞的相对位置对于了解疾病病理至关重要,因为空间信息有助于了解细胞的基因表达如何受其周围环境的影响。在空间转录组数据分析中, 一个重要的步骤是区分不同的组织区域。在同一个组织区域内的细胞具有相似的的基因表达和形态结构。传统的聚类方法如 K-means 和 Louvain 通常只能将基因表达数据作为输入,而缺乏对空间信息和病理图像的利用,使其得到的组织区域划分不具有整体性和连续性,不能反映真实的组织结构。
在确定组织区域后, 另一个重要的问题是通过找到相应的空间变异基因(Spatially Variable Genes, SVGs)以推测区域的生物学功能。现存的寻找空间变异基因的方法[2,3,4] 往往独立的检查每个基因,并返回一个 p 值来表示其空间变异性。由于缺乏对组区域的考虑,这些方法检测到的基因没有特定的空间表达模式,难以用于进一步的生物学研究。
为了同时解决以上两个问题,李明瑶课题组开发了SpaGCN, 一种利用图卷积网络分析空间转绿组数据, 从而划分不同组织区域并寻找区域富集基因的机器学习算法。图1显示了SpaGCN算法的主要步骤。如图1a, SpaGCN 首先通过构建一张加权无向图(Undirected Weighted Graph)来将空间转录组中的基因表达、空间位置和病理学结构整合在一起。在这张加权无向图中, 每一个端点代表一个测序捕获区域(spot), 而连接两个端点的加权边则代表了两个测序捕获区域在空间和形态特征上的接近程度。之后, SpaGCN使用一个图卷积网络从构建好的图中进一步提取信息, 并把信息输送到一个分类层以将整个组织划分成不同的区域。之后,如图1b所示,SpaGCN将在每一个组织区域中寻找富集的空间变异基因,从而保证找出的基因具有相似的表达模式, 可用于进一步研究该组织区域的功能。对于难以找到富集基因的区域, SpaGCN将会生成一个复合基因来显示该区域的功能。
图 1: SpaGCN算法介绍
为了展示SpaGCN的优势,课题组分析了不同平台的空间转录组数据,包括 ST[5]、10X Visium、SLIDE-seqV2[6]、STARmap[7] 和 MERFISH[8], 并将SpaGCN的与Louvain, stLearn[9], BayesSpace[10]这三种分类方法, 以及SPARK[3]和SpatialDE[4]这两种基因检测方法进行了比较 。结果表明SpaGCN的性能始终优于其他现有方法。
由于篇幅所限, 在此仅展示一部分结果。图2显示了SpaGCN和其他方法在 小鼠后脑数据集上的表现。SpaGCN能够精准的区分出小鼠后脑的区域结构(图2a)和 其局部的皮层结构(图2b,c)。 对于每一个找到的区域,SpaGCN也能够找出具有明显空间变异性的富集基因(图2e)或复合基因(图2f)。
图2: SpaGCN与其他算法在小鼠后脑数据集上的比较
综上所述, SpaGCN是一个强大的用于空间转录组组织区域划分,寻找区域富集基因的工具。随着空间转录组在生物医学研究中的日益普及,课题组希望SpaGCN能对研究人员的大规模空间转录组数据分析提供帮助。
相关论文信息:
https://doi.org/10.1038/s41592-021-01255-8
代码:
https://github.com/jianhuupenn/SpaGCN
参考文献
[1] Hu, J., Schroeder, A., Coleman, K., Chen, C., Auerbach, B.J. and Li, M. Statistical and machine learning methods for spatially resolved transcriptomics with histology. Computational and Structural Biotechnology Journal, 19, p.3829 (2021). [2] Edsgard, D., Johnsson, P. & Sandberg, R. Identification of spatial expression trends in single-cell gene expression data. Nat Methods 15, 339-342 (2018). [3] Svensson, V., Teichmann, S.A. & Stegle, O. SpatialDE: identification of spatially variable genes. Nat Methods 15, 343-346 (2018). [4] Sun, S., Zhu, J. & Zhou, X. Statistical analysis of spatial expression patterns for spatially resolved transcriptomic studies. Nat Methods 17, 193-200 (2020). [5] Moncada, R., Barkley, D., Wagner, F., Chiodin, M., Devlin, J. C., Baron, M., Hajdu, C.H., Simeone, D.M., Yanai, I. (2020). Integrating microarray-based spatial transcriptomics and single-cell RNA-seq reveals tissue architecture in pancreatic [6] Stickels, R.R., et al. Highly sensitive spatial transcriptomics at near-cellular resolution with Slide-seqV2. Nature biotechnology (2020). [7] Wang, X., et al. Three-dimensional intact-tissue sequencing of single-cell transcriptional states. Science 361(2018). [8] Moffitt, J. R., Bambah-Mukku, D., Eichhorn, S. W., Vaughn, E., Shekhar, K., Perez, J. D., Rubinstein, N.D., Hao, J., Regev, A., Dulac, C., Zhuang, X. (2018). Molecular, spatial, and functional single-cell profiling of the hypothalamic preoptic region. Science, 362(6416), eaau5324. [9] Pham, D., et al. stLearn: integrating spatial location, tissue morphology and gene expression to find cell types, cell-cell interactions and spatial trajectories within undissociated tissues. bioRxiv (2020). [10] Zhao, E., et al. Spatial transcriptomics at subspot resolution with BayesSpace. Nature biotechnology (2021).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-29 09:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社