||
基因表达数据通常是高维度的,包含了成千上万个基因的信息。这么庞大复杂的数据就像一团乱麻,很难直接从中发现有价值的规律。生成低维度的潜在空间,就像是把这团乱麻梳理成了几根关键的线索。例如,在一个包含众多基因表达信息的癌症数据集中,将其转化为低维度空间后,研究人员可以更直观地看到数据的分布模式,而不是被海量的基因数据搞得晕头转向。
美国研究人员牵头的一个国际团队,开始利用一种无监督深度学习方法,研究基因表达与肿瘤特征之间的关系。这种方法称为 “深度剖析”(Deep Profile),通过运用深度神经网络模型考量相对低维度的潜在空间和潜在变量,来探究具有生物学意义的癌症特征与基因表达之间的关系。DeepProfile 能够更好地将基因表达数据与实际的生物学过程联系起来,可以更准确地在癌症研究中揭示基因与免疫细胞激活、癌症亚型界定等关键生物学现象之间的联系。发现对跨癌症类型普遍重要的基因控制免疫细胞激活的秘密。Deep Profile 可以通过其生成的低维潜在空间,清晰地展示这些基因在这个空间中的位置和作用方式,从而使研究人员能够更好地理解这些基因是如何在生物学层面发挥功能的。
在癌症研究中,不同基因之间可能存在复杂的相互作用,这些相互作用在高维空间中很难被发现。通过生成低维度空间,可以将这些复杂的关系以更简单的形式呈现出来。比如,可能会发现某些基因组合在这个低维度空间中总是聚集在一起,这就暗示这些基因在癌症的发生、发展过程中可能存在协同作用,也许它们共同参与了免疫细胞激活或者肿瘤细胞的增殖等过程。
对于AI机器学习模型来说,处理低维度数据比高维度数据要容易得多。低维度的潜在空间可以减少模型的计算负担,让模型能够更快地学习和训练。而且,在低维度空间中,模型更容易找到数据中的关键特征,避免被一些不重要的高维噪声干扰。以预测癌症患者的预后为例,在低维度潜在空间基础上构建的模型可以更准确地找到与患者生存相关的基因表达模式,从而提高预测的准确性和效率。假设原始数据是一个1000维的基因表达向量(代表 1000个基因的表达情况),通过这种方式转换为一个10维的变量空间,这10个变量就可以在一定程度上概括原来1000个基因表达量变化的主要趋势,从而就能更方便地研究基因表达和癌症特征之间的关系。
生成低维度潜在空间可以让研究人员更容易将模型学习到的结果与已知的生物学知识联系起来。因为在这个空间里,基因表达的变化和潜在的生物学意义之间的联系可能会更加清晰。例如,在研究癌症的分子亚型时,低维度空间中的变量可能与特定的癌症亚型标志物相对应,这样就能更好地解释为什么某些基因表达模式可以区分不同的癌症亚型,从而为癌症的精准诊断和治疗提供更有价值的见解。
这项研究利用来自基因表达综合数据库(Gene Expression Omnibus)近 1100 个数据集的 50211 个样本的阵列基因表达数据对 “深度剖析” 工具进行训练后,应用于来自癌症基因组图谱(Cancer Genome Atlas)项目中 18 种癌症类型的 9079 个样本,把肿瘤基因表达图谱、正常组织表达模式、患者的表型特征以及来自生物学数据库的数据都整合到了一起。利用这种降维操作的方法,将高维输入的数据变量投射到含有少量潜在变量的低维空间,研究探究了不同癌症类型间共有的特征与特定癌症类型(如乳腺癌、急性髓系白血病和结直肠癌)内部的模式,同时梳理了可为患者生存提供线索的肿瘤通路和突变图谱。
当聚焦于与继发性肿瘤特征相关的潜在变量时,研究确定了细胞周期基因表达与肿瘤突变负荷之间存在关联;也显示了 DNA 错配修复基因活性以及巨噬细胞相关的 II 类主要组织相容性复合体抗原呈递与癌症患者生存之间的关系。研究人员认为“除了这种方法所代表的计算学进步之外,‘深度剖析’还提供了从现有数据中挖掘出的数百条生物学见解,可借此加深我们对不同人类恶性肿瘤的理解。
Deep profiling of gene expression across 18 human cancers. Nature Biomedical Engineering. 17 Dec 2024
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 18:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社