||
目前,最常用于表征疾病原因、药物作用机制的知识体系,主要由人类专家手工编辑形成的信号通路构成。DeepoMe深度甲基开发的DamoPa (Foundation Model for Medicine based on Pre-training),是希望用数据驱动的方式,在大规模数据集中计算得到与人类衰老、疾病病因与机制、药物作用相关的模型,形成预训练模型库。在应用中,基于本地数据(小规模数据集、甚至单个体的生物学测量),应用预训练模型,产生基于本地数据的副本,进而在本地数据上测试该模型与表型的相关性。或者生成基于内源性代谢物、营养素、药物的干预方案。
这里节选了部分内容。关注DeepoMe深度甲基公众号,输入“白皮书”可以获取DamoPa技术白皮书全文。
2018年,一篇发表在J Bone Miner Res的论文,经过血细胞DNA甲基化研究,认为骨质疏松与血细胞DNA甲基化信号无关。论文标题为:Primary Osteoporosis Is Not Reflected by Disease-Specific DNA Methylation or Accelerated Epigenetic Age in Blood。
我们利用DamoPa预训练模型的SEMO算法模块,在这个48例全血DNA甲基化芯片数据中,却发现了显著的生物标志物信号,可以将疾病组vs对照组显著地区分出来。
具体而言,我们把蛋白质相互作用子网络(PPI),与干扰因素组合。这里干扰因素可以是:
(1)内源性代谢物或营养素;
(2)中药;
(3)中医证候。例如,中医证候“虚”,是指所有功能注释中包含“虚”关键词的中药;
(4)所有pathways(包括KEGG,REACTOME,GO等),这里假设存在某种对特定pathway进行选择性干预的药物。
通过PPI与干预因素的组合形成SEMO特征(详见第二章 技术架构),可以发现与表型(疾病组vs对照组)显著相关的SEMO特征,例如:SRY.N-太子参,REM2.N-补,FIG4.N-GO PROCESS UTILIZING AUTOPHAGIC MACHANISM。如下图所示。
以左上角第一个子图(SRY.N-太子参)为例,图中,横坐标是与表型的相关性指数 Association index = -log10(p)。其中p为两类T检验(疾病组vs对照组)的p值。p值越小,Association index越大。红色的线代表SEMO特征(SRY.N-太子参)与表型的相关性指数。绿色的分布图表示SRY.N这个以SRY基因为中心节点的蛋白质子网络中所有蛋白质与表型的相关性指数。即,绿色代表基因水平的特征与表型的相关性,红色代表SEMO特征与表型的相关性。
从图中可以看出,代表SEMO特征的红线,其与表型的相关性远超绿色代表的基因水平特征。说明在基因特征(微观特征)的基础上,结合PPI与干预因素所构造的高阶特征(宏观变量),在发现表型相关标志物方面有获益。
复杂性科学的研究表明,宏观特征有时候呈现出比微观特征更强的因果性,例如更强的表型相关性。这种现象称为“因果涌现”。
计算出现在表型相关性最强的前100个SEMO特征中的所有PPI、中药/中医概念的出现频率。如下图所示。出现频次最高的中药有:鹿茸、苦参等。中医概念有“脉”、“惊”等。治法治则有:“补虚”、“生津”、“燥湿”等。
出现频次排名第三的SRY与骨质疏松显著相关。SRY即性别决定区Y基因,该基因调控骨代谢核心基因RANKL的表达和骨质量的性别差异。
我们希望与医学和制药工业紧密合作,以工程化的方式不断完善DamoPa的功能。这将使得DamoPa朝着融合中西医各自专长的基石数据平台的方向快速迭代。
如果您是科学家、临床专家、制药工业专家、营养专家、或健康管理专家,并希望测试、应用或探讨合作,欢迎与我们联系。
其他资料:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 15:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社