||
使用机器学习发掘抗衰老药物
衰老是一种以细胞周期停滞、大分子损伤和代谢改变为特征的细胞状态。衰老表型可由多种细胞和环境应激因素触发,包括复制衰竭、致癌激活、化疗和放疗,并且已知对组织微环境有有益和有害的影响。例如,衰老有助于哺乳动物胚胎发育,促进伤口愈合和干细胞发育,并且是一种有效的肿瘤抑制机制,可以抑制有恶性变化危险的细胞的生长。相反,由于衰老细胞分泌一组称为衰老相关分泌表型(SASP)的复杂蛋白质,衰老细胞也会促进肿瘤发生和各种与年龄相关的恶性肿瘤。除了在癌症和衰老方面的作用外,抗衰老程序还与多种疾病的不良影响有关,包括骨质疏松症、骨关节炎、肺纤维化、SARS-CoV-2感染、肝脂肪变性和神经变性。因此,人们对发现新的抗衰老药物越来越感兴趣。选择性地针对衰老细胞进行清除的治疗剂。
抗衰老药物在改善小鼠许多疾病的症状方面显示出巨大的希望,衰老细胞的去除也与一些不利影响有关,因为衰老细胞在伤口愈合和肝功能等过程中的有益作用被阻断。尽管结果令人鼓舞,但迄今为止,很少有已知的化合物具有被证实的抗衰老作用,只有两种化合物在临床试验中显示出疗效(达沙替尼和槲皮素联合治疗)。一些最受关注的衰老药物是通过靶向上调的抗凋亡蛋白来鉴定的,如Bcl-2家族抑制剂navitoclax和ABT-737。其他的抗衰老药物是通过面板筛选发现的,最近,筛选发现心脏糖苷(瓦巴因、地高辛)和BET抑制剂( ARV825, JQ1)是有效的抗衰老药物。抗衰老疗法成功的一个关键挑战是,许多这类化合物表现出细胞类型特异性作用。此外,某些对一种细胞类型有效的衰老药物对其他非衰老细胞类型具有高度毒性。就癌症治疗而言,大多数已知的抗衰老药物靶向的途径在癌症中发生突变,这限制了它们作为治疗药物的适用性,并突出了发现可用于治疗的新抗衰老药物的必要性。
在过去的十年中,基于人工智能(AI)的计算筛选已被工业和学术实验室广泛采用,因为它们能够检测大量化学数据中的隐藏模式。这些由人工智能驱动的筛选可以缩小化学搜索空间,并在一系列任务中得到应用,如生物活性预测、目标识别、虚拟药物筛选和药物再利用。生成模型已被用于生成具有规定性质的新化学结构。这种方法通常采用分子动力学模拟和复杂的计算管道相结合的方法来指导候选药物空间。近年来,人们采用了基于分子指纹或化学结构表征的机器学习模型,其中一些方法背离了传统的靶向药物发现方法,转而采用靶向不可知策略,即利用表型读出进行模型训练。这种靶向不可知的方法为扩大药物发现管道早期阶段的化学起点范围提供了新的途径,并且特别适合于对控制衰老表型的分子途径掌握不佳的老年性药物发现。
在细胞衰老的背景下,各种工作已经使用机器学习来发现衰老保护剂,通过形态学特征训练的卷积神经网络发现衰老相关化合物和抗衰老化合物。生物信息学方法也有助于衰老相关化合物、抗衰老化合物和抗衰老化合物的靶标鉴定。
在这里,Smer-Barreto等人报告了用于发现老年学的机器学习管道的开发和验证(图1)。作者们收集了一个从多个来源挖掘的数据集,包括学术出版物和商业专利,并使用它来训练预测老年行为的机器学习模型。通过计算筛选了一个包含4000多个化合物的文库,并确定了一组减少的21个候选命中值用于实验验证。在两种癌基因和治疗诱导的衰老模型细胞系中进行的实验筛选显示,银杏素、夹竹桃素和杠柳素这三种化合物具有抗衰老活性,其效力和剂量反应与已知的抗衰老药物相当。作者们进一步表明,与已知的具有抗衰老作用的心脏苷相比,夹竹桃素对其靶标(Na+/K+ ATPase)及其抗衰老效应物NOXA具有更大的效力和活性。该工作表明,机器学习可以最大限度地利用已发表的筛选数据来寻找新的活性治疗化合物,为药物发现和再利用的新开放科学方法奠定方法学基础。
图1 用于训练衰老作用机器学习模型的化合物。a从多个来源收集训练数据。从学术论文和一项商业专利中挖掘出58种已知的抗衰老药物(阳性),并将它们与LOPAC-1280和Prestwick FDA批准的1280化学文库中的各种化合物(阴性)相结合。化学结构用RDKit计算了200个理化描述符,并根据它们的分解作用进行了二元标记。这些标记的数据被用来训练预测老年活动的二元分类器。b用于训练的58种衰老药物的来源,包括每个来源的化合物数量和鉴定出衰老的细胞系。c使用RDKit描述符作为特征进行训练的抗衰老药物聚类结构。该图显示了随着聚类数量(k)的增加,化合物的k均值聚类得分和剪影系数的平均值。误差条表示不同初始种子在100次重复中的一个标准差。在k均值得分中缺乏明确的“肘部”和低剪影系数表明,在接受训练的老年人中聚类不佳。d老年人训练用Tanimoto距离图。节点是化合物,边表示在物理化学特征空间中足够接近的化合物。节点颜色表示数据源。为了强调化合物之间的整体不相似性,将边缘厚度设置为Tanimoto相似度(1-距离)。插图显示了269条图边的Tanimoto距离分布(中位数距离为0.77)。e基于Louvain算法的Tanimoto距离图聚类算法用于社区检测。该图显示了100次运行中相对于分辨率参数(γ)的平均簇数(误差条表示一个标准差)。γ值的增加会产生更多的簇。观察到5和6个明显集群,表明数据中存在一定程度的集群。计算了所有化合物的调整后Rand index(Adjusted Rand index,ARI)平均值,以量化聚类标签和化合物源标签之间的相似性(15个标签;图e)。ARI值低表明Louvain聚类与文献来源标签有很大不同
参考文献
[1] Smer-Barreto V, Quintanilla A, Elliott RJR, Dawson JC, Sun J, Campa VM, Lorente-Macías Á, Unciti-Broceta A, Carragher NO, Acosta JC, Oyarzún DA. Discovery of senolytics using machine learning. Nat Commun. 2023 Jun 10;14(1):3445. doi: 10.1038/s41467-023-39120-1.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-8 15:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社