||
人工智能时代的靶点识别与评估
人工智能(AI)正成为药物发现和开发领域的变革性工具,影响从靶点识别到临床试验结果分析的各个环节。靶点识别,即选择一个可调节的生物分子以实现预期的治疗效果并确保足够的安全性,通常是第一步,对后续步骤的成功概率以及所需资源具有决定性作用。
由于对许多疾病背后的生物复杂性理解有限,以及从人类基因组、疾病模型等来源提取必要见解的技术和资源限制,传统的靶点发现仍然充满挑战。在人类约 2 万个蛋白质编码基因中,估计有 4500 个被认为是可成药的。然而,迄今为止所有获批的药物仅通过 716 个不同的靶点发挥作用,这仅占可成药靶点空间的很小一部分,凸显了未来靶点发现研究的巨大机遇。
治疗靶点识别包括选择疾病领域,随后对与疾病生物学相关的各种现有数据源进行全面挖掘和分析(从已发表的论文到组学数据)。这个过程进一步扩展到生成、获取和分析新数据,以编制潜在靶点清单。这些候选靶点随后根据药物可成药性、安全性、专利性、竞争者分析和实验验证等关键标准进行严格评估(图 1)。许多这些步骤的效率和效果可以通过合适的 AI 工具来提升,这些工具整合异构的大规模数据集(例如组学和文献),以构建疾病生物学的统一表示,并通过机器学习模型揭示潜在机制。此外,AI 可以预测与靶点可及性和风险相关的关键特性,如药物可成药性、安全性和竞争格局,并通过自动化实验室指导实验设计,实现迭代假设的优化。这些能力共同通过系统性地生成和优先排序机制假设,在规模上增强了人类的专业知识。
图1 将 AI 集成到用于靶标识别和评估的既定步骤和数据源中。靶标识别的关键阶段(如理解疾病生物学、文本挖掘和组学分析)以及靶标评估(包括成药性、安全性、专利性、竞争者分析和实验验证)都通过人工智能(AI)得到增强。表示学习、图神经网络(GNN)、生成式 AI、基础模型、大型语言模型(LLM)和自动化实验室平台等技术的应用步骤已标明
最近,《Target identification and assessment in the era of AI》综述回顾了 AI 辅助靶点识别和评估的最新进展。在回顾靶点选择的关键考虑因素后,探讨了 AI 在治疗靶点识别中的作用,并强调了跨多个疾病领域的概念验证研究。最后,讨论了阻碍 AI 在靶点识别中有效使用的障碍以及克服这些障碍的策略。
靶点识别的关键考虑因素
治疗假说
确定治疗靶点,并阐明其调节机制如何以足够安全的方式影响疾病生物学,从而在患者中产生有意义的治疗效果,是一项复杂且多方面的挑战。此外,这通常涉及收集和/或生成多种类型的数据,并进行整合和分析。
历史上,疾病动物模型研究和/或临床观察通常为围绕特定生物学靶点构建治疗假设提供了关键信息。例如,血管紧张素转换酶(ACE)及其在血压调节中的关键作用,是在 20 世纪 30 年代开始的肾素-血管紧张素系统研究持续数十年的基础上确立的。20 世纪 60 年代证明,蛇毒衍生的肽类物质通过抑制 ACE 可降低动物血压,这是设计特定口服活性 ACE 抑制剂的基础之一。如第一类药物卡托普利等抑制剂,该药物于 1981 年获得美国食品药品监督管理局(FDA)批准用于治疗高血压。随着从 20 世纪 80 年代起基因组技术的进步,人类遗传学知识以及/或涉及细胞和动物模型中基因扰动的研究成为靶点识别工作日益重要的贡献者。许多成功的药物靶点,如乳腺癌的 HER2、黑色素瘤的突变型 BRAF 和心血管疾病的 PCSK9,最初都是通过遗传学研究发现的。
在过去 15 年里,人们越来越认识到许多疾病动物模型的预测价值有限,以及人类来源证据对支持治疗靶点假设的重要性。例如,研究估计,与没有人类遗传学支持相比,具有人类遗传学支持的药物机制的成功概率高出两倍以上。这导致了在药物发现和开发中生成、评估和整合此类证据的指南。
基于对人类来源证据的日益重视,一个显著的演变趋势是因果生物学研究的应用,该研究利用因果推理技术在大规模人类数据集中进行分析。研究人员将全基因组关联研究(GWAS)与数量性状基因座分析相结合,将单核苷酸多态性(SNP)映射到转录组或蛋白质组,并使用孟德尔随机化方法——一种在特定假设下推断因果关系的方法——来检验基因或蛋白质表达水平对疾病的影响,从而为潜在的药物靶点提供了有价值的证据。例如,Zhao等人使用孟德尔随机化方法来确定免疫介导性疾病的靶点,从而识别了已建立的药物靶点,并揭示了 CXCL5 水平与溃疡性结肠炎之间的因果关系。这与先前的研究结果一致,这些研究显示 CXCL5 的受体 CXCR2 的抑制在动物模型中可减轻结肠炎的严重程度。因果生物学研究的另一种策略利用人类细胞系中扰动实验的数据来推断机制关系并确定治疗靶点。一个突出的例子是癌症依赖图谱(DepMap),它利用针对 501 种不同癌细胞系的敲除筛选来分析遗传脆弱性。这项研究确定了 769 个基因,这些基因的功能丧失会选择性地损害部分细胞系的活力。对于每个基因,使用基于树的算法 ATLANTIS 来识别预测细胞对给定基因依赖性的分子特征(例如,基因表达和突变)。 这项分析产生了 426 个基因依赖性的预测模型,为癌症靶点识别提供了宝贵的见解。
成药性和安全性
药物可成药性是一个术语,用于描述识别能够以(例如抑制或激活)的方式调节靶点功能,从而在受特定疾病影响的患者中产生预期结果(如疾病修饰或症状缓解)的药物候选物的潜力。对于小分子疗法,药物可成药性与配体可成药性密切相关,后者是指靶点表面存在特征良好、易于接近的口袋,药物类小分子可以与之结合。了解靶点的三维结构和配体可成药性有助于优先考虑潜在靶点,并指导基于结构的药物设计。
现在,越来越多的其他治疗方式在临床上得到了验证,包括基于抗体的疗法(如单克隆抗体、抗体偶联药物和双特异性抗体)、基于寡核苷酸的疗法(例如反义寡核苷酸(ASO)和小干扰 RNA(siRNA),以及基因和细胞疗法(例如基于腺相关病毒载体(AAV)的基因疗法和嵌合抗原受体(CAR)-T 细胞疗法)。这些扩展了潜在可成药的疾病相关靶点的范围。每种方法都有其自身的可成药性考虑因素。例如,对于 ASO 和 siRNA,靶点的可成药性包括对核酸序列特异性的考虑,而癌症的 CAR-T 细胞疗法则依赖于识别合适的肿瘤抗原。新兴的 AI 工具,如 AlphaFold3,可以通过提供蛋白质-配体、抗体-抗原和寡核苷酸-蛋白质复合物的准确结构预测来促进可成药性评估。)
尽管药物可成药性是衡量靶点是否易于通过治疗药物进行临床干预的指标,但安全性与这种相互作用的特异性有着内在联系。除少数例外,药物不仅与治疗(期望)效果相关,还与不良反应(非期望)相关。某些不良反应与靶向活性有关;例如,抗凝剂可能导致过度出血。在靶点识别过程中评估此类风险依赖于预测(计算)毒理学和靶点相关生物通路的分析,以预见潜在的不良反应、设计缓解策略并指导药物开发决策。然而,大多数副作用是通过非靶向相互作用发生的,也称为“继发性药理学”。这些相互作用需要在药物候选物阶段通过适当的临床前系统(如由已知毒性问题的非靶点组成的体外测定面板)进行筛选评估。尽管全面预测脱靶效应仍然具有挑战性,但根据预期靶标与脱靶位点之间的结构相似性,在靶标识别/评估阶段可以预见一些潜在的脱靶相互作用风险。Simonovsky 和 Meyers 开发了 DeeplyTough,这是一种卷积神经网络,在超过 100 万对蛋白质口袋上进行了训练,这些口袋根据其结合配体的结构同源性被注释为相似或不相似。通过将蛋白质口袋结构编码为高维向量并计算它们之间的距离,DeeplyTough 量化了结合口袋之间的结构相似性。这有助于评估一个蛋白质的结合位点是否与其他口袋相似,为评估药物候选物的潜在脱靶效应提供了一种有价值的方法。
新颖性、置信度与商业可行性
战略性地选择靶点往往需要在靶点在疾病中的作用的新颖性与置信度之间进行微妙的权衡。高置信度的靶点有更多的科学证据支持,为向临床转化提供了更清晰的路径,并降低了药物研发中的风险。然而,新靶点为突破性疗法提供了机会,特别是对于未满足医疗需求的治疗。
新颖性与置信度之间的相互作用与靶点的商业可行性相关。新靶点有可能革新疾病的治疗方法并开拓新市场,而已建立的靶点可能提供更可预测和更安全的投资,但会面临来自其他药物的更大竞争。通常被称为“首例”(新靶点)与“优例”(具有改进特性的已建立靶点),这种平衡影响市场动态、竞争力、知识产权强度、整体投资和潜在回报。具有商业可行性的靶点不仅满足科学标准,还符合商业目标,因为它们提供了市场排他性。最终,药物在市场上的成功取决于在追求突破性靶点候选者和利用已建立靶点之间找到正确的平衡。
组合价值
靶点提供药物基础以作为联合治疗的一部分的潜力往往越来越重要,因为药物组合的协同或相加效应已被证明可以降低耐药性出现的可能性,增强治疗效果并拓宽治疗应用范围。例如,使用针对 HIV 生命周期不同靶点的药物开发的联合抗逆转录病毒“鸡尾酒”疗法通过有效抑制病毒和降低耐药性风险,改变了 HIV 治疗。增强疗效的一个例子是使用恩福妥单抗和派姆单抗联合治疗晚期尿路上皮癌。恩福妥单抗是一种一种专门靶向 Nectin 4 的单克隆抗体偶联药物,Nectin 4 是一种在尿路上皮癌细胞中高度表达的蛋白。一旦与 Nectin 4 结合,恩福妥单抗维德他汀会释放单甲基阿霉素(MMAE),这是一种破坏微管并导致细胞死亡的细胞毒性药物。组合中的另一成分,PD1 靶向单克隆抗体派姆单抗,可以阻断癌细胞利用 PDL1 相互作用来逃避免疫系统攻击的机制。恩福妥单抗维德他汀和派姆单抗的组合具有协同效应,通过直接杀死癌细胞和增强对癌细胞的免疫反应来提高治疗效果。最后,沙库巴曲和缬沙坦(商品名 Entresto)的组合药物是为了改进缬沙坦已建立的降血压特性,通过阻断血管紧张素 II 受体来抑制肾素-血管紧张素系统。 沙库巴曲的添加,这是一种通过抑制脑啡肽酶来调节利钠肽系统的药物,促成了已被批准用于治疗射血分数降低的心力衰竭以及其他心血管和心肾疾病的疗法,包括慢性肾脏病。
AI 在治疗靶标识别中的应用
将人工智能,尤其是机器学习,整合到治疗靶点识别中,有可能简化并增强药物发现过程。在本节中,将涵盖将人工智能应用于靶点识别的关键方面,包括数据来源、人工智能模型的类型以及模型验证的方法。
靶点识别数据
人工智能在治疗靶点识别中的应用基石在于其处理和分析各种复杂多模态数据的能力。组学数据包括遗传、转录组、蛋白质组、代谢组、表观遗传和微生物组数据,它们提供全面的生物信息,能够从分子层面系统地了解疾病的各个方面。遗传数据可以分析以识别与疾病相关的突变和变异;例如,人工智能工具可以用来识别新型致癌驱动因素,这些因素可能成为抗癌治疗的靶点。转录组、蛋白质组、表观遗传和代谢组数据共同提供了细胞和组织内生物活动的多层表示。这些数据集一起可以提供时空分辨的表观遗传变化动态、基因表达模式、蛋白质修饰、代谢物及其相互作用等方面的见解,这些对于阐明疾病机制都至关重要。 机器学习模型,从传统的基于树的算法到图神经网络(GNN)和生成式架构,促进了多种多组学数据的整合,以构建更全面的疾病分子特征,从而推进了靶点识别、生物标志物发现、疾病亚型分类以及药物反应和患者预后的预测。
细胞成像数据。基于 AI 的生物学图像分析可以为靶点识别、药物筛选和潜在疗法的优化提供信息(图 2)。传统的无监督聚类和决策树可以帮助识别微妙的细胞形态差异并改进图像分类。在大型标注数据集上训练的卷积神经网络例如,来自 JUMP-Cell Painting 联盟的技术能够自动学习区分不同细胞成分的特征和模式,从而促进在复杂的生物图像中进行目标检测和识别。

图2 基于 AI 的细胞成像用于靶点发现。该过程始于随着稳健疾病模型的开发,例如基因改造或化学诱导的细胞系或由诱导多能干细胞(iPS 细胞)衍生的模型。这些与疾病相关的细胞首先用于对已知靶点的化合物全面库进行高通量有效性筛选。在化学扰动后,表现出有效性的化合物随后通过细胞绘画测定法进行评估,该方法染色特定的细胞成分(例如,细胞核、内质网(ER)、线粒体)或 F-肌动蛋白)通过高通量成像技术捕获详细的形态学特征。所得图像通过多种机器学习模型进行处理和分析,包括无监督聚类、线性或惩罚线性模型、决策树、卷积神经网络和 Transformer。通过系统性地识别与疾病相关的表型变化——包括细胞形态和生物标志物表达的改变——这种集成方法促进了新治疗靶点的发现
例如,Yu 等人通过实施 Cell Painting 技术,这是一种可扩展的基于图像的细胞形态学检测方法,并与设计用于识别肠纤维化治疗靶点的机器学习算法相结合,展示了这一点。作者使用了 CCD-18co 人结肠成纤维细胞,这些细胞模拟了肠纤维化中观察到的炎症相关成纤维细胞,并将这些细胞用包含约 5000 种已知靶点的化学基因组库处理。随后进行了 Cell Painting 检测,以标记关键细胞器,包括线粒体、内质网(ER)、细胞骨架、高尔基体、质膜和细胞核,然后通过高内涵成像捕获多种细胞特征。通过使用 860 个形态特征的线性模型和有监督的主成分分析,结合炎症生物标志物数据,这项研究识别了几个有前景的肠纤维化治疗靶点,包括 VEGFR、PDGFR 和 MEK。在另一个例子中,Insitro 的研究人员开发了一种体外模型,用于研究肌萎缩侧索硬化症(ALS),该模型将机器学习与高内涵成像相结合,以研究疾病机制和潜在的治疗靶点。研究人员使用来自携带家族性 ALS 突变的同源诱导多能干细胞(iPS 细胞)系和相应的野生型对照的神经元高内涵图像,应用基于 transformer 的模型来提取图像嵌入。这些嵌入作为惩罚线性模型中的特征,用于识别家族性 ALS 相关的表型和生物标志物特征。这种方法建立了一个新的筛选平台,用于识别家族性 ALS 特异性治疗靶点。
生物知识图谱以图结构组织和表示生物实体之间的复杂关系和相互作用。例如包括相互作用网络(如 STRING、BioGRID、IntAct 和生物分子相互作用网络数据库(BIND))、生物通路(如京都基因与基因组百科全书(KEGG)、Reactome、WikiPathways 和基因本体(GO))以及异构知识图谱(如 iKraph、知识图谱生成器(KGG)和 PrimeKG)。STRING 数据库作为一个宝贵的资源库,收录了大量经过实验验证和计算预测的蛋白质-蛋白质相互作用(PPI)。此外,生物通路(如 Reactome 和 KEGG 数据库中收录的通路)提供了结构化且广泛注释的相互作用序列,这些序列对于细胞功能至关重要。异构知识图谱(例如 iKraph 和 KGG)整合来自不同来源的数据,如文献和精选的基因-疾病关联数据库,从而涵盖多种实体类型(如基因、通路和疾病),为生物医学研究提供丰富的资源。
各种类型的知识图谱已成为 AI 在靶点研究中的流行数据来源。例如,度中心性、介数中心性和接近中心性等 PPI 中心性度量已被用作靶点级别的特征,并在使用机器学习分类器(如随机森林)分类药物靶点与非靶点时显示出强大的区分能力。在另一种方法中,GNN已被用于将通路和 PPI 编码为潜在嵌入,从而促进癌症驱动基因的识别。形态上的个体差异,以及疾病和治疗措施引起的生化及生理反应。通过 AI 分析这些数据,可以揭示疾病机制、患者分层和潜在治疗途径,而这些仅从基因型数据中是无法显现的。经验证据表明,将临床数据和表型数据整合到靶点识别策略中,有潜力加速药物发现,并根据个体患者需求定制治疗方案,从而促进更有效和个性化的医疗保健。例如,采用 AI 驱动的知识图谱模型来优先考虑 FDA 批准的药物,用于兴奋剂型精神活性物质使用障碍的潜在再利用。随后的美国电子健康记录数据分析评估了这些候选药物与缓解结果之间的关联,确定氯胺酮是一种有前景的治疗药物。数据存储库,如 ClinicalTrials.gov,是宝贵资源,提供临床试验方案和结果的详细记录。通过分析不同临床试验的结果数据,AI 模型能够识别与改善结果相关的意外药物反应或患者特征,可能预示着新的靶点探索途径。
临床影像数据,如放射学或病理学扫描,可提供高分辨率的疾病表型视图,尤其是在与相关组学数据结合时。AI 模型,特别是卷积神经网络,在解读这些图像以做出诊断预测、评估预后甚至识别与视觉疾病模式相关的分子靶点方面已显示出有效性。
基于文本的信息。文献数据,包括科学出版物、会议论文集、资助细节和资金分配,是生物医学智能的全面知识库,可以从中挖掘出疾病机制、基因-疾病关联和当前研究氛围的见解。AI 系统可以解析和分析大量科学文章,提炼相关信息,从而生成新的疾病假设、识别治疗靶点和开发治疗策略。例如,AI 已经推动了 TrendyGenes 的发展。一个用于分析科学出版物、预测基因相关研究趋势并揭示这些趋势背后原因的计算流程。该流程使用命名实体识别和机器学习来建立基因与出版物之间的关联,随后将这些关联转换为时间序列数据,并通过循环神经网络(RNN)处理,以预测单个基因的出版物趋势。利用主题建模算法,该流程识别驱动基因流行度的因素,协助人类专家审查和导航生物医学文献。此外,对资助和资金数据的分析提供了当前研究优先级的指标,这可以引导 AI 算法朝向吸引资金支持的科研新兴领域。这种方法可以在科学饱和之前识别出有潜力的靶点发现领域。机器学习技术已被应用于审查资助模式,与研究成果和创新水平进行关联。 值得注意的是,AI 驱动的跨多种疾病的资助分配分析可以揭示研究资金的不平衡现象,识别可能需要更多科学关注的被忽视领域。
专利和行业报告可提供关于现有和新兴技术、药物开发轨迹、竞争格局以及靶点的商业潜力的见解。尽管靶点本身(如天然存在的生物实体)通常不可获得专利,因为它被视为自然产物,但相关的发明在满足新颖性、非显而易见性和实用性要求的情况下是可以获得专利的。例如,人工设计的蛋白质靶点(如具有非天然修饰的重组蛋白)、与靶点相互作用的小分子、使用靶点调节剂的疗法以及涉及靶点的诊断工具。人工智能可以分析这些信息,以识别现有专有靶点、正在研究的小分子以及药物研究的方向,为潜在治疗靶点候选者的可行性和新颖性提供背景线索。此外,通过专利分析评估的竞争对手研发方向可能提供关键竞争优势。 斯特齐通过检查专利引用来评估学术研究对工业创新的影响,以此说明了这一点。 同样地,监管提交数据这些对于寻求预测各种靶点临床成功的 AI 算法来说非常有价值。Ciray 和 Dogan 强调了 AI 在利用统计插补技术预测药物批准方面的潜力。此外,一项研究表明机器学习在用于药理生物标志物预测的监管数据应用中取得了成功。最后,AI 可以分析市场分析报告,识别高需求领域并预测市场趋势,从而为靶点选择提供信息。
整合异构数据类型。为了最大化异构数据源在目标识别和评估中的价值,有效的整合策略至关重要。一种方法是构建异构知识图谱,通过手动编辑和自动化计算流程相结合的方式,整合实体,如基因(例如,来自 HUGO 基因命名委员会)、通路(例如,来自 KEGG 和 Reactome)、疾病(例如,来自医疗主题头本体)和化合物(例如,来自 ChEMBL)。这个过程生成一个具有多样化节点和关系的统一图谱,适用于各种 AI 框架的分析。另一种策略是利用数据库技术在一个平台或数据仓库内协调异构数据源。例如,TargetMine 采用关系数据库来整合与目标识别相关的多模态数据。在该系统中,每种实体类型都表示为一个表,行对应基因,列对应属性,引用定义关系(例如,基因-通路或蛋白质-化合物相互作用)。 该设计支持用户提供的基因列表的快速批量查询,能够实现疾病关联性识别和靶点优先级排序等任务。开发能够整合多模态数据的先进 AI 模型是未来有前景的方向,将在后文详细阐述。
用于靶点识别的 AI 模型
机器学习在分析海量生物医学数据以揭示先前未知的疾病相关靶点方面展现出显著潜力。本节回顾了用于靶点识别和评估的机器学习框架,包括监督学习、无监督学习和半监督学习。同时,还重点介绍了应用于靶点发现的 AI 新兴技术,包括表示学习、图神经网络(GNN)、生成式 AI、基础模型和大型语言模型(LLM)。
监督学习使用标记数据来训练模型,这些模型可以对未见过的数据集进行预测或分类。该框架广泛应用于预测药物-靶点相互作用,其中已知的化合物-靶点对作为标记数据,用于推断缺乏注释相互作用的化合物的靶点。例如,Madhukar 等人开发了 BANDIT,一个监督学习框架,该框架整合了多种数据类型,如药物反应、药物结构和已知靶点,以预测药物-靶点相互作用。BANDIT 预测,ONC201 是一种抗癌化合物,先前通过表型筛选发现,但没有明确定义的靶点,会与多巴胺受体 D2(DRD2)相互作用。这一预测随后通过体外结合和报告基因实验得到验证,证实了 ONC201 对 DRD2 的选择性拮抗作用。
Mountjoy 等人将监督学习应用于在 133,441 个 GWAS 位点中优先排序因果疾病基因。作者进行了训练整合了精细映射的 GWAS 变异与基因之间的距离、数量性状基因座(eQTL 和 pQTL)数据的共定位结果,以及额外的功能基因组注释,如计算机模拟致病性预测和染色质相互作用证据。当应用于所有 GWAS 位点时,模型优先排序的基因在已知获批药物靶点上显著富集。
监督学习方法也被用于通过整合靶点特征(如生化特性、网络拓扑和知识图谱数据)来预测特定疾病的目标。例如,利用蛋白质知识图谱提取特定蛋白质与疾病之间的特征,Binder 等人开发了一种使用 XGBoost 算法的模型 MPxgb,用于识别可能与阿尔茨海默病(AD)相关的基因。该模型预测的 20 个潜在 AD 相关基因中,有 5 个通过实验筛选流程得到验证,包括分析人类 iPS 细胞来源神经元和死后脑组织样本中的 mRNA 水平,随后在人类神经母细胞瘤细胞中进行敲低实验。值得注意的是,该模型的预测包含许多先前研究较少的“暗基因”,这展示了监督学习在揭示新治疗靶点方面的作用。
由 Open Targets 和 PandaOmics 等已建立的靶点识别平台生成的靶点-疾病关联评分,也可应用于监督学习框架中进行靶点发现。Leung 等人将平台提供的 22 个基于组学和基于文本的评分作为输入特征,用于开发 TargetPro一种针对特定疾病的模型,旨在通过学习临床阶段靶点的特征来优先排序靶点。该模型在分类临床阶段靶点和识别具有成药性和生物学相关性的新靶点方面表现出色。
无监督学习分析未标记数据以识别隐藏的关系和结构,通常使用聚类和降维等技术。聚类技术在目标识别中的效用由“疾病模块识别 DREAM 挑战赛”所证明,这是一项公开竞赛,参赛者将各种无监督聚类算法应用于生物网络,如蛋白质相互作用网络和基因共表达网络,以识别与疾病相关的模块。使用包含各种疾病的全基因组关联研究数据集评估提交的模块表明,所识别的模块通常对应于疾病通路和基因,这支持了该方法在目标识别中的价值。
另一种无监督学习方法,自监督学习,利用未标记数据中的内在信号生成监督信息,使模型能够在无需外部标注的情况下学习有意义的模式。例如,Zeng 等人开发了一个自监督学习框架 ImageMol,该框架涉及在 1000 万个未标记的类药物分子上预训练编码器。通过采用全面整合图像编码中多种原则的预训练策略,ImageMol 在包括药物-靶点结合预测在内的各种下游任务中取得了优异的性能。此外,还有一种用于靶点发现的无监督策略识别涉及矩阵和张量分解。例如,Paliwal 等人开发了 Rosalind,它将包含五种类型实体的知识图谱编码为一个由实体-关系-实体三元组组成的三维张量。对该张量的分解,无需外部监督注释,即可预测缺失的关系,如基因-疾病关联,从而帮助识别目标。
半监督方法结合少量标记数据和大量未标记数据,通常在标记数据稀缺或获取成本高昂的情况下,帮助改善对大型未标记数据集的学习过程。Raies 等人开发了一种名为 DrugnomeAI 的半监督方法,用于预测候选靶点的成药性。该分析涵盖了所有蛋白质编码基因,其中一部分被标记为可成药,其余部分未标记以未知成药性。基因级特征来自多个来源,包括蛋白质相互作用网络。DrugnomeAI 的无监督学习组件执行降维以识别基因间的特征相似性,而其监督学习组件使用平衡标记数据集进行特征选择和成药性预测。作者展示了 DrugnomeAI 在预测肿瘤学和肿瘤外疾病的基因成药性以及特定药物模式(如小分子、单克隆抗体和蛋白酶靶向嵌合体)的应用。
另一个例子是 GuiltyTargets 用于药物靶点优先排序。它首先使用无监督学习,基于 PPI 网络和差异表达数据的结构和属性上下文来生成目标特征(即节点嵌入)。然后使用这些特征来预测每个蛋白质成为潜在药物靶标的概率,利用正则无标签学习来解决已知靶标作为正标签的稀缺问题。实证评估证实 GuiltyTargets 优于使用手动设计的拓扑节点特征的传统算法。
表示学习是高级人工智能技术(如 GNN、生成式 AI、基础模型和 LLM)的基础。它将多样化的生物数据实体(例如,显微镜图像、氨基酸残基或 PPI 网络中的基因)编码为潜在嵌入,这些嵌入是高维数值向量。尽管这些嵌入通常缺乏直接的人类可解释性,但它们捕获了内在和上下文的生物特性,从而促进了一系列下游任务,包括目标识别和药物发现。
一个显著的例子是 Recursion Pharmaceuticals 的 Phenom-Beta,它采用自监督掩码自动编码器方法,将细胞的高内涵显微镜图像转化为生物信息丰富的嵌入。Phenom-Beta 在超过 9300 万经过遗传和化学扰动的脐静脉内皮细胞显微镜图像上训练,在恢复已建立的生物学关系(如基因-基因和化合物-基因相互作用)方面,相较于弱监督基线实现了高达 28%的相对改进,从而促进从细胞图像中进行靶点识别。
另一个例子是 Meta AI 的 ESM-1v,这是一个基于 Transformer 的蛋白质语言模型,它从氨基酸序列生成嵌入,以预测突变影响。使用这些嵌入,ESM-1v 预测一个氨基酸在序列特定位置出现的可能性。概率较高的突变被认为是可接受的,因为它们与功能蛋白中观察到的模式相一致,表明影响较小,而概率较低的突变则更有可能产生有害的突变效应。这种能力使 ESM-1v 能够识别关键残基,支持靶向疗法的开发。
图神经网络使 AI 系统能够利用生物图数据来进行靶点发现。例如,王等人开发了 KG4SL,这是一个基于图神经网络的框架,它采用异构知识图谱来预测合成致死性,这是一种与抗癌疗法高度相关的基因相互作用。KG4SL 不是孤立地分析合成致死性基因对,而是捕捉这些对之间共享的生物机制,例如连接这些对的共同通路,从而提高了模型性能。
另一个例子是 Schulte-Sasse 等人开发的可解释多组学图集成(EMOGI),该模型采用图卷积网络来预测癌症靶点。EMOGI 将蛋白质相互作用网络与基因水平的多组学特征相结合,包括突变频率、表达变化和启动子甲基化水平。通过整合网络和分子信息,该模型识别出在功能丧失筛选中显著富集于必要性的新癌症基因。此外,Gonzalez 等人开发了 PDGrapher,这是一个基于表型驱动的模型,用于识别能够逆转基因表达检测所测量的疾病表型的扰动因子(治疗靶点的组合)。通过整合疾病与健康状态下的基因相互作用网络与差异表达谱,该模型利用图神经网络来优先考虑最有可能逆转疾病表型的基因靶点。在未见过数据上的评估中,PDGrapher 识别出由外部临床和生物学证据支持的治疗靶点。
生成式 AI 模型,通常基于 Transformer 和生成对抗网络(GAN)等深度学习架构构建,旨在生成新数据,并在文本生成、图像生成等领域得到广泛应用。在靶标识别的背景下,一个例子是 PreciousGPT 系列(也称为生命模型)。特别是 Precious2GPT 采用了一种混合架构,结合了条件扩散(CDiffusion)和解码器多组学预训练 Transformer(MoPT)模型,通过两种策略生成多组学和多组织数据:DeepInsight 流程,将多组学数据转换为图像表示;以及一种将多组学数据转换为 token 序列的标记化方案。这些合成数据集促进了下游分析,如年龄预测和疾病靶点发现。
此外,已通过多种方法探索了单细胞转录组数据的生成,这是一种对靶点识别具有重要价值的资源。一个显著的例子是条件单细胞生成对抗神经网络(cscGAN),它在一个外周血单核细胞 scRNA-seq 数据集上进行训练。通过从多样本中学习潜在的基因调控模式,cscGAN 能够生成高质量的转录组数据,即使对于训练集中稀有的细胞类型也是如此,从而实现可靠的靶点识别。GRouNdGAN 是另一种 GAN,它结合了受基因调控网络启发的生成器结构,使得生成的 scRNA-seq 数据能够更好地捕捉基因调控关系。另一个例子是 scGen,这是一种基于变分自编码器的模型,用于预测转录组中的单细胞扰动响应。scGen 将高维转录组数据转换为潜在向量,并在潜在空间中应用算术运算来建模。扰动效应。这使得 scGen 能够模拟细胞对基因敲除等扰动的反应,从而支持靶点发现。
基础模型,如 GPT-4 和 DALL-E2,通过在庞大且多样化的数据集上进行预训练,在自然语言处理(NLP)和计算机视觉领域取得了显著成功。经过微调后,这些模型具有高度的通用性,并且通常优于特定任务的模型。在靶点发现中的一个例子是 Geneformer,这是一个在约 3000 万个单细胞转录组上进行预训练的 Transformer 模型。基因表达值被转换为用于自监督掩码基因预测的排序列表(15%掩码),从而允许模型捕捉基因网络动态。这支持下游应用,如网络分析、细胞类型注释和扰动模拟。在心肌病中,Geneformer 预测抑制 gelsolin 和 phospholamban 可以使疾病状态向健康状态转变,这一预测通过在 iPS 细胞来源的心脏微组织中进行的 CRISPR 敲除得到了验证。
而 Geneformer 依赖于排序后的基因列表,另一个模型 scGPT,在超过 3300 万个单细胞转录组上进行预训练,采用生成方法,使用归一化(非排序)的基因表达数据和细胞元数据。scGPT 展现出与 Geneformer 相当的能力,并具备整合来自 scRNA-seq、scATAC-seq 和 CITE-seq 的多组学单细胞数据的能力。在多组学数据集上的多个微调任务中,scGPT 在细胞类型聚类方面优于最先进的方法。
上述的 Phenom-Beta,在涉及遗传和化学扰动的数百万张高内涵细胞图像上进行训练,也为表型组学提供了基础。它能够支持化合物筛选和扰动推理等应用,辅助靶点验证。scGPT 和 Phenom-Beta 都遵循规模法则,随着训练数据的增加,性能会得到提升。随着生物医学数据集的持续增长,基础模型将在未来的靶点识别研究中发挥越来越重要的作用。
大型语言模型。由微软研究院开发的 BioGPT,代表了将生成式预训练 LLM 应用于生物医学领域的重大进展。其预训练遵循标准的 GPT 框架,但利用了包含 1500 万篇 PubMed 摘要的特定领域语料库。在微调后,BioGPT 在多种生物医学任务中取得了最先进的性能,包括药物-靶点相互作用预测。Zagirova 等人进一步展示了该模型在靶点识别中的实用性,他们开发了一个基于 BioGPT 的管道用于发现与衰老相关的靶点,从而预测了 CCR5 和 PTH 作为与年龄相关疾病的新型治疗靶点。由谷歌 DeepMind 开发的 TxGemma 是另一个用于药物发现的著名 LLM。基于 Gemma-2,TxGemma 使用来自治疗数据公共库(TDC)的数据集进行了进一步微调,这些数据集包括基因-疾病关联预测等 66 项药物开发任务。在测试数据上的评估显示,TxGemma 在大多数任务上优于最先进的 LLM。 值得注意的是,它在基因-疾病关联预测方面取得了显著改进,将平均绝对误差从 0.28(基础模型)降低到 0.05。
LLM 催生了用于治疗靶点识别和评估的 AI 代理框架。一个例子是谷歌研究开发的 AI 合作科学家,它利用 Gemini 2.0 架构来协调多代理工作流程。独立代理生成、辩论和改进科学假设由可扩展的测试时计算支持,该计算能够实现推理的迭代改进。应用于肝纤维化,该系统优先考虑了用于治疗干预的新型表观遗传靶点。在一项配套的验证研究中,组蛋白脱乙酰酶(HDAC)和溴结构域蛋白 4(BRD4)——排名前三位候选者中的两个——被证实能在人类肝类器官中表现出抗纤维化活性。另一个例子是 OriGene,这是一个专门由 LLM 支持的多智能体框架,设计为虚拟疾病生物学家。模仿人类靶点发现专家的推理方式,OriGene 协调多个 AI 智能体(包括协调器、规划器、推理器、评论器和报告器智能体)与包含多组学数据、临床记录和生物医学文献的领域特定数据库交互,以解决与靶点相关的查询。每个智能体利用 LLM 来解释来自用户或上游智能体的自然语言输入,将这些输入翻译成精确的数据库查询,并将检索到的信息综合成连贯的自然语言响应。该框架识别了如 GPR160 等针对肝癌的新靶点,这些靶点随后在患者来源的类器官、肿瘤片段模型及相关体内模型中得到了验证。
AI 模型验证
对 AI 模型进行治疗靶点识别的验证是确保其可靠性和适用性的关键步骤。下一节将讨论三种关键验证方法:回顾性验证、实验性验证和前瞻性验证(图 3)。

图3 靶标发现中 AI 模型的验证策略。介绍了三种验证方法:回顾性验证、实验性验证和前瞻性验证。回顾性验证采用时间机器方法,在特定年份之前使用历史数据训练模型,并在之后进入临床阶段的全新靶点上评估其性能。模型性能通过真实新靶点预测的富集度来评估。实验性验证采用体外和体内实验来确认人工智能(AI)发现的靶点与其对应疾病的功能相关性。KANK1 和 GBP2 是 AI 识别的例子。实验验证旨在通过实验立即评估 AI 识别的药物靶点的生物学相关性和治疗潜力,而前瞻性验证通常源于后续的独立研究,对于确保 AI 模型能够在实际环境中准确预测结果至关重要。通过前瞻性验证收集的疾病表型和治疗结果的真实世界数据被反馈到 AI 模型中。这种互惠过程不断改进模型对新型治疗靶点的预测性能
回顾性验证是一种回顾性验证技术,它通过使用历史数据,以高灵敏度、特异性和整体预测能力评估 AI 模型准确识别已知治疗靶点的能力。回测的一个显著实例是 PandaOmics 平台实施的“时间机器”方法,其中 AI 模型在历史数据上进行训练,随后测试其预测已被后续进入临床试验的药物所验证和靶向的治疗靶点的能力。这项技术使平台能够识别纤维化、肿瘤学、神经退行性和年龄相关疾病中可行的治疗靶点。另一个例子来自一项 2022 年的文献检索研究,该研究考察了 2019 年预测的前 20 个自噬相关基因,揭示其中 9 个随后被报道在自噬中发挥作用。回顾性评估进一步证实,这 9 个基因中有 7 个以及从后 20 个基因中最近验证的 3 个预测中的 2 个确实是新的发现。
实验验证对 AI 预测靶点的功能及其与治疗药物的潜在相互作用进行实验验证,涉及严格的体外实验,例如基于细胞的和生化测试。例如,Zhang等人开发了 RefMap,这是一种机器学习方法,整合了全基因组关联研究、表观遗传学和转录组数据来识别新的 ALS 风险基因。使用人类神经元模型,他们通过 CRISPR 介导的破坏验证了他们预测中的新 ALS 基因 KANK1。KANK1 表达减少导致神经元活力下降、轴突缩短和分支长度减少,表明其在 ALS 发病机制中的潜在作用。
体内动物研究可以进一步阐明靶点在疾病机制中的作用以及干预策略的潜在影响。刘等人使用 AI 驱动的靶点发现平台鉴定了两种新的子宫内膜异位症靶点 GBP2 和 HCK。在人类子宫内膜异位症基质细胞中进行体外验证后,他们还证明了 GBP2 和 HCK 的 siRNA 介导的敲低皮下和腹腔子宫内膜异位症小鼠模型均显著减少了病灶体积和重量,同时降低了子宫内膜异位细胞内的增殖并增加了凋亡。
由于实验验证耗时且昂贵,因此谨慎选择验证靶点是至关重要的。随着人工智能驱动的自动化实验室等技术的出现,这些实验室将强化学习与自动化实验室流程相结合,以加速靶点验证,正如后文所述。
实验验证旨在通过实验立即评估 AI 识别的药物靶点的生物学相关性和治疗潜力,而前瞻性验证通常源于后续的独立研究,对于确保 AI 模型能够在实际环境中准确预测结果至关重要。Tsuji 等人采用基于深度学习的模型,通过分析蛋白质相互作用网络的特征来识别阿尔茨海默病的新靶点。一项后续研究验证了他们预测的 SYK 抑制可降低小鼠中磷酸化 tau 水平的结论,突出了靶向 SYK 在 tauopathy 中的潜在治疗价值。Pun 等人使用 AI 驱动的靶点发现平台来识别潜在的具有双重用途的与年龄相关的靶点。后续研究发现,抑制其中一些已识别的靶点,如 KDM1A 和 MMP2,可在细胞模型中缓解衰老。靶点验证研究的结果为优化和改进 AI 模型以实现更准确的靶点预测提供了宝贵的反馈。
治疗靶点的最终验证在于成功的人体临床试验。2009 年,Zhu 等人开发了一种计算方法,通过分析序列和结构相似性、已知靶点、结合位点和物理化学特性来预测药物靶点的临床成功。后来,在 2018 年,同一研究团队进行了一项前瞻性研究,验证了该方法的前瞻性预测准确性,评估了大约十年前评估的靶点的临床结果。具体而言,最初被确定为有潜力的 16 个 III 期靶点中,有 10 个导致了获批药物,而仅 15 个被认为没有潜力的 III 期靶点中只有 1 个导致了获批药物。此外,Aliper 等人对 inClinico 平台预测的临床试验结果进行了前瞻性验证,该平台集成了包括组学、文本信息、临床试验设计和小分子特性在内的多模态数据。前瞻性验证结果显示,II 期临床试验预测的准确率为 79%。 通过制药公司与学术机构的合作,AI 模型可应用于私有数据集或新数据,其预测结果随后通过与实验验证结果及后续药物开发过程的对比进行评估。
AI 在目标评估中的应用
靶点成药性评估
对于选定的药物开发靶点,评估其结构、功能特征、结合位点及可行性至关重要开发能够以特定、高效和安全的方式与靶点相互作用的药物小分子或生物制剂。在这方面,用于蛋白质结构预测的人工智能工具具有重要价值。DeepMind 开发的高精度蛋白质结构预测人工智能平台 AlphaFold 的引入,彻底改变了结构生物学。蛋白质具有灵活性和动态性,实验确定的蛋白质组结构仅占一小部分。结合生物信息学和物理方法,AlphaFold2 采用了新颖的神经网络架构,并在标记和非标记数据上进行训练,以实现端到端的立体结构预测。其准确性得到了广泛验证,并显示出远超传统方法(如 MODELLER、RosettaNGK 和 CODA)的性能。迄今为止,其应用已扩展到预测超过 2 亿种蛋白质结构。部分响应于 AlphaFold2,OpenFold 联盟开发了 OpenFold,以提供对其训练代码和数据的开放访问,同时实现了相当的预测精度。 与此同时,RoseTTAFold 也成为了另一个用于结构预测的主要深度学习框架。该领域最近随着 AlphaFold3 的推出取得了进展,它将这些能力扩展到了复杂的生物分子相互作用,为开源替代方案如 Boltz-2 以及即将推出的 OpenFold3 铺平了道路。
尽管 AlphaFold 在多个应用中已展现出显著价值,但其在基于结构的药物发现中的应用仍存在不确定性。回顾性对接研究表明,与实验结构相比,AlphaFold 预测的结构在重现配体结合模式和区分活性分子与假阳性分子方面存在局限性。然而,最近一项关于σ2 和血清素 2A 受体的前瞻性对接研究显示,AlphaFold 模型在新型配体发现方面可以与实验结构表现相当。AlphaFold 的实用性也得到了 Ren 等人的支持,他们报道了 AlphaFold 在设计一种新型化合物中的应用,该化合物靶向的是一种缺乏实验结构数据的、有潜力的癌症靶点——细胞周期蛋白依赖性激酶 20(CDK20)。基于 AlphaFold 预测的结构,研究人员设计了新型且高效的先导化合物,并证明了它们在癌细胞系中的选择性抗增殖活性。 除了 AlphaFold 之外,Lin 等人最近的一项研究表明,可以使用 LLM 来预测蛋白质结构,达到原子分辨率,从而构建了一个包含超过 2.25 亿个蛋白质序列的预测高置信度结构的进化尺度建模(ESM)宏基因组图谱。
AI 也能通过识别蛋白质中的隐秘口袋来助力药物可成药性评估。这些口袋在无配体实验结构中不存在,可能在构象变化过程中形成,可能作为先前被认为不可成药的蛋白质的结合位点。尽管传统的生物分子模拟可以识别这类隐藏的结合位点,但有些位点仅通过缓慢的结构变化(发生时间在微秒或更长)才暴露出来,使用标准方法通过计算发现它们具有挑战性。为解决这一局限性,Meller 等人使用 AlphaFold 生成结构集合,发现 AlphaFold 在十个测试案例中的六个中直接捕捉到了开放状态。疟原虫中的关键酶——质膜蛋白酶 II,包含一个对药物开发很重要的隐秘口袋。从 AlphaFold 生成的结构开始的模拟成功地采样了隐秘口袋的开放,而来自无配体实验结构的等效模拟未能做到这一点。然而,生物分子模拟仍然计算成本高昂,使得筛选大量靶点变得不可行。 为克服这一点,Meller 等人开发了 PocketMiner一种 GNN 模型,其识别隐秘口袋的速度比现有方法快 1000 倍以上。当应用于整个人类蛋白质组时,PocketMiner 预测了超过一半先前根据可用结构被认为缺乏口袋的蛋白质中的隐秘口袋,极大地扩展了潜在的药物靶点蛋白质组。
靶点新颖性和商业可行性
一项由 Long 等人最近的研究报告了一种通过双重评估新颖性和商业潜力来评估癌症治疗靶点的 AI 驱动方法。靶点新颖性通过综合分析药物开发状态、特定治疗领域的文献和科学文件进行定量确定。商业可行性则使用一个集成了多个参数的专用 LLM 进行评估,这些参数包括靶点-疾病因果关系证据、市场竞争格局、实验模型可用性和监管影响。该方法的有效性通过其准确分类已建立的肿瘤学靶点得到了验证:EGFR、PARP 和 ALK 显示出低新颖性但高商业可行性,这与它们的临床实施状态一致,而 MAT2A 和 CDK12 等新兴靶点则表现出更高的新颖性,反映了它们尚未开发的潜在治疗价值。分析进一步揭示,ENPP1、TNIK 和 MAT2A 在 2019 年至 2023 年期间的商业兴趣有所上升,表明人们对其最终转化为临床可行的癌症疗法的信心正在增强。
AI 支持的靶标识别实例
新靶点最终只有通过成功的临床试验来验证,这些试验为监管批准提供依据。目前,尚未有任何源自 AI 驱动的靶点识别的药物达到这一阶段,只有少数使用 AI 工具识别靶点的药物候选者进入临床试验。在此,重点介绍几个临床阶段的药物候选者,其中 AI 工具在识别或支持其靶点的治疗潜力方面发挥了关键作用。
TNIK 作为特发性肺纤维化的靶点
一项由 Insilico Medicine 的 Ren 等人最近的研究展示了端到端生成式 AI 在药物发现中的应用,用于识别特发性肺纤维化(IPF)的新靶点和潜在药物候选物,这是一种逐渐导致呼吸衰竭的进行性疾病。利用来自 IPF 和健康肺组织的多组学数据集,他们集成了 20 多种 AI 和生物信息学模型的 AI 平台,将 TNIK 确定为重点靶点。TNIK 在多个模型中均显示出高分,包括网络邻居、因果推理、通路、相互作用组社区、表达、异构图游走和矩阵分解。值得注意的是,尽管 TNIK 的切向功能之前已被研究,但它作为 IPF 的治疗靶点尚未被研究,使其成为平台选择的新靶点。有趣的是,TNIK 被独立预测为与衰老的多个标志物相关的靶点,可能是因为在相关衰老性疾病中观察到纤维化相关过程的失调。 作为丝氨酸/苏氨酸激酶,TNIK 协调多种信号级联反应,包括改变的细胞间通讯细胞衰老和营养感受失调。
在计算机模拟验证 TNIK 与纤维化的关联后,使用 GAN设计了一种新型 TNIK 抑制剂 INS018_055,在肺、皮肤和肝脏纤维化的小鼠模型中表现出强大的抗纤维化和抗炎活性。本研究中的临床前研究历时约 18 个月。强调 AI 驱动目标发现和药物设计的效率。此外,INS018_055 在两项独立的一期试验和一个二期 a 期试验(NCT05938920)中显示出良好的安全性和耐受性特征,该试验招募了 71 名中国 IPF 患者,在 12 周内评估了 3 种剂量方案(30mg 每日一次,30mg 每日两次或 60mg 每日一次)与安慰剂的效果。该研究在所有剂量水平上达到了主要安全性和耐受性终点。重要的是,该研究显示出强制肺活量(一项次要疗效终点)的剂量依赖性改善,其中 60mg 每日一次组观察到最大改善。一项平行的二期 a 期试验(NCT05975983)正在美国进行,以进一步验证这些发现(Insilico Medicine,参见相关链接)。
APLNR 作为抗衰老靶点
AI 驱动的分析可以帮助降低有希望药物靶点的临床转化风险。BioAge(参见相关链接)开发的药物发现平台整合了纵向多模态人类衰老数据集,将健康结果与多组学数据相结合,并应用贝叶斯网络分析等计算工具来识别与长寿和疾病延迟发生相关的分子特征。通过这种系统生物学方法,BioAge 发现与 Apelin(一种在老年人运动后循环水平增加的 exerkine,因其逆转年龄相关肌少症的潜力而备受关注)相关的蛋白质网络在显著随年龄变化的蛋白质中排名靠前。循环 Apelin 水平越高,与更长的寿命、更好的身体机能和改善的代谢健康相关。这些观察结果支持了增强 Apelin 信号传导可能有助于改善代谢衰老的假设。
公司报告称,在 Ib 期临床试验中,口服可用的小分子 apelin 受体(APLNR/APJ)激动剂 azelaprag,可防止自愿卧床休息的老年人肌肉大小、功能和蛋白质合成下降(参见相关链接)。血浆蛋白质组学分析显示,azelaprag 治疗再现了耐力运动的部分代谢和生理效应。这些发现支持进一步研究 apelin 受体信号通路及其治疗性调节,作为治疗代谢性衰老相关疾病的一种策略。
一项基于前期数据支持该组合的 II 期临床试验,评估 azelaprag 与替尔泊肽联合用于肥胖症,因部分服用 azelaprag 的患者肝酶水平出现意外升高(无临床显著症状)而终止(参见相关链接)。BioAge 正继续开发用于肥胖症及相关代谢性疾病的化学结构不同的 APJ 激动剂。
PIKfyve 作为 ALS 的靶点
肌萎缩侧索硬化症(ALS)是一种罕见的神经肌肉疾病,其特征是中枢神经系统(CNS)中运动神经元的进行性退化,关键致病机制包括基因突变(如 SOD1 和 C9ORF72 的突变)、异常的蛋白质稳态、兴奋性毒性及神经炎症。ALS 目前仍无法治愈,现有的少数获批疗法仅提供有限的益处,这凸显了开发新型更有效疗法的必要性。2018 年,有报道称 PIKfyve 抑制剂(如 apilimod)可改善 C9ORF72 突变患者来源的运动神经元存活率,表明 PIKfyve 阻断可能成为治疗 C9ORF72 介导的 ALS 的潜在方法。一项 IIa 期临床试验(NCT05163886)评估了 apilimod 二甲基酯的效果,显示该患者群体中存在中枢神经系统穿透性,并使毒性蛋白减少 73%。支持这一方法的是,Hung 等人 2023 年的研究报道,PIKfyve 抑制通过易聚集蛋白的外排激活了一种非传统的蛋白质清除机制,在患者来源的运动神经元和多发性 ALS 动物模型(包括 C9ORF72、TARDBP、FUS 和散发性病例)中显示出治疗潜力。
PIKfyve 抑制在不同类型 ALS 中的治疗潜力得到了 ConVERGE 的支持,ConVERGE 是一个由人工智能驱动的药物开发平台(参见相关链接),该平台专注于源自人类的数据,包括 ALS 患者,由 Verge Genomics 建立。该平台整合了多模态数据,包括多组学数据、蛋白质相互作用和细胞图像,以识别新的治疗靶点。Verge 开发了一种名为 VRG50635 的 PIKfyve 抑制剂,在健康志愿者参与的一期临床试验(NCT06286475)中显示出安全性和耐受性。随后,该化合物进入了一项概念验证研究,以评估其在 ALS 患者中的疗效(NCT06215755)。然而,在 2025 年底,Verge Genomics 终止了 VRG50635 项目,因为该药物未能显示出足够的疗效以满足必要的风险-效益比,这突显了将计算预测转化为复杂神经退行性疾病的临床疗效的挑战。
DRD2 作为抗癌靶点
尽管 TNIK、APLNR 和 PIKfyve 等靶标的识别说明了基于靶点的药物发现范式,但另一种方法涉及表型筛选,然后进行靶点解析。传统上,靶点解析依赖于基于实验室的实验,但这一过程正越来越多地得到 AI 的支持。
一个显著的例子是 DRD2 被识别为抗癌药物靶点。ONC201(dordaviprone)最初通过表型筛选发现,即使它进入临床试验,其靶点仍然不明确。随后,BANDIT(一种贝叶斯机器学习模型,用于预测药物-靶点相互作用)帮助识别了 DRD2 是 ONC201 的靶点之一,这一点在“监督学习”中有所强调。BANDIT 使用多种药物特征(例如结构、治疗后的转录反应和报告的不良反应)将 ONC201 与数千种已知靶点的药物进行比较,在相似药物可能共享靶点的假设下生成预测。ONC201 与奥皮罗米德和硫必利(两者都是多巴胺能拮抗剂)表现出高度相似性,从而预测 ONC201 靶向 DRD2。这一预测随后通过报告基因测定得到验证,证实了 ONC201 对 DRD2 的选择性拮抗作用,超过其他 G 蛋白偶联受体、激酶和核受体。 DRD2 被确定为 ONC201 的靶点,推动了在 DRD2 高表达的嗜铬细胞瘤-副神经节瘤这一肿瘤类型中的 II 期临床试验,该试验显示了 ONC201 的临床获益。
多拉维普隆于 2025 年获得 FDA 批准(参见相关链接)用于治疗 H3 K27M 突变的弥漫性中线胶质瘤。然而,在治疗背景下,多拉维普隆在临床试验中发现的另一种活性——线粒体酪蛋白溶解蛋白酶 P 的变构激活——被认为在其抗肿瘤特性中起着关键作用。
挑战与未来方向
将计算预测转化为具有临床意义的成果仍然受到技术和操作上的重大限制。在本节中,描述了关键限制,包括数据质量、模型可解释性和透明度等问题,这些问题共同勾勒出评估该领域成熟度并指导未来方向的清晰路线图。进一步提出,药物靶点发现的进展将依赖于集成多模态数据、提供可解释推理、采用严格基准测试并在人工智能驱动的闭环实验平台上运行的 AI 系统。
数据质量和可用性
AI 在靶点识别中的应用严重依赖于大规模、高质量数据进行训练。尽管近年来组学数据迅速积累,但它们在模型训练中的应用面临着重大挑战。一项试图为人类胚胎细胞系汇编全组学数据库的努力突出了诸如元数据缺失、元数据标准不一致、属性标签错误和非唯一样本名称等问题。强调了对组学数据存储库进行更细致管理的必要性。额外的局限性包括缺乏罕见疾病、种族和少数族裔以及社会弱势群体的组学数据,这可能导致模型泛化能力差。对于基因组数据,挑战在于制定最佳数据治理策略,以平衡广泛访问与防止潜在危害和滥用。为应对这些挑战,制药和生物技术公司已启动大规模数据生成和整合计划。值得注意的例子包括 Regeneron Genetics Center 的百万级外显子组数据集,其中包含 983,578 个人的基因变异。
对于科学文献数据,已发表研究结果的再现性构成了重大挑战。可重复性项目:癌症生物学(RPCB)仅成功复制了报告阳性效应的 40%的实验,表明存在大量假阳性结果。该项目还发现大多数研究的方法学描述不足,导致 84%的实验无法复制,强调了科学研究中需要提高数据质量、增加透明度和详细报告的必要性。从文献和精选数据库构建的生物学图可能继承发表和度数偏差,过度强调研究充分的基因、通路和疾病,从而扭曲链接预测任务。
数据样本中的类别不平衡,特别是在目标基因和非目标基因之间,可能导致 AI 模型预测产生偏差。已知治疗靶点数量与人类蛋白质编码基因总数(例如,700 个靶点中的~20,000 个基因)相比有限,可能导致数据集中存在潜在偏差,可能误导机器学习模型训练。
多模态数据分析的整合
一种有前景的策略是整合多模态数据集,如组学、影像和临床记录,以克服单一模态数据的局限性。越来越多的证据表明,多模态方法在目标发现相关任务中始终优于单一模态方法。例如,Chen 等人开发了一个用于综合表型分析和目标识别的多模态数据整合框架。将此框架应用于 COVID-19 数据集时,与单一组学方法相比,它减少了分类错误,并识别出参与关键 COVID-19 感染通路的不同丰度蛋白质(例如 SRSF10、MAVS 和 GSTP1),从而证实了其在目标发现中的相关性。Chaudhary 等人同样证明,基于深度学习的多组学整合方法在分类肝肿瘤亚型方面优于单一组学方法。在一项单细胞分析中,Hao 等人引入了“加权最近邻”(WNN),这是一个无监督学习框架,整合了来自同一细胞的转录组(RNA)和表面蛋白丰度数据。 这种方法改进了免疫细胞状态的注释,从而增强了免疫反应的表征和响应生物标志物的识别。
可解释人工智能模型
机器学习技术,尤其是深度学习,往往无法提供有关内部计算过程如何导致特定输出的见解,阻碍了故障排除过程,并使得识别和纠正错误变得困难。这种不透明性妨碍了领域专家对这些模型的评估,影响了它们的接受度。此外,用于训练机器学习模型的高质量数据学习模型通常被各公司保密,这进一步加剧了透明度问题。
作为解决“黑箱”问题的方案,可解释模型阐明了模型预测背后的原理。这种可解释性增强了人类专家的信任,并能够有效评估结果,支持 AI 驱动方法的更广泛接受和采用。增强可解释性的策略包括特征归因、自解释神经网络等方法。在 L2G 模型中,基于变量组顺序剔除的特征归因被用于优先排序来自 GWAS 位点的目标。在众多与基因组距离和功能基因组学相关的变量中,空间特征最具影响力,表明 L2G 模型主要依赖于精细映射的 GWAS 变异体与基因之间的邻近关系来推断因果关系。在另一个例子中,BenevolentAI 的研究人员在一个包含大量目标相关证据段落的大型集合上训练了一个目标识别模型,并使用 SHapley Additive exPlanations (SHAP)进行特征归因。每个证据段落被视为一个特征,最相关的段落嵌入被组合起来预测目标的潜力。 特征归因使得能够识别对目标预测贡献最大的特定段落。一个可解释神经网络架构的额外示例是 P-NET,这是一个为预测前列腺癌耐药性并识别塑造该结果的分子驱动因素而开发的模型。在 P-NET 中,输入层编码多组学基因级特征,而更深层的网络则捕获生物学通路和过程,抽象层次逐级提高。层之间的连接反映了基因-通路关系,跟踪信号在这些层中的传播使研究人员能够揭示模型决策背后的分子特征和机制。
标准化指标和基准测试框架
用于治疗靶点识别的 AI 模型的评估需要标准化的验证指标和基准测试框架,以确保科学严谨性并促进不同方法之间的公平比较。这些指标评估预测准确性、生物学相关性和临床可行性,指导模型改进。在 BETA 等基准框架中,通常使用精确度、召回率、F1 分数和受试者工作特征曲线下面积(AUC-ROC)等标准指标来评估药物-靶点相互作用的预测模型。尽管这些指标能有效量化预测准确性,但它们往往忽略了生物相关性和临床可行性,而这两者对于疾病特异性治疗靶点至关重要。OriGene 等自进化多智能体框架能自动化靶点识别,并采用问答式基准来与其他 LLM 的性能进行比较。然而,这类内部基准的主要局限性在于其缺乏普适性,因为它们主要针对基于 LLM 的工具设计,无法广泛用于评估用于靶点识别的多样化 AI 方法。
新兴的基准测试系统旨在通过整合多模态数据和强调临床效用来克服这些局限性。例如,TargetBench 能够对 AI 模型进行公开基准测试,以评估新靶点在不同疾病领域(包括肿瘤学、代谢性疾病、免疫性疾病、纤维化和神经系统疾病)的检索质量和质量评估。它采用多维度的评估方法,根据可成药性、结构数据可用性、再利用潜力和实验验证可行性对新型靶点进行评分。通过促进靶点识别模型和 LLM 的稳健比较,TargetBench 为不同的平台提供了一个标准化的评估框架,并为指导未来的药物靶点开发提供了关键见解。
合成数据和数字孪生
合成数据,指的是模仿真实世界生物学模式和特征的人造数据,可以通过人工智能算法生成以模拟各种生物学场景。多个合成数据计划,例如欧洲的 SYNTHIA 项目,涵盖包括实验室结果和基因组学在内的数据类型,同时提供高质量合成数据的存储库以及数据生成和评估工具。这些资源有助于解决代表性不足的群体、罕见疾病或细胞类型中的数据缺口。当与真实世界数据结合时,合成数据集增强了AI 模型训练用于目标识别,提升在不同场景中的泛化能力。然而,合成数据可能无意中编码来自现实世界的信息,增加个体重新识别的风险,并强调需要更严格的监管框架和技术保障来保护隐私。
合成数据也可用于创建数字孪生,即个体实体(如患者、器官或细胞)的虚拟模型。这些方法已引起制药公司的兴趣,尽管同行评审的研究仍然有限。最近开发的一种单细胞数字孪生框架通过整合多个疾病阶段中的 scRNA-seq 和 ATAC-seq 数据以及 AD 的 GWAS 位点,模拟了细胞类型特异性 AD 的进展,从而识别出 141 个靶点和 13 种可重新定位的药物。
AI 驱动的闭环实验平台
AI 驱动的闭环实验平台代表了一种新兴范式,其中 AI 模型提名治疗靶点,自动化实验室测试靶点调控,结果流入 AI 分析工具,分析输出反馈至靶点识别模型以优化靶点优先级(图 4)。闭环设计得益于化合物、生物样本、影像和多组学数据的端到端机器人处理,以及 AI 工具的集成(图 4)。多家公司已开发此类实验室平台,包括阿斯利康的 iLab(参见相关链接)、Tempus 的 Loop(参见相关链接)以及 Insilico Medicine 的模块化自动化实验室。利用 Insilico 的自动化模块,如细胞培养、高通量筛选和下一代测序,一项研究识别出 TNIK 抑制是一种新型 senomorphic 疗法。

图4 驱动的闭环实验平台。人工智能(AI)模型提名治疗靶点的范式;自动化实验室执行药理扰动以测试靶点调制;并且结果(例如,高内涵成像和多组学分析)通过人工智能工具进行分析,并反馈以更新靶点识别模型,从而在连续的轮次中优化靶点优先级
结论
AI 的集成正推动治疗靶点识别和评估向更系统化、数据驱动的方式发展。AI 分析跨越高维组学、表型成像和大型知识图谱的多模态数据的能力,解决了长期存在的生物学复杂性和转化失败难题。机器学习框架、神经架构、生成式 AI 和基础模型的进步,进一步赋予研究人员发现新治疗靶点并评估其成药性的能力。这一进展体现在多个 AI 识别的靶点已进入临床开发阶段。
然而,要充分发挥这些技术的潜力,需要解决持续存在的挑战。克服数据稀缺性和偏差、提升模型可解释性、建立严格的基准化标准,对于将 AI 工具的预测整合到决策中仍至关重要。靶点发现的未来在于通过 AI 驱动的闭环平台,实现计算和实验工作流的融合,加速生物学见解向有效、临床可行动疗法的转化。
参考文献
[1] Pun FW, Podolskiy D, Izumchenko E, Mortlock A, Oprea TI, Scheibye-Knudsen M, Fortney K, Morgen E, Ren F, Zhavoronkov A. Target identification and assessment in the era of AI. Nat Rev Drug Discov. 2026 Apr 20. doi: https://doi.org/10.1038/s41573-026-01412-8.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 02:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社