||
MiRformer:预测miRNA-mRNA相互作用的双Transformer编码器框架
微小 RNA(miRNA)是长度约为 22 个核苷酸的内源性非编码 RNA,通过与靶标信使 RNA(mRNA)结合来调控基因表达,导致其降解或翻译抑制。每个 miRNA 可以靶向数百个 mRNA,形成复杂的转录后调控网络,控制细胞增殖、分化和凋亡等多样化的生物过程。miRNA 表达的失调与多种疾病相关,包括癌症和神经退行性疾病。因此,准确预测 miRNA–mRNA 相互作用对于理解基因调控机制和推进基于 RNA 的疗法至关重要。然而,识别真正的靶标位点仍然极具挑战性,因为许多功能性相互作用涉及偏离碱基互补配对的非经典种子区,这使 miRNA 靶向规则的解读变得复杂,并促使开发更精确的计算模型。
尽管实验检测和下一代测序方法能够映射 miRNA–mRNA 相互作用,但它们仍然费时费力,这促使了准确计算机预测工具的开发。传统的启发式工具如 TargetScan 扫描目标 mRNA 的 3'UTR 以寻找跨物种保守的种子匹配。虽然这些方法对经典位点有效,但它们依赖于预定义的比对和保守性特征,因此难以推广到新的结合模式或扩展到千碱基长的序列。为了提高准确性,深度学习方法如 DeepMirTar 和 miRAW 结合了手工制作的生物特征,包括最小自由能、碱基配对概率和序列稳定性,以及原始序列。然而,这些特征要么来自实验数据,要么对输入序列的小扰动敏感,如单核苷酸变异。当用作模型的预计算输入时,这些特征可能会引入变异性并使端到端学习复杂化。miTAR 框架作为一个先进的系统,利用复杂的混合深度学习方法。该模型将卷积神经网络与循环神经网络相结合,显著增强了识别生物数据中模式的能力。然而,这种能力仅限于分析 miRNA 和 mRNA 的短串联序列,这限制了其应用范围。REPRESS 由卷积层之间的残差连接堆栈组成,从 mRNA 序列中推断 miRNA 结合和 Degradome-seq 读数计数。然而,当应用于人类和小鼠在 39 种细胞系和组织中的数据时,该模型不将 miRNA 序列作为输入,而是仅预测在所研究特定细胞系和组织中高度表达的 miRNA 靶位点,这限制了其泛化到新型 miRNA 靶位点的能力。总体而言,现有方法主要存在两个基本限制:依赖从有限的实验数据中手工设计的特征,以及难以扩展到千碱基长的 mRNA 序列。
近年来,Transformer 模型在生物序列建模领域取得了革命性进展,通过注意力机制捕捉全局和局部上下文特征。特别是基于 Transformer 的 RNA 语言模型在从原始序列中捕获 miRNA-mRNA 相互作用方面表现出色。Mimosa 利用两个独立的编码器——一个编码 mRNA 序列,另一个编码 miRNA 序列,并通过 Smith-Waterman 局部比对发现局部靶位点。这种方法是先进深度学习与经典比对算法的独特结合。RNAErnie,一个基于 Transformer 的 RNA 语言模型,通过多级 motif 感知掩码策略进行预训练,在预测 miRNA-mRNA 相互作用方面优于启发式方法和其他基于 Transformer 的 RNA 语言模型。
最近,Gu等人提出了 MiRformer(图1,https://github.com/li-lab-mcgill/miRformer),这是一个混合卷积和 Transformer 框架,解决了现有 miRNA 靶点预测方法的三个关键局限性:(1) 无法扩展到超出短、固定长度的 mRNA 输入——MiRformer 在双编码器架构中采用滑动窗口自注意,,线性扩展到全长 3'UTR;(2) 缺乏统一模型用于联合预测靶点、种子位置和切割位点——MiRformer 同时以高精度预测三个任务,而种子长度卷积标记化产生可解释的注意力模式,始终突出种子区域;(3) 长序列中的信号稀释——MiRformer 引入了一种新型滑动窗口交叉注意力,结合 LogSum-Exponential(LSE)池化在窗口聚合时放大稀疏种子信号,即使种子占输入不到 1%时也能保持精确定位。通过全面的基准测试,MiRformer 在所有任务上均达到最先进性能,始终优于现有方法。尽管在训练过程中从未观察到联合标记的种子和切割位点,但它产生了在分别使用 TargetScan 种子标签和 Degradome-seq 切割数据训练时,能够得到生物学上合理的共定位预测。为了验证其泛化能力,作者们在 miRBench 上进行了评估,这是一个独立基准,由实验 CLASH 和嵌合 eCLIP 数据衍生而来,MiRformer 在不重新训练的情况下实现了具有竞争力的性能。MiRformer 是首个能够以核苷酸分辨率同时预测 miRNA - mRNA 相互作用、配基结合位点以及切割位点,并且还能高效适用于全长 mRNA 序列的框架。

图1 MiRformer 概述 a) MiRformer 利用卷积标记化层从 miRNA 和 mRNA 中提取序列特征,并通过双 Transformer-编码器架构(DTEA)对特征进行编码。生成的嵌入随后被输入到两个专用的 Transformer 编码器中处理 miRNA 和 mRNA。这两个嵌入通过模拟 mRNA-mRNA 核苷酸级序列识别的交叉注意力机制进行融合。 b) 注意力机制。全自注意力通过将输入 miRNA 序列的每个碱基都关注到自身和其他碱基来编码 miRNA 序列。滑动窗口注意力通过仅关注 2w 窗口内的碱基来编码 mRNA 序列。交叉注意力通过在 mRNA 嵌入上扫描一个 2w 窗口来融合 miRNA 和 mRNA 序列嵌入。 c) 训练任务:目标预测、种子区域识别和降解事件预测
参考文献
[1] Jiayao Gu, Can Chen, Yue Li. MiRformer: a dual-transformer-encoder framework for predicting microRNA-mRNA interactions from paired sequences. bioRxiv 2025.11.21.689769; doi: https://doi.org/10.1101/2025.11.21.689769
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-2 02:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社