博文

MiRformer：预测miRNA-mRNA相互作用的双Transformer编码器框架

已有 182 次阅读 2026-5-1 21:07 |个人分类:科普|系统分类:科普集锦

MiRformer：预测miRNA-mRNA相互作用的双Transformer编码器框架

微小 RNA（miRNA）是长度约为 22 个核苷酸的内源性非编码 RNA，通过与靶标信使 RNA（mRNA）结合来调控基因表达，导致其降解或翻译抑制。每个 miRNA 可以靶向数百个 mRNA，形成复杂的转录后调控网络，控制细胞增殖、分化和凋亡等多样化的生物过程。miRNA 表达的失调与多种疾病相关，包括癌症和神经退行性疾病。因此，准确预测 miRNA–mRNA 相互作用对于理解基因调控机制和推进基于 RNA 的疗法至关重要。然而，识别真正的靶标位点仍然极具挑战性，因为许多功能性相互作用涉及偏离碱基互补配对的非经典种子区，这使 miRNA 靶向规则的解读变得复杂，并促使开发更精确的计算模型。

尽管实验检测和下一代测序方法能够映射 miRNA–mRNA 相互作用，但它们仍然费时费力，这促使了准确计算机预测工具的开发。传统的启发式工具如 TargetScan 扫描目标 mRNA 的 3'UTR 以寻找跨物种保守的种子匹配。虽然这些方法对经典位点有效，但它们依赖于预定义的比对和保守性特征，因此难以推广到新的结合模式或扩展到千碱基长的序列。为了提高准确性，深度学习方法如 DeepMirTar 和 miRAW 结合了手工制作的生物特征，包括最小自由能、碱基配对概率和序列稳定性，以及原始序列。然而，这些特征要么来自实验数据，要么对输入序列的小扰动敏感，如单核苷酸变异。当用作模型的预计算输入时，这些特征可能会引入变异性并使端到端学习复杂化。miTAR 框架作为一个先进的系统，利用复杂的混合深度学习方法。该模型将卷积神经网络与循环神经网络相结合，显著增强了识别生物数据中模式的能力。然而，这种能力仅限于分析 miRNA 和 mRNA 的短串联序列，这限制了其应用范围。REPRESS 由卷积层之间的残差连接堆栈组成，从 mRNA 序列中推断 miRNA 结合和 Degradome-seq 读数计数。然而，当应用于人类和小鼠在 39 种细胞系和组织中的数据时，该模型不将 miRNA 序列作为输入，而是仅预测在所研究特定细胞系和组织中高度表达的 miRNA 靶位点，这限制了其泛化到新型 miRNA 靶位点的能力。总体而言，现有方法主要存在两个基本限制：依赖从有限的实验数据中手工设计的特征，以及难以扩展到千碱基长的 mRNA 序列。

近年来，Transformer 模型在生物序列建模领域取得了革命性进展，通过注意力机制捕捉全局和局部上下文特征。特别是基于 Transformer 的 RNA 语言模型在从原始序列中捕获 miRNA-mRNA 相互作用方面表现出色。Mimosa 利用两个独立的编码器——一个编码 mRNA 序列，另一个编码 miRNA 序列，并通过 Smith-Waterman 局部比对发现局部靶位点。这种方法是先进深度学习与经典比对算法的独特结合。RNAErnie，一个基于 Transformer 的 RNA 语言模型，通过多级 motif 感知掩码策略进行预训练，在预测 miRNA-mRNA 相互作用方面优于启发式方法和其他基于 Transformer 的 RNA 语言模型。

最近，Gu等人提出了 MiRformer（图1，https://github.com/li-lab-mcgill/miRformer），这是一个混合卷积和 Transformer 框架，解决了现有 miRNA 靶点预测方法的三个关键局限性：(1) 无法扩展到超出短、固定长度的 mRNA 输入——MiRformer 在双编码器架构中采用滑动窗口自注意,，线性扩展到全长 3'UTR；(2) 缺乏统一模型用于联合预测靶点、种子位置和切割位点——MiRformer 同时以高精度预测三个任务，而种子长度卷积标记化产生可解释的注意力模式，始终突出种子区域；(3) 长序列中的信号稀释——MiRformer 引入了一种新型滑动窗口交叉注意力，结合 LogSum-Exponential（LSE）池化在窗口聚合时放大稀疏种子信号，即使种子占输入不到 1%时也能保持精确定位。通过全面的基准测试，MiRformer 在所有任务上均达到最先进性能，始终优于现有方法。尽管在训练过程中从未观察到联合标记的种子和切割位点，但它产生了在分别使用 TargetScan 种子标签和 Degradome-seq 切割数据训练时，能够得到生物学上合理的共定位预测。为了验证其泛化能力，作者们在 miRBench 上进行了评估，这是一个独立基准，由实验 CLASH 和嵌合 eCLIP 数据衍生而来，MiRformer 在不重新训练的情况下实现了具有竞争力的性能。MiRformer 是首个能够以核苷酸分辨率同时预测 miRNA - mRNA 相互作用、配基结合位点以及切割位点，并且还能高效适用于全长 mRNA 序列的框架。

图1 MiRformer 概述 a) MiRformer 利用卷积标记化层从 miRNA 和 mRNA 中提取序列特征，并通过双 Transformer-编码器架构（DTEA）对特征进行编码。生成的嵌入随后被输入到两个专用的 Transformer 编码器中处理 miRNA 和 mRNA。这两个嵌入通过模拟 mRNA-mRNA 核苷酸级序列识别的交叉注意力机制进行融合。 b) 注意力机制。全自注意力通过将输入 miRNA 序列的每个碱基都关注到自身和其他碱基来编码 miRNA 序列。滑动窗口注意力通过仅关注 2w 窗口内的碱基来编码 mRNA 序列。交叉注意力通过在 mRNA 嵌入上扫描一个 2w 窗口来融合 miRNA 和 mRNA 序列嵌入。 c) 训练任务：目标预测、种子区域识别和降解事件预测

参考文献

[1] Jiayao Gu, Can Chen, Yue Li. MiRformer: a dual-transformer-encoder framework for predicting microRNA-mRNA interactions from paired sequences. bioRxiv 2025.11.21.689769; doi: https://doi.org/10.1101/2025.11.21.689769

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC