zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

MiRformer:预测miRNA-mRNA相互作用的双Transformer编码器框架

已有 182 次阅读 2026-5-1 21:07 |个人分类:科普|系统分类:科普集锦

MiRformer:预测miRNA-mRNA相互作用的双Transformer编码器框架 

微小 RNAmiRNA)是长度约为 22 个核苷酸的内源性非编码 RNA,通过与靶标信使 RNAmRNA)结合来调控基因表达,导致其降解或翻译抑制。每个 miRNA 可以靶向数百个 mRNA,形成复杂的转录后调控网络,控制细胞增殖、分化和凋亡等多样化的生物过程。miRNA 表达的失调与多种疾病相关,包括癌症和神经退行性疾病。因此,准确预测 miRNA–mRNA 相互作用对于理解基因调控机制和推进基于 RNA 的疗法至关重要。然而,识别真正的靶标位点仍然极具挑战性,因为许多功能性相互作用涉及偏离碱基互补配对的非经典种子区,这使 miRNA 靶向规则的解读变得复杂,并促使开发更精确的计算模型。 

尽管实验检测和下一代测序方法能够映射 miRNA–mRNA 相互作用,但它们仍然费时费力,这促使了准确计算机预测工具的开发。传统的启发式工具如 TargetScan 扫描目标 mRNA 3'UTR 以寻找跨物种保守的种子匹配。虽然这些方法对经典位点有效,但它们依赖于预定义的比对和保守性特征,因此难以推广到新的结合模式或扩展到千碱基长的序列。为了提高准确性,深度学习方法如 DeepMirTar miRAW 结合了手工制作的生物特征,包括最小自由能、碱基配对概率和序列稳定性,以及原始序列。然而,这些特征要么来自实验数据,要么对输入序列的小扰动敏感,如单核苷酸变异。当用作模型的预计算输入时,这些特征可能会引入变异性并使端到端学习复杂化。miTAR 框架作为一个先进的系统,利用复杂的混合深度学习方法。该模型将卷积神经网络与循环神经网络相结合,显著增强了识别生物数据中模式的能力。然而,这种能力仅限于分析 miRNA mRNA 的短串联序列,这限制了其应用范围。REPRESS 由卷积层之间的残差连接堆栈组成,从 mRNA 序列中推断 miRNA 结合和 Degradome-seq 读数计数。然而,当应用于人类和小鼠在 39 种细胞系和组织中的数据时,该模型不将 miRNA 序列作为输入,而是仅预测在所研究特定细胞系和组织中高度表达的 miRNA 靶位点,这限制了其泛化到新型 miRNA 靶位点的能力。总体而言,现有方法主要存在两个基本限制:依赖从有限的实验数据中手工设计的特征,以及难以扩展到千碱基长的 mRNA 序列。 

近年来,Transformer 模型在生物序列建模领域取得了革命性进展,通过注意力机制捕捉全局和局部上下文特征。特别是基于 Transformer RNA 语言模型在从原始序列中捕获 miRNA-mRNA 相互作用方面表现出色。Mimosa 利用两个独立的编码器——一个编码 mRNA 序列,另一个编码 miRNA 序列,并通过 Smith-Waterman 局部比对发现局部靶位点。这种方法是先进深度学习与经典比对算法的独特结合。RNAErnie,一个基于 Transformer RNA 语言模型,通过多级 motif 感知掩码策略进行预训练,在预测 miRNA-mRNA 相互作用方面优于启发式方法和其他基于 Transformer RNA 语言模型。 

最近,Gu等人提出了 MiRformer(图1https://github.com/li-lab-mcgill/miRformer),这是一个混合卷积和 Transformer 框架,解决了现有 miRNA 靶点预测方法的三个关键局限性:(1) 无法扩展到超出短、固定长度的 mRNA 输入——MiRformer 在双编码器架构中采用滑动窗口自注意,,线性扩展到全长 3'UTR(2) 缺乏统一模型用于联合预测靶点、种子位置和切割位点——MiRformer 同时以高精度预测三个任务,而种子长度卷积标记化产生可解释的注意力模式,始终突出种子区域;(3) 长序列中的信号稀释——MiRformer 引入了一种新型滑动窗口交叉注意力,结合 LogSum-ExponentialLSE)池化在窗口聚合时放大稀疏种子信号,即使种子占输入不到 1%时也能保持精确定位。通过全面的基准测试,MiRformer 在所有任务上均达到最先进性能,始终优于现有方法。尽管在训练过程中从未观察到联合标记的种子和切割位点,但它产生了在分别使用 TargetScan 种子标签和 Degradome-seq 切割数据训练时,能够得到生物学上合理的共定位预测。为了验证其泛化能力,作者们在 miRBench 上进行了评估,这是一个独立基准,由实验 CLASH 和嵌合 eCLIP 数据衍生而来,MiRformer 在不重新训练的情况下实现了具有竞争力的性能。MiRformer 是首个能够以核苷酸分辨率同时预测 miRNA - mRNA 相互作用、配基结合位点以及切割位点,并且还能高效适用于全长 mRNA 序列的框架。 

image.png

1 MiRformer 概述 a) MiRformer 利用卷积标记化层从 miRNA mRNA 中提取序列特征,并通过双 Transformer-编码器架构(DTEA)对特征进行编码。生成的嵌入随后被输入到两个专用的 Transformer 编码器中处理 miRNA mRNA。这两个嵌入通过模拟 mRNA-mRNA 核苷酸级序列识别的交叉注意力机制进行融合。 b) 注意力机制。全自注意力通过将输入 miRNA 序列的每个碱基都关注到自身和其他碱基来编码 miRNA 序列。滑动窗口注意力通过仅关注 2w 窗口内的碱基来编码 mRNA 序列。交叉注意力通过在 mRNA 嵌入上扫描一个 2w 窗口来融合 miRNA mRNA 序列嵌入。 c) 训练任务:目标预测、种子区域识别和降解事件预测 

参考文献

[1] Jiayao Gu, Can Chen, Yue Li. MiRformer: a dual-transformer-encoder framework for predicting microRNA-mRNA interactions from paired sequences. bioRxiv 2025.11.21.689769; doi: https://doi.org/10.1101/2025.11.21.689769 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1533075.html

上一篇:DEEP-PLANT:植物调控基因组监督基础模型
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-2 02:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部