zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

bayesReact:癌症、组织和单细胞水平的miRNA活性识别

已有 223 次阅读 2026-3-2 18:00 |个人分类:科普|系统分类:科普集锦

bayesReact:癌症、组织和单细胞水平的miRNA活性识别 

在保持组织完整性和预防癌变的同时,调控机制对于维持细胞内稳态、促进细胞正常增殖和分化至关重要。然而,关于调控细胞约束的空间时间复杂性仍有许多未知之处,新的调控因子仍在不断被发现和表征。调控机制通常需要通过基序识别进行,其中基序是一种独特的生物模式,例如核苷酸(nt)或肽序列。调控基序的表示范围从短字符串到复杂的正则表达式(RE)和位置权重矩阵(PWM),例如转录因子(TF)、RNA 结合蛋白(RBP)和微 RNAmiRNA)。 

miRNA 是一种研究深入的小型非编码 RNAncRNA),长度为 20-24 个核苷酸,通过结合靶 mRNA 3'非翻译区(UTR)来转录后调控靶 mRNA。成熟的 miRNA 来源于茎环前体的 5p 臂或 3p 臂(图 1A)。当两个臂都能产生有活性的 miRNA 时,它们通常在种子位点和靶点上有差异。miRNA-mRNA 相互作用主要发生在 miRNA 种子位点(通常位于核苷酸位置 2-8)和 mRNA 上的反向互补靶位点(图 1B)。成熟的 miRNA RNA 诱导沉默复合体(RISC)结合,主要通过转录不稳定和降解来抑制靶 mRNA 的翻译。miRNA 调节其靶转录本的丰度,影响细胞分化、增殖和凋亡过程。因此,miRNA 也被发现会在癌症中发生紊乱,包括 miR-122-5p miR-124-3p,它们分别被发现在肝细胞癌中下调和在胶质母细胞瘤中下调。这两种 miRNA 在完全分化的细胞阶段表达量很高,因此它们的下调可能会促进干性特征和随后的癌症进展。miRNA 可以同时具有致癌和抑癌的能力,其他调节因子类别也观察到类似的趋势。 

image.png

1 microRNA 基序模型和 bayesReact 框架。(A) 突出显示了 microRNAmiRNA)前体及其核心序列元素。(B) 成熟 miRNA 通过 RNA 诱导沉默复合体(RISC)结合以及 miRNA 种子序列与 mRNA 靶位点相互作用发挥作用。(C-F)所有必要的输入数据(灰色背景)、数据处理和基序建模(白色背景)均被描绘。(C)左侧展示了 bayesReact 输入数据的概览,包括一个包含 7-mer 基序的示例、多个条件下的小型模拟 Fold-changeFC)分数数据集以及带有注释基序的序列。右侧展示了基于 FC 的序列排序和单个注释基序的基序分布。(D)进行序列归一化以调整序列长度和核苷酸组成偏差,并缩放使得组合序列长度总和为 1(左侧)。 (E) 基于对排名序列中的基序出现情况进行建模,设置用于推断基序活性。(F) 输出每个条件中每个基序的推断基序活性。活性(得分)是具有与后验均值相反符号的参数值的符号后验概率。(G) bayesReact 模型及其依赖结构的图形板表示 

尽管在理解调控机制方面取得了相当大的进展,但阐明其细胞水平和条件特异性的活性仍然受限。例如,常用的高通量单细胞 RNA 测序(scRNA-Seq)平台使用聚 dT 引物进行转录本捕获和扩增,随后排除了大多数环状 RNA 和小非多聚腺苷酸化转录本。与此同时,新兴的全转录组和小 ncRNA scRNA-Seq 方法在通量、灵敏度和成功捕获长和短转录本的能力方面目前仍然有限。 

已经开发了多种计算方法来间接预测 miRNA 的存在以及靶标耗竭的水平。一些方法利用现有的配对 miRNA-mRNA 批量表达数据,包括 BIRTA ActMiRBIRTA 使用贝叶斯回归框架联合建模转录因子和 miRNA,以评估它们的开关行为,更新的 biRte 允许基于预定义的调控因子-mRNA 靶标相互作用进行联合调控网络推断。同时,ActMiR 利用 miRNA mRNA 表达谱之间的负关联程度来推断 miRNA 耗竭靶标的强度。 

虽然表达量测量转录本丰度,但活性提供了一个相对指标,表示调控因子对其靶标的调控程度。无监督方法,其适用范围超出 miRNA,利用已知的调控因子与其靶标之间的关系来估计活性。基于模式识别和基因集富集分析的方法提供了一种基于实验排序基因列表中模式出现频率的连续活动度量(图 2)。对于 miRNA,目标位点包含基因向列表低丰度端移动表明存在活跃的 miRNA。这种方法最初在 Sylamer 中用于 RNA-Seq 数据,该数据使用超几何统计来评估简单核苷酸串在排序基因列表中的过表现和欠表现(图 2A)。同时,cWords 在排序基因列表上定义了一个布朗桥,并评估其最大值的显著性(图 2B)。受这些方法的启发并对其进行扩展,miReact被开发。它包含两个步骤:首先,调整基因特异性核苷酸组成和序列长度偏差。其次,使用改进的 Wilcoxon秩和检验评估给定模式与基因排名的相关性(图 2C),该检验与之前的方法相比表现更好。值得注意的是,miReact 还能够评估复杂的正则表达式,该方法已被证明能够在单细胞水平上捕获预期的 miRNA 活性。对于空间转录组学数据,miTEA-HiRes 最近显示出捕获 miRNA 活性的潜力,其中 miRNA 靶基因使用 miRTarBase 定义,并通过最小超几何检验评估其分布(图 2D)。所有这些方法都有一个共同点,即它们的活性分数基于 p 值,通过与零假设比较观测数据来进行比较。当前的方法没有明确地模拟驱动表达排名基序分布的潜在生成过程,这阻碍了它们对不确定性的建模。因此,这些方法不容易扩展到更复杂的设置,例如考虑额外的特征(如靶标效率)以及整合与多组学分析相关的多个数据层。 

最近,Rasmussen等人提出了一种用于排名基因列表中基序出现的生成过程,利用该过程通过在用户友好的 R 软件包 bayesReactBAYESian modeling of Regular Expression ACTivity;图 1 2E)中实现可扩展的概率模型来模拟基序活动和不确定性。该方法通过估计来自批量和小细胞表达数据的 miRNA 活性得到验证,并且发现它在稀疏数据上的表现优于先前的方法。bayesReact 允许进行通用调控基序活性的推断和任何正则表达式的评估,使用贝叶斯因子(BF)进行零模型比较,计算可信区间(CI),数据模拟,以及进一步模型扩展,例如考虑序列排名不确定性、靶标效率或伪时间。该模型在 STAN 中实现,并使用马尔可夫链蒙特卡罗(MCMC)采样,或者可选地使用拉普拉斯近似,用于后验近似。 

image.png

2 使用选择方法进行活性推断。为比较而包含的方法的简化概述,突出其输入类型、一般框架、输出类型以及如何计算活性。(A) Sylamer 使用超几何检验同时评估基序过度并且在排名基因列表的部分区域中代表性不足。(B) cWords 使用布朗桥零模型进行运行和基序富集,并通过类似 Kolmogorov-Smirnov 的检验评估观察到的基序偏差。 (C) miReact 执行修正的 Wilcoxon 秩和检验来评估观察到的基序出现频率加权均值与中点(均匀零模型下的预期值)的偏差。(D) miTEA-HiRes 使用每个基因排名作为截止点,而不是区间,并使用单边超几何检验评估每个截止点的基序富集。 随后,通过最小 p 值定义活性,miTEA-HiRes 仅考虑基序富集而不考虑消耗。(E) bayesReact 是一个完全贝叶斯模型,利用 MCMC 采样来获得基序活性的后验概率和不确定性估计 

参考文献

[1] Rasmussen AM, Bouchard-Côté A, Pedersen JS. bayesReact: expression-coupled regulatory motif analysis detects microRNA activity across cancers, tissues, and at the single-cell level. Nucleic Acids Res. 2026 Feb 5;54(4):gkag072. https://doi.org/10.1093/nar/gkag072 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1524087.html

上一篇:WhatIsMyGene:回归基因富集基础
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-3 00:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部