zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

计算生物学在非编码RNA研究中的应用

已有 1177 次阅读 2024-4-24 09:16 |个人分类:科普|系统分类:科普集锦

计算生物学在非编码RNA研究中的应用

在细胞内,非编码RNAnon-coding RNAncRNA)数量远远超过蛋白质编码RNA,并在其发挥着多样而重要的生物学功能。ncRNA英文综述文献众多,中文文献很少。最近,杨建华课题组围绕ncRNA 计算生物学中的常用算法和工具进行了综述,介绍了专家系统、机器学习、深度学习等计算生物学研究策略在ncRNA 鉴定、 ncRNA 靶标预测、RNA 修饰、RNA 二级结构检测、RNA-蛋白质互作及RNA 功能预测中的应用。

在概念层次,使用韦恩图对一些学科名字进行了区分(图1)。计算机科学、生物学和统计学衍生了四个交叉学科:数据科学、生物统计学、计算生物学和生物信息学。从这种区分可以看出,计算生物学与生物信息学的概念还是有所区分,不能够混淆使用。

image.png

1 非编码RNA与计算生物学 

在技术层面,计算生物学主要使用计算机科学领域的相关技术解决各种生物学问题(图2)。尤其是专家系统、机器学习和人工智能技术在解决生物学方面功不可没,这些技术将计算生物学研究推向新高潮。

image.png

2 计算生物学研究技术 

如何鉴定非编码RNA,是摆在计算生物学研究的首要问题。鉴定问题再计算生物学领域实际上是分类问题。如何有效分类,首先需要了解不同ncRNA类型的生物特性,然后将这些生物特性融入到分类模型中进行训练,以期提高分类模型的测试准确率(图3)。ncRNA鉴定常用的三种分类模型为支持向量机、随机森林和深度学习。当然,集成分类模型也是一种有潜力和前途的技术。

image.png

3 ncRNA鉴定 

鉴定完ncRNA,接下来的任务是识别ncRNA的靶基因。ncRNA与靶基因主要通过相互作用位点和碱基互补配对两种途径进行预测(图4)。相关技术主要采用专家系统、机器学习和深度学习方法。

image.png

4 ncRNA靶标预测 

RNA修饰鉴定也是一种训练-测试过程,因而需要构建分类模型(传统分类模型和深度学习模型)。这些分类模型鉴定的RNA修饰类型取决于不同修饰的特征数据集(图5)。 

image.png

5 RNA修饰鉴定的计算策略 

根据序列-结构-功能策略,RNA二级结构的预测有利于揭示不同RNA的生物学功能。在技术方面,相关模型主要有能量模型、共变易模型、传统机器学习和深度学习(图6)。 

image.png

6 RNA二级结构预测 

RNA与蛋白质如何互作也是了解RNA功能的一种途径,目前主要有专家系统和机器学习两种类型方法(图7)。 

image.png

7 RNA-蛋白质互作鉴定 

RNA生物学数据的意义在于它具有潜力揭示RNA功能。计算模型是生物学数据和RNA功能之间的一座便利桥(图8)。这座便利桥上面包含了特征工程、经典机器学习算法和深度学习算法,赋予了RNA功能预测的计算生物解析工具。

image.png

8 RNA功能预测 

总之,本综述对于想入门RNA领域,尤其是非编码RNA的研究人员是一个不错的选择。详细内容可参考文献[1] 

参考文献

[1] 陈志荣, 黄钧鸿, 李斌, 杨建华. 计算生物学在RNA 研究中的应用. 中国科学: 生命科学, 2024, https://doi.org/10.1360/SSV-2024-0055 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1431090.html

上一篇:拥抱癌症复杂性:系统疾病标志特征
下一篇:量化变量间直接关联关系
收藏 IP: 39.128.54.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 03:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部