||
计算生物学在非编码RNA研究中的应用
在细胞内,非编码RNA(non-coding RNA,ncRNA)数量远远超过蛋白质编码RNA,并在其发挥着多样而重要的生物学功能。ncRNA英文综述文献众多,中文文献很少。最近,杨建华课题组围绕ncRNA 计算生物学中的常用算法和工具进行了综述,介绍了专家系统、机器学习、深度学习等计算生物学研究策略在ncRNA 鉴定、 ncRNA 靶标预测、RNA 修饰、RNA 二级结构检测、RNA-蛋白质互作及RNA 功能预测中的应用。
在概念层次,使用韦恩图对一些学科名字进行了区分(图1)。计算机科学、生物学和统计学衍生了四个交叉学科:数据科学、生物统计学、计算生物学和生物信息学。从这种区分可以看出,计算生物学与生物信息学的概念还是有所区分,不能够混淆使用。
图1 非编码RNA与计算生物学
在技术层面,计算生物学主要使用计算机科学领域的相关技术解决各种生物学问题(图2)。尤其是专家系统、机器学习和人工智能技术在解决生物学方面功不可没,这些技术将计算生物学研究推向新高潮。
图2 计算生物学研究技术
如何鉴定非编码RNA,是摆在计算生物学研究的首要问题。鉴定问题再计算生物学领域实际上是分类问题。如何有效分类,首先需要了解不同ncRNA类型的生物特性,然后将这些生物特性融入到分类模型中进行训练,以期提高分类模型的测试准确率(图3)。ncRNA鉴定常用的三种分类模型为支持向量机、随机森林和深度学习。当然,集成分类模型也是一种有潜力和前途的技术。
图3 ncRNA鉴定
鉴定完ncRNA,接下来的任务是识别ncRNA的靶基因。ncRNA与靶基因主要通过相互作用位点和碱基互补配对两种途径进行预测(图4)。相关技术主要采用专家系统、机器学习和深度学习方法。
图4 ncRNA靶标预测
RNA修饰鉴定也是一种训练-测试过程,因而需要构建分类模型(传统分类模型和深度学习模型)。这些分类模型鉴定的RNA修饰类型取决于不同修饰的特征数据集(图5)。
图5 RNA修饰鉴定的计算策略
根据序列-结构-功能策略,RNA二级结构的预测有利于揭示不同RNA的生物学功能。在技术方面,相关模型主要有能量模型、共变易模型、传统机器学习和深度学习(图6)。
图6 RNA二级结构预测
RNA与蛋白质如何互作也是了解RNA功能的一种途径,目前主要有专家系统和机器学习两种类型方法(图7)。
图7 RNA-蛋白质互作鉴定
RNA生物学数据的意义在于它具有潜力揭示RNA功能。计算模型是生物学数据和RNA功能之间的一座便利桥(图8)。这座便利桥上面包含了特征工程、经典机器学习算法和深度学习算法,赋予了RNA功能预测的计算生物解析工具。
图8 RNA功能预测
总之,本综述对于想入门RNA领域,尤其是非编码RNA的研究人员是一个不错的选择。详细内容可参考文献[1]。
参考文献
[1] 陈志荣, 黄钧鸿, 李斌, 杨建华. 计算生物学在RNA 研究中的应用. 中国科学: 生命科学, 2024, https://doi.org/10.1360/SSV-2024-0055
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 03:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社