|||
当年宋真宗赵恒为了提倡读书而写下了“书中自有黄金屋”,“书中自有颜如玉”的名诗,这是“知识就是力量”的比较直白的说法。但我这里“书里淘金”的书是指写在我们人的每个细胞核里的由4个字母(ACGT)所组成的30亿字母长的DNA天书:我们每个人自己的基因组。如果能读懂了这本书,也就破解了每个人高矮美丑、生老病死的天命。长期以来,科学家以为基因书里的遗传指令是通过脱氧核糖核酸(DNA)先转录成信使核糖核酸(mRNA),然后再翻译成各种蛋白质来执行。但21世纪初完成的第一个人类基因组却发现编码成蛋白质的基因只占我们基因组的2%。2012年的ENCODE项目进一步发现基因组的80%转录成大多数我们根本不知道有什么用的非编码RNA,其中许多是长非编码RNA(长于200个字母)。虽然少数长非编码RNA已经发现有功能,甚至在癌症发展中起到关键作用,但与蛋白质数目相比而言几乎是无穷多的长非编码RNA到底有多少是隐蔽的金库、多少是转录机器的随机扰动出错抛出来的垃圾还是一个有待于解决的问题。
rox 长非编码RNA与RNA helicase蛋白的复合结构(PDB 5ZTM)
大多数已知的长非编码RNA是通过高通量测序得到的,第一个难题是怎样判断长非编码RNA编不编码。国内外很多科学家成功发展了不少生物信息学工具,到现在判断的成功率已经非常高了(>95%),可以说问题基本解决了。但是这些高通量发现的长非编码RNA是不是真正有用(起生物作用),还需要用传统的“慢”(低通量)实验来一一验证。最近我们为所有已知道的慢实验验证过的长非编码RNA建立了一个数据库(EVlncRNAs)。里面收集了2016年5月前发表的77个物种1543有已知功能的长非编码RNA,文章发表在Nucleic Acids Research的2018年的数据库版。现在我们正忙着更新,初步看来又能增加一千个左右,可见这个领域是个大热门!可不是,每一个真正的有功能的新长非编码RNA的发现就是新知识的产生,就像当年发现一个新蛋白质而有新功能一样。
有了这些慢实验验证过的长非编码RNA,我们很自然的就有一个问题,慢实验验证过的长非编码RNA和高通量得到的表达的长非编码RNA有什么不同吗?如果是相同的话,那么所有高通量得到的长非编码RNA就都有生物作用的潜力。如果不同、能够区分的话,这就表明只有部分表达的长非编码RNA才有生物功能。利用部分已知的人源长非编码和编码RNA的数据,我们借助机器学习的方法发现:慢实验验证的lncRNA的确是可以从mRNA和高通量得到的lncRNA中区分开来。而且人源RNA数据训练出来的方法也可以鉴定老鼠慢实验验证的lncRNA,甚至植物的lncRNA, 尽管准确度会低一些。把该方法用于随机2000个高通量得到的人源lncRNA,发现28%可能是有功能的。这个结果表明两件事情:一是大多数高通量得到的人源lncRNA可能是无功能的,二是28%有功能的lncRNA也很不少了,远远多于目前已知的蛋白质的数目了。长非编码RNA就是一个新大陆,还能热门许多年。新的有功能的长非编码RNA还将会不断地被发现,而我们这个生物信息学方法(EVlncRNApred)可以帮助实验科学家进行初筛,能从RNA天书里面更快地淘到真正的金子。
感谢:这个工作是和山东德州学院的老师们多年来无缝合作而成的。
EVlncRNA数据库的网址:http://biophy.dzu.edu.cn/EVLncRNAs/
EVlncRNApred预测工具的网址:http://biophy.dzu.edu.cn/lncrnapred/index.html.
文章:
· B. Zhou, H. Zhao, J. Yu, C. Guo, X. Dou, F. Song, G. Hu, Z. Cao, Y. Qu, Y. Yang, Y. Zhou, and J. Wang, “EVLncRNAs: a manually curated database for long non-coding RNAs validated by low throughput experiments.”, Nucleic Acids Research, 46, D100-D105 (2018).
· B. Zhou, Y. Yang, J. Zhan, X. Dou, J. Wang, and Y. Zhou, “Predicting functional long non-coding RNAs validated by low throughput experiments.”, RNA Biology, in press (2019). https://www.tandfonline.com/doi/full/10.1080/15476286.2019.1644590
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 22:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社