|||
我们上周发了关于A基因组的解读Nature在线发表小麦二倍体祖先乌尔图基因组的研究论文,后面有位小伙伴留言对我们文中提到的31,269个miRNA表示怀疑,并建议我们复查原文是否我们写错了,是mRNA,而我们写成了miRNA。这一点在阅读原文的时候我们也注意到了,并且特意查看了材料与方法中所使用的方法,原文就是这么写的。那么31,269miRNA是怎么来的呢?
Moreover, we identified 31,269 microRNAs (miRNAs), 5,810 long non-coding RNAs (lncRNAs), 3,620 transfer RNAs (tRNAs), 80 ribosomal RNAs (rRNAs) and 2,519 small nuclear RNAs (snRNAs) throughout the genome (Extended Data Table 1d).
文中提供的信息来看是通过Infernal来预测的,就是纯预测的,假阳性非常高,不然那些研究miRNA的专家可以找个地方哭去了。如果用过softberry预测基因想必对此不会陌生。如果按照一般的miRNA鉴定思路会怎么来呢?
1 可以通过同源搜索,加上二级结构预测。即已知水稻,拟南芥等的miRNA序列,搜索小麦的同源序列,进而进行二级结构预测。这样能够找到一些非常保守的miRNA。小麦很早期的研究里会包括这样一个过程。
2 构建 small RNA文库,mapping至基因组或转录组,进而利用软件进行二级结构预测,选出符合条件的miRNA。关于miRNA的标准,我们前面曾介绍过在大数据时代重新审视植物miRNA注释的标准,文中明确说到,如果一篇文章里鉴定到成百上千的新miRNA,那一定是有问题的。这里mapping的对象首要的选择是转录本序列,而不是基因组序列。之所以用基因组,是因为转录本是有限条件下获取的,不能代表所有真实存在的转录本。而使用基因组序列呢,也要注意一些不能mapping至基因组的小RNA也可能是因为位于可变剪切位点上。
研究单独的一个miRNA序列,还需要找到star sequence,前体序列以及初级转录本。甚至预测并验证其真正的靶基因,这才算是真正有功能的miRNA。这一点完全可以参照毛龙研究员14年发表在 plant cell上的文章“mRNA and Small RNA Transcriptomes Reveal Insights into Dynamic Homoeolog Regulation of Allopolyploid Heterosis in Nascent Hexaploid Wheat”。
小麦的研究miRNA也有些难点,我们常说小麦有很多重复序列,实际上在前期确实也鉴定到一些和重复序列有关的miRNA,但这些miRNA到底是有哪些位点转录出来的,确定起来还是有一定的难度。
最后要提醒大家,在使用这些参考序列时,心里面一定要数,这些参考序列不是100%正确的,给你的基因也有可能会出错。拿中国春来说,现在是1.0版本,相信不久就会推出2.0版本来纠正1.0版本的错误。人类基因组也是随着技术的进步不断在完善。当我们碰到结果矛盾的时候,最好也考虑下这方面的问题。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 18:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社