现在基因组测序成本越来越低,测一个基因组一个课题组都能承担下来,但是后续的基因组信息挖掘可不是容易的事,如何从基因组的信息中挖掘出有科学意义的东西可不是一般课题组能达到。就我最近分析基因组的过程在这里总结一下,权当做记载吧!
基因组组装: 基因组测序第一步就是测基因组序列再拼接,现在一般用的是solexa测序,其成本低,通量高,通过不同insertsize搭配拼接利用华大的soapdenovo软件拼接能获得很好的拼接效果,若有BACend则可拼接成更长的scaffold。再利用高密度遗传图谱确定scaffold的order和orientation.这样基因组蓝图即可确定。
基因注释: 目前基因注释有三种手段,denovo注释,EST/RNA-seq注释和homolog注释。其中denovo注释有genscan,fgenesh,glimmer等软件,EST主要代表利用传统sanger测序获得的RNA表达数据,RNA-seq主要代表利用第二代高通量测序获得的RNA表达数据,homolog注释是利用近缘物种的蛋白序列辅助注释。
重复序列注释: 首先是denovo预测,再在denovo预测的基础上做repeatmasker。其中denovo预测的方法有三种,LTR_finder,Piler和RepeatScout。LTR_finder主要是找LTR类型的具有完整结构的重复单元,Piler主要注释卫星重复序列,RepeatScout在前两种方法的基础上做些补充。denovo预测的结果合并作为该物种的repeat library, 再做repeatmasker,完整注释重复序列。
转座子注释 :LTR反转座子用LTR_STRUC注释,非LTR反转座子(SINE和LINE)和DNA转座子参考文献Holligan, D., Zhang, X., Jiang, N., Pritham, E.J. & Wessler, S.R. The Transposable Element Landscape of the Model Legume Lotus japonicus. Genetics 174 , 2215-2228 (2006)。
基因功能注释 :通常用interproscan和KEGG。interproscan能获得多个数据库的结构域注释结果和GO注释结果,KEGG能获得pathway注释结果。
多倍化研究 :基因组内部的多倍化过程,通过mcscan能获得基因组内部基因共线性的结果,可以确定是古四倍体还是古六倍体。
转载本文请联系原作者获取授权,同时请注明本文来自黄顺谋科学网博客。 链接地址: https://blog.sciencenet.cn/blog-442719-549675.html
上一篇:
如何管理科研团体——关系重大 下一篇:
如何让生活更有滋味