||
一篇Nature Method上一篇关于RNA-seq数据分析的文章,觉得很不错,里面还介绍了一些关于可变剪接的问题。下面列上列上的基本信息:
下面是在科学网上找到的一篇对该文章的点评和分析,附上全文,供大家参考阅读。 高通量RNA测序(RNA-seq)有望描绘出转录组的整体图像,实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降,以及个人化测序仪的上市,更多的实验室有机会尝试这种新技术。 然而,测序之后的数据分析才是真正的挑战。在RNA-seq之后,还需要一些强大的计算工具,才能绘制出完整的转录组图谱。在这一期的《自然—方法学》(Nature Methods)上,来自MIT和哈佛Broad研究院的研究人员发表了一篇综述,介绍了转录组注释和定量的计算方法。 首先,他们介绍了一些方法,将读数与参考转录组或基因组直接比对。之后,他们讨论了鉴定表达基因和亚型的方法。最后,他们还介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。 由于RNA-seq数据生成的不断改善,现有计算工具的发展有着很大差异。在某些领域,如读数定位,有多种算法存在,但在差异表达分析上,解决方案才刚刚出现。作者们强调了这些方法的核心原理和每种方法的关键差异,以及它们在RNA-seq分析上的应用。他们还讨论了这些不同的方法如何影响结果以及数据的阐释。 为了方便读者参考,他们还将现有的方法列成了一张表,注明了它们的原理和用途。另外,他们精选了一些有代表性的方法,应用在已经发表的RNA-seq数据组中。此数据组包含了5800万个末端配对的读数。 数据比对是RNA-seq分析中的一项基本任务,然而也面临着一些挑战,比如数据量大,读数很短(36-125 bp),错误率可观,且许多读数跨越外显子-外显子交界。对于RNA-seq的比对方法,作者将其分成“unspliced read aligners”和“spliced aligners” 两类,并分别介绍。 转录组重建也是个很困难的任务,因为基因表达差异很大,且读数可能来源于成熟的mRNA,也可能来源于未完全剪接的前体RNA,这样就很难鉴定成熟的转录本。当然,读数短也为分析带来了困难。目前的转录组重建方法主要有两类,一类是基因组指导的,另一类是不依赖于基因组的。作者比较了这两类方法,并具体介绍了每一类下面的几种方法。 至于转录组的图谱分析,DNA芯片一直是首选方法。在使用RNA-seq来估计基因表达时,需要将读数适当地标准化,才能提取出有意义的表达预测值。作者介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。 作者还提到,随着测序技术的成熟,如读长不断增加,现有的计算工具需要发展,也能满足新的需求,同时新工具也会不断出现,满足新的应用。 http://seq.cn/forum.php?mod=viewthread&tid=2643 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 13:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社