||
今天在bioRxiv看到刚在线的有关小麦基因组的文章。文章题目是“
The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum”。
看到文章作者和单位的时候,我有点不淡定了。作者不太熟悉,猜测应该不是和IWGSC那伙人是一起的。作者单位包括约翰斯·霍普金斯大学,太平洋生物科学公司(研发PacBio测序的公司),马里兰大学帕克分校。如果看过今年发表在Genome Research上有关粗山羊草的文章,对这一篇文章所采用的技术路线应该比较熟悉,因为两者采用的组装策略基本一致。我们主要说说与IWGSCv1.0版本相比有哪些优点和缺点。
两者都是对中国春这一来自中国四川的小麦材料进行测序。IWGSCv1.0版本只采用了二代测序的reads,一点没有采用PacBio平台的数据。进一步结合Hi-C数据以及群体遗传数据,最后将序列组装至染色体水平。但是IWGSCv1.0版本的缺点之一就是gap太多,大概是只采用了二代测序的reads的缘故,不能有效覆盖GC含量高的区段和跨越高度重复区域。IWGSCv1.0版本的另外一个缺点是组装出的基因组扔不够完整,这个版本有14.79Gb还是远小于预计的17Gb。
相比IWGSCv1.0版本,本次发布的版本(Triticum 3.0 )在序列连续性上要比前者要好很多,根据文中的说法,contig的连续性要高24倍,组装出的基因组也达到了15.34Gb.但是最大的缺点就是没有组装至染色体水平,因为没有结合现在流行的Hi-C等技术。如果采用这些数据,最后的结果应该要比IWGSCv1.0要好。这个版本用来补IWGSCv1.0的gap还是挺不错的。
相比结果的分析,我更惊讶于组装所花的时间。组装使用的计算集群算是比较大了,但是仍然花了半年多的时间。这里就不在细说了,详细看文章吧。
另外序列数据已经上传至NCBI(PRJNA392179),但是数据现在仍然查不到,估计会晚些时候释放。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社