mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

第一个接近完整的六倍体小麦基因组

已有 6222 次阅读 2017-7-4 17:38 |系统分类:论文交流| 小麦, 基因组

第一个接近完整的六倍体小麦基因组

 

今天在bioRxiv看到刚在线的有关小麦基因组的文章。文章题目是“

The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum”。

 看到文章作者和单位的时候,我有点不淡定了。作者不太熟悉,猜测应该不是和IWGSC那伙人是一起的。作者单位包括约翰斯·霍普金斯大学,太平洋生物科学公司(研发PacBio测序的公司),马里兰大学帕克分校。如果看过今年发表在Genome Research上有关粗山羊草的文章,对这一篇文章所采用的技术路线应该比较熟悉,因为两者采用的组装策略基本一致。我们主要说说与IWGSCv1.0版本相比有哪些优点和缺点。

两者都是对中国春这一来自中国四川的小麦材料进行测序。IWGSCv1.0版本只采用了二代测序的reads,一点没有采用PacBio平台的数据。进一步结合Hi-C数据以及群体遗传数据,最后将序列组装至染色体水平。但是IWGSCv1.0版本的缺点之一就是gap太多,大概是只采用了二代测序的reads的缘故,不能有效覆盖GC含量高的区段和跨越高度重复区域。IWGSCv1.0版本的另外一个缺点是组装出的基因组扔不够完整,这个版本有14.79Gb还是远小于预计的17Gb。

  相比IWGSCv1.0版本,本次发布的版本(Triticum 3.0 )在序列连续性上要比前者要好很多,根据文中的说法,contig的连续性要高24倍,组装出的基因组也达到了15.34Gb.但是最大的缺点就是没有组装至染色体水平,因为没有结合现在流行的Hi-C等技术。如果采用这些数据,最后的结果应该要比IWGSCv1.0要好。这个版本用来补IWGSCv1.0的gap还是挺不错的。

 相比结果的分析,我更惊讶于组装所花的时间。组装使用的计算集群算是比较大了,但是仍然花了半年多的时间。这里就不在细说了,详细看文章吧。

 另外序列数据已经上传至NCBI(PRJNA392179),但是数据现在仍然查不到,估计会晚些时候释放。





https://blog.sciencenet.cn/blog-1094241-1064564.html

上一篇:发篇cell能不能奖励1350万
下一篇:野生二粒小麦基因组在science发布
收藏 IP: 58.213.93.*| 热度|

1 栗茂腾

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 12:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部