思想独立,个性自由分享 http://blog.sciencenet.cn/u/zls111 为自己的信仰而奋斗,为我们的未来而努力 http://baike.baidu.com/item/张亮生

博文

De novo基因组进入第三代测序技术时代

已有 10188 次阅读 2015-11-15 19:37 |系统分类:科普集锦| 基因组, 单分子测序


最近Nature一篇基因组文章采用PacBio RS II测序系统以72x覆盖度分析了这一植物245 Mb的基因组。组装结果非常惊讶。使用了625 contigs拼接出基因组, 其 contig N50 的长度是2.4M。 之前的基因组组装要构建文库,contig N50一般是40K左右,再构建大文库,使scaffold较长,对于动物来说可以达到2M级别,植物很多只有300K左右。

 Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature 2015/11/11/online

http://www.nature.com/nature/journal/vaop/ncurrent/full/nature15714.html

contig就是完全用序列拼接出来,中间没有缺失,由于之前基于二代测序技术,由于片段较短,很难拼出长序列,为了克服这个问题,使用3k 5k 10k 20k文库,也就是构建这些大片段,再把大片段两端100bp给测序,就能contig

给拼接起来,中间不知道就用N链接起来。N50就是50%的序列最短的那条序列长度,  怎么统计出来呢? 把序列按长到短排序,累计相加,当累计长度达到拼接的基因组大小的50%的时候,这一条序列是多长。这个对于contig 和scaffold适用,所以经常看到contig N50 和scaffold N50。这两个指标越大表示基因组组装的越好。如下图。


三代测序技术是能把20Kb给测通(据说平均读长能达到16Kb),所以contig N50就能达到之前的scaffold的效果,甚至更好。所以如这篇文章报道的,其contig N50就达到了2.4M。第三代技术这么强悍,相信以后大量的基于三代技术会涌现。



更加具体信息参考

Nature:PacBio完成耐旱植物Oropetium thomaeum基因组测序





https://blog.sciencenet.cn/blog-54593-935483.html

上一篇:我的第8篇文章在线
下一篇:国内科研机构发展瓶颈
收藏 IP: 220.184.21.*| 热度|

2 孟佳 dulizhi95

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 01:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部