吴婷婷at Macrogen千年基因分享 http://blog.sciencenet.cn/u/alinatingting /NGS/next generation sequencing/PacBio RS II sequencing/

博文

PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话

已有 7422 次阅读 2015-12-4 15:54 |个人分类:动物基因组测序研究进展|系统分类:科研笔记| 再生, PacBio, 扁形虫基因组, 三代基因组测序, PacBio测序


高质量的全基因组组装结果和转录组注释信息(可以获得更全面的功能基因信息),对任何模式生物的充分研究和利用是非常重要的。今天要详细解析的是Macrostomum lignano这种扁形虫的基因组和转录组研究工作,这种扁形虫很奇妙,可以在切断之后,能够几乎完整地再生,即将一条扁形虫切成10段,可以获得10个几近完全一样的虫子来。希望可以通过解析扁形虫的基因组和转录组序列信息,能够揭秘其独特的再生机制,从而为干细胞的自我更新、再生和分化等研究奠定扎实的基础。


本研究由冷泉港实验室的Gregory J. Hannon(ku.ca.mac.kurc@nonnah.gerg)和Michael Schatz(ude.lhsc@ztahcsm)研究大牛领衔开展,于2015年10约6日发表在PNAS上。


一、Macrostomum lignano扁形虫及基因组特点

冠轮动物,雌雄同体。

独特的生物学特点:受伤时可再生;饥饿时可减缓生长。

2n=8

基因大小:~700Mb

基因组特点:75%的序列为简单重复序列和转座子序列。

 

二、实验与材料:

测序品系Macrostomum lignano DV1 line,经35代同胞杂交;一直培养在富含营养的f/2培养基中,气温20、湿度60%、光周期14/10h day/night循环;菱形藻(Nitzschia curvilineata)喂食。 

再生实验:切断位置为后咽后,为确保完全去除性腺组织。后咽前一部分放在上述条件下喂养;分别在切割后的0h,3h, 6h, 12h, 24h, 48h72h搜集扁形虫,共搜集获得100条扁形虫。

 

三、基因组测序

HiSeq平台测序:构建180bp shotgun文库经HiSeq 2000 100PE测序170X

PacBio测序:文库大小10KbPacBio RS II平台P4C2P5C3试剂盒测序~130X,经过错误校正后其中大于10Kbreads覆盖21X

 

四、RNA测序

a. 整条虫子转录组测序,200-400条扁形虫,TRIzol(Ambion)提取总RNA;分别构建了三个不同类型的文库:

第一个文库是用总RNA构建的;

第二个文库是基于 rRNA-depleted RNA (Ribo-Gold Epibio)构建的;

第三个文库是基于polyA-selected RNA (Poly(A)Purist MAG kit, Life Technologies)构建的

b. 关于再生这块的RNA文库构建,是采用Encore Complete RNA-Seq DR Multiplex SystemPCR-free)构建的,共构建了两个文库。

上述文库通过HiSeq 2000 101PE测序完成。

 

五、小RNA测序文章没有详细介绍这部分实验,但在分析环节提到了。

 

六、甲基化测序:使用Zymo EZmethylation gold kit进行亚硫酸氢钠转化,illumina平台测序。 

 

七、信息分析内容

 

1. 转录组de novo组装及注释

1Trinity package denovo组装;

The libraries included in the assembly were: total RNA prepared from 100 worms, polyA- selected RNA, ribo-depleted RNA (see above).

2)转录本denovo注释:

先和数据库SwissProtUniref90(是全球蛋白数据库UniProt的组成部分)数据库进行blast

然后用HMMER v3.1b2 (http://hmmer.janelia.org/)中的Pfam-A hmm进行分析;

将上述分析结果下载到一个sqlite database中,最后通过Trinotate pipeline分析。

3)转录组差异表达分析:将不同再生时间节点的转录本序列信息分别比对至上述转录组组装结果上进行差异表达分析,比对软件为RSEM (Li and Dewey 2011);差异表达分析软件为 DESEq

false-discovery rate ≤ 0.001, with aminimum fourfold change


 

2. 基因组de novo组装和注释

 

1)二代数据拼接:针对HiSeq数据(115X)进行denovo组装,组装软件为:SGA  (github https://github.com/jts/sga);仅保留长度≥200bp以上的contigs(基于左右端reads长度加起来已有200bp为考虑),此为ML1组装结果。如下图:


Thefirst assembly draft, the ML1 assembly, had a very unusual four-modal K-mer distribution (Fig. 2A), suggesting a high frequency ofgenomic duplications (peaks 3 and 4).

图中表明基因组重复序列比例很高(见peak3peak4),基于上述数据尝试组装获得ML1版本,非常片段化,contig平均长度仅532bpcontig N50222bp,最大的contig长度仅144 Kbp


2)三代数据拼接:针对PacBio数据,采用HGAPhttps://github.com/PacificBiosciences/HBAR-DTK进行校正,仅长度大于10Kbreads用于校正中;数据校正之后,采用Celera Assembler v8.2beta进行组装获得ML2组装结果。采用PacBio RS II reads组装结果ML2长度大大提升(详见下图),包括从contig N50222bp提升至64Kb,最长的contig长度从144Kb提升至627Kb。下图是ML1ML2结果比较:


Contig length distribution (log 2 scale) over the M. lignano genome in the ML1 (green)

and ML2 (red) assemblies. Note that the ML1 assembly covers only about 55% of the genome.


 



3)随机抽取ML1组装结果中的 81665 contigs(约占ML110%)通过Mummer v. 3.23比对至ML2组装结果上,获得per-base identity的结果报告。

 

4NR 数据库比对以去除其他物种(如硅藻等)的序列,仅 e-value值为1e-10及以下的contigs予以保留。结果再通过LIS algorithm进行过滤。数据库比对结果发现扁形虫中的序列比对至Caenorhabditis remanei线虫的是最多的,表明扁形虫有和其他虫类等同源的基因。

 

5)基因组注释:

a. CEGMA评估gene space248个保守的真核基因中,232 (93.55%) 全部比对、246 (99.19%)部分比对至扁形虫的基因组组装结果中,表明组装结果中gene space是很好的,但是组装子中的非编码区段很片段化,这可能是因基因组中高频率的low-complexity and tandem repeats所导致的。

b. 采用Maker v2.31.8 (Dec 2014)进行功能基因注释。

 

6)基因组组装结果验证:BAC文库构建及测序

构建BAC文库获得 60,000 BACsinsert size ~20Kb)和60,000 BACsinsert  size  of  ~50Kb,HiSeq 2000 100PE测序,去除比对至BAC backbone和大肠杆菌的序列,余下的序列通过Bowtie 2 (v2.2.3)比对至ML2组装结果上。

 

4. 转座子序列分析

 

采用RepeatScout version 1.0.5 分别对ML1ML2组装结果进行分析。仅将在基因组中出现10次以上的重复序列用于后续分析。然后重复序列注释a custom non-redundant library fromNCBI entries (keywords: retrotransposon, transposase, "reverse transcriptase",gypsy, copia) obtained from O. Simakov and colleagues.

 

5. 序列复杂度分析Sequence Complexity Analysis

 

6. 评估CpG content

 

7. 甲基化测序reads分析:将甲基化测序reads mappingML2组装结果上。 

 

更多信息请查看文献:Genome and transcriptome of the regeneration-competent flatworm, Macrostomum lignano.pdf 

下载SI信息:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4603488/


附作者信息:


Kaja Wasik,a,1 James Gurtowski,a,1 Xin Zhou,a,b Olivia Mendivil Ramos,a M. Joaquina Delás,a,c Giorgia Battistoni,a,cOsama El Demerdash,a Ilaria Falciatori,a,c Dita B. Vizoso,d Andrew D. Smith,e Peter Ladurner,f Lukas Schärer,d W. Richard McCombie,a Gregory J. Hannon,a,c,2 and Michael Schatza,2

a Watson School of Biological Sciences, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY, 11724;

b Molecular and Cellular Biology Graduate Program, Stony Brook University, NY, 11794;

c Cancer Research UK Cambridge Institute, University of Cambridge, Cambridge CB2 0RE, United Kingdom;

d Department of Evolutionary Biology, Zoological Institute, University of Basel, 4051 Basel, Switzerland;

e Department of Molecular and Computational Biology, University of Southern California, Los Angeles, CA, 90089;

f Department of Evolutionary Biology, Institute of Zoology and Center for Molecular Biosciences Innsbruck, University of Innsbruck, A-6020 Innsbruck, Austria


2To whom correspondence may be addressed. Email: ku.ca.mac.kurc@nonnah.gerg or ; ude.lhsc@ztahcsm.

Contributed by Gregory J. Hannon, August 23, 2015 (sent for review June 25, 2015; reviewed by Ian Korf and Robert E. Steele)





https://blog.sciencenet.cn/blog-1333578-941064.html

上一篇:外显子组测序4500元任性体验,不做测序也能免费领礼品
下一篇:Nature:PacBio完成耐旱植物Oropetium thomaeum基因组测序
收藏 IP: 119.145.8.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 10:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部