|||
高质量的全基因组组装结果和转录组注释信息(可以获得更全面的功能基因信息),对任何模式生物的充分研究和利用是非常重要的。今天要详细解析的是Macrostomum lignano这种扁形虫的基因组和转录组研究工作,这种扁形虫很奇妙,可以在切断之后,能够几乎完整地再生,即将一条扁形虫切成10段,可以获得10个几近完全一样的虫子来。希望可以通过解析扁形虫的基因组和转录组序列信息,能够揭秘其独特的再生机制,从而为干细胞的自我更新、再生和分化等研究奠定扎实的基础。
本研究由冷泉港实验室的Gregory J. Hannon(ku.ca.mac.kurc@nonnah.gerg)和Michael Schatz(ude.lhsc@ztahcsm)研究大牛领衔开展,于2015年10约6日发表在PNAS上。
一、Macrostomum lignano扁形虫及基因组特点:
冠轮动物,雌雄同体。
独特的生物学特点:受伤时可再生;饥饿时可减缓生长。
2n=8;
基因大小:~700Mb;
基因组特点:75%的序列为简单重复序列和转座子序列。
二、实验与材料:
测序品系:Macrostomum lignano DV1 line,经35代同胞杂交;一直培养在富含营养的f/2培养基中,气温20℃、湿度60%、光周期14/10h day/night循环;菱形藻(Nitzschia curvilineata)喂食。
再生实验:切断位置为后咽后,为确保完全去除性腺组织。后咽前一部分放在上述条件下喂养;分别在切割后的0h,3h, 6h, 12h, 24h, 48h和72h搜集扁形虫,共搜集获得100条扁形虫。
三、基因组测序:
HiSeq平台测序:构建180bp shotgun文库经HiSeq 2000 100PE测序170X。
PacBio测序:文库大小10Kb,PacBio RS II平台P4C2或P5C3试剂盒测序~130X,经过错误校正后其中大于10Kb的reads覆盖21X。
四、RNA测序:
a. 整条虫子转录组测序,200-400条扁形虫,TRIzol(Ambion)提取总RNA;分别构建了三个不同类型的文库:
第一个文库是用总RNA构建的;
第二个文库是基于 rRNA-depleted RNA (Ribo-Gold Epibio)构建的;
第三个文库是基于polyA-selected RNA (Poly(A)Purist MAG kit, Life Technologies)构建的
b. 关于再生这块的RNA文库构建,是采用Encore Complete RNA-Seq DR Multiplex System(PCR-free)构建的,共构建了两个文库。
上述文库通过HiSeq 2000 101PE测序完成。
五、小RNA测序:文章没有详细介绍这部分实验,但在分析环节提到了。
六、甲基化测序:使用Zymo EZmethylation gold kit进行亚硫酸氢钠转化,illumina平台测序。
七、信息分析内容:
1. 转录组de novo组装及注释:
1)Trinity package denovo组装;
The libraries included in the assembly were: total RNA prepared from 100 worms, polyA- selected RNA, ribo-depleted RNA (see above).
2)转录本denovo注释:
先和数据库SwissProt和Uniref90(是全球蛋白数据库UniProt的组成部分)数据库进行blast;
然后用HMMER v3.1b2 (http://hmmer.janelia.org/)中的Pfam-A hmm进行分析;
将上述分析结果下载到一个sqlite database中,最后通过Trinotate pipeline分析。
3)转录组差异表达分析:将不同再生时间节点的转录本序列信息分别比对至上述转录组组装结果上进行差异表达分析,比对软件为RSEM (Li and Dewey 2011);差异表达分析软件为 DESEq(
false-discovery rate ≤ 0.001, with aminimum fourfold change)
2. 基因组de novo组装和注释:
1)二代数据拼接:针对HiSeq数据(115X)进行denovo组装,组装软件为:SGA (github https://github.com/jts/sga);仅保留长度≥200bp以上的contigs(基于左右端reads长度加起来已有200bp为考虑),此为ML1组装结果。如下图:
Thefirst assembly draft, the ML1 assembly, had a very unusual four-modal K-mer distribution (Fig. 2A), suggesting a high frequency ofgenomic duplications (peaks 3 and 4).
图中表明基因组重复序列比例很高(见peak3和peak4),基于上述数据尝试组装获得ML1版本,非常片段化,contig平均长度仅532bp;contig N50仅222bp,最大的contig长度仅144 Kbp。
2)三代数据拼接:针对PacBio数据,采用HGAP(https://github.com/PacificBiosciences/HBAR-DTK)进行校正,仅长度大于10Kb的reads用于校正中;数据校正之后,采用Celera Assembler v8.2beta进行组装获得ML2组装结果。采用PacBio RS II reads组装结果ML2长度大大提升(详见下图),包括从contig N50从222bp提升至64Kb,最长的contig长度从144Kb提升至627Kb。下图是ML1和ML2结果比较:
Contig length distribution (log 2 scale) over the M. lignano genome in the ML1 (green)
and ML2 (red) assemblies. Note that the ML1 assembly covers only about 55% of the genome.
3)随机抽取ML1组装结果中的 81665 contigs(约占ML1的10%)通过Mummer v. 3.23比对至ML2组装结果上,获得per-base identity的结果报告。
4)NR 数据库比对以去除其他物种(如硅藻等)的序列,仅 e-value值为1e-10及以下的contigs予以保留。结果再通过LIS algorithm进行过滤。数据库比对结果发现扁形虫中的序列比对至Caenorhabditis remanei线虫的是最多的,表明扁形虫有和其他虫类等同源的基因。
5)基因组注释:
a. CEGMA评估gene space,248个保守的真核基因中,232 (93.55%) 全部比对、246 (99.19%)部分比对至扁形虫的基因组组装结果中,表明组装结果中gene space是很好的,但是组装子中的非编码区段很片段化,这可能是因基因组中高频率的low-complexity and tandem repeats所导致的。
b. 采用Maker v2.31.8 (Dec 2014)进行功能基因注释。
6)基因组组装结果验证:BAC文库构建及测序
构建BAC文库获得 60,000 BACs(insert size ~20Kb)和60,000 BACs(insert size of ~50Kb),HiSeq 2000 100PE测序,去除比对至BAC backbone和大肠杆菌的序列,余下的序列通过Bowtie 2 (v2.2.3)比对至ML2组装结果上。
4. 转座子序列分析:
采用RepeatScout version 1.0.5 分别对ML1和ML2组装结果进行分析。仅将在基因组中出现10次以上的重复序列用于后续分析。然后重复序列注释a custom non-redundant library fromNCBI entries (keywords: retrotransposon, transposase, "reverse transcriptase",gypsy, copia) obtained from O. Simakov and colleagues.
5. 序列复杂度分析Sequence Complexity Analysis;
6. 评估CpG content;
7. 甲基化测序reads分析:将甲基化测序reads mapping到ML2组装结果上。
更多信息请查看文献:Genome and transcriptome of the regeneration-competent flatworm, Macrostomum lignano.pdf
下载SI信息:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4603488/。
附作者信息:
Kaja Wasik,a,1 James Gurtowski,a,1 Xin Zhou,a,b Olivia Mendivil Ramos,a M. Joaquina Delás,a,c Giorgia Battistoni,a,cOsama El Demerdash,a Ilaria Falciatori,a,c Dita B. Vizoso,d Andrew D. Smith,e Peter Ladurner,f Lukas Schärer,d W. Richard McCombie,a Gregory J. Hannon,a,c,2 and Michael Schatza,2
a Watson School of Biological Sciences, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY, 11724;
b Molecular and Cellular Biology Graduate Program, Stony Brook University, NY, 11794;
c Cancer Research UK Cambridge Institute, University of Cambridge, Cambridge CB2 0RE, United Kingdom;
d Department of Evolutionary Biology, Zoological Institute, University of Basel, 4051 Basel, Switzerland;
e Department of Molecular and Computational Biology, University of Southern California, Los Angeles, CA, 90089;
f Department of Evolutionary Biology, Institute of Zoology and Center for Molecular Biosciences Innsbruck, University of Innsbruck, A-6020 Innsbruck, Austria
2To whom correspondence may be addressed. Email: ku.ca.mac.kurc@nonnah.gerg or ; Email: ude.lhsc@ztahcsm.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 18:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社