吴婷婷at Macrogen千年基因分享 http://blog.sciencenet.cn/u/alinatingting /NGS/next generation sequencing/PacBio RS II sequencing/

博文

i5k基因组计划先导项目,绿头苍蝇基因组研究成果发表

已有 8559 次阅读 2015-6-29 14:30 |个人分类:动物基因组测序研究进展|系统分类:科研笔记| 果蝇, 绿头苍蝇基因组, 苍蝇基因组


       绿头苍蝇Lucilia cuprina基因组研究,是贝勒医学院人类基因组测序中心5000个节肢动物基因组计划(i5k)的先导项目中,所开展的30个基因组测序项目之一其全基因组研究由澳大利亚墨尔本大学、美国贝勒医学院等单位联合开展,相关成果已于2015年6月25日Nature Communications在线发刊,旨在为抑制蝇蛆这种农业病虫害的感染从基因组层面提供新的线索,从而减少其对农作物的危害。


    绿头苍蝇全基因组研究策略及结果:绿头苍蝇预估基因组大小约470Mb,采用WGS测序策略HiSeq 2000测序226X、ALLPATHS-LG拼接获得458Mb基因组序列,结合转录组测序辅助基因组注释预测获得14,544个蛋白编码基因,组装结果如下:


具体方案如下


一、全基因组de novo测序


1.取材L. cuprina (designated LS)最先来源于墨尔本,通过有机磷杀虫剂捕获。在实验室培养纯化20多年,培养过程中一直无有机磷等杀虫剂的接触。培养基是牛肝,主要保证产卵和幼虫培养。为降低基因组遗传变异的影响,针对五个品系连续纯化了六代。提取纯化六代以上的后代幼虫及成虫(雌雄均有)的gDNA用于后续全基因组的测序和研究。


2.测序:HiSeq 2000 100PE测序约226.5X(其中180 bp, 500 bp, 3 kb和8 kb测序深度分别为83.6X, 36.5X, 75.1X, 31.1X)。



3.组装

1)genome de novo assembly: ALLPATHS-LG (v44620; http://www.broadinstitute.org/software/allpaths-lg/blog/), 

2)scaffolded and gap-filling: the in-house tools Atlas-Link v.1.0

(https://www.hgsc.bcm.edu/software/atlas-link) and Atlas gap-fill v.2.2

(https://www.hgsc.bcm.edu/software/atlas-gapfill).


二、转录组测序


1.取材

1)adult females(n=3);

2)adult males(n=8);

3)mixed larval stages: 等重量混匀;live embryonated eggs (n=800), first instar larvae (n=800), third instar larvae

(n=3) and pupae (n=3)


2.测序:HiSeq 2000 100PE


3.转录组数据分析

1)数据质控、去除接头:SeqPrep (https://github.com/jstjohn/SeqPrep) 

2)数据错误校正:通过SOAPdenovo内置算法the algorithms Quake and KmerFreq

(http://soap.genomics.org.cn/soapdenovo.html)。 

3)去除外源物种序列:包括去除哺乳动物、细菌、真菌、原生生物以及植物等外源序列信息。

4)转录组数据de novo组装:所有幼虫阶段、雌雄转录组数据采用

Velvet and Oases (http://www.ebi.ac.uk/Bzerbino/velvet/; https://www.ebi.ac.uk/Bzerbino/oases/)

分别进行de novo组装.

5)程序训练:对SNAP (http://korflab.ucdavis.edu/software.html)和AUGUSTUS

(http://bioinf.uni-greifswald.de/augustus/)训练de novo预测基因。.


三、基因组注释


1.重复序列鉴定及注释


1)针对绿头苍蝇基因组重复序列建模:

RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html)by merging repeat predictions using RECON (http://selab.janelia.org/recon.html) and RepeatScout (http://bix.ucsd.edu/repeatscout/).

2)绿头苍蝇基因组重复序列鉴定:通过RepeatMasker Open (http://www.repeatmasker.org)和建模的repeats和Repbase (v.17.02; http://www.girinst.org/repbase/)中已知的重复序列进行比对来鉴定获得。



2.蛋白编码基因预测:采用了幼虫和雌雄成虫的转录组数据进行辅助预测。


1)将幼虫和雌雄成虫转录组de novo获得的contigs通过BLAT (https://genome.ucsc.edu/cgi-bin/hgBlat?command=start)过滤,获得全长ORFs,以确保剪切位点的有效性。

2)针对ORFs训练de novo基因预测,使用程序分别为:

SNAP (http://korflab.ucdavis.edu/software.html)

和AUGUSTUS (http://bioinf.uni-greifswald.de/augustus/)

同时获得a hidden Markov model (HMM) for each programme.

3)将上述两个程序训练获得的相同ORFs(the expressed sequence tag input)通过MAKER2 (http://www.yandell-lab.org/software/maker.html)再次进行预测和验证。

4)同时,用于幼虫和成虫转录组de novo组装的、过滤后的reads采用

TopHat (http://ccb.jhu.edu/software/tophat/index.shtml) 和Cufflinks(http://cole-trapnell-lab.github.io/cufflinks/)对转录本信息以及外显子-内含子边界信息进行鉴定,获得GFF文件

5)将上述2)-4)分析的结果采用MAKER2进行分析,以获得绿头苍蝇的高度一致的基因信息集。

6)筛选编码>30个氨基酸肽段的基因序列用于后续分析。

7)为去除外源物种,包括哺乳动物、细菌、真菌、原生生物以及植物等外源序列信息,在scaffolds的不确定序列处(N),将scaffolds打断成contigs,针对contigs的GC含量、平均reads深度进行评估和绘图;然后针对高GC和低reads覆盖深度的contigs进行BLASTn来验证是否为外源物种的序列。

8)基于上述过滤,再通过Annotation Edit Distance (AED=1)66进行基因从头预测,编码>150氨基酸肽段的基因序列保留,即获得绿头苍蝇基因组最终的基因信息集。

9)预测基因信息以期编码或推断的氨基酸序列信息呈现。


3.蛋白编码基因的功能注释


1)基于上述推断的氨基酸序列信息鉴定保守蛋白结构域:

InterProScan 5 and InterPro 44.0 (http://www.ebi.ac.uk/Tools/pfa/iprscan5/; http://www.ebi.ac.uk/interpro/),默认参数。

2)BLASTp (E-value cutoff≤105):将上述推断的氨基酸序列信息和以下数据库的蛋白序列进行BLASTp:

FlyBase (Drosophila melanogaster, D.mojavensis, D. grimshawi, D. pseudoobscura, D. virilis and D. willistoni; http://flybase.org),

VectorBase (Aedes aegypti, Anopheles gambiae and Musca domestica;https://www.vectorbase.org),

Ensembl Genomes (Megaselia scalaris; http://www.ensembl.org/index.html),

UniProtKB/Swiss-Prot (http://web.expasy.org/docs/swiss-prot_guideline.html),

KEGG (release 58; http://www.genome.jp/kegg/),

NCBI protein nr (release September 2013; http://www.ncbi.nlm.nih.gov/).

2)同源基因通过KEGG BRITE hierarchy聚类成基因家族(a custom script)。

3)关键的蛋白质家族,包括蛋白酶,蛋白激酶,磷酸酶,G蛋白,G蛋白偶联受体,通道蛋白,转运和转录因子,进一步进行验证。

4)ES proteins(胚胎蛋白)最初是通过Phobius (http://phobius.sbc.su.se),

SignalP v.4.0(http://www.cbs.dtu.dk/services/SignalP/) ;

TMHMM v.2.0c (http://www.cbs.dtu.dk/services/TMHMM/).然后通过MultiLoc (http://abi.inf.uni-tuebingen.de/Services/MultiLoc)推断其细胞外空间定位或者是溶酶体(sensitivity>5)。

5)最终注释,预测蛋白基于conserved InterProScan domains进行分类,并且能够同源比对至以下六个数据库中的任意一个蛋白上(E-value cutoff≤10-5):

(i) KEGG,

(ii) FlyBase (D. melanogaster and related species),

(iii) VectorBase (M. domestica),

(iv) KinBase using the programme KINANNOTE (http://sourceforge.net/projects/kinannote/),

(v) UniProtKB/Swiss-Prot,

(vi) UniProtKB/TrEMBL (November 2014).

蛋白编码基因最终注释的核苷酸序列和氨基酸序列信息可通过Accession code JRES01000000下载。


四、同源比较分析


将绿头苍蝇14554个预测基因信息和双翅目蝇直系同源簇基因基于氨基酸序列进行比对,结果进行校正(

custom Perl scripts)后获得L. cuprina, D. melanogaster,G. morsitans and M. domestica中的同源基因数目。


双翅目蝇直系同源簇基因available via the database

OrthoDB8 (http://filemare.com/en-au/browse/cegg.unige.ch/OrthoDB8) using

Smith–Waterman database searches with intersequence SIMD parallelization

(SWIPE; http://dna.uio.no/swipe/)。


五、共线性分析


针对绿头苍蝇基因组结果中三个最长的scaffolds(>3.5Mb)、采用Circos (http://circos.ca)开展共线性分析。基于氨基酸水平,将绿头苍蝇基因组结果中最长的三个scaffolds通过

SCOs (OrthoMCL; http://www.orthomcl.org/orthomcl/)配对方式和D. melanogaster,G. morsitans and

M. domestica基因组进行比对,获得一个SCOs 线性block(n≥5),进一步基于绿头苍蝇的scaffold和被比对的物种的scaffolds上(同序且同方向)的同源基因鉴定获得一组adjacent genes。


六、差异转录基因分析:差异转录基因通过以下程序分析获得:

RSEM (RNA-seq by expectation maximization; http://deweylab.biostat.wisc.edu/rsem/)

and EBSeq (empirical Bayes modelling; https://www.biostat.wisc.edu/Bkendzior/EBSEQ/).


1)将幼虫(mixed)、雌虫和雄虫的双末端reads通过RSEM(引入中位数校正)双末端测序模式分别比对至预测编码区(GFF),来推断每个阶段校正后转录本的丰度(即预期的count数)。
2)将预期的转录本count提交至EBSeq,来产生幼虫、雌虫和雄虫之间的差异转录后验概率,

3)为减少误判,将差异转录后验概率值为1、且至少在幼虫、雌虫和雄虫中每个基因的预期reads count不低于10,将满足上述鉴定标准的基因定义为差异转录基因。


七、特定基因的结构分析:与绿头苍蝇特殊的杀虫剂抗性可能相关的基因,目前已知有5个该类基因。


1)现将该5个蛋白编码基因的全长序列在GenBank中找到:

GI: 2894628 for Ace;

GI: 2565319 for Rdl;

GI: 1336080 for Rop1(LcaE7);

GI: 1389670 for Scl;

GI: KP260561 for Lca6.

2)通过BLASTn获得上述基因所在的scaffolds。

3)每个编码序列分别和相应的基因组scaffolds进行比对,比对软件为Sequencher v.5.2.4 (Gene Codes Corporation; http://www.genecodes.com) using

the Large Gap assembly algorithm.

4)当存在多个scaffolds包含同一个基因序列时(如scaffold nos.379, 4253 and 792同时包含Lca6),采用500bp文库的双末端shotgun reads来辅助分析。

5)基于转录组数据分析了内含子区域以及intron–exon junctions。

6)通过reference-guided BWA-MEM alignment (http://www.genecodes.com)来验证scaffolds和基因组组装子中有无外显子的存在。


八、Lca6基因的克隆


Lca6基因的全长编码区,以绿头苍蝇头部组织总RNA反转录获得的cDNA为模板、基于以下引物对、通过高保真酶[a high fidelity Taq polymerase (Expand High FidelityPLUS, Roche)]进行PCR扩增:

LucycloneF (50-GCTGCATTTTTGCTGCATTA-30)

LucycloneR (50-TATCGCCAGTTTTGCAAGTG-30)

然后将PCR产物连接至p-GEM-T-Easy vector (Promega),进行测序(Macrogen),然后整合至质粒

pUASTattB (Promega)中的NotI,从而获得UAS-Lca6


九、Lca6基因在果蝇中的异源表达


da6W337da6nx基因纯合子的果蝇其抗农药的抗性,要分别强于对农药敏感品系(parental line Armenia)的61倍和1176倍。

[Parental line Armenia, an isofemale line derived from the Drosophila Genetic Resource Centre stock #103394]

为达到可以在含有da6W337da6nx的抗农药果蝇品系中表达的目的,果蝇[P{w+mW.hs=GawB}elavC155 (Bloomington Drosophila Stock Centre; BL458)]GAL4 driver line分别和含有da6W337da6nx(chromosome 2) 的抗农药果蝇品系进行杂交,从而获得纯合子、使得elav>GAL4 driver lines 能够用于后续表达实验研究。


Paper


Lucilia cuprina genome unlocks parasitic fly biology to underpin future interventions.pdf

For more SI, please refer to: Lucilia cuprina genome unlocks parasitic fly biology to underpin future interventions.


Affiliations

  • Faculty of Veterinary and Agricultural Sciences, The University of Melbourne, Parkville, Victoria 3010, Australia

  • Clare A. Anstead, Pasi K. Korhonen,Neil D. Young,Ross S. Hall,Aaron R. Jex,Andreas J. Stroehlein,Brendan R.E. Ansell,Bert Breugelmans & Robin B. Gasser

  • Department of Human and Molecular Genetics, Baylor College of Medicine, Houston, Texas 77030, USA

    • Shwetha C. Murali,Daniel S.T. Hughes,Jiaxin Qu,Shannon Dugan,Sandra L. Lee,Hsu Chao,Huyen Dinh,Yi Han,Harsha V. Doddapaneni,Kim C. Worley,Donna M. Muzny,Richard A. Gibbs & Stephen Richards

  • School of Biosciences, The University of Melbourne, Parkville, Victoria 3010, Australia

    • Siu F. Lee,Trent Perry & Philip Batterham

  • Structural Chemistry Program, Eskitis Institute for Drug Discovery, Griffith University, Brisbane, Queensland 4111, Australia

    • Andreas Hofmann

  • Department of Genetic Medicine and Development, University of Geneva & Swiss Institute of Bioinformatics, CH-1211 Geneva, Switzerland

  • Panagiotis Ioannidis,Robert M. Waterhouse & Evgeny M. Zdobnov

  • Ecosciences Precinct, Queensland Alliance for Agriculture and Food Innovation (QAAFI), Queensland Bioscience Precinct, The University of Queensland, St Lucia, Brisbane, Queensland 4072, Australia

    • Peter J. James

  • CSIRO Agriculture Flagship, Queensland Bioscience Precinct, St Lucia, Brisbane, Queensland 4067, Australia

  • Neil H. Bagnall & Andrew C. Kotze



https://blog.sciencenet.cn/blog-1333578-901399.html

上一篇:千年基因率先提供高质量的HiSeq 4000产品服务
下一篇:外显子组测序4500元任性体验,不做测序也能免费领礼品
收藏 IP: 119.145.8.*| 热度|

1 gaoshannankai

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 10:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部