jchen2016的个人博客分享 http://blog.sciencenet.cn/u/jchen2016

博文

PAG会议随笔之一:参考基因组“遍地开花” 精选

已有 10751 次阅读 2017-1-21 10:10 |个人分类:随笔|系统分类:科研笔记

PAG会议:今年是第25届

动植物基因组会议(The Plant and Animal Genome Conference,PAG),始于1992年,也就是人类基因组计划开始的第三年,一年一次,迄今25届。会议地点一直是在位于圣地亚哥的“城乡度假会议中心(Town andCountry Resort and Convention Center)”,风景宜人。今年的会议上组织了一系列庆祝活动,庆祝这个系列会议四分之一个世纪的历程。动植物基因组年会的主要讨论对象是农作物,畜牧动物,水产生物(包括藻类、鱼类、贝类、虾类等)。讨论范围很广泛,探讨对象基本涵盖了人和模式生物(比如大鼠、小鼠、斑马鱼、果蝇、秀丽线虫等)以外的所有动植物。人和各种模式生物基因组都有各自专门的讨论会。会议分大会报告和专题报告。专题报告要么围绕一类物种(比如小麦),要么围绕一个主题(比如比较基因组学)。除了口头报告,还有墙报。动植物基因组会议成了基因组研究人员的交流平台,很多人几乎每年必到。参加这个会议的亚洲代表很多。近年来,开始在亚洲举行分会,每年一届,今年是第三届,将于五月29-31日在韩国汉城举行。

每次PAG会议都有新的主题。今年动植物基因组会议的主题之一便是参考基因组。由于DNA测序技术的进展和相应组装和分析方法的快速涌现,参考基因组可以说是遍地开花。

小麦参考基因组

在会议第一天(元月14日)上午国际小麦基因组测序联盟(IWGSC)专题,来自德国IPK的Nils Stein汇报了水稻参考基因组构建情况。小麦基因组无疑是一块难啃的骨头,基因组16Gb,异源六倍体。约10年前,人们一致认为小麦基因组太难,利用桑格DNA测序太过昂贵。由于第二代DNA测序技术的出现和完善,使小麦基因组测序称为可能。除了DNA测序技术,中国春小麦基因组的完成还得益于一系列基因组组装技术的出现,包括BioNano光学图谱技术、Hi-C三维基因组技术。现在,来自60余国家的469个研究机构的1500余名科学家,在17个基金组织的支持下,完成了小麦基因组测序项目。IWGSC计划于2017年完成小麦品系中国春的全基因组测序、组装、分析,并发表文章。IWGSC期望这个参考基因组的完成,将加快小麦品种改良的步伐,提高小麦产业的利润。Nils Stein强调这个中国春小麦的基因组是一个Gold genome(黄金级基因组)。不过,对于听众提问这个黄金基因组的具体指标时,他没有给出具体的细节。除了中国春小麦基因组,会议上还报道了硬质小麦(durum wheat)、节节麦(Aegilopstauschii)、山羊草(Aegilops speltoides)和普通小麦(Triticumaestivum)的参考基因组。其中节节麦、山羊草和普通小麦由中国科学院遗传发育研究所汇报。与中国春小麦基因组一样,这四个参考基因组的构建也主要基于二代Illumina DNA测序,并利用了由以色列公司NRGene开发的组装软件DenovoMAGIC。另外一个小麦乌拉尔图小麦(Triticum urartu)也由中国科学院遗传发育研究所汇报。

水稻参考基因组

2016年时水稻基因组领域的一个里程碑,华中农业大学的张启发课题组与美国亚利桑那大学的Rod Wing课题组共同发表了两个高质量水稻参考基因组。在元月15日下午举行的水稻功能基因组专题,Rod Wing报道了这两个参考基因组,以及一系列其他水稻基因组(总共24个物种)项目的进展。他强调水稻的重要性,是100亿的口粮。我们需要从野生水稻中寻找多样性。3024个水稻品系形成15个有一定相互独立性的亚群。在他的报告中,他反复强调参考基因组质量的重要性,也用到了类似“gold standard”和“ultrahigh-quality”词汇。与小麦参考基因组项目不同,水稻参考基因组的构建大多利用第三代DNA测序技术(PacBio技术),以及相应的基于长片段DNA序列的基因组组装技术包括Falcon和CANU软件。张建伟在在15日下午的测序复杂基因组专题报道了两个高质量水稻参考基因组的构建:明辉63(MH63)和珍汕97(ZX97)。

玉米参考基因组

在15日下午的测序复杂基因组专题,冷泉港实验室的Doreen Ware课题组报道了玉米参考基因组的构建。他们利用PacBio三代DNA测序,并利用BioNano光学图谱辅助组装,得到2.3Gb的参考基因组,利用了基于PacBio的Iso-Seq方法注释基因结构。通过比较发现,原先的玉米基因组缺失大约200 Mb的序列,具有125,077个漏洞,很多contig的方向错误,极大影响了基因和转座子注释的质量。并且,由于引入了Iso-Seq方法,发现了更多的转录本(isoforms),平均每个基因的转录本数从1.6个增加到3.3个,提升了一倍以上。文章已经在bioRxiv在线公布。

参考基因组构建:遍地开花

除了上述小麦、水稻、玉米参考基因组,今年的PAG会议上还报道了很多其他农作物的参考基因组构建项目,包括土豆(Laurie Grandont, Wageningen University),甘蔗(OlivierGarsmeur, CIRAD),茄子(Giovanni Giuliano, Italian National Agency forNew Technologies),腰果树(Dario Grattapaglia, Catholic University ofBrasilia),可可(Xavier Argout, CIRAD)。动物参考基因组项目包括牛(Benjamin Rosen, ARS, USDA),水牛(RichardGreen, Dovetail Genomics),猪(Mary Ranketse, Agricultural ResearchCouncil-Biotechnology Platform),绵羊(Kim Worley, Baylor College of Medicine),骆驼(HeatherHoll, University of Florida),大马哈鱼(Sigbjorn Lien, Norwegian University of LifeSciences),柑桔木虱(Diaphorina citri, Surya Saha, Boyce ThompsonInstitute)。

“参考基因组”:到底是什么鬼?

似乎基因组领域的人都在构建基因组。PAG会议上,出现频次最高的名词之一恐怕非参考基因组莫属。这个名词几乎每一个基因组研究者都常常用到,不过,至于参考基因组究竟是什么?似乎谁都知道,但是谁也说不清,没有一个明确的概念。理论上,参考基因组应该是一个物种的全基因序列,但是,实际上,所有的动植物基因组,只有极少数可以达到100%的完全。迄今为止,秀丽线虫恐怕还是唯一一个具有100%完全基因组的动物,其基因组相对比较小,只有100Mb。因此,所有的所谓参考基因组都具有这样那样的漏洞(gap)。于是,人们用不同的修饰词描述参考基因组的完整程度,比如“黄金级”,“白金级”,或者干脆叫“极端高质量”。由于这些修饰词的含义不清楚,与会者很多表示不清楚参考基因组是否有明确的指标。

显然,参考基因组是一个具有争议的话题。综合PAG会议上的各种讨论,有关参考基因组讨论应该考虑如下几方面。首先,它是一个物种的基因组,质量比较高,能够作为这个物种的“参考”,用于各种比较分析,比如寻找基因组变异。第二,尚没有一个公认的标准判断参考基因组的质量,“黄金”也好,“白金”也好,都没有清楚的定义。不过,一般认为,考察一个参考基因组的质量,需要考察如下三个层面。(1)contig层面:越长越好。作为参考基因组,至少需要长于1Mb。(2)scaffold层面:也是越长越好。作为参考基因组,至少需要长于10Mb。(3)染色体层面,需要具有完整的染色体构建。这三个层面的判断最先由英国科学家Richard Durbin提出。在这次PAG会议上,洛克菲勒大学Erich Jarvis做了描述。在PacBioSMRT信息学开发讨论会上,也对这个标准进行了讨论。可以预见,在未来对一年内,这个标准得到更多对讨论,最终达成共识。第三,构建参考基因组的方法,也有很多种选择。不同方法具有各自的特点,得到的结果也会有不同。因此,构建什么样的参考基因组,也取决于参考基因组的应用。有关构建参考基因组的方法,将在另一篇文章种介绍。

一个物种一个参考基因组:不够!

科学家致力于针对每一个物种,构建一个参考基因组,以便物种内不同株系之间的比较基因组学分析。越来越多的证据表明,针对一个物种构建一个参考基因组是不够的。衣阿华州立大学的Matthew Hufford分析指出,玉米参考基因组B73不够用,需要组装出若干个具有代表性的参考基因组。这些参考基因组可以用于更加准确地寻找和研究大尺度的结构变异(structural variations, SV),包括大尺度大的插入(insertions)。由于同样的原因,已经构建了若干个水稻参考基因组。

参考基因组:单倍体?多倍体?

PAG会议上有关参考基因组讨论的一个重要特性,是基因组的杂合度。绝大多数动植物都是二倍体,因为它们的核基因组的一半来自父亲,另一半来自母亲。这里说“核基因组”,主要是强调研究对象不是细胞器基因组,比如线粒体基因组或叶绿体基因组。这两套基因组具有很大的相似性甚至完全相同,但是局部可以有很大的差异。高度相似或完全相同的基因组区域称为纯合子区域,否则称为杂合子区域。杂合子区域的存在给基因组的组装带来巨大挑战。PacBio开发的基因组组装软件Falcon-unzip利用长片段DNA测序结果,力图区分开来自父亲和来自母亲的两个单倍体基因组。软件开发人Jason Chin讲解了软件。不过,利用这个软件的项目还不多,因此,这个软件的性能还需要评估。

除了利用软件的方法区分开来自父亲和来自母亲的单倍体基因组,一些实验方法也可以把两套单倍体区分开来。西蒙菲沙大学分子生物学和生物化学系Michelle Crown报道了大马哈鱼基因组的构建策略。因为有多次基因组重复和大量的重复序列(包括各种不同的转座子)大马哈鱼基因组比较复杂。为了简化基因组,它们利用了一种办法分离出来自母亲的单倍体基因组。简单地讲,在卵细胞受精过程中,对它们进行电击,结果是精子的DNA不能够成功与卵细胞的DNA结合,单倍体卵细胞发育成单倍体小鱼。于是可以利用这些单倍体小鱼作物样本抽提DNA用于基因组测序。对于复杂基因组,如果能够获得单倍体DNA,测序和组装的挑战性讲大大降低。许多基因组项目成功利用了各种单倍体组织,包括甜橙和土豆基因组。这些组织有些是认为获得,有些则是偶然获得。比如,人的发育过程中,也会出现单倍体组织。进年来,这些组织倍利用于组装人的基因组。

多伦多协议

各种报告中出现得比较多的一个名词是“多伦多协议”,即Toronto Agreement。这个协议在多伦多举行的一个会(TorontoInternational Data Release Workshop)上提出,在Nature发表(Nature 461, 168-170)。多伦多协议的宗旨是鼓励生物学数据的提前公开。这个多伦多协议在PAG会议上得到全面支持。



https://blog.sciencenet.cn/blog-3013724-1029002.html

上一篇:生命的吉他
下一篇:PAG会议随笔之二:比较基因组学进入“黄金时代”
收藏 IP: 207.23.200.*| 热度|

2 马省伟 庞晓明

该博文允许注册用户评论 请点击登录 评论 (7 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-1 21:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部