和人类基因组计划一样,“地球生物基因组计划”(Earth BioGenome Project, EBP)从提出之初,很快成为生命科学研究的中心话题之一。计划关注生物多样性,试图解码全球物种。毫无疑问,该计划将吸引大量的人气、人力、智力和财力资源,也必将对生命科学的很多分支学科,特别是生物多样性科学、生物分类学、演化生物学等产生深远的影响。
作为一位分类学工作者,我非常欣喜地看到这项计划的领导者们按照科、属、种的生物分类阶元规划了实施目标。如加利福尼亚大学戴维斯分校的演化基因组学家Harris Lewin提到:该计划将需要大量的专家和专业知识,特别是分类学工作者的参与。在每个科内选择一个代表进行基因组测序,可能需要一些分类学者的贡献;但这个阶段需求量不大,瓶颈在于某些缺少专家或罕见的类群。在动物中,无脊椎动物的情况比较严重,很多科,甚至更加高级的阶元都缺乏可以参考的文献等专家知识,更不用谈及能提供鉴定的专家了。绝大部分的属,实际上就需要依赖特定类群的生物分类学家了。从分类学研究比较透彻、分类系统比较稳定的科入手,属的问题还比较好解决。但属级阶元的变动,在很多类群都比较普遍。分子系统学的发展,验证了大部分形态学得出的分属建议,但也推翻了不少前人的假说,提出了新的属级阶元变动。显然,多基因乃至组学的数据会有助于固定一部分变动频繁的属级阶元,但分类阶元的变动还需要得到分类学工作者的论证和支持。物种是客观存在,但这个级别的分类鉴定难度要远远超过属上水平。从分类学科的研究生培养的经历中,我体会到,一般生物在科级以上水平比较容易区分,但大多数的属和物种则需要非常专业的分类学知识和能力才能鉴别。某种意义上讲,分类学人才的培养,就在于属和物种鉴别能力的培育。
2005年,我在英国自然历史博物馆参加第二届国际DNA条形码大会的时候,见到了多位大力推动该项理念和技术的昆虫学家。同时,我在Alfried Vogler教授的昆虫系分子系统学实验室学习DNA分类学的思路和方法。给我印象最深刻的有两件事:Paul Hebert教授等期待用一台手机大小的仪器,在野外把采集到的任意样品,通过它很快可以获得物种信息;Alfried Vogler教授和Quentin Wheeler教授(昆虫系时任主任)辩论两个多小时,力推废除实体标本体系,建立全新基于DNA信息的生物系统学。在英国自然历史博物馆这样一个经典分类学家遍布、标本和文献收藏的氛围下,阐述并推动DNA为主的思路,可以理解科学家的想象力和巨大勇气。一方面,我回国10年,亲身体会到这些新兴思路对我个人成长的引领和推动作用;另外一个方面,我更加意识到:生物分类学背景的重要性。DNA条形码技术和DNA分类学的突飞猛进,解决了很多物种问题,大大提速了生物多样性发现过程。但大量的研究表明:现有基因数据库中的数据,缺乏对它们的客观载体,物种的分类学信息。以昆虫为例,我们研究组的工作发现:在已经公开的基因序列中,我们能够通过多基因物种界定的昆虫,一半以上物种缺乏分类学阶元信息。根据初步分析,在其它的类群中,也存在大致的情况。从DNA条形码技术设计的理念和具体的实施流程来看,分类学知识是其中不可或缺的一个关键组成部分。而且,这一点在一个小类群,在实验室层面就可以把分类学人才和知识整合进来。但是,一旦涉及到很大的类群,则涉及到巨大的分类学需求。以最近马克平研究员推动的中国生物名录为例,完成该名录就需要大量分类学工作者的辛勤付出和支持。无论基于DNA条形码还是基因组,测定并解码全球生物,显然还需要名录之外的样本采集等过程。可以说,没有分类学家长期野外工作形成的“专业感觉”,很多物种,乃至科属,都很难采集到。
以目前华大基因与史密森学会共同推动的多项合作项目,我们可以看出:1)目前动物基因组测序计划中均有国内外知名的分类学者的参与;2)目前选择的类群,如10,500种现存鸟类的基因组生命之树的数字化(http://b10k.genomics.cn)、10,000个脊椎动物的基因组等项目(https://genome10k.soe.ucsc.edu),大多具备非常好的分类学基础。试图探索昆虫演化之谜的1KITE项目,旨在对1000种昆虫的转录组进行研究(http://1kite.org),则从项目设计、数据获取、数据整合、数据分析、数据展示等每一个环节都活跃着非常强大的国际分类学者队伍的身影。而且无一例外,上述研究都涉及分类学家长期以来关注的高级阶元系统发育问题和一些奇妙的生物学问题。但是,类群放大到大量物种未知的所有生物,我们可以想象:生物多样性发现与保护、宏观生态学研究和DNA条形码技术发展过程中出现的物种分类学障碍,必然也会在“地球生物基因组计划”中很快出现。因此,陈华燕在他的博文中,大声疾呼:“测序所有物种的DNA(基因组)?请邀请分类学家参与”(http://blog.sciencenet.cn/blog-361302-1036305.html)。如果分类学者受到邀请,他们如何定位自己的角色并积极发挥各自的作用?显然,他们的作用远远不止贡献标本,而在于类群科学问题的提出、物种分类鉴定、物种和生境适应、关键性状的解析和生物学美妙故事的讲述。脱离了这些重要的一手资料,大部分的基因组学研究就成了无源之水。
2006年回国以后,从数据的角度,我注意了DNA信息和形态学信息的整合。从人眼观察、解剖镜观察、电子显微镜观察到基因、基因组测序,DNA和形态学数据并无实质性差异。但是,DNA等分子数据实现了生命信息的快速、自动数字化。在最近的一次会议上,杨焕明研究员提到,基因和基因组序列本身是生命数字化过程中的可以观察、可以重复、可以分析的内容。我非常赞同这样的想法。无论基因、基因组还是其它任何新的技术所产生的数据,它们都是对客观主体 - 物种的观察和信息提取和整合。最近三维成像技术的快速发展,由于仪器和技术的创新,实现了生物内部解剖和外部形态结构的数据自动提取,并产生了大量前所未有的数据;红外相机技术,在无人值守的情况下,实现了对生物物候、发生动态等信息的海量数据获取。利用手机、数码相机,普通公众,如鸟类爱好者、植物爱好者都可以实现对物种的观察和数据的积累,并通过网络参与,参与科学研究。相信未来会有更多新的仪器、新的技术,可以帮助我们实现对个体数据的自动、快速提取。人工智能、机器学习和深度学习等领域的进展或许也会给生物分类带来新的认知思路和实现方案。但是,目前物种界定和分类阶元确定,在所有物种没有得到分类学研究之前,很难构建一个可资参考和比较分析的物种库,也就很难给上述数据贴上准确的物种标签。
华大基因已经发展成为世界上最强大的基因组测序企业;中国也已经成为该类计划的领头羊。美国史密森学会是世界上最好的标本保藏场所之一,拥有一流的标本、设施和分类学者。地球生物基因组计划由他们联合倡议,自然需要基因组测序和生物分类学的有机结合与合作。生物分类学的假设前提少、对资金、仪器等物种之外的资源依赖程度低,才有学科历经波折还能持续发展的今天。它的历史,实际上就是立足物种,对新理论和新技术不断兼收并蓄,实现学科发展的进程。我认为要为“地球生物基因组计划”鼓掌,以开放、包容和融合的心态,期待该计划能够真正吸收世界生物分类学长期以来的专家知识库(包括提出的问题),推动包括生物分类学在内的分支学科有新的突破。突破来自哪里?从数据的角度,从小数据集到大数据集,数据获取、整合、分析和展示等每个环节都需要学科交叉和技术进步,自然会产生一些大数据科学的问题。但是,我们还是得跳出数据,回到物种本身来探讨生物学问题。物种可以由生物分类学工作者来研究。而可用于指导物种相关研究的理论和方法,则在国内多从欧美同行,缺乏队伍静心研究。理论和方法的研究,处于生物学的基础部位,可能争取不到什么经费,也不会产生太多的人气,研究过程却可能旷日持久而难有灵光一现。但是一旦有框架性的突破,则令人有振聋发聩之感,令某一学科有翻天覆地的变革。很多生物系统学都会想到Hennig论著引起的学科大讨论和后续学科的大发展。而这一点,目前在中国仍然处于极为薄弱的境地。因此,作为生物学工作者,我们需要利用包括形态学和基因组等各类数据,进行整合、进行分析、进行展示,深入理解物种本身的生物学问题,解析物种形成、对所处的生态系统的作用和适应机制。
综上,在大科学、大数据科学工程中要注意吸纳已有的科学知识和人力资源,形成有机整合;同时需要关注并加强对源头创新队伍中青年人才的长期培育。
附:华大咨询
“人类基因组计划”与“曼哈顿原子弹计划”、“阿波罗登月计划”并称为自然科学史上的“三大计划”。继人类基因组计划之后,生命科学领域又将迎来一件大事——比人类基因组计划更宏大的地球生物基因组计划(Earth BioGenome Project, EBP)即将启动,目标是破译地球上所有生命的基因组。这一具有历史意义的项目吸引了全球科学家的关注。其项目组成员由多国科学家组成,华大基因理事长杨焕明院士与华大基因张国捷参与其中。作为该项目的发起单位之一,华大基因始终关注生物多样性研究,通过基因科技已解码众多地球物种,发起国际合作深入科学研究,该项目组中其他工作人员也均与华大基因有过深入合作。
人类基因组计划耗时13年,花费约30亿美元测序一个人的基因组。据EBP项目组成员介绍,该项目尚未获得资金支持,初步预计完成整个项目大约需要40亿美元的投入,相当于两架轰炸机的价格,1万个美国总统的年薪,也与人类基因组计划的投入相当。项目组的科学家们表示,如果获得这样的资金支持,该计划有望在10年内完成。
从两年前提出“测序所有地球生命”愿景,到BioGenomics2017大会上加利福尼亚大学戴维斯分校的演化基因组学家Harris
Lewin代表联盟成员在大会闭幕致辞中提出EBP的纲要,这一项目彻底点燃了生物学家们的热情,将极大推动所有真核生物的研究——包括所有植物、动物、真菌以及如阿米巴虫之类的单细胞生物。
据科学杂志(Science)报道,EBP项目将首先集中完成约9330个真核生物科级别代表性物种(eukaryotic family)的基因组,从而获得与人类参考基因组相当或比人类参考基因组更好的参考基因组。接着,在14万~20万个真核生物属(eukaryotic genera)中,对来自每个属的一个物种进行基因组草图绘制。最后,对剩下的150万个已知的真核生物物种(eukaryotic species)的基因组进行低覆盖测序。这些精细度不同的基因组之间还能通过比较分析或进一步测序,帮助我们获知更多的信息。
EBP计划的意义重大。以Harris Lewin, Gene Robinson, John Kress为代表的EBP工作组成员表示,这是第一个真正的全球大型基因组测序项目,能让世界上数千名科学家和数百万民众参与,所产出的超大数据超过1EB(相当于1亿部高清电影,播放2.3万年),将推动全新计算算法、分析方法和模型的创立,革新我们对生物学的理解,有望极大改善物种保护工作,并为农业、医药和生态系统服务创造新的基因资源。
研究者们完成该项目的信心来源之一,是不断下降的的测序成本与不断进步的测序技术。人类基因组计划之后,个人全基因组测序成本不断降低,由最初的30亿美元下降到现在的1000美元,甚至可能更低。作为全球最大的基因组学研发中心,华大基因已于2015-2016年相继推出了多款自主研发的测序系统,目前已具备量产测序仪的实力,也将运用这一优势,助力EBP项目的实施。
除资金之外,人才与样本来源也是此项目需要解决的问题。EBP项目团队有成员认为,该计划需与发展中国家,尤其是那些具有丰富生物多样性的国家之间进行更加国际化的合作,从而有助制定这个计划的最终形式。华大基因理事长杨焕明院士也强调,EBP是一个真正的国际合作性项目,不仅应鼓励发展中国家参与,更要促进和扶持这些国家基因组学的教育和发展,以实现真正充分平等的合作。
该团队也强调制定标准的重要性,能确保获得高质量的基因组序列,保存每个被测序的有机体的相关信息,以产出有效与实用的数据。华大基因张国捷表示,即便是最新收集和冻存的动植物样品并不总能获得高质量的DNA,可能影响高质量基因组序列的获取,这是当前博物馆面临的极大的现实挑战。
虽然EBP项目的落地还存在一些待解决的问题,但类似的国际合作项目已有成功的先例。随着基因科技的飞速发展,科学家们已经破译了许多地球物种,并组建国际级合作小组,发起覆盖海陆空物种的多项计划。如,同样致力于生物多样性保护的华大基因与史密森学会已经共同维护和推动了多项国际合作项目——旨在构建约10,500种现存鸟类的基因组图谱,实现对鸟类生命之树的数字化重建,并解码遗传变异和表型差异之间联系的B10K项目;旨在完成10,000个脊椎动物的基因组,并通过这些脊椎动物的遗传多态性,为生命科学以及全球生物保护提供强有力帮助的G10K项目;旨在对1000种昆虫的转录组进行研究,揭开昆虫演化之谜的1KITE项目;旨在从全球范围内挑选200种具有代表性的蚂蚁进行基因组测序和分析,研究蚂蚁整体演化趋势并确定跟蚂蚁多样化及其特殊适应性有关的遗传基础的GAGA项目等。
EBP项目的提出,有助于整合世界各地的地球生物基因组研究,使之形成更有价值的科研体系,促进物种研究工作有序而高效地进行,帮助我们全面了解地球生命演化的奥秘,极大地推动物种保护工作的开展。
附:科学杂志报道
WASHINGTON, D.C.—When it comes to genome sequencing, visionaries like to throw around big numbers: There’s the UK Biobank, for example, which promises to decipher the genomes of 500,000 individuals, or Iceland’s effort to study the genomes of its entire human population. Yesterday, at a meeting here organized by the Smithsonian Initiative on Biodiversity Genomics and the Shenzhen, China–based sequencing powerhouse BGI, a small group of researchers upped the ante even more, announcing their intent to, eventually, sequence “all life on Earth.”
Their plan, which does not yet have funding dedicated to it specifically but could cost at least several billions of dollars, has been dubbed the Earth BioGenome Project (EBP). Harris Lewin, an evolutionary genomicist at the University of California, Davis, who is part of the group that came up with this vision 2 years ago, says the EBP would take a first step toward its audacious goal by focusing on eukaryotes—the group of organisms that includes all plants, animals, and single-celled organisms such as amoebas.
That strategy, and the EBP’s overall concept, found a receptive audience at BioGenomics2017, a gathering this week of conservationists, evolutionary biologists, systematists, and other biologists interested in applying genomics to their work. “This is a grand idea,” says Oliver Ryder, a conservation biologist at the San Diego Zoo Institute for Conservation Research in California. “If we really want to understand how life evolved, genome biology is going to be part of that.”
Ryder and others drew parallels between the EBP and the Human Genome Project, which began as an ambitious, controversial, and, at the time, technically impossible proposal more than 30 years ago. That earlier effort eventually led not only to the sequencing of the first human genome, but also to entirely new DNA technologies that are at the center of many medical frontiers and the basis for a $20 billion industry. “People have learned from the human genome experience that [sequencing] is a tremendous advance in biology,” Lewin says.
Many details about the EBP are still being worked out. But as currently proposed, the first step would be to sequence in great detail the DNA of a member of each eukaryotic family (about 9000 in all) to create reference genomes on par or better than the reference human genome. Next would come sequencing to a lesser degree a species from each of the 150,000 to 200,000 genera. Finally, EBP participants would get rough genomes of the 1.5 million remaining known eukaryotic species. These lower resolution genomes could be improved as needed by comparing them with the family references or by doing more sequencing, says EBP co-organizer Gene Robinson, a behavioral genomics researcher and director of the Carl R. Woese Institute for Genomic Biology at the University of Illinois in Urbana.
The entire eukaryotic effort would likely cost about the same as it did to sequence that first human genome, estimate Lewin, Robinson, and EBP co-organizer John Kress, an evolutionary biologist at the Smithsonian National Museum of Natural History here. It took about $2.7 billion to read and order the 3 billion bases composing the human genome, about $4.8 billion in today’s dollars. With a comparable amount of support, the EBP’s eukaryotic work might be done in a decade, its organizers suggest.
Such optimism arises from ever-decreasing DNA sequencing costs—one meeting presenter from Complete Genomics, based in Mountain View, California, says his company plans to be able to roughly sequence whole eukaryotic genomes for about $100 within a year—and improvements in sequencing technology that make possible higher quality genomes, at reasonable prices. “It became apparent to me that at a certain point, it would be possible to sequence all life on Earth,” Lewin says.
Although some may find the multibillion-dollar price tag hard to justify for researchers not studying humans, the fundamentals of matter, or the mysteries of the universe, the EBP has a head start, thanks to the work of several research communities pursuing their own ambitious sequencing projects. These include the Genome 10K Project, which seeks to sequence 10,000 vertebrate genomes, one from each genus; i5K, an effort to decipher 5000 arthropods; and B10K, which expects to generate genomes for all 10,500 bird species. The EBP would help coordinate, compile, and perhaps fund these efforts. “The [EBP] concept is a community of communities,” Lewin says.
There are also sequencing commitments from giants in the genomics field, such as China’s BGI, and the Wellcome Trust Sanger Institute in the United Kingdom. But at a planning meeting this week, it became clear that significant challenges await the EBP, even beyond funding. Although researchers from Brazil, China, and the United Kingdom said their nations are eager to participate in some way, the 20 people in attendance emphasized the need for the effort to be more international, with developing countries, particularly those with high biodiversity, helping shape the project’s final form. They proposed that the EBP could help develop sequencing and other technological experts and capabilities in those regions. The Global Genome Biodiversity Network, which is compiling lists and images of specimens at museums and other biorepositories around the world, could supply much of the DNA needed, but even broader participation is important, says Thomas Gilbert, an evolutionary biologist at the Natural History Museum of Denmark in Copenhagen.
The planning group also stressed the need to develop standards to ensure high-quality genome sequences and to preserve associated information for each organism sequenced, such as where it was collected and what it looked like. Getting DNA samples from the wild may ultimately be the biggest challenge—and the biggest cost, several people noted. Not all museum specimens yield DNA preserved well enough for high-quality genomes. Even recently collected and frozen plant and animal specimens are not always handled correctly for preserving their DNA, says Guojie Zhang, an evolutionary biologist at BGI and the University of Copenhagen. And the lack of standards could undermine the project’s ultimate utility, notes Erich Jarvis, a neurobiologist at The Rockefeller University in New York City: “We could spend money on an effort for all species on the planet, but we could generate a lot of crap.”
But Lewin is optimistic that won’t happen. After he outlined the EBP in the closing talk at BioGenomics2017, he was surrounded by researchers eager to know what they could do to help. “It’s good to try to bring together the tribes,” says Jose Lopez, a biologist from Nova Southeastern University in Fort Lauderdale, Florida, whose “tribe” has mounted “GIGA,” a project to sequence 7000 marine invertebrates. “It’s a big endeavor. We need lots of expertise and lots of people who can contribute.”