|||
从秦始皇的万里长城到美国的曼哈顿计划,从瑞士群山里若隐若现的大型强子对撞机(LargeHadron Collider1)到中东阿拉伯湾上高耸入云的迪拜塔2,人类历史上从来不缺少雄心勃勃的大项目(Magaprojects3)。
生物领域更是激情,梦想,气魄,以及金钱挥洒驰骋的舞台。42年前的1971年圣诞前夕(23号),当时的美国总统尼克松在美国国家癌症法案(NationalCancer Act)上签字,标志着美国决定倾举国之力攻克癌症的决心。这在历史上被称为“癌症战争(Waron cancer4)”。
20年之后的九十年代,人类基因组计划(HumanGenome Project5)的大幕缓缓拉开。这次是总统里根向国会递交了申请。美国人计划用15年的时间,也就是到2005年,完成人类基因组的测序。这样有影响的工程,是每个总统梦寐以求的展示自己政绩的舞台。于是在2000年,克林顿就迫不及待地和英国首相布莱尔宣布了人类基因组计划的草图,而3年后人类基因组才大体完成,6年后的2006年,最后一个染色体——最长的1号染色体的序列才最终确定。
自从人类基因组计划的提出,又是20年过去了,美国人又蠢蠢欲动。2013年4月2日,美国总统奥巴马宣布了脑计划的开启(BRAINInitiative (Brain Research through Advancing Innovative Neurotechnologies6)。美国人试图弄清楚人类大脑中每个神经元的活动。
这些计划的成败得失,现在还很难看清楚,评价总要在多年以后才能相对公允。但是不可否认的事实是,癌症战争中癌症越战越勇,脑计划如何还很难预测,人类基因组计划则是最成功的。这个计划不仅揭示了人类约20500个基因的全序列,发现了人类基因组中普遍的片段重复(SegmentalDuplications)现象,还为很多后序的工作奠定了基础。
一花多叶:人类基因组相关计划
1000基因组计划(1000Genomes Project)
人类基因组计划(HumanGenome Project)虽然用不同来源的样本测序并作为参考序列(ReferenceGenome)。但是大部分序列(70%)来自于纽约布法罗地区一个匿名的捐献者。所以很显然,这个序列不能代表所有人,因为人与人之间在DNA序列上是如此不同:人们之间在0.1%到0.4%左右的基因组序列上存在差异7,这导致了我们彼此的千差万别。于是人们希望对更多的人进行测序,以便了解不同人在基因组上的差异。这就是诞生于2008年1月的1000个基因组计划(1000Genomes Project8)的背景。
1000个基因组计划最后选择了1092个志愿者进行DNA测序。为了覆盖尽可能广泛的人群,这些志愿者是被精心挑选的。他们包括来自尼日利亚南部城市伊巴丹的约鲁巴人(Yoruba),来自东京的日本人,来自北京的中国人,美国犹他州的居民(祖先来自北欧和西欧),来自肯尼亚Webuye的Luhya人,肯尼亚Kinyawa的Maasai人,来自意大利的Toscani人,来自秘鲁首都利马的秘鲁人,来自休斯顿的Gujarati印第安人,来自丹佛地区的中国人,来自洛杉矶的墨西哥裔,以及来自美国西南部的非洲人后裔。
随着测序技术的发展,测序的时间和成本迅速下降。人类基因组计划用了13年,而1000个基因组计划尽管在工作量上大大超过前者,但是这个在2008年启动的项目,到了2012年就宣布完成9。
1000个基因组计划总结了人类基因组的很多特征,比如突变频率(10−8 perbase pair per generation),突变的数量等信息。这些信息的重要性,从第一篇1000个基因组计划文章10的引用次数就能看出来:发表于2010年的名为Amap of human genome variation from population-scale sequencing的文章,现在已经被引用了1800多次,相信多年以后,它可能成为生物领域最有影响力的文章,没有之一。
Encyclopediaof DNA Elements (ENCODE)11
人类基因组中编码蛋白质的基因大约是20500个,只占基因组大小的1-2%12,其它的序列有什么样的作用?为了回答这个问题,2003年,就是人类基因组计划基本完成的年头,美国国立人类基因组研究所(US National Human Genome Research Institute(NHGRI))又启动了专门针对基因组中的非编码序列的ENCODE项目。
从2012年9月开始,ENCODE发表了一系列文章展示自己的成果。这个项目发现,人类基因组中大约20%的非编码DNA是有功能的,这些功能主要是涉及到基因表达的调控。60%的非编码DNA没有明确的功能。
TheCancer Genome Atlas (TCGA)
基因组蕴含了无数的信息,各种疾病在基因组上有什么样的改变?或者说,什么样的基因组改变造就了不同的疾病。这是个很大的问题。作为同基因组关系密切,又越来越成为人类负担的癌症,首当其冲的成为科学家研究的对象:人们希望揭示癌症的基因组构成。这样就诞生了癌症基因组研究项目TheCancer Genome Atlas (TCGA)13。
TCGA开始于2005年,由美国癌症研究所(NationalCancer Institute)发起。这个项目有几个特点:样本数量多——大约500个病人样本;覆盖的基因组信息丰富——基因表达谱,拷贝数变异谱,单核苷酸多态性,DNA甲基化,外显子,microRNA,甚至一定量样品的全基因组测序;最后,涉及的肿瘤类型多,几乎涵盖所有已知肿瘤。
现在,这个项目的很多研究结果已经陆续开始发表。各种癌症的基因组改变已经得到揭示。比如最近发表在新英格兰医学杂志上的关于急性骨髓白血病(AML)的癌症基因组的文章15。
除了美国的TCGA项目外,英国还有类似的项目:由Wellcome Trust Sanger Institute主持的Cancer Genome Project。
癌症基因组学最大的贡献是为所谓的个性化医疗(PersonalizedMedicine16)奠定了基础。
还有很多和人类基因组计划相类似的项目,比如人类微生物组计划(Human microbiome project),黑猩猩基因组计划(Chimpanzee Genome Project)等。
隐忧
之一:科研的动力:
每个人都想在在世上留下自己走过一遭的标志:运动员用自己的成绩,政治家用自己的政绩,科学家用自己的发现。费马大定理,牛顿方程,沃森克里克DNA双螺旋,张益唐对孪生素数猜想的证明,带给这些人无限的荣耀。可是今天那些组学文章动辄成百上千的作者,他们的贡献,仅仅轻描淡写的“某某人等”就能慰藉得了么?如此打酱油般的存在,大科学时代一将功成万骨枯的现状,会给参与者带来多少科研快感呢?
之二:假设和描述的冲突与融合:
人类历史上在科学上取得的巨大成绩,常常来自于天才人物的想象力。牛顿三定律,爱因斯坦的质能方程,沃森和克里克发现的DNA双螺旋结构,甚至最近张益唐先生的孪生素数猜想的证明,都是来自于天才人物的巧妙心思。这些科学探索的共同特点是合理的假设和对假设的证明。
生物学一度是不依赖于假设的描述性学科:鸟飞鱼跃,花开叶落,天地悠悠,如此而已。自从孟德尔建立了遗传法则和沃森克里克发现了DNA双螺旋,生物学逐渐变成了由假设推动的实验学科。
大科学尤其是组学,测序,带来了新一轮的生物学大发现。
一方面,我们在历史上见证了无数的由假设推动,并且取得了广泛成功(所谓的成功并不是发表文章,而是对人类生活的影响)的科学,这导致了人们对上个世纪50年代绚烂的科学发展的无限怀念;另一方面,我们又面临着大科学带来的大发现。这对基于假设的科学的冲击是空前的。这些乱花渐欲迷人眼的新的科研方式和成果,到底会给我们的学术和生活带来什么样的改变,现在还很难说清楚。
去年10月份北大的饶毅王俊之辩,从某种意义上来讲,是传统的基于假设的科学和新兴的大科学的一次碰撞,也就是hypothesesfirst还是data first的问题。除了这次中国人相对熟悉的科学辩论,还有另一个大家不太熟悉的辩论。辩论的一方是MIT的RobertWeinberg17,杰出的癌症研究专家,因为发现Ras和Rb而奠定了自己的科研基础,另一方是哈佛医学院的ToddR. Golub18,组学(-omics)的倡导者和实践者。尽管Weinberg认同利用RNA干涉在全基因组水平来研究癌细胞中的关键基因,但是他对癌症基因组学的性价比还是有自己的质疑。他也表示了自己对科研人才流失的担忧:在大科学时代的风气下,政府在资金的投入上更少地顾及到以假设为基础的小的实验室,从而留不住很多优秀的科研人才——大科学并不需要那么多的杰出科学家。Golub则推崇大科学所带来的巨大的信息,认为这些信息必将大大促进科学的进步和百姓的福祉。
碰撞并不一定意味着两败俱伤,更多的是接纳和融合。人类历史上民族国家之间的碰撞,尽管在当时造成了巨大的创伤,但是最终常常孕育了生机和活力。科学也是如此。相信由大科学带来的海量信息,必将给假设更加富有营养的土壤。
[1] Large HadronCollider. Wikipedia.
[2] Burj KhalifaTower. Wikipedia.
[3] List ofmagaprojects. Wikipedia.
[4] War oncancer. Wikipedia.
[5] Human GenomeProject. Wikipedia.
[6] BRAINInitiative (Brain Research through Advancing Innovative Neurotechnologies).Wikipedia.
[7] HumanGenetic Variations. Wikipedia.
[8] 1000 GenomesProject. Wikipedia.
[9] Anintegrated map of genetic variation from 1,092 human genomes. Nature 2012; 491(7422): 56-65.
[10] A map ofhuman genome variation from population-scale sequencing. Nature 2010; 467(7319): 1061-73.
[11]ENCODE.Wikipedia.
[12] Fewergenes, more noncoding RNA. Science 2005; 309(5740): 1529-30.[13] TheCancer Genome Atlas (TCGA). Wikipedia.[14] CancerGenome. Wikipedia. [15] Genomicand Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia. May 1,2013DOI:10.1056/NEJMoa1301689.[16] PersonalizedMedicine. Wikipedia.[17] Point: Hypotheses first. Nature 464, 678 (1 April 2010).
[18] Counterpoint:Data first. Nature 464, 679 (1 April 2010).Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 15:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社