||
代谢组学:我住长江尾
贾伟
最近代谢组学的创始人、英国帝国理工的Jeremy Nicholson教授一直在鼓吹“表型组”,即Phenomics。表型组的概念目前还不是那么清晰,可以笼统地理解为研究某一生物或细胞除了基因组以外的所有组学的集合,而其中最核心的部分,就是代谢组!上个月复旦大学的唐惠儒教授(唐教授曾在帝国理工的寺院练过多年的弹指神通)告诉我,复旦的金力教授正在牵头开展基于表型组的大型队列研究。在队列研究的范畴内,他们把表型组定义为个体从胚胎发育到出生、成长、衰老以及死亡过程中的形态特征、功能行为、分子组成规律,分成三个层面 - 生物特征、物理特征、化学特征,来进行系统的测量。
我个人很推崇这个表型组研究的策略,因为前面文章讨论过 – 基因组学不可能是精准医学的唯一手段。如果说疾病是遗传因素和包括生活方式在内的所有环境因素共同作用的一种结果的话,表型组反映的信息则更接近疾病本身。
我们知道细胞内的生命活动由众多基因、蛋白质、以及小分子代谢产物来共同承担,而上游的(核酸、蛋白质等)大分子的功能性变化最终会体现于代谢层面,如神经递质的变化、激素调控、受体作用效应、细胞信号释放、能量传递和细胞间通讯等,所以代谢组处于基因调控网络和蛋白质作用网络的下游,所提供的是生物学的终端信息。如同我们在长江的上游建大坝或对江水改道,这些项目的生态影响会在下游的河道和地域体现出来一样,我们经常说,基因组学和蛋白组学告诉你可能发生什么,而代谢组学则告诉你已经发生了什么。
我们称细胞内的代谢物特征性变化为代谢指纹 (Metabolic Fingerprints),分泌到胞外的代谢物为代谢足迹 (Metabolic Footprints)。与基因组、转录组学和蛋白组学比较,代谢组学还具有以下特点。首先,基因和蛋白表达在功能水平上的微小变化会在代谢物上得到放大,从而使检测更容易;其次,许多基因和蛋白的非功能性变化不会在代谢物上反映出来,从而起到了上游信息向下游传递过程中“噪音过滤”的效果;第三,代谢物的种类要远小于基因和蛋白的数目,物质的分子结构也要简单得多,因而代谢组学所采用的代谢物信息库,远没有全基因组测序及大量表达序列标签的数据库那么复杂。另外,常见代谢产物在各个生物体系(如植物的初级代谢、微生物、动物)中都相似,所以代谢组学研究中采用的平台技术可以在不同的生物体系中得到应用。
唐人孟浩然有两句诗 - 人事有代谢,往来成古今。从万物皆有兴衰代谢的角度来看,我们的生物世界其实是由代谢组组成的,是这些不同的代谢组让我们生物界呈现出五彩缤纷、气象万千的表型。我们地球上的各种植物含有几十万种(大约25-50万种植物化学分子)代谢物,微生物界大约有几万种代谢物,而我们哺乳动物体内常见(分子量小于1500)代谢产物有5-7千种。这三类代谢组互相渗透,植物和微生物的代谢物通过食物、营养补充、药物等形式进入我们人体的代谢网络,也使我们每一个人的代谢表型呈现出各种不同的特征。
我曾经在以前的一篇博文中把人体的代谢网络比喻成我们所居住的都市交通网络,从市中心(譬如上海的人民广场)到城市外围的任意一点(如浦东国际机场)理论上有无数条途径可走,但大家都知道最可行的途径也就是少数几条。而我们现在究竟要走哪一条道路去机场,主要看这一刻我们的交通工具、交通状况、时间和资金情况。生命活动其实也是一样的,我们人类三万多基因,尽管功能基因所占比例不大,但它们排列组合之下,就会出现无穷多种可能性,而奇妙的是,在指挥系统近乎无穷多种可能的指令下,仅仅产生出几万种蛋白,而下游的代谢物和代谢通路更少,尤其是主要的代谢通路(交通主干线)更是屈指可数,可以在一张白纸上画清楚。那么这说明什么呢?说明再复杂的生物系统在它的功能层面有着简单的、共性的一面。有人对收集到的各种癌细胞进行检测,发现了共有大约5百万种基因突变方式,但这些变化再复杂还是有章法可循的,它们无非是要在功能层面(譬如代谢层面)实施调整和转换,达到一个或几个简单的目的 – 要么获取更多的能量,要么获得更多的物质,或者设法排除更多的废弃物,或者增强自身的抗氧化抗应激(抗药物)能力。总之癌基因调控的目的明确 - 要生存、增殖、从周边掠夺资源并向周边扩散。如果我们能够这样来看问题,我们就可以在寻找共性的变化中把复杂问题简单化,而代谢组学将是疾病分子表型和功能研究中的一门核心技术!
再举个例子来说明为什么代谢组学重要。现在肠道菌群研究已经成为科技界最为火爆的领域之一,你搞生物的话要是不谈点菌群啥的你都不好意思出门开会!但是,这个领域目前玩的只有一个技术 – 测序,不是16S rRNA测序就是NextGen宏基因测序!测序告诉我们的是什么呢?是肠道细菌的种类信息,从门到属到种(有时甚至能到株)的分类和丰度值,如同你要研究一个城市的安全问题,这个检测技术可以帮你搞到一本覆盖全市大多数居民的花名册,仅此而已。两个肠道菌群组成相差很大的健康人站在一起,我们无法判断他们结构上的差异意味着什么,如果两个人用同一种饮食,这些菌群差异在两个人代谢和生理上会带来的什么样的功能性变化我们尚难以预测。当然菌群研究者们说他们可以通过检索数据库获得功能信息,但这些功能信息怎么来建模预测呢?每一种代谢功能下各种细菌进行相加或是加权后相加?那么互相抵消互相干扰的怎么算呢?最简单明了的代谢功能表征方法就是测代谢组!由此获得的数据是各种细菌集成的功能以及与宿主共同作用下的最终结果!
但是,代谢组学目前尚无法全面进入精准医学和相关健康领域的产业化服务。其主要瓶颈有两个,一是标准化的问题,二是通量的问题。代谢组学往前发展的一个必经之路是定量化和标准化。基因测序技术目前成为转化研究和技术产业化的首选工具,一个重要原因是这种高通量检测技术的标准化已日渐成熟并正在行业内逐步得到普及。目前国内测序行业多家企业在基因组数据分析处理(包括测序采样与分析、碱基读出、载体标识与去除、拼接与组装、间歇填补、重复序列标识等等)逐步建立了统一的标准和流程。我们可以把华大基因比喻成秦统一六国,它积极参与国际领域内大数据管理、整合和共享标准的建立,利用自身硕大的测序平台体量和技术实力,在技术标准方面成为行业内的执牛耳者。而代谢组学则还没有发展成熟,还处于春秋战国诸侯争霸时期。
目前代谢组学除了核磁共振仪外,主要分析仪器为质谱。而包括飞行时间质谱(TOF)、三重四级杆串联质谱(TQ)、四级杆飞行时间串联质谱(QTOF)、离子回旋共振质谱(ICR)、轨道离子阱(Orbitrap)等高分辨质谱仪的生产厂家不下十家。这些厂家都有自己独特的仪器配置、数据处理软件、以及数据库。不同厂家用的工作软件和数据库之间都无法对话(cross-talk),因此一旦购买了某一个厂家的设备来做代谢组学,研究者往往只有照搬该厂家提供的全套分析工具,因而整个行业缺乏包括数据处理标准、数据分析途径、生物描述规范、以及报告标准在内的统一的代谢组学标准流程或标准协议。对于代谢产物鉴定,各个实验室的做法也是参差不齐,有的完全依赖国际数据资源库,有的用厂家自带数据库,有的用自己的标准品来鉴定,以致于数据的质量良莠不齐!
代谢组学要想全面进入临床医学和健康产业的服务领域,需要化大力气解决技术平台的行业标准化问题。从代谢组学设备生产厂家到各个实验室之间都需要逐步改变工作模式,从各自为战百花齐放到互相合作统一标准,共同建立行业内的技术规范,不同平台产生的数据可以交互验证(cross-validation),最终建立起一个行业内可以共享的代谢组学数据库。
也只有在行业普遍接受的技术标准的前提下,我们才可能扩大检测规模。而没有一定的检测通量,例如一次检测数万或数十万样本的能力,代谢组学技术也很难在大型研究项目和精准医学领域扮演一个有意义的角色。前面说到复旦大学开展的基于大型队列的表型组学研究,目前已经纳入计划的队列达到二十万人,以每个人在六个时间点采集样本计,总样本数就达到了120万份,随着计划的推进,样本数将持续上升。可以想象,只有采用统一的技术标准和具备足够检测通量的代谢组学实验室才可能承担这类项目的研究工作。
记得八十年代读书的时候看过一部纪录片《话说长江》,有二十五集,当时这部电视播出后举国轰动,中国观众在信息闭塞了几十年后,通过一条流淌了数千万年全长六千多公里的河流的介绍,第一次直观的、全景的在电视中看到了自己国家广袤的大地、多彩的人文、以及长江流域美丽的自然风光。每天晚上随着主题歌响起,每个人的心里开始激动和期盼,“你从雪山走来,春潮是你的丰采;你向东海奔去,惊涛是你的气概…… ”同样,我们今天尽管科学高度发达,人类对于自身几乎是所有的重大疾病的发病机制的认知水平还处于Dark Ages(黑暗时代)阶段,随着基因组学的日趋成熟和表型研究工具如代谢组学的广泛应用,我们将会把基因和表型信息连接起来,有可能逐步打开一些疾病的黑箱,像了解一条古老的河流一样逐步认识我们的生命,一步一步地逼近疾病和生命的本质!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 19:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社