brianring的个人博客分享 http://blog.sciencenet.cn/u/brianring

博文

基因组里基因知多少? 精选

已有 8459 次阅读 2016-9-26 16:37 |系统分类:观点评述| 基因组, 基因



语言存在模糊性,这也是导致人们对同一事物的理解不一致的原因之一。历史上不少哲学家,如洛克、笛卡尔和康德,都从哲学的视角对如何定义和认识事物提出了自己的见解。在基因学领域也存在基因定义和单复数属性不明确的问题,那么这些哲学观点会带给我们怎样的启示呢?

基因组项目研究的早期是一段令人兴奋的岁月,那时我们也常常会想到这样的一个问题:基因组里到底有多少基因?

这个问题的争议很大,大多数人认为这个数目在2万5到3万之间,但是有些人认为这个数目高达十万。我属于“有些人”,即后者。消除这种争议的关键在于统一基因的定义和基因的单复数属性。基因到底是什么,这个问题也存在很多种回答。但是3万+的基因肯定不会等同于10万+的基因。

这并不仅仅是一个遗传学问题,也是一个基本的哲学问题。也就是说,“怎么知道那个指的是什么呢?”这只狗长得跟那只狗不一样,但是我们还是认为这是只狗。为什么?怎么做到的?

曾有一位总统说,这都取决于“是”这个词的意思。约翰·洛克,一位哲学家、政论家、狗狗赛跑热爱者(至少我是这么认为的),在他的《人类理解论》里花了一整个章节讲“是”这个词。

洛克认为,人类对世界的一些共同认知并不是生来就有的,人类的头脑一开始一片空白,后来慢慢被经验填充。但是这可能会阻碍交流。如果没有意识到人与人知识水平的差异,很容易出现鸡同鸭讲的现象。如果你和反对派的铁杆成员说过话,你就知道那种感受了。如果没有意识到这个问题,我们的措辞就会不准确,也就无法判断你我所说的“基因”是不是同一个。

洛克


洛克认为消除模糊概念只有一个办法,就是给每个物体创建一个单独的词,并且摒弃那些统称全体对象的词。每一条狗、每一片树叶、每一粒沙、每一份RNA副本、每一朵云都有自己的名称。还好他只是随口说说而已。如果真给每个物体创建一个单独的词,首先就得扩充字母表,不然就得接受超长的单词,字典也会变成大部头。更重要的是,他认为这样就再也无法交流了,对于那些不从政的普通老百姓来说,交流才是语言的全部意义之所在啊。

洛克是一个实证主义者,认为人类所有的思想和观念都来自于人类的感官经验。这跟理性主义正好相反,理性主义认为推理才是知识的源泉。当然没人会否认推理的实用性,但是理性主义者却认为推理是理解客观真理的唯一途径。


笛卡尔


勒奈·笛卡尔是一个理性主义者,他著名的“我思故我在”讲的就是他通过推理来确认自己的真实存在。就我个人而言,低头看一下,说:“没错,我还在这儿”,这就够了,但是真正的哲学家们把这件事看得可重要了。

康德


洛克之后的大约一百年,埃马奥·康德写了一本《纯粹理性批判》,在某些方面还是专注于洛克的那个关键字“是”。我们怎么知道这条狗是一条狗,一个基因是一个基因的呢?实际上,康德在洛克的基础上退了一步,提出了这样的问题:人类是否清楚自己为了了解事物有多拼?他的回答是人类可能明白这一点,即虽然自己没法了解一些事物的全部,但是却可以了解其中的一部分。

与担心模糊义会影响沟通的洛克不同,康德从来没有担心过语言方面的问题,而且他似乎认为,如果语言和思想之间的关系过于密切的话,就没有趣味性可言了。

不过康德也认为语言的不确定性的确是个问题。难道洛克等消极怀疑论者和盲目乐观的理性主义者就没有任何联系吗?怀疑论者否定人类了解事物本质的能力,把人类与宇宙的关系描绘得前景渺茫。理性主义者坚信推理的力量,自然而然地就忽视了统一事物本质的困难,这些本质可能会揭示人类了解真相的内在能力。

康德的“纯粹理性批判”曾经一度让他进退两难。因为人们理解世界的方式不同,所以他认为,适用于所有人的用于定义事物单复数属性及其物质属性的概念是有限的。人们用各种各样的概念去对应对事物的感官体验,从而形成了一种模式,也就是对事物的一种印象。他强调,虽然这些模式不是错的,但也不是事物真实的本质,不是完全真实的现实。但是这些模式能帮助我们与宇宙、与世界交流,而且确保自己不是在自愚自乐。

因此,他得出的结论是:怀疑主义者认为人类无法就事物的目的或基本性质取得一致意见,这种观点是错误的,那些自信满满的理性主义者后来也被推翻了。

基因组里基因知多少

那么这跟基因组中基因的数量有什么关系呢?难道就不能直接通过基因测试来判断鲍勃是不是你的叔叔?

答案是不能,因为基因测序只能显示这样的结果:CCCTACTTATAACATCTGGCCTAACTATATGGTTCCACTACCACTCTGTAGTTCTCCTATTTTTAGGATT。

不管参考何种定义,基因都被认为是人体基因组中的区域部分,可以被转录为RNA,之后一般被转录为蛋白质,仅凭测序的结果我们无法判断它是否为基因的一部分。我们可以通过测序或者检测细胞中的RNA并将这些位点对应到基因组的方式来定义基因。至于它们如何对应到基因组DNA这个问题可能就比较复杂了。基因可以重合,以多种方式连接,包含大量未转录的基因组DNA,这些基因组DNA可能对该区域染色体的整体结构至关重要,多个基因可以共享DNA区域和对其调控至关重要的染色体结构特点。

什么时候哪些基因组DNA位点会被转录为RNA,这是无法预测的,因为它们还会受到其他基因的影响,而且这些基因的调节和转录反过来又依赖于其他的基因。

解决这个难题的方法之一就是洛克的超级字典法,只对每个可能的RNA命名,不允许任何人定义单个的基因。从某种意义上来说,这就是我所在的一个团队采取的方法,这个团队具有绝对的数量优势。我们把包含遗传信息的转录共同核心集群定义为“转录单元”,而不是“基因”。这些单元通常跟多个不同的拷贝密切相关。我们估计独一无二的拷贝总数量可能超过75000.

但是“少数”群体赢得了最终的胜利。与我所在群体所采取的洛克式方法不同,他们现在越来越偏向于理性主义,他们坚信在基因组中可以发现潜在的逻辑现实。如果存在一个新的RNA拷贝,就一定会毫不犹豫地给它一个有意义的基因名。两个RNA拷贝可能会有些许差异,一个有外显子,一个没有,另一个的末端更长,但还是可以把它们都当作Cox2基因。如果用这种理性主义的方法,我们就不需要类似于“转录单元”这种单调的词了。看看上图那么多拷贝,我们相信在遗传结构知识的帮助下,我们能够把它们都变成少数基因。这样的话,人体所拥有的基因数量可能会少于25000。

谁的方法更靠谱?


两种方法都是可行的,但是也都有各自的问题。洛克式的方法,因为其转录单位过多,因而忽略了基因组结构中逻辑的真实存在,也忽略了基因组DNA共同区域所产生的拷贝功能的相似性。然而理性主义的方法对基因和染色体结构所做的假设并未经证实,所以滋长了自以为是的想法。

另一种给基因分类的方法可能得归功于康德。康德认为,我们认识事物的时候首先必须意识到方式决定事物的本质。以基因为例,我们知道基因组测序,知道RNA在哪里被对应到染色体中,知道有相似测序的基因组存在于其他区域,而且对于基因是怎么调节的也有一定的了解。我们所不知道(至少至今还不知道)的是基因调节的全过程及其全部功能。有了这些概念之后,确定染色体的某个区域也包含着某种基因属性就不再是一种奢望,那时也就基本可以确定其他的区域中也存在相似的属性了。康德可能会说,我们永远无法了解基因本身,但是我们可以通过指定某个基因的方式来与其他人取得共识。

康德的方法可能并不会改变现状,如果包括蛋白质编码基因,那么就有2万个制表基因。如果包含那些功能不明的RNA转录副本生成位点,这个数据就会显著上升。长期以来对于给基因取名字的争议也会随之解决。大多数基因都有若干不同的称呼。人类基因组组织成立了一个委员会(HUGO基因命名委员会)来决定基因的“官方”名字,但把这些名字真正投入使用还是很困难。每次发布一组基因的名字,拿癌症组基因中基因表达公式来说吧,首先得把这个公式中的基因名转换成HUGO中对应的名字,这一过程中总有一些基因的名字能让人头大。

例如,官方名为前列腺素内过氧化物酶2的基因,也叫环氧合酶2(也简称COX2)、前列腺素G/H合成酶2、糖皮质激素调节炎性前列腺素G/H合成酶以及前列腺H2合成酶2。这是一种具有多种酶促功能的酶,在细胞中作用很大。由基因的某一个作用来决定其名字,这就是所谓的目的论,虽然我们总是觉得自己知道基因的目的。

这种自信就是典型的理性主义。我们当然不知道基因的目的是什么,实际上大多数人会说基因根本没有什么目的,言外之意就是基因只有功能。以这种方式给基因命名实际上就忽略了康德的远见和睿智。“目的”并不是康德所提出的基础概念之一,所以我们长久以来对基因的了解并不是从目的论的视角出发的。

因此任何关于基因最终作用的言论都不可能被所有人接受。理性主义的方法带来了一系列混乱的基因名称,带着不同假设和目的的研究者继续推进,结果这种混乱让我在开展新的生物信息学项目时至少浪费了一个小时。

语法学家会说“没人”既可以是单数的,也可以是复数的,这取决于我们怎么使用它。我们目前对于基因的定义也是这样的:一个基因可以产生许多不同的转录本,各显神通。但是基因整体应该怎么称呼呢?首先还是确定一下自己将赞同谁的观点吧,洛克?笛卡尔?还是康德?


(本文为Dr.Brain Ring 原创,小编编译,点击http://charter-of-the-genome.org/2016/03/17/how-many-genes-in-our-genome-or-the-metaphysics-of-genomics/即可阅读原文。如有转载需求,请联系yangqiao@idna.com.cn。)




https://blog.sciencenet.cn/blog-3213734-1005188.html

上一篇:透过NIH申请表来看资助申请的公平问题
下一篇:科学界出现可重复性危机,不可重复未必就没有意义
收藏 IP: 58.19.1.*| 热度|

12 文克玲 杨顺楷 陈波 黄永义 张骥 蔡小宁 陈新 李红雨 魏焱明 李颖业 xlianggg biofans

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-14 09:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部