lennylv的个人博客分享 http://blog.sciencenet.cn/u/lennylv

博文

生物信息学不需要裸奔 精选

已有 8670 次阅读 2012-9-19 11:00 |系统分类:科研笔记| 生物信息学

有博友发文感叹生物信息学的“边缘化”而不得不“裸奔”(http://blog.sciencenet.cn/blog-404304-614035.html),得到很多响应。我也是从计算机专业转向做生物信息学和计算生物学的问题,所以,深有同感。其实,这么多的交叉学科,是机会,也是陷进。即可以两边都靠,也可以两边都不搭理你。所以,如果是出自一个大牛平台的交叉学科的结果,比较容易得到承认;如果是出自一个普通的研究者之手,那么就会被两边质疑。这也是很自然的事情,没有什么可抱怨的。

但是,我个人觉得,即使是从事生物信息学和计算生物学的学者,还是有许多人对学科的认识是有误解的,所以,也不要责备两边的专家来质疑了。

首先,所谓生物信息学,本质上重点研究的是信息学问题,只是这些信息学问题来自生物领域的原始问题。例如,序列比对问题,这是一个标准的信息学范畴内的问题。我们都知道ABCADC的匹配是有两个字母相同,可以认为是相似度是2。这是一个经典的计算机学科讨论的问题。如果把这个问题变换一下,问ABCADC相似、还是ABCAEC更相似?从计算机的角度说,都是2!但是,如果告诉你,BD的相似度是0.5BE的相似度是0.4,那么,ABCADC相似度2.5ABCAEC相似度就是2.4了。更加通用化,如果给你一个所有字母两两之间的相似度,那么,上面的字符串匹配问题就是一个比较复杂的信息学问题了。而这个相似度矩阵,不是出这个信息学问题的专家挖空心思想出来的,而是来自于生物学的领域。再把这个信息学的问题变态地搞得更加复杂:如果我们允许两个字符串匹配过程中,字符串的任意一个位置允许插入通配符“-”,当然也给定这个通配符与其它字母匹配时的相似度,那么,两个字符串匹配就有许多种可能,如果要问,相似度最高的那个匹配是什么?这样一个信息学问题,就是所谓的序列匹配问题了。不要以为这是一个异想天开的问题,这是一个自然的来自生物领域的计算问题。

所以,可以把生物信息学简单表示为b-m-cb表示生物问题,m表示面向计算的建模,c就是计算问题。生物信息学要解决的首要问题是c,而不是b!因为b解决得好坏,不但取决于c解决的好坏,还要取决于m的好坏。当然,m需要两个领域通吃的人才能解决得好。一般计算机出生的人做的是cm是现成的,不会去动它,也没有能力去动它。所以免不了要被学生物的人指责你的b没有做好。在生物信息学里,最早最成功的算法和程序大概就是序列比对程序blast了,由于其m-c都解决的非常好,所以得到了广泛的认同。

再看计算生物学。其实,计算生物学要回答的是生物学的问题,不过是采用了计算的方法手段。为了便于比较,可以把计算生物学表示为c-m-b,其落脚点是回答b,而c是手段。(再次提醒b-m-c中,c是最终问题,bc的来源。c本身很难可以独立成为一个问题,回答了c能够顺便回答b那是最理想的,不过回答不了,也没有什么可耻的。)比如,两个基因,它们有共同的祖先吗?这是一个标准的生物问题。要回答这样的问题,如果采用传统实验的方法,就是“实验生物学”的范畴;如果把基因表示成字符串,把“是否有共同的祖先”(这是一个b问题)这个生物学问题转化为“序列比对”问题(这是一个c问题)来做,这就是“计算生物学”的范畴了。这往往是生物背景的学者通过学习计算手段后来从事的工作。

其实,现在我们完全可以说,计算完全可以同实验、理论并列地称为三大方法论,可以用来从事任何学科:传统上,“实验生物学”占主导地位,但是也有“理论生物学”(化学、物理也一样),现在,出现“计算生物学”,也是顺应潮流的。而生物信息学,应该被看作信息学里面的一个特定问题集而已,当然,m问题不仅仅是c问题,也是b问题。生物信息学越是发展,计算生物学就越有基础。所以,生物信息学也罢,计算生物学也罢,没有必要“裸奔”。当你做大做强了,人家自然用你的。

最后,用一个例子来解释如何面对实验生物学家对“预测”的轻视。假如有这样一个问题:100个蛋白质和100个小分子,它们有可能的结合物是什么?如果用实验生物学的方法,那就是做1万次两两配对的实验,假定发现了60个可以结合的复合物,十分地伟大!获得了insights,但是获得了“规律”吗?如果用计算生物学的方法,给出了预测,即使是预测的准确率是60%(这已经是让计算生物学家拿不出手的:-),那也只要让实验生物学家做100次实验就可以获得那60insights!想一想那实验生物学家的60insights的分母!

也许你会说,我们实验生物学家不会那么傻到来做1万次实验,我们先是凭经验和“灵感”筛选一部分实验来做的!那么,计算生物学家同样可以问,你的筛选的准确率有60%吗?被你放弃的那些配对实验真的没有可能的结合物吗?这就回到实验生物学家质疑计算生物学家“预测”的相同情况了!其实,计算手段也是对专家经验的模仿(“灵感”即使是对人类专家来说也是可遇不可求的,计算机目前还是放弃了对“灵感”的追求,但是代之以更加完善的随机技术)。我们可以承认计算机处理和推理定性知识的能力不如人脑,但是,可以坚定地认为,计算机处理推理定量知识的能力,完全是超过人脑的!!如果质疑这一点,那么实验生物学家也就不称职了。

其实,搞计算的学者对生物、生命、医学等领域的学者最羡慕的是:那里永远没有重复的问题,每一个具体结果都是创新!



https://blog.sciencenet.cn/blog-404372-614310.html

上一篇:Nature发科幻小说纪念图灵百年
下一篇:政府何必为华为、中兴羞答答地抱不平?
收藏 IP: 218.4.189.*| 热度|

12 李明娟 胡传圣 陈学雷 范丁丁 杨海涛 牛登科 杨宁 梁建华 韦鵾 王靖琰 xiyouxiyou chinasciens

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 16:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部