博文

生物信息学不需要裸奔精选

已有 9183 次阅读 2012-9-19 11:00 |系统分类:科研笔记| 生物信息学

有博友发文感叹生物信息学的“边缘化”而不得不“裸奔”（http://blog.sciencenet.cn/blog-404304-614035.html），得到很多响应。我也是从计算机专业转向做生物信息学和计算生物学的问题，所以，深有同感。其实，这么多的交叉学科，是机会，也是陷进。即可以两边都靠，也可以两边都不搭理你。所以，如果是出自一个大牛平台的交叉学科的结果，比较容易得到承认；如果是出自一个普通的研究者之手，那么就会被两边质疑。这也是很自然的事情，没有什么可抱怨的。

但是，我个人觉得，即使是从事生物信息学和计算生物学的学者，还是有许多人对学科的认识是有误解的，所以，也不要责备两边的专家来质疑了。

首先，所谓生物信息学，本质上重点研究的是信息学问题，只是这些信息学问题来自生物领域的原始问题。例如，序列比对问题，这是一个标准的信息学范畴内的问题。我们都知道ABC和ADC的匹配是有两个字母相同，可以认为是相似度是2。这是一个经典的计算机学科讨论的问题。如果把这个问题变换一下，问ABC与ADC相似、还是ABC与AEC更相似？从计算机的角度说，都是2！但是，如果告诉你，BD的相似度是0.5、BE的相似度是0.4，那么，ABC与ADC相似度2.5，ABC与AEC相似度就是2.4了。更加通用化，如果给你一个所有字母两两之间的相似度，那么，上面的字符串匹配问题就是一个比较复杂的信息学问题了。而这个相似度矩阵，不是出这个信息学问题的专家挖空心思想出来的，而是来自于生物学的领域。再把这个信息学的问题变态地搞得更加复杂：如果我们允许两个字符串匹配过程中，字符串的任意一个位置允许插入通配符“-”，当然也给定这个通配符与其它字母匹配时的相似度，那么，两个字符串匹配就有许多种可能，如果要问，相似度最高的那个匹配是什么？这样一个信息学问题，就是所谓的序列匹配问题了。不要以为这是一个异想天开的问题，这是一个自然的来自生物领域的计算问题。

所以，可以把生物信息学简单表示为b-m-c，b表示生物问题，m表示面向计算的建模，c就是计算问题。生物信息学要解决的首要问题是c，而不是b！因为b解决得好坏，不但取决于c解决的好坏，还要取决于m的好坏。当然，m需要两个领域通吃的人才能解决得好。一般计算机出生的人做的是c，m是现成的，不会去动它，也没有能力去动它。所以免不了要被学生物的人指责你的b没有做好。在生物信息学里，最早最成功的算法和程序大概就是序列比对程序blast了，由于其m-c都解决的非常好，所以得到了广泛的认同。

再看计算生物学。其实，计算生物学要回答的是生物学的问题，不过是采用了计算的方法手段。为了便于比较，可以把计算生物学表示为c-m-b，其落脚点是回答b，而c是手段。（再次提醒b-m-c中，c是最终问题，b是c的来源。c本身很难可以独立成为一个问题，回答了c能够顺便回答b那是最理想的，不过回答不了，也没有什么可耻的。）比如，两个基因，它们有共同的祖先吗？这是一个标准的生物问题。要回答这样的问题，如果采用传统实验的方法，就是“实验生物学”的范畴；如果把基因表示成字符串，把“是否有共同的祖先”（这是一个b问题）这个生物学问题转化为“序列比对”问题（这是一个c问题）来做，这就是“计算生物学”的范畴了。这往往是生物背景的学者通过学习计算手段后来从事的工作。

其实，现在我们完全可以说，计算完全可以同实验、理论并列地称为三大方法论，可以用来从事任何学科：传统上，“实验生物学”占主导地位，但是也有“理论生物学”（化学、物理也一样），现在，出现“计算生物学”，也是顺应潮流的。而生物信息学，应该被看作信息学里面的一个特定问题集而已，当然，m问题不仅仅是c问题，也是b问题。生物信息学越是发展，计算生物学就越有基础。所以，生物信息学也罢，计算生物学也罢，没有必要“裸奔”。当你做大做强了，人家自然用你的。

最后，用一个例子来解释如何面对实验生物学家对“预测”的轻视。假如有这样一个问题：100个蛋白质和100个小分子，它们有可能的结合物是什么？如果用实验生物学的方法，那就是做1万次两两配对的实验，假定发现了60个可以结合的复合物，十分地伟大！获得了insights，但是获得了“规律”吗？如果用计算生物学的方法，给出了预测，即使是预测的准确率是60%（这已经是让计算生物学家拿不出手的:-），那也只要让实验生物学家做100次实验就可以获得那60个insights！想一想那实验生物学家的60个insights的分母！

也许你会说，我们实验生物学家不会那么傻到来做1万次实验，我们先是凭经验和“灵感”筛选一部分实验来做的！那么，计算生物学家同样可以问，你的筛选的准确率有60%吗？被你放弃的那些配对实验真的没有可能的结合物吗？这就回到实验生物学家质疑计算生物学家“预测”的相同情况了！其实，计算手段也是对专家经验的模仿（“灵感”即使是对人类专家来说也是可遇不可求的，计算机目前还是放弃了对“灵感”的追求，但是代之以更加完善的随机技术）。我们可以承认计算机处理和推理定性知识的能力不如人脑，但是，可以坚定地认为，计算机处理推理定量知识的能力，完全是超过人脑的！！如果质疑这一点，那么实验生物学家也就不称职了。

其实，搞计算的学者对生物、生命、医学等领域的学者最羡慕的是：那里永远没有重复的问题，每一个具体结果都是创新！

转载本文请联系原作者获取授权，同时请注明本文来自吕强科学网博客。
链接地址：https://blog.sciencenet.cn/blog-404372-614310.html

上一篇：Nature发科幻小说纪念图灵百年
下一篇：政府何必为华为、中兴羞答答地抱不平？

收藏 IP: 218.4.189.*| 热度|

当前推荐数：12 推荐人：李明娟 胡传圣 陈学雷 范丁丁 杨海涛 牛登科 杨宁 梁建华 韦鵾 王靖琰 xiyouxiyou chinasciens

该博文允许注册用户评论请点击登录评论 (12 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

吕强

扫一扫，分享此博文

全部作者的精选博文

• 人机大战三回合后，给李世石支支招

lennylv的个人博客分享 http://blog.sciencenet.cn/u/lennylv

博文

生物信息学不需要裸奔精选

当前推荐数：12 推荐人：李明娟 胡传圣 陈学雷 范丁丁 杨海涛 牛登科 杨宁 梁建华 韦鵾 王靖琰 xiyouxiyou chinasciens

该博文允许注册用户评论请点击登录评论 (12 个评论)

吕强

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

lennylv的个人博客分享 http://blog.sciencenet.cn/u/lennylv

博文

生物信息学不需要裸奔 精选

当前推荐数：12 推荐人： 李明娟 胡传圣 陈学雷 范丁丁 杨海涛 牛登科 杨宁 梁建华 韦鵾 王靖琰 xiyouxiyou chinasciens

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

吕强

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

生物信息学不需要裸奔精选

当前推荐数：12 推荐人：李明娟胡传圣陈学雷范丁丁杨海涛牛登科杨宁梁建华韦鵾王靖琰 xiyouxiyou chinasciens

该博文允许注册用户评论请点击登录评论 (12 个评论)