|||
闲聊几句计算生物学
Omni
平时工作太忙,来科学网一般只读不评。但作为计算生物学的业内人士,我觉得薛宇博友的《生物信息之拍案惊奇》博文系列戏说成分太过,被科学网编辑推到首页后似乎有些失控。为了避免有志于从事计算生物学的青年学生被该文误导,我觉得有必要破例写几句来正本清源(setting the record straight)。
David Mount的教科书确实不错,可惜第一版发行时兄弟已在美国博士毕业并从事制药业研发工作一年有余。2003年3月回国探亲,顺便访问北大罗静初教授时蒙他赠送了科学出版社的英文影印版。虽然该版本没有彩图而且大多数内容早就通过其它教科书掌握,但我后来还是经常抽空拿出来翻翻。从薛博友的文中可以看出,他当年对该书的阅读学习不够深入,在此略微点评几处要点:
(1) 薛博友说Dayhoff经典论文(http://www.bio-recipes.com/Dayhoff/dayhoff1978.pdf)中显出她的数学能力较差,我还真没看出来。希望有数学功力深厚的网友能具体指出文中哪一页哪一段有问题,也好让兄弟学习一下。Dayhoff在1970年代就能想到将Markov链的概念引入分子演化(molecular evolution)是相当有洞察力的,可看成是后来1990年代初David Haussler小组将隐Markov模型(HMM)引入计算生物学的先驱思想之一,在此之前HMM只在语音识别领域有成功的应用。Dayhoff的数理功底至少让她知道Markov矩阵在多次自乘之后会在数值上收敛,于是PAM120和PAM250等就能作为序列联配的打分矩阵。毫无疑问,PAM矩阵是后来所有打分矩阵(其中以BLOSUM62最为有用)的先驱,其历史意义相当深远。
Dayhoff在原始论文中对PAM这个缩写(acronym)如何拼出确实有个微不足道的笔误,我当年阅读时顺手在复印件上做了“Percentage of Accepted Mutations”的改错式批注。这样一改就与PAM缩写完全吻合,而且更符合PAM矩阵内元素的精确定义。David Mount在这点上与我基本上不谋而合,他在教科书第一版78页也指出"PAM =Percent Accepted Mutation"。
(2)Mount第一章"Historical Introduction"写得很好,凡是他认为重要的历史人物都附上照片,而第一张照片就是Dayhoff。这样安排的潜台词非常明显。薛博友居然因为Mount正文里引用了"Sanger & Tuppy, 1951"就把Sanger老先生和生物信息学扯上关系,娱乐性显然有些过头。而且我认为根本不存在公认的”生物信息学之父/母“,很多科学家都做出了重要的早期贡献,这和“全息生物学”之类的伪科学有自封为鼻祖还梦想得炸药奖的狂人有本质不同;
(3) 薛博友对Temple Smith的历史地位严重高估。计算生物学领域当选美国科学院院士的屈指可数,我知道的有以下四位名教授:Waterman, Lander, Lipman, Haussler (若有遗漏,欢迎补充)。熟悉计算生物学发展史的博友都知道,Waterman当选而Smith落选并不是因为后者过于低调而受到不公待遇。当年GenBank元老中的领军人物是WalterGoad,Smith也有相当的贡献。但Smith在Los Alamos当物理学家时就资质平平,数学能力根本不能和Waterman相比。Waterman除了有名的S-W算法之外,另有一项具有同等甚至更大份量的工作:Lander-Waterman理论 (http://en.wikipedia.org/wiki/DNA_sequencing_theory#Lander-Waterman_theory)在后来人类基因组测序项目中起了奠基石的作用。另外请注意一个重要细节:Mount书中两人照片一起出现时,Waterman在上而Smith在下。无论是姓氏的字母顺序,还是1981年两篇经典论文的署名次序都与Mount的安排相反,我认为Mount兄品人很有眼光!
(4)Smith-Waterman算法(1981)的历史地位也被薛博友高估了。此项工作前Needleman & Wunsch (1970) 将Bellman发表于1960年代的动态规划算法(在此大力推荐Dover版Bellman名著)引入生物序列联配,后有BLAST算法这一里程碑式突破(Lipman当选院士的主要依据)。在此建议凡是对BLAST有不屑看法的青年学生先去攻读O'Reilly出版社的《BLAST》一书(Ian Korf et al, 2003),最好将书中的Perl程序都在Linux系统上认真运行一遍,然后再来科学网发表评论不迟。而且Mount的书再好也是生物学家写的,自学计算生物学的学生只读这一本是远远不够的。支撑计算生物学这只大鼎的三条腿缺一不可:Statistics, Computer Science, Biology。从统计学角度写得最好的教科书是"Statistical Methods inBioinformatics" (Ewens & Grant)。而从算法学角度写得最好的则是Pavel Pevzner(Waterman的博士后) 的几本书,其中最值得花时间研读的是"An Introduction to Bioinformatics Algorithms"。
(5) 传统实验生物学出身的Mount能在书中以相当篇幅介绍贝氏统计学 (Bayesian Statistics) 勇气可嘉!但限于作者在数理统计上有限的功力,想通过此书学透HMM和贝氏统计学在生物信息学上的应用是不可能的。有志攻难关的同学可以参考Ewens & Grant书中的HMM章节以及大家公认比较难读懂的1998年名著”BiologicalSequence Analysis” (Durbin et al)。
-----------
博主附言: 看到Omni兄的精彩评论,觉得埋没在留言里实在太可惜了。联系后作者发来编辑后的文章,在这里代为发表。 各位的讨论有请Omni兄自行总结回复。
另提醒对有关课题感兴趣的博友,国际系统生物学会(http://www.issb.org/)的第15届国际系统生物学年会将于今年9月14-18日在澳大利亚墨尔本召开,late-breaking abstract submission大约6月开启。第16届年会将第一次来到日本以外的亚洲国家,于2015年8月在上海召开。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 14:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社