龙五?龙舞!分享 http://blog.sciencenet.cn/u/DaCaiNiao 行踪常在云霄外,天下英豪我第一

博文

生物序列的可视化:小工具,有意义 精选

已有 10279 次阅读 2015-6-7 17:42 |系统分类:论文交流

上个月末清华大学的俞老师应邀来咱学院访问,讲他那个很神的迁移小体(Migrasome),这个工作我以前有写博客介绍过《“迁移作用与迁移体的发现”被自然出版社推荐》。当然这个不是重点,后来闲聊的时候,俞老师问了个问题:你觉得究竟是Scholarship(学问)重要,还是Impact(影响)重要?我乐:Impact后面加个factor最重要。我个人倾向是前者,原因是Scholarship对学者来说是可控的,一个方向或者一个问题努力做清楚,自然就有Scholarship;而Impact不可控的因素太多,不见得与学术水平有关。例如上一篇博客《吴瑞先生:DNA测序之父》谈到的“Sanger测序法”,有Impact但没有Scholarship,因为这个测序法是吴先生发明的。评论里有抗议,说Sanger法使用了ddNTP(双脱氧核糖核酸),正是因为这个所以桑格才拿奖。你要这么想呢,那你还真是不了解DNA测序。DNA测序技术一般分为一代、二代、二代半/三代(Pacific Biosciences,利用DNA聚合酶,边合成边测序,很多人认为不是真正的三代测序)和三代/终代(基于纳米孔的测序,一般认为是终极测序技术,还没有正式发布)。其中ddNTP仅用于第一代测序,到第二代测序及以后就不用了。但无论是第一代,还是终极测序,其中一个最关键的原则是不变的,那就是“引物延伸”。因此,第一,吴先生有Scholarship没有Impact,起码现在;第二,有没有Impact难以预测;第三,头头们喜欢后者,原因你懂的。

当然上述不是本篇的重点,今儿咱得介绍自己的工作,所以应该写成炫耀贴。话说从079月至今,我和胖子一起合作发表了约30篇论文,其中做翻译后修饰预测的工作有4Science论文引用,第一篇是2011年发现转录因子TFEB的磷酸化调控细胞自噬和溶酶体合成;第二篇是发现Beclin 1的磷酸化抑制自噬,并且促进肿瘤发生,这个工作据说很重要,因为Beclin 1是第一个在哺乳动物中发现的、调控自噬并且与癌症有关的基因,所以这几年自噬拿诺奖的呼声比较高,也是有道理的;第三篇是今年4月哈佛大学Marc W.Kirschner研究组利用单分子技术研究有丝分裂APC/C泛素酶复合物的特异性,拿我们开发的工具做了计算分析,Marc是我老师的老师的老师,所以我得喊祖师爷,做的工作能被祖师爷引用一把,感觉自然是不错;最后一篇是上个月发表的磷酸化调控中心体组装的工作。细胞自噬和有丝分裂各有两篇,另一个有意思的是,我们做的磷酸化预测软件GPS,主要的引用大多数来自这两个领域,差不多也是一半一半。

我们没有被Cell引用过,Nature只有一篇引用,是关于成神经管细胞瘤(Medulloblastoma)外显子测序和体细胞突变的论文。所有人都知道,咱实验室只做蛋白质修饰,不做核酸。胖子实验室亦然。所以搞测序的论文咋会引用我们的工作?这也就是本篇要讲的故事。

 

===================================================


 

话说2008年的第一场雪,记不得是不是比平常来的更晚一些。其时跟胖子合作时间不久,上个月刚把第一篇GPS 2.0投到MCP审稿,第二篇预测棕榈酰化位点的论文刚被拒掉(CSS-Palm 2.0,我们引用第二高的论文),我和胖子一时间茫然无措,大家都不知道该做点儿啥。于是我专心致志玩一个在线小游戏,凿砖的。胖子搬个板凳做边上,一边呵着气搓手,一遍聚精会神看凿砖。看了四个多小时胖子受不了了,说你这游戏一点观赏性都没有,凿来凿去也没见你凿出啥玩意儿来。我说,没有观赏性,你坐这儿看四个多小时?胖子举头看天花板,看了半天,完了低头叹口气儿:爱卿,计将安出啊?咱轻摇羽扇(胖子后来回忆说羽扇是不存在的),慢悠悠答:主公,吾有一妙计。

话说咱搞修饰的预测,其中有个问题审稿人一般问的比较多:对于已知修饰底物的已知修饰位点,是否能预测到?是否还能预测到新的位点?所以我和丰丰04年在BBRC上发表的第一篇论文,讲GPS算法的设计时,就作图显示哪些是已知的磷酸化位点可以预测到,哪些是潜在的新位点(1A)。在生物学论文里,生物序列的可视化是个很基础、很重要的问题。一条序列上有哪些功能元件、位点、结构域之类的,你絮絮叨叨写12千字不见得写的清楚,一张简单明了的图,谁都看得明白。看起来这种图好像很容易绘制:拿ppt画一个不就完了吗?不行,因为你没有办法画的精确,各种功能元件在序列上的比例、之间的距离你绝对不可能精确展示。当时做这个工作的时候,同事笑,说一个序列,大概齐画画就得了,搞那么精确干什么?咱不高兴:职业科学家做研究就要追求无比的精准,连个序列图都花不好,你咋好意思说你的实验数据没问题?

所以,我问胖子,说能不能做个生物序列的可视化工具,一是操作简单,二是绘制精确?胖子挠头,说可视化这东西我也没做过,不懂啊。我说没关系,想办法解决。完了咱下班,施施然回家看电视去了。要不怎么说胖子牛呢,第二天一到办公室,胖子已经坐那里笑的阳光灿烂:可以搞定。接下来就是搞定的过程,一直忙到过年,过完年回来继续折腾,搞到二月底写完论文,然后开始投各种杂志,被拒,然后以Letter to the Editor的形式发表在Cell Research。当时准备投CR的时候,大家都发笑:你这个没有做科学啊?咱不高兴,拍胸脯说这个肯定引用过百的。结果大家笑的前仰后合,说你这垃圾玩意儿哪有人用啊。当然喽,这篇论文已经引用过百,所以看起来应该不像是垃圾。

CR上发表的软件叫DOGDomain Graph,结构域图形),当时主要是解决咱自己的问题,即蛋白质序列的可视化,并且可以绘制成彩图。论文正式发表不久,马上就有一位美国的研究生Vinai C. Thomas给我们写信,说你这个软件只能导出分辨率为72dpi的图片,而期刊都要求300-600dpi的图片,咋解决啊?我看信大怒,说胖子你咋做的软件啊?胖子很无辜的回答:以前又没碰到这问题。所以我们连夜发布了一个升级版,第二天Vinai回信:OK。于是这就有了DOG软件的第一篇引用(1B)。后来就热闹了,我们收到各种反馈信件,数了数,有120多封,基本的意见归纳为:第一,不能只支持蛋白质序列,也要支持核酸序列;第二,要能够支持多条序列的同时显示。后来德国有个博士生,Urs Lahrmann10年底给我们写了封很长的信,提出了很多修改建议。我跟胖子一合计,邀请他和我们一起改软件,后来论文也一起署名。

软件好做,改起来就费劲了。从09年正式发表之后,我们已经意识到软件需要修改,到今年发表,整整改了六年我们才觉得马马虎虎可以发布。修改过程中很重要的三个事情是,第一,DOG软件2012年被Nature论文引用(1C),因此我们觉得有必要实现核酸序列的可视化;第二,DOG的引用多了之后,我们详细分析了一下引文,发现蛋白质序列与核酸序列可视化的引用基本是一半一半;第三,12年暑假在哈尔滨开全国生信的大会,当时华大基因的王俊博士做报告,其中一张图我看一眼就知道必然是用DOG做的:绝对没有其他软件能做得了。显示的也是核酸序列的变异。

所以后来改来改去,增加了很多功能,因为输入格式已经和以前的版本不兼容,所以我和胖子讨论很久,决定保留老版本的DOG软件,而把现在这个工具作为新软件,起名为IBSIllustrator for Biological Sequences,生物序列绘制器),并且正式发布。高兴之余,胖子实验室专门写了篇微信文章《画论文插图不会用PSAI?别担心,IBS帮你!》作介绍,有兴趣可以看看。顾名思义,这个工具就是希望能够一劳永逸的解决掉生物序列可视化的问题,第一是既可以可视化蛋白质序列,也可以可视化核酸序列;第二是可以同时在一张图上可视化多条序列;第三是各种功能元件、位点、结构域可以很容易标识;第四是与UniProt数据库有接口,可以直接获取UniProt的注释信息,并且可选择性的显示。

   未来的计划是,IBS也可以作为各种生物序列数据库的主要展示界面,数据库搜索的结果不是以文字或表格的形式返回,而是以直观的图形返回。不过这事儿什么时候做就不不知道了。主要的原因是,第一,我和胖子也都不算年轻了,再耐着性子做个软件做7年不大现实,精力跟不上;第二,搞生信要做实验,不然头头们讲你没有科学。所以搞生信的青年学者们都在做实验。上个月在北京开会,魏老师讲,生信不是必须要做实验的。后来大家乐:魏老师的报告就是计算和实验结合的。而且上个月在北京开的“第三届数学、计算机与生命科学交叉研究青年学者论坛”,没有一个报告是纯生信的工作,都有实验内容。

http://blog.sciencenet.cn/blog-404304-896219.html

上一篇:吴瑞先生:DNA测序之父
下一篇:生命科学领域的“辽宁号”:Revolocity测序系统

20 张亮生 孔维文 于仲波 陆绮 黄永义 陆苏祥 张世成 丁广进 黄健 李竞 徐晓 王显生 姚伟 周洲 王春艳 毛培宏 闵强 wqhwqh333 dachong99 biofans

该博文允许注册用户评论 请点击登录 评论 (21 个评论)

数据加载中...

Archiver|科学网 ( 京ICP备14006957 )

GMT+8, 2017-7-24 22:33

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社