龙五?龙舞!分享 http://blog.sciencenet.cn/u/DaCaiNiao 行踪常在云霄外,天下英豪我第一

博文

生物序列的可视化:小工具,有意义 精选

已有 10451 次阅读 2015-6-7 17:42 |系统分类:论文交流

上个月末清华大学的俞老师应邀来咱学院访问,讲他那个很神的迁移小体(Migrasome),这个工作我以前有写博客介绍过《“迁移作用与迁移体的发现”被自然出版社推荐》。当然这个不是重点,后来闲聊的时候,俞老师问了个问题:你觉得究竟是Scholarship(学问)重要,还是Impact(影响)重要?我乐:Impact后面加个factor最重要。我个人倾向是前者,原因是Scholarship对学者来说是可控的,一个方向或者一个问题努力做清楚,自然就有Scholarship;而Impact不可控的因素太多,不见得与学术水平有关。例如上一篇博客《吴瑞先生:DNA测序之父》谈到的“Sanger测序法”,有Impact但没有Scholarship,因为这个测序法是吴先生发明的。评论里有抗议,说Sanger法使用了ddNTP(双脱氧核糖核酸),正是因为这个所以桑格才拿奖。你要这么想呢,那你还真是不了解DNA测序。DNA测序技术一般分为一代、二代、二代半/三代(Pacific Biosciences,利用DNA聚合酶,边合成边测序,很多人认为不是真正的三代测序)和三代/终代(基于纳米孔的测序,一般认为是终极测序技术,还没有正式发布)。其中ddNTP仅用于第一代测序,到第二代测序及以后就不用了。但无论是第一代,还是终极测序,其中一个最关键的原则是不变的,那就是“引物延伸”。因此,第一,吴先生有Scholarship没有Impact,起码现在;第二,有没有Impact难以预测;第三,头头们喜欢后者,原因你懂的。

当然上述不是本篇的重点,今儿咱得介绍自己的工作,所以应该写成炫耀贴。话说从079月至今,我和胖子一起合作发表了约30篇论文,其中做翻译后修饰预测的工作有4Science论文引用,第一篇是2011年发现转录因子TFEB的磷酸化调控细胞自噬和溶酶体合成;第二篇是发现Beclin 1的磷酸化抑制自噬,并且促进肿瘤发生,这个工作据说很重要,因为Beclin 1是第一个在哺乳动物中发现的、调控自噬并且与癌症有关的基因,所以这几年自噬拿诺奖的呼声比较高,也是有道理的;第三篇是今年4月哈佛大学Marc W.Kirschner研究组利用单分子技术研究有丝分裂APC/C泛素酶复合物的特异性,拿我们开发的工具做了计算分析,Marc是我老师的老师的老师,所以我得喊祖师爷,做的工作能被祖师爷引用一把,感觉自然是不错;最后一篇是上个月发表的磷酸化调控中心体组装的工作。细胞自噬和有丝分裂各有两篇,另一个有意思的是,我们做的磷酸化预测软件GPS,主要的引用大多数来自这两个领域,差不多也是一半一半。

我们没有被Cell引用过,Nature只有一篇引用,是关于成神经管细胞瘤(Medulloblastoma)外显子测序和体细胞突变的论文。所有人都知道,咱实验室只做蛋白质修饰,不做核酸。胖子实验室亦然。所以搞测序的论文咋会引用我们的工作?这也就是本篇要讲的故事。

 

===================================================


 

话说2008年的第一场雪,记不得是不是比平常来的更晚一些。其时跟胖子合作时间不久,上个月刚把第一篇GPS 2.0投到MCP审稿,第二篇预测棕榈酰化位点的论文刚被拒掉(CSS-Palm 2.0,我们引用第二高的论文),我和胖子一时间茫然无措,大家都不知道该做点儿啥。于是我专心致志玩一个在线小游戏,凿砖的。胖子搬个板凳做边上,一边呵着气搓手,一遍聚精会神看凿砖。看了四个多小时胖子受不了了,说你这游戏一点观赏性都没有,凿来凿去也没见你凿出啥玩意儿来。我说,没有观赏性,你坐这儿看四个多小时?胖子举头看天花板,看了半天,完了低头叹口气儿:爱卿,计将安出啊?咱轻摇羽扇(胖子后来回忆说羽扇是不存在的),慢悠悠答:主公,吾有一妙计。

话说咱搞修饰的预测,其中有个问题审稿人一般问的比较多:对于已知修饰底物的已知修饰位点,是否能预测到?是否还能预测到新的位点?所以我和丰丰04年在BBRC上发表的第一篇论文,讲GPS算法的设计时,就作图显示哪些是已知的磷酸化位点可以预测到,哪些是潜在的新位点(1A)。在生物学论文里,生物序列的可视化是个很基础、很重要的问题。一条序列上有哪些功能元件、位点、结构域之类的,你絮絮叨叨写12千字不见得写的清楚,一张简单明了的图,谁都看得明白。看起来这种图好像很容易绘制:拿ppt画一个不就完了吗?不行,因为你没有办法画的精确,各种功能元件在序列上的比例、之间的距离你绝对不可能精确展示。当时做这个工作的时候,同事笑,说一个序列,大概齐画画就得了,搞那么精确干什么?咱不高兴:职业科学家做研究就要追求无比的精准,连个序列图都花不好,你咋好意思说你的实验数据没问题?

所以,我问胖子,说能不能做个生物序列的可视化工具,一是操作简单,二是绘制精确?胖子挠头,说可视化这东西我也没做过,不懂啊。我说没关系,想办法解决。完了咱下班,施施然回家看电视去了。要不怎么说胖子牛呢,第二天一到办公室,胖子已经坐那里笑的阳光灿烂:可以搞定。接下来就是搞定的过程,一直忙到过年,过完年回来继续折腾,搞到二月底写完论文,然后开始投各种杂志,被拒,然后以Letter to the Editor的形式发表在Cell Research。当时准备投CR的时候,大家都发笑:你这个没有做科学啊?咱不高兴,拍胸脯说这个肯定引用过百的。结果大家笑的前仰后合,说你这垃圾玩意儿哪有人用啊。当然喽,这篇论文已经引用过百,所以看起来应该不像是垃圾。

CR上发表的软件叫DOGDomain Graph,结构域图形),当时主要是解决咱自己的问题,即蛋白质序列的可视化,并且可以绘制成彩图。论文正式发表不久,马上就有一位美国的研究生Vinai C. Thomas给我们写信,说你这个软件只能导出分辨率为72dpi的图片,而期刊都要求300-600dpi的图片,咋解决啊?我看信大怒,说胖子你咋做的软件啊?胖子很无辜的回答:以前又没碰到这问题。所以我们连夜发布了一个升级版,第二天Vinai回信:OK。于是这就有了DOG软件的第一篇引用(1B)。后来就热闹了,我们收到各种反馈信件,数了数,有120多封,基本的意见归纳为:第一,不能只支持蛋白质序列,也要支持核酸序列;第二,要能够支持多条序列的同时显示。后来德国有个博士生,Urs Lahrmann10年底给我们写了封很长的信,提出了很多修改建议。我跟胖子一合计,邀请他和我们一起改软件,后来论文也一起署名。

软件好做,改起来就费劲了。从09年正式发表之后,我们已经意识到软件需要修改,到今年发表,整整改了六年我们才觉得马马虎虎可以发布。修改过程中很重要的三个事情是,第一,DOG软件2012年被Nature论文引用(1C),因此我们觉得有必要实现核酸序列的可视化;第二,DOG的引用多了之后,我们详细分析了一下引文,发现蛋白质序列与核酸序列可视化的引用基本是一半一半;第三,12年暑假在哈尔滨开全国生信的大会,当时华大基因的王俊博士做报告,其中一张图我看一眼就知道必然是用DOG做的:绝对没有其他软件能做得了。显示的也是核酸序列的变异。

所以后来改来改去,增加了很多功能,因为输入格式已经和以前的版本不兼容,所以我和胖子讨论很久,决定保留老版本的DOG软件,而把现在这个工具作为新软件,起名为IBSIllustrator for Biological Sequences,生物序列绘制器),并且正式发布。高兴之余,胖子实验室专门写了篇微信文章《画论文插图不会用PSAI?别担心,IBS帮你!》作介绍,有兴趣可以看看。顾名思义,这个工具就是希望能够一劳永逸的解决掉生物序列可视化的问题,第一是既可以可视化蛋白质序列,也可以可视化核酸序列;第二是可以同时在一张图上可视化多条序列;第三是各种功能元件、位点、结构域可以很容易标识;第四是与UniProt数据库有接口,可以直接获取UniProt的注释信息,并且可选择性的显示。

   未来的计划是,IBS也可以作为各种生物序列数据库的主要展示界面,数据库搜索的结果不是以文字或表格的形式返回,而是以直观的图形返回。不过这事儿什么时候做就不不知道了。主要的原因是,第一,我和胖子也都不算年轻了,再耐着性子做个软件做7年不大现实,精力跟不上;第二,搞生信要做实验,不然头头们讲你没有科学。所以搞生信的青年学者们都在做实验。上个月在北京开会,魏老师讲,生信不是必须要做实验的。后来大家乐:魏老师的报告就是计算和实验结合的。而且上个月在北京开的“第三届数学、计算机与生命科学交叉研究青年学者论坛”,没有一个报告是纯生信的工作,都有实验内容。

http://blog.sciencenet.cn/blog-404304-896219.html

上一篇:吴瑞先生:DNA测序之父
下一篇:生命科学领域的“辽宁号”:Revolocity测序系统
收藏 分享 举报

20 张亮生 孔维文 于仲波 陆绮 黄永义 陆苏祥 张世成 丁广进 黄健 李竞 徐晓 王显生 姚伟 周洲 王春艳 毛培宏 闵强 wqhwqh333 dachong99 biofans

该博文允许注册用户评论 请点击登录 评论 (21 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-9-24 18:13

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部