youhegao的个人博客分享 http://blog.sciencenet.cn/u/youhegao

博文

怎么才能比较出两个东西最大的差别?

已有 4851 次阅读 2014-5-28 16:15 |系统分类:论文交流

原理好像很简单,但是具体到一个领域,受到领域里常见观念的影响,大多数人还是可能出错的。

1)首先先得测量出所有能测出来的参数,越多越好,对两个东西的描述越细致越好。如果只有身高那么每个人就只有一个参数。如果有了体重,那就有两个参数。如果还有腰围,男女,年龄,鼻子多高,眼睛什么颜色,指纹,毛孔。。。那就可以有很多参数,两个人的区别就会很明显了。

2)直接比较每一个参数,不要推导简化成包含很多原始参数更复杂的参数。也就是说直接比较身高体重,不要算出BMI,然后再比。本来身高体重很明显的差别,也许到了BMI就没差别了。当然BMI的比较有其特有的意义。如果我们只是希望看到尽可能多的区别的话,还是不处理数据所能看到的差别更多。

 

具体到蛋白质组学领域,大家是怎么比较差别的呢?大家一般先按照鸟枪法把蛋白切成肽段,然后用色谱排队,上质谱这个精密的秤称称肽段,然后再把肽段打碎,再称称肽段的各种碎片。产生的最原始数据是每一个最终碎片的质量电荷比。

现在的常规做法是:

把碎片拼出最可能的肽段,然后再试图把找到的所有肽段拼成这个样本里可能有的蛋白全谱,然后把两个样本的蛋白谱做比较。

 

我们试图改进了一下做法,也许还不够彻底,但是应该已经能看到更多的差别了。

我们先在检索数据鉴定多肽的时候考虑翻译后修饰的可能性。翻译后修饰不能不考虑,不同修饰的蛋白可能活性不同,甚至功能完全相反,哪怕是我们没法富集修饰了的多肽,也要在计算上花些时间好好算算,毕竟对生物学家可能有用,特别是比较出差别的时候。这也就达到了前面说的第一条,即看到了更多的参数。

我们的比较也在这个考虑了修饰的基础上,在多肽水平就比较了。而不是把多肽数据推导到蛋白。因为从多肽推导到蛋白一直也是一个难题,除了信息量被减少外,错误还很多。对于很多蛋白的不同剪切体,很多部分多肽序列都是一样的,一个这样的共享多肽,几乎没有办法推出到底它原来属于哪个蛋白。这一步的推导遵循的理论往往不是肯定对的,都是没有什么道理的。如果绕过必错的这一步还能保存更大的信息量,善莫大焉。

我们这次又下载了别人的数据,找了两个最接近的细胞株的蛋白质组做例子比较。感谢Mann实验室共享数据对这个领域的重要贡献!我们要是带宽服务器都好用也一定会贡献更多的原始数据。

除了发现更多的区别外,还有一些有趣的发现。

比如,有几个蛋白在两个样本里所具有的不同点是在样品A有一个A肽而没有B肽,在样品B有一个B肽而没有A肽,而这个蛋白的其他鉴定到的多肽都是两个样本共享的。难道是什么原因产生的这种不同?是多肽被修饰后鉴定丢了?毕竟修饰后的多肽又没有富集可能鉴定丢的可能性更大些。不同的样品这几个蛋白有不同的修饰形式和/或不同的修饰位点?我们没有办法确定是发生了什么。但是我们为有兴趣做实验找到这些区别的人提供了线索。我理想中的所谓生物信息无非就是在大多数情况下能提供线索缩小实验范围罢了。

其实我们也没有按照自己的想法做到极致。我们不过就是没有把信息总结归纳到蛋白水平再比较,而是在多肽水平比较,我们也没有直接从谱图水平比较。我们还试图嘲笑人家在蛋白水平比较是受到生物学里蛋白才是功能的执行者的误导,我们用多肽水平比较好些高级了一些。其实也许就是五十步笑百步而已。不过我们毕竟还不太能理解直接从谱图比较得出来的更大的差别如何才能让生物学家利用上。暂且先五十步吧。等着人家笑我们吧。


文章也是几经周折终于有一个小杂志的几个审稿人同时基本搞懂了我们说的事情。感谢他们!

一个遗憾是,比较的过程还是比较手工。如果能有专业人士给做成好用的软件就好了。程序稍微麻烦一点还是影响推广。这是把同样的质谱数据解读出更多对生物学家有用的差别的简单思想方法,应该用到每个需要比较蛋白质组的实验室去。能够做点可能会让很多人都用得上的想法和工具感觉应该是很不错的。


http://onlinelibrary.wiley.com/doi/10.1002/rcm.6911/abstract;jsessionid=0F623CEF0E1835914EBCD7AFE8785FFB.f02t01



https://blog.sciencenet.cn/blog-244733-798388.html

上一篇:为什么有的时候半死比活着更好
下一篇:好毕业论文为什么只能有一个主题?
收藏 IP: 111.194.207.*| 热度|

1 lisw2014

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 09:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部