|
从芯片到测序,从转录组到蛋白组,基因名的问题一直困扰着我们。
芯片
一个基因会对应N个探针集。以最常见的Affymetrix Human Genome U133 Plus 2.0 Array为例,HOXD10基因,对应着229400_at和207373_at等探针。若你研究这个基因,那么到底是以229400_at探针集的表达值作为HOXD10的表达值,还是以207373_at探针集的表达值作为HOXD10的表达值?
测序
一个基因对应多个转录本,多个Ensembl ID又对应一个gene symbol。例如ENSMUSG00000053687和ENSMUSG00000115067都对应着Dpep2基因。若你研究这个Dpep2基因,那么到底用ENSMUSG00000053687还是用ENSMUSG00000115067?
蛋白质谱
蛋白质谱就更复杂了,一个多肽/蛋白对应多个基因,多个多肽/蛋白对应一个基因。
总之,不入相思门,不知相思苦。【附1】
解决方法是:将相同ID的表达值取均值或者median值,当然也有取最大值的。
例如,取均值。
Probeset | expression | gene |
229400_at | 2.0 | HOXD10 |
207373_at | 12.0 | HOXD10 |
那么,我们就以(2.0+12.0)/2=7.0,作为HOXD10的表达值。
工欲善其事必先利其器!偶尔几个就用excel操作下,多的话,就借助工具。
这里,我们使用微生信平台的基因ID合并工具。
应用场景:1,芯片探针id合并;2,根据基因symbol,合并多个基因的表达;3,合并多个多肽的表达值。合并后再进行聚类等分析。当然,我们微生信平台在线绘制聚类图早就集成了这个功能。
三步走:
第一步:打开工具页面。
图1. 工具页面
第二步,粘贴数据,选择参数
图2. 示例数据
在示例数据中,标颜色的基因ZNF44和WDR81均有两行表达值。
我们提供了均值、median值和最大值三种方法供选择。
第三步,提交出结果
图3. 合并后结果
经过工具合并后,这两个基因的表达值就以它们对应两行的均值表示。得到这个表后,就可以去做热图了,再也不用担心热图上显示两个一模一样的基因名了。
附1:李白*秋风词
秋风清,秋月明,落叶聚还散,寒鸦栖复惊。相亲相见知何日,此时此夜难为情;入我相思门,知我相思苦,长相思兮长相忆,短相思兮无穷极,早知如此绊人心,何如当初莫相识。
微生信云平台 谷歌引用600+ 知网引用450+
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 15:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社