微生信分享 http://blog.sciencenet.cn/u/chinapubmed 0代码在线绘制160+科研图

博文

分久必合 -- 合并相同基因/探针的表达量

已有 2127 次阅读 2022-9-4 15:29 |系统分类:科研笔记

从芯片到测序,从转录组到蛋白组,基因名的问题一直困扰着我们。

芯片

一个基因会对应N个探针集。以最常见的Affymetrix Human Genome U133 Plus 2.0 Array为例,HOXD10基因,对应着229400_at207373_at等探针。若你研究这个基因,那么到底是以229400_at探针集的表达值作为HOXD10的表达值,还是以207373_at探针集的表达值作为HOXD10的表达值?

测序

一个基因对应多个转录本,多个Ensembl ID又对应一个gene symbol。例如ENSMUSG00000053687ENSMUSG00000115067都对应着Dpep2基因。若你研究这个Dpep2基因,那么到底用ENSMUSG00000053687还是用ENSMUSG00000115067

蛋白质谱

蛋白质谱就更复杂了,一个多肽/蛋白对应多个基因,多个多肽/蛋白对应一个基因。

总之,不入相思门,不知相思苦。【附1】 

解决方法是:将相同ID的表达值取均值或者median值,当然也有取最大值的。 

例如,取均值。

Probeset

expression

gene

229400_at

2.0

HOXD10

207373_at

12.0

HOXD10


那么,我们就以(2.0+12.0)/2=7.0,作为HOXD10的表达值。 

工欲善其事必先利其器!偶尔几个就用excel操作下,多的话,就借助工具。 

这里,我们使用微生信平台的基因ID合并工具

应用场景:1,芯片探针id合并;2,根据基因symbol,合并多个基因的表达;3,合并多个多肽的表达值。合并后再进行聚类等分析。当然,我们微生信平台在线绘制聚类图早就集成了这个功能。

三步走:

第一步:打开工具页面。

图片1.png 

1. 工具页面

第二步,粘贴数据,选择参数图片2.png 

2. 示例数据

 在示例数据中,标颜色的基因ZNF44和WDR81均有两行表达值。

我们提供了均值、median值和最大值三种方法供选择。

 第三步,提交出结果

图片3.png

3. 合并后结果 

经过工具合并后,这两个基因的表达值就以它们对应两行的均值表示。得到这个表后,就可以去做热图了,再也不用担心热图上显示两个一模一样的基因名了。

附1:李白*秋风词

秋风清,秋月明,落叶聚还散,寒鸦栖复惊。相亲相见知何日,此时此夜难为情;入我相思门,知我相思苦,长相思兮长相忆,短相思兮无穷极,早知如此绊人心,何如当初莫相识。

微生信云平台 谷歌引用600+ 知网引用450+





https://blog.sciencenet.cn/blog-707141-1353971.html

上一篇:做研究,该用hg19还是hg38基因组?一行代码将hg19的bw文件转成hg38
下一篇:ClusterProfiler在线基因集富集分析(GSEA),支持自定义基因集、任意物种
收藏 IP: 117.135.92.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 22:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部