微生信分享 http://blog.sciencenet.cn/u/chinapubmed 0代码在线绘制160+科研图

博文

数据为什么要进行log2转化,倍数变化(fold change)为什么要求个log2FC?

已有 14158 次阅读 2022-10-24 13:09 |系统分类:科研笔记

今天是20221024日,首先祝所有程序员们(会写、会看代码的都算)节日快乐!

1024是2的十次方,二进制计数的基本计量单位之一。做生信分析的小伙伴就像是一个个1024,最低调、踏实、核心的功能模块将计算机程序应用到生命科学中,促进科学发展。1G=1024M,而1G与1级谐音,做生信分析的小伙伴都是一级棒的!


1,fold change的log2转化

以转录组分析为例,例如我们测了某基因在3个样品中的表达值,例如在A样品中基因TP53表达量为8,在样品B中表达值为1,在样品C中表达值为0.125(即1/8)。

将它们列在常规的坐标轴上。可以看到A vs B上调了8倍,而C vs B下调了8倍。然而在这个坐标轴上,A与B之间的距离(红色大括号)要远大于C到B之间的距离(蓝色大括号)。

fig1.jpg 

1. 常规坐标轴(来自statquest,有修改)

而按照人们一般的理解,上调倍数和下调倍数应该是对称的,因此如果我们将坐标轴log2转化下。8 log2后转成30.125 log2后转成-3,那么它们在坐标轴上的距离就一致了。

fig2.jpg

                 图2. Log2坐标轴(来自statquest,有修改)

在常规的分析中,我们一般使用正值代表上调,例如8代表上调8倍;负值代表下调,例如-8代表下调8倍。如果fold change0.125,就很难看出变化了多少倍(除非你数学学得极好),你还得自己做个倒数。

 

2,芯片或者测序数据的log2转化

一般情况下,我们的芯片或者测序给出来的原始值范围都是非常大的,例如Agilent芯片的信号强度从0到65535tpm从0到25000。将它们绘制密度分布后,一般呈现右偏,即大部分信号都是在左侧,右侧拖个长长的尾巴,不利于研究,而经过log2转化后,数据更加集中,更加接近正态分布,更方便我们套用正态分布那一套进行研究。

fig3.png 

3. Raw数值分布

 

fig4.png 

4. 更接近正态分布

 

总结下(Coursera上杜克大学的统计学课程)

取对数,只是数据变换的一种方式,除此之外还可以取平方根、取倒数等。

数据变换的目的,有三点:

1.We might want to see the data structure a little differently (数据范围压缩了)

2.We might want to reduce skew to assist in modeling (更接近正态了)

3.We might want to straighten a nonlinear relationship in a scatterplot, so that we can model the relationship with simpler methods(更容易用简单的方法来研究了)

 

另外,强烈推荐大家看看StatQuest

 

微生信助力高分文章,用户55000+,引用700

 

 

 

 




https://blog.sciencenet.cn/blog-707141-1360717.html

上一篇:KEGG Pathway通路二级分类汇总,轻松找到感兴趣的通路
下一篇:利用m7Ghub数据库查询并使用iRNA-m7G软件预测RNA m7G修饰位点
收藏 IP: 117.135.93.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-25 03:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部