生物信息学习的正确姿势
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
图形解读系列文章起源于易生信每个不同主题的培训中都有的一节课 —- 阐述该领域常见图形的含义解释。几十次课程下来,从气氛活跃的现场交流和热火朝天的培训群讨论中,发现一些共性问题和特色点,系统整理形成这一推文系列,希望大家多讨论交流。
在图形解读之Volcano plot | 别再问我这为什么是火山图中,我们提出图形解读的一般原则:从图的基本构造入手,拆解图的横轴、纵轴、几何对象和对象属性的含义,理解图的每一部分代表什么,然后再整体解读图中的差异点。统计图就是用把数据映射到几何形状如点、线、柱的美学属性如颜色、大小、形状上。这是理解图的关键,也是画图的关键。
对于箱线图也是如此 。
箱线图,顾明思义,是形状像箱子并展示一组或多组数据分布的统计图。通常从箱线图可以直观看出一组数据的四分位数。
以下面水平箱线图为例(如果是垂直箱线图,则把下图逆时针旋转90度):
首先看箱体:
左边线代表下四分位数(第一四分位数,Q1
),表示整体数据中有25%的数据少于该值;
右边线代表上四分位数(第三四分位数,Q3
),表示整体数据中有75%的数据少于该值;
箱体中间的线代表中位数,是一组数从小到大排列,居于正中间的单个数或正中间两个数的均值;
箱体的长度代表第三四分位数和第一四分位数的差值,也称为四分位间距(interquartile range,IQR
);
箱体两端的衍生线最左延伸至Q1 - 1.5 x IQR
(下极限),最右延伸至 Q3 + 1.5 x IQR
(上极限);
超出上下极限线的点(或其他标记)表示潜在异常值(outliers
)。
为什么要使用箱线图
因为箱线图(包含其变体小提琴图、Bean-plot)可以更真实的反应数据的分布。如果加上Jitter plot
可以更好的体现样品数,点越多,结果的稳定性、可靠性越好和工作量越大。
为了鼓励科研者使用箱线图,2014年的Nature Method专门推出2篇文章详细论述了使用箱线图的好处,并发布了一个在线绘制箱线图的工具[1]。时隔4年,此工具已打不开,文后有生信宝典开发的工具可以更好的绘制箱线图。
作者举了一个特别形象的例子展示出不同的可视化方式对结果解读的影响很大。文中模拟了4套不同分布模式的数据,每套数据由100个数据点组成,分别是均匀分布、不同方差大小的两个单峰分布和双峰分布的数据集。随后用条形图
, 箱线图
,小提琴图
和bean plot
对4套数据分别进行了可视化展示。
子图a
是4套模拟数据集的真实分布模式,差别较大;但体现在b
, c
, d
图上时,不同类型的图传达出的主要信息不同,我们也会得出不同的第一印象:
用柱状图展示时,四个柱子分别对应于4套模拟数据集。
第一印象柱子的高度一样,反应出四套数据集的平均值是一样的。
看起来只是误差线高低不同,反应出数据存在一些波动。
从这个柱状图很难想到背后的数据分布会如子图a
中所示,差别那么大。
柱状图只用两个统计量展示数据信息,会掩饰数据分布的差异。
另外,也可以看出数据标准差(SD,Standard Deviation
)相比于标准误(SEM,Standard Error of Mean
)变化更大;
从箱线图来看,四组数据的分布差异大体显示出来了,尤其是前面3组数据,很好的反应了数据真实的分布模式。
但第一组数据和第四组数据因为四分位数的统计值相当,仅用箱线图看不出来两组数据的分布是否差别很大;
小提琴图(Violin plot
)展示数据分布的概率密度。
一般来讲,图中越胖(宽)的地方,表示处于该取值范围的数据越多;
越瘦(窄)的地方表示对应区域数据越稀少;
结合箱线图的5个核心数据,小提琴图完美呈现了数据的真实分布模式;
这是比较推荐的展示方式。
Bean plot
也可以展示数据的真实分布,而且对比更明显。
但个人经验是,Bean plot
绘制的图经常会展示怪异,通常自己画出来不像这个模拟数据集一样美观,故不太常用。
小提琴图(Violin plot
)展示单细胞Marker基因的表达
上图展示的是Seurat或其它工具绘制的单细胞基因表达小提琴图。每个点可以视作一个细胞,其在Y
轴对应的值表示该基因在相应簇(簇的名字在X
轴显示)的细胞里面的表达值。小提琴的宽度表示表达有对应表达值的细胞的密度。比如右图中PF4
基因在Cluster 7
里面的各个细胞中表达显著高,可以视作Cluster 7
的Marker基因。左图中NKG7
基因,在Cluster 5
中相对表达较高,在Cluster 3
中整体表达较高,可以视作这两个Cluster的Marker 基因。同时也提示Cluster 3
是否有可能再继续细分为2个亚簇?
箱线图展示测序质量
二代测序获得的原始FastQ数据通常会用FastQC进行质量评估,并用箱线图展示测序reads
的碱基质量值。如图,横坐标表示reads
中每个碱基的位置,纵坐标表示对应位置碱基的质量值,质量值为20
表示错误率是1/100
,质量值为30
表示错误率是1/1000
;以此类推,数字越小,对应位置的碱基错误率越大。
这张图的绘制方式可以这么理解一下:假如测序了10
万条reads
,将所有reads
从5'-3'
每个位置的碱基垂直排列一起,第1位有10
万个碱基,对应10
万个质量值,用图中左侧第一个箱线图展示10
万个质量值的分布;第2位有同样有10
万个质量值,用图中左侧第二个箱线图展示其分布;以此类推得到上图。左图显示每个碱基的中位质量值(箱线图中间的红线)都比较高,而图三右图的的碱基质量值变化较大,5‘-3’测序质量逐渐下降;后续分析时可能需要进行一定的预处理比如移除低质量碱基等。
箱线图展示标准化效果
箱线图也可以用来展示数据之间是否做过标准化或标准化效果怎样。转录组中我们有一个前提假设,相互比较的样本之间总的基因表达量是一致的,绘制箱线图时其整体数据分布也是一致的 (如下右图)。如果数据未做标准化或标准化效果不好或存在批次影响,则数据可能会存在系统偏差,导致其值不可比(如下左图,左侧的浅蓝色样品整体低,深蓝色样品整体偏高)。
有人会有一个疑问,整体分布都一致,那还有差异基因吗?有的,基因的相对表达变了,有的降了,有的升了,但整体一致,如下面连线的小提琴图所示。
图源:易生信PPT
箱线图展示菌群Alpha多样性
在微生物组领域,通常用箱线图展示样品组中各样本Alpha
多样性分布。比如上图的三个箱线图分别展示了三种Alpha多样性计算结果。这个图很具有代表性,首先是配色,土壤、根、茎、叶依次为白色、棕色、浅绿和深绿,尤其是后3个样品,与器官实际颜色相对应,表意特别明确,让人过目不忘;其次因为土壤中微生物多样性远高于植物不同器官内生菌的多样性,Y
轴的截断图展示,更能凸显内生菌多样性的差异;最后每个箱体上标记字母用于展示基于Anova
统计差异分析的显著性结果。如果两个箱体上的字母不同,则代表两组样品的多样性存在显著差异。
当然,如果两组样品的Alpha
多样性整体没有差异,也不能说明菌的构成都一致,可能是部分菌上调了,部分菌下调了,上下调幅度在计算Alpha
多样性时相抵了 (可结合上面标准化部分理解)。
关于Alpha多样性更多的解释,刘永鑫老师的文章-扩增子图表解读1箱线图:Alpha多样性,老板再也不操心的我文献阅读了一文内容详实,推荐阅读。
水平箱线图
展示不同的肿瘤样本中使用ABSOLUTE
计算的肿瘤纯度得分高低,亮点是不同样本按照纯度中位数进行排序,看上去更整齐,也更容易看出规律。这在绘图网站imageGP(www.ehbio.com/ImageGP/)中简单修改一个参数就能做到。
交互式箱线图2.0,展示的是基因Ldha
在不同样本的表达分布。如图所示,可以通过调整网页的按钮实现图形旋转、表达数据预处理、按中位数排序和调整图形边距等功能。想让自己的数据呈现在这样的网站上面吗?来找易生信一起做个数据库吧。
箱线图与抖动图
箱线图只展示数据的5个核心指标,可以增加原始数据点,展示更多信息。同时当样本数量过多的时候,为了保证样本不重叠,可以jitter
抖动一下,通过添加随机噪音,在不影响数据真实性的基础上予以展示。这个图除了可以用函数ggbeeswarm
绘制,还可以利用ggplot2
包的 geom_boxplot
+geom_jitter
生成。
箱线图绘制方法
推荐使用功能强大的在线绘图网站-ImageGP
- www.ehbio.com/ImageGP
。
高颜值免费在线绘图
https://blog.sciencenet.cn/blog-118204-1256844.html
上一篇:
这个40M的小工具助你在windows下处理数据如虎添翼!!下一篇:
积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)