前文讲了什么是批次效应和有哪些影响,我们继续往下看……
怎么确认数据有无受到批次效应影响
通过样品的层级聚类热图+样品属性信息的注释来展示样品聚类结果有无受批次效应的影响。如下面右图中可见WT_1
样品在聚类分支上与其它样品处于不同的分支,而从列注释图可以看到WT_1
的seqPlatform
和batch
信息与其它样品不同,这是给我们的一个提示可能存在批次效应影响。
通常我们在整合多套数据集进行展示时也会加上数据来源信息以展示自己的分析结果未受批次等因素影响。如下图每一列是一个样品,每一行是一个菌群;列注释中有一行为Dataset
指示样品来源于 2 个数据集,并且聚类结果没有明显受到数据集来源的影响(四个大的聚类分支中样品来源分布没有明显偏好性);
通过主成分分析PCA查看有无批次效应的影响。如下左图,样品在PC1
和PC2
组成的空间中按数据集而非样本类型聚在一起,表示数据来源对样本检测结果的影响超出了样本类型的影响,提示存在批次效应。如右图,批次效应移除后,在PC1
轴上样品基本按正常-癌旁-肿瘤
分布,表示当前样品差异的主要影响因素是样本类型。这时可以绘制样品在更多PC
轴上的分布,如PC1-PC3
、PC1-PC4
等构成的空间中样品差异的主要因素是什么,也可以进一步判断批次效应移除的程度怎样。
通过样本整体表达分布查看有无批次影响。不同来源的样本一般是各自进行标准化(尤其是芯片数据),合并在一起后,可以简单的从整体表达分布来查看是否存在明显的偏移。如下左图存在明显的偏移,则提示有批次效应的存在。校正后,如右图,看上去样本的整体表达分布均一了。但是否批次影响就被移除了,却很难据此下结论。
通过部分基因集的表达变化查看有无批次效应影响。不同来源的数据一起标准化之后,如果标准化效果好的话,样品整体表达分布也会是均一的(如下面左数第二幅图)。但从中随机抽取数百基因却发现其表达收到了批次的影响(如下面左数第三幅图,只展示了数个基因),而且聚类结果也把两组正常样品分到了各自来源相对应的分支上。