|
导读:画PCA图时,如果每组只有3个重复,添加置信椭圆不靠谱,尤其当三点排成一线时椭圆会极扁甚至报错。而改用凸包,把实际数据点圈起来,仅用于探索性可视化,可以帮助读者直观看到各组占据的空间位置是否分开。
图1. 凸包(hull convex)PCA图
《Cell Metabolism》Iron-addicted colorectal cancers exploit heme-complex II axis to resist oxidative cell death. Fig4A使用凸包PCA图展示了用三种不同条件处理的HCT116细胞的靶向代谢组数据。图中X轴表示PC1,Y轴表示PC2。共3组,每组3个样品。直观地展示了三组代谢物谱的完全分离。
然而图上为什么不是我们常见的椭圆呢?下面就椭圆,样品数,凸包详细展开。
PCA散点图上的椭圆通常不直接代表“统计检验的显著性”(如p值),而是代表数据的“置信区间”或“数据集中趋势的区域”。
统计学原理:默认添加的95%置信椭圆(基于Hotelling's T²分布)表示“有95%的置信度认为该组的真实质心(均值向量)落在这个区域内”。它基于多元正态分布的假设,反映了组内样本的协方差结构。
视觉辅助:在组学中,它的主要作用是肉眼辅助判断分组效果——如果两组的椭圆完全不重叠或极少重叠,则暗示两组间存在显著差异;如果大面积重叠,则提示差异不明显。
然而,上述所有解释性功能都高度依赖于充足的样本量。当每组样本量(n)极小时,椭圆在统计学上会变得“不稳健”甚至“失效”。
当 n=3 时:虽然协方差矩阵在数学上可以计算(因为3 > 维度数2),但自由度极低。此时绘制的置信椭圆极度依赖于这3个点的具体排布。稍有技术重复的波动,椭圆的大小和方向就会剧烈变化。它代表的不是“总体规律”,而是“这3个样本内部的瞬时排列”,不具备群体推断意义。
当 n=2 时:情况更糟。两个点只能确定一条直线,在数学上协方差矩阵是奇异的(Singular),无法计算二维空间中的置信椭圆。统计软件(如R的ggplot2或Python的seaborn)在强制添加时会报错,或者为了出图而强制拟合,导致你看到的“极度狭长的椭圆”——这实际上是算法在试图用退化的线性结构去拟合本来不存在的二维方差,这种图形在学术上是“数学虚构”,完全不具备任何统计学参考价值,投稿时审稿人往往会直接质疑。
正是为了避免上述统计缺陷,本图未采用椭圆,而改用凸包(convex hull)。凸包的本质是包裹该组所有样本点的最小凸多边形。它只描述“观测到的数据范围”,不涉及任何正态假设或自由度计算。因此,它完美地展示了“在本次实验中,这3个重复样本的代谢物谱分布在空间的哪块区域”,仅用于探索性可视化,帮助读者直观看到各组占据的空间位置是否分开。
1,打开作图URL
https://www.bioinformatics.com.cn/plot_basic_convex_hull_pca_plot

图2.绘图页面
2,示例数据
点击图片上方的示例数据,下载,并使用excel打开。
图3. 示例数据
示例数据包括3部分:
第1行:样品名
第2行:组名
第3+行:基因表达值,或者蛋白信号强度,代谢物信号强度等数值,不能为空或者NA
3,输入检查
示例数据:点击输入框下面的“示例”按钮,将载入示例数据。
真实数据:数据放在excel中,调整好后,Ctrl+A选中数据,Ctrl+C拷贝,Ctrl+V将数据粘贴到输入框中。
同时也提供了上传xlsx和制表符分隔的txt文件按钮

图4. 载入数据,输入检查
然后使用输入框下面的“输入检查”按钮先对输入数据进行检查。若检查不通过,请根据检查提示重复【修改-输入检查】步骤,直到检查通过(如下图所示),然后可以继续选择其他参数。

图5.输入检查结果
注:输入检查是新添加的功能,它会根据不同模块的输入要求,逐行逐列检查输入数据,并给出提示,以确保数据符合模块输入要求。建议每次提交前先进行输入检查。
4,选择参数
图6.绘图参数
图片大小:图片宽度,图片高度参数
轴和图例文字及字体大小
轴说明文字字体大小:X轴/Y轴说明文字,PC1,PC2等的字体大小
轴刻度数字字体大小:X轴/Y轴刻度数字字体大小
图例标题:图例标题的文字
图例标题字体大小:图例标题文字的字体大小
图例文字字体大小:图例中分组名的字体大小
颜色:提供了6种自定义颜色,超过6种使用系统默认颜色
新加功能:解决配色难题
1,颜色集:提供了7种常见期刊的颜色集,点击后,在该论文的颜色集中随机挑选
2,随机颜色:点击“随机”按钮后,会随机推荐6种颜色,点击一次,随机一次
3,自定义:可以粘贴空格分隔的16进制颜色编号,例如 #E64B35 #4DBBD5 #00A087
X/Y轴范围:设置了坐标轴的范围,留空则默认
标注样品名:设置了标注样品名还是不标注样品名选项
点相关:
点大小:控制样品点的大小,数值越大,点越大
样品名字体大小:该参数用于控制样品名的字体大小,前提是选择标注样品名
字体:
设置了期刊杂志中最常用的两种字体:Times New Roman和Arial。如需使用其他字体,可以下载pdf或者svg图片,然后使用acrobat illustrator或者inkscape进行编辑修改
5,提交出图
检查通过,并且参数选好后,点击“提交”按钮,约2s后,会在页面上显示PCA凸包图预览。我们提供了pdf、svg两种矢量图,png、tiff两种标量图供大家下载使用。

图7.预览图
请使用Acrobat Illustrator,inkscape等软件编辑矢量图(pdf或svg),进行组图,调整文字、图像元素位置,字体,添加说明等操作,以满足个性化需求。
微生信助力高分文章,谷歌学术10000+
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-30 08:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社