||
用数据说话系列(2): 样本数,数据顺序对"聚类分析"的影响
Basic knowledge worth spreading!
用数据和图表说话,结果一目了然。系列2的内容为:聚类分析过程中,各组数据样本是否会随 样本数N的增加或数据排列顺序的更改,而得到不同的聚类结果?
试验结论:
①不同聚类方法,可能不同聚类结果(本文比较了基于欧式距离的“ward法”和 基于Bray-Curtis距离(相似性)的“UPGMA法”)。
②同种聚类方法,各组之间数据长度需要相同,如果不同,系统会默认删除多出来的数据而变成等长的数据组进行聚类分析(i.e.,假设待聚类的5组数据,其中4组数据样本数N均为10个,而第5组数据样本数更多(ex.N为14个),系统会自动删除第5组数据样本中多出来的第11~14位共计4个数据而只用前面的10个数据,然后与其他4组进行聚类)
③聚类结果,与组内数据的顺序有密切关系,会因为组内任意1个或多个数据顺序的改变而得出不同的聚类结果(或不同的距离)。
附件1:聚类结果
注:dist1,2,3表示采用基于欧式距离的“ward法”;dist.bray1,2,3表示采用基于Bray-Curtis距离(相似性)的“UPGMA法”。
附件2:原始数据
相关博文(点击链接可直接查看博文):
1.正确作“系统(层次)聚类分析”之R(或 Rstudio)应用
纰漏和错误之处在所难免,恳请您批评指正!
系列文章>>
用数据说话系列(1): 样本数,数据顺序对 t test 的影响
用数据说话系列(2): 样本数,数据顺序对"聚类分析"的影响
用数据说话系列(3): 样本数,数据顺序对"方差分析ANOVA"的影响
用数据说话系列(4): 各种 t 检验 样本数 至少每组多少为宜
用数据说话系列(5): 非参数检验SteelDwass test和 Dunn test选谁
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社