匠人府分享 http://blog.sciencenet.cn/u/meiweipingg

博文

用数据说话系列(2): 样本数,数据顺序对"聚类分析"的影响

已有 3882 次阅读 2016-9-19 16:14 |个人分类:数据处理与统计分析|系统分类:科研笔记

用数据说话系列(2): 样本数,数据顺序对"聚类分析"的影响

梅卫平

Basic knowledge worth spreading!



用数据和图表说话,结果一目了然。系列2的内容为:聚类分析过程中,各组数据样本是否会随 样本数N的增加或数据排列顺序的更改,而得到不同的聚类结果?


试验结论:


①不同聚类方法,可能不同聚类结果(本文比较了基于欧式距离的ward法”和 基于Bray-Curtis距离(相似性)的UPGMA法”)。


②同种聚类方法,各组之间数据长度需要相同如果不同,系统会默认删除多出来的数据而变成等长的数据组进行聚类分析(i.e.,假设待聚类的5组数据,其中4组数据样本数N均为10个,而第5组数据样本数更多(ex.N为14个),系统会自动删除第5组数据样本中多出来的第11~14位共计4个数据而只用前面的10个数据,然后与其他4组进行聚类)


③聚类结果,与组内数据的顺序有密切关系会因为组内任意1个或多个数据顺序的改变而得出不同的聚类结果(或不同的距离)。


附件1:聚类结果

注:dist1,2,3表示采用基于欧式距离的“ward法”;dist.bray1,2,3表示采用基于Bray-Curtis距离(相似性)的“UPGMA法”。


附件2:原始数据


相关博文(点击链接可直接查看博文):

1.正确作“系统(层次)聚类分析”之R(或 Rstudio)应用


纰漏和错误之处在所难免,恳请您批评指正!


系列文章>>

用数据说话系列(1): 样本数,数据顺序对 t test 的影响

用数据说话系列(2): 样本数,数据顺序对"聚类分析"的影响

用数据说话系列(3): 样本数,数据顺序对"方差分析ANOVA"的影响

用数据说话系列(4): 各种 t 检验 样本数 至少每组多少为宜

用数据说话系列(5): 非参数检验SteelDwass test和 Dunn test选谁






http://blog.sciencenet.cn/blog-651374-1003781.html

上一篇:中大型学术会议,细节真的很重要
下一篇:用数据说话系列(3): 样本数,数据顺序对"方差分析ANOVA"的影响

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-12-2 06:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部