|||
对于网站大量用户的聚类,最简单的方法是KMeans,用户访问不同内容的比例相同应该归为一类,这些用户可能访问量有较大差异,但用户的兴趣却相同,所以做了这个距离。
Dbalance=sqrt(∑∣(xi-yi)*(xi'-yi')∣),xi'=xi/∑∣xi∣,yi'=yi/∑∣yi∣,向量X、Y,各维取值为xi,yi,xi',yi'为向量归一化后的值,用X、Y的差与归一化后的差做向量内积,结果再开方。
只有X、Y方向完全相同时为0,不同时兼顾XY间的距离与XY方向上的偏差。
下图为KMeans聚类结果:
(9-29作废:可用欧氏距离与归一化的欧氏距离的几何平均值代替;分配比例距离效果不错http://blog.sciencenet.cn/blog-867801-724979.html )
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-20 20:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社