hyalone的个人博客分享 http://blog.sciencenet.cn/u/hyalone

博文

方向间隔均衡距离(作废)

已有 2591 次阅读 2013-9-28 19:51 |个人分类:数据挖掘|系统分类:科研笔记| 方向间隔均衡距离

对于网站大量用户的聚类,最简单的方法是KMeans,用户访问不同内容的比例相同应该归为一类,这些用户可能访问量有较大差异,但用户的兴趣却相同,所以做了这个距离。

Dbalance=sqrt(∑∣(xi-yi)*(xi'-yi')∣),xi'=xi/∑∣xi∣,yi'=yi/∑∣yi∣,向量X、Y,各维取值为xi,yi,xi',yi'为向量归一化后的值,用X、Y的差与归一化后的差做向量内积,结果再开方。

只有X、Y方向完全相同时为0,不同时兼顾XY间的距离与XY方向上的偏差。

下图为KMeans聚类结果:

(9-29作废:可用欧氏距离与归一化的欧氏距离的几何平均值代替;分配比例距离效果不错http://blog.sciencenet.cn/blog-867801-724979.html

 



https://blog.sciencenet.cn/blog-867801-728590.html

上一篇:两个狄里克雷分布的距离
下一篇:决策树聚类
收藏 IP: 124.200.52.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-20 20:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部