hyalone的个人博客分享 http://blog.sciencenet.cn/u/hyalone

博文

分配比例相似度

已有 3249 次阅读 2013-9-14 21:37 |个人分类:数学|系统分类:科研笔记| 分配比例相似度, 分配相似度, 分配距离

随机产生多事件比例是多维向量,两个多事件比例的向量相似度计算方法:

X个体:x1,x2,...xn,xi为第i个事件发生的比例,∑xi=1

Y个体:y1,y2,...yn,yi为第i个事件发生的比例,∑yi=1

X与Y的分配比例相似度

Sim=∏{1-abs[sqrt(xi)-sqrt(yi)]},大括号内是第i个事件相似度,所有都相乘后为X与Y的相似度。

单一纬度相似度x、y取值对应的相似度z取值如图:

两个纬度用beta分布的类dice相似度比较见下图(黑色为两个beta分布的类dice相似度,红色为只用参数计算的分配比例相似度,蓝色为只用参数计算的类dice相似度,红色与黑色比较接近说明估计较好,beta分布是dirichlet分布的二维形式):

距离=-log(相似度)

注:类dice相似度=∑min(xi,yi)=2*∑min(xi,yi)/(∑xi+∑yi)

 

基于此距离用KMeans聚类结果图(增加了尺度,相似度=(1-∣sqrt(∑xi)-sqrt(∑yi)∣/(sqrt(∑xi)+sqrt(∑yi))/2)*分配比例相似度,综合比较多种距离,效果不错,对网站不同类型用户有较好的划分):

(9-14初稿,

9-18修改:改为类dice相似度

9-28作废,未达到距离设计目标

9-29修改:因程序BUG导致误判,分类结果较好)



https://blog.sciencenet.cn/blog-867801-724979.html

上一篇:LDA的线上近似预测方法
下一篇:两个狄里克雷分布的距离
收藏 IP: 124.200.52.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-23 21:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部