|||
随机产生多事件比例是多维向量,两个多事件比例的向量相似度计算方法:
X个体:x1,x2,...xn,xi为第i个事件发生的比例,∑xi=1
Y个体:y1,y2,...yn,yi为第i个事件发生的比例,∑yi=1
X与Y的分配比例相似度
Sim=∏{1-abs[sqrt(xi)-sqrt(yi)]},大括号内是第i个事件相似度,所有都相乘后为X与Y的相似度。
单一纬度相似度x、y取值对应的相似度z取值如图:
两个纬度用beta分布的类dice相似度比较见下图(黑色为两个beta分布的类dice相似度,红色为只用参数计算的分配比例相似度,蓝色为只用参数计算的类dice相似度,红色与黑色比较接近说明估计较好,beta分布是dirichlet分布的二维形式):
距离=-log(相似度)
注:类dice相似度=∑min(xi,yi)=2*∑min(xi,yi)/(∑xi+∑yi)
基于此距离用KMeans聚类结果图(增加了尺度,相似度=(1-∣sqrt(∑xi)-sqrt(∑yi)∣/(sqrt(∑xi)+sqrt(∑yi))/2)*分配比例相似度,综合比较多种距离,效果不错,对网站不同类型用户有较好的划分):
(9-14初稿,
9-18修改:改为类dice相似度
9-28作废,未达到距离设计目标
9-29修改:因程序BUG导致误判,分类结果较好)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-23 21:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社