求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

[讨论] 相似性指标,要不要归一化 normalization? (关联:数据挖掘、机器学习、数理统计学)

已有 1071 次阅读 2025-10-4 20:36 |个人分类:先进的信息理论与技术|系统分类:科研笔记

[讨论] 相似性指标,要不要归一化 normalization(关联:数据挖掘、机器学习、数理统计学)

     

      

相似度,相似性: similarity

距离 distance

欧几里得距离: Euclidean distance

余弦相似度: cosine similarity

修正余弦相似性,调整余弦相似度: adjusted cosine similarity

归一化: normalization

     

      

Einstein  tongue アインシュタイン.jpg

https://cdn.honcierge.jp/shelf_stories/eyecatches/000/001/521/medium/%E3%82%A2%E3%82%A4%E3%83%B3%E3%82%B7%E3%83%A5%E3%82%BF%E3%82%A4%E3%83%B3.jpg

       

      

   一般地,欧几里得距离(Euclidean Distance)不归一,它对“所研究范围”内的“相似性/距离”的度量(反映)是平等的。例如,不会由于数值的大小,引起该指标的敏感性(sensitivity,灵敏度)下降。

     

   相反,余弦相似度(Cosine Similarity),在“均值”比较大时,会普遍“趋向±1”,难以有效反映不同事物之间的差别。

   所以,出现了修正余弦相似度(Adjusted Cosine Similarity),以改善上述毛病。

     

余弦相似度2020王如雪会议_抠出.jpg

图1  c1、c2 是两列数据各自的均值;Cosine 是余弦相似度

    

    

参考资料:

[1] 2023-08-19,归一化方法/normalization/张彦,陈惠鹏,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=140763&Type=bkzyb&SubID=109767

   主要的归一化方法有:离差标准化(min-max normalization)、对数函数转换、反正切函数转换、零-均值(z-score)标准化等。

[2] 2023-12-15,余弦相似度/cosine similarity/余传明,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=134912&Type=bkzyb&SubID=104867

   修正余弦相似度是对余弦相似度进行改进后的结果。余弦相似度只考虑了向量维度方向上的相似,并未将各个维度的量纲纳入考虑范围。例如,需要用户评分时,每个用户评分标准会有差异。修正余弦相似度为此做出调整,在计算相似度的时候增加了每个维度减去均值的修正操作。

[3] 科普中国,2021-12-31,余弦相似度,中国大百科全书,第三版网络版[DB/OL]

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=188232

[4] 科普中国,2021-12-31,相关相似性,中国大百科全书,第三版网络版[DB/OL]

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=246021

   修正余弦相似性

   考虑到用户之间评分尺度的不同,公式中利用用户的平均评分作出了一定的修正,即用户i 和用户j 之间的相似性。

[5] 知乎,2016-10-28 18:33,常见距离度量和相似度度量

https://zhuanlan.zhihu.com/p/23272822

   调整余弦相似度:Adjusted Cosine Similarity

   相当于计算向量夹角的余弦值,以此作为两个个体间相似度大小的衡量,由于余弦相似度对数值不敏感,如个体X、Y对两个条目的评分分别为(1,2)、(4,5),其余弦相似度为0.98,调整后需要减去各自的均值,计算相似度为-0.8.通过求出每位用户的平均打分,调整评分向量为评分偏差向量,再求解余弦相似度。

[6] 知乎,2021-03-03 15:06,距离相似度计算总结(欧式距离、余弦相似度、杰卡德、互信息等18种)

https://zhuanlan.zhihu.com/p/354289511

   欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean distance)

   马哈拉诺比斯距离(Mahalanobis Distance)

   曼哈顿距离(Manhattan Distance)

   切比雪夫距离(Chebyshev Distance)

   明可夫斯基距离(Minkowski Distance)

   海明距离(Hamming distance)

   余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)

   皮尔森相关系数(Pearson Correlation Coefficient)

   Jaccard相似系数(Jaccard Coefficient)

   Tanimoto系数(广义Jaccard相似系数)

   对数似然相似度/对数似然相似率

   互信息/信息增益,相对熵/KL散度

   信息检索--词频-逆文档频率(TF-IDF)

   词对相似度--点间互信息

[7] 博客园,2024-06-01 01:14,修正余弦相似度(Adjusted Cosine Similarity)

https://www.cnblogs.com/BlogNetSpace/p/18225493

   余弦相似度(Cosine Similarity)

   皮尔逊相关系数

   曼哈顿距离(Manhattan Distance)

   欧氏距离(Euclidean Distance)

   Jaccard相似度

   修正余弦相似度(Adjusted Cosine Similarity)

   皮尔逊χ²检验(Pearson's Chi-squared Test)

   互信息(Mutual Information, MI)

   Tanimoto系数(Tanimoto Coefficient) 

   切比雪夫距离(Chebyshev Distance)

   汉明距离(Hamming Distance) 

  

以前的《科学网》相关博文链接:

[1] 2025-09-30 19:23,[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)

https://blog.sciencenet.cn/blog-107667-1504248.html

[2] 2025-09-20 21:21,[汇报,科普] 为什么要研究新的“相关性/距离”指标(1) (关联:数据挖掘、机器学习、数理统计学)

https://blog.sciencenet.cn/blog-107667-1502822.html

[3] 2025-09-19 22:28,[资料,科普,琐记] 相关性指标 correlation, similarity,数理统计学,小样本(置信区间):要点

https://blog.sciencenet.cn/blog-107667-1502725.html

[4] 2022-07-29 15:05,[随笔] 地震:前兆、预报与“因果性、相关性”杂谈

https://blog.sciencenet.cn/blog-107667-1349269.html

[5] 2022-06-23 16:24,往日(11)之二:比 Fisher Z Transformation 更好:细节与相关的历史资料

https://blog.sciencenet.cn/blog-107667-1344208.html

[6] 2021-08-04 14:38,[资料搜集] 生成n 个相关的高斯分布随机数

https://blog.sciencenet.cn/blog-107667-1298315.html

[7] 2021-08-03 14:07,[求证] 生成指定相关系数为ρ 的两个正态分布随机数

https://blog.sciencenet.cn/blog-107667-1298177.html

[8] 2020-07-20 12:11,[严肃内容] 鲁索(Rousseau)教授对皮尔逊相关系数实质认识的图示

https://blog.sciencenet.cn/blog-107667-1242781.html  

https://blog.csdn.net/weixin_33837846/article/details/116164382

[9] 2019-09-27 16:20,极值分布 Extreme Values Distribution 相关网页

https://blog.sciencenet.cn/blog-107667-1199726.html

[10] 2015-08-28 16:46,[请教] 计算风速时间序列之间“相关性”的最好定量方法

https://blog.sciencenet.cn/blog-107667-916688.html

[11] 2014-03-04 21:57,[请教] 相关系数和互信息之间的解析关系

https://blog.sciencenet.cn/blog-107667-773091.html

[12] 2012-07-30 12:50,[请教] 相关系数、n阶相关、互信息

https://blog.sciencenet.cn/blog-107667-597293.html

[13] 2022-05-12 17:50,[优先权?] 发现问题就是解决问题,承认问题就是解决问题

https://blog.sciencenet.cn/blog-107667-1338254.html

[14] 2022-07-25 14:55,[自己提出问题,提问] 与大数据与机器学习、数据挖掘等“数据科学”有关的一些问题

https://blog.sciencenet.cn/blog-107667-1348710.html

[15] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?

https://blog.sciencenet.cn/blog-107667-1295337.html

[16] 2021-07-14 15:59,“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试

https://blog.sciencenet.cn/blog-107667-1295438.html

[17] 2025-10-03 16:29,记忆:1995 年天津大学百年校庆研究生院学术报告会(一等奖论文)证书,整整 30年(三十年,叁拾年)

https://blog.sciencenet.cn/blog-107667-1504551.html

[18] 2019-07-02 16:11,记忆:南开大学2008年《科学素质教育课程骨干教师高级研修班》

https://blog.sciencenet.cn/blog-107667-1187783.html

   

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1504667.html

上一篇:记忆:1995 年天津大学百年校庆研究生院学术报告会(一等奖论文)证书,整整 30年(三十年,叁拾年)
下一篇:科学网博客“博客总排行”第11名(第三次)
收藏 IP: 111.33.237.*| 热度|

14 王涛 高宏 刘进平 朱林 崔锦华 范振英 钟炳 黄河宁 宁利中 郑永军 钱大鹏 周少祥 马鸣 刘跃

该博文允许注册用户评论 请点击登录 评论 (11 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 23:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部