||
[讨论] 相似性指标,要不要归一化 normalization? (关联:数据挖掘、机器学习、数理统计学)
相似度,相似性: similarity
距离: distance
欧几里得距离: Euclidean distance
余弦相似度: cosine similarity
修正余弦相似性,调整余弦相似度: adjusted cosine similarity
归一化: normalization

一般地,欧几里得距离(Euclidean Distance)不归一,它对“所研究范围”内的“相似性/距离”的度量(反映)是平等的。例如,不会由于数值的大小,引起该指标的敏感性(sensitivity,灵敏度)下降。
相反,余弦相似度(Cosine Similarity),在“均值”比较大时,会普遍“趋向±1”,难以有效反映不同事物之间的差别。
所以,出现了修正余弦相似度(Adjusted Cosine Similarity),以改善上述毛病。

图1 c1、c2 是两列数据各自的均值;Cosine 是余弦相似度
参考资料:
[1] 2023-08-19,归一化方法/normalization/张彦,陈惠鹏,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=140763&Type=bkzyb&SubID=109767
主要的归一化方法有:离差标准化(min-max normalization)、对数函数转换、反正切函数转换、零-均值(z-score)标准化等。
[2] 2023-12-15,余弦相似度/cosine similarity/余传明,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=134912&Type=bkzyb&SubID=104867
修正余弦相似度是对余弦相似度进行改进后的结果。余弦相似度只考虑了向量维度方向上的相似,并未将各个维度的量纲纳入考虑范围。例如,需要用户评分时,每个用户评分标准会有差异。修正余弦相似度为此做出调整,在计算相似度的时候增加了每个维度减去均值的修正操作。
[3] 科普中国,2021-12-31,余弦相似度,中国大百科全书,第三版网络版[DB/OL]
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=188232
[4] 科普中国,2021-12-31,相关相似性,中国大百科全书,第三版网络版[DB/OL]
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=246021
修正余弦相似性
考虑到用户之间评分尺度的不同,公式中利用用户的平均评分作出了一定的修正,即用户i 和用户j 之间的相似性。
[5] 知乎,2016-10-28 18:33,常见距离度量和相似度度量
https://zhuanlan.zhihu.com/p/23272822
调整余弦相似度:Adjusted Cosine Similarity
相当于计算向量夹角的余弦值,以此作为两个个体间相似度大小的衡量,由于余弦相似度对数值不敏感,如个体X、Y对两个条目的评分分别为(1,2)、(4,5),其余弦相似度为0.98,调整后需要减去各自的均值,计算相似度为-0.8.通过求出每位用户的平均打分,调整评分向量为评分偏差向量,再求解余弦相似度。
[6] 知乎,2021-03-03 15:06,距离相似度计算总结(欧式距离、余弦相似度、杰卡德、互信息等18种)
https://zhuanlan.zhihu.com/p/354289511
欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean distance)
马哈拉诺比斯距离(Mahalanobis Distance)
曼哈顿距离(Manhattan Distance)
切比雪夫距离(Chebyshev Distance)
明可夫斯基距离(Minkowski Distance)
海明距离(Hamming distance)
余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)
皮尔森相关系数(Pearson Correlation Coefficient)
Jaccard相似系数(Jaccard Coefficient)
Tanimoto系数(广义Jaccard相似系数)
对数似然相似度/对数似然相似率
互信息/信息增益,相对熵/KL散度
信息检索--词频-逆文档频率(TF-IDF)
词对相似度--点间互信息
[7] 博客园,2024-06-01 01:14,修正余弦相似度(Adjusted Cosine Similarity)
https://www.cnblogs.com/BlogNetSpace/p/18225493
余弦相似度(Cosine Similarity)
皮尔逊相关系数
曼哈顿距离(Manhattan Distance)
欧氏距离(Euclidean Distance)
Jaccard相似度
修正余弦相似度(Adjusted Cosine Similarity)
皮尔逊χ²检验(Pearson's Chi-squared Test)
互信息(Mutual Information, MI)
Tanimoto系数(Tanimoto Coefficient)
切比雪夫距离(Chebyshev Distance)
汉明距离(Hamming Distance)
以前的《科学网》相关博文链接:
[1] 2025-09-30 19:23,[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)
https://blog.sciencenet.cn/blog-107667-1504248.html
[2] 2025-09-20 21:21,[汇报,科普] 为什么要研究新的“相关性/距离”指标(1) (关联:数据挖掘、机器学习、数理统计学)
https://blog.sciencenet.cn/blog-107667-1502822.html
[3] 2025-09-19 22:28,[资料,科普,琐记] 相关性指标 correlation, similarity,数理统计学,小样本(置信区间):要点
https://blog.sciencenet.cn/blog-107667-1502725.html
[4] 2022-07-29 15:05,[随笔] 地震:前兆、预报与“因果性、相关性”杂谈
https://blog.sciencenet.cn/blog-107667-1349269.html
[5] 2022-06-23 16:24,往日(11)之二:比 Fisher Z Transformation 更好:细节与相关的历史资料
https://blog.sciencenet.cn/blog-107667-1344208.html
[6] 2021-08-04 14:38,[资料搜集] 生成n 个相关的高斯分布随机数
https://blog.sciencenet.cn/blog-107667-1298315.html
[7] 2021-08-03 14:07,[求证] 生成指定相关系数为ρ 的两个正态分布随机数
https://blog.sciencenet.cn/blog-107667-1298177.html
[8] 2020-07-20 12:11,[严肃内容] 鲁索(Rousseau)教授对皮尔逊相关系数实质认识的图示
https://blog.sciencenet.cn/blog-107667-1242781.html
https://blog.csdn.net/weixin_33837846/article/details/116164382
[9] 2019-09-27 16:20,极值分布 Extreme Values Distribution 相关网页
https://blog.sciencenet.cn/blog-107667-1199726.html
[10] 2015-08-28 16:46,[请教] 计算风速时间序列之间“相关性”的最好定量方法
https://blog.sciencenet.cn/blog-107667-916688.html
[11] 2014-03-04 21:57,[请教] 相关系数和互信息之间的解析关系
https://blog.sciencenet.cn/blog-107667-773091.html
[12] 2012-07-30 12:50,[请教] 相关系数、n阶相关、互信息
https://blog.sciencenet.cn/blog-107667-597293.html
[13] 2022-05-12 17:50,[优先权?] 发现问题就是解决问题,承认问题就是解决问题
https://blog.sciencenet.cn/blog-107667-1338254.html
[14] 2022-07-25 14:55,[自己提出问题,提问] 与大数据与机器学习、数据挖掘等“数据科学”有关的一些问题
https://blog.sciencenet.cn/blog-107667-1348710.html
[15] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?
https://blog.sciencenet.cn/blog-107667-1295337.html
[16] 2021-07-14 15:59,“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试
https://blog.sciencenet.cn/blog-107667-1295438.html
[17] 2025-10-03 16:29,记忆:1995 年天津大学百年校庆研究生院学术报告会(一等奖论文)证书,整整 30年(三十年,叁拾年)
https://blog.sciencenet.cn/blog-107667-1504551.html
[18] 2019-07-02 16:11,记忆:南开大学2008年《科学素质教育课程骨干教师高级研修班》
https://blog.sciencenet.cn/blog-107667-1187783.html
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 23:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社