求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)

已有 747 次阅读 2025-9-30 19:23 |个人分类:先进的信息理论与技术|系统分类:科研笔记

[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)

        

      

   2025-08-19 早晨睡醒后,终于下决心提出一个新的相关性指标。

   下面2个图片,一个是全局,另一个是细节。

        

   对于某类同性质数据(Independent and Identically Distributed Data, independent identically distributed, IID),在样本容量为 27 的小样本下,新指标“Zenas similarity”和“余弦相似度”之间的散点图。

   由于身体等原因,实在没有条件进行新指标“Zenas similarity”更多的仿真(数值实验)的研究,所以才有了《真傻悲歌之二》:

   我那光荣的身体不能用手来劳动/编程……

   ……

   噢噫,静静的真傻,苍天的弃儿!

   噢噫,静静的真傻,你的命运为什么这样惨?

   ……

        

Zenas 指标 11 全局.jpg

图1  全局Zenas similarity vs/versus 余弦相似度 cosine similarity

        

Zenas 指标 22 细节.jpg

图2  细节Zenas similarity vs/versus 余弦相似度 cosine similarity

        

   因为正式发表要求的“学术规范”,请恕这里不能提供您更多的技术细节。实际上,由于身体等原因,也还没有太多的数值实验结果。

   2011年发表于《Science》的最大信息系数 maximal information coefficient (MIC)一文,“Detecting Novel Associations in Large Data Sets”

doi:  10.1126/science.1205438

https://www.science.org/doi/10.1126/science.1205438

“Supplementary Material”貌似 58 页!

    

    

参考资料:

[1] 2023-12-15,余弦相似度/cosine similarity/余传明,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=134912&Type=bkzyb&SubID=104867

[2] 2023-12-19,相似性度量/similarity measurement/孙志猛,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51239&Type=bkzyb&SubID=59826

   ①闵可夫斯基距离。

   ②皮尔逊距离。

   ③兰氏距离

   ④马氏距离。

   ①夹角余弦。

   ②皮尔逊相关系数。

  

以前的《科学网》相关博文链接:

[1] 2025-09-29 20:01,真傻悲歌之二 (仿《顿河悲歌/哥萨克古歌》悲,太悲了,关联:新的“相关性/距离”指标)

https://blog.sciencenet.cn/blog-107667-1504088.html

[2] 2025-09-20 21:21,[汇报,科普] 为什么要研究新的“相关性/距离”指标(1) (关联:数据挖掘、机器学习、数理统计学)

https://blog.sciencenet.cn/blog-107667-1502822.html

[3] 2025-09-19 22:28,[资料,科普,琐记] 相关性指标 correlation, similarity,数理统计学,小样本(置信区间):要点

https://blog.sciencenet.cn/blog-107667-1502725.html

[4] 2020-06-17 13:30,敬请慎重使用和看待“数据统计与分析”的结果

https://blog.sciencenet.cn/blog-107667-1238236.html

[5] 2020-08-18 14:01,没有真正“小样本”数理统计学的世界,了无生趣

https://blog.sciencenet.cn/blog-107667-1246844.html

[6] 2018-08-18 15:06,“大数据”时期,更渴望“小样本数理统计学”

https://blog.sciencenet.cn/blog-107667-1129894.html

[7] 2024-08-26 22:18,[宇宙科学院] 牛顿论题:万有引力常数G不是常数,而是随材料、温度、压力等多种条件变化的变量。

https://blog.sciencenet.cn/blog-107667-1448299.html

[8] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?

https://blog.sciencenet.cn/blog-107667-1295337.html

[9] 2021-07-14 15:59,“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试

https://blog.sciencenet.cn/blog-107667-1295438.html

[10] 2022-07-25 14:55,[自己提出问题,提问] 与大数据与机器学习、数据挖掘等“数据科学”有关的一些问题

https://blog.sciencenet.cn/blog-107667-1348710.html

 

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1504248.html

上一篇:真傻悲歌之二 (仿《顿河悲歌/哥萨克古歌》悲,太悲了,关联:新的“相关性/距离”指标)
下一篇:祝《科学网》大家庭 2025年国庆节快乐!
收藏 IP: 111.33.236.*| 热度|

11 宁利中 王涛 刘进平 高宏 崔锦华 钟炳 尤明庆 周少祥 郑永军 钱大鹏 刘跃

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-6 00:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部