崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析乱弹(2)

已有 4701 次阅读 2012-8-11 11:14 |个人分类:文献计量学|系统分类:科研笔记| 共现, 聚类, 局部最优化

2.聚类结果的判读问题
如何判读共现聚类分析的结果,或者具体地说,系统聚类的树状图中区分类的相似性阈值到底选多少?私下里认为:应当遵循一个“局部最优化”的原则。
以某个学科(如物理学)当前的研究结构的分析为例,我们对其高被引论文做了同被引聚类分析或者高频主题词的共现聚类分析,其结果反映了这个学科活动的实际状况,这是毋庸置疑的,但是我们要记住,我们也只是从一定程度上或者一定侧面上了解和表现了这个对象。对于这个学科的专家而言,多年的学习和研究在他们的脑子里已经形成了这个学科的知识框架结构,你偏要说你的共现分析结果是客观的,正确的,其实可能是武断的。我们和专家一样都是站在不同的角度看一个问题,何况我们毕竟是为人家服务的,“做事不由东,累死也无功”。
局部最优,就是强调在聚类的小范围内是合理的,最先聚集到一起的论文和词是有显著意义的,在树状结构图中最底层的几个小类是可以称作一个研究方向或者热点的;而在大范围上,不要通过聚类树状图说物理科学的研究主要分成几个大的部分,这几个大的部分又包括几个小的部分,......。就是说,遵循自下而上的原则,越往上其合理性就越差。你可以尝试对一组数据用不同的相思系数和不同类间距离的计算方法(如最大最小平均距离等),其小类是比较稳固的,大类则是多变的。
因此,在共现分析的具体实践中,除了在决定类数和解读聚类结果中保持“局部最优”的理念之外,还应当注意选择侧重局部最优的聚类算法,而不必追求全局参与的聚类算法。


https://blog.sciencenet.cn/blog-82196-601175.html

上一篇:几篇有关文献网络的特色论文(二):前沿分析
下一篇:七七四十九了
收藏 IP: 59.47.9.*| 热度|

4 张伟 纪雪梅 许培扬 李智

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 02:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部