崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析的7个瓶颈(6)

已有 2784 次阅读 2022-2-18 10:16 |个人分类:生物医学文本挖掘|系统分类:科研笔记

6     聚类含义的解释

共现聚类分析的诸多关键节点中,对于聚类分析结果的语义判读和解释是整个分析研究的最后一道程序。聚类结果经过解读后把所研究的领域研究热点等直接呈现给用户,因此解读是否准确和可靠决定着整个分析的成败;而结果的准确和可靠程度受制于分析者的专业知识背景和逻辑推理分析能力,且没有统一评价标准。

很多学者为此做出不懈的探索,钟伟金提出了类团粘合力的指标,粘合力的计算采用该词与其他主题词在同篇文献分别共现频率的平均值,用以衡量类团内各主题词对聚类成团的贡献程度,由此说明类团内各成员的地位与作用;在他随后的研究中明确提出以黏合力高的主题词作为中心词来表示类团主题。其后的很多研究都利用了黏力这个指标,用每个类团内黏合力最大的几个关键词命名类团。此外,赵悦阳等也探索了应用HITS算法对文本聚类结果进行类别描述的可行性。这些研究都注意到了用聚类对象对类团形成贡献指标来衡量聚类对象的代表性,并力图以简单明了的方式表示该类的核心概念,适合于对较大主题覆盖面学科或专业的结构分析,但是忽略了概念之间的语义关系,表现出来的学科热点内容不够丰富,尤其是对于所服务领域的专业人员来说用几个词来表达一个研究主题可能过于泛泛。

我们提出用代表性论文来表示某一学科主题高频主题词共现聚类分析类团内容的设想[26],代表性论文就是对共现聚类形成贡献最大的前2-3 篇论文,经过研究发现代表性论文不仅能完全表达了高频词聚类分析形成类目的内容,而且可以提供更加丰富的主题词间语义关系等内容, 而且为实现共现聚类分析流程的规范化和自动化提供了有力支。

崔雷, 隋明爽. 共现聚类分析结果表达方法的研究. 情报学报, 2015, 34(12): 1270-1277

邬金鸣,侯跃芳,崔雷.基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究. 数据分析与知识发现. 2020, 4(9): 133-144.

尹延洁,崔雷.利用MeSH组配规则自动抽取表达特定语义关系句子的探索[J].中华医学图书情报杂志,2019,28(10):34-41




https://blog.sciencenet.cn/blog-82196-1325836.html

上一篇:共现分析的7个瓶颈(5)
下一篇:共现分析的7个瓶颈(7)
收藏 IP: 59.46.65.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 22:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部