崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析的7个瓶颈(4)

已有 3453 次阅读 2022-2-18 10:06 |个人分类:科研体会|系统分类:科研笔记

4.矩阵的使用问题

即把什么矩阵输入到统计分析软件中去的问题。这个问题的出现有其历史原因,笔者猜测,早期从SCI数据库获得矩阵是通过手工操作,如1973年Small最早提出论文同被引的概念并进行了说明[24],在实例操作中,他检索到高被引论文之后,将其两两配对,组合输入到SCI数据库中被引文献检索途径,即可直接获得两篇文章同被引的数据,由此直接构建出高被引论文的同被引矩阵;尤其是1981年开始的作者同被引(ACA)(Author Cocitation: A Literature Measure of Intellectual Structure Howard D White; Belver C Griffith Journal of the American Society for Information Science (pre-1986); May 1981; 32, 3; ABI/INFORM Global pg. 163)高被引作者配对检索则更方便,带来了ACA研究的火爆,同时也使得作者同被引矩阵盛行。因此,从历史上看共现分析最开始使用的是同被引矩阵。


以高频词共现聚类分析为例,在生成高频主题词-相关论文矩阵(简称词篇矩阵)和高频主题词共现矩阵之后,大多数研究使用社会科学统计软件包(如Statistical Package for the Social Sciences,简称SPSS)软件进行聚类分析,同样,对于高被引论文的同被引聚类分析,也存在着是将高被引论文-相关来源文献矩阵还是高被引论文同被引矩阵输入到SPSS中的问题。所谓词篇矩阵,即矩阵中第一列为高频关键词,第一行为对应的文献号码,行和列对应的格子中的数字表示该关键词是否在对应的文献中出现,如表2中,关键词“MOOC”在8号和9号文献中出现。


image.png

所谓共词矩阵就是第一行和第一列都是高频主题词,对应的格子中的数字表示两个主题词在多少篇论文中共同出现。如表3中关键词第一列中的“商业银行”与第一行中的“P2P网络借贷”对应的数字为“4”,表明这两个关键词在4篇文章中共现过。

相当数量的发表文献中采用了将高频词共现矩阵输入到SPSS中进行聚类分析,或者将高频词-相关论文矩阵转换为相似矩阵,再转换为相异矩阵,最后将相异矩阵输入到SPSS中进行聚类分析。

在SPSS中,软件说明中要求输入的应该是标识样本-属性的数值矩阵,即词篇矩阵。如果把共现矩阵或者相异矩阵输入当做数据矩阵输入到SPSS中的话,实际上SPSS把二者的共现数据或者二者的距离当做分类样本(高频关键词)的一个属性值了,这样做似乎也有一定的道理,因为一个关键词(A)与其他关键词(B,C等)的共现次数也可以被当作该关键词(A)的属性,但是严格说来这样做是不合适的。笔者曾经用样本案例观察二者的差异,发现两种聚类方法虽然在局部有相同的聚类结果,但是越到后来,分类的差异就越大,可能会导致聚类结果判读起来很别扭。

关于这个问题,早在2015年中国科学院文献中心的Qiuju ZHOU已经通过认真的研究后得出结论:“如果将共现矩阵输入SPSS层次聚类模块而不停用SPSS嵌入的相似性算法,SPSS会把相似度计算两次,从而扭曲并高估相似度”[25]。同时Zhou也提出了在给SPSS输入共现矩阵的时候解决之道。因此只要在进行书目信息共现聚类分析中,尤其是在输入SPSS这样的统计软件的时候,注意软件对输入数据(矩阵)的要求,或者输入词篇矩阵,或者采取Zhou提出的解决方法,我们可以说这个问题目前已经解决了。




https://blog.sciencenet.cn/blog-82196-1325828.html

上一篇:共现分析的7个瓶颈(3)
下一篇:共现分析的7个瓶颈(5)
收藏 IP: 59.46.65.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 10:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部