共现分析越来越引起大家的兴趣,很多信息专业以外的研究人员也想利用这种方法分析自己学科领域的研究现状或者热点。因此,不断有人跟我探讨这个方法的具体使用问题,说实话,这个方法还在不断的完善之中,应用中有很多具体的问题还没有解决。所以,感觉应该把这个方法的一些弱点,或者说需要进一步完善的地方列举出来,同时也提出自己目前的解决方法,希望有更多的同道能一起探索解决的方法。按照共现聚类分析的顺序,列举存在的问题如下:
1. 分析样本数目的问题:就是用于分析的样本大小的确定,实际上是检索论文数目多寡的问题。根据我的经验,理想的境界是应该包括该领域或主题的所有论文,对于比较大的主题,我一般用软件进行随机抽样,对于一些比较小的主题,论文数应该不少于500篇。道理很明显,文献太少了,共现的偶然性就大,得出的结论就不可信,我们不能对着不可信的结果信口开河。当然,这和你分析的对象是以篇为单位(如论文、引文)、还是一篇文章有多个共现的项目(作者、被引作者主题词有关系。一般我愿意以3000-5000篇作为分析的样本。
2. 高频阈值的确定问题:一般是用出现或者被引用频次高于某个阈值的项目作为下一步分析(共现矩阵和聚类分析)的对象,如高频主题词,高被引论文、高产作者、高被引作者、高被引期刊等等。阈值的选取还是一个样本量的问题,样本太大,最后得到的聚类结果会很庞杂,对各个类别的主题就不好分析和抽取,如果样本太小,得到的主题结构过于泛泛,没有新鲜的内容,比如有人曾经告诉我,分析出来肺结核病研究的热点是肺结核的诊断,肺结核的治疗。没有更细致的信息得到的结果就没有什么意义了。对这个问题国内外也有过研究,主要是检验起来比较麻烦。习惯性地有人愿意套用布拉德福定律的方法,用百分比来确定阈值,但是受到主题范围和发展程度等因素的影响,这个方法确定的高频词不是那么稳定,有的时候高频词很多至几百个,有的时候又很少,似乎应该有一个全面的调查。还有就是有人用HIT 曲线试图解决这个问题,这似乎也是一个思路。再有就是拿最后的聚类分析结果的质量好坏来评价阈值选取的方法。目前,我个人比较喜欢30-40左右的高频词或者高被引论文来分析。
3. 聚类分析方法的问题:从大的方面来说,有凝聚的方法和拆分的方法,比如在SPSS软件中可以用系统聚类方法,也可以用K-means快速聚类方法,我们一般使用比较简单直观的系统聚类方法,因为我们比较注重共现主题词之间的语义关系分析,所以愿意知道凝聚过程的先后顺序。但是,最近看到文章说,有人专门进行过研究,说是快速聚类的效果要优于系统聚类。这个有待于深入调查。另一方面,从具体的细节来说,还有相似系数的选择问题,很多国外的研究似乎用皮尔逊相关系数,而我们多年来一直用Ochiia相似系数,因为我们最开始是同被引聚类分析,从原理上看,我们认为这个系数是最合理的,就是两篇被引论文同被引次数做分子,两篇论文各自被引的总次数的乘积做分母,不用考虑没有引用这两个论文的其他论文,这些论文数量是相当地庞大。还有的是类与类聚合时候采用的方法:最大距离法,最小距离法,平均距离法重心法等等。一般我们是根据主题范围的大小确定这些方法的选择,比较细小专深的题目,我们采用最大距离法,把这些主题或者论文的类别尽量拉大距离,划分清楚;对于比较大和分散的主题,我们用最小距离法让各个类别之间尽量聚集到一起。
4. 聚类结果的解释问题:我们目前是通过人工阅读发现聚类项目之间的语义关系,这有很大的主观性,受到分析人员的专业水平和综合抽象能力的影响。国内外有一些对类别的主题进行识别的研究,有人提出主题词的粘滞度,有人从文章中抽取句子代替论文然后组成这个类的标签,有人提出用HITS算法,涉及到文本分类问题,又受到分类合理性检验问题的困扰,结果都不是令人满意,窃以为这又是一个比较有前景的研究方向。
总之,所依赖的主要原理一个是共现,一个是聚类分析。由于聚类分析本身就是一个无监督的方法,多数情况下要靠经验积累才能找到比较好的聚类途经和聚类结果的解释。上面列举的只是实践中遇到的主要问题,具体实践中恐怕还有遇到很多问题。
https://blog.sciencenet.cn/blog-82196-296245.html
上一篇:
处江湖之远下一篇:
本领恐慌