崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

词和论文同时聚类告诉我们什么了?

已有 6565 次阅读 2010-11-19 09:55 |个人分类:休闲|系统分类:论文交流| 共现分析, 双聚类, 虚假联系, 潜在关系, 基于文献的发现

最初的目的,是想研究一下如何利用主题词关联规则从文章中抽取informative sentence。
首先,选定一个主题“阿司匹林引起胃肠道出血”,在PubMed中输入了检索词:
"Aspirin/adverse effects"[Majr] AND "Gastrointestinal Hemorrhage/chemically induced"[Majr]
并限定要有文摘的文献记录,得到了141条记录。
对这141条记录抽取了主题词并进行了统计,截取出现频次高于5次的主题词,得到了一个数据矩阵,局部如下:
其中的行是高频主题词12个,其中的列是相关的论文若干(141篇中,涉及到12个高频主题词中任何一个的文献记录)。然后,用gCLUTO进行聚类,就是对词和文章的同时聚类,得到了聚类结果,对其中部分内容进行可视化表达,局部如下:
正中间是小格子,可以叫做矩阵可视化,红颜色表示出现,白色的是没有出现。
右侧的是被聚类的三个主题词,左侧则它们的是聚类树图。
下侧是文献记录的标号,而上方则是这些文献聚类树图。
这里显示的是3个词被聚类在一起,“胃疾病/化学引起”(Stomach Diseases/chemically induced),“胃粘膜/药物作用”(Gastric Mucosa/drug effects),“阿司匹林/毒性”(Aspirin/toxicity)。
最有意思的是,这个图形清晰地展示出聚类分析是如何进行的::
这三个词,胃粘膜/药物作用和阿司匹林/毒性由于它们在371629,2813856,和3259918号文献记录上共现而首先聚集在一起。然后,胃粘膜/药物作用又和胃疾病/化学引起聚类在一起,从标记为红色的方块可以看出,它们是因为同时在2509266和1888645两篇论文中同时出现而被聚类在一起的。
然后就是问题,其实“阿司匹林/毒性”与“胃疾病/化学引起”这两个词根本就没有在这些文章中共同出现过,全图如下:
双聚类中显示出来的“虚假”联系,说明了什么?
这是好事还是坏事?
如果说是虚假联系,这是坏事。
如果说是潜在的联系,这是好事。
我比较倾向于好事,因为:
第一,这三个词确实能够解释为:阿司匹林药物对胃粘膜的毒性作用引起胃部疾病,其语义关系相当明确。
第二,通过共现的论文查看,这些论文(被称作对该类别描述度比较强的属性)也确实介绍了对阿司匹林的胃粘膜毒性作用引起胃疾病的预防。其实这几篇论文的实际内容更为复杂,大致的内容是:为治疗心血管疾病服用阿司匹林,阿司匹林对胃粘膜有毒性作用引起胃疾病,然后用某种药物进行预防。
第三,我相信这两个非相关的词是通过模式上的相似性而聚集到一起的。
 
这与Swanson的非相关互补文献是否为一个原理呢?如果扩大范围(文献量和主题覆盖面,以及高频词的阈值),是不是会有更多发现呢?能吗?比如中西医结合的主题?
局限性:
这个检索刚开始限定了带有文摘,同时检索的是主要主题词。
同时,如果范围过大,超出了聚类分析合理性的范围,也会很荒谬的哟。
后来,我用一个比较大的范围的主题重新试验了一下,比较失望,表现的都是很合理的语义关系。
不急,哪有随随便便成功的呢,慢慢来吧。








https://blog.sciencenet.cn/blog-82196-385288.html

上一篇:生于忧患,死于安乐
下一篇:看问题的角度很重要
收藏 IP: .*| 热度|

6 武夷山 赵星 章成志 黄晓磊 许培扬 唐常杰

发表评论 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 04:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部