崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析的7个瓶颈(7)

已有 3198 次阅读 2022-2-18 10:34 |个人分类:科研体会|系统分类:科研笔记

稿子投给一些杂志,都被拒了,放了很多年,经常有人跟我讨论类似的问题,还是有传播的必要,所以我就发到这里。原先写了7个问题,后来缩减成为6个,标题不好改了,就凑数写了下面的一些感想,应该不算是瓶颈吧。

      7.基本疆界的划分

1  书目信息及其分析

书目是图书目录的简称,书目信息则是由图书目录反映出来关于图书的信息。在文献数据库迅速发展的当代,书目信息的涵义则转化为文献数据库中提供的关于文献(尤其是期刊论文)的基本信息,也就是通过文献数据库的文献记录中的各个字段所提供的信息,包括文献的作者、标题、摘要、关键词/主题词、期刊、发表时间、引文等等。

由于是通过书目信息(作者、期刊、关键词/主题词、引文)进行分析,这些字段属于半结构化的文本,个人以为这种分析不应被视为文本挖掘(text mining),因为书目信息分析没有自然语言处理(Natural Language Processing, NLP),也没有自动化地抽取信息,这不符合文本挖掘的基本涵义。但是,从文献计量学发展延续的角度,可以把文本挖掘看作是文献计量学之内容分析的升级版。只是自己心里要明白自己采用的方法是个什么层次,保持谦卑。

2  书目信息的共现

共现(Co-occurrence)普遍意义是指两个条目(items)在同一个单元(field)内出现。如两个主题词在同一篇文章的标题或文字中出现(共词,co-word),两篇参考文献在同一篇文献中出现(同被引,co-cited),两个作者在同一篇文章的作者字段中出现(合著,co-author),这些发生在同一篇文章中的共现,我们暂且称之为“篇内共现”,这种共现只有在特定字段中条目数多于2个的时候发生,对刊名、发表时间字段的条目等就不能做共现分析。

那么如何界定引文耦合呢?我们斗胆将其命名为“篇间共现”,就是两篇论文之间具有相同的条目这种现象。两篇论文拥有相同的参考文献,就是文献计量学中的基本概念引文耦合(亦称之为引文对,bibliographic coupling),两篇文献拥有相同的主题词,则称之为主题词链。这种链接也反映了论文在内容上的联系及联系程度,但是对于两篇文献具有相同的作者或者期刊名,则仅仅表明该作者或期刊发表的文献而已。

篇间共现反映了两篇文献的亲疏关系,依据拥有相同元素的数量或者比例;而篇内共现则反映了组成文献的各元素之间的关系,分析对象(如关键词)比论文具有更小的粒度。杨立英又进一步扩展书目共现的定义,提出了同一文章不同字段的中条目间也可以称之为共现并进行分析的理念




https://blog.sciencenet.cn/blog-82196-1325842.html

上一篇:共现分析的7个瓶颈(6)
下一篇:喜大普奔:课程视频上线了!
收藏 IP: 59.46.65.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 07:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部