崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

应用BICOMB2处理EXCEL数据软件生成共现矩阵案例

已有 25094 次阅读 2014-5-30 15:32 |个人分类:文献计量学|系统分类:科研笔记| 数据处理, 软件使用, bicomb

这是东北农业大学的翟洪江老师在使用bicomb过程中历经磨难后得到的一些经验,总结后发给了我,我觉得应当跟大家共享一下,所采用的方法不一定是最好的,但是确实提供了解决问题的一种思路,欢迎大家讨论。】


最近做了一个关于文件计量的研究。由于本人没有任何基础,所以做起来比较难。在网上收集了很多资料,发现崔雷老师的BICOMB2软件很适合我的研究。第一,这个软件针对于中文数据制作,我的数据主要来自于cnki;第二,我已经将所以论文的数据导入到EXCEL之中,这个软件对格式的自定义功能可以让我处理这些数据,不必在从cnki上重新下数据。由于本人没有学习过文献计量学的软件,所有用起来比较难,尽管有崔雷老师的指导,但是仍然做了很多次试验才操作成功。为了让如我这样笨的菜鸟少走弯路,我写下这个案例,供大家参考。本案例只适合于没有任何文献计量学基础的人使用。

我的文件结构如下图(案例中文献是我在cnki中主题,输入“文献计量学”,被引前150的文章)。我要做的是作者的共现分析。 


由于BICOMB不支持EXCEL格式(好像所有的文献计量学软件都不支持),我们要把它转化成TXT文件,但直接另存为txt文件可不可以呢?答案是否定的。在转化之前我们要制作节点。要制作两个节点:一个是文章节点,它要使软件能区分哪些作者是一个文章出现的;一个是字段节点,抽取作者字段从哪里开始。

单独将作者这一列加入到新的表中,在前面加一列,写上抽取字段节点字符,似乎写什么字符都可以,我是按照cnki里面给的代表作者的字符写的。

 

下一步制作文章节点。稍微有些复杂。在c列输入2468……等差数列,在d列输入1357……等差数列,在E列输入文章节点字符,我输入的字符就是“文章节点”。(cde列输入比较简单,只输入前两行,然后点住单元格右下角“黑方点”双机即可。但也不排除有人不会用EXCEL

 

d列和e列整体选中,剪切,将d列数字与c列数字相接。


然后以c列为主要关键字进行排序。

 

 

 

排列完如下图。

 

C列和d列换一下。

 

e列插入函数=CONCATENATE(A1,B1,C1,),这个函数是将所选单元格中的字符串合并,可以学习一下这个函数的相关说明。E列的数据就是我们最后想要的处理数据了。

 

e列的数据选中,复制到一个新建的txt文件中。

 

下面要做的是自定义格式。打开BICOMB2,点“管理员”选项卡。点“格式定义”右端的增加按钮,输入你定义的名称,我定义的名称为“作者共现分析”,格式类型一定要选择txt格式。

 

在格式定义中选“作者共现分析”,选中“文章节点”,点击右侧“修改”按钮,在节点1中输入“文章节点”,取值方法描述选择“单值、单行”就可以。这个就是Excel中定义的文章节点。

 

选中“作者”,点击右侧“修改”按钮,在节点1中输入“Author-作者:”。这个也是在Excel中设定的抽取字段节点。抽取方法选择“多值,分隔符;”;这个很重要,要根据你数据是什么样的选择取值方法。详细参看软件使用说明书。

 

这些都定义完以后,我们就可按照软件的正常程序进行分析了。点击项目选项卡,增加一个项目,格式类型选择刚才定义的类型。

 

点击提取选项卡,选择“作者分析”txt文档,点击提取,完成提取,就可以查看数据了。以后的分析按软件说明书进行即可。

 

字频统计

 

共现矩阵生成。

 

导出矩阵


小结:Excel数据转化成软件可使用的数据关键在设定文章节点和抽取字段节点,而且这两个节点不能在同一行(我试了很多次,同一行作者会统计很多很多)。第二个关键处在格式定义要定义好,一定要读明白说明书再定义。

报告的撰写过程中涉及了科学计量学的知识,笔者求助了中国医科大学的雷军教授、中国科学技术信息研究所的化柏林副研究员、中国科学院武汉文献情报中心吕鹏辉老师、湖北经济学院的熊沂老师、理学院的吴秋风老师等人,他们在互不相识的情况下给予了无私的帮助,更重要的是在交流的过程中体验了学科间合作的快乐,在此向他们表示感谢。  

                                    东北农业大学高教研究所  翟洪江

【崔雷说:我有些困惑翟老师为什么在开始从CNKI下载文献记录的时候,为什么不采用notefirst(XML)格式或者自定义(txt)格式,而是抽取出作者后又转成了Excel文件,但是这又恰好给我们提供一个如何处理天然是Excel格式文件的处理办法】




https://blog.sciencenet.cn/blog-82196-798997.html

上一篇:且读且议论(3):普赖斯初识引文(续)
下一篇:且读且议论(4):同被引分析登场
收藏 IP: 202.118.47.*| 热度|

5 杜建 刘宇 王晴 王鹏 李立

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 12:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部