化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

中信所研究生《情报分析技术》第四次课

已有 4586 次阅读 2011-3-24 09:47 |个人分类:文献计量|系统分类:科研笔记| 计量分析, 文献计量, 课件, 数据清洗

本次课为实验课,通过实验掌握文献题录信息的预处理、数据过滤与筛选、数据拆分与提取等技术。本技术与方法适用于CNKI、万方、维普、WebofSciencePubMedMedLine、国家知识产权局专利信息、国家图书馆的图书目录、国家自然科学基金项目信息等。以上信息,处理流程与思路基本一致。本实验以CNKI的期刊论文题录数据为例,在excel中编写VBA,使用For循环、if语句及三个字符串处理函数实现所有的操作。当处理其他来源的信息时,程序结构基本不变,只需要调整参数即可。具体内容包括:行列转换、数据过滤与筛选、拆分与提取。

 

任务一:行列转换

难度指数:*

1.待解问题:

网络采集的文献题录信息的详细记录都是单列的,需要转换成二维表格形式。

2.问题分析:

题录信息按照行数的形式分为两类:一类是每条记录有固定的行数,如CNKI、万方、维普等,多个作者或者多个关键词都在一个单元格内;一类是每条记录的行数不固定,如SCI数据(Web of Science),作者、关键词等信息分在不同的行内,共同使用一个字段名称。

3.解决方案:

对于有固定行数的题录信息可以通过行数除以字段数进行行列转换;而对于行数不固定的题录信息可根据字段名称来识别。

 

任务二:数据筛选

难度指数:**

1.待解问题:

会议通知、征稿启示等非正式文献题录信息需要过滤。

从不同数据库来源的同类数据需要滤重。例如,有些数据CNKI上有, 有些数据在万方上有,而这几年纷纷与数据库商签独家的期刊越来越多。针对一个科研课题的文献分析,使用单一数据源的数据难免有疏漏,需要使用多个数据库配套使用,把相关的数据集成起来,在数据集成的过程中,需要对重复的数据进行过滤。

2.问题分析:

非正式文献题录信息一般没有作者,有些信息具有关键词。

不同来源的信息字段数可能不一样,字段名称也不尽相同。但记录的值是一样的。

3.解决方案:

对于非正式文献题录信息,可以把作者字段为空的数据过滤掉。

如果字段名称不一样,则首先进行字段的映射处理。对于文献题录信息,重复的数据有以下几种判断方法。第一种方法:使用DOIDOI是惟一的,只要DOI相同,则可以进行滤重,但并不是所有数据都有DOI;第二种方法:标题+作者,同一作者一般不会发表同一标题的文章,而重名作者发表同一标题的文章概率也非常小;第三种方法:期刊+++标题,也可以确定一条信息,某种期刊上一般不会发表同一标题的文章,但不能使用期刊+++作者,对于有些期刊的专题文章,有的作者同时发两三篇的。

 

任务三:数据拆分(SCI数据不需要拆分)

难度指数:**

1.待解问题:

作者、关键词、单位等信息需要拆分才能统计。机构信息中包含单位名称、城市名、邮编等多种信息,数据可以再分,不符合1NF

2.问题分析:

一篇文章有一位或多位作者,一篇文章有多个关键词。作者与作者之间,关键词与关键词之间存在分隔符,但是分隔符并不统一,有的是分号,有的是逗号;有的是全角,有的是半角;有些作者或关键词末尾也有分隔符;有些末尾没有。

机构信息与城市名之间有分隔符,例如空格;而城市名与邮编之间有的有分隔符,如逗号,有些则没有分隔符。城市名的长度是不确定的,例如北京、哈尔滨、乌鲁木齐,还有些不规范的数据,如河北保定等。邮编的长度是固定的,对于中国大陆,都是6位数字编码。

3.解决方案:

把各种可能出现的分隔符统一替换成一种分隔符,并且把末尾都统一加上分隔符,然后利用分隔符进行分割处理。

对于机构信息,可以先从后面把6位数字编码的邮编取出来,然后去掉邮编前面的分隔符(标点符号),然后再利用分隔符把作者单位与城市名分别提取出来。



https://blog.sciencenet.cn/blog-91591-425746.html

上一篇:中信所研究生《情报分析技术》第三次课件
下一篇:计量分析中的统计分析技术——中信所《情报分析技术》第五次课
收藏 IP: 168.160.23.*| 热度|

4 许培扬 黄宁燕 贡金涛 周江南

发表评论 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 04:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部