博文

中信所研究生《情报分析技术》第四次课

已有 4586 次阅读 2011-3-24 09:47 |个人分类:文献计量|系统分类:科研笔记| 计量分析, 文献计量, 课件, 数据清洗

本次课为实验课，通过实验掌握文献题录信息的预处理、数据过滤与筛选、数据拆分与提取等技术。本技术与方法适用于CNKI、万方、维普、WebofScience、PubMed、MedLine、国家知识产权局专利信息、国家图书馆的图书目录、国家自然科学基金项目信息等。以上信息，处理流程与思路基本一致。本实验以CNKI的期刊论文题录数据为例，在excel中编写VBA，使用For循环、if语句及三个字符串处理函数实现所有的操作。当处理其他来源的信息时，程序结构基本不变，只需要调整参数即可。具体内容包括：行列转换、数据过滤与筛选、拆分与提取。

任务一：行列转换

难度指数：*

1．待解问题：

网络采集的文献题录信息的详细记录都是单列的，需要转换成二维表格形式。

2．问题分析：

题录信息按照行数的形式分为两类：一类是每条记录有固定的行数，如CNKI、万方、维普等，多个作者或者多个关键词都在一个单元格内；一类是每条记录的行数不固定，如SCI数据（Web of Science），作者、关键词等信息分在不同的行内，共同使用一个字段名称。

3．解决方案：

对于有固定行数的题录信息可以通过行数除以字段数进行行列转换；而对于行数不固定的题录信息可根据字段名称来识别。

任务二：数据筛选

难度指数：**

1．待解问题：

会议通知、征稿启示等非正式文献题录信息需要过滤。

从不同数据库来源的同类数据需要滤重。例如，有些数据CNKI上有，有些数据在万方上有，而这几年纷纷与数据库商签独家的期刊越来越多。针对一个科研课题的文献分析，使用单一数据源的数据难免有疏漏，需要使用多个数据库配套使用，把相关的数据集成起来，在数据集成的过程中，需要对重复的数据进行过滤。

2．问题分析：

非正式文献题录信息一般没有作者，有些信息具有关键词。

不同来源的信息字段数可能不一样，字段名称也不尽相同。但记录的值是一样的。

3．解决方案：

对于非正式文献题录信息，可以把作者字段为空的数据过滤掉。

如果字段名称不一样，则首先进行字段的映射处理。对于文献题录信息，重复的数据有以下几种判断方法。第一种方法：使用DOI，DOI是惟一的，只要DOI相同，则可以进行滤重，但并不是所有数据都有DOI；第二种方法：标题+作者，同一作者一般不会发表同一标题的文章，而重名作者发表同一标题的文章概率也非常小；第三种方法：期刊+年+期+标题，也可以确定一条信息，某种期刊上一般不会发表同一标题的文章，但不能使用期刊+年+期+作者，对于有些期刊的专题文章，有的作者同时发两三篇的。

任务三：数据拆分（SCI数据不需要拆分）

难度指数：**

1．待解问题：

作者、关键词、单位等信息需要拆分才能统计。机构信息中包含单位名称、城市名、邮编等多种信息，数据可以再分，不符合1NF。

2．问题分析：

一篇文章有一位或多位作者，一篇文章有多个关键词。作者与作者之间，关键词与关键词之间存在分隔符，但是分隔符并不统一，有的是分号，有的是逗号；有的是全角，有的是半角；有些作者或关键词末尾也有分隔符；有些末尾没有。

机构信息与城市名之间有分隔符，例如空格；而城市名与邮编之间有的有分隔符，如逗号，有些则没有分隔符。城市名的长度是不确定的，例如北京、哈尔滨、乌鲁木齐，还有些不规范的数据，如河北保定等。邮编的长度是固定的，对于中国大陆，都是6位数字编码。

3．解决方案：

把各种可能出现的分隔符统一替换成一种分隔符，并且把末尾都统一加上分隔符，然后利用分隔符进行分割处理。

对于机构信息，可以先从后面把6位数字编码的邮编取出来，然后去掉邮编前面的分隔符（标点符号），然后再利用分隔符把作者单位与城市名分别提取出来。

转载本文请联系原作者获取授权，同时请注明本文来自化柏林科学网博客。
链接地址：https://blog.sciencenet.cn/blog-91591-425746.html

上一篇：中信所研究生《情报分析技术》第三次课件
下一篇：计量分析中的统计分析技术——中信所《情报分析技术》第五次课

收藏 IP: 168.160.23.*| 热度|

当前推荐数：4 推荐人：许培扬 黄宁燕 贡金涛 周江南

发表评论评论 (3 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

化柏林

扫一扫，分享此博文

化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

中信所研究生《情报分析技术》第四次课

当前推荐数：4 推荐人：许培扬 黄宁燕 贡金涛 周江南

发表评论评论 (3 个评论)

化柏林

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

中信所研究生《情报分析技术》第四次课

当前推荐数：4 推荐人： 许培扬 黄宁燕 贡金涛 周江南

发表评论 评论 (3 个评论)

化柏林

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：4 推荐人：许培扬黄宁燕贡金涛周江南

发表评论评论 (3 个评论)