|||
本次课为实验课,通过实验掌握文献题录信息的预处理、数据过滤与筛选、数据拆分与提取等技术。本技术与方法适用于CNKI、万方、维普、WebofScience、PubMed、MedLine、国家知识产权局专利信息、国家图书馆的图书目录、国家自然科学基金项目信息等。以上信息,处理流程与思路基本一致。本实验以CNKI的期刊论文题录数据为例,在excel中编写VBA,使用For循环、if语句及三个字符串处理函数实现所有的操作。当处理其他来源的信息时,程序结构基本不变,只需要调整参数即可。具体内容包括:行列转换、数据过滤与筛选、拆分与提取。
任务一:行列转换
难度指数:*
1.待解问题:
网络采集的文献题录信息的详细记录都是单列的,需要转换成二维表格形式。
2.问题分析:
题录信息按照行数的形式分为两类:一类是每条记录有固定的行数,如CNKI、万方、维普等,多个作者或者多个关键词都在一个单元格内;一类是每条记录的行数不固定,如SCI数据(Web of Science),作者、关键词等信息分在不同的行内,共同使用一个字段名称。
3.解决方案:
对于有固定行数的题录信息可以通过行数除以字段数进行行列转换;而对于行数不固定的题录信息可根据字段名称来识别。
任务二:数据筛选
难度指数:**
1.待解问题:
会议通知、征稿启示等非正式文献题录信息需要过滤。
从不同数据库来源的同类数据需要滤重。例如,有些数据CNKI上有, 有些数据在万方上有,而这几年纷纷与数据库商签独家的期刊越来越多。针对一个科研课题的文献分析,使用单一数据源的数据难免有疏漏,需要使用多个数据库配套使用,把相关的数据集成起来,在数据集成的过程中,需要对重复的数据进行过滤。
2.问题分析:
非正式文献题录信息一般没有作者,有些信息具有关键词。
不同来源的信息字段数可能不一样,字段名称也不尽相同。但记录的值是一样的。
3.解决方案:
对于非正式文献题录信息,可以把作者字段为空的数据过滤掉。
如果字段名称不一样,则首先进行字段的映射处理。对于文献题录信息,重复的数据有以下几种判断方法。第一种方法:使用DOI,DOI是惟一的,只要DOI相同,则可以进行滤重,但并不是所有数据都有DOI;第二种方法:标题+作者,同一作者一般不会发表同一标题的文章,而重名作者发表同一标题的文章概率也非常小;第三种方法:期刊+年+期+标题,也可以确定一条信息,某种期刊上一般不会发表同一标题的文章,但不能使用期刊+年+期+作者,对于有些期刊的专题文章,有的作者同时发两三篇的。
任务三:数据拆分(SCI数据不需要拆分)
难度指数:**
1.待解问题:
作者、关键词、单位等信息需要拆分才能统计。机构信息中包含单位名称、城市名、邮编等多种信息,数据可以再分,不符合1NF。
2.问题分析:
一篇文章有一位或多位作者,一篇文章有多个关键词。作者与作者之间,关键词与关键词之间存在分隔符,但是分隔符并不统一,有的是分号,有的是逗号;有的是全角,有的是半角;有些作者或关键词末尾也有分隔符;有些末尾没有。
机构信息与城市名之间有分隔符,例如空格;而城市名与邮编之间有的有分隔符,如逗号,有些则没有分隔符。城市名的长度是不确定的,例如北京、哈尔滨、乌鲁木齐,还有些不规范的数据,如河北保定等。邮编的长度是固定的,对于中国大陆,都是6位数字编码。
3.解决方案:
把各种可能出现的分隔符统一替换成一种分隔符,并且把末尾都统一加上分隔符,然后利用分隔符进行分割处理。
对于机构信息,可以先从后面把6位数字编码的邮编取出来,然后去掉邮编前面的分隔符(标点符号),然后再利用分隔符把作者单位与城市名分别提取出来。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-8-18 12:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社