|
摘要 为了提升参考文献的自动化加工水平和准确率,本文通过编写了VBA程序,利用HTTPS协议自动获取参考文献的DOI信息,并进一步利用获取的DOI信息从CrossRef,PubMed和ADS数据库挖掘出文献的元数据信息, 并按照期刊的具体格式要求完成文献的加工和XML信息标引。经测试,运行VBA程序后,每50条参考文献只需5分钟即可完成解析和文献加工,大大提升编辑效率。对参考文献的体例和各数据库的API接口熟练掌握和使用是程序运行成功的关键。
关键词 VBA程序; HTTPS协议; DOI; 参考文献; 自动化
PDF全文见:
侯修洲, 黄延红. 基于CrossRef数据库的参考文献自动加工及XML标引方法[J]. 编辑学报, 2017, 29(1): 70-72
在科技论文中,参考文献是文章的重要组成部分,既具有索引作用,也方便读者进行二次文献扩展阅读[1],为了规范参考文献著录体例格式,我国已经于2015年12月公布了新的参考文献著录标准GB /T 7714—2015《信息与文献参考文献著录规则》[2,3],如何在稿件加工中严格执行新的国家标准,是一项非常复杂而又繁琐的工作,比如引文作者的姓、名、文题、刊名、卷、期、页码等信息,纯手工编辑校对出错率相当高[4,5]。本文尝试提出一种新的快速、高效而又相对准确的参考文献自动加工方法,该方法基于CrossRef数据库的基础信息,按照期刊要求可以输出TXT文本格式文献,也可以输出拆分完整的XML标记型格式文献。
曾经有人尝试利用Google学术网站的引用工具来快速加工文献,这种方法最大的弊端是需要逐条加工,并且Google学术搜索网站提供的查询并不是精确查询,其查询数据也有很多缺项和错误[6]。本文作者在之前的一篇论文中介绍了利用VBA(Visual Basic for Applications)程序和HTTPS协议获取参考文献的DOI信息[7],那么是否可以利用已经解析出的DOI信息来对参考文献进行辅助加工和校对呢,答案是肯定的,并且所有的文献解析、数据挖掘以及后期的文献自动加工和数据输出均由VBA程序完成。该方法的优点是不需要文献的作者、文题的格式这些信息,只需大致确定文献的刊名、年、卷、页码信息即可获取文献的DOI信息,并利用获取的DOI到CrossRef数据库进行数据挖掘,进而获取文献的全部元数据,对这些元数据进行程序化自动校正和修改,即可完成该文献的编辑加工。
1 方法
由于注册DOI信息的主要是科技期刊文献, CrossRef网站并不提供基于API接口的书籍、专利、博士论文、会议文集等其他形式的文献查询,所以本文讨论的也主要是如何利用VBA程序获取期刊文献的DOI信息, 以及由此DOI信息进一步挖掘CrossRef的元数据信息,然后利用这些元数据信息来对文献进行编辑加工.
1.1 分析文献样式
按照文献[7]介绍的方法,如果想提取出文献的DOI, 则必须知道文献的结构类型,并解析出文献的刊名、年、卷、页码等元数据,那么对于作者提交的各式各样的参考文献格式,我们需要事先预见一些可能的文献格式,以便不论原始文献是什么结构类型,都能准确解析元数据。结合多年的编辑经验和学习积累,参考文献样式一般分为顺序编码制和著作年制两大类型,围绕这两大类型会衍生出若干分支类型,以下是本文总结划分的基本类型。
1.1.1 顺序编码制
1) Gailitis A, Lielausis O, Dement'ev S, et al.Detection of a flow induced ***. Phys Rev Lett, 2000, 84:4365-4368
2) Gailitis A, Lielausis O, Dement'ev S, et al. PhysRev Lett, 2000, 84: 4365-4368
3) M. Aspelmeyer, T. J. Kippenberg, and F. Marquardt,Rev. Mod. Phys. 86, 1391 (2014).
1.1.2 著作年制
1) Zhuang W, Feng M, Du Y. 2013. Low-frequency***. J Geophys Res-Oceans 118, 1302-1315
2) Zhuang W, Feng M, Du Y. 2013. Low-frequency***. J Geophys Res-Oceans, 118: 1302-1315
3) Zhuang W, Feng M, Du Y. 2013. J GeophysRes-Oceans, 118: 1302-1315
1.1.3 DOI识别方法
Paci I, JohnsonC J, Chen X D, et al. Singlet **. J Am ChemSoc, 2006, 128: 16546–16553, DOI: 10.1103/PhysRevB.92.041104
1.2 解析文献元数据
当我们按照1.1节总结的文献类型识别出文献结构后,就可以对文献进行拆分,并解析出元数据[7],为挖掘出DOI信息做数据准备。
1.3 从CrossRef数据库挖掘DOI
通过HTTPS协议查询DOI(http://help.crossref.org/using_http), 对于会员,其查询格式如下,其中黑色字体部分是用户的用户名和密码[7], 其中刊名,卷, 首页码,年为解析的文献元数据:
https://DOI.crossref.org/servlet/query?usr=<USERNAME>&pwd=<PASSWORD>&qdata=|刊名||卷||首页码|年|||
1.4 利用DOI进行数据挖掘
当DOI信息成功获取后,我们就可以利用DOI到CrossRef数据库挖掘出标准的元数据信息,以及进一步挖掘出Pubmed,ADS和arXiv等编码信息。从CrossRef数据库挖掘出XML元数据的http接口协议如下,可以看到,只要提供用户名、密码和DOI信息就可以获取该文献的完整信息: https://doi.crossref.org/search/doi?pid=<USERNAME:PASSWORD>&format=unixsd&doi=<DOI>, 图1是API接口返回的参考文献的XML信息。
图1 CrossRef数据挖掘XML页面
同理,我们也发现了Pubmed, ADS和arXiv的http协议,其中Pubmed文摘数据库是美国国立卫生研究院主办的网站,用户可以免费获取每篇文章的XML信息,并且只需要DOI信息即可,其XML信息的API接口为:
http://www.ncbi.nlm.nih.gov/pubmed/?term=<DOI>&report=xml&format=text
ADS数据库是哈佛大学主办的数学物理力学天文材料类数据库网站,并且也记录文章的arXiv号,信息权威,更新快,深受专业人士喜爱,ADS开放的是bibtex文本接口,也是只需要DOI信息即可,其文本的API接口为:
http://adsabs.harvard.edu/cgi-bin/nph-bib_query?bibcode=<DOI>&data_type=BIBTEX
1.5利用挖掘出的元数据进行文献再加工
当我们最终获取到文献的元数据后,这时就可以用这些信息对文献按照我们事先设定的格式进行加工了,比如作者的姓和名的顺序,是否有缩写点,名字中间是否有空格,是否需要文题,刊名是否需要缩写,年卷期页码的位置等等。按照刊物的生产要求,我们可以输出文本格式的文献,也可以输出拆分好地便于XML生产的标记性文献。图2是XML标记型参考文献输出样例,其中author{}代表作者信息,里面每一组<a>代表一个作者信息,<g>代表作者名,<s>代表作者姓。另外,title{}, journal{},year{},vol{}, fpage{}, lpage{}, 分别为文题、刊名、年、卷、首页码、尾页码信息,doi{},pubmed{}, ads{}, arxiv{}分别为CrossRef,Pubmed, ADS和arXiv数据库的文章id信息。
图2 XML标记型参考文献输出样例
因为解析后的文献数据是完全拆分好的,程序能够输出为XML标记型格式,当然也可以按照给定的刊物文献体例进行任意组合输出,比如作者姓和名的先后顺序,名字是否为缩写、是否含缩写点、是否含空格,是否需要输出文题,以及刊名、年、卷、期、页码的先后顺序和具体展现格式,并且程序还为刊名字段专门建立了ISO缩写单词词库,可以保证输出的刊名符合ISO缩写标准格式。
图3是原始文献从分析、解析、信息挖掘、信息加工以及信息输出的全流程VBA程序设计示意图。当解析出DOI并成功挖掘出元数据后,还需要和Pubmed元数据、ADS元数据以及原文献的文题、刊名、年、卷、页码等信息进行交叉校对,以验证信息的正误或者缺失。需要说明的是,如果没有解析出DOI信息,或者解析出的文献第一作者不在原文中,则该条文献保持原样不变,这时需要编辑进一步核对文献格式或手动加工。
图3 参考文献自动加工及XML标引流程示意图
2 结论
本文的结果适应参考文献自动加工的需求,并且能够满足XML生产转换的需求,VBA程序安装简单[8],操作易于上手,有利于程序的推广和使用。经测试,运行VBA程序后,每50条参考文献只需5分钟即可完成解析和文献加工,大大提升编辑效率。对参考文献的体例结构进行精准分析和拆分是VBA程序运行成功的基础,同时对各数据库的API接口熟练掌握和使用是程序成功的关键。
本软件可以和Word软件紧密结合,只需一键即可完成文献加工,不需要到外部网页或软件中进行信息校对或采集,自动化程度高,并且可以将参考文献解析为XML标记性语言输出,适合各种刊物文献格式的编辑加工和XML排版生产。
3 参考文献
1 李丽, 张凤莲. 应重视参考文献表的编辑加工[J]. 编辑学报, 2004, 16(6): 412-413
2信息与文献参考文献著录规则: GB/T7714—2015 [s].北京: 中国标准出版社, 2015
3陈浩元. GB/T7714新标准对旧标准的主要修改及实施要点提示[J]. 编辑学报,2015, 27(4): 339-343
4宋春燕, 王菊香. 科技期刊论文参考文献核查与校对方法[J]. 编辑学报,2012, 24(3): 249-250
5朱建新. 科技论文参考文献勘错以及查漏补缺的一些技巧[J]. 学报编辑论丛,2011, 103-106
6李万会, 张晶. 利用“谷歌学术搜索”快捷地编辑加工参考文献[J]. 学报编辑论丛,2013, 228-231
7 侯修洲, 黄延红. 利用VBA程序和HTTPS协议获取参考文献的doi信息[J]. 编辑学报,2016, 28(5): 466-469
8 王玥, 毛善锋, 刘谦. Word文档中通过CrossRef自动查询与整合英文参考文献DOI的实践[J].中国科技期刊研究, 2013, 24(2): 333-337
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-26 04:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社