科学人生◆品味科学分享 http://blog.sciencenet.cn/u/hxiuzhou 中国科学,从此他将伴我一起生活!

博文

基于CrossRef数据库的参考文献自动加工及XML标引方法

已有 13663 次阅读 2017-3-14 10:51 |系统分类:论文交流

摘要  为了提升参考文献的自动化加工水平和准确率,本文通过编写了VBA程序,利用HTTPS协议自动获取参考文献的DOI信息,并进一步利用获取的DOI信息从CrossRef,PubMedADS数据库挖掘出文献的元数据信息, 并按照期刊的具体格式要求完成文献的加工和XML信息标引。经测试,运行VBA程序后,每50条参考文献只需5分钟即可完成解析和文献加工,大大提升编辑效率。对参考文献的体例和各数据库的API接口熟练掌握和使用是程序运行成功的关键。

关键词  VBA程序; HTTPS协议; DOI; 参考文献; 自动化


PDF全文见:

侯修洲, 黄延红. 基于CrossRef数据库的参考文献自动加工及XML标引方法[J]. 编辑学报, 2017, 29(1): 70-72

在科技论文中,参考文献是文章的重要组成部分,既具有索引作用,也方便读者进行二次文献扩展阅读[1],为了规范参考文献著录体例格式,我国已经于201512月公布了新的参考文献著录标准GB /T 7714—2015《信息与文献参考文献著录规则》[2,3],如何在稿件加工中严格执行新的国家标准,是一项非常复杂而又繁琐的工作,比如引文作者的姓、名、文题、刊名、卷、期、页码等信息,纯手工编辑校对出错率相当高[4,5]。本文尝试提出一种新的快速、高效而又相对准确的参考文献自动加工方法,该方法基于CrossRef数据库的基础信息,按照期刊要求可以输出TXT文本格式文献,也可以输出拆分完整的XML标记型格式文献。

曾经有人尝试利用Google学术网站的引用工具来快速加工文献,这种方法最大的弊端是需要逐条加工,并且Google学术搜索网站提供的查询并不是精确查询,其查询数据也有很多缺项和错误[6]。本文作者在之前的一篇论文中介绍了利用VBA(Visual Basic for Applications)程序和HTTPS协议获取参考文献的DOI信息[7],那么是否可以利用已经解析出的DOI信息来对参考文献进行辅助加工和校对呢,答案是肯定的,并且所有的文献解析、数据挖掘以及后期的文献自动加工和数据输出均由VBA程序完成。该方法的优点是不需要文献的作者、文题的格式这些信息,只需大致确定文献的刊名、年、卷、页码信息即可获取文献的DOI信息,并利用获取的DOICrossRef数据库进行数据挖掘,进而获取文献的全部元数据,对这些元数据进行程序化自动校正和修改,即可完成该文献的编辑加工。

1        方法

由于注册DOI信息的主要是科技期刊文献, CrossRef网站并不提供基于API接口的书籍、专利、博士论文、会议文集等其他形式的文献查询,所以本文讨论的也主要是如何利用VBA程序获取期刊文献的DOI信息, 以及由此DOI信息进一步挖掘CrossRef的元数据信息,然后利用这些元数据信息来对文献进行编辑加工.

1.1   分析文献样式

按照文献[7]介绍的方法,如果想提取出文献的DOI, 则必须知道文献的结构类型,并解析出文献的刊名、年、卷、页码等元数据,那么对于作者提交的各式各样的参考文献格式,我们需要事先预见一些可能的文献格式,以便不论原始文献是什么结构类型,都能准确解析元数据。结合多年的编辑经验和学习积累,参考文献样式一般分为顺序编码制和著作年制两大类型,围绕这两大类型会衍生出若干分支类型,以下是本文总结划分的基本类型。

1.1.1  顺序编码制

1)        Gailitis A, Lielausis O, Dement'ev S, et al.Detection of a flow induced ***. Phys Rev Lett, 2000, 84:4365-4368

2)        Gailitis A, Lielausis O, Dement'ev S, et al. PhysRev Lett, 2000, 84: 4365-4368

3)        M. Aspelmeyer, T. J. Kippenberg, and F. Marquardt,Rev. Mod. Phys. 86, 1391 (2014).

1.1.2  著作年制

1)      Zhuang W, Feng M, Du Y. 2013. Low-frequency***. J Geophys Res-Oceans 118, 1302-1315

2)      Zhuang W, Feng M, Du Y. 2013. Low-frequency***. J Geophys Res-Oceans, 118: 1302-1315

3)      Zhuang W, Feng M, Du Y. 2013. J GeophysRes-Oceans, 118: 1302-1315

1.1.3  DOI识别方法

Paci I, JohnsonC J, Chen X D, et al. Singlet **. J Am ChemSoc, 2006, 128: 16546–16553, DOI: 10.1103/PhysRevB.92.041104

1.2   解析文献元数据

当我们按照1.1节总结的文献类型识别出文献结构后,就可以对文献进行拆分,并解析出元数据[7],为挖掘出DOI信息做数据准备。

1.3 CrossRef数据库挖掘DOI

通过HTTPS协议查询DOI(http://help.crossref.org/using_http), 对于会员,其查询格式如下,其中黑色字体部分是用户的用户名和密码[7], 其中刊名,, 首页码,年为解析的文献元数据:

https://DOI.crossref.org/servlet/query?usr=<USERNAME>&pwd=<PASSWORD>&qdata=|刊名||||首页码||||

1.4  利用DOI进行数据挖掘

        DOI信息成功获取后,我们就可以利用DOICrossRef数据库挖掘出标准的元数据信息,以及进一步挖掘出PubmedADSarXiv等编码信息。从CrossRef数据库挖掘出XML元数据的http接口协议如下,可以看到,只要提供用户名、密码和DOI信息就可以获取该文献的完整信息: https://doi.crossref.org/search/doi?pid=<USERNAME:PASSWORD>&format=unixsd&doi=<DOI>, 1API接口返回的参考文献的XML信息。


1  CrossRef数据挖掘XML页面

同理,我们也发现了Pubmed, ADSarXivhttp协议,其中Pubmed文摘数据库是美国国立卫生研究院主办的网站,用户可以免费获取每篇文章的XML信息,并且只需要DOI信息即可,其XML信息的API接口为:

http://www.ncbi.nlm.nih.gov/pubmed/?term=<DOI>&report=xml&format=text

ADS数据库是哈佛大学主办的数学物理力学天文材料类数据库网站,并且也记录文章的arXiv号,信息权威,更新快,深受专业人士喜爱,ADS开放的是bibtex文本接口,也是只需要DOI信息即可,其文本的API接口为:

http://adsabs.harvard.edu/cgi-bin/nph-bib_query?bibcode=<DOI>&data_type=BIBTEX

1.5利用挖掘出的元数据进行文献再加工

        当我们最终获取到文献的元数据后,这时就可以用这些信息对文献按照我们事先设定的格式进行加工了,比如作者的姓和名的顺序,是否有缩写点,名字中间是否有空格,是否需要文题,刊名是否需要缩写,年卷期页码的位置等等。按照刊物的生产要求,我们可以输出文本格式的文献,也可以输出拆分好地便于XML生产的标记性文献。图2XML标记型参考文献输出样例,其中author{}代表作者信息,里面每一组<a>代表一个作者信息,<g>代表作者名,<s>代表作者姓。另外,title{}, journal{}year{},vol{}, fpage{}, lpage{}, 分别为文题、刊名、年、卷、首页码、尾页码信息,doi{},pubmed{}, ads{}, arxiv{}分别为CrossRef,Pubmed, ADSarXiv数据库的文章id信息。

2  XML标记型参考文献输出样例

因为解析后的文献数据是完全拆分好的,程序能够输出为XML标记型格式,当然也可以按照给定的刊物文献体例进行任意组合输出,比如作者姓和名的先后顺序,名字是否为缩写、是否含缩写点、是否含空格,是否需要输出文题,以及刊名、年、卷、期、页码的先后顺序和具体展现格式,并且程序还为刊名字段专门建立了ISO缩写单词词库,可以保证输出的刊名符合ISO缩写标准格式。

3是原始文献从分析、解析、信息挖掘、信息加工以及信息输出的全流程VBA程序设计示意图。当解析出DOI并成功挖掘出元数据后,还需要和Pubmed元数据、ADS元数据以及原文献的文题、刊名、年、卷、页码等信息进行交叉校对,以验证信息的正误或者缺失。需要说明的是,如果没有解析出DOI信息,或者解析出的文献第一作者不在原文中,则该条文献保持原样不变,这时需要编辑进一步核对文献格式或手动加工。


3 参考文献自动加工及XML标引流程示意图

2  结论

本文的结果适应参考文献自动加工的需求,并且能够满足XML生产转换的需求,VBA程序安装简单[8],操作易于上手,有利于程序的推广和使用。经测试,运行VBA程序后,每50条参考文献只需5分钟即可完成解析和文献加工,大大提升编辑效率。对参考文献的体例结构进行精准分析和拆分是VBA程序运行成功的基础,同时对各数据库的API接口熟练掌握和使用是程序成功的关键。

本软件可以和Word软件紧密结合,只需一键即可完成文献加工,不需要到外部网页或软件中进行信息校对或采集,自动化程度高,并且可以将参考文献解析为XML标记性语言输出,适合各种刊物文献格式的编辑加工和XML排版生产。

3 参考文献

1 李丽, 张凤莲. 应重视参考文献表的编辑加工[J]. 编辑学报, 2004, 16(6): 412-413

2信息与文献参考文献著录规则: GB/T7714—2015 [s].北京: 中国标准出版社, 2015

3陈浩元. GB/T7714新标准对旧标准的主要修改及实施要点提示[J]. 编辑学报,2015, 27(4): 339-343

4宋春燕, 王菊香. 科技期刊论文参考文献核查与校对方法[J]. 编辑学报,2012, 24(3): 249-250

5朱建新. 科技论文参考文献勘错以及查漏补缺的一些技巧[J]. 学报编辑论丛,2011, 103-106

6李万会, 张晶. 利用谷歌学术搜索快捷地编辑加工参考文献[J]. 学报编辑论丛,2013, 228-231

7 侯修洲, 黄延红. 利用VBA程序和HTTPS协议获取参考文献的doi信息[J]. 编辑学报,2016, 28(5): 466-469

8 王玥, 毛善锋, 刘谦. Word文档中通过CrossRef自动查询与整合英文参考文献DOI的实践[J].中国科技期刊研究, 2013, 24(2): 333-337





https://blog.sciencenet.cn/blog-306503-1039342.html

上一篇:2016年物理综合类79种刊物最新影响因子及排名预测
下一篇:贾金锋教授综述 | 实验探索马约拉纳费米子
收藏 IP: 219.238.6.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 04:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部