||
马克思主义普遍联系观点揭示, 我们面对的物质世界及其万事万物, 是普遍联系的, 这种联系是有规律的, 是可以认识的. 我们要认识世界, 就要把世界各方面有机联系起来看, 并通过实践, 来验证这种联系的客观性、科学性, 得出正确的结论. 在科技期刊从纸媒向数字出版媒体转型的今天, 如何从普遍联系的观点来把握信息加工和传播的碎片化, 快速获取和聚合效应, 是我们实现数字出版创新的突破口.
科技期刊的两大价值即内容价值和传播价值, 本文也将从这两方面来尝试阐述普遍联系的观点. 我们知道, 不管是纸质版还是PDF电子版本的文章, 已经不能适应碎片化阅读的需求, 这就要求我们必须探索新型的出版形态, XML(Extensible Markup Language)可扩展标记语言正是为了适应碎片化阅读的趋势, 可以将一篇文章分解为若干个标记性段落, 每一个标记性段落根据需要又可以分解为若干子项, 通过标记与分解, 信息的颗粒度将会越来越细,将最有效的信息推荐给读者, 以引起读者的注意则成为可能. 那么如何将整篇文章进行逐项标记和拆分呢, 这就需要我们运用联系的观点, 找到事物之间的内在规律, 这就是程序化标引和拆分.
在过去的一年里, 我们运用word自带的VBA编译程序, 实现了Word版本的XML标记预标引程序. 通过长期的出版实践, 我们总结出了一些出版规律, 比如, 一般正文中如果是“1”, ”1.1”,”1.1.1”开始的段落则对应的是一级标题、二级标题和三级标题;图片下方的第一个非空白段落是图注, 表格上方的第一个非空白段落是表注, 多个连续列表符号的是参考文献. 根据这些总结出来的规律, 基本实现了全文的XML标引[1].
同时根据参考文献的拆分和外链需求, 我们按照著作年制和顺序编码制总结了参考文献的格式规律, 总计两型三十二类参考文献书写格式, 按照具体格式分别提取了文献的刊名、年、卷和首页码信息, 基于CrossRef中心提高的API接口, 查询到了该篇文献的doi信息, 通过doi又进一步查询了文献的PubMedID, ADSID, 以及文献的全部元数据信息, 然后根据元素据信息, 对文献进行了反向自动加工和XML拆分, 实现了参考文献的标引和加工全部工作的自动化, 大大提高了标引的效率和准确率, 并且丰富了文献的外链信息[2,3].
在程序标引的过程中, 我们还发现了全文在逻辑上存在内在的联系和一致性, 那么是否可以利用这些规律来实现文章的校对工作呢, 答案是肯定的. 比如顺序文献编码制, 要求正文的文献引用必须按照顺序引用, 不能漏引也不能跨文献序号引用, 那么按照文献序号的连续性要求, 可以对突然不连续的文献序号进行高亮标记, 以提醒加工人员注意, 依照此原则, 图表序号、公式序号、章节序号的连续性校验同样有效的帮助了编辑加工人员. 一致性校验则涉及到著作年制前后文的作者年信息匹配, 如果人工校对, 则是一个大量而又繁琐的工作, 并且很难保证不出现一点疏漏或错误. 程序化匹配则能非常好的保证高效匹配校验, 并将不能匹配的作者年用高亮标记提醒出来[4].
当我们将一篇文章拆分为XML标记性语言并发布到网站后, 还有两个问题需要解决, 即该篇文章对外在信息的链接以及外部网站对文章的快速获取, 以避免网站的信息孤岛效应.
我们知道人与人交流和联系, 是基于每个人并不是孤立的人, 人都会附带一些信息, 比如核心信息身份证号, 以及其他附属信息, 那么每篇文章也会对应一个身份信息, 即doi信息, 以及附着在文章上面的元数据信息, 如何通过这些信息和外界进行有效联系, 则需要我们去挖掘和探索. 经过详细调研, 并通过向国际主流出版商网站的学习, 我们总结出了以下联系点: 通过文章的doi, 我们获取了文章的被引信息(Cited-by), 版本跟踪信息(CrossMark), 社交分享统计信息(Article Altmetric), Web of Science被引信息、原文链接和相关文章链接;通过前述参考文献的拆分和标引, 我们获取了每篇文献的CrossRef链接, Pubmed数据库链接, ADS数据库链接和GoogleScholar链接.
示例:http://engine.scichina.com/doi/10.1007/s11433-017-9113-4
为了便于外部网络能够快速获取到网站的信息, 我们按照Google搜索引擎的标签标准, 将每篇文章的元数据信息按照给定的标签名称写在网页的头文件中, 以方便搜索引擎能够快速和准确获取基本信息, 并且我们还和百度网站和中国知网达成协议, 每篇文章上线时会自动推送文章到百度和中国知网的FTP站点, 以实现文章在百度搜索引擎和知网的及时显示.
同时我们采用连续出版模式和六位码编码体系,单篇文章在线即等同于正式出版,不必等待整期上线即可被Web of Science正式收录[5]。
总之, 我们通过普遍联系的观点, 找到了科技期刊出版的内在联系规律和变化, 实现了数据内容生产和传播的创新, 实现了传统媒体出版向XML数字出版的转型, 提高了工作效率.
原稿:2016年11月6日
修改:2018年9月26日
参考文献:
2. 基于CrossRef数据库的参考文献自动加工及XML标引方法
3. 利用VBA程序和HTTPS协议获取参考文献的DOI信息
ps: 这是在“两学一做”活动中本人撰写的一篇文章。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-27 11:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社