博文

从普遍联系的观点谈科技期刊出版创新

已有 2184 次阅读 2018-9-26 11:49 |系统分类:观点评述| 联系, 科技期刊, 出版创新

马克思主义普遍联系观点揭示, 我们面对的物质世界及其万事万物, 是普遍联系的, 这种联系是有规律的, 是可以认识的. 我们要认识世界, 就要把世界各方面有机联系起来看, 并通过实践, 来验证这种联系的客观性、科学性, 得出正确的结论. 在科技期刊从纸媒向数字出版媒体转型的今天, 如何从普遍联系的观点来把握信息加工和传播的碎片化, 快速获取和聚合效应, 是我们实现数字出版创新的突破口.

科技期刊的两大价值即内容价值和传播价值, 本文也将从这两方面来尝试阐述普遍联系的观点. 我们知道, 不管是纸质版还是PDF电子版本的文章, 已经不能适应碎片化阅读的需求, 这就要求我们必须探索新型的出版形态, XML(Extensible Markup Language)可扩展标记语言正是为了适应碎片化阅读的趋势, 可以将一篇文章分解为若干个标记性段落, 每一个标记性段落根据需要又可以分解为若干子项, 通过标记与分解, 信息的颗粒度将会越来越细,将最有效的信息推荐给读者, 以引起读者的注意则成为可能. 那么如何将整篇文章进行逐项标记和拆分呢, 这就需要我们运用联系的观点, 找到事物之间的内在规律, 这就是程序化标引和拆分.

在过去的一年里, 我们运用word自带的VBA编译程序, 实现了Word版本的XML标记预标引程序. 通过长期的出版实践, 我们总结出了一些出版规律, 比如, 一般正文中如果是“1”, ”1.1”,”1.1.1”开始的段落则对应的是一级标题、二级标题和三级标题；图片下方的第一个非空白段落是图注, 表格上方的第一个非空白段落是表注, 多个连续列表符号的是参考文献. 根据这些总结出来的规律, 基本实现了全文的XML标引^[1].

同时根据参考文献的拆分和外链需求, 我们按照著作年制和顺序编码制总结了参考文献的格式规律, 总计两型三十二类参考文献书写格式, 按照具体格式分别提取了文献的刊名、年、卷和首页码信息, 基于CrossRef中心提高的API接口, 查询到了该篇文献的doi信息, 通过doi又进一步查询了文献的PubMedID, ADSID, 以及文献的全部元数据信息, 然后根据元素据信息, 对文献进行了反向自动加工和XML拆分, 实现了参考文献的标引和加工全部工作的自动化, 大大提高了标引的效率和准确率, 并且丰富了文献的外链信息^[2,3].

在程序标引的过程中, 我们还发现了全文在逻辑上存在内在的联系和一致性, 那么是否可以利用这些规律来实现文章的校对工作呢, 答案是肯定的. 比如顺序文献编码制, 要求正文的文献引用必须按照顺序引用, 不能漏引也不能跨文献序号引用, 那么按照文献序号的连续性要求, 可以对突然不连续的文献序号进行高亮标记, 以提醒加工人员注意, 依照此原则, 图表序号、公式序号、章节序号的连续性校验同样有效的帮助了编辑加工人员. 一致性校验则涉及到著作年制前后文的作者年信息匹配, 如果人工校对, 则是一个大量而又繁琐的工作, 并且很难保证不出现一点疏漏或错误. 程序化匹配则能非常好的保证高效匹配校验, 并将不能匹配的作者年用高亮标记提醒出来^[4].

当我们将一篇文章拆分为XML标记性语言并发布到网站后, 还有两个问题需要解决, 即该篇文章对外在信息的链接以及外部网站对文章的快速获取, 以避免网站的信息孤岛效应.

我们知道人与人交流和联系, 是基于每个人并不是孤立的人, 人都会附带一些信息, 比如核心信息身份证号, 以及其他附属信息, 那么每篇文章也会对应一个身份信息, 即doi信息, 以及附着在文章上面的元数据信息, 如何通过这些信息和外界进行有效联系, 则需要我们去挖掘和探索. 经过详细调研, 并通过向国际主流出版商网站的学习, 我们总结出了以下联系点: 通过文章的doi, 我们获取了文章的被引信息(Cited-by), 版本跟踪信息(CrossMark), 社交分享统计信息(Article Altmetric), Web of Science被引信息、原文链接和相关文章链接；通过前述参考文献的拆分和标引, 我们获取了每篇文献的CrossRef链接, Pubmed数据库链接, ADS数据库链接和GoogleScholar链接.

示例：http://engine.scichina.com/doi/10.1007/s11433-017-9113-4

为了便于外部网络能够快速获取到网站的信息, 我们按照Google搜索引擎的标签标准, 将每篇文章的元数据信息按照给定的标签名称写在网页的头文件中, 以方便搜索引擎能够快速和准确获取基本信息, 并且我们还和百度网站和中国知网达成协议, 每篇文章上线时会自动推送文章到百度和中国知网的FTP站点, 以实现文章在百度搜索引擎和知网的及时显示.