科学人生◆品味科学分享 http://blog.sciencenet.cn/u/hxiuzhou 中国科学,从此他将伴我一起生活!

博文

最新文章|自动校对来了

已有 3865 次阅读 2018-9-25 08:26 |系统分类:论文交流| 自动校对, XML, VBA, XML, XML, XML

PDF文见:基于逻辑原则的科技论文自动校对方法

侯修洲, 黄延红. 基于逻辑原则的科技论文自动校对方法. 中国科技期刊研究, 2018, 29(9): 920-924


科技论文在同行评议完成后, 一般还需要经过编辑加工、校对、质检、核对清样等步骤后, 才能正式发表, 这些作者看不见的工作往往比较繁琐, 还容易出现差错。2018110, 国家新闻出版广电总局报刊司发出《关于对<报刊质量管理规定>(征求意见稿)征求意见的通知》, 对期刊质量要求比之前更为严格, 其中最明显的调整是将期刊编校差错率从3/10000降低到2/10000, 差错率超过2/10000, 其编校质量为不合格。显而易见, 编辑在以后的工作中压力会越来越大, 并且编辑长期陷入事务性的编校工作中, 也难以发挥编辑的主动性和创造性。

薛子俭等人[1]提出了一个分步编校方法, 该方法从论文构架核查、分类加工、常规润色、整体核对四个方面分步进行, 条理很清楚, 避免了漏校, 缺点是全部需要人工参与, 并没有减少工作量, 也不能完全保证将每条错误检查出来。近年, 王红剑[2]和黄城烟[3]提出了利用VBA编程技术在Word文档环境中批量替换易错字词的功能, 可以一定程度上解放人工劳动。龚小谨[4], 朱磊[5], 张仰森[6]等人从自然语言理解和语法分析角度对文章进行了校对研究, 其优点是校对的颗粒度能达到词语级别, 但是其纠错建议的有效率或首选正确率还比较低, 与用户的要求还有较大差距, 故其技术还有待进一步研究。另外,市场流行的黑马校对软件也是主要集中在词语的错误用法和敏感词的识别方面,其查错率也有待提高。

近年来, 国际上大多数期刊均采用了XML排版, 其优点是论文结构清晰, 不仅可以提供丰富的阅读体验, 而且由于其结构化特点, 我们看到了从其结构化角度, 来寻找科技论文内在的逻辑规律的可能性, 找到这些规律, 我们就可以对论文进行计算机程序辅助校对。由于VBA技术和Word文档的良好结合性, 并且本文作者已经将VBA技术成功应用于Word文档的XML结构化标记和参考文献的自动加工中[7-9], 在这些工作的基础上, 本文尝试寻找科技论文内在的连续性、一致性和唯一性等逻辑原则, 基于此原则和VBA辅助编程来对科技论文进行自动校对。本文说的编校差错指的是排版前由计算机程序识别的错误, 并且尽量将大多数错误在排版前发现出来, 以提高编排效率, 避免多次编校返工。

关于VBA语言环境、部署及实例应用可以参考王玥等人[10]的文章, 限于篇幅, 本文不再做详细阐述。语法规则可以参考http://www.doc88.com/p-931469800915.html

 

1  科技论文的连续性、一致性和唯一性原则

在长期的编辑工作实践中, 我们知道, 科技论文写作是有一定写作要求的, 对于顺序文献编码制, 一般要求正文中的文献引用序号必须按照顺序出现, 也不能漏引, 同理, 图表序号、公式序号、章节序号也需要按照顺序出现, 不能中断, 这就是科技论文的连续性原则。

一致性原则主要用在著作年制文献的校对。对于著作年制, 一般要求正文中出现的著者年需要和文后的文献严格一致, 比如, 正文中著者姓的大小写和拉丁文书写格式经常和文后不一致;如果正文中著者后面出现“et al”的描述, 则要求文后文献的作者至少是3个;如果正文中著者后面出现“and”的描述, 则一般要求文后文献的作者是2个作者, 如果人工校对, 则是大量而又繁琐的工作, 并且很难避免出现疏漏或错误.

一致性原则对于中文科技论文, 还可以校对作者的中英文姓名和拼音是否一致, 以及中英文地址邮编是否一致。

另外, 无论是顺序编码制文献还是著者年制文献, 都要求文后的每一条参考文献只能出现一次, 不能重复出现, 这就是文献的唯一性原则。而作者在撰写和修改论文的时候, 由于反复增删内容或其他原因, 经常会发生重复文献出现的情况, 这个时候就需要对文献的唯一性进行检查和校对。

需要说明的是依照上述原则进行校对的结果, 只是在原文中相应地方进行高亮标识, 以提醒加工者注意, 是建议性质的辅助校对, 并不是强制要求用户修改, 相关编辑部可以按照具体体例进行针对性修改, 如有特殊情况也可以具体问题具体分析。

 

2  基于连续性原则的自动校对方法

       以顺序文献编码制为例, 在正文中引用文献的格式一般为“[1]”, “[1, 2]”, “[1-3]”, “[1-3, 5]”, “[1-3, 5, 7, 9-11]”等形式, 其中的对开线有时也可能为全身线或“~”符号, 首先我们需要识别这些描写文献序号的文字, VBA语言环境中, 上述文献格式可以用正则表达式来表述:“\[([\d]{1,3})((, |.)[\d]{1,3})?\], 其中“\[”表示开始的方括号, \]”表示结束的方括号, ([\d]{1,3})”表示文献序号, ((, |.)[\d]{1,3})?”表示结束的文献序号, 其中有“?”表示结束的文献序号也可以没有, 如果是像“[1-3, 5, 7, 9-11]”这样复杂的文献表述, 则只需将“((, |.)[\d]{1,3})?”在正则表达式中重复几次出现即可。

       当我们识别了正文中所有的文献序号后, 接下来就是判断序号的连续性问题了, 在本文中是这样判断的, 我们将某一处的文献序号表述内容记为I, I处之前的文献序号表述内容记为I-1, 设定I-1处的最大文献序号为Max, 显然, 正文中第1处文献序号的最大值应为1。当程序执行到第I处时, 求取该处文献序号的最大值和最小值, 分别记为Imax, Imin, 此时判断第I处文献序号是否和第I-1处文献连续, 可以分为三种情况, 如图1所示:

Imax≤Max, I处文献和I-1处文献连续;

Imin>Max, I处文献和I-1处文献不连续, 此时将Max重新赋值为Imax;

Imax>Max并且Imin≤Max, 此时则判断Max~Imax之间的每一个数是否在第I处文献序号内容中包含, 如果包含, 则判断为连续, 否则, 则判断为不连续, 同时将将Max重新赋值为Imax


顺序文献编码制连续性校对流程图

 

在程序运行中我们将每一处连续的文献序号标为蓝色, 将不连续的文献序号标为红色字体并高亮, 如图2所示, 见方框标示。


顺序文献编码制文献序号连续性校对示意图

 

图表序号、公式序号判断规则和顺序编码制文献序号连续性判断规则一致, 此处不再赘述。

对于章节标题序号的连续性判断, 则需要事先定位章节标题的位置, 章节标题标记方法可以参考文献[7]

对于一级标题, 则只需提取标题前面的序号, 然后按照自然数来判断是否连续即可, 二级标题和三级标题的序号连续性判断则不能简单套用自然数来判断。一般二级标题序号为“1.1, 1.2, 1.3, 2.1, 2.2, 2.3”等形式, 三级标题序号为“1.1.1, 1.1.2, 1.1.3, 2.1.1, 2.1.2, 2.1.3”等形式。针对二级和三级标题, 当我们成功提取标题序号后, 首先将序号中的点忽略掉, 那么也是相当于比较自然数顺序序列。与判断一级标题序号连续性不同的是, 当考虑二级标题序号的连续性时, 既要满足自然数连续性规则, 同时该二级标题序号的第一位数需要和紧邻的一级标题序号一致;当考虑三级标题序号的连续性时, 同样还要考虑该三级标题序号的前两位数与紧邻的二级标题序号一致。对于不连续的章节标题, 我们用黄色高亮标明, 见图3所示, 见方框标示。


章节序号不连续示意图

 

 

3  基于一致性原则的自动校对方法

一致性校对主要涉及到著作年制文献的校对, 一般著作年制文献在正文中引用时, 其表述方式为“姓, 年”、“姓et al/, 年”、“姓1 and/ 2, 年”、“姓()”、“姓et al/()”和“姓1 and/ 2()”等等形式。基于以上格式, 我们编写了识别著者年的正则表达式:

((\b[a-zA-Z\u00C1-\u00FF\u2C60-\u2C74\u002D]+\b(( and |)\b[a-zA-Z\u00C1-\u00FF\u2C60-\u2C74\u002D]+\b)?)|([\u4e00-\u9fa5]{2, 3}(([\u4e00-\u9fa5]{2, 3}))?))(等人|| et al.| et al|)?(, )?( )?(\()?((20|19|18)([\d]{2}))([a-g])?(\))?

 

当完成正文的著者年信息识别后, 还需要将每一条的识别内容和文后参考文献进行比较, 其流程如图4所示。基于文献[8,9], 我们已经成功将参考文献进行了自动加工和XML标记拆分, 绝大多数参考文献都完成了姓名、文题、刊名、年、卷、页码等信息拆分(如图5), 我们只要将正文中识别的姓和年和文后已经拆分的文献信息中的姓和年进行匹配比较, 如果前后验证没问题则标上蓝色, 如果前后不对应则高亮并用红色字体标识, 与图5文献对应的校对示例如图6所示。


著者年制文献一致性校对流程图

 


参考文献XML标记加工示意图[6]


著者年制参考文献一致性校对示意图(1条文献作者Colwell多了s, 2条文献作者Ibrahim多了s)

 

       对于中文版论文, 因为我们已经利用VBA程序将文档的中英文作者和地址进行了标记[7], 所以我们很方便提取每一个中英文作者和地址, 先将中文作者的姓名转换英文姓名, 然后去和英文作者进行匹配比较, 如果不一致则标黄色高亮, 同理, 我们提取了中英文地址的邮编信息, 如果不一致, 同样黄色高亮提示, 见图7所示。同时, 如果中英文作者和地址的个数不一致, 将弹窗提醒加工人员注意。


中英文作者姓名和邮编校对示意图, 见方框标示

 

4  基于参考文献唯一性原则的校对方法

       基于文献[8,9], 我们已经将参考文献进行了XML拆分, 并且获取了文献的doi信息, 如图5所示, 那么提取每条参考文献的doi信息, 如果发现有相同doi信息的参考文献, 则判断这些文献是重复文献, 程序会将重复文献都标上红色字体, 具体示例如图8所示, 见方框标示。


参考文献唯一性校对示意图(文献13doi相同, 视为重复文献)

 

5  结论

本文在已有工作的基础上[7-9], 通过寻找全文逻辑的连续性、一致性和唯一性原则, 利用这些原则对科技论文进行了全文自动校对, 不仅减轻了加工人员的劳动量, 减少了审校的轮次, 也避免了低级编校错误的出现, 提高了出版效率和速度, 同时也为后期Word文档转换为XML文件提供了质量保证。

需要说明的是, 这些原则是作者在《中国科学》系列刊物编校实践中总结出来的, 依照上述原则进行校对的结果, 是建议性质的辅助校对, 相关编辑部可以按照具体体例进行针对性修改。

连续性原则适用于论文中不连续的文献序号、章节序号、图表序号、公式序号;

一致性原则适用于著作年制文献前后不一致的表述, 中英文作者姓名拼音, 中英文地址邮编;

唯一性原则适用于文后重复出现的参考文献。

关于论文自动校对,大致包含逻辑和语法校对两个方向,本文侧重于逻辑原则,将来是否有可能包含所有方面的且性能良好的校对方法,我们也很期待。

 


 

参考文献

1.          薛子俭, 付利. 科技论文分步编校法及注意事项[J]. 中国科技期刊研究, 2012, 23(2): 325-328.

2.          王红剑, 高爱英, 游苏宁. 利用WORD 进行自动编校[J]. 中国科技期刊研究, 2009, 20(3): 502-503.

3.          黄城烟. 基于WORD宏技术的易错词自动检索与校对[J]. 编辑学报, 2014, 26(4): 356-358.

4.          龚小谨, 罗振声, 骆卫华. 中文文本自动校对中的语法错误检查[J]. 计算机工程与应用, 2003, 8: 98-100, 127

5.          朱磊. 自然语言处理之汉语文本自动校对[硕士论文]. 成都: 电子科技大学, 2006

6.          张仰森, 俞士汶. 文本自动校对技术研究综述[J]. 计算机应用研究, 2006, (6): 8-12

7.          侯修洲, 黄延红. 基于VBAWord文档XML结构化标记方法 [J]. 编辑学报, 2017, 29(5): 471-474.

8.          侯修洲, 黄延红. 利用VBA程序和HTTPS协议获取参考文献的DOI信息[J]. 编辑学报, 2016, 28(5): 466-469.

9.          侯修洲, 黄延红. 基于CrossRef数据库的参考文献自动加工及XML标引方法[J]. 编辑学报, 2017, 29(1): 70-72.

10.       王玥, 毛善锋, 刘谦. Word文档中通过CrossRef自动查询与整合英文参考文献DOI的实践[J]. 中国科技期刊研究, 2013, 24(2): 333-337.




http://blog.sciencenet.cn/blog-306503-1136825.html

上一篇:SCPMA出版“悟空”首个观测结果英文专题
下一篇:光致相变与微尺度相的奇妙结合 | SCPMA论文

2 崔锦华 高友鹤

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-27 09:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部