博文

测评结果：比ChatGPT4表现更好的论文润色AI工具

已有 6020 次阅读 2024-5-23 11:24 |个人分类:AJE 学术博文|系统分类:博客资讯

近年来生成式AI工具迅速发展，尤其是ChatGPT的发布，其在学术界也获得了广泛地应用。ChatGPT通过其强大的学习和生成能力，可以帮助修改文章中的语法以及句式错误，甚至已经被用于撰写论文了。当然后者行为是违背出版诚信的，一经被发现将面临被撤稿的风险，甚至会影响今后的学术生涯。

那么从写作质量提升的角度，ChatGPT的建议真的值得信赖吗？近期，由施普林格·自然资深编辑联合AJE做了一个内部测评。

测评方法

通过四篇论文——2篇临床医学（3,206字及2,438字）、1篇生命科学（5,179字）、1篇工程及材料科学（6,043字）对ChatGPT（4.0非商业版，以下简称GPT4）及AJE自主研发的AI学术写作助手——Curie。编辑呈现、编辑总数、编辑正确率、改变原意和高价值编辑五个维度对GPT4和Curie进行评估。

概念定义：

改变原意：直接导致意义改变的编辑以及增加或删除内容的编辑都被视为改变原意。
高价值编辑：根据AJE的质量评估系统，包含高优先级编辑（即修改文本存在的核心问题、语法）和服务包含的其他项目。

主要结果

编辑呈现：GPT4和Curie都呈现了良好的可追踪的修改痕迹，修改之后文章整体学术可读性增强。
编辑总数：GPT4编辑总数最多，四篇文章总计修改1,043 处；Curie总计修改425处。
编辑正确率：GPT4平均正确率为87%；Curie平均正确率为96%。
改变原意：GPT4改变原意的比例为1.73%；而Curie仅为0.72%。
高价值编辑：在四篇论文中，GPT4的高价值编辑占比36%；Curie 的高价值编辑占比68%。

测评结论

通过对比我们能够发现，GPT4虽然修改的总数占一定的优势，但修改的正确率远低于Curie，甚至改变了文章的原意，如：添加了全新的章节（尽管很短），删除了 "结论 "标题，将"contrast group" 修改为 "comparison group"，同时删除了“比较”部分的内容。而Curie不仅对措辞进行了一些很好的改进，还纠正了一些不易察觉的拼写错误，如，"swallow"（吞）与 "shallow"（浅）。

其次，从高价值编辑的结果来看，GPT4的某些修改是“可有可无”的。比如moreover/furthermore,consequently/therefore,shows/illustrates从前者替换成后者，对文章而言并无实际意义。而遵循AJE的质量评估系统的Curie不仅修正了数字一致性错误，还插入了许多必要的标点符号、冠词和介词，还对大小写、单位间距做了一些很好的修改，大大提高了文章的清晰度。

因此我们可以得出结论：评估润色质量不能单看数量。数量只是一方面，更重要的是要看润色的质量、准确性，同时确保文稿原意不被改变。

为了解决准确性的问题，科研人员急需一款适合的学术产品。而Curie正是解决这样问题的一款人工智能写作助手。

Curie基于学术文献进行了专门的训练，涵盖超过447个研究领域、2,000 多个特定领域的课题。该工具基于AJE编辑过的100 多万篇已发表的学术文献训练而成，其中包括领先的《自然》期刊上的论文，这也是它的学术准确率远远高于同类产品的原因。

它是一款专业AI编辑工具，结合了大型语言模型（LLM）的强大功能和针对学术写作的内部研发。与通用的AI写作应用程序不同，Curie专注于研究人员在专业写作中的独有痛点，如学术论文翻译和英语语言润色，以应对语法错误并改善措辞和选词。

我们为在Scientific Reports《科学报告》和Discover《发现》系列期刊上发表文章的中国研究人员开放了试用。在67%使用了该工具的作者中，有90%的作者的文稿随后进入了同行评审，试用结束时获得发表的文章增加了14%。

Curie 的设计用途广泛，可为自然科学、社会科学、人文科学等多个学科提供帮助。对于专业的研究人员来说，Curie 是他们准备基金申请计划书、起草会议论文、案例报告和完善学术论文的重要工具。

Screenshot 2024-05-23 102013.png