博文

AI写作的文章为何会列出虚假文献？

已有 6190 次阅读 2024-3-1 12:14 |个人分类:科学问题|系统分类:科研笔记

有报道称，AI写作的文章为何会列出生造的文献。这是否是目前机器学习模式中的一个漏洞？以相关关系或对应关系来训练机器，在围棋对弈的情形下是没有问题的，因为最终是以输赢来决定AI的成绩的。然而，在一般的文章写作中，输赢的定义却变得很含混。如果把吸引读者的程度作为判据，那么AI将可能选择一些与真相很不相符的内容，而其格式是可以通过学习而得来的。例如，网上有一篇文献：杨文卿等, 2019. 南澳宋城:被海啸毁灭的古文明遗址. 科学通报, 64(1), 107-120，那么为何不能为了说明一个想要说明的观点而生造一篇文献，使得论证看起来更显得专业化一些？例如，为了说明浙江沿海也有不同时期的大海啸，上面那篇文献可以很方便地改造为：张武吾等, 2024. 浙南瑞安:被海啸毁灭的清代城市. 科学通报, 69(2), 209-223！

上述对文献的处理方式，似乎是AI形成文档时所允许的。事实上，这只是对现实中的材料加以改变的无数可能的方式中的一种而已。网上有太多的信息可供选择，AI可以没有约束地泡制新的信息，进而以新产生的信息衍生出更多的信息，至于是否真实，AI是无需负责任的。不信你看，网上查询“佘山植物园”，立即会出现若干条目，这些“佘山植物园”出现在不同的地点，如何前往则可以乘坐不同的地铁和公交线路，在不同的车站出站或下车，而所给出的地名、地铁线路和站名、具体的门牌号码等，都可能是生造的。不难想象，AI是根据现实世界中有城市、有地名、有地铁线等等的基本事实，来构建它的文档的。因此，除上海之外，“佘山植物园”当然也可以在南京，南京有钟楼、鼓楼，难道不能有月明楼、日照楼？南京有地铁2号线大行宫站，难道不能有13号线小行宫站？这样的说法在AI看来是非常正当的，并无失误。

如果要对AI的这些行为进行约束，则会产生许多复杂得多的问题。AI写作的诗和小说、AI的绘画、AI的围棋对局建议，都让我们感到惊讶不已，但是如果要按照真伪和逻辑来加以约束，那么AI的本领将大打折扣。

在学术领域，要让AI成为真正有效的科研工具，似乎问题的要点不在于它处理数据的速度和针对现实世界的学习能力，而在于它如何判断有哪些需要研究的问题，如何以符合逻辑、符合事实的方式获得答案，如何判断自己研究的局限性。这种水平的AI目前似乎尚未出现，因此AI现在就要在科研上取代人类，这是不可能的。不过，随着上述问题的解决，例如研制出分门别类的AI，未来AI在科研上确有可能将取代人类。高水平AI科学家的出现还需要多少年？如果从现在就开始研制，似乎时间尺度10¹年就够了？让我们拭目以待。