氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

叹为观止:AI破译出2000年前烧焦纸莎草纸文字

已有 2408 次阅读 2024-2-6 18:24 |个人分类:自然科学|系统分类:海外观察

AI破译出2000年前烧焦纸莎草纸文字

一组学生研究人员通过揭示 2,000 年前维苏威火山喷发掩埋的烧焦卷轴中的希腊文字内容,为解决考古学中最大的谜团之一做出了巨大贡献。维苏威火山挑战赛(Vesuvius Challenge)的获胜者在卷起的纸莎草纸上训练了他们的机器学习算法,揭开了一部以前不为人知的哲学著作,该作品讨论了感官和愉悦。这一壮举为人工智能(AI)技术全面破译其余卷轴铺平了道路,研究人员表示,这可能对我们对古代世界的理解产生革命性的影响

图片6.png 

这一成就点燃了通常进展缓慢的古代研究世界。这是“我一直认为的白日梦成真”,加利福尼亚州洛杉矶J.保罗·盖蒂博物馆的古物馆长肯尼斯·拉帕廷(Kenneth Lapatin)说,他没有参与比赛。揭示的文本讨论了快乐的来源,包括音乐、刺山柑的味道和紫色。“这是一个历史性的时刻,”英国布里斯托尔大学的古典学家鲍勃·福勒(Bob Fowler)说,他是该奖项的评委之一。这三名来自埃及、瑞士和美国的学生分享了70万美元的奖金。

该卷轴是 18 世纪从意大利赫库兰尼姆的一座豪华罗马别墅中出土的数百张完整的纸莎草纸之一。这些碳化灰烬块——被称为赫库兰尼姆卷轴——是古代世界唯一幸存下来的图书馆,但太脆弱而无法打开。

获奖作品于2月5日公布,在超过15列文本中显示数百个单词,相当于整个卷轴的5%左右。“这场比赛让所有人都在说这行得通,”肯塔基大学列克星敦分校的计算机科学家、该奖项的联合创始人布伦特·西尔斯(Brent Seales)说。“没有人再怀疑这一点了。”

二十年使命

在古卷被发现后的几个世纪里,许多人试图打开它们,摧毁了一些卷轴,而另一些卷轴则被打成碎片。纸草学家仍在努力破译和拼接由此产生的可怕的碎片文本。但状况最差的那块——最绝望的情况,加起来可能有 280 个完整的卷轴——完好无损。它们主要收藏在意大利那不勒斯国家图书馆,少数收藏在巴黎、伦敦和英国牛津。

近20年来,西尔斯一直试图阅读这些隐藏的文本。他的团队开发了软件,可以使用三维计算机断层扫描(CT)图像“虚拟展开”卷起的纸莎草纸的表面。2019 年,他将两幅卷轴从巴黎法兰西学院带到牛津附近的钻石光源粒子加速器进行高分辨率扫描。

图片5.png 

然而,绘制表面图谱非常耗时,而且用于书写卷轴的碳基墨水在CT扫描中具有与纸莎草纸相同的密度,因此在成像中无法区分。Seales和他的同事们想知道,机器学习模型是否可以被训练来“解开”卷轴并区分墨水。但对于他的小团队来说,理解所有数据是一项艰巨的任务。

硅谷企业家纳特·弗里德曼(Nat Friedman)找到了西尔斯,他在网上观看了西尔斯的演讲后,对赫库兰尼姆卷轴产生了兴趣。弗里德曼建议向参赛者开放挑战。他捐赠了 125,000 美元来启动这项工作,并在 Twitter 上筹集了数十万美元,Seales 发布了他的软件以及高分辨率扫描。该团队于 2023 年 3 月发起了维苏威火山挑战赛,为在年底前阅读 4 篇文章(每篇至少 140 个字符)设定了大奖。

弗里德曼说,比赛成功的关键是它“竞争与合作的融合”。在此过程中,我们颁发了较小的奖品以激励进步,每个阶段都会发布获胜的机器学习代码,以“升级”社区,以便参赛者可以在彼此的进步基础上再接再厉。

紫色

去年年中,美国企业家、前物理学家凯西·汉德默(Casey Handmer)注意到扫描中有一种微弱的纹理,类似于破裂的泥浆——他称之为“裂纹”——似乎形成了希腊字母的形状。内布拉斯加大学林肯分校(University of Nebraska-Lincoln)计算机科学专业本科生卢克·法里特(Luke Farritor)利用噼啪声训练了机器学习算法,揭示了“紫色”(porphyras)一词,这为他赢得了10月下旬公布第一个字母的奖项。柏林的埃及博士生优素福·纳德(Youssef Nader)紧随其后,获得了第二名。

他们的代码发布时,参赛者在不到三个月的时间里,在12月31日最终奖项的截止日期之前扩大了他们的阅读量。“我们咬指甲,”弗里德曼说。但在最后一周,比赛收到了 18 份参赛作品。一个技术评审团检查了参赛者的代码,然后将 12 份提交材料交给了纸草学家委员会,该委员会转录了文本并评估了每个条目的易读性。只有一个完全符合奖项标准:由Farritor和Nader以及瑞士苏黎世联邦理工学院的瑞士机器人专业学生Julian Schilliger组成的团队。

结果“令人难以置信”,那不勒斯费德里科二世大学的纸草学家费德里卡·尼古拉迪(Federica Nicolardi)法官说。“我们都对他们展示的图像感到非常惊讶。”她和她的同事们现在正在争分夺秒地分析已经披露的文本。

d41586-024-00346-8_26700952.gif

音乐、娱乐和刺山柑

之前打开的大多数赫库兰尼姆卷轴的内容都与伊壁鸠鲁哲学学派有关,并且似乎已经形成了雅典哲学家伊壁鸠鲁的追随者的工作图书馆,伊壁鸠鲁生活在公元前 341 年至公元前 270 年,名叫菲洛德穆斯。新文本没有说出作者的名字,但从粗略的第一次阅读来看,福勒和尼古拉迪说,它可能也是菲洛德穆斯的。除了令人愉悦的品味和景象外,它还包括一个名叫色诺芬图斯的人物,可能是古代作家塞涅卡和普鲁塔克提到的同名长笛演奏者,他令人回味的演奏显然使亚历山大大帝伸手去拿他的武器。

拉帕廷说,菲洛德穆斯和伊壁鸠鲁讨论的话题仍然具有现实意义。“伊壁鸠鲁提出的基本问题是我们作为人类所面临的问题。我们如何过上美好的生活?我们如何避免痛苦?但“真正的收益仍在我们面前”,他说。“令我兴奋的不是这个卷轴说了什么,而是这个卷轴的破译预示着我们之前放弃的数百个卷轴的破译。”

古卷中可能有更多的希腊哲学:“如果他有一些亚里士多德的作品,我会很喜欢,”密歇根大学安娜堡分校的纸草学家和奖项评委理查德·扬科说。同时,一些用拉丁文写成的打开的卷轴涵盖了更广泛的主题领域,增加了从荷马到萨福的作家丢失诗歌和文学的可能性。这些卷轴“谁知道会带来什么样的新秘密”,福勒说。“我们都非常兴奋。”

这一成就还可能引发关于是否应该对赫库兰尼姆别墅进行进一步调查的争论,该别墅的整个楼层从未被挖掘过。扬科和福勒确信,别墅的主图书馆从未被发现,还有数千个卷轴可能仍在地下。更广泛地说,西尔斯和维苏威火山挑战赛参赛者开创的机器学习技术现在可以用来研究其他类型的隐藏文本,例如纸箱,通常用于包裹埃及木乃伊的回收纸莎草纸。

下一步是破译整个作品。弗里德曼宣布了 2024 年维苏威火山挑战赛的新奖项,目标是在年底前阅读 85% 的卷轴。但与此同时,走到这一步“感觉就像一个奇迹”,他说。“我简直不敢相信它奏效了。”

 人工智能首次读出赫库兰尼姆古卷中的文字 (baidu.com)

       一名 21 岁的计算机科学专业学生在一次全球竞赛中获胜,读出了古罗马城市赫库兰尼姆碳化卷轴中的第一段文字,该卷轴自公元 79 年火山爆发以来一直无法被读取,而那次火山爆发也掩埋了附近的庞贝古城。这一突破可能会打开希腊罗马古代唯一保存完好的图书馆中的数百个文本。

内布拉斯加大学林肯分校的卢克-法里托尔(Luke Farritor)开发了一种机器学习算法,在卷起的纸莎草纸上检测到了几行希腊字母,其中包括πορjυρας(porphyras),意为"紫色"。Farritor 利用表面纹理的细微差别来训练神经网络,并突出墨迹。

意大利那不勒斯大学的纸莎草学家、审查 Farritor 研究成果的学术委员会成员 Federica Nicolardi 说:"当我看到第一张图片时,我震惊了。这简直是一场梦。现在,我真的可以从卷轴内部看到一些东西"。

公元 79 年 10 月,维苏威火山爆发,赫库兰尼姆被 20 米高的火山灰掩埋,数以百计的卷轴被掩埋。早期打开纸莎草纸的尝试失败,产生了一堆碎片,学者们担心其余的纸莎草纸永远无法展开或阅读。

维苏威火山挑战赛设立了一系列奖项,从卷轴中读出四个或更多段落将获得 70 万美元的主奖金。10 月 12 日,主办方宣布,法里托尔因在 4 平方厘米的纸莎草纸上读出 10 个以上的字符而赢得了 4 万美元的"第一封信"奖。柏林自由大学研究生优素福-纳德(Youssef Nader)获得第二名,奖金为 1 万美元。

意大利威尼斯卡福斯卡里大学(Ca' Foscari University of Venice)古希腊和古罗马历史学家西娅-萨默希尔德(Thea Sommerschield)说,最终看到卷轴中的字母和文字"非常令人激动"。这些卷轴是在十八世纪发现的,当时工人们发现了一座豪华别墅的遗迹,这座别墅可能属于凯撒大帝岳父的家族。萨默希尔德说,破译这些纸莎草纸可能"彻底改变我们对古代历史和文学的认识"。今天已知的大多数古典文本都是抄写员几个世纪以来反复抄写的结果。相比之下,赫库兰尼姆图书馆收藏的作品则没有任何其他来源,直接来自作者。

到目前为止,研究人员只能研究已打开的片段。已经发现了一些拉丁文作品,但其中大部分是与伊壁鸠鲁哲学流派有关的希腊文。其中有伊壁鸠鲁本人撰写的《论自然》的部分内容,还有一位鲜为人知的哲学家 Philodemus 关于恶习、音乐、修辞和死亡等主题的作品。有人认为,这个图书馆可能曾经是他的工作藏书。但是,600 多卷纸莎草纸--大部分保存在那不勒斯国家图书馆,少数保存在英国和法国--仍然完好无损,没有被打开过。而在别墅尚未发掘的底层,还可能发现更多的纸莎草纸。

布伦特-西尔斯(Brent Seales)是一名计算机科学家,曾帮助设立维苏威火山挑战赛,他和他的团队花了数年时间,开发出利用 X 射线计算机断层扫描(CT)"虚拟揭开"薄如蝉翼的纸莎草纸层的方法,并将其可视化为一系列平面图像。2016 年,莱克星顿肯塔基大学的 Seales 报告1 使用该技术读取了以色列 En-Gedi 的烧焦卷轴,揭示了《利未记》(犹太教《托拉》和基督教《旧约》的一部分)中写于公元三、四世纪的部分内容。但恩盖迪卷轴上的墨水含有金属,因此在 CT 扫描中会发出耀眼的光芒。赫库兰尼姆古卷上的墨水是碳基的,本质上是木炭和水,在扫描中的密度与纸莎草纸的密度相同,所以根本不会显示出来。

西尔斯意识到,即使亮度没有差异,CT 扫描也可能捕捉到纹理上的微小差异,从而区分出涂有墨水的纸莎草纸区域。为了证明这一点,他训练了一个人工神经网络来读取打开的赫库兰尼姆碎片的 X 射线图像中的字母。然后,在2019年,他从巴黎法兰西学院携带了两个完整的卷轴到英国牛津附近的同步辐射X射线设施钻石光源,以目前最高的分辨率(每个三维图像元素或体素4-8微米)对其进行扫描。

然而,阅读完整的卷轴仍然是一项艰巨的任务,因此该团队向公众公布了所有扫描结果和代码,并发起了维苏威火山挑战赛。西尔斯说:"我们一致认为,与其试图囤积所有东西,不如尽早读取里面的内容。"

大约 1500 个团队很快就通过玩家聊天平台 Discord 进行了讨论和合作。奖品是分阶段设计的,每达到一个里程碑,就会发布获奖代码,供大家在此基础上继续开发。Farritor 一直对历史感兴趣,他从小就自学拉丁语,因此很早就参与其中。

与此同时,Seales 的团队还致力于虚拟解包,发布扁平碎片的图像供参赛者分析。关键时刻出现在 6 月下旬,一位参赛者指出,在一些图像上,肉眼偶尔能看到墨水的细微纹理,这种纹理被称为"裂纹"。法里托立即将注意力集中在寻找更多字母的蛛丝马迹。

八月的一个晚上,他正在参加一个聚会,突然收到一条提示,说有一个新的片段发布了,其中的裂纹特别明显。通过手机连接,他在新图像上运行了算法。一小时后,他走在回家的路上,掏出手机,看到屏幕上出现了五个字母。"我当时上蹿下跳,天哪,这真的行得通。"从那以后,他只花了几天时间就完善了模型,并确定了获奖所需的十个字母。

扫描显示黑色的纸莎草纸碎片,白色的希腊字母清晰可见。维苏威挑战赛破译的第一个单词是希腊文πορφύρας,意为"紫色"。

古文字学家们也很兴奋。在打开的赫库兰尼姆卷轴中还没有读到过"紫色"一词。紫色染料在古罗马非常抢手,是用海螺的腺体制成的,因此这个词可以指紫色、长袍、买得起染料的人的等级,甚至是软体动物。尼古拉迪说,但比单个词更重要的是读出任何东西。这一进展"使我们有可能恢复整个卷轴的文字",包括标题和作者,这样就可以确定作品的身份和年代。

亚尼斯-阿萨埃尔(Yannis Assael)是伦敦GoogleDeepMind公司的一名研究科学家,他认为维苏威火山挑战赛是"独一无二和鼓舞人心的"。他指出,人工智能(AI)正越来越多地帮助古文献研究,但这只是更广泛转变的一部分。例如,去年阿萨埃尔和萨默希尔德发布了一款名为"伊萨卡"(Ithaca)的人工智能工具,旨在帮助学者收集不明古希腊碑文的日期和来源,并提出文本建议以填补空白2。现在,该工具每周都会收到数百条询问,类似的工作也正在应用于从韩语到古代美索不达米亚使用的阿卡德语等各种语言。

Seales 希望机器学习能打开他所谓的"隐形图书馆"。所谓"隐形图书馆",指的是实际存在但无人能见的文本,包括中世纪书籍装帧中使用的羊皮纸、后来的文字遮盖了下面一层的"重写本"(palimpsests),以及用来制作古埃及木乃伊盒和面具的纸莎草纸(cartonnage)。

不过,现在所有的目光都集中在维苏威火山挑战赛上。获得大奖的截止日期是 12 月 31 日,Seales 将人们的情绪描述为"无法抑制的乐观"。法里托已经在画卷的其他部分制作了自己的模型,并看到了更多的角色出现。



https://blog.sciencenet.cn/blog-41174-1420830.html

上一篇:内质网-线粒体接触位点研究取得进展
下一篇:小鼠72小时持续吸入氢气未见任何遗传毒性【法国】
收藏 IP: 117.135.12.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 06:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部