人工智能破解古老卷轴

在意大利坎帕尼亚大区那不勒斯湾,有一座名为“赫库兰尼姆”的古罗马城市,被史学家称为“时光冻结之城”。公元79年,维苏威火山爆发,距离庞贝古城最近的赫库兰尼姆城被高达20米的火山灰掩埋了,至今还保持着公元1 世纪的风貌。

1752年, 考古学家在对赫库兰尼姆的挖掘中发现了大量文物,其中包括已被烧焦的1800 个纸莎草卷轴(也被称为“赫库兰尼姆卷轴”)。这些卷轴埋藏在火山灰层下近2000 年,虽然重见天日,但已严重碳化,让科学家束手无策。

设大赛破解难题

几个世纪以来,一直有历史学家尝试对赫库兰尼姆卷轴进行破译,但一些卷轴直接在展开的过程中被损毁,变成碎片。

2016年, 美国肯塔基大学“数字恢复计划”负责人布伦特·西尔斯利用X 射线计算机断层扫描技术(CT)成功解读了来自以色列恩戈地的一部烧焦的卷轴。这是因为书写恩戈地的卷轴用的墨水含有金属,因此在CT 扫描中会发出耀眼的光芒。但赫库兰尼姆卷轴上的墨水是碳基的,密度与纸莎草纸的密度相近,因而在扫描中根本不会显现出来。

2019年,西尔斯利用高亮度的光束照射卷轴,能够识别出墨水和空白区域之间的细微纤维结构差别。西尔斯的学生斯蒂芬·帕森斯则成功地利用机器学习模型侦测到碎片中的墨水,结合一个“虚拟成像”软件重建出文字在纸莎草纸上的位置。这一过程实际上是“虚拟揭开”薄如蝉翼的纸莎草纸层,以一种非破坏性的方式虚拟读取卷轴上的内容。

西尔斯的研究团队得到了企业家纳特·弗莱德曼等人的资助。资助者们提出了一种创新性的方案:通过“维苏威挑战赛”的形式,以破解赫库兰尼姆卷轴为目标,推动人工智能技术的广泛应用。

2023年3月,“维苏威挑战赛”正式启动,赛事奖金高达100 万美元。大赛分为三个阶段:第一阶段的任务包括组建破译团队、搭建人工智能模型和策划制订项目报告;第二阶段是人工智能程序的运行和初步成果展示;第三阶段展示卷轴破解结果和相关论文。比赛章程规定,参赛者必须在2023年年底前在赫库兰尼姆卷轴的4平方厘米区域内至少找到10 个字符、在每段140 个字符总共4段文字中破译85% 以上的字符。

年轻人拔得头筹

“维苏威挑战赛”的消息发布后,吸引了来自全球各地三千多名参赛者的积极参与,参赛者自发组成了几百个研究团队。2024年2月5日,获奖成果公布,最终获胜者竟然是一个名不见经传的大学生团队。这个团队由来自不同国家的3名大学生组成,他们之间从未面对面工作过,成员分别擅长罗马历史、计算机编程、文字及图像处理、三维建模等技能。他们协同合作,利用人工智能技术破译了卷轴上的2000多个希腊字母,相当于一份卷轴5% 的内容。

2023年8月,美国物理学家凯西·汉默撰写了一篇博客,讲述了他通过长时间观察,注意到CT三维扫描卷轴中有着模糊的墨水纹理,类似于破裂的泥土(他称之为“裂纹”),似乎形成了希腊字母的形状。这项发现极大地激发了其他选手的灵感。

冠军团队中,21岁的卢克·法里托受到汉默发现的启发,他通过表面纹理的细微差别,训练了一个关于“裂纹”模式的人工智能学习模型,在卷起的纸莎草纸上成功地检测到几行希腊字母,其中一串字符翻译成英文意思是“紫色布料”。他是一名美国内布拉斯加大学的本科生,却成了世界上第一个读出赫库兰尼姆卷轴完整单词的人,赢得首字母一等奖。

该团队中来自德国柏林自由大学生物机器人工程系的成员、博士生优素福·纳德也鉴别出与法里托相同的几行希腊字母,赢得首字母二等奖。只不过,他是利用图片中的字母形状来训练人工智能学习模型的。

瑞士苏黎世联邦理工学院机器人系的学生朱利安·席利格是该团队的负责人。他勇于啃硬骨头,研究挑战赛最耗时的问题——分割,创建出能用数字方式展开卷轴CT 扫描的代码,并在卷轴发黑的表面上寻找微弱的墨水图案,他因此赢得三项分割工具奖。

随后,这个大学生团队和西尔斯的研究团队一起工作了数月,并于2024 年2 月6 日在《自然》期刊上公布了这份卷轴上已被读取的部分内容。这部分内容与音乐、感官及快乐有关,其中一行写道:“就食物而言,我们不会立即相信稀缺的东西绝对比丰富的东西更令人愉快。”

另一行写道:“……因为我们不会质疑某些事情,而是理解或记住其他事情。愿我们的诚实是显而易见的,因为它们可能经常看起来很明显!”根据学者们的说法,“文本的主题是快乐,如果理解得当,这是伊壁鸠鲁哲学中最高的善。在卷轴这两个连续的片段中,作者关心的是食物等商品的供应是否充足及如何影响它们所提供的快乐”。

这项成就一时轰动了全球学术界,网上的总浏览量已经超过了1500万次。

对此,西尔斯总结道:“人工智能破译赫库兰尼姆卷轴的过程,分三个步骤进行:第一步,扫描。利用X 射线断层扫描技术对卷轴或碎片进行CT三维扫描。第二步,分割。在三维扫描图像中追踪纸莎草纸的褶皱层,随后将其展开或铺平。第三步,墨迹检测。借助机器学习模型,识别铺平段落中的墨迹区域。

“维苏威挑战赛”还未结束,2024年,挑战赛的新目标是从识别一个已扫描卷轴的5% 增加到所有的4个卷轴的至少90%,为日后阅读800个卷轴奠定基础。

(摘自《科学24小时》2024年第7-8期,宫可可图)