Четверг, 2 мая, 2024

Три студента получили $700 000 за прочтение 140 букв. 2000 лет назад вулкан сохранил огромную библиотеку

Почти каждый слышал о трагедии города Помпеи, уничтожившего извержение вулкана. Но 2000-летняя трагедия стала бесценным подарком современной науке. В толще пепла навсегда заморозились во времени древние артефакты. среди них, возможно, самая большая коллекция древних текстов, когда-либо обнаруженных. Произведения Эсхила, Сапфо и Софокла, свежие откровения о первых годах христианства – ученые лишь мечтают о том, что они могут прочесть. Прочесть написанное поможет искусственный интеллект.

Геркуланумские папирусы – это коллекция свитков, статус которых приближается к мифическому. Свитки были погребены внутри итальянской сельской виллы из-за того же извержения вулкана в 79 году нашей эры, которое заморозило Помпеи во времени. На сегодняшний день лишь около 800 свитков было найдено из небольшой части раскопаемой виллы. Но считается, что вилла, которая, по мнению историков, принадлежала тестю Юлия Цезаря, имела огромную библиотеку, которая могла содержать тысячи или даже десятки тысяч других свитков.

Геркуланом выныривает из ловушки времени

Перед извержением вулкана Везувий город Геркуланум находился на краю Неаполитанского залива, именно то место для богатых римлян, чтобы отдохнуть и подумать. В отличие от Помпеи, подвергшихся прямому удару от потока везувойской лавы, Геркуланум был постепенно погребен волнами пепла, пемзы и газов. Несмотря на то, что процесс был совсем не мягким, большинство жителей успели скрыться, и большая часть города осталась нетронутым под твердой изверженной породой.

Фермеры впервые открыли город в XVIII веке, когда некоторые копатели колодцев обнаружили в земле мраморные статуи. В 1750 году один из них столкнулся с мраморным полом виллы, которая, как полагают, принадлежала тестю Цезаря, сенатору Луцию Кальпурнию Пизону Цезонину, известному сегодня историкам как Пизон.

В это время первые копатели прорыли туннели в вилле, чтобы нанести ее на карту, и в основном искали более очевидно ценные артефакты, такие как статуи, картины и узнаваемые бытовые предметы. Сначала набегавшие на свитки люди, некоторые из которых были разбросаны по разноцветной мозаике на полу, подумали, что это просто бревна, и бросили их в огонь. Однако впоследствии кто-то заметил, что бревна часто находят в местах, похожих на библиотеки или читальни, и понял, что это сожженный папирус. Однако каждый, кто пытался открыть его, обнаруживал, что он рассыпается в их руках.

В течение многих последующих десятилетий с свитками происходили ужасные вещи. Научные попытки ослабить страницы включали наливание на них ртути и обдувание смесью газов. Некоторые из свитков были разрезаны пополам, исчерпаны и вообще злоупотреблены такими способами, что до сих пор заставляют историков плакать.

Человеком, подошедшим ближе всего в этот период, был священник Антонио Пьяджо. В конце 1700-х годов он построил деревянный стеллаж, который тянул шелковые нити, прикрепленные к краю свитка, который можно было регулировать с помощью простого механизма, чтобы разворачивать документ очень мягко, со скоростью 1 дюйм в день.

Наверное, это как-то сработало; устройство открывало некоторые свитки, хотя имело тенденцию повреждать их или прямо разрывало на части. В последующие столетия команды, организованные другими европейскими государствами, включая сложившуюся Наполеоном, здесь и там собирали отрывки по большей части неразборчивого текста.

«Некоторые из этих текстов могут полностью переписать историю ключевых периодов древнего мира, — говорит Роберт Фаулер, классик и глава Общества Геркуланума, благотворительной организации, пытающейся привлечь внимание к свиткам и месту виллы. — Это общество, из которого происходит современный западный мир».

Причина, почему мы не знаем точно, что содержится в папирусах Геркуланума, – это вулкан. Свитки сохранились благодаря обилию сверхгорячей грязи и мусора, которые их окружали, но дополнительное влияние Везувия обуглило их до неузнаваемости.

Те, что были раскопаны, выглядят как остатки полена в потухшем костре. Люди потратили сотни лет, пытаясь их развернуть, иногда осторожно, иногда нет. И свитки ломкие. Даже самые тщательные попытки развертывания, как правило, заканчивались плохо, когда они рассыпались на пепельные куски.

В последние годы были сделаны попытки создать 3D-сканирование внутренней части свитков с высоким разрешением. Идея заключалась в том, чтобы раскрутить их виртуально. Однако эта работа зачастую не давала результатов. Ученые смогли заметить лишь фрагменты внутренностей свитков и намеки на чернила на папирусе. Некоторые эксперты клялись, что они могли увидеть буквы во время сканирования, но другие с ними не соглашались. Все, что касается порядка слов или абзацев, долго оставалось тайной.

Эти тексты в последний раз читали 1900 лет назад

Но любящий Древний Рим энтузиаст Нат Фридман был также главным исполнительным директором GitHub, большой платформы разработки программного обеспечения, которую Microsoft приобрела в 2018 году. В GitHub Фридман разрабатывал один из первых помощников кодирования на основе искусственного интеллекта (ИИ), и он видел рост мощности ИИ. У него было предчувствие, что алгоритмы искусственного интеллекта могли бы найти шаблоны в изображениях свитков, которые люди пропустили.

Изучив проблему некоторое время и заинтересовавшись сообществом классиков, Фридман, покинувший GitHub, чтобы стать, ориентированным на ИИ инвестором, решил начать конкурс.

В прошлом году он запустил Vesuvius Challenge, предлагая 1 миллион долларов в виде призов людям, которые смогут разработать программное обеспечение с искусственным интеллектом, способное читать четыре отрывка из одного свитка.

Шли месяцы, и стало ясно, что предчувствие Фридмана было верным. Конкурсанты со всего мира, многим из которых двадцать с чем-то со знанием информатики, разработали новые методы создания 3D-сканирований и сведения их в более читабельные листы.

Фридман и его академический партнер Брент Силз, профессор информатики и эксперт по свиткам, говорят, что группа участников предоставила транскрипции более четырех отрывков из одного из свитков. Хотя еще рано делать какие-то основательные выводы из этой части работы, Фридман говорит, что он уверен, что те же методы позволят получить гораздо больше содержимого свитков.

Сегодня вилла остается в основном зарытой, нераскопанной и недоступной даже для экспертов. Большинство того, что было найдено там, приписывают Филодему, эпикурейскому философу и поэту, побуждающему историков надеяться, что в другом месте похоронена гораздо большая основная библиотека. Считается, что такой богатый, образованный человек, как Пизон, имел классику того времени вместе с более современными произведениями истории, права и философии.

«Я действительно верю, что там есть гораздо большая библиотека, — говорит Ричард Янко, профессор классических студий Мичиганского университета, который провел кропотливые часы, собирая фрагменты свитка вручную, как пазл. – Я не вижу причин считать, что он не должен быть там и храниться таким же образом».

Даже рядовой гражданин того времени мог иметь коллекции в десятки тысяч свитков, говорит Янко. Известно, что Пизон часто переписывался с римским государственным деятелем Цицероном, а апостол Павел проходил через этот регион за несколько десятилетий до извержения Везувия. Возможно, с его визитом связаны статьи, комментирующие Иисуса и христианство. «Сегодня у нас около 800 свитков из виллы, — говорит Янко. – Могут быть тысячи или десятки тысяч».

В современную эпоху великим пионером свитков является Брент Силес, профессор информатики в Университете Кентукки. В последние 20 лет он использовал передовую технологию медицинской визуализации, разработанную для компьютерной томографии и ультразвука, чтобы анализировать нечитаемые старые тексты.

Прогресс был медленным. Силз разработал программное обеспечение, которое теоретически могло сканировать свернутый свиток и разворачивать его виртуально, но оно не было подготовлено для обработки настоящего свитка из Геркуланума, когда он тестировал его в 2009 году.

«Сложность того, что мы увидели, сломала все. мое программное обеспечение, – говорит он. — Слои внутри свитка не были однородными. Все они были спутаны и смешаны вместе, и мое программное обеспечение не могло надежно следить за ними».

К 2016 году ему и его студентам удалось прочитать свиток Эйн-Геди, обгоревший древнееврейский текст, запрограммировав свое специализированное программное обеспечение для выявления изменений в плотности между сожженной рукописью и сожженными чернилами, нанесенными на нее. Программное обеспечение заставило буквы загореться на более темном фоне. Команда Силза возлагала большие надежды применить эту технику к папирусам из Геркуланума, но они были написаны другими чернилами на основе углерода, которые их оборудование для обработки изображений не могло осветить таким же образом.

В последние несколько лет Силз начал экспериментировать с ИИ. Он и его команда отсканировали свитки с помощью более мощных машин для обработки изображений, исследовали части папируса, где были видны чернила, и научили алгоритмы, как выглядят эти узоры. Надеялись, что ИИ начнет улавливать пропускаемые человеческий глаз детали и сможет применить полученные знания к более запутанным фрагментам прокрутки. Такой подход оказался плодотворным, хотя он оставался битвой дюймов. Технология Seales обнаружила части свитков, но они были в основном нечитаемыми. Ему нужен был еще один прорыв.

Фридман настроил уведомление Google для Силеса и папирусов в 2020 году, еще в начале своей одержимости Римом. После того, как год прошел без всяких новостей, он начал смотреть на YouTube видео, на котором Силз обсуждал основные проблемы. Кроме всего прочего, ему нужны были деньги. До 2022 года Фридман был уверен, что может помочь. Он пригласил Силза в Калифорнию на событие, где представители Кремниевой равнины собираются вместе и делятся большими идеями. Силз сделал краткую презентацию о свитках перед группой, но безрезультатно.

По прихоти Фридман предложил Силзу идею конкурса. Он сказал, что вложит часть своих денег, чтобы профинансировать это, и его инвестиционный партнер Даниэль Гросс предложил доплату.

Силз говорит, что помнил компромиссы. Геркуланумские папирусы стали делом его жизни, и он хотел быть тем, кто их расшифрует. Многие его студенты также вложили время и энергию в проект и планировали опубликовать статьи о своих усилиях. Вдруг пара богачей из Кремниевой долины ворвались на их территорию и предположили, что случайные люди в интернете могут обеспечить ускользающие от экспертов прорывы.

Однако Силз просто надеялся, что свитки прочтут, и он согласился выслушать Фридмана и помочь разработать конкурс ИИ. Они начали Vesuvius Challenge в прошлом году. Через несколько дней Фридман накопил достаточно денег, чтобы предложить 1 миллион долларов в виде призов, а также немного дополнительных денег, чтобы потратить некоторые из более трудоемких основ.

Найдя несколько человек, которые были особенно искусны в работе с свитками, Фридман сделал их полноправными членами своей команды конкурса свитков, с зарплатой 40 долларов в час. Его хобби превращалось в образ жизни.

Первый всплеск внимания помог открыть новую дверь. Силз годами поощрял итальянских и британских коллекционеров сканировать его первые свитки. Неожиданно итальянцы предложили два новых свитка для сканирования, чтобы получить больше данных для обучения ИИ. При поддержке Фридмана команда приступила к созданию точно подогнанных футляров, напечатанных на 3D-принтере, чтобы защитить новые свитки во время полета частного самолета из Италии на ускоритель элементарных частиц в Англии. Там их сканировали три дня подряд, что стоило около 70 000 долларов.

При виде процесса создания изображений в действии можно понять магию и сложность этого квеста. Например, один из остатков свитка, помещенный в сканер, был не намного больше жирного пальца. Его просветили рентгеновскими лучами высокой энергии, чтобы получить изображение в чрезвычайно высоком разрешении примерно 8 микрометров. Затем было использовано программное обеспечение, чтобы развернуть и выровнять кусочки, и полученные изображения выглядели узнаваемыми как листы папируса, надписи на которых были скрыты.

Файлы, созданные в результате этого процесса, так велики, что с ними трудно работать на обычном компьютере. Фридман не мог бросить целый свиток большинства потенциальных победителей конкурса. Чтобы получить право на главный приз в размере 700 000 долларов, участники должны были до конца 2023 прочитать только четыре отрывка — по меньшей мере 140 символов непрерывного текста.

Попутно меньшие призы в диапазоне от 1000 до 100 000 долларов были присуждены за разные вехи, например, за то, кто первым прочтет буквы в свитке или создаст программные средства, способные сгладить обработку изображений.

Люк Фарритор увлекся с самого начала. Фарритор – бодрый 22-летний студент из штата Небраска, услышал, как Фридман описал конкурс в подкасте в марте. Фарритор подумал: «Это мог быть я».

Затем Кейси Хендмер, австралийский математик, физик и эрудит, несколько раз пробовал писать код для чтения свитков, но вскоре пришел к выводу, что ему может повезти больше, если он просто долго смотрит на изображение. Впоследствии он начал замечать то, что он и другие участники привыкли называть «кракелем», слабым рисунком трещин и линий на странице, напоминающим то, что можно увидеть в иле высохшего дна озера. Хендмеру казалось, что этот рисунок имел форму греческих букв и пятен и штрихов, сопровождающих рукописные чернила.

Открытие побудило Хандмера попытаться идентифицировать фрагменты букв на одном изображении свитка. Он опубликовал свои выводы, и их увидел Фарритор, который на следующий месяц начал искать кракле в других файлах изображений: одна буква здесь, другая пара там.

Большинство букв было невидимо для человеческого глаза, но 1% или 2% имели характерные следы. Вооружившись этими несколькими буквами, Фарритор научил модель искусственного интеллекта распознавать скрытые чернила, открыв еще несколько букв. Затем Фарритор добавил эти буквы к тренировочным данным модели и запустил их снова и снова и снова. Модель начинается с того, что может видеть только человек, узор кракеля, потом начинает видеть чернила, которых мы не видим.

В отличие от современных широковещательных моделей ИИ, поглощающих данные терабайтами, модель Farritor смогла обойтись крошками. Для каждого квадрата изображения размером 64 на 64 пикселя он просто спрашивал, есть здесь чернила или нет? И помогло, что результат был известен: греческие буквы, расположенные в квадрате вдоль прямых углов заштрихованных волокон папируса.

В начале августа прошлого года компания Farritor получила возможность протестировать свое программное обеспечение. «Я отвожу всех своих пьяных друзей домой, а потом выхожу из гаража и достаю телефон, не ожидая ничего увидеть, – говорит он. – Но когда я его открываю, на экране три греческих буквы. Это был момент, когда я подумал: «Боже мой, это действительно сработает». Мы будем читать свитки».

Вскоре Farritor нашел 10 писем и выиграл 40 000 долларов США на один из призов за прогресс в конкурсе. Классицисты просмотрели его работы и сказали, что он нашел греческое слово «пурпур».

Фарритор продолжал тренировать свою модель машинного обучения на данных кракеля и публиковать свой прогресс. Открытия, сделанные им и Хандмером, также вызвали новую волну энтузиазма среди участников конкурса, и некоторые начали использовать подобные методы. Во второй половине 2023 года Farritor заключил альянс с двумя другими участниками, Юссефом Надером и Джулианом Шиллигером, в котором они согласились объединить свои технологии и разделить любые призовые.

В конце концов, Vesuvius Challenge получил 18 заявок на главный приз. Изображения свитков, которые когда-то были неоднозначными каплями, теперь имели целые светящиеся на них абзацы букв. Системы ИИ оживили прошлое. Мнение о том, что вы читаете текст, который раз разворачивали на чьем-то столе 1900 лет назад, невероятна.

По материалам: Bloomberg

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися