Воскресенье, 22 декабря, 2024

Машинный перевод позволит каждому почитать заметки давностью в 5000 лет

В музеях хранятся тысячи глиняных табличек, рассказывающих нам о жизни древнейших цивилизаций тысячи лет назад. Сегодня прочитать их могут только избранные ученые, но специалисты решили привлечь машинный перевод, чтобы, подобно «гугл транслейту», дать доступ для этих заметок всем желающим. Ученые обещают доступность древних материалов уже в следующем году.

Клинопись возникла более 5 тысяч лет назад в Междуречье – землях между Тигром и Евфратом, на которых сейчас находится Ирак. Цивилизация этого региона заложила почву для человечества в его сегодняшнем виде, подарив много интересных изобретений и научных достижений.

Это – летописи подъема и падения первых империй мира: Аккадской, Ассирийской и Вавилонской. «Большинство людей не осознают, как Месопотамия повлияла на нашу собственную культуру», – отмечает ассириолог из Университета Торонто Эмили Паже-Перрон. Цивилизация Междуречья дала нам колесо, астрономию, 60-минутное время, карты, историю о потопе и ковчеге, а также первую литературную достопримечательность – «Эпос о Гильгамеше».

Археологи уже раскопали около полумиллиона клинописных табличек, и еще больше все еще похоронены в земле. Глиняные клинописные таблички позволяют заглянуть в истории кровавых междоусобных войн между царским династиями, а также содержат советы, как успокоить капризного ребенка.

Хотя клинопись расшифровали примерно 150 лет назад, узнать тайны, скрытые в этих древних текстах, может лишь небольшая группа ученых. Саму клинопись позволила расшифровать случайная удача – надпись на колонне царского дворца в Персеполе была сделана на трех языках. Таким же образом Розетский камень помог исследователям разобраться в египетских иероглифах.

Около 90% клинописных текстов остаются непереводимыми. Ситуацию может изменить машинный перевод, который позволит автоматизировать процесс. Проект координирует Паже-Перрон, которая занимается машинной обработкой 69 тысяч административных записей Месопотамии, датированных XXI веком до нашей эры.

На примере 4 тысяч административных текстов из оцифрованной базы данных Паже-Перрон и ее команда учат машинного переводчика распознавать клинопись. Тексты на этих табличках – это преимущественно торговые соглашения о поставках овец, камыша или пива в храм или отдельному заказчику.

Административные записи выбрали из-за того, что они имеют простые формулировки, к примеру, «11 коз для кухни 15 дня». Для автоматического перевода это большое преимущество. Тексты на глиняных табличках уже транслитерированы латиницей учеными. Только алгоритм научится переводить эти образцы на английский язык, он автоматически переведет остальные транслитерированные таблички.

«Тексты, над которыми мы работаем, не очень интересны отдельно, но представляют значительный научный интерес вместе», – говорит Паже-Перрон. Исследовательница надеется, что уже в следующем году их английския версия станет доступной в интернете.

Доступные в интернете переводы позволят исследователям из других отраслей изучать разнообразные аспекты жизни в античном мире. «Эти люди так отличаются от нас и жили так давно, но вместе с тем они имеют такие же проблемы, – объясняет Паже-Перрон. – Понимание Месопотамии – это способ понять, что значит быть человеком»

Шумерский язык также был очень особым по сравнению с существующими сегодня, и многие его аспекты не раскрыты. «Шумерский может быть последним в большой группе языков, которые существовали тысячи и тысячи лет назад, – говорит Ирвинг Финкел, куратор экспозиции Британского музея, которая содержит 130 тысяч клинописных табличек. – Письменность возникла очень вовремя, чтобы сохранить для нас шумерский. Нам повезло, что появился своеобразный «микрофон», который записал этот язык, ведь он мог кануть в небытие, как и многие другие».

По материалам: BBC

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися