Неділя, 22 Грудня, 2024

Google будет переводить по-новому: статистика вместо словарей

Команда инженеров поискового гиганта придумала метод, который позволит поднять качество машинного перевода. Для этого они планируют использовать большие массивы текстов на разных языках. Такой подход позволит переводить с одного языка на другой, даже если для них нет готового словаря.

Идея новой методики в том, что одно и то же слово обычно окружено одними и теми же словами, независимо от того, что это за язык. Она не опирается на словари, которые составляют эксперты и что занимает много времени. Компьютерной системе «скармливают» большие наборы текстов на разных языках, и она уже самостоятельно на основании статистики устанавливает взаимосвязи между эквивалентными словами. Кроме этого, такой подход позволит решить проблему с непереводимыми напрямую фразами – пословицами, идиомами, фразеологизмами и т.д. Если переводить подобные структуры по словарю, получится нечто малопонятное. Тогда как новая методика будет в качестве перевода брать готовые аналогичные фразы на других языках.

Созданная специалистами Google методика опирается на последние достижения лингвистики, которая научилась описывать «языковое пространство» с помощью математических векторов из одной точки-слова в другую. А в последние годы лингвисты научились математически управлять этими векторами. Например, «король»-«ль»+«лева» даст слово «королева». И во многих языках подобные операции совпадают. Это означает, что перевод текста из одного языка на другой превращается в поиск трансформаций этих векторов, которые преобразуют одно языковое пространство в другое. Поэтому перед специалистами Google сейчас стоит математическая задача по поиску этих трансформаций.

Разработчики уже протестировали работоспособность системы, и она показала высокие результаты. Точность перевода составляет 90% для текстов на английском и испанском. Но их методика способна на большее. Например, искать ошибки переводчиков в словарях.

TechToday
TechTodayhttps://techtoday.in.ua
TechToday – це офіційний акаунт, яким користується редакція ресурсу

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися