Новая программа для перевода текстов, разработанная американскими учеными, не требует составления словаря. Она сама обучается новым языкам, сравнивая с оригиналом уже переведенные тексты.
Большинство существующих систем машинного перевода основано на использовании словарей, которые составляются вручную. На кафедре натуральных языков Института информационных наук университета Южной Калифорнии разработана новая программа, которая использует статистический подход для анализа слов, фраз и синтаксических структур. Она сама составляет себе словари и обновляет их по мере появления новых слов и появления новых значений уже существующих слов.
Для перевода используются словари, паттерны и правила, которые программа составляет сама, без человеческого участия. В процессе перевода на основе базы уже переведенных текстов создается множество вариантов, после чего вычисляется статистическая вероятность для каждого варианта и выбирается наиболее подходящий. Программа под названием SMTS (Statistical Machine Translation Software) уже способна успешно переводить тексты с арабского, китайского, французского и испанского языков на английский и наоборот. Система статистического перевода лучше, чем обычные программы, приспособлена для перевода текстов с редкими словами, то есть для технических и специализированных текстов.
В 2002 г. двое институтских ученых, разработавших программу, - Кевин Найт (Kevin Knight) и Дэниел Марку (Daniel Marcu) - основали фирму Language Weaver в надежде получить прибыль на продаже новой системы машинного перевода, которая, к слову, защищена 50 патентами. На ежегодном собрании Американской академии содействия научному прогрессу разработчики представили третью версию SMTS, в которой значительно повышена точность перевода и в 5-10 раз увеличена его скорость, добавлена возможность скачивания и перевода SSL-сайтов и т.д. По мнению авторов программы, перевод на основе статистических алгоритмов представляет собой новую тенденцию на рынке систем машинного перевода.
Базовые принципы машинного перевода на базе статистических алгоритмов были опубликованы уже давно. Активные работы в этой области ведутся около 15 лет. В интернете можно найти даже исходные коды одной из программ, в которой реализованы эти алгоритмы (www.fjoch.com/GIZA++.html). Но система SMTS, в отличие от предшественников, действительно работает. И работает великолепно.
Уже сейчас SMTS обеспечивает самое высокое качество среди всех систем машинного перевода. Она может отлично переводить тексты с редких языков (например, в последней версии появилась возможность перевода с хинди и сомали). Для начала работы требуется всего лишь "скормить" программе большую базу переведенных текстов. Например, существует много книг, которые дословно переведены почти на все языки мира, например, Библия и "Гарри Поттер". Для настройки алгоритмов могут использоваться не только электронные тексты, но даже звуковые файлы.
В данный момент качество перевода ограничивается только одним фактором: мощностью компьютера. Недостаточный объем оперативной памяти накладывает ограничение на максимально возможный объем статистической базы. Ведь для нормального перевода нужны сотни тысяч, миллионы книг. Но разработчики не унывают, недалек тот день, когда в ОЗУ обычной персоналки сможет поместиться вся письменность, созданная за все время существования человечества на всех языках мира (по приблизительной оценке, это всего лишь несколько десятков петабайт). Вполне вероятно, что такая программа сможет пройти даже тест Тьюринга, вычисляя человеческие ответы с помощью своих статистических алгоритмов.
Что тут можно добавить? Остается только перефразировать фразу из "Терминатора", как это сделали читатели Slashdot'а:
SARAH CONNOR: What can you tell me about Kevin Knight and Daniel Marcu?
TERMINATOR: I have detailed files.
Анатолий АЛИЗАР
Комментарии