Как заставить компьютер понимать пользователя, особенно неподготовленного, без помощи устройств ввода и указания? Эта и другие связанные с ней проблемы являются частью научной дисциплины под названием "Компьютерная лингвистика". Ученые и программисты всего мира работают над проблемой более удобного общения людей с электронными устройствами. Достаточно сказать, что в одной лишь корпорации "Майкрософт" подразделение компьютерной лингвистики насчитывает порядка тысячи человек.
Впрочем, специалистов этого профиля готовят и у нас, в Минске, на кафедре информатики и прикладной лингвистики Минского государственного лингвистического университета. Кроме того, здесь создают самые различные профильные разработки.
Всего на кафедре три специализации для студентов педагогических факультетов, изучающих иностранные языки. Это уже упомянутая компьютерная лингвистика, информационные технологии, а также информационное обслуживание межкультурных коммуникаций. Курс изучения лингвистики насчитывает порядка 480 часов.
Студенты в начальный период изучают основы программного и аппаратного обеспечения компьютера, периферийные устройства. Следующий этап - вопросы теории алгоритмизации, куда входит составление алгоритмов лингвистических задач, программные инструменты ввода языковых данных, словосочетаний, текстов.
После этого слушатели переходят к рассмотрению лингвистических ресурсов (больших объемов языковых и речевых данных, представленных в виде программного кода), которые могут использоваться для создания прикладных систем обработки текстов и речи. Знакомятся они и с размещенными в интернете языковыми сайтами, учатся осуществлять системный поиск необходимой информации в Сети.
Но все это, включая электронную почту и интернет-пейджинг, знания, так сказать, общего характера. Где-то с четвертого курса студенты приступают к самой компьютерной лингвистике, методам автоматической обработки текстов, формализации языковых данных, принципам создания систем искусственного интеллекта, языковых комплексов общения с компьютером.
В курс включено также знакомство с системами машинного перевода, которые созданы сегодня в мире, и другими программными комплексами, которые позволяют эффективно обрабатывать текст и речь.
Есть и еще два довольно интересных курса, которые, к сожалению, носят, скорее, теоретический характер. Один включает проблему понимания порождения текста (процесс и, если можно так сказать, "технологию расшифровки" текстов различных жанров и направленности). Второй - распознавание устной речи.
После окончания вуза, кроме владения двумя иностранными языками, выпускники умеют также формализовывать любые лингвистические данные, представлять языковую информацию в виде программного кода, понятного ЭВМ. Владеют лингвисты и работой с большими текстовыми массивами, так называемыми "корпусами" текстов. Для каждой лексической единицы корпуса создается программный код, позволяющий машине определить, к какой части речи относится слово и какими грамматическими категориями обладает. Но конек слушателей компьютерной лингвистики - это, конечно, создание разного рода словарей, которые можно затем использовать в традиционной и компьютерной лексикографии.
Фронт для творчества у лингвистов огромный. Вот только один, совершенно, правда, неактуальный для практического использования пример. Одна из лингвистических задач для студентов состоит в том, чтобы придумать и построить алгоритм рождения сказки. Мне кажется, даже неспециалисту в этой области было бы интересно смоделировать подобный процесс. Ключевой момент здесь состоит как раз в создании правил для машины, руководствуясь которыми и опираясь на языковые единицы, она сочиняла бы текст. Задав такой программе тему и имена основных действующих героев, на выходе будущий лингвист должен получить готовую сказку.
"Все это, конечно, интересно, - скажет читатель, - но где же методики обучения, соответствующая литература?" К счастью, такого материала сейчас немало. В основном, благодаря тому, что в научных центрах всего бывшего СССР компьютерная лингвистика активно развивалась ранее и совершенствуется до сих пор. К примеру, в российском государственном педагогическом университете имени Герцена уже много лет работает лаборатория инженерной лингвистики, руководит которой профессор Раймонд Пиотровский - создатель компьютерной лингвистики в СССР. Кафедра математической лингвистики под руководством профессора Александра Гердта существует и в Санкт-Петербургском государственном университете.
Впрочем, белорусская школа этой дисциплины не менее сильна. К примеру, заведующий кафедрой информатики и прикладной лингвистики, о которой идет речь, Александр Зубов - признанный авторитет в этой области. Его перу принадлежит большая часть основных учебников по компьютерной лингвистике, которыми пользуются студенты. Последняя его книга, созданная в соавторстве с доктором наук - Романом Хайчук, четырехъязычный (англо-польско-русско-белорусский) словарь по информатике и компьютерным технологиям. Этот объемный труд издан недавно в Польше.
Существуют в республике и другие центры изучения компьютерной лингвистики. Среди них лаборатория "НаучСофт" в БГУ, где трудятся некоторые выпускники кафедры. В основном, кстати, они устраиваются педагогами в школах, так как работу по этому профилю в стране найти трудно.
На кафедре информатики и прикладной лингвистики уже создано немало интересных и достойных внимания разработок. Среди них - обучающие программы по нескольким языкам, различные экспериментальные модели научного характера и многое другое. Эта деятельность сейчас активно развивается. В рамках курсовых, дипломных и магистрских работ проводятся экспериментальные исследования, связанные с пониманием текста, порождением его компьютерными программами, автоматическим, морфологическим анализом и синтезом.
Сложнее обстоит дело с формализацией семантики. Поэтому, как говорят специалисты кафедры, и нет еще совершенных систем машинного перевода. ЭВМ совершает ошибки в выборе переводных эквивалентов, определении значений многозначных слов.
Не научился компьютер и порождать большие тексты. Те, которые состоят из малых по длине предложений, еще могут быть созданы при помощи ЭВМ. А вот сложные, содержащие авторский стиль, ей недоступны. Впрочем, ученые на кафедре считают, что это невозможно в принципе.
Творческую, высокоинтеллектуальную деятельность формализовать и представить в виде конечной последовательности очень простых операций и действий нельзя. В ней всегда много авторского вымысла, неявных сравнений, типичной для писателя или поэта лексики, которая используется только в его окружении. Такой текст никакой ЭВМ не под силу сгенерировать.
Нет и единого алгоритма написания художественных произведений, стихов. Для одного поэта важен, как для Маяковского, например, ритм, для другого - название произведения, третий автор должен представить себе образ, который навеет затем гениальные строчки.
"Теоретически, - рассказал Александр Зубов, - можно заставить компьютер имитировать, например, стихи Есенина". Но для этого нужно вложить в память ЭВМ словарь поэта, все типы и виды используемых им языковых средств, нюансы и тонкости слога. То есть, по существу, создать модель его мира. Но будет ли она удачной? Вряд ли!
Поэтому, все, до чего доросли пока современные ЭВМ, это генерация пользовательских инструкций для программ и бытовой техники. Опыты по созданию комплексов для этих целей уже проводятся за рубежом и в СНГ.
Немалые успехи достигнуты в создании систем машинного перевода. Сегодня, имея под рукой соответствующий словарь терминов и правильно настроенный переводчик, можно качественно обработать любой иноязычный технический текст. Существует немало интерактивных систем подобного же назначения, которые работают прямо в Сети.
Во многом это стало возможно благодаря доскональной проработке модели перевода. В нее включаются, как правило, все процедуры, которые используются в такой работе человеком.
Немало переводных программных комплексов создано и в СНГ, именно благодаря исторически развитой компьютерной лингвистике. Это система перевода ПРОМТ, линейка программных комплексов "Сократ", фирмы "Арсенал" и многие другие.
К сожалению, в области перевода художественных текстов ничего серьезного нигде в мире не сделано. Происходит или, если точнее, не происходит это по описанным выше причинам. Сложность авторской лексики, отсутствие закономерностей и правил сбивают умные машины с толку. И помочь им человек - создатель книг и стихов, оказавшихся его железным творениям не по зубам, пока не смог. А может, это и к лучшему?
Ведь, значит, что писатели, поэты, талантливые переводчики, а с ними и журналисты без работы в ближайшее время не останутся.
Эдуард ТРОШИН
Горячие темы