Поговорим, компьютер...

далекое "завтра" или реальное "сегодня"?

До недавнего времени процесс речевого общения человека и компьютера был непременным атрибутом научно-фантастических романов и никем не воспринимался всерьез. Несколько лет назад ситуация кардинально изменилась. Сегодня использование речевых технологий в прикладных программах в качестве альтернативного средства взаимодействия в системе "человек-компьютер" приобретает все больший размах. Такой процесс носит вполне обоснованный и объективный характер в силу ряда причин. Во-первых, развитие речевых средств взаимодействия с персональным компьютером лежит в рамках мировой тенденции "очеловечивания" ПК, т.е. позволяет создавать интерфейсы, максимально дружественные пользователю. Во-вторых, миниатюризация современных средств управления и связи требует принципиально новых подходов к осуществлению взаимодействия пользователя с такого типа устройствами. Для современных технологий не представляет большого труда создание, например, мобильного телефона размером с авторучку, однако механический набор номера на таком телефоне будет сопряжен с определенными трудностями. Голосовой набор номера и авторизация в этом случае являются очевидным и наиболее подходящим выходом. В-третьих, для большого круга пользователей речевой способ общения с ПК является единственно возможным в силу ограниченности их физических возможностей (люди с нарушениями опорно-двигательного аппарата, другими физическими недостатками, слепые и т.д.) либо специфики профессии.

Крупнейшие мировые производители программного обеспечения и оборудования, такие как Microsoft, IBM, Philips, Dragon dictate, AT&T, объявили о том, что разработка ПО в области речевых технологий, включающая распознавание и синтез речи, а также идентификацию пользователя по голосу, является одним из приоритетных направлений. На настоящий момент на рынке существует целый ряд продуктов, позволяющих пользователю осуществлять голосовое управление компьютером и даже производить диктовку произвольного текста со вполне приемлемой точностью. Однако данные пакеты способны работать только с английским и рядом европейских языков. Попытки же каким-то образом русифицировать такие программы ни к чему хорошему не привели, поскольку модули распознавания в этих системах основаны на английской фонетике и для русского языка практически неприемлемы. Разработка модуля распознавания русской речи требует значительных как финансовых, так и интеллектуальных ресурсов. В настоящее время на российском рынке присутствует несколько программных продуктов, реализующих процесс распознавания речи, сделанных российскими компаниями по западным технологиям (СТЭЛ - Компьютерные Системы, TITAN Technology, SPIRIT). Однако все они носят, скорее, демонстративный характер, нежели реально решают проблему распознавания русской речи.

Определенные шаги в данном направлении сделаны и у нас в республике. Причем, в отличие от упомянутых продуктов, это действительно определенное продвижение вперед, поскольку речь идет о разработке собственных модулей распознавания и синтеза русской речи, которые могут быть легко адаптированы и использованы в любом из приложений для решения самого широкого спектра конкретных задач. ООО "Сакрамент", объединив под своим крылом группу ведущих специалистов Института технической кибернетики НАН Беларуси и Белорусского государственного университета (профессор, 3 кандидата наук, 8 квалифицированных программистов), сумело обеспечить разработку модуля распознавания изолированных слов и модуля высококачественного синтеза русской речи.

Описываемые системы распознавания и синтеза речи полностью совместимы с MS SAPI 4.0, а разработка велась с использованием технологии COM/DCOM. В основу использованных методов распознавания речи легли подходы на основе динамического программирования и скрытых марковских моделей, а также самоорганизующихся карт признаков Кохонена. Используемые алгоритмы позволят достигать реальной точности распознавания порядка 95-98%. Разработанный синтезатор русской речи имеет аллофонную структуру, что, по сравнению с широко используемым микроволновым подходом, обеспечивает более высокое качество синтезированной речи. Основные результаты исследований и детали реализации широко представлены в трудах крупнейших международных конференций.

В настоящее время завершена разработка и осуществляется тестирование нескольких продуктов, предоставляющих пользователю реальную возможность речевого общения с компьютером (на русском языке) и демонстрирующих потенциал новых технологий. Ниже приведено их краткое описание.

Голосовой калькулятор

Встроенный в систему Windows 95/98/2000/NT модуль раздельного голосового ввода цифр от 0 до 9 и 20 основных команд, присущих стандартному MS Windows Calculator. Используемый модуль голосового ввода способен осуществлять ввод цифровой информации в MS Excel.

Синтезатор русской речи по произвольному тексту

Встроенная в Windows 95/98/2000/NT система высококачественного синтеза русской речи, способная озвучивать произвольный текст из любого приложения. Незаменима для чтения е-mail-сообщений и различной документации посредством удаленного доступа.

В заключение хотелось бы обратить внимание читателей на достаточно простой, но вместе с тем очень значимый факт: отечественные технологии распознавания и синтеза речи существуют, ни в чем не уступают, а подчас и превосходят российские аналоги, и, что самое главное, вполне могут найти себе место на вашем персональном компьютере. Уже сейчас данные технологии "затребованы" в различных охранных системах, голосовая калькуляция и голосовой ввод данных в электронных таблицах наверняка найдут горячих поклонниц в любой бухгалтерии, голосовая навигация поможет овладеть компьютером людям с физическими недостатками. Этот перечень можно продолжать и продолжать, но, думается, в этом нет необходимости, поскольку и без того ясно, что за технологиями распознавания и синтеза речи - будущее.

Виктор МОРОЗОВ

Разработчики описанных технологий будут признательны читателям "КВ" за любого рода отклики на данную статью, а также приглашают к сотрудничеству всех заинтересованных лиц и организаций. Контактный телефон: 2842892, 2842640. E-mail: [email protected]

Версия для печати

Номер:

№46 за 2000 год

Рубрика:

Software

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Программа при установке сразу понимает ваш голос. Другой вопрос - качество. Ведь модель ориентирована на "среднего" диктора. Поэтому в программе реализовано дообучение на пользователя. После того, как какое-то слово произнесено раз 10 - оно начинает уверенно распознаваться.

С уважением, Юрий

#

Думаю, программа "Голосовой калькулятор", описанная в статье, вряд ли представляет из себя продукт - скорее это demo для показа возможностей этой технологии. Интересно былро бы узнать, к чему собираются разработчики приложить свою технологию распознавания? Ориентируются ли они на PC, или на беспроводные устройства, или еще на что?

#

И вообще, есть ли сайт, где можно все посмотреть? А то www.sakrament.com предлагает какие-то кровельные материалы... :(

#