Сегодня, когда до наступления нового тысячелетия остаются считанные месяцы, ведущие производители программного обеспечения напрягают все свои силы, чтобы к концу 20-го века занять места в первых рядах компьютерных технологов. Одной из четко выделяющихся тематик разработок сегодня являются системы распознавания речи. В последнее время сразу несколько компаний представили свои технологические новшества в этой области.
Так, например, отделение компании IBM, занимающееся разработкой программного обеспечения, словно поставив задачу еженедельного обновления "говорящих" программ, объявило о выпуске очередной, восьмой, версии пакета для распознавания речи "ViaVoice for Windows, Release 8.0". Улучшения в новой версии, по заявлениям компании, весьма заметны. В первую очередь, в новом пакете значительно улучшено качество распознавания разговорной речи - именно неудовлетворительное "понимание" человеческих слов подобными системами не позволяло говорить о них как о массовых коммерческих продуктах. Не последнюю роль в повышении качества речевых программ сыграло появление более мощных компьютеров, способных обсчитывать больший объем информации в реальном времени. Кроме улучшения качества распознавания, новый пакет от IBM может также похвастаться интегрированной функцией ViaVoice Documents для надиктовки текстов и системой Voice Marks, способной "читать", проговаривая набранный в редакторе текст.
Однако, IBM - отнюдь не единственная компания, серьезно занимающаяся "речевыми" технологиями. В этом же направлении довольно активно работает корпорация Microsoft, обещающая сделать речевой ввод стандартной функцией в своем новом офисном пакете - MS Office 10 - прямом "наследнике" Office 2000, выход которого на прилавки компьютерных магазинов намечается к началу-середине 2001 года. Аналогичные планы и у лидера рынка карманных компьютеров - компании Palm, заявившей буквально на днях о заключении соглашения с компанией SpeechWorks. Это соглашение подразумевает разработку средств для голосового доступа к информации. Кстати, Palm, которой в настоящее время принадлежит большая часть рынка карманных компьютеров, не намеревается останавливаться на достигнутом. Для того, чтобы удержаться в лидерах, Palm уже объявила о намерениях предпринять ряд "превентивных мер" в данной области. Одной из них, как стало известно, будет обеспечение возможности получения голосового доступа к персональному расписанию. Согласно новой технологии, информацию о своих делах и планах пользователь теперь может отправить на сайт Palm, а затем с помощью PDA без каких-либо проблем получить к ней доступ. Таким образом, Palm ясно указала, что намеревается идти по пути интеграции органайзеров и мобильных телефонов.
Впрочем, уступать лидирующие позиции гигантам мировой компьютерной индустрии не собираются и менее крупные компании. Так, France Telecom в конце августа разработала программное обеспечение, которое уже в недалеком будущем позволит получать информацию из Сети без какого-либо участия компьютера, по обычному телефону. Новинка способна распознавать до 10,000 слов на 6 языках и различать интонации человеческого голоса. Произнесенный в трубку запрос превращается в набор слов, по которым и осуществляется поиск страниц в Интернете. Затем полученная из Сети информация зачитывается "клиенту" голосовым синтезатором. Таким же образом можно работать с электронным почтовым ящиком. Кроме того, любопытно, что в отличие от своих прямых конкурентов - IBM и Microsoft - в качестве пароля для доступа в Интернет новинка от France Telecom использует определяемые самой системой физиологические параметры голоса пользователя. А значит, теперь для доступа в Сеть не придется утруждать себя запоминанием сложных паролей - устройство само выполнит эту задачу. Однако пока вопрос заключается в том, сможет ли она выполнить ее достоверно и безошибочно.
Таким образом, по заверениям разработчиков "речевых" технологий, уже сейчас все вышеупомянутые программы и пакеты обеспечивают довольно успешное распознавание "живой" человеческой речи. Возможности таких продуктов пока ограничены лишь необходимостью произносить названия знаков препинания (например, "точка" или "запятая"), но в скором времени, судя по всему, и это неудобство будет устранено.
Остается надеяться, что "компании-речетехнологи", как их называют в американской прессе, не наступят вновь на "грабли", с которыми не так давно столкнулась все та же компания Microsoft. Одна из самых первых и широко разрекламированных попыток подобного "очеловечивания" интерфейса потерпела на рынке провал - речь идет о программе Bob. Программа, использовавшаяся в качестве оболочки Windows, давно исчезла с полок магазинов, но ее концепция сохранилась в "интеллектуальном помощнике" Intelligent Assistant пакета Microsoft Office. Пользователям, вероятно, знакомы маски "Боба" (анимированная скрепка или дружелюбный ученый). Мнения, судя по всему, разделились - его либо достаточно полюбили, чтобы задавать вопросы, либо возненавидили и навсегда изгнали с экрана.
В заключение отметим, что плоды перспективных технологий распознавания человеческой речи, о которых сегодня так громко и многообещающе заявляют производители программного обеспечения, уже совсем скоро могут превратиться в полноценного виртуального собеседника. Стать, так сказать, "интеллектуальным человеческим механизмом", что, безусловно, не может не радовать, как, впрочем, и беспокоить. Как гласит известный американским пользователям Сети рекламный ролик IBM, "в новый век - с говорящим компьютером!", тем более, что до начала этого самого века остаются считанные месяцы...
Виталий ФРИДМАН,
Vit_Friedman@softhome.net,
www.kv.minsk.by/belhome