С вами говорит робот-секретарь...

Системы синтеза и распознавания речи начинают проникать на отечественный рынок

Впервые механически сгенерированный голос мне довелось услышать почти полтора десятилетия назад при помощи единственного доступного тогда простым гражданам средства голосовой связи - городского телефона. Именно в те времена специалисты столичной МГТС впервые внедрили у себя автоинформатор с функцией синтеза речи. Говорил он не слишком хорошо - низкий, отдававший металлом звук вибрировал, тембр был все время один и тот же. Тем не менее, технология работала. Сегодня она уже на пороге массового внедрения во все сферы нашей жизни.

Поделиться с нами секретами отрасли согласился директор ООО "Речевые технологии" - белорусского подразделения крупнейшей в отрасли российской компании "Центр речевых технологий" (ЦРТ). По его словам, сегодня у белорусского предприятия два основных направления работы. Одно из них - это продвижение оборудования, созданного в ЦРТ, на белорусском рынке. Второе, и самое важное, - создание программного обеспечения для серьезных проектов, направленных на развитие речевых технологий, связанных с синтезом, распознаванием голоса, его верификацией и идентификацией, разделением дикторов, а также с обработкой звука и очисткой его от посторонних шумов.

"Подумаешь, - скажет иной читатель, - эко дело! Сейчас, когда есть майкрософтовский SAPI и масса других подключаемых модулей и библиотек, можно обойтись и без российско-белорусских разработок!".

А вот это вряд ли. По мнению специалистов, да и по моему собственному, встроенные в Windows голосовые движки - не более чем игрушки, и для профессионального применения не годятся. Хотите пример? Пожалуйста! Заставьте модуль Windows распознать голос с расстояния в несколько метров или с мобильного телефона, или искаженный посторонним шумом, или.... В общем, таких "или" столько, что в мире существует целая индустрия голосовых технологий с многомиллиардным ежегодным оборотом. И спрос на ее продукты растет.

Самые прибыльные разработки в этом направлении - подключаемые системы синтеза и распознавания речи для так называемых "call-center". Простейший пример - мобильные сервисы наших операторов сотовой связи, мобильные новости, меню, конкурсы и прочие "фишки", которыми, в принципе, можно было бы управлять голосом по телефону. Можно, да пока не получается, ибо сама технология еще далека от внедрения - слишком уж она сложна и дорога даже для телекоммуникационных гигантов. Но, на Западе некоторые ее элементы давно используются, к примеру, в центрах международной телефонной связи. В каждом из них предусмотрена опция подключения системы синтеза и распознавания речи. Такая система дает возможность переложить часть функций операторов на плечи компьютера.

Другое, не менее перспективное направление, тоже связано с телекоммуникациями. Это использование систем синтеза и распознавания речи в мобильных устройствах - смартфонах, КПК, причем не только для управления набором номера и меню аппарата, которые, в общем-то, давно уже реализованы, а в первую очередь, для создания приложений, которые позволяют, к примеру, прослушать какой-нибудь нужный документ по пути домой или на работу на любом языке, вывести звук на "колонки" или акустическую систему автомобиля.

Еще одно направление появилось совсем недавно, во время бума разработки навигационного оборудования для автомобилистов. Совершенно неудобно, а зачастую и опасно управлять кнопочным меню или сенсорным экраном портативного GPS-навигатора, сидя за рулем автомобиля. Но если сделать устройство послушным голосовым командам, а к тому же и наладить голосовой обмен между процессором навигатора и водителем, задача намного упрощается. Помните фильм "Я - робот" с Уиллом Смитом и его умный автомобиль, который беседовал с ним? При помощи современных речевых систем уже можно без труда получать голосовые месседжи о пути к пункту назначения, о состоянии узлов и агрегатов автомобиля и другую информацию.

Впрочем, речевые технологии легко переносятся и на другие сферы нашей жизни. С их помощью можно создавать интеллектуальные системы обучения, которые будут принимать несложные экзамены или помогать в изучении языков. В словарях типа "Лингво" слова и по сей день надиктовываются в микрофон. А система синтеза речи может генерировать их "на лету". Она легко проверит ваше произношение. На Западе, кстати говоря, уже существуют подобные обучающие решения. Система распознавания и синтеза речи очень пригодилась бы людям с ограниченной дееспособностью, инвалидам и слабовидящим. Такие технологии сегодня нужны везде.

Причем, предложение, как говорят, ограничено. На белорусском рынке известна фирма "Сакрамент", на российском - "Искрасофт". За рубежом - Acapela Group, Nuance, поглотившая недавно одно из подразделений финского телекоммуникационного гиганта Philips - Philips Speech Processing, IBM и еще несколько.

Причем только крупнейшие имеют законченные решения на базе голосовых технологий. Среди них и российская "ЦРТ".

Ну вот, скажете вы, сделал из мухи слона - никто про этот "ЦРТ" и не слышал. Разумеется, так оно и есть, ибо сфера деятельности компании весьма специфична. Зато в своей отрасли "ЦРТ", пожалуй, наиболее крупное предприятие этого профиля в России. Компании и по сей день доверяют расшифровку всех черных ящиков с российских авиалайнеров, а в свое время специалистам "ЦРТ" пришлось заниматься и расшифровкой записей с печально известной подводной лодки "Курск".

Мало кто знает, что продукты ЦРТ используются в том числе и спецслужбами России и Беларуси. Правда, информация об одном из них уже просачивалась в печать. Это программно-аппаратный комплекс "Трал", который обладает поистине уникальными возможностями. К примеру, может " на раз" улавливать в потоке речи звуковые фрагменты, так называемые ключевые слова.

Скромное классификационное название "система фоноучета для поиска дикторов" скрывает могучие возможности. Например, классификация голосов бывших преступников. Используя запись телефонной прослушки, система легко выберет похожие голоса среди десятков тысяч файлов. Сейчас эти продукты уже работают в НИИ криминалистики и государственном центре экспертизы. Используют их и российские спецслужбы, которые, традиционно опасаясь "пасхальных яиц", стараются не покупать западных технологий, обходясь отечественными. Внедряются сегодня системы распределенного компьютерного документирования и в государственных органах - например, в судах. С помощью российско-белорусского программного комплекса аудиоинформация с заседаний фемиды регистрируется и разделяется на фрагменты, которые легко поддаются последующей обработке. Следующий шаг на этом пути - внедрение систем распознавания речи и идентификации говорящего.

Ну а что же представляет собой ноу-хау, заложенное в современных речевых технологиях? Старый софт, разработанный при помощи динамического программирования, функционировал по достаточно простой схеме. Дикторы надиктовывали слова, которые закладывались в память ЭВМ. А запоминала она их по обычной шаблонной схеме. Этот метод прекрасно работает, но в нем нет ничего нового. Программа лишь объединяет уже известные речевые шаблоны по определенному принципу, и только. Кстати говоря, система подобная у специалистов "Речевых технологий", конечно, есть и называется она "Войс Ком". А сейчас программисты и языковеды компании работают над дикторонезависимой системой распознавания, которой не нужно будет специальная начитка и обучение. В теории любой текст, произнесенный кем угодно, в новой системе должен быть немедленно распознан и понят.

Самое важное в разработке - это, как и прежде, речевые базы. Чем лучше они сегментированы, чем удачнее подобраны фонетически сбалансированные тексты, тем качественнее будет работать программа. Для сбора образцов десятки специалистов "ЦРТ" пять лет колесили по городам и весям России, записывая образцы разговоров. На территории Беларуси было собрано более 10 000 речевых образцов, которые очень пригодились разработчикам. Всего набралось несколько десятков DVD-дисков с информацией. Вся она прошла через руки лингвистов, которые создали так называемые эталоны портрета фонем - акустические модели, самый настоящий фонемный словарь, который содержит все возможные варианты фрагментов речи, существующие в русском языке. Далее фонемам звука были присвоены специальные обозначения, а затем разрабатывались вероятностные модели перехода из одной фонемы в другую. С их помощью программа, перебирая возможные варианты, могла сама построить необходимое слово. В результате родились несколько релизов программ с размером баз от сотен до пары мегабайт, которые могут довольно неплохо работать с синтезом и распознаванием речи.

Правда, пока догнать западные образцы, где (в английском и испанском языках) точность "узнавания" машиной голоса достигает 82%, не удается, по причине вполне прозаической: речевых баз там собрано и обработано значительно больше.

Но сейчас дела идут не так уж плохо. Планируется, что стабильного распознавания слитной речи удастся добиться уже через несколько лет.

Существуют, правда, и определенные проблемы, связанные, например, с шумом. Именно он пока не позволяет развернуть массовое использование новых речевых технологий в "мобильниках". Для применения систем в офисах или на предприятиях специалисты просто изучают характерные для этих объектов шумы и подбирают необходимые варианты шумоподавления. Одна из речевых систем управления кухонной автоматикой, например, отлично зарекомендовала себя в большом ресторане. Но, к сожалению, обычный фильтр, сколь бы он не был совершенен, не в состоянии избавить речь от необычных шумов вроде звука мотора, металлического стука и других, коим нет числа. Не справились пока с этой проблемой и за рубежом. Правда, для правоохранительных органов разработаны специальные системы шумоподавления, которые позволяют "на лету" менять фильтры и подстраивать их под необходимые условия. Используя такие "штучки", спецслужбам удается обходить некоторые высокотехнологичные "глушилки" и системы защиты от прослушки. Как говорится, "и на старуху найдется проруха". Но для массового потребителя такой дорогущий и неудобный эксклюзив не подойдет, тут нужно простое и надежное решение. И оно, конечно, появится.

В самом ближайшем будущем ныне редкие и недешевые программные продукты, связанные с синтезом и распознаванием речи станут и лучше, и доступнее. И, конечно, сделают нашу жизнь проще. Правда, придется немного подождать.

Эдуард ТРОШИН