На прошлой неделе корпорация Google представила поддержку русского языка для своего мобильного сервиса Voice Search, позволяющего делать при помощи голоса запросы в поисковой системе. Рассмотрим, как работает Google Voice Search непосредственно на телефоне. А также не забудем немного пофилософствовать на тему голосовых пользовательских интерфейсов.
Забытое старое
Звуковой интерфейс - это совсем не новая идея. Давно предпринимались попытки управлять компьютерными устройствами при помощи голоса и выводить информацию на аудиодинамик.
В качестве примера можно назвать приложение для Pocket PC под названием Microsoft Voice Command. Программа понимала некоторые голосовые команды на английском языке и позволяла при помощи голоса запустить приложение, найти контакт в адресной книге, проиграть музыкальный альбом.
Но всё-таки голосовой пользовательский интерфейс не прижился на КПК и, тем более, на персональных настольных системах. Клавиатура, мышь, стилус и графический дисплей - вот стандартный ввод-вывод на ПК и КПК.
Но, как пишет компьютерная пресса, в мире произошла смартфонная революция. А в смартфонах микрофон и динамик - это стандартные обязательные части устройства. Поэтому появление новых голосовых технологий для мобильных систем вполне предсказуемо. Ведь как бы ни был хорош мультитач Apple, это всё-таки не революция. Во многих случаях голосовое управление смартфоном лучше и удобнее, чем "тапать" по сенсорному экрану - например, где-нибудь в Сибири зимой, когда руки в варежках.
Google Voice Search - это и есть новая технология обработки голосовых запросов для современных смартфонов на базе операционных систем Apple iOS, Simbian, Android. Как технология, Google Voice Search имеет свои особенности, с которыми ниже познакомимся подробнее.
Тем более что с прошлой недели знакомиться с этой технологией можно уже и на русском языке. Открытие русского сервиса произошло 22 сентября.
Установка
Приложение Google Voice Search доступно для "айфонов", "андроидов" и некоторых смартфонов на базе Symbian. Пользователям телефонов iPhone можно установить мобильное приложение Google Mobile App в онлайн-магазине App Store. Пользователям некоторых моделей Nokia с операционной системой S60v3 достаточно зайти на сайт m.google.ru/search из своего мобильного браузера и тоже скачать Google Mobile App.
Установка на смартфоны с операционной системой Android имеет свои особенности. Во-первых, Google Voice Search может быть уже установлен в вашей системе, если её номер 2.1 или выше. Если в системе программы нет, то ее можно установить из "Маркета", набрав в поиске магазина приложений ключевые слова "голосовой поиск".
Однако для жителей Беларуси и Украины приложение может быть недоступно в силу бюрократической региональной политики "Маркета". Тогда приложение голосового поиска можно просто скачать в виде пакета apk с какого-нибудь сайта, где добрые люди выложили этот пакет. Например, по следующему адресу: android4u.ru/android-golosovoj-poisk-na-russkom.html
Но ручная установка имеет и свои недостатки. Установленное в обход региональной политики вручную приложение трудно обновить, когда выходит новая версия.
Тестируем
О том, что в системе установлен Google Voice Search, будет свидетельствовать значок микрофона в панели быстрого поиска или возле адресной строки в браузере. Чтобы начать поиск голосом, нужно просто нажать на этот значок, и появится приглашение сказать запрос. В "айфонах" и того проще: нужно поднести смартфон к уху, и Google Mobile App будет использовать встроенные датчики "айфона", чтобы определить, когда начать запись.
Обработав запись голосового сообщения, смартфон отправит эти звуковые данные на серверы Google. Именно здесь, в "облаках", а не на смартфоне, произойдёт обработка и распознавание звукового фрагмента, после чего распознанный запрос в виде текста вернётся в браузер, и на экране появится обычный вывод поисковой системы. То есть Google Voice Search является модной сейчас облачной технологией.
Для точного распознавания голоса на серверах Google собраны и постоянно собираются звуковые фрагменты, которые, по заявлению разработчиков сервиса, позволяют создавать модели речи, обеспечивающие корректную работу сервиса и точное распознавание голосовых фрагментов. Для каждого языка на серверах Google создаются словари, содержащие уже более миллиона распознаваемых слов. Естественно, эти словари постоянно пополняются.
Кроме русского, голосовой поиск доступен на английском, китайском, корейском, японском, французском, немецком, итальянском, испанском, польском и чешском языках.
По моим субъективным впечатлениям, качество распознавания слов вполне удовлетворительное. Если, конечно, говорить с толком, с чувством, с расстановкой. При этом определённая тренировка со стороны пользователя тоже требуется.
А вот в случае проблем с дикцией, например, при заикании или даже при насморке, результаты будут совсем не те, что хотелось бы. Я в тестовых целях попробовал изобразить заикание - пока к проблемам с дикцией система распознавания Google ещё не достаточно готова. Хотя, на мой взгляд, теоретически речевые специальные фильтры для распространённых проблем с речью могут быть разработаны.
Не только поиск
Ещё раз повторим суть технологии Google Voice Search. Смартфон только записывает голос, сжимает звуковой фрагмент и передаёт его на серверы Google. А уже на этих серверах происходит распознавание звукового фрагмента, и готовый результат в виде обычного текста возвращается на смартфон. Поэтому для работы голосового распознавания обязательно нужен доступ в Интернет.
Проще говоря, Google Voice Search - это облачный веб-сервис преобразования звука в текст. Следовательно, приложение голосового поиска может использоваться не только для поиска в Интернете, но и другими веб-сервисами и даже другими мобильными прикладными программами.
В результате, после установки на смартфон системного приложения Google Voice Search значок микрофона появится в поиске Google Maps. Также этот значок может появиться на клавиатуре, что позволяет наговорить SMS или какой-либо другой текст. На основе голосового поиска появились уже и дополнительные программы, которые позволяют осуществлять поиск и по другим поисковым системам, отличным от Google.
Я, например, тут же установил себе голосовой блокнот под названием Speak2Send Advance Voice NotePad. Программка позволяет надиктовать последовательно, предложение за предложением, обычный текст. Как говорится, прощай, клавиатура.
Можно отметить ещё приложение Voice Command. Эта программа устанавливается в виде виджета на рабочий стол и принимает голосовые команды от пользователя.
Voice Command имеет несколько режимов работы с голосовым поиском. Первый режим - это копирование в буфер обмена текста, полученного после распознания в Voice Search. После этого текст можно копипастом вставить в любую форму ввода текста. Второй режим - это поиск в контактах. Третий - поиск в Интернете. И четвёртый режим - это поиск на географических картах Google.
Таким образом, Google Voice Search - это не просто отдельная фишка для голосового поиска в Интернете. Голосовой поиск представляет собой и голосовое API для других прикладных программ, которые нуждаются в преобразовании речи в текст. И в ближайшее время следует ожидать реализации этого функционала даже в играх.
В заключение, говоря о функции преобразования голоса в текст, нужно, конечно же, упомянуть и обратную функцию - функцию синтеза текста в речь. В смартфонах на базе "Андроида" имеется собственный синтезатор речи.
Активируется этот речевой синтезатор в настройках андроид-смартфона: "Настройки - Преобразование текста в речь". Здесь через меню потребуется скачать около четырёх мегабайт данных, необходимых для синтеза речи.
Синтезируются английский, французский, немецкий, испанский, итальянский. Русского языка пока не наблюдается. Качество синтеза не ахти какое, но разобрать слова можно.
Синтезатор работает и как API для внешних приложений. Поэтому синтез можно задействовать и в других обычных программах, и даже в скриптах SL4A, о котором мы уже рассказывали на страницах "КВ".
Михаил АСТАПЧИК
Комментарии
И в каком магазине названные приложения - Speak2Send Advance Voice NotePad и Voice Command?
"Чтобы установить Google Mobile App на свое устройство iPhone или iPod touch убедитесь, что на нем установлена последняя версия микропрограммного обеспечения (2.0 или выше)"
http://www.google.com/support/mobile/bin/answer.py?hl=ru&answer=98298
Что же касается Speak2Send Advance Voice NotePad и Voice Command,то это андроидные приложения из "Маркета". На самом деле это временные, проходные программы. Не знаю как на других смартфонах, но голосовой поиск в "Андроидах" будет в дальнейшем тесно интегирован с самой системой, и это потихоньку делается уже в некоторых моделях. Поэтому надобность в Speak2Send и Voice Command практически отпадёт.