Текст - в речь!

Преобразование компьютерного текста в синтезированную речь - задача, которая уже решается на уровне внедрения в операционные системы нового поколения. Чтение электронных писем, книг, документов и даже субтитров к кинофильмам - это одни из самых очевидных сфер применения данной технологии.

Нужно отметить, что одна из самых популярных технологий, использующихся для преобразования электронного текста в речь, является современным продолжением речеэлементного вокодинга. И сама система имеет несколько уровней:

Варианты произношения звуков, соответствующих тому или иному языку. Например: "б", "п", "а"...
Словарь, в котором обычные слова представляются в виде сочетаний запрограммированных звуков. Например: "фигуристая=фигууристая" или "темечко=теэмечко".
Фонемная составляющая. Окрас голоса синтезатора. Для придания схожести с натуральной речью синтезатор, помимо звуков, генерирует фонемные звуки - постоянные частотные составляющие голоса каждого человека.

Наиболее распространенными и эффективными системами чтения текста являются программные модули, использующие технологию от Microsoft - "Text-To-Speech". Помимо этого, применяются и варианты от других разработчиков - Lernout &Hauspie Text-To-Speech, Digalo text-to-speech engine, IBM ViaVoice TTS, Eloquent Technology TTS.

Большинство из них мультиязычные, и среди всех прочих языков поддерживают чтение текстов на русском.

Англоязычный Text-To-Speech

Наиболее интересными для работы с английским текстом являются перечисленные ниже программы.

Text Assist - система чтения текста и даже его пропевания. Может использоваться при общении в чатах, голосовом воспроизведении электронных писем, документов и стихов.

ATTS Advanced Text To Speech - одна из самых интересных программных разработок. На вашем рабочем столе появляется смешной мультяшный персонаж и озвучивает все, что связано с чтением английского текста. Для его активизации достаточно загрузить некий фрагмент в буфер обмена. Если текст содержит элементы другого языка, программа их пропускает. Например, при загрузке в буфер моей последней статьи по звуку некий персонаж по имени James прочитал: "Yamaha, Steinberg, Nuendo, Yamaha..." - в общем, кратко передал всю суть :). Что касается персонажей, то их очень много, и вы можете выбрать как сексапильную брюнетку, так и Санта Клауса. Как говорится, на вкус и цвет. Произношение у всех очень хорошее, и для тех, кто знаком с английским, все будет понятно. ATTS я бы выделил как лучшую в данном сегменте.

Better Text To MP3 - данная программа реализует достаточно новую и интересную функцию - читает текст и одновременно все записывает в МР3-файл.

Speak and Mail v.2000 - многофункциональная программа с большим количеством настроек и возможностей. Например, может использоваться как будильник.

VoiceKey Express - достаточно старая разработка (1998 г.в.) Очень хорошо подходит для маломощных компьютеров с Win 95/98/NT 4.0. Есть множество различных настроек.

Govorilka - русский Text-To-Speech

Среди программ, работающих с русским текстом, я бы порекомендовал разработку Антона Рязанова - Govorilka (www.vector-ski.ru/vecs/govorilka). Для ее полноценной установки необходимо скачать дополнительный файл Microsoft SpeechAPI 4.0. Чем же так привлекательна Govorilka? Во-первых, данная программа бесплатна, во-вторых, вместе с дополнительными всевозможными словарями ее объем не будет превышать 600 Кб. И, в-третьих, словари в ней можно создавать самостоятельно. Программа может запускаться с командной строки, а также записывать прочитанный текст в МР3-файлы.

Проблемы чтения русского текста

В варианте систем TTS для русского языка существует множество подводных камней, а именно - наличие слов с одинаковым написанием и различными произношениями и значениями. И это никак нельзя исправить. Например: "стОит" и "стоИт", "свЕдения" и "сведЕния" - в данном случае все зависит от контекста. С английским языком, например, ситуация гораздо лучше, так как в большинстве слов ударение падает на первый слог. Программы-синтезаторы речи в данном случае даже рекомендованы как помощь при изучении языка.

Кристофер,
christopher@tut.by

Версия для печати

Номер:

№03 за 2005 год

Рубрика:

Software

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Такая интересная тема - и совершенно не раскрыта. Ну а сама статья - просто блеск! Хоть сейчас в любое авторитетное издание на печать. Хоть в "Коневодство", хоть в "Беларусь Сегодня".

1. Что такое "речеэлементный вокодинг" и с какой стати это считается одной из самых популярных технологий?

2. Про "сочетания запрограммированных звуков" и "фонемную составляющую" - бред.

3. Microsoft не является автором технологии Text-to-Speech. Microsoft предложила соглашение об интерфейсе взаимодействия между синтезатором и программой - Speech API (SAPI). По этому API версии 4.0 (морально устаревшему) работает тот же Digalo.

А где Rhetorics, ScanSoft, MBROLA, Sakrament? А OpenSource синтезаторы Festival, FreeTTS, Euler?

4. Блестящие рецензии на программы! Нет слов.

5. Говорилка. "Среди программ, работающих с русским текстом..." - да ей все равно с каким текстом работать. Синтезирует речь не Говорилка, а установленный движок. При этом для "полноценной" работы ей нужен этот самый движок, который весит далеко не 600 кб. (обычно им выступает украденный Digalo). А вы пробовали открыть в ней обычную книгу, килобайт на 800? А сохранить ее в MP3 с приемлемой скоростью? Попробуйте прежде чем рекомендовать.

Хотелось бы пожелать автору дальнейших успехов и увидеть новые статьи об интересных и неожиданных применениях синтезаторов речи.

Не совсем понял суть претензий...:)

Данный материал носит ознакомительный характер и не претендует на книгу по синтезаторам речи.

Все ваши утверждения спорны. Вы, наверное, большой специалист в этой области. Хотелось бы увидеть Ваш материал/книгу/программу по этому поводу.

хех, Крис, ты как всегда облажался... впервые за три года глянул КВ , снова вижу все тот же дилетантизм :) Когда-то и я такие отзывы тебе по мылу слал.. и ответ был почти такой же... ты-одна из основных причин, по которым я бросил туалетную бумагу вашу покупать. А под речеэлементным ты подразумевал компилятивный, так вроде? раньше они еще использовали закодированные с помощью ЛПК самплы и зашивались в железо.. читал в детстве лет 15 назад..

почему бы кодеру не написать в КВ?

Зная, как работает этот форум, отвечаю в данном топике последний раз (уже пошли аргументы про туалетную бумагу:-( ).

Так вот, данный материал носит ознакомительный характер (easy read), и в нем не преследовалось цели описать все. Я выбрал софт, который пользуется успехом на рынке. Говорилка, действительно, одна из лучших программ, работающих с русским текстом. Одна из лучших, потому что:

1. Она есть.

2. Она работает.

3. Она популярна.

Насчет ваших технических потугов и воспоминаний 15-летней давности... Почему бы вам, действительно не взять тему и написать материал таким, каким вы его видите.

Крис, ты не прав, лучше пиши о музыке у тебя лучше получается

Всем советую вместо Говорилки BookShelt

Просто материал устарел на пру лет. Про Speech API 5.0 ни слова. А она кстате в ХР включена по умолчанию, и TTS движок для английской речи. Про это бы хотелось услышать. Про TTS движки поддерживающие русскую реч под SAPI 5.0, программы, с ними умеющие работать.