Преобразование компьютерного текста в синтезированную речь - задача, которая уже решается на уровне внедрения в операционные системы нового поколения. Чтение электронных писем, книг, документов и даже субтитров к кинофильмам - это одни из самых очевидных сфер применения данной технологии.
Нужно отметить, что одна из самых популярных технологий, использующихся для преобразования электронного текста в речь, является современным продолжением речеэлементного вокодинга. И сама система имеет несколько уровней:
- Варианты произношения звуков, соответствующих тому или иному языку. Например: "б", "п", "а"...
- Словарь, в котором обычные слова представляются в виде сочетаний запрограммированных звуков. Например: "фигуристая=фигууристая" или "темечко=теэмечко".
- Фонемная составляющая. Окрас голоса синтезатора. Для придания схожести с натуральной речью синтезатор, помимо звуков, генерирует фонемные звуки - постоянные частотные составляющие голоса каждого человека.
Наиболее распространенными и эффективными системами чтения текста являются программные модули, использующие технологию от Microsoft - "Text-To-Speech". Помимо этого, применяются и варианты от других разработчиков - Lernout &Hauspie Text-To-Speech, Digalo text-to-speech engine, IBM ViaVoice TTS, Eloquent Technology TTS.
Большинство из них мультиязычные, и среди всех прочих языков поддерживают чтение текстов на русском.
Англоязычный Text-To-Speech
Наиболее интересными для работы с английским текстом являются перечисленные ниже программы.
Text Assist - система чтения текста и даже его пропевания. Может использоваться при общении в чатах, голосовом воспроизведении электронных писем, документов и стихов.
ATTS Advanced Text To Speech - одна из самых интересных программных разработок. На вашем рабочем столе появляется смешной мультяшный персонаж и озвучивает все, что связано с чтением английского текста. Для его активизации достаточно загрузить некий фрагмент в буфер обмена. Если текст содержит элементы другого языка, программа их пропускает. Например, при загрузке в буфер моей последней статьи по звуку некий персонаж по имени James прочитал: "Yamaha, Steinberg, Nuendo, Yamaha..." - в общем, кратко передал всю суть :). Что касается персонажей, то их очень много, и вы можете выбрать как сексапильную брюнетку, так и Санта Клауса. Как говорится, на вкус и цвет. Произношение у всех очень хорошее, и для тех, кто знаком с английским, все будет понятно. ATTS я бы выделил как лучшую в данном сегменте.
Better Text To MP3 - данная программа реализует достаточно новую и интересную функцию - читает текст и одновременно все записывает в МР3-файл.
Speak and Mail v.2000 - многофункциональная программа с большим количеством настроек и возможностей. Например, может использоваться как будильник.
VoiceKey Express - достаточно старая разработка (1998 г.в.) Очень хорошо подходит для маломощных компьютеров с Win 95/98/NT 4.0. Есть множество различных настроек.
Govorilka - русский Text-To-Speech
Среди программ, работающих с русским текстом, я бы порекомендовал разработку Антона Рязанова - Govorilka (www.vector-ski.ru/vecs/govorilka). Для ее полноценной установки необходимо скачать дополнительный файл Microsoft SpeechAPI 4.0. Чем же так привлекательна Govorilka? Во-первых, данная программа бесплатна, во-вторых, вместе с дополнительными всевозможными словарями ее объем не будет превышать 600 Кб. И, в-третьих, словари в ней можно создавать самостоятельно. Программа может запускаться с командной строки, а также записывать прочитанный текст в МР3-файлы.
Проблемы чтения русского текста
В варианте систем TTS для русского языка существует множество подводных камней, а именно - наличие слов с одинаковым написанием и различными произношениями и значениями. И это никак нельзя исправить. Например: "стОит" и "стоИт", "свЕдения" и "сведЕния" - в данном случае все зависит от контекста. С английским языком, например, ситуация гораздо лучше, так как в большинстве слов ударение падает на первый слог. Программы-синтезаторы речи в данном случае даже рекомендованы как помощь при изучении языка.
Кристофер,
[email protected]
Комментарии
1. Что такое "речеэлементный вокодинг" и с какой стати это считается одной из самых популярных технологий?
2. Про "сочетания запрограммированных звуков" и "фонемную составляющую" - бред.
3. Microsoft не является автором технологии Text-to-Speech. Microsoft предложила соглашение об интерфейсе взаимодействия между синтезатором и программой - Speech API (SAPI). По этому API версии 4.0 (морально устаревшему) работает тот же Digalo.
А где Rhetorics, ScanSoft, MBROLA, Sakrament? А OpenSource синтезаторы Festival, FreeTTS, Euler?
4. Блестящие рецензии на программы! Нет слов.
5. Говорилка. "Среди программ, работающих с русским текстом..." - да ей все равно с каким текстом работать. Синтезирует речь не Говорилка, а установленный движок. При этом для "полноценной" работы ей нужен этот самый движок, который весит далеко не 600 кб. (обычно им выступает украденный Digalo). А вы пробовали открыть в ней обычную книгу, килобайт на 800? А сохранить ее в MP3 с приемлемой скоростью? Попробуйте прежде чем рекомендовать.
Хотелось бы пожелать автору дальнейших успехов и увидеть новые статьи об интересных и неожиданных применениях синтезаторов речи.
Данный материал носит ознакомительный характер и не претендует на книгу по синтезаторам речи.
Все ваши утверждения спорны. Вы, наверное, большой специалист в этой области. Хотелось бы увидеть Ваш материал/книгу/программу по этому поводу.
Так вот, данный материал носит ознакомительный характер (easy read), и в нем не преследовалось цели описать все. Я выбрал софт, который пользуется успехом на рынке. Говорилка, действительно, одна из лучших программ, работающих с русским текстом. Одна из лучших, потому что:
1. Она есть.
2. Она работает.
3. Она популярна.
Насчет ваших технических потугов и воспоминаний 15-летней давности... Почему бы вам, действительно не взять тему и написать материал таким, каким вы его видите.
Подскажите, пожалуйста