"Говоруны" - озвучивание текста

Хотите сберечь свое зрение, а заодно и время при прочитывании различных текстов на компьютере? А желаете ли научить свой компьютер говорить? Тогда прочитайте эту статью и узнаете, как желаемое сделать явным.

Естественно, если программа будет говорить, ей потребуются соответствующие "железяки": звуковая карточка и колонки. Но чтобы услышать голос, нужны будут дополнительные компоненты: голосовой движок (Text-to-speech engine) и SpeechAPI.

Text-to-speech engine - это набор файлов с описанием голоса, позволяющий синтезировать речь из текста. Подобных голосовых движков достаточно много, и они различаются следующими параметрами: качество синтеза речи, язык (например, английский, русский, немецкий), характер голоса (мужчина, женщина), производители и пр.

SpeechAPI позволяет программам работать с Text-to-speech engine`ами.

В дистрибутив некоторых игрушек и специальных программ уже входят Text-to-speech engin`ы, так что, возможно, они есть у вас на компьютере. Однако ни движки, ни SpeechAPI уж точно не понадобятся счастливым обладателям Windows 2000, - у них это все есть.

После того, как мы произвели подготовку к осмотру "говорилок", можно начинать обозревать программы.

Говорилка. Данная программа читает голосом любой текст на любом языке. Она может читать как текст, помещенный в буфер обмена, так и находящийся в окне программы. В последнем случае она открывает большие файлы и понимает DOS- и Windows-кодировки. Благодаря автоматической прокрутке текста на экране читаемый фрагмент всегда остается видимым.

Кроме этого, программа обладает возможностями изменения скорости чтения и высоты голоса и громкости, записи речи в звуковой wav-файл.

VoiceMan. С помощью забавных персонажей (робота, волшебника, джина и др.) программа прочитает русские и английские тексты. Кстати говоря, дополнительные персонажи находятся на домашней страничке и их можно выбрать на свой вкус.

С указанной периодичностью программа выдает разные забавные фразы. А с помощью комбинации "горячих клавиш" Ctrl-W программа прочитает данные из буфера, не вызывая спрятанную программу.

VoiceMan работает под Windows 98, NT, 2000 и имеет русский интерфейс. Для полноценной работы программу необходимо бесплатно зарегистрировать, после чего она будет "Ваня! Я ваша навек".

Speaking Email Deluxe. Если первые две программы были предназначены только "для разговора", то эта - еще и для работы с почтой. Speaking Email Deluxe проверяет почтовые ящики и сообщает о новых письмах, голосом читая их заголовки и содержание.

По умолчанию программа не работает с русским, но, покопавшись в Сети, можно решить и эту проблему. Однако здесь могут возникнуть сложности с кодировкой.

CoolSpeech - еще одна программа для озвучивания текстов. Она умеет открывать и читать текстовые и RTF-файлы, а также помещенный в буфер текст. Дополнительные функции: скачивание по расписанию указанных страничек из интернета, перевод текста в WAV-файлы, чтение писем из почтового ящика и новостей с сайтов.

Speech Multilanguage - программа для чтения текстов с высоким качеством произношения на девяти языках (русском, английском, немецком, французском, испанском, итальянском, португальском, японском, датском). А поэтому она будет полезна для изучения иностранных языков, в частности, для правильного произношения. Программа может читать содержимое буфера, прятаться в трэй, а в новой версии увеличен прочитываемый буфер и поддерживается двухязыковой интерфейс.

Speech. Может читать текст из любого текстового редактора. Имеет много полезных функций и высокое качество произношения. Текст читают различные персонажи, а при наличии соответствующих голосовых блоков текст можно произносить на любом языке мира, что может быть полезно при изучении иностранных языков. Требует VB Run-time Dll 6.0.

Павел БАДЯЛИК,
fpmi@tut.by

Программы и необходимые дополнения можно найти по таким адресам:

Русский Text-to-speech engine: [2929 Kb], activex.microsoft.com/activex/controls/agent2/lhttsrur.exe, английский "движок": [2611 Kb], activex.microsoft.com/activex/controls/agent2/lhttseng.exe.

SpeechAPI: activex.microsoft.com/activex/controls/sapi/spchapi.exe

Говорилка [378 Kb], free, vecs.nm.ru/Govorilka136rus.exe

VoiceMan [930 Kb], free, www.vsen.sp.ru/vm.zip

Speaking Email Deluxe [4630 Kb], $, www.uk-software.com/deploy/email/setup.exe

CoolSpeech [2374 Kb], $, www.bytecool.com/cssetup.exe

Speech Multilanguage [678 Kb], $, multilang.virtualave.net/spm11.exe

Speech [4471 Kb], $, speech.narod.ru/speech31.zip

Версия для печатиВерсия для печати

Номер: 

30 за 2001 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

Страницы

Аватар пользователя William Cvetkoff
2frag

Я же написал, что выложена демка. Качество ее произношения далеко от идеала, это точно. Но нам нет смысла выкладывать, как в автосалонах, все что у нас есть лучшего. Мы не рассчитываем на конечного пользователя, как источник, чтобы окупить разработку программы.

William Cvetkoff

2Kirill

Спасибо, наверное только разработчик может понять, что стоит сделать что-нибудь ценное. Не зря ведь МSoft в Office встроила синтез и распознавание. Правда без русского языка :( я попользовался и скажу, что остался доволен, очень удобно, но, конечно, русский нужен...

2piligrim

Мы не светила. Не тянем и не претендуем. Просто стараемся делать свою работу качественно. Заметьте, мы могли бы склепать какую-нибудь оболочку в 200k под MS SAPI, и громко кричать какие мы умные.

Программа будет продаваться. Ориентировочно - на уровне Digalo. Будут ли ее покупать? Будут. Мы пока еще не объявляли о выходе программы, не было никакой рекламы, однако уже сейчас ко мне приходят письма с просьбами продать программу. Со всех уголков мира.

И это не голые слова.

А практическое применение... Уважаемый piligrim, Вы либо тяжелый пессимист от природы, либо еще находитесь в 19 веке.

За речевыми технологиями - будущее, но эта отрасль hi-tech слишком сложна, чтобы быстро добиться ошеломляющих результатов.

Аватар пользователя Безымянный программист
2 William Cvetkoff:

пожалуй, все-таки, нужно немножко в себе развивать нотки претензий на нечто большое, и планы строить чуть-чуть грандиознее. Нельзя же, в конце концов, совсем руки складывать... :-)

Вы проделали огромную часть работы, впереди еще столько же (если не больше) - но это не повод занижать значимость и сложность собственного труда.

Ведь всем понятно, что за такое время сравняться с аналогами гигантов практически невозможно.

Аватар пользователя piligrim
Я не пессимист и живу с вами в одно время. Сарказм мой из-за того, что очень уважаемый профессор, собственно, государственный человек, решает задачу и защищает степени при почти нулевой материальной пользе для этого государства. Если бы это была просто разработка вашей фирмы, я бы просто ограничился своими замечаниями. И всё же по-поводу демо. Вот я разработчик. Я работаю в той области, где ваша разработка могла бы пригодиться. Но мне не с чего из представленного материала судить о возможности применить это на практике. "Всего лишь Демо". Я сомневаюсь, что на основе этой Демо у вас будут массово покупать ваш продукт. И всё же от души желаю успеха, так как знаю, что такое "свободный полёт" и своя разработка.
Аватар пользователя William Cvetkoff
2 piligrim

Мы можем рассмотреть любое предложение о внедрении нашей системы. Разработки для конкретных предложений - более качественный продукт, не потому что он чего-то стоит, а потому что, нам более понятна цель, а соответственно, мы выбираем адекватные средства реализации.

Например, совсем недавно мне написал один настоятель с Валаамского монастыря. Так вот, ему дикция нашего синтеза не просто понравилась, он сказал, что Ветхий Завет подобным тоном и тембром только и надлежит слушать.

А реализация, допустим, синтеза (и распознавания - мы ведь тоже этим занимаемся) например в каком-либо бухгалтерском приложении будет несоизмеримо по качеству по сравнению с тем, что есть. Потому что словарь ограничен, мы знаем, на что сделать упор в первую очередь, на что - во-вторую и так далее.

Разработка же неогарниченного синтеза да с заточкой под голос пользователя сейчас в стадии активного написания. Будет к концу осени, может чуть позже.

Так что, если Вы пишпите, что действительно заинтересованы, но не знаете как это все работает, пишите, мыльте, может что и получится.

С уважением,

Вильям Цветков

Аватар пользователя Безымянный программист
Надо бы, наверное, и мне глянуть на чудо местных умельцев, раз про них и любимая СофтТерра написала.

Для любопытствующих, прошу: http://www.softerra.ru/review/util/golub/11887/ - "Голубятня Online / Мотив Кустурицы и синдром говорения".

Аватар пользователя Kirill
Приглашаю познакомиться с Sakrament Text-to-Speech Engine plug-in for WinAmp 1.0 Demo. Пакет выложен на сайт со вчерашнего вечера.

http://www.sakrament.com

Аватар пользователя Рациоман
Насчёт Sakrament...

Очень вдохновляет, что белорусская разработка. Потому и спешу внести посильную пользу, т.е. присоединиться к критике.

1. Демка (плагин) понимает только txt-файлы (хорошо, что любого размера), но только в Win-кодировке (ANSI). Doc, html не понимает. Удобно, что через "Send to" работает.

2. Ударения ставит более-менее правильно (процентов 70). Да?

3. Может подправите паузу между предложениями. Видимо точку не обрабатывает.

4.Произносит текст фразами из двух-трех слов, что несколько утомляет, поскольку на естественную речь не похоже, а с ритма сбивает. Лучше бы уж плавно, как в других говорилках.

5. Голос какой-то "дребезжащий", хотя колонки у меня пассивные.

6. Английский совсем не понимает, а именно произносит как будто это русские буквы. Может для английского какой-нить бесплатный движок подключите, а то ведь слова встречаются.

7. С архивами не работает.

8. Почему демка без интонации, как же качество говорения оценить... Не верится, что полная версия лучше звучит.

imho, мнение пользователя.

Но если короче, то побаловался и удалил.

Аватар пользователя епрпаср
Ну вообщем говорилка мне не понравилась.
Аватар пользователя mona
Блин, ребят - почитал, и сразу захотелось попробовать :-)

всё - полез по адресам скачивать!

всем привет!

Аватар пользователя Exiton
Привет!

В статье описаны программы-оболочки, это верно. Все как одна используют Microsoft Speech API 4 и движки для Microsoft Agent 2. Совершенно верно, что авторы сами движки не писали. Но! Написать движок даже самому гениальному программисту в одиночку не под силу - нужны знания из других областей (лингвистика и прочее). Вот и приходится использовать готовые движки, хоть и качество их речи (особенно русской) хромает на обе ноги. И ничего позорного в этом (как на это тонко намекает William Cvetkoff) нет, как нет ничего зазорного в использовании неотечественных компилляторов языков программирования, или баз данных, или... список можно продолжать долго. А раз William Cvetkoff такой патриот всего русского, не мешало бы ему для начала имя своё хотя бы по-русски писать!

Кстати, похоже, что на данный момент из всех программ вышеупомятого типа только моя (http://xcomx.narod.ru/ttsc5.html) использует SAPI 5.

Теперь о Сакраментовском движке. Читает он отвратительно, много хуже того же Дигало или LHS - уж на что они плохо читают, а вы их переплюнули.

Про то, что это демо-вариант, а продаваемая версия якобы много лучше. Ни за что не поверю, что полная версия читает лучше. Почему? А потому, что тогда на сайте Сакраменто были бы элементарно выложены звуковые файлы с образцами речи полоной версии. Это самое первое, что сделал бы любой нормальный человек/компания, сделавший хороший движок и желающий его продавать - выложил бы образцы. Какой дурак купит программу синтеза речи, когда примеры чтения недоступны, а демо-версия читает безобразно? Таких в природе не имеется!

И на кой хрен было набрасываться на WinAmp? Вполне можно было сделать движок и под SAPI, он от этого не стал бы "менее отечественным" (WinAmp тоже, кстати, не на постсоветстком пространстве написан), и заодно облегчить работу многих программистов.

По поводу реплик предыдущих товарищей про "бесперспективность" и "невыгодность" написания движков синтеза русской речи. Как будто здесь все согласны, что до сих пор ещё не написано по-настоящему хорошего русского движка, в то же время спрос на него имеется. А раз так, то вполне найдутся и покупатели, лишь бы качество синтеза было ХОРОШИМ. Я думаю причина плохого синтеза русской речи движками западных фирм элементарно кроется в том, что для этой цели они приспособили движки, изначально написанные для английского языка. Вероятно, правильнее было бы (не с финансовой точки зрения, к сожалению) писать всё с нуля для каждого языка...

Напоследок хотел бы привести ссылку на сайт, где можно послушать и приобрести воистину блестящий движок для английского языка, лучший из всех что я слышал.

http://www.naturalvoices.att.com/

Вот эти бы ребята сделали хороший движок для русского языка...

Страницы