Говорящий WT-4

Сейчас говорящими роботами нас не удивишь, поскольку даже компьютеры могут читать текст человеческим голосом, а программы типа Yamaha Vocaloid вообще позволяют ресинтезировать пение реальных людей. Но все это в программном виде...

Тем не менее, лаборатория Туканиши (Takanishi Laboratory) из японского университета Waseda University, широко известного миру своими робо-разработками, создала уникальную говорящую модель Waseda Talker No. 4 или, сокращенно, WT-4. Уникальность данного изобретения состоит в том, что в WT-4 попытались сэмулировать голосовой и речевой тракты человека. Каким образом? Они создали механическое повторение каждого из наших органов, участвующих в речеобразовании, с определенным количеством степеней свободы движения (общее их количество для всех элементов достигает 19). WT-4 имеет "легкие", "голосовые связки", "язык" (7 степеней свободы), "губы" (5 степеней свободы), "зубы", "носовую полость", "мягкое небо". Сделаны эти элементы из специального термопластика.

Таким образом, ученые пытаются повторить особенности человеческого звукоизвлечения и создать механический синтезатор речи. На данный момент имеет смысл передать некоторую хронологию событий, которые привели к современному WT-4. Первая модель Waseda Talker была разработана в 2000 году.

WT-1 (Waseda Talker No.1)

В Waseda Talker No.1 были реализованы ключевые элементы механической конструкции, повторяющей человеческие голосовой и речевой тракты. У WT-1 имелись "легкие", "голосовые связки", "язык" с 6 степенями свободы, губы с 4 степенями свободы, "зубы", "носовая полость" и "мягкое небо". Общее число степеней свободы всех элементов равнялось 15. Данная модель позволяла воспроизводить гласные звуки "а", "и", "у", "э", "о". На самом деле это достижение имеет свою историческую параллель. Эти же звуки впервые были синтезированы в рамках механических вокодеров, изобретенных еще в конце 18 века. В 1779 году русский профессор Кристиан Краценштейн (в других источниках упоминается как Кристиан Готтлиб) создал акустическую модель, позволяющую издавать гласные звуки, используя различные геометрические формы резонаторов. И, кстати, изобретатели из Waseda University пошли по очень похожему пути...

WT-1R (Waseda Talker No.1 Refined)

В 2001 году Waseda University выпускает слегка переделанную первую модель под маркой WT-1R, которая может произносить новые звуки "с", "х", "м", "п" и слово "waseda".

В 1791 году Вольфганг вон Кампелен (Volfgang von Kempelen) представил миру акустическо-механическую говорящую машину, которая воспроизводила определенные звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. В середине 18 века это изобретение было улучшено ученым Чарльзом Уитстоуном (Charles Wheatstone) и уже могло воспроизводить гласные и большинство согласных звуков.

WT-2 (Waseda Talker No.2)

В 2002-м выходит в свет вторая модель Waseda Talker - WT-2. В предыдущих вариантах изобретатели ставили перед собой задачи простого воспроизведения звуков. Модель номер два не то чтобы может собирать из звуков слова, но и говорит голосом, похожим на человеческий. Поскольку голосовой тракт получился достаточно "длинным" (175 мм), то механически синтезированный голос Waseda был похож по тембру на голос взрослого мужчины. Это получилось благодаря оптимизации модели, в целом, - количество степеней свободы для "голосовых связок" увеличилось до 3, у "языка" уменьшилось с 6 до 5.

А в 1846 году Джезеф Фабер (Joseph Faber) представил свой говорящий орган, в котором была реализована попытка синтезирования не только речи, но и пения. В конце 18 века знаменитый ученый Александр Белл (Alexander Graham Bell) создал собственную "говорящую" механическую модель, очень схожую с конструкцией Уитстоуна. С начала 19 века года стали распространяться электрические машины, и ученые создали генераторы звуковых волн. Посему на данном этапе история механических вокодеров начинает расходиться с разработками Waseda.

WT-3 (Waseda Talker No.3)

В 2003 году WT-2 подверглась серьезной доработке и реализовалась в следующей модели - Waseda Talker No.3. В частности, было увеличено количество степеней свободы движения для "языка" и "губ". Общее их число для всех элементов составило18. В WT-3 была значительно улучшена артикуляция.

2004-2005 гг.

Появился WT-4 (Waseda Talker No.4). Мы уже описали его технические характеристики в самом начале материала, но стоит отметить, что японские изобретатели достигли определенного совершенства - эта модель уже может воспроизводить около 50 японских звуков.

Будущее

Четыре модели Waseda Talker - это только начало. Как мы можем отметить параллели с историей, Waseda Talker научится петь и, возможно, говорить на многих языках мира. Что удивительно в данной разработке, это ее механичность. В то время, когда многие акцентируют свое внимание на программных алгоритмах синтеза речи, японцы, с присущей им методичностью и точностью, решили повторить голосовой и речевой тракты человека. И, кстати, это не единственное направление, развиваемое в рамках данного университета. С такой же точностью они уже создали робота-флейтиста WF-4 (разработка началась в 1990 году и, скорее всего, легла в основу Waseda Talker), ходящие на ногах кресла WL-15 и WL-16, робота, выражающего эмоции - WE-4 (Waseda Eye No.4), двуногого "гуманоида" WABIAN-2. Во всех этих конструкциях используется механическое повторение элементов человеческого тела.

Нужно отметить, что подобными разработками сейчас занимаются многие японские ВУЗы и корпорации. Поэтому, говоря о роботах-гуманоидах, мы чаще всего обращаемся к острову восходящего солнца.

Кристофер,
christopher@tut.by

Полезные ссылки

Вибрация "голосовых связок" WT-4, снятая на специальную видеокамеру с частотой 1000 кадров в секунду, - www.takanishi.mech.waseda.ac.jp/research/ voice/movie/vocalcords.mpg.

WT-4 произносит "аиуэо" - www.takanishi.mech.waseda.ac.jp/research/ voice/movie/aiueo.mpg.

WT-4 произносит "сасисусэсо" - www.takanishi.mech.waseda.ac.jp/research/ voice/movie/s.mpg.

WT-4 произносит "папипупэпо" - www.takanishi.mech.waseda.ac.jp/research/ voice/movie/p.mpg.

Сравнение мимики человека и WT-4 при произношении слова "hassei" - www.takanishi.mech.waseda.ac.jp/research/ voice/movie/mimic.mpg.