В своей статье Александр Рылов вскользь упомянул о системе верификации личности по голосу "Голосовой ключ", которую при встрече удалось посмотреть в работе. Разработчик системы, ученый, а сейчас частный предприниматель, сразу согласился на наше предложение встретиться и поговорить на тему интеллектуальных речевых технологий.
- Как давно вы занимаетесь распознаванием речи и проблемами верификации человека по голосу?
- В теперешнем составе группа из трех научных сотрудников работает с 1994 года. Если честно, то наша разработка "Голосовой ключ" была в целом готова еще несколько лет назад. Реализация самой идеи, демонстрационная модель, была разработана уже в 1995 году, но тогда еще не могли провести полномасштабные экспериментальные исследования, надо было не просто прокачать 15 тысяч тестов, но иметь хорошую базу данных, которую без соответствующего финансирования не создать. Все это нам удалось сделать в рамках государственной программы "Ахова" в 1996-1997. Были сделаны модели, мы провели тесты, результаты которых я привел в своей статье. В 1998-2000 годах создавался непосредственно продукт, хотя финансирование было уже прекращено.
- Вы до сих пор рассчитываете на помощь государства?
- Нет, уже нет.
- Еще в конце 1998 года на форуме "КВ" (www.kv.by/forum/forum1000000032.htm) Виктор Чижденко, который представился как научный сотрудник, аспирант БГУИР, говорил о том, что разработана некая система "Вектор" - верификация личности по голосу с использованием LPC-спектров и векторного квантования. Это как-то связано с вашими разработками?
- Конечно, связано! Виктор работал в нашем НИИ, он отличный программист. Он говорил как раз о нашей системе "Голосовой ключ", которая без него, может быть, так никогда и не появилась бы на свет. Мы довольно тесно сотрудничали, и я был его научным руководителем.
- А еще он говорил, что собирается уходить из НИИ, потому что "жить на $24 в месяц невозможно, тем более являясь высококвалифицированным математиком и программистом".
- Сейчас Виктор Чижденко является программистом в одной французской компании. Но все же мы до сих пор продолжаем работать над нашими технологиями просто "для души"…
- У вас есть только технологии или уже готова система, которую можно продавать?
- "Голосовой ключ" - готовый продукт, который мы можем продавать. Это динамически подключаемая библиотека (DLL), которую мы можем встроить в любые другие продукты по желанию заказчика. Или это может сделать сам заказчик, имея даже не слишком большой опыт в программировании. Остальные наши системы еще нужно доводить до ума. Это демонстрационная модель распознавания речи по ограниченному словарю (распознавание цифр), которая настраивается на голос диктора, и система идентификации личности по произвольной речи. Правда, в сыром виде. Во всех наших разработках используются самые современные алгоритмы, последние достижения в этой области.
- С такими уникальными разработками вы уже должны быть миллионерами…
- На самом деле мы не имеем пока ни одного клиента, и только сейчас оформились как частная фирма. У нас вообще очень мал соответствующий потребительский рынок - такие системы реально пока покупают разве что силовые структуры, МВД, российское ФАПСИ и т.д. Они используют их в том числе для различных экспертиз, когда нужно с абсолютной точностью определить, кому именно принадлежит записанный голос. Мы сами проводим такие криминалистические экспертизы, когда к нам обращаются.
- Кто-нибудь на просторах бывшего Союза занимается сейчас подобными вещами?
- Да, есть очень крупная компания - "Российский центр речевых технологий" (stc.rus.net). Они создают целые программно-аппаратные комплексы. И хотя я могу с уверенностью сказать, что наши алгоритмы верификации личности по голосу являются более продвинутыми, все-таки этой компании удалось сильно раскрутиться за счет продаж своих комплексов в различные российские силовые структуры. Кстати, недавно они приезжали и в Беларусь - продали нашему МВД несколько своих систем.
- Тот же Виктор Чижденко на форуме сказал, что по распознаванию речи реальное отставание от разработок Bell Labs или IBM составляет около 10 лет…
- Все верно, но это касается только распознавания речи. Впрочем, здесь очень важна специфика того языка, для которого создается система - русский и английский сильно отличаются на уровне фонем.
Для систем верификации личности разница в языках совершенно не важна, так как здесь математически анализируются различные характеристики голоса, вне зависимости от смыслового содержания. Тут мы вполне можем конкурировать с западными фирмами. Они не создали еще ничего принципиально нового. Скорее, наоборот - все их системы отличаются излишней "перегруженностью" и по своим характеристикам - время настройки на голос, точность распознавания и т.д. - уступают нашей системе.
Система, которую делаем мы, на порядок проще, чем у наших коллег за рубежом, они используют очень сложные методы, которые делают программы обучения и распознавания трудоемкими для пользователя.
- То есть вполне реально создать конкурентноспособный продукт даже для западного рынка?
- Все, что касается верификации и идентификации - запросто. А что касается создания коммерческого продукта по распознаванию речи - они ушли далеко вперед. В принципе, мы могли бы это сделать, но даже при достаточном финансировании разработка будет идти несколько лет в связи с огромной наукоемкостью. Сам термин "высокие технологии" удостоился внимания правительства, существует Указ президента РБ "О стимулировании, создании и развитии в РБ производств, основанных на новых и высоких технологиях", а также постановление Совета министров РБ №139 - перечень приоритетных направлений, где приводится и система распознавания синтеза речи, текстов и изображений. Однако все это, к сожалению, остается только на бумаге, деньги уходят куда-то в другом направлении.
- Вы же сказали, что не рассчитываете на помощь государства?
- Совершенно верно. Поэтому мы и создаем собственную фирму под названием БРТ - "Белорусские речевые технологии". Мы намерены продвигать наши продукты, а также искать пути негосударственного финансирования дальнейших разработок.
- Успехов вам, спасибо за интервью!
Беседовал Анатолий АЛИЗАР