Раздел форума:
Разработана система верификации личности по голосу (компьютер, программное обеспечение, плата сопряжения, электро-механический замок) со следующими уровнями ошибок: отказов от принятия решения - 0.85%, принятие "своего" за "чужого" - 0.2%, принятие "чужого" за "своего" - 0.06%.
Возможна разработка API под Win32.
Разработана программа распознавания речи раздельно произносимых слов конечного словаря с обучением на диктора на русском языке (в настоящий момент 10 цифр, без внесения серьезных изменений в программу и проведения дополнительных исследований может до 100-150 слов).
Хотел бы услышать ваши предложения по этим разработкам, а так же дельный совет: кому их можно продать или у кого к ним может быть интерес.
С уважением,
Виктор.
Я знаю Петровского из РТИ и знаю уровень его исследований :->.(Если ему не свалятся западные деньги, то до уровня разработок, имеющихся у меня, ему "грести", как минимум, года 3).
Я не знаю Серкова В.В., но думаю, что уровень его исследований не сильно выше, чем у Петровского. (Хотя я могу и ошибаться)
Прошу прощения, если я высказался слишком жестко по поводу Петровского и Серкова, особенно у них, если они прочтут эту сообщение (честно, я не хочу никого обидеть и тем более оскорбить), но на данный момент это факт.
Я позволил себе открыть форум с целью узнать мнение людей, посещающих WWW.KV.MINSK.BY, по данной технологиии, перспективах ее развития и, кроме того, решить для себя продолжать ли данные разработки в нашей стране или срочно переквалифицироваться во что-то более прибыльное (к сведению, стаж работы по данному направлению с 1993 г.).
Прочитав Ваши предложения, я понял, что РБ до таких технологий просто не доросла. Такой категоричный вывод я сделал по той простой причине, что кроме Вас этот форум никого не заинтересовал сколько-нибудь серьезно.
Еще раз прошу прошения за столь резкой послание.
Всегда Ваш
Viktor
Мне кажется, нельзя на основании одного вопроса на форуме решать, что и как делать.
Интересно было бы узнать, насколько ваш подход отличается от подхода IBM и Kurtzveil(кажется, продукт Dragon Dictate). Подобные разработки активно ведутся и в Израиле.
Я очень рад, что открытый мной форум заинтересовал еще кого-то. Прошу прощения, что так долго отвечал. Я имею достаточно большие трудности с выходом в Internet.
А теперь я постараюсь ответить на Ваши вопросы. Начну со второго. Подходы, используемые мною при распознавании голоса и речи, достаточно традиционны. В частности, при распознавании голоса используется LPC-кепстры и векторное квантование, хотя имеются некоторые собственные доработки этих алгоритмов. Если у Вас есть к этому интерес, я мог бы выслать несколько моих статей по этой теме.
Распознаванием речи я начал заниматься не так давно, около года назад. Здесь я основываюсь на подходах, предложенных и исследованных еще Рабинером, Янгом, Левинсоном и др. (скрытые марковские модели). Должен отметить, что реальное отставание от разработок Bell Labs, IBM составляет около 10 лет. Однако, применение разработок этих фирм в лоб невозможно, так как необходима адаптация к русскому языку (построение акустико-фонетической модели языка). Идеальным примером применения системы Dragon Dictate в лоб -- это "Горыныч" - программа распознавания раздельно произносимых слов русского языка. Я не знаю точно, как работает Dragon Dictate, однако, глядя на ее работу, можно предположить, что она основана на фонемном распознавании, и в основу заложены модели фонем английской речи. Применение этих моделей к посроению моделей слов русской речи не может дать той же точности на русской речи, что и на английской (фонемы русской и английской речи отличаются в корне).
Теперь, относительно первого вопроса.
Год назад была создана система автоматической верификации лисности по голосу "Вектор". Однако это была НИР и для возможности реального изготовления изделий, основанных на ней (автономное устройство, или система защиты компьютера от несанкционированного доступа, или ...) необходимы инвестиции в размере $20000-50000. Все банки и некоторые крупные фирмы республики, к которым мы обращались, считают это слишком рискованным вложением денег. (Сегодня $20000, а через 3-4 года может быть окупится. Их основной интерес: сегодня $20000, а через месяц -- $3000-5000 прибыли.) В результате известной политической ситуации в Беларуси и, соответственно, последовавшего за ней обвала экономики, у государства денег на эти цели просто нет.
Прошу простить за столь длинные словоизлияния.
С уважением Viktor.
P.S. На данный момент я ухожу из НИИ, где я сейчас работаю и занимаюсь этой темой. Жить на $24 в месяц невозможно, тем более являясь достаточно высококвалифицированным математиком (в т.ч. и по диплому) и программистом.
В ближайшее время я не собираюсь бросать заниматься этой темой, исследования по распознаванию речи интересны сами по себе.
Уверен там и деньги найдутся под такой проект.
Кстати, Виктор, года 4 назад руководство СНГ очень интересовалось возможностью использования подобного рода технологий для стенографирования речей высшего руководства. Так что можно попробовать в данном направлении поработать.
проблемой начел заниматся не давно и хател бы набраце по больше информации на эту тему. Если вы может прислать мне свои статьи и/или ссылки на другие источники то буду очень благодарен
зарание благодарю!
... Жить на $24 в месяц невозможно....
А как жил до сих пор? И при чем здесь верификация личности по голосу?
Если разработчик не знает кому продать, то знает ли он вообще надо ли кому-нибудь эта разработка?
ИМХО, вероятность несанкционированного доступа в 0,0006 выглядит достаточно неплохо - того же порядка, что у привокзальной камеры хранения (если не учитывать что у большинства людей первые две цифры кода обычно 19). К тому же наверняка этот показатель можно улучшить, если допустить большую вероятность принятия своего за чужого.
Другой вопрос, что такого рода систему нельзя ставить на ту же камеру хранения или дверь подъезда: есть люди немые или с дефектами речи. Во всяком случае, не как единственное средство идентификации.
А вот на автомобильную сигнализацию вполне сошло бы.
Меня это интересует, поскольку тоже занимаюсь аналогичной проблемой.
Кстати в качестве информации. У нас в городе есть фирма, которая долгое время работавла в комманде з западными(LHSP, IBM, а сейчас решила сделать ской движок. Разработка уже готова на 90%. Основана на скрытых марковских моделях, но движок не стационарный, а есть целый набор инструментов, который генерирует движок, основываясь на наговореной базе, после ее обработки. Язык базы не имеет значения. Тесты проведены на английской (американской) фонетической базе. Результаты довольно высоки. В дикторонезависимом режиме это около 95%.
Если у Вас есть возможность пришлите мне свои статьи. Я интересуюсь распознаванием русского языка.
Спасибо.
А вот вычислить общую закономерность в формировании фонем, должно быть можно — сдается мне, что айбиэмовская ViaVoice так и работает…
Нашёл (микросервис система распознавания речи) стоит 60 долларов(русский и английский варианты). Стоит ли присматреться к ней или есть лучше.
Посоветуйте пожалуйста. Заранее благодарю.
Если кому интересны разработки конторы, где я сейчас работаю, милости прошу на мыло: ostapenko-a@speechpro.com.
Если со мной связаться, то мыло chyzhdzenka@mail.ru.
Кстати квалифицированные разработчики нам нужны во вногих направлениях, так что милости просим.