Химия и Жизнь - Мимика и очки | Научно-популярный журнал «Химия и жизнь» 2023 №9

Мимика и очки


И. Иванов

Большинство видеотехнологий распознавания беззвучных команд, поданных движением губ человека, несовершенно — строго ограничен набор мимических сообщений, которые может уяснить программное обеспечение камеры. Да и сам их источник должен находиться рядом с видеокамерой или носить ее, например, прикрепленной к своим очкам.

Часть этих недостатков устраняет технология, которую предложили исследователи Корнеллского университета. Под руководством профессора Жанг Чена (Cheng Zhang) они создали интерфейс, управляемую интеллектуальную систему, которая распознает до 31 беззвучной команды. Для обучения мимике владельца прибору под названием EchoSpeech (ЭхоРечь) достаточно всего нескольких минут. ИИ распознает сообщения в 95% случаев. Программное обеспечение легко установить на смартфон. Работа была представлена на гамбургской конференции, посвященной человеческому фактору в компьютерных системах.

Система не требует много энергии, так как работает не на видео, а на акустических датчиках. Фактически это звуковой радар, сонар, который зондирует лицо и по отраженным волнам восстанавливает его мимику. Небольшие, диаметром меньше сантиметра, излучатели звука и приемные микрофоны укреплены на дужках очков. Постоянное облучение лица звуковыми волнами профессор Жанг никак не комментирует.

Аудиоданные, с которыми работает система EchoSpeech, занимают много меньше места, чем видеоинформация. Их просто передавать на смартфон в режиме реального времени. Для этого нужен лишь радиоканал блютуз интерфейса. Систему можно использовать для коммуникации через смартфон в шумных местах. Она также сможет стать заменой компьютерной мыши или другой управляющей периферии.

Один из авторов, аспирант Жанг Руйдонг (Ruidong Zhang), отмечает, что EchoSpeech может служить источником сигнала синтезаторов речи для немых людей. И, как профессор Жанг, особо подчеркивает, насколько новая технология способствует приватности владельца и сохранности его личных данных.

Очевидно, дешевую и эффективную технологию легко воспроизвести массово и удобно встроить, например, в систему социального контроля. Дополнительное распознавание звуков речи потребует лишь небольшой модификации программного обеспечения.

 
 
Разные разности
Анатомия «Руанского собора»
В Музее изобразительных искусств имени Пушкина в Москве в феврале и марте очень коротко прошла необычная выставка. Всего две картины Клода Моне — «Руанский собор в полдень» и «Руанский собор вечером». А рядом были представлены результа...
Пирожное как источник топлива
На волне интереса к биотопливу появилась идея использовать невостребованные хлебобулочные изделия в качестве сырья для биотоплива. А почему бы и нет? Хлеб содержит много крахмала. Он легко расщепляется ферментами на молекулы сахара, которые затем дро...
Универсальное противоядие
Ученые Исследовательского института Скриппса изучили нейротоксины, вырабатываемые многочисленными ядовитыми змеями и создали универсальное противоядие против ядов крайтов, тайпанов, кобр и мамбы.
Быстрая мода против долгой жизни
Быстрая мода сделала брендовую одежду доступной для всех. Она стоит дешево, зато и внешний вид теряет быстро, уже через несколько недель активной носки, и надо идти покупать новую. Но быстрая мода — это вредный бизнес, опасный для окружающей сре...