Российские специалисты научили смартфон читать по губам
Понимать русскую речь по движениям губ человека обучили искусственный интеллект сотрудники Санкт-Петербургского федерального исследовательского центра РАН, сообщили в Минобрнауки, пишет газета «Известия».
Программу можно установить на любой смартфон с видеокамерой. Это первая нейросеть в мире, способная понимать таким способом русский язык.
Разработку придумали, чтобы сделать возможным использование электронных голосовых ассистентов в условиях шума. Теперь их помощью смогут воспользоваться водители грузовых автомобилей, пилоты и другие профессионалы, работа которых связана с оборудованием, издающим громкие звуки.
«Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях», — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.
Материалом для нейросети стали видео со звуком, где человек произносит определенные слова. Так компьютер научился понимать самые обыденные и часто используемые команды.
Качество работы системы уже успешно испытали в условиях реальной работы водители грузовых машин российских транспортных компаний. Для этого приложение установили на их телефоны. Оказалось, что по картинке слова распознаются с точность 60–80 %, а вместе со звуком этот показатель вырос до 90 %.
Нет комментариев