Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Компьютерная программа справляется с чтением по губам лучше экспертов



Компьютерная программа справляется с чтением по губам лучше экспертов
2017-03-17 20:14 zarubin

Новая компьютерная программа способна читать по губам более точно, чем эксперт, и может помочь людям с потерей слуха, говорят исследователи Оксфордского университета

Искусственный интеллект, названный Watch, Attend and Spell (WAS), разработан командой оксфордских ученых во главе сAndrew Zisserman в сотрудничестве с инженерами компании DeepMind. Программное обеспечение использует методы компьютерного зрения и машинного обучения, что позволило ему научиться читать по губам из анализа более чем 5000 часов телевизионных кадров, собранных из шести различных программ . Видео содержит более 118 000 предложений и словарный запас 17 500 слов.

Zisserman с коллегами сравнивали способность новой системы и человека-эксперта, чтобы выяснить, что было сказано в беззвучном видео, исключительно по движениям губ каждого говорящего. Они обнаружили, что программное обеспечение было более точным по сравнению с профессионалом. Человек, читающий по губам, смог правильно прочитать 12 процентов слов, в то время как программа WAS разпознала 50 процентов слов в наборе данных, без ошибок. При этом, ошибки искусственного интеллекта были небольшими, такими, как нехватка одной в конце слова.

«Это здорово, чтобы увидеть исследования, проводимые в этой области, с новыми прорывами приветствовалось действий по потере слуха за счет улучшения доступности для людей с потерей слуха. AI технологии чтение с губ будет иметь возможность повысить точность и скорость преобразования речи в текст, особенно в шумной обстановке, и мы рекомендуем дальнейших исследований в этой области, и с нетерпением ждем новых достижений делается.

«Чтение по губам является впечатляющим и сложным мастерством, и мы можем надеяться, что наша работа найдет множество других приложений, таких как диктовка инструкций по телефону в шумной обстановке, перезапись архивных немых фильмов и повышения эффективности автоматизированного распознавания речи в целом, добавил соавтор разработки Joon Son Chung.



В избранное