Искусственный интеллект научился угадывать звуки в беззвучных видео11.12.2021 11:30

514c5591910ec375c93b6a6af6206e48481389fd

Группа исследователей из Университета Карнеги — Меллона, совместно с компанией Runway, разработали очень интересную нейросетевую модель. С её помощью можно «озвучивать» видеоролики, которые изначально были записаны без звука.

Работает алгоритм достаточно просто — сначала он обнаруживает в кадре источники звука. Их разделяют на два типа — конкретные объекты и места с характерным фоновым звуком (например, кафе).

Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней. В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.

В конечном итоге искусственный интеллект «оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения. При этом изначально активируется лишь один из них, но пользователь может включить все пять.

Подобрав необходимые звуки, алгоритм создаёт для них временные интервалы — это позволяет добиться большей реалистичности, так как не все объекты находятся на сцене на протяжении всего ролика.