Нова технология на DeepMind създава саундтраци за видеоклипове

Google DeepMind разработи нова технология, която може да генерира звукови саундтраци за видеоклипове, включително AI-генерирани видеоклипове и традиционни кадри без звук. Тази иновативна система, наречена Video-to-Audio (V2A), е проектирана да разбира сурови пиксели и да комбинира тази информация с текстови подкани, за да създаде звукови ефекти, съответстващи на визуалните сцени.

Екипът на DeepMind е обучил технологията върху видеоклипове, аудиозаписи и AI-генерирани анотации, съдържащи подробни описания на звуците и диалоговите транскрипции. Чрез този процес системата се е научила да свързва специфични звуци със сцените на видеоклипа. Въпреки че не е първият, който пуска AI инструмент за генериране на звукови ефекти, DeepMind твърди, че тяхната изследователска работа се откроява поради способността на технологията да разбира сурови пиксели и опционалната употреба на текстови подкани.

По време на процеса на създаване на звуков саундтрак потребителите могат да използват положителни или отрицателни подкани, за да оформят и усъвършенстват крайния продукт, гарантирайки възможно най-реалистичния и желан резултат. Въпреки това, изследователите признават, че все още работят за преодоляване на ограниченията на технологията, като например влошаване на качеството на звука поради смущения във видео източника и подобряване на синхронизирането на устните за генериран от AI диалог.

Преди да пусне технологията на пазара, DeepMind планира да я подложи на строги оценки за безопасност и тестване. С този нов инструмент създателите на съдържание ще имат повече гъвкавост при създаването на ангажиращо и реалистично аудиовизуално съдържание.

Вижте повече в прикаченото видео: