Создание музыкального видео с нейросетями - мой рабочий процесс

В блоге подробно описан процесс создания красивой сюрреалистичной анимации музыкального клипа с использованием нейросетей Leonardo ai и Runway

РУССКИЙ

Нелли Кайт

2/17/20251 min read

Создание поэтического музыкального видео — это творческий процесс, включающий несколько этапов, которые объединяют визуальные образы и ритм в последовательный и цельный опыт. Здесь я подробно расскажу о своем рабочем процессе по созданию музыкального видео, используя первые три куплета своей песни в качестве примера. Эта песня основана на моем стихотворении превращенном в песню с помощью SUNO AI.

Текст песни как основа

Каждое музыкальное видео начинается с визуальной концепции, вдохновленной текстом песни. Вот моё стихотворение "Лабиринт", с которым мы будем работать:

В мире, где всё зыбко и непрочно,
Где реальность — словно ряд зеркал,
По ступеням, как неясным строчкам,
Где мой шаг неверный исчезал.

В лабиринте жизни без указки
Как мне отыскать заветный путь?
Правила меняются, как в сказке,
И вперёд никак не заглянуть.

Сердцем я знаю,
Как поступить,
Но притворяюсь,
Что нет...
Буду умом
Лабиринт
Мастерить,
Зная прекрасно
Ответ...

Лестницы горят, ступени тают,
Шаг за шагом — в бездну пустоты.
Строки из пустыни возникают,
Странные структуры и мосты.

В мире, где всё призрачно и шатко,
Явь и сон сплетаются в узор.
Я и ты, и тайна, и разгадка,
И углей искрящихся костёр.

Скрыто всё в тумане поколений,
И начало — в складках бытия.
Но внутри есть компас, вне сомнения,
И начало — в странной букве «Я».

Для этого клипа сюрреалистическая атмосфера подходит больше всего, кроме того, меня всегда восхищал нелогичный мир рисунков М. К. Эшера, особенно его бесконечные лестницы, замыкающиеся сами на себя. Для меня это символично и отражает сложную природу нашего мышления, выбор между логикой и решениями сердца. Поэтому мне было очень интересно попробовать создать сюрреалистические пейзажи с переплетающимися сложными лестницами, напоминающими работы Эшера, но уникальные по своему исполнению.

Шаг 1: Создание раскадровки (Storyboard)

Прежде чем генерировать визуальные образы, я создаю простую раскадровку — последовательность грубых эскизов или текстовых описаний ключевых сцен. Каждая сцена должна соответствовать ритму и настроению музыки. Вот пример идей для раскадровки:

📌 Начальная сцена:

Странный, сюрреалистический мир разворачивается перед нами — парящие лестницы медленно раздвигаются, создавая изменяющийся лабиринт.

📌 В мире, где всё зыбко и непрочно, Где реальность — словно ряд зеркал,

Главная героиня входит в свой внутренний мир и сталкивается с зеркалами реальности — конструкциями разума, отражающими её самообраз, созданный на основе прошлого опыта, идей и убеждений.

📌 По ступеням, как неясным строчкам, Где мой шаг неверный исчезал.

Мир становится абстрактным, бесконечно сменяющиеся лестницы символизируют поиск, чувство потерянности и стремление к пониманию.

📌В лабиринте жизни без указки, Как мне отыскать заветный путь? Правила меняются, как в сказке,
И вперёд никак не заглянуть.

Героиня оказывается в сложных лабиринтах, вдохновленных рисунками Эшера. Её лицо становится частью узора из переплетающихся линий и извилистых путей, создавая сказочный и нереальный визуальный образ.

📌 Сердцем я знаю,
Как поступить,
Но притворяюсь,
Что нет...
Буду умом
Лабиринт
Мастерить,
Зная прекрасно
Ответ...

Здесь можно сделать визуальный намек на выход из лабиринта — ключ к свободе лежит в том, чтобы слушать сердце и сомневаться в конструкциях ума. Лабиринт начинает разрушаться, его части разлетаются, открывая истинное лицо героини. Для меня интересно когда видео дополняет и раскрывает содержание песни а не просто его иллюстрирует.

Шаг 2: Генерация статичных изображений в Leonardo AI

Чтобы создать визуально интересный и последовательный стиль, я генерирую набор изображений в Leonardo AI, которые позже будут использоваться для анимации "image to video". Используя текстовые промты, я дорабатываю каждое изображение, пока не достигну нужной эстетики, и если есть необходимость, редактирую в Фотошопе (плохо прорисованные глаза, лишние пальцы, что-то лишнее в картинке). Вот пример промта для Leonardo AI:

"Сюрреалистический мир с бесконечно парящими лестницами, стеклянными стенами, золотыми отражениями света. Одинокая фигура женщины в белом платье с длинными тёмными волосами играющей на виолончели. Кинематографическое освещение, мистическая атмосфера, сюрреализм концептуальное искусство."

Я генерирую множество вариаций, чтобы выбрать наиболее подходящие для разных сцен. В последнее время я часто использую функцию Flow в Leonardo AI, так как она предлагает много разных вариантов. В Leonardo ai есть также возможность делать картинки в одном заданном стиле, использовать пример (reference) и один и тот же персонаж. Иногда также использую Midjourney, но Leonardo мне больше нравится за эстетику и возможности тонкой настройки.

💡 Важно:

Для получения плавной и визуально цельной анимации я использую только image-to-video генерацию, избегая text-to-video моделей, так как они зачастую выдают видео с разным освещением и цветовой гаммой или же вообще разномастные по стилю.

Вот такие картинки я использовала для начала песни:

Шаг 3: Анимация с помощью Runway AI и Kling AI

Когда у меня есть достаточно изображений в одном художественном стиле, я приступаю к анимации. Для этого я использую Runway Gen-3, но в последнее время больше работаю с Kling AI. Эти инструменты позволяют создать короткие анимации 5-10 сек, придавая статичным изображениям органичное движение.

Процесс анимации включает:

✔ Загрузку изображения в программу
✔ Написание промта с описанием движения, настроения, скорости и работы камеры
✔ Генерацию коротких 5-10 секундных клипов

Этот этап занимает много времени, так как AI-генерация всё ещё несовершенна, часто возникают артефакты и искажения. Иногда приходится возвращаться к предыдущему шагу и создавать новые изображения, если исходные плохо подходят для анимации.

Шаг 4: Монтаж и синхронизация с музыкой

Когда у меня есть достаточно анимированных сцен, я импортирую их в видеоредактор (DaVinci Resolve / Adobe Premiere/Canva/Movavi) и приступаю к финальной сборке:

🎶 Разрезаю и выстраиваю клипы в соответствии с ритмом и эмоциональным посылом песни
🎭 Добавляю переходы, усиливающие эффект
🎨 Провожу цветокоррекцию, чтобы создать единое визуальное пространство
💡 Добавляю эффекты наложения, усиливающие погружение в мир видео

Заключительные мысли

Этот AI-процесс позволяет создавать артистичные музыкальные видео без традиционной съемки. Сочетая раскадровку, AI-генерацию изображений, анимацию и монтаж, можно оживить самые абстрактные и сюрреалистичные концепции, подчеркнув смысл песни.

Однако процесс остается трудоемким и требует использования нескольких AI-моделей и многоступенчатой обработки. Важно помнить, что AI — это всего лишь инструмент, а человеческое творчество, мышление, отбор и курирование результата остаются ключевыми для получения качественного конечного продукта.

🎬 А вот и финальный клип — "Лабиринт". Приятного просмотра!