Nvidia представляет Fugatto: новый генератор искусственного интеллекта, который может издавать звуки, которые раньше не слышали

Nvidia представила Fugatto, революционный музыкальный и звуковой редактор на базе искусственного интеллекта, способный создавать совершенно новые и уникальные звуковые впечатления. Инструмент, который Nvidia называет «творческим прорывом», использует текстовые и аудиоподсказки для создания звуков, музыки и речи, которым он никогда не обучался. Эта инновационная возможность включает в себя причудливые, но интригующие примеры, такие как мяукающая труба или саксофон, имитирующий вой и лай.

Fugatto позволяет пользователям создавать аудиокомпозиции из диких и творческих подсказок. В одном примере, предоставленном Nvidia, инструмент генерирует трек под названием «Создайте вой и лай саксофона, а затем электронную музыку с лаем собак». ИИ также может создавать сложные звуковые ландшафты, такие как «глубокие, грохочущие басовые импульсы в сочетании с прерывистым, высоким цифровым щебетанием, похожим на звук пробуждения огромной разумной машины».

Возможности Fugatto выходят за рамки просто создания музыки. Он может:

• Преобразуйте голоса, изменяя тон, акцент или выражение эмоций (например, со спокойного на сердитое).
• Редактировать музыку, изолируя вокал, добавляя инструменты или меняя мелодии (например, заменяя фортепиано оперным певцом).
• Создавайте собственные звуковые эффекты на основе подробных текстовых описаний.

Для разработки Fugatto исследователи Nvidia собрали набор данных из миллионов аудиосэмплов. По словам Nvidia, инструмент был создан с использованием передовых моделей на основе инструкций, которые расширили диапазон его производительности и позволили ему изучать новые задачи без дополнительных обучающих данных. Набор данных также включал в себя множество звуковых библиотек, в том числе материалы BBC, что добавляло ему универсальности.

Компания подчеркивает способность Fugatto обеспечивать беспрецедентный творческий контроль над аудиопроизводством, позиционируя его как потенциальный переломный момент для художников, режиссеров и звукорежиссеров.

В то время как несколько компаний, в том числе Stability AI, OpenAI и Google DeepMind, рискнули создать аудиоинструменты с искусственным интеллектом, Nvidia утверждает, что Fugatto выделяется тем, что создает совершенно неслыханные звуки. Существующие инструменты искусственного интеллекта часто полагаются на предварительно обученные наборы данных для получения производных результатов, но Fugatto представляет новое измерение оригинальности, позволяя пользователям фантазировать и создавать звук, который нарушает традиционные нормы.

Распространение искусственного интеллекта в создании музыки не обошлось без противоречий. Несколько стартапов уже борются с исками об авторских правах в отношении своих музыкальных инструментов, созданных с помощью искусственного интеллекта. Сама Nvidia подверглась тщательной проверке: в отчетах говорится, что модели искусственного интеллекта обучались на субтитрах из тысяч видеороликов на YouTube.

При разработке Fugatto использовались миллионы аудиосэмплов, но Nvidia не раскрыла, как будут решаться вопросы лицензирования или авторских прав. Однако способность инструмента генерировать уникальные звуки может помочь ему избежать юридических «серых зон», часто связанных с музыкой, генерируемой искусственным интеллектом.

Несмотря на свои многообещающие возможности, Nvidia не объявила, когда и будет ли Fugatto широко доступен.