AI в музыкальном производстве: вангую ближайшее будущее

Pavel Fomitchov

Упертый мелодист
10 Дек 2006
1.361
1.418
113
Нью Йорк
www.pfmusic.com
Я последние несколько недель пробую использовать набирающие огромную популярность text-to-image сервисы, которые создают изображения по текстовому описанию. Их несколько (DALL·E, MidJorney), лично мне нравится MidJorney. Я начал их смотреть потому что идея интересная, заодно решил посмотреть насколько хорошо они работают, скажем, для рисования песенных заставок для YouTube. Я пока ничего хорошего нарисовать не смог, но в их пабликах видел очень интересные работы, можно сказать мастерские! Кроме сервисов "текст->картинка" появились программы еще более высокого уровня, который создает видео по описанию (text-to-video)! Понятно, что пока это довольно примитивные модели, но они развиваются с очень большой скоростью.

Не трудно догадаться, что скоро появятся AI сервисы, которые будут работать по принципу text-to-music. Задаешь описания типа: "энергичный рок с ударными из кастрюль и соло на бензопиле" или "лирическая инструментальная баллада в размере 7/8 и темпе 123 bpm с соло горловым пением в сопровождении диксиленда" и AI выдает тебе сочинение. Если почитать, что люди просят нарисовать на text-to-image платформах - данные примеры не покажутся преувеличением:)

Я уверен, что лет через 10-15 эти технологии начнут выдавать музыкальный материал на уровне, который будет приемлем для значительной части слушателей музыки и плотно войдут в коммерцию и личную жизнь людей. Что можно ожидать?
  1. Большая часть коммерческой фоновой и прикладной музыки будет писаться автоматически на основе маркетинговых требований заказчиков (музыка для магазинов, рекламы, технических и обучающих видео и так далее).
  2. Большое количество любительских видео будет оформлены музыкальным материалом по описанию пользователей ("хочу красивый медляк типа XYX").
  3. Телефоны или видео сервисы будут автоматически подбирать или создавать музыкальный бакгроунд для видео и фото массовой публики используя автоматическое распознавание видео и фото контента.
  4. Часть населения подсядет на персонализированный музыкальный контент, когда плейлисты буду генерироваться под вкус конкретного слушателя. Захотел поработать под приятный музыкальный фон, описал настроение и стиль и получил свой персональный стрим.
  5. Появится новая и достаточно востребованная профессия - "Генератор AI контента." По типу веб-дизайнеров лет 20 назад, где народ примется работать над заказами, руля этим AI сервисами лучше чем, Вася с улицы. Заработки будут копеечные, но желающих заработать - масса.
  6. Эта технология начнет выполнять типовые музыкальные заказы обычных людей типа музыки для детских выступлений и праздников, поздравлений, конкурсных выступлений школьного и детсадовского уровня, музыку для спортивных номеров и так далее.
  7. Судя по всему, начнется проблема с авторскими правами на наиболее интересные AI работы. Кто является автором хита - человек, придумавший описание клевой музыки или разработчики AI алгоритма, который сочинил и озвучил эту идею? Эта проблема уже появилась с изображениями.
В общем, интересно будет посмотреть, что из этого получится и сбудется. Джин из бутылки уже выпущен!
 
Последнее редактирование:
Уже лет 10 как вангуют, а как и что использовать уже по существу, это у кого выдумки только на что хватит, думаю и этим не ограничится )
На счет прав и прочего, все просто, читайте договор, скорее владелец технологии все права оставит за собой, а вам либо подписать, либо отказаться.
Хотя возможны и варианты, как с Брюсом Уилисом, когда дипфэйку продают его лицо и голос и только на отдельные рекламные продукты, типа Мегафона. Ну у него уже здоровье не позволяет самому, но право на самого себя он еще имеет. Тип вы Шопен или Шуберт и хотят прям как у вас, но вы лично не нужны.
Щас вон разговоры, что стратегические решения может ИИ принимать и тп... Уж не говоря, что там на биржах может и как играть на акциях. Музыка это так, только цветочки ) У Маска уж наверняка он есть собственный давно, уж больно он хорошо идет )))
 
Последнее редактирование:
На github встречал какой-то скрипт на Python, генерит мидишные мелодии из ключевых слов найденых в скормленом скрипту тексте. Алгоритм примитивный, но прикольный.
 
На github встречал какой-то скрипт на Python, генерит мидишные мелодии из ключевых слов найденых в скормленом скрипту тексте. Алгоритм примитивный, но прикольный.
как понимаю, примитивность зависит только от ресурсов мощностей компьютерных, если взять сотни тысяч компов производительных, то они очень далеко могу этот ИИ продвинуть, просто обучение много времени занимает. А отдельный комп будет все это долго переваривать самостоятельно под конкретную задачу. То что у пользователей в плагинах, это уже готовые решения ИИ, а не как он работает с ними в живую и анализирует, и адаптирует.
 
Я такое слушать не буду.
И продолжу собирать альбомы доаишной эпохи.
 
  • Like
Реакции: wolfire
"Меблировочная" музыка по сути да, станет легко генерируемым контентом по тегам, а дальше посмотрим
 
  • Like
Реакции: fakeitback
Жуткие картины, будто из мертвячины старательно пытается кто-то красоту лепить. Причем, что интересно, свой стиль узнаваемый есть.

Судя по всему, начнется проблема с авторскими правами на наиболее интересные AI работы. Кто является автором хита - человек, придумавший описание клевой музыки или разработчики AI алгоритма, который сочинил и озвучил эту идею? Эта проблема уже появилась с изображениями.
Если музыкант получит по тексту музыку и ее сыграет/запишет, то наверное, комар носа не подточит ) ...
Хотя, тут тоже.. можно ж на стороне системы хранить все миди за период(много ж они не весят. ну и если там категориями миди вообще мыслится), а потом бац так и сопоставлять хиты - мое это, аишное, держи плагиатора ))

Я такое слушать не буду.
И продолжу собирать альбомы доаишной эпохи.
Как ассистанта ж можно использовать, интересные идеи собрать, свои добавить, может, и не поймете, что аи голову приложил.

"cгенерируй мне содержимое утерянного телефона Хэммета с 400 риффов" )
 
Последнее редактирование:
Насчёт визуала всякого, до недавнего времени популярный в этом деле был вроде гугловский disco diffusion (там и для картинок и для видео). Попробовал, показалось всё так долго и замучено, что всё вдохновение уйдёт пока нагенерит там чегото ) Очень долгий процесс был. Плюс ошибки какието, с кодом нужно разбираться т.е. с скриптами всякими. Приэтом незнаешь какой будет результат, т.е. стоит ли оно этого ожидания.

Тогда подумалось, с таким успехом эффективнее будет вложиться в какие нибудь не АИшные визуал дебри (циклинг макс, 3дмакс\тифлов, или нового уже есть чего, tooll3 например), где заместо АИ будет старый добрый рандом. И учитывая возможный опыт его настройки, верю что результат может быть не мение интересным. Больше контроля, т.е. осознанной случайности, и с авторским вопросом заморачиваться ненадо. Как итог больше радости от жызни.
Хотя конечно прогресс не стоит на месте, может эти мысли и неактуальными станут.
 
@vip76, нет, примитивность была в том что парсер последовательно сканирует текст, сопоставляет найденые слова аккордам и отдельным нотам прописаным в скрипте, паузы расставляет и акценты по знакам препинания (если я правильно понял), а дальше превращает в мидяшку.
Хотя сейчас пошла мода на генеративную музыку, кучу каких-то автосеквенцеров наклепали которые якобы по принципам музыкальной гармонии сочиняют мелодии, только я наблюдаю паршивую рандомизацию в которой чаще получается лажа на сотню нот, чем что-то реально слушабельное.
 
На сайте ASR поднималась тема с машинным улучшением треков в низком разрешении (такой DSLR).

Один энтузиаст попытался написать код, но упёрся в очевидный недостаток мощностей. Ведь в отличии от картинки, которая статичная и её легко "подрисовать", аудиотрек - это график в динамике, то есть таких отдельных картинок там содержится огромное количество.

Но в общем и целом, научных исследований на эту тему в открытом доступе всё ещё нет.
 
Послушаешь эти поделия на сайтах генеративной музыки и очень китайскую музыку напоминает.
:cool:
Если серьезно, то уже много кто использует то, что там нагенерировано.
Может и не полностью, но какие части точно.
Иначе чем объяснить такую популярность этих ресурсов.

Тут аж целая статья с ссылками.

Пока что все, кмк, это игрушки.
 
Последнее редактирование:
Пробовал тоже несколько таких типа ИИ. Одна даже чего-то путное генерировала, но настолько шаблонно, что все композиции похожи одна на другую. Другие же генерируют этакий музыкальный абсурд )) Думаю лет 10 еще особо можно не переживать за работу живых композиторов, а то и более )
 
Думаю лет 10 еще особо можно не переживать за работу живых композиторов, а то и более )

Согласен с тем, что до полного внедрения технология будет созревать и развиваться еще как минимум лет десять. Но учитывая количество вкладываемых денег (сотни миллиардов) и усилий (десятки тысяч человекочасов), есть все основания полагать, что стоит ожидать качественный скачек. В конце концов между первым полетом братьев Райт и полетом человека в космос прошло всего 60 лет.
 
Согласен с тем, что до полного внедрения технология будет созревать и развиваться еще как минимум лет десять. Но учитывая количество вкладываемых денег (сотни миллиардов) и усилий (десятки тысяч человекочасов), есть все основания полагать, что стоит ожидать качественный скачек. В конце концов между первым полетом братьев Райт и полетом человека в космос прошло всего 60 лет.
Сейчас всё развитие упирается в финансы практически. Если б этим занялся Маск вместо своих свиней, роботов и полетов на Марс, то было бы уже года через два наверняка ))
 
ai.jpg
 

Сейчас просматривают