С появлением больших языковых моделей машинного обучения в открытом доступе, многие области рутинной, а порой и доселе немыслимой работы стали автоматизироваться.
Не обошла сия судьба и "анмиксинг" (разделение уже сведённого трека на стэмы). Существует публичный список моделей, подготовленных крупными конторами и энтузиастами, который называется
MDX-23 (Music Demixing Challenge). Самые первые места у моделей, авторы которых не стремятся выложить их в открытый доступ.
Однако, открытые модели уже сейчас поражают своим качеством, и буквально манят тем, что бы экспериментировать с ними.
Вот
ссылка на тему, откуда я взял эту информацию. Использование больших моделей у себя на компьютере требует каких-то непомерных ресурсов (16 ГБ видео-памяти как входной порог, для начала), поэтому энтузиаст с вышеприведенного форума сделал
версию для Google Colab.
Демиксинг .wav на 50 мб. занимает около 5-7 минут, однако, после этого получившийся трек-аут ещё нужно скачать, а Colab ограничивает скорость весьма сильно. Этому, в теории, должно помочь архивирование папки со стэмами внутри проекта Colab. Напомню так же, что Colab это временная виртуальная машина, и после сессии все файлы удаляются, оставляя нас с шаблоном для загрузки нашего трека.
Как видите, интерфейс не очень дружелюбен, однако нет ничего с чем не разобрался бы пытливый ум в погоне за Звуком (или, скорее, Саундом)
Вот, например,
ролик с канала 2probeats, где автор применяет схожий демиксер (но, разумеется, платный) для, собственно, сведения рэпа с битом. Его принцип прост: сайдчейн супрессия мелодической дорожки от вокала, с оставлением ударных в неизменном виде. То есть, позволить так важным в рэпе ударным звучать на полную, при этом создав в треке "место" для голоса.