Нейросети пришли и к нам. (3 онлайн)

В тему о различии с реальной музыкой.
Ребята в музыкальном чатике восторгались "невероятным уровнем" нейросеток, мол, дабстеп уже не надо писать руками, нейронки всё сделают. Пришлось сделать простой пример, чтобы подчеркнуть до сих пор существующие недостатки нейронок.

Сперва Суно 5, потом какой-то Virtual Riot (2013):

Посмотреть вложение 268912

Если у кого-то остаются вопросы, перечисляю косяки Суно в данном сравнении:
1. Тише звук. Это даже визуально по волноформе выглядит, будто лимитер забыли включить на мастере.
2. Весьма узкое "стерео". Всё топчется примерно на уровне "широкого моно", нет игр с панорамой, нет чередования широких/узких элементов, нет панорамированных элементов.
3. Не рельефные звуки синтов. То, о чём я уже писал выше - сложные звуки превращаются в кашу. Подобное я наблюдал у плотных оркестров, дисторшн гитар и синтов (суперпилы). Это тянется прям с ранних генераций, до нынешних дней. Полагаю, такая же не решаемая проблема, что и с пальцами/клавиатурами у генераторов изображений.
4. В один момент звучит только один звук. Малое разнообразие тембров. Условно, это можно отнести к задумке композиции. Но когда у Виртуал Риот под дабстеповыми синтами появляется арпеджио на втором плане - это делает музыку глубже и интереснее.
5. Сайдчейн в начале отрезка не в ритм.
6. Ещё одна глобальная проблема, то, что не попало в этот пример из-за малой длины отрезка: ритм порой сбивается. Нет строгого метронома под bpm, композиция может внезапно "заикнуться" на 1/64 ноту. Это так же отмечал мой коллега, которому много нейро демок присылают. Постоянно приходится резать, а если демку раздают разным музыкантам, могут быть проблемы.
7. Так же, не попало в демку, но стоит отметить: местами грубые переходы между частями. Fills в новых версиях Суно значительно лучше, чем в ранних, но всё ещё есть шанс получить внезапное заполнение, будто вместо перехода часть грубо подклеена.

Что по итогу? Да всё так же, как и раньше. Мы имеем некий генератор демок (на сколько они будут разнообразны - вопрос открытый), но это совсем не финальный продукт.
"Тише звук. Это даже визуально по волноформе выглядит, будто лимитер забыли включить на мастере" - или сплющенный колбасообразный продукт cо странными искажениями, но в целом динамика звука воспринимается как ксерокопия ксерокопии на выходе.
Фраза описывает все ощущения - "сложные звуки превращаются в кашу", полностью согласен.
Хотя, как инструмент снятия творческого блока работает, кмк. "Мы имеем некий генератор демок" - скорее генератор подсказок, некий калейдоскоп, который из огромной базы предлагает несколько вариантов в рамках заданной промптом идеи и общих музыкальных правил жанра и гармонии. Если идея подробно и правильно расписана - даст что-то интересное, если идея описана общими безликими слишком широкими мазками, то и на выходе что-то усредненное, среднестатистическое. Всё сугубо имхо.
В кавычках цитаты
 
Последнее редактирование:
  • Like
Реакции: MPP
дабстеп уже не надо писать руками
Сейчас, я как раз погружен в изучение устройства ломанных ритмов и жанров на них и скажу так:

Нет, так нельзя. Аргумент - саунд-дизайн, он там максимально авангардный и мы можем дать себе полный карт-бланш. Причудливые формы LFO, неочевидные источники для модуляции, полный улёт и слом мозга. Нейросеть - будет гулять вокруг нескольких клише. "Генератор демок" - может быть, но проблема аналогична, упремся в повторяемость.
 

Сейчас просматривают