Опять про AI: что-то пошло не по предсказаниям

Вы решили, что он на ИИ?
Мне не нравится сочетание ИИ. На обучении синт построен. Каждый певец провёл часы и дни, напевая машине всё, что умеет.
Как и гугловская Blob Opera 2020-го года, только теперь свободно на нескольких языках.
 
Мне не нравится сочетание ИИ. На обучении синт построен. Каждый певец провёл часы и дни, напевая машине всё, что умеет.
Как и гугловская Blob Opera 2020-го года, только теперь свободно на нескольких языках.
Тогда можно про любой современный семплер и библиотеки контакта сказать, что это ИИ.))
 
@Lowcut, сорри, голову включите. Правильное произношение, любые мелизмы и подъезды (в версии Pro), даже вроде «стилистический» какой-то параметр есть. Какие там сэмплеры! Сэмплеры это «голливудские» хоры с псевдокатолическими слогами «pe-nis vul-vus, gra-dus por-nos», и т.п.. И объём по сравнению с библиотеками сэмплов — мизерный.
 
  • Like
  • Haha
Реакции: mitinglas, Alex_HS и MPP
Правильное произношение, любые мелизмы и подъезды (в версии Pro), даже вроде «стилистический» какой-то параметр есть. Какие там сэмплеры! Сэмплеры это «голливудские» хоры с псевдокатолическими слогами «pe-nis vul-vus, gra-dus por-nos», и т.п.. И объём по сравнению с библиотеками сэмплов — мизерный.
Ну этого и в библиотеках от Spitfire, Prominy и подобных, хватает. А размеры PRO как-то на сайте не указаны, толькi лайт.(
Стоит наверно все-таки разделять понятия "ИИ" и "построен с применением (участием) ИИ", т.к. насколько я понимаю эту шарманку уже большему ничему сам не научишь.
Ну да ладно, горланит - хай горланит.
 
 
  • Like
Реакции: Pavel Fomitchov и Antonio
@Karelia 2, Кому то повезло, всё пройдёт нормально) Сейчас повесточка: повышение доверия к ИИ(нейросетям). В америках по телику рассуждающего , как надо робота показывают, в англиях в парламент притащили.
 
Вот - "Behind the scenes, Synthesize V leverages a deep neural network-based
synthesis
engine capable of generating incredibly life-like singing voices. "
Возможно.
Но нейросети это не ИИ, это запчастка ИИ.))
Я уже писал, что следует разделять понятия "ИИ" и "построен с применением (участием) ИИ"
 
Но нейросети это не ИИ, это запчастка ИИ.))

В данном случае вопрос не в ИИ, а в том, что это синтезатор, а не семплер. Построенный на нейронной сети (как утверждают разработчики; для сравнения тот же SWAM построен на других принципах, куда более физически осмысленных), которую обучили на семплах, полученных записью настоящих вокалистов.
 
Прошу прощения заранее за лютую иронию ) ...но не удержался, в стране где по последним , официальным заявлениям росстата
около 7 миллионов ходят гадить на улицу ... а треть населения топит дровами )
люди обсуждают на форуме засилье ИИ ) трансгуманизм как он есть ) :Dle4: :D :eek:


224151
 
Должно быть вот так, если что:
Не очень корректно сравнивать.
Как минимум у этих двух портретов разные фокусные росстояния "объектива",
грубо говоря, у Джоконды 85мм, а у мужика - 24мм , искажений и должно быть больше ( другое дело, что с учетом искажений все равно может быть неверно нарисовано, но тут я не могу спорить) .
 
Последнее редактирование:
...треть населения топит дровами [a] люди обсуждают на форуме засилье ИИ ) :Dle4: :D :eek:

Тебе никто не запрещает открыть тему во Флейме о ценах на дрова и оптимизацию теплообмена русской печи. Мне интереснее обсуждать более продвинутые технологии.

Кстати о музыке. Если генерация изображений по текстовому описанию уже достигла уровня начального практического применения, то генерация звука по тексту пока сильно отстает. За исключением генерации речи (text-to-speech), у которой размер рынка в сотни раз больше.

Тем не менее, вот интересный "свежак" - декабрь 2022 года. Команда запустила исследовательскую версию генерации звука по текстовому описанию. Пока программа генерит только двухсекундные отрывки, но с другой стороны - первый блин! Корявый пока, но... интересный :)

Вот ссылка на презентацию. Демо семплы можно послушать на 8:32. Пока, конечно, все очень примитивно и ограничено простейшими электронными тембрами (на них нейросеть тренировали), но потенциал интересен. Представьте себе функцию DAW или синтезатора с текстовой генерацией тембра. Типа - "хочу клевый кик/бас/лид, чтобы внизу колбасило и вверху ерепенилось!" или более серьезно "Пилообразный аналоговый лид с модуляциями женского сопрано и соло скрипки с LFO на резонансный фильтр." А ведь появится такая игрушка лет через 5-7:)

 
Последнее редактирование:
Типа - "озвучь клевый кик, чтобы внизу колбасило и вверху ерепенилось!" А ведь появится такая игрушка лет через 5-7:)
А может, научится выдирать (точнее, создавать по образу) без артефактов сэмплы всего драмкита из песни. А живые - еще и с раундробином ) Кики, снэры, крэши...
 

Вот это тоже неплохо раскладывает, там около 20 алгоритмов сейчас, некоторые пытаются даже по стемам разложить - ударные, бас, синты - получается пока не очень, но ваншотов можно понарезать)
А вокал уже хорошо вырезают.
 
  • Like
Реакции: Nabastak
"Пилообразный аналоговый лид с модуляциями женского сопрано и соло скрипки с LFO на low pass filter."
Такое наверное и без нейросетки можно(ну разве что при распознавание текста задействовать), на основе базы сэмплов и параметров какого-то одного в меру навороченного синта.
 
Такое наверное и без нейросетки можно(ну разве что при распознавание текста задействовать), на основе базы сэмплов и параметров какого-то одного в меру навороченного синта.

Я думаю, что принципиальная разница не в том, что это возможно, а в том - какая квалификация для этого нужна. Накрутить "Пилообразный аналоговый лид с модуляциями женского сопрано и соло скрипки с LFO на low pass filter" на основе базы сэмплов и параметров сможет только талантливый и квалифицированный саунд дизайнер, а получить подобный тембр на основе ИИ текстового интерфейса сможет любая школота с фантазией. Что в принципе неплохо, поскольку снижает порог специализации для реализации креативных идей. Но и мусорного контента тоже добавит. Без этого никак...
 

Вот это тоже неплохо раскладывает, там около 20 алгоритмов сейчас, некоторые пытаются даже по стемам разложить - ударные, бас, синты - получается пока не очень, но ваншотов можно понарезать)
А вокал уже хорошо вырезают.
Это целая куча ИИ-фф.
Кто-то самый хитрый скоммуниздел все, что видел.)))
 
Я думаю, что принципиальная разница не в том, что это возможно, а в том - какая квалификация для этого нужна.
Имею ввиду, что подобная программа может быть и без нейросетки.
Под разные категории (пилообразный, суперпильный, флейтообразный, формантный, назальный, жирный, темный, светлый ) можно заранее в программе задать набор шаблонов из параметров. С тем же лфо тоже - некие усредненные значения и варьирование типа "легкий/экстремальный/медленный/быстрый/прерывистый". Приоритеты тоже расставить (например , если просто "лид", без уточнений, то пилообразный возьмется), значения по умолчанию.
В распознавании текста только сетку задействовать, выявить характеристики определений в отношении Звука, совпадающих с теми, что понимает основная программа . А то скажет школота - "бульдозероподобный" бас и надо растолковать , что это "жесткий, рычащий".
 
Последнее редактирование:
Про Synthesizer V ещё разок. Отдельную тему про этот синтезатор всяко пока рано заводить.

Один из перспективных способов скопировать манеру певца и перепеть её другим голосом с помощью этого синтезатора. Три этапа.
1) Выделить голос из фонограммы любым доступным методом (Izotope RX и т.п.)
2) Использовать программу Praat, которая анализирует и преобразует в компьютерный файл общую кривую высоты тона, вибрато, экспрессию, форманты из записи певца. Ниже картинка из программы для примера. Синяя линия - это высота тона, а красные линии - это то, что Праат определяет как форманты.

224155


3) Hataori Scripts — используя функции Synth V, берёт файлы Praat и применяет (конвертирует) их к выбранному голосу Synth V.

Обе программы пока некоммерческие, передовые, изучить их и пользоваться ими — труд немалый. Но и результат отличается от наигранного миди с добавленным текстом.
====
Ещё пара примеров. Один поганенький (кавер на песню «Ты» группы «Тринадцать карат», подростковые матюки и т.п.), но показывает, можно ли английскими фонемами русский язык изобразить. Впрочем, работа едва ли делалась тщательно. Под спойлер, ибо.

Второй ролик куда интересней и, похоже, сделан по методу Praat/Hataori. Работа не закончена, поэтому предъявлять автору копии за баланс певцов не стоит. Как раз выставленный вперёд всех лидирующий голос помогает лучше услышать достоинства, особвенности и недостатки этого метода синтеза.
А то, что заново сгенерированное аудио подложено под видео копируемого живого ансамбля, вызывает даже некоторую ностальгию: десять лет назад Свамы и Сэмплмоделинги так же начали соединять своё физмодное аудио с оригинальным видео. Типа, для убедительности.

«Nature Boy» (из репертуара Нэт Кинг Кола)




Ссылка на оригинал, с которого делалась эта миди-копия: The Real Group (youtube).
 
Последнее редактирование:
@dr-music, забавно на русском звучит)) Давно не следил за развитием голосовых синтезаторов. Лет десять назад пробовал разобраться с Вокалоидом. Ради интереса поковырял и забыл. А тут вон как уже, оказывается, поют.
 
А тут вон как уже, оказывается, поют.
Я уже морально готов заплатить пиццот баксов за обучение этому ремеслу. Курсов как таковых нет, просто покупаешь синт и пяток голосов, месяц не работаешь, не ешь, не пьёшь, а сидишь и изучаешь, экспериментируешь, читаешь, переводишь. Что хорошо, так то, что синты и голоса после прохождения курса молодого бойца (гёрл-ца) остаются в личном пользовании. Мне кажется, такая прокачка мозга стоит пятихатки зелени.

(* в кошелёк уже заглядывал, там пусто *)
 
  • Like
Реакции: Antonio
Я уже морально готов заплатить пиццот баксов за обучение этому ремеслу. Курсов как таковых нет, просто покупаешь синт и пяток голосов, месяц не работаешь, не ешь, не пьёшь, а сидишь и изучаешь, экспериментируешь, читаешь, переводишь. Что хорошо, так то, что синты и голоса после прохождения курса молодого бойца (гёрл-ца) остаются в личном пользовании. Мне кажется, такая прокачка мозга стоит пятихатки зелени.

(* в кошелёк уже заглядывал, там пусто *)
Вы о Synthesizer V? Так там особо и учится нечему. Как-то видел обзор с примерами, кажется даже на русском, а может мне просто так показалось,)) ничего сложного и всё интуитивно понятно.
 
ничего сложного и всё интуитивно понятно
За прошедшую ночь я несколько роликов обучающих просмотрел, сложного на уровне интерфейса действительно ничего нет. Но владение инструментом на пути «сделал то-то → получил такой-то художественный результат» это ведь не только про освоение кнопок. Не говоря уж о том, что, когда много раз прослушиваешь одну и ту же фразу, быстро теряешь «систему координат», начинает казаться естественным то, что на живое совсем не похоже. И работать нужно научиться быстро, с хирургической точностью внося изменения и идя дальше.

Я не верю, что синтез заменит живого артиста. Всё это синтезаторное, имхо, только для моделирования, а потом лучшее из смоделированного пусть оживает у настоящих артистов. Однако, находясь в позиции аранжировщика и придумщика всякого своего, я хочу освоить именно связку Praat + Hataori. Оба инструмента реально сложны, об этом совсем неглупые и непопсовые люди свидетельствуют. Лично у меня нет никакого голоса (вокала), вот совсем печалька с этим. Но я вполне могу напыхтеть-навопить то, что мне нужно, в правильном ритме и с правильной дикцией. Сколько дублей понадобится, вообще не важно в режиме домашней мастерской. И с использованием метода Praat/Hataori мой неважнецкий голос вполне может стать хорошим контроллером для управления вокальным синтом.
Ага, вот такая заковыка: голос как контроллер, а не как инструмент. Заманчиво, вопрос стоит изучения.
 
@dr-music, не уловил сути.((
Что должен будет контролировать ваш голос? Что-то мне кажется Вы уж сильно хитрите.))
 

Сейчас просматривают