Если коротко, разные нейронки на которых обучаются модели - в NNM это LSTM (proteus, tonex), в NAM это wavenet преимущественно (хотя LSTM тоже можно задействовать). Качество везде разное, даже в пределах одной реализации, влияет всё - доп. слои с фильтрацией, глубина (или вес) дэйтасета, сам DI как референс. LSTM плохо работают с т.н. каб-слоем, в частности в NNM у меня не получилось сделать адекватную модель, а с wavenet в NAM всё норм.