Пару раз из спортивнаго интереса этим занимался еще в эпоху саундбластеров и чистого миди, мой метод был такой:
wav-дорогу в хост,
отстукиваем или отрисовываем клики, далее fit-to-imporvisation темп отрисовываем, чтобы сходилось (если скорости изменения темпа велики, по сравнению с долей - ручками, так чтобы сошлось

)) )
дальше - снимаешь партии (будь прокляты ревер и короткие дилеи в быстрых пассажах

)) ), пишешь с метрономом или рисуешь, если не можешь, вставляешь, корректируешь. Вообще без опыта игры на инструментах - в некоторых случаях не реально, т.к. часто приходится скорее догадываться как это игралось.
Гемор - жуткий! На определенном этапе - я просто забивал.
Не говоря уже про подбор тембров - тогда он был не возможен.
Но результат даже голого миди с недостатком второстепенных партий впечатлял, т.е. именно "filling" живаго материала - можно воспроизвести довольно аутентично.
В караоке - обычно делали по-другому - воспроизводили лишь главные "фишки", а остальное по-проще...
зы. Еще спектрограммы в cooledit (теперь Adobe Audition) помогали - кое-что можно увидеть, если не слышно, или понять чего отфильтровывать, чтобы услышать.