За 2 месяца никто на мой вопрос так и не смог ответить, печально.
Закидываю в Рипер видео mp4, в котором звук в aac, результат вывожу в mp3 и простой софтинкой Yamb подменяю полученный звук в исходном видео.
Да просто надо рабочий процесс выстроить правильно, и не использовать никакие lossy форматы сжатия в промежуточном виде, только на финальной стадии.
Выливаете вавку, отдаёте её клиенту, пусть он в монтажке уже подставляет новую звуковую дорожку сам, какие ещё mp3? Это вообще формат не для того предназначенный.
Если просят самому заменить звук в видео — либо считать видос из самого рипера, либо через ffmpeg (с сохранением оригинального видеопотока без перекодирования, звук кодируется в AAC непосредственно из WAV):
ffmpeg -i video.mp4 -i audio.wav -c:v copy -map 0:v:0 -c:a aac -b:a 320k -map 1:a:0 out.mp4