Вот по этой ссылке
http://audiowatermarking.info/awt2_details.php#examples можно скачать попарно примеры "чистых" и маркированных (по одной из коммерческих технологий) файлов. Есть отличная возможность сравнить, проанализировать, сделать выводы. Я чуть позже выложу спектрограммы с комментариями а пока на пальцах:
Все тупо до безобразия. При помощи FFT трек нарезается "прямоугольничками" около 100 мс по времени и около 1000 Гц по частоте (не по всему диапазону, только в СЧ области). А потом в каждый из этих прямоугольничков (в FFT- трансформированной области) вносится определенное значение ступенчатого фазового сдвига. Вот и все, собственно.
Считывающая система представляет собой своего рода "согласованный фильтр", который заточен на скачкообразные фазовые сдвиги с определенной периодичностью в определенных частотных полосах. Получаем поток данных числом разрядов по числу частотных полос, передающийся с частотой "нарезания" аудиосигнала. Ну и кодирование при этом делают, вероятно, хорошо помехозащищенное. Для реального муз. материала такие процессы неестественны, поэтому помехи отсеять вполне реально. Ступенчатые изменения фазы на определенных наперед известных частотах (причем "кучно" сразу в целой полосе) не пострадают при эквализировании, компрессировании, микшированиии и т.д. При достаточной ширине полос и питч шифтириование не есть помеха.
Единственое, что для алгоритма убийствено, как я понимаю, это очень узкий частотный диапазон и малая продолжительолсть сигнала. Ну и икусственно созданный мощный "фазовый шум". Хотя опять же посмехоустойчивый код может его победить. Ну и злой дисторшн, который внесет сумятицу в частотные полосы.
Любопытно было бы поиграть в прятки с детектором такой системы)))