На эту тему недавно была статья Б. Меерзона
«Новые способы измерения уровня аудиосигналов и регулирования громкости в телерадиовещании» (про громкость там начинается с середины). Постараюсь передать суть своими словами.
Новые стандарты измерения громкости, такие как EBU R128 и ITU BS.1770, были введены для того, чтобы прекратить гонку громкости на радио и ТВ, а также автоматизировать выравнивание громкости передач и рекламы. Если
RMS-уровень сигнала традиционно измеряется в дБ, то для
громкости ввели новое обозначение: LUFS (или LKFS, что то же самое) — Loudness Units, referenced to Full Scale. По сути, это те же децибелы, только применяются к громкости. Разница на x дБ теперь называется разницей на x LU (Loudness Units).
Как измеряют громкость? Похоже на вычисление RMS, но с парой отличий:
- Сигнал подвергается фильтрации (K-взвешиванию), чтобы уменьшить вклад нижних частот (похоже на традиционное A-взвешивание).
- Уровни из разных каналов многоканальной записи комбинируются с определенными весами, при этом LFE-канал исключается из вычисления.
- Время интеграции (размер окна по времени) при вычислении RMS равно 400 мс для мгновенной (momentary) громкости, либо 3000 мс для кратковременной (short-term) громкости, либо вообще всему файлу для общей (integrated) громкости программы.
- При вычислении общей громкости программы из рассмотрения исключаются сигналы, у которых моментальная громкость ниже –70 LUFS (такое гейтирование исключает тишину из оценки громкости), а также сигналы, лежащие ниже –10 дБ (или LU) относительно среднего по времени значения громкости (такое гейтирование исключает более тихие участки сигнала из оценки громкости).
Получившиеся значения RMS называются
громкостью: мгновенной, кратковременной, либо общей/интегральной. Как и в случае с RMS, громкость можно измерять в реальном времени (в т.ч., плагинами) либо быстро просканировав файл.
Стандарты громкости обычно включают в себя ограничения как на собственно громкость, так и на
истинные пиковые уровни сигнала (true peak). Отличие истинных пиковых уровней от обычных в том, что истинные включают в себя межсэмпловые пики (ISP), т.е. пики аналогового сигнала, восстанавливаемого из цифрового путем оверсэмплинга. Истинные пики могут быть несколько выше обычных пиков, особенно для сигналов со значительной энергией на верхних частотах либо прошедших через лимитер. Для их обозначения используют единицы dBTP, которые полностью совпадают с dBFS или dB, но подчеркивают, что измерены именно true peaks.
Еще одна величина, вычисляемая в стандартах, но обычно не нормируемая, называется
диапазоном громкости. Ее смысл похож на понятие динамического диапазона полезного сигнала. Для вычисления диапазона громкости рассматривается распределение (гистограмма)
кратковременной громкости по времени. Откидываются сигналы, лежащие ниже –20 дБ относительно средней кратковременной громкости, а затем 10% самых тихих и 5% самых громких сигналов. Разница между самыми громкими и самыми тихим из оставшихся сигналов и называется диапазоном громкости и измеряется в LU (что эквивалентно дБ).
Как привести фонограмму к стандарту? Если не сооответствует
общая громкость программы, надо добавить или прибрать общий уровень на столько дБ, какова промашка в LUFS. Если при этом произошло превышение
максимального уровня истинных пиков, то надо применить лимитер, умеющий ограничивать истинные пики. Если лимитер работает слишком усердно, он может повлиять и на общую громкость программы: если она выйдет за допустимые пределы, то оба шага обработки придется переделать. Либо можно применять специальные программы/плагины, позволяющие скорректировать обе величины одновременно. Если вдобавок нужно ограничить
кратковременную либо
мгновенную громкость, то этого можно добиться компрессором или лимитером, либо перемикшировав фонограмму с меньшей динамикой. Все 3 величины взаимосвязаны, поэтому, скорректировав одну, следует проверить, не изменились ли другие.