EA001087B1

EA001087B1 - Многоканальный прогнозирующий кодировщик поддиапазона, использующий психоакустическое адаптивное распределение бит

Info

Publication number: EA001087B1
Application number: EA199800505A
Authority: EA
Inventors: Стефен М. Смит; Майкл Х. Смит; Уильям Пол Смит
Original assignee: Диджитал Театр Системз, Инк.
Priority date: 1995-12-01
Filing date: 1996-11-21
Publication date: 2000-10-30
Also published as: BR9611852A; DE69633633T2; AU1058997A; CN1303583C; ES2232842T3; CA2238026A1; CA2331611A1; EA199800505A1; US5974380A; HK1149979A1; CN1848242B; HK1092270A1; US5956674A; JP4174072B2; US6487535B1; CA2238026C; EP0864146B1; CN1132151C; CN1848242A; CN101872618A

Description

Настоящее изобретение относится к высококачественному кодированию и декодированию многоканальных аудиосигналов и, более конкретно, к кодировщику поддиапазона, который использует фильтры полного/неполного восстановления, прогнозирующее/непрогнозирующее кодирование поддиапазона, анализ переходного процесса и психоакустическое/минимальной среднеквадратической ошибки (МСКО) распределение бит во времени, по частоте и множественным аудиоканалам для генерации потока данных с ограниченной вычислительной нагрузкой декодирования.

Описание предшествующего уровня техники Известные высококачественные аудио и музыкальные кодировщики могут быть разделены на два класса схем. Первый включает в себя кодировщики поддиапазона/преобразования от среднего до высокочастотного разрешения, которые адаптивно квантуют поддиапазон или выборки коэффициентов внутри кадра анализа в соответствии с вычислением психоакустической маски. Второй включает в себя кодировщики поддиапазона низкого разрешения, которые компенсируют свое плохое частотное разрешение обработкой выборок поддиапазона, используя адаптивную дифференциальную импульснокодовую модуляцию (АДИКМ).

Первый класс кодировщиков использует большие краткосрочные спектральные изменения обычных музыкальных сигналов, путем адаптации распределений бит в соответствии со спектральной мощностью сигнала. Высокое разрешение этих кодировщиков позволяет подавать частотно преобразованные сигналы непосредственно в психоакустическую модель, которая основана на теории критического диапазона частот слуха (предела слышимости). Аудиокодировщик АС-3 Долби, Тодд и др. «АС 3: гибкое кодирование восприятия для аудиопередачи и запоминания», Съезд общества аудиоинженеров, февраль, 1994, обычно вычисляет 1024 быстрых преобразований Фурье (БПФ) на соответствующих сигналах импульсно кодовой модуляции (ИКМ) и подает психоаналитическую модель в 1 024 частотных коэффициента в каждом канале для определения скорости бит для каждого коэффициента. Система Долби использует анализ импульсной помехи, который уменьшает размер кадра до 256 выборок для выделения коротких импульсов. Кодировщик АС-3 использует ранее запатентованный алгоритм обратной адаптации для декодирования распределения бит. Это уменьшает количество информации распределения бит, которую посылают вместе с закодированными аудиоданными. В результате ширина полосы частот для аудиосигнала увеличивается больше прямых адаптивных схем, что приводит к улучшению качества звука.

Во втором классе кодировщиков квантование дифференциальных сигналов поддиапазона является либо фиксированным, либо адаптируется для минимизации мощности шума квантования на всех или некоторых из поддиапазонов без какого-либо явного отношения к теории психоакустической маскировки. Общепринято, что прямой порог психоакустического искажения не может быть применен к прогнозирующим/дифференциальным сигналам поддиапазона из-за трудности оценки эффективности прогнозатора перед процессом распределения бит. Проблема дополнительно усложняется воздействием шума квантования на процесс прогнозирования.

Эти кодировщики работают, поскольку воспринимаемые критические аудиосигналы являются обычно периодическими в течение длительных периодов времени. Эта периодичность используется прогнозирующим дифференциальным квантованием. Разделение сигнала на небольшое число поддиапазонов уменьшает слышимые эффекты модуляции шума и допускает использование длительных спектральных изменений в аудиосигналах. Если число поддиапазонов увеличивается, выигрыш прогнозирования внутри каждого поддиапазона уменьшается и в некоторой точке выигрыш прогнозирования будет стремиться к нулю.

Цифровые театральные системы, Ь.Р. (ЦТС) используют аудиокодировщик, в котором каждый аудиоканал ИКМ фильтруют в четыре поддиапазона, и каждый поддиапазон кодируют с использованием обратного кодировщика АДИКМ, который адаптирует коэффициенты прогнозатора к данным поддиапазона. Распределение бит является фиксированным и одинаковым для каждого канала, причем более низким частотным поддиапазонам назначается больше бит, чем более высоким частотным поддиапазонам. Распределение бит обеспечивает фиксированную степень сжатия, например, 4:1 . Кодировщик ЦТС описан Майком Смитом и Стефаном Смитом, «АРТ-Х100: аудиокодировщик АДИКМ поддиапазона малой задержки, низкой скорости бит для радиовещания», Труды 1 0-ой международной конференции общества аудиоинженеров, 1991, с. 41-56.

Оба типа аудиокодировщиков имеют другие общие ограничения. Во-первых, известные аудиокодировщики кодируют/декодируют с фиксированным размером блока, т.е. число выборок или период времени, представляемый блоком является фиксированным. В результате, когда скорость закодированной передачи увеличивается относительно скорости выборки, количество данных (байтов) в блоке также увеличивается. Следовательно, размер буфера декодировщика должен быть спроектирован с учетом наихудшего случая для избежания переполнения данных. Это увеличивает величину памяти с произвольной выборкой (ППВ), которая являет3 ся наиболее дорогой компонентой декодировщика. Во-вторых, известные аудиокодировщики являются трудно расширяемыми для частот выборки больше, чем 48 кГц. Это сделало бы существующие декодировщики несовместимыми с форматом, требуемым для новых кодировщиков. Это отсутствие будущей совместимости является серьезным ограничением. Кроме того, известные форматы, используемые для кодирования данных ИКМ, требуют, чтобы весь блок был считан декодировщиком перед тем, как начнется воспроизведение. Это требует, чтобы размер буфера был ограничен приблизительно до блоков данных 100 мс, таких, чтобы задержка или время ожидания не раздражала слушателя.

Несмотря на то, что эти кодировщики имеют способность кодирования до 24 кГц, часто более высокие поддиапазоны отбрасывают. Это уменьшает высокочастотную достоверность или окружение восстановленного сигнала. Известные кодировщики обычно используют одну из двух типов схем обнаружения ошибки. Наиболее распространенным является кодирование Рида Соломона, в котором кодировщик добавляет биты обнаружения ошибки к вспомогательной информации в потоке данных. Это облегчает обнаружение и коррекцию любых ошибок в вспомогательной информации. Однако ошибки в аудиоданных проходят необнаруженными. Другим подходом является проверка блока и аудиозаголовков для неправильных состояний кода. Например, конкретный 3-битовый параметр может иметь только 3 правильных состояния. Если идентифицируют одно из других 5 состояний, возникает ошибка. Это обеспечивает только способность обнаружения и не обнаруживает ошибки в аудиоданных.

Краткое изложение изобретения

Принимая во внимание вышеупомянутые проблемы, настоящим изобретением предложен многоканальный аудиокодировщик с гибкостью приспосабливания широкого диапазона уровней сжатия с лучшим качеством, чем компакт-диск, на высоких скоростях бит и улучшенным качеством восприятия на низких скоростях бит, с уменьшенным временем ожидания воспроизведениия, упрощенным обнаружением ошибок, улучшенным искажением предэха и дополнительной расширяемостью в более высокие частоты выборки.

Это достигается кодировщиком поддиапазона, который кадрирует каждый аудиоканал в последовательность аудиоблоков, фильтрует блоки в диапазон основной полосы частот и высокочастотный диапазон и разделяет каждый сигнал основной полосы частот на множество поддиапазонов. Кодировщик поддиапазона обычно выбирает неполный фильтр для разделения сигнала основной полосы частот, когда скорость бит является низкой, но выбирает полный фильтр, когда скорость бит является достаточно высокой. Высокочастотный каскад кодирования кодирует высокочастотный сигнал независимо от сигнала основной полосы частот. Каскад кодирования основной полосы частот содержит кодировщик векторного кодирования (ВК) и кодировщик адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ), которые кодируют более высокие и более низкие частотные поддиапазоны, соответственно. Каждый блок поддиапазона содержит по меньшей мере один подблок, каждый из которых дополнительно подразделяется на множество подподблоков. Каждый подблок анализируют для оценки выигрыша прогнозирования кодировщика АДИКМ, причем способность прогнозирования блокируют, когда выигрыш прогнозирования является низким, и для обнаружения переходных процессов для регулировки масштабных коэффициентов (МК) перед и после переходным процессом.

Система глобального управления битами (ГУБ) распределяет биты в каждый подблок, используя разности между множественными аудиоканалами, множественными поддиапазонами и подблоками внутри текущего блока. Система ГУБ первоначально распределяет биты в каждый подблок вычислением его отношения сигнала к маске (ОСМ), модифицированного прогнозируемым коэффициентом передачи для соответствия психоакустической модели. Затем система ГУБ распределяет оставшиеся биты в соответствии с подходом минимальной среднеквадратической ошибки (МСКО) для того, чтобы либо немедленно переключиться в распределение МСКО, ниже общего минимального уровня шума, либо постепенно морфировать в распределение МСКО.

Мультиплексор генерирует выходные блоки, которые содержат слово синхронизации, заголовок блока, аудиозаголовок и, по меньшей мере, один подблок, и которые мультиплексируют в поток данных со скоростью передачи. Заголовок блока содержит размер кадра текущего выходного блока. Аудиозаголовок указывает устройство упаковки и формат кодирования для аудиоблока. Каждый аудиоподблок содержит вспомогательную информацию для декодирования аудиоподблока без ссылки на другой подблок, коды высокочастотного ВК, множество аудиоподподблоков основной полосы частот, в которых аудиоданные для низкочастотных поддиапазонов каждого канала упаковывают и мультиплексируют с другими каналами, высокочастотный аудиоблок, в котором аудиоданные в высокочастотном диапазоне для каждого канала упаковывают и мультиплексируют с другими каналами так, что многоканальный аудиосигнал является декодируемым на множестве частот выборок декодирования, и синхронизацию распаковки для проверки конца подблока.

Размер кадра выбирают как функцию отношения скорости передачи к частоте выборки кодировщика так, что размер выходного блока ограничен, чтобы находиться в требуемом диапазоне. Когда величина сжатия относительно низкая, размер кадра уменьшают так, чтобы он не превышал верхнего максимума. В результате декодировщик может использовать входной буфер с фиксированной, относительно малой величиной памяти с произвольной выборкой (ПИВ). Когда величина сжатия относительно высока, размер кадра увеличивается. В результате система ГУБ может распределять биты относительно большего временного кадра, таким образом улучшая эффективность кодировщика.

Эти и другие особенности и преимущества изобретения станут очевидны специалистам в данной области техники из нижеследующего подробного описания предпочтительных вариантов осуществления со ссылками на сопровождающие чертежи и таблицы.

Краткое описание чертежей

Фиг. 1 - блок-схема 5-канального аудиокодировщика в соответствии с настоящим изобретением;

фиг. 2 - блок-схема многоканального кодировщика;

фиг. 3 - блок-схема кодировщика и декодировщика основной полосы частот;

фиг. 4а и фиг. 4Ь - блок-схемы кодировщика и декодировщика высокой частоты выборки;

фиг. 5 - блок-схема простого кодировщика канала;

фиг. 6 - график байтов на блок относительно размера блока для переменных скоростей передачи;

фиг. 7 - график амплитудной характеристики для фильтров неполного и полного восстановления (НИВ и ИВ);

фиг. 8 - график эффекта наложения поддиапазона для фильтра восстановления;

фиг. 9 - график кривых искажения для фильтров НИВ и ИВ;

фиг. 10 - принципиальная схема кодировщика одного поддиапазона;

фиг. 11а и фиг. 11Ь - обнаружение переходного процесса и вычисление масштабного коэффициента, соответственно, для подблока;

фиг. 1 2 - процесс кодирования энтропии для квантованных значений ΤΜΘΌΕ;

фиг. 13 - процесс квантования масштабного коэффициента;

фиг. 1 4 - свертывание маски сигнала с частотной характеристикой сигнала для генерации отношений сигнала к маске (ОСМ);

фиг. 1 5 - график слуховой реакции человека;

фиг. 1 6 - график значений ОСМ для поддиапазонов;

фиг. 1 7 - график сигнала ошибки для психоакустического распределения бит и распределения бит с минимальной среднеквадратической ошибкой (мско);

фиг. 18а и фиг. 18Ь - график уровней мощности поддиапазона и инвертированный график, соответственно, представляющие процесс распределения бит с «заполнением водой» мско;

фиг. 1 9 - блок-схема одного блока в потоке данных;

фиг. 20 - принципиальная схема декодировщика;

фиг. 21 - блок-схема аппаратурной реализации кодировщика;

фиг. 22 - блок-схема аппаратурной реализации декодировщика.

Краткое описание таблиц

Таблица 1 представляет максимальный размер блока относительно частоты выборки и скорости передачи;

таблица 2 представляет максимально допустимый размер блока (байты) относительно частоты выборки и скорости передачи;

таблица 3 представляет зависимость между значением индекса ΑΒΙΤ, числом уровней квантования и результирующим ОСШ.

Подробное описание изобретения

Многоканальная система аудиокодирования.

Как показано на фиг. 1 , настоящее изобретение объединяет особенности обеих известных схем кодирования и дополнительные особенности в едином многоканальном кодировщике 1 0. Алгоритм кодирования разработан для выполнения на качественных студийных уровнях, т.е. качестве «лучше, чем компакт-диска», и обеспечивает широкий диапазон применений для различных уровней сжатия, частот выборки, длин слов, числа каналов и качества восприятия.

Кодировщик 12 кодирует множественные каналы аудиоданных 14 импульсно-кодовой модуляции (ИКМ), обычно выбираемые при 48 кГц с длинами слов между 1 6 и 24 битами, в поток 16 данных при известной скорости передачи, предпочтительно в диапазоне 32-4096 кбит/с. В отличие от известных аудиокодировщиков настоящая архитектура может быть распространена на более высокие частоты выборки (48-192 кГц) с обеспечением совместимости с существующими декодировщиками, которые были разработаны для частоты выборки основной полосы частот или любой промежуточной частоты выборки. Кроме того, данные 1 4 ИКМ кадрируют и кодируют по одному блоку, где каждый блок предпочтительно разбивают на 1 -4 подблока. Размер аудиокадра, т.е. число выборок ИКМ, основан на относительных значениях частоты выборки и скорости передачи, так что размер выходного блока, т. е. число байтов, считываемых кодировщиком на блок, ограничено, предпочтительно между 5,3 и 8 кбайтами.

В результате величину памяти с произвольной выборкой (ПИВ), требуемую в декодировщике для буферизации входящего потока данных, поддерживают сравнительной малой, что снижает стоимость декодировщика. Ири низких скоростях могут быть использованы большие размеры кадра для разделения на блоки данных ИКМ, что улучшает эффективность кодирования. При более высоких скоростях бит могут быть использованы меньшие размеры кадра для удовлетворения ограничений данных. Это снижает эффективность кодирования, но при более высоких скоростях такое снижение незначительно. Такой способ, в котором данные ИКМ разбивают на блоки, позволяет декодировщику 18 начать воспроизведение до того, как весь выходной блок считан в буфер. Это уменьшает задержку или время ожидания аудиокодировщика.

Кодировщик 12 использует группу фильтров высокого разрешения, которую предпочтительно переключают между фильтрами неполного восстановления и полного восстановления (НПВ и ПВ) на основе скорости бит, для декомпозиции каждого аудиоканала 14 на ряд сигналов поддиапазона. Прогнозирующие кодировщики и кодировщики векторного квантования (ВК) используют для кодирования нижних и верхних частотных поддиапазонов, соответственно. Начальный поддиапазон ВК может быть зафиксирован или может быть определён динамически как функция параметров текущего сигнала. Совместное кодирование частоты может быть использовано при низких скоростях бит для одновременного кодирования множественных каналов в более высоких частотных поддиапазонах.

Прогнозирующий кодировщик предпочтительно переключают между режимами адаптивной импульсно-кодовой модуляции (АИКМ) и адаптивной дифференциальной импульснокодовой модуляции (АДИКМ) на основе выигрыша прогнозирования поддиапазона. Анализатор импульсной помехи сегментирует каждый подблок поддиапазона на сигналы предэха и постэха (подподблоки) и вычисляет соответствующие масштабные коэффициенты для подподблоков предэхо и постэхо, таким образом уменьшая предэхо искажения. Кодировщик адаптивно распределяет имеющуюся скорость бит по всем каналам ИКМ и поддиапазонам для текущего блока в соответствии с их соответствующими требованиями (психоакустическими или среднеквадратической ошибки) для оптимизации эффективности кодирования. При комбинировании прогнозирующего кодирования и психоакустического моделирования эффективность кодирования с низкой скоростью бит увеличивается, таким образом понижая скорость бит, при которой достигается субъективная прозрачность. Программируемый контроллер 19, как, например, компьютер или клавиатура, сопрягают с кодировщиком 1 2 для передачи информации аудиорежима, включая такие параметры, как, например, требуемая скорость бит, число каналов, полное или неполное восстановление, частота выборки и скорость передачи.

Кодированные сигналы и дополнительную информацию упаковывают и мультиплексируют в поток 16 данных, чтобы вычислительная нагрузка декодирования была ограничена для нахождения в требуемом диапазоне. Поток 1 6 данных кодируют или транслируют через носитель 20 передачи, как, например, компакт-диск (КД), цифровой видеодиск (ЦВД) или прямой спутник ретрансляции. Декодировщик 1 8 декодирует отдельные сигналы поддиапазона и выполняет операцию обратной фильтрации для генерации многоканального аудиосигнала 22, который субъективно эквивалентен исходному многоканальному аудиосигналу 1 4. Аудиосистема 24, например, система домашнего театра или мультимедийный компьютер воспроизводят аудиосигналы для пользователя.

Многоканальный кодировщик.

Как показано на фиг. 2, кодировщик 12 содержит множество отдельных кодировщиков 26 канала, предпочтительно пять (левый передний, центральный, правый передний, левый задний и правый задний), которые вырабатывают соответствующие множества кодированных сигналов 28 поддиапазона, приемлемо 32 сигнала поддиапазона на канал. Кодировщик 1 2 использует глобальную систему 30 управления битами (ГУБ), которая динамически распределяет биты из общего пула (буферной области) бит между каналами, между поддиапазонами внутри канала и внутри отдельного блока в данном поддиапазоне. Кодировщик 12 может также использовать способы совместного кодирования частоты, чтобы использовать междуканальные корреляции в высокочастотных поддиапазонах. Кроме того, кодировщик может использовать ВК на более высоких частотных под-диапазонах, которые не являются особенно воспринимаемыми, для обеспечения основной высокочастотной достоверности или окружения при очень низкой скорости бит для текущего блока. Таким образом, кодировщик использует несопоставимые требования к сигналу, например, среднеквадратические значения поддиапазонов и психоакустические уровни маскировки, множественных каналов и неравномерное распределение мощности сигнала относительно частоты в каждом канале и относительно времени в данном блоке.

Обзор распределения бит.

Система 30 ГУБ сначала решает, какие поддиапазоны каналов будут кодировать совместно по частоте и усредняет эти данные, а затем определяет, какие поддиапазоны будут кодировать с использованием ВК и вычитает эти биты из имеющейся скорости бит. Решение, какие поддиапазоны будут подвергнуты ВК, может быть принято априори, что все поддиапазоны выше пороговой частоты являются ВК, или принято на основе психоакустических маскирующих эффектов отдельных поддиапазонов в каждом блоке. После чего система 30 ГУБ распределяет биты, используя психоакустическую маскировку в оставшихся поддиапазонах для оптимизации субъективного качества декодированного аудиосигнала. Если имеются дополнительные биты, кодировщик может переключиться в чистую схему мско, т.е. «заполнения водой», и перераспределить все биты на основе поддиапазонов относительно среднеквадратических величин для минимизации значения среднеквадратической величины сигнала ошибки. Это применимо при очень высоких скоростях бит. Предпочтительным подходом является сохранение психоакустического распределения бит и распределение только дополнительных бит в соответствии со схемой мско. Это поддерживает форму сигнала шума, создаваемого психоакустической маскировкой, но равномерно сдвигает минимальный уровень шума вниз.

Альтернативно предпочтительный подход может быть модифицирован таким образом, что дополнительные биты распределяют в соответствии с разностью между среднеквадратическим и психоакустическим уровнями. В результате психоакустическое распределение морфирует в распределение мско, когда скорость бит увеличивается, таким образом обеспечивая плавный переход между двумя способами. Вышеупомянутые способы особенно применимы для систем с фиксированной скоростью бит. Альтернативно кодировщик 12 может установить уровень искажения, субъективный или среднеквадратической ошибки, и дать возможность предельной скорости бит изменяться для поддержания уровня искажения. Мультиплексор 32 мультиплексирует сигналы поддиапазона и вспомогательную информацию в поток 16 данных в соответствии с конкретным форматом данных. Детали формата данных представлены на фиг. 20 ниже.

Кодирование основной полосы частот.

Для частот выборки в диапазоне 8-48 кГц кодировщик 26 канала, как показано на фиг. 3, использует однородную 512-отводную 32полосную группу 34 фильтров анализа, работающую с частотой выборки 48 кГц для разбиения аудиоспектра 0-24 кГц каждого канала на 32 поддиапазона, имеющих ширину полосы частот 750 Гц на поддиапазон. Кодирующий каскад 36 кодирует каждый сигнал поддиапазона и мультиплексирует 38 их в поток 16 сжатых данных. Декодировщик 1 8 принимает поток сжатых данных, выделяет кодированные данные каждого поддиапазона, используя распаковщик 40, декодирует каждый сигнал 42 поддиапазона и восстанавливает цифровые аудиосигналы ИКМ (частота выборки =48 кГц), используя однородную 512 - отводную 32 - полосную группу 44 фильтров интерполяции каждого канала.

В настоящей архитектуре все стратегии кодирования, например частот выборки 48, 96 или 192 кГц, используют 32-полосный процесс кодирования/декодирования на нижних (основной полосы частот) аудиочастотах, например, между 0-24 кГц. Таким образом, кодировщики, которые спроектированы и созданы в настоящее время, основаны на частоте выборки 48 кГц, будут совместимы с будущими кодировщиками, которые проектируют для использования более высокочастотных компонентов. Существующие декодировщики считывали бы сигнал основной полосы частот (0-24 кГц) и игнорировали закодированные данные для более высоких частот.

Кодирование с высокой частотой выборки.

Для частот выборки в диапазоне 48-96 кГц кодировщик 26 канала предпочтительно разделяет аудиоспектр на два и использует однородную 32-полосную группу фильтров анализа для нижней половины и 8-полосную группу фильтров анализа для верхней половины. Как показано на фиг. 4а и фиг. 4Ь, аудиоспектр 0-48 кГц первоначально разделяют с использованием 256-отводной 2-полосной группы 46 предварительных фильтров прореживания, дающей ширину полосы аудиочастот 24 кГц на диапазон. Нижний диапазон (0-24 кГц) разделяют и кодируют в 32 равномерных диапазонах таким образом, как представлено выше на фиг. 3. Однако верхний диапазон (24-48 кГц) разделяют и кодируют в 8 равномерных диапазонах. Если задержка 8-полосной группы 48 фильтров прореживания/интерполяции не равна задержке 32полосной группы фильтров, то каскад 50 компенсации задержки должен быть использован на пути сигнала 24-48 кГц для гарантии того, что обе временные формы сигнала линейно возрастают перед 2-полосной группой фильтров рекомбинации в декодировщике. В системе кодирования с частотой выборки 96 кГц аудиодиапазон 24-48 кГц задерживают на 384 выборки, а затем разбивают на 8 равномерных диапазонов, с использованием 128-отводной группы фильтров интерполяции. Каждый из поддиапазонов 3 кГц кодируют 52 и упаковывают 54 с закодированными данными из диапазона 0-24 кГц для формирования потока 1 6 сжатых данных.

После поступления в декодировщик 18, поток 16 сжатых данных распаковывают 56 и коды, как для 32-полосового декодировщика (область 0-24 кГц), так и для 8-полосового декодировщика (24-48 кГц) выделяют и подают в соответствующие декодирующие каскады 42 и 58. Восемь и 32 закодированных поддиапазона восстанавливают с использованием однородных 128-отводной и 512-отводной групп 60 и 64 фильтров интерполяции, соответственно. Декодированные поддиапазоны в результате рекомбинируют с использованием однородной 256отводной группы 63 2-полосовых фильтров интерполяции для создания одного цифрового аудиосигнала ИКМ с частотой выборки 96 кГц. В случае, когда для декодировщика желательно работать при половине частоты выборки потока сжатых данных, это может быть выполнено отбрасыванием кодированных данных верхнего диапазона (24-48 кГц) и декодированием только 32 поддиапазонов в аудиодиапазоне 0-24 кГц.

Кодировщик канала.

Во всех описанных стратегиях кодирования процесс 32-диапазонного кодирования/декодирования выполняют для части основной полосы частот аудиодиапазона, между 0-24 кГц. Как показано на фиг. 3, устройство захвата 64 блока кадрирует аудиоканал ИКМ 14 для сегментирования его в последовательные блоки 66 данных. Аудиокадр ИКМ определяет ряд смежных входных выборок, для которых кодирующий процесс генерирует выходной блок в потоке данных. Размер кадра устанавливают на основе величины сжатия, т.е. отношения скорости передачи к частоте выборки, так что количество данных, закодированных в каждом блоке ограничено. Каждый последовательный блок 66 данных разбивают на 32 равномерных частотных диапазона 68 32 - полосной 512 - отводной группой 34 фильтров прореживания конечной импульсной характеристики. Выборки, выведенные из каждого поддиапазона, буферизируют и подают в 32-полосовой кодирующий каскад 36.

Каскад 70 анализа (описанный подробно на фиг. 10 - фиг. 19) генерирует оптимальные коэффициенты прогнозатора, распределения бит дифференциального квантователя и оптимальные масштабные коэффициенты квантователя для буферизированных выборок поддиапазона. Каскад 70 анализа может также решать, какие поддиапазоны будут подвергнуты ВК и какие будут совместно кодируемыми по частоте, если эти решения не являются фиксированными. Эти данные или вспомогательная информация подают в выбранный каскад 72 АДИКМ, каскад 73 ВК или каскад 74 совместного кодирования частоты (СКЧ) и в мультиплексор 32 данных (упаковщик). Выборки поддиапазона затем кодируют процессом АДИКМ или ВК и коды квантования вводят в мультиплексор. Каскад 74 СКЧ фактически не кодирует выборки поддиапазона, а генерирует коды, которые указывают, какие поддиапазоны канала совмещают и где их размещают в потоке данных. Коды квантования и вспомогательную информацию из каждого поддиапазона упаковывают в поток 1 6 данных и передают в декодировщик.

После поступления на декодировщик 18, поток данных демультипликсируют 40 или распаковывают обратно в отдельные поддиапазоны. Масштабные коэффициенты и распределения бит устанавливают в обратные квантователи 75 вместе с коэффициентами прогнозатора для каждого поддиапазона. Дифференциальные коды затем восстанавливают с использованием либо процесса 76 АДИКМ, либо процесса 77 обратного ВК непосредственно, либо процесса 78 обратного СКЧ для определенных поддиапазонов. Наконец, поддиапазоны объединяют обратно в единый аудиосигнал 22 КИМ с использованием 32-полосной группы 44 фильтров интерполяции.

Кадрирование сигнала ИКМ.

Как показано на фиг. 6, устройство захвата блока, показанное на фиг. 5, изменяет размер кадра 79, когда скорость передачи изменяется для данной частоты выборки так, что число байтов на выходной блок 80 ограничивается для того, чтобы находиться между, например, 5,3 кбайт и 8 кбайт. Таблицы 1 и 2 являются проектировочными таблицами, которые позволяют проектировщику выбрать оптимальный размер кадра и размер буфера декодировщика (размер блока), соответственно, для данной частоты выборки и скорости передачи. При низких скоростях передачи размер блока может быть относительно большим. Это позволяет кодировщику использовать неплоское распределение изменения аудиосигнала во времени и улучшить эффективность аудиокодировщика. При высоких скоростях размер блока уменьшают так, что общее число байтов не переполняет буфер декодировщика. В результате проектировщик может обеспечить декодировщик с 8 кбайтами ППВ для соответствия скоростям передачи. Это снижает стоимость декодировщика. Вообще размер аудиокадра задают как:

Аудиокадр = (Размер блока) Р §ашр--, (Т га!е) где Размер блока - размер буфера декодировщика, Р 8ашр - частота выборки, а Т та!е - скорость передачи. Размер аудиокадра не зависит от числа аудиоканалов. Однако, когда число каналов увеличивается, величина сжатия должна также увеличиваться для поддержания требуемой скорости передачи.

Таблица 1

Р §ашр (кГ ц)

Тга!е	8-12	16-24	32-48	64-96	128-192
<512 кбит/с	1024	2048	4096	*	*
<1024 кбит/с	*	1024	2048	*	*
<2048 кбит/с	*	*	1024	2048	*
<4096 кбит/с	*	*	*	1024	2048

Таблица 2

Р §ашр (кГ ц)

Тга!е	8-12	16-24	32-48	64-96	128-192
<512 кбит/с	8-5,3К	8-5,3К	8-5,3К	*	*
<1024 кбит/с	*	8-5,3К	8-5,3К	*	*
<2048 кбит/с	*	*	8-5,3К	8-5,3К	*
<4096 кбит/с	*	*	*	8-5,3К	8-5,3К

Фильтрация поддиапазона.

32-полосная 512-отводная равномерная группа 34 фильтров прореживания выбирает из двух многофазных групп фильтров для разбиения блоков 66 данных на 32 равномерных поддиапазона 68, показанных на фиг. 5. Две группы фильтров имеют различные свойства восстановления, которыми достигают компромисс между коэффициентом передачи кодирования поддиапазона и точностью восстановления. Один класс фильтров называется фильтрами полного вос13 становления (ПВ). Когда фильтр прореживания (кодирования) ПВ и фильтр интерполяции (декодирования) располагают друг за другом, восстановленный сигнал является «полным», где полный определяется как находящийся в пределах 0,5 самого младшего двоичного разряда при разрешении 24 бита. Другой класс фильтров называется фильтрами неполного восстановления (НПВ), т.к. восстановленный сигнал имеет ненулевой минимальный уровень шума, который связан со свойствами процесса фильтрации неполного подавления помехи дискретизации (побочной низкочастотной составляющей).

Передаточные функции 82 и 84 фильтров НПВ и ПВ, соответственно, для одного поддиапазона показаны на фиг. 7. Поскольку фильтры НПВ не ограничивают, чтобы обеспечивать полное восстановление, они показывают значительно большие отношения подавления около полосы задерживания (ПОПЗ), т.е. отношение полосы пропускания к первому побочному максимуму, чем фильтры ПВ (110 децибел, см. 85 децибел). Как показано на фиг. 8, побочные максимумы фильтра вызывают сигнал 86, который, естественно, находится в третьем поддиапазоне и создает помеху дискретизации в соседних поддиапазонах. Коэффициент передачи поддиапазона измеряет подавление сигнала в соседних поддиапазонах и, следовательно, показывает способность фильтра декоррелировать (развязывать) аудиосигнал. Поскольку фильтры НПВ имеют значительно большее отношение ПОПЗ, чем фильтры ПВ, они будут также иметь значительно больший коэффициент передачи. В результате фильтры НПВ обеспечивают лучшую эффективность кодирования.

Как показано на фиг. 9, полное искажение в потоке сжатых данных уменьшается, когда общая скорость бит увеличивается, как для фильтров ПВ, так и НПВ. Однако, при низких скоростях разница в характеристике коэффициента передачи поддиапазона между двумя типами фильтров больше, чем минимальный уровень шума, связанный с фильтром НПВ. Таким образом, связанная с фильтром НПВ кривая 90 искажения находится ниже связанной с фильтром ПВ кривой 92 искажения. Следовательно, при низких скоростях аудиокодировщик выбирает блок фильтра НПВ. В некоторой точке 94 ошибка квантования кодировщика падает ниже минимального уровня шума фильтра НПВ, так что добавление дополнительных битов в кодировщик АДИКМ не обеспечивает дополнительных преимуществ. В этой точке аудиокодировщик переключают в блок фильтра ПВ.

Кодирование АДИКМ.

Кодировщик 72 АДИКМ генерирует прогнозируемую выборку р(п) из линейной комбинации Н предыдущих восстановленных выборок. Эту прогнозируемую выборку затем вычитают из входа х(п), получая разностную выборку б(п). Разностные выборки масштабируют делением их на среднеквадратический (СК) (или максимальный (РЕАК)) весовой коэффициент для согласования среднеквадратических амплитуд разностной выборки с амплитудой характеристики О квантователя. Масштабированную разностную выборку иб(п) подают в характеристику квантователя с Ь уровнями размера шага 8Ζ, как определяется числом бит, распределенных для текущей выборки АВ1Т. Квантователь вырабатывает код уровня ЦЬ(п) для каждой масштабированной разностной выборки иб(п). Эти коды уровня в конечном счете передают в каскад АДИКМ декодировшика. Для корректировки предыстории прогнозатора коды уровня ЦЬ(п) квантователя локально декодируют с использованием обратного квантователя 1/0 с идентичными квантователю О характеристиками для создания квантованной масштабированной разностной выборки иб(п). Квантованный вариант х(п) исходной входной выборки х(п) восстанавливают добавлением начальной прогнозируемой выборки р(п) к квантованной разностной выборке б(п). Эту выборку затем используют для корректировки предыстории прогнозатора.

Векторное квантование.

Коэффициенты прогнозатора и высокочастотные выборки поддиапазона кодируют с использованием векторного квантования (ВК). ВК прогнозатора имеет размерность вектора из 4 выборок и скорость бит 3 бита на выборку. Окончательная книга кодов, таким образом, состоит из 4096 векторов кодов размерности 4. Поиск соответствующих векторов структурирован как двухуровневое дерево с каждым узлом в дереве, имеющим 64 ветви. Верхний уровень содержит 64 узла векторов кодов, которые требуются в кодировщике только для помощи процессу поиска. Нижний уровень контактирует с 4096 конечными векторами кодов, которые требуются как в кодировщике, так и в декодировщике. Для каждого поиска требуется 1 28 вычислений среднеквадратической ошибки размерности 4. Книга кодов и векторы узлов на верхнем уровне сгруппированы в последовательность с использованием способа логической двоичной группировки с более чем 5 миллионами последовательных векторов коэффициентов прогнозирования. Последовательные векторы накапливают для всего поддиапазона, который показывает положительный выигрыш прогнозирования при кодировании широкого диапазона аудиоматериала. Для контрольных векторов в упорядоченном множестве получают средние отношения сигнал/шум приблизительно 30 децибел.

Высокочастотное ВК имеет размерность вектора 32 выборки (длина подблока) и скорость бит 0,3125 битов на выборку. Конечная книга кодов поэтому состоит из 1 024 векторов кодов размерности 32. Поиск подходящих векторов структурирован как двухуровневое дерево с каждым узлом в дереве, имеющим 32 ветви. Верхний уровень содержит 32 узла векторов кодов, которые требуются только в кодировщике, нижний уровень содержит 1024 конечных векторов кодов, которые требуются как в кодировщике, так и в декодировщике. Для каждого поиска требуется 64 вычислений среднеквадратической ошибки размерности 32. Книга кодов и узлы векторов на верхнем уровне упорядочены с использованием способа логической двоичной группировки с более чем 7 миллионами последовательных векторов выборки высокочастотного поддиапазона. Выборки, которые составляют векторы, накапливают из выходов поддиапазонов 16 по 32 для частоты выборки 48 кГц для широкого диапазона аудиоматериала. При частоте выборки 48 кГц последовательные выборки представляют аудиочастоты в диапазоне от 1 2 до 24 кГц. Для контрольных векторов в упорядоченном множестве ожидается среднее отношение сигнал/шум около 3 децибел. Несмотря на то, что 3 децибела является малым отношением сигнал/шум, оно достаточно для обеспечения высокочастотной достоверности или окружения на таких высоких частотах. Это значительно лучше для восприятия, чем известные способы с простым игнорированием высокочастотных поддиапазонов.

Совместное кодирование частоты.

В приложениях с очень низкой скоростью бит общая достоверность восстановления может быть улучшена кодированием только совокупности высокочастотного поддиапазона из двух или более аудиоканалов вместо их независимого кодирования. Совместное кодирование частоты возможно, поскольку высокочастотные поддиапазоны часто имеют похожие распределения мощности и поскольку слуховая система человека чувствительна к «интенсивности» высокочастотных составляющих, больше чем к их тонкой структуре. Таким образом, восстановленный средний сигнал обеспечивает хорошую общую достоверность, поскольку при любой скорости бит имеется больше бит для кодирования более важных для восприятия низких частот. Индексы совместного кодирования частоты (1ΟΙΝΧ) передают непосредственно в кодировщик для указания, какие каналы и поддиапазоны совмещены и где расположен закодированный сигнал в потоке данных. Декодировщик восстанавливает сигнал в назначенном канале, а затем копирует его в каждый из других каналов. Каждый канал затем масштабируются в соответствии с его конкретным среднеквадратическим масштабным коэффициентом. Поскольку совместное кодирование частоты усредняет временные сигналы на основе подобности их распределений мощности, достоверность восстановления уменьшается. Поэтому его применение обычно ограничено применениями с низкой скоростью бит и в основном сигналами 1 0 20 кГц. В применениях со скоростями бит ОТ средней до высокой, совместное кодирование частоты обычно непригодно.

Кодировщик поддиапазона.

Процесс кодирования для одного поддиапазона, который кодируют с использованием процессов АДИКМ/АИКМ и особенно взаимодействие каскада 70 анализа и кодировщика 72 АДИКМ, показанных на фиг. 5, и глобальной системой управления битами, показанной на фиг. 2, подробно представлено на фиг. 10. Фиг. 11 - фиг. 19 детализируют составляющие процессы, показанные на фиг. 13. Группа 34 фильтра разбивает аудиосигнал 14 ИКМ на 32 сигнала х(п) поддиапазона, которые записывают в соответствующие буферы 96 выборки поддиапазона. Предположим, размер аудиокадра составляет 4096 выборок, каждый буфер 96 выборки поддиапазона хранит полный блок из 1 28 выборок, которые разделены на 432 подблока выборки. Размер кадра из 1024 выборок создавал бы один подблок из 32 выборок. Выборки х(п) направляют в каскад 70 анализа для определения коэффициентов прогнозирования, режима прогнозатора (РМОИЕ), режима переходного процесса (ТМОИЕ) масштабных коэффициентов (8Р) для каждого подблока. Выборки х(п) также подают в систему 30 ГУБ, которая определяет распределение бит (ΑΒΙΤ) для каждого подблока на поддиапазон на аудиоканал. После чего выборки х(п) передают в кодировщик 72 АДИКМ по одному подблоку.

Оценка оптимальных коэффициентов прогнозирования

Для Н, предпочтительно 4-го порядка, коэффициенты прогнозирования генерируют отдельно для каждого подблока с использованием стандартного способа 98 автокорреляции, оптимизируемого относительно блока выборок х(п) поддиапазона, т.е. уравнения Вейнера-Хопфа или Юли-Уолкера.

Квантование оптимальных коэффициентов прогнозирования

Каждое множество из четырех коэффициентов прогнозатора предпочтительно квантуют с использованием книги кодов с 1 2-битовыми векторами, 4-элементным деревом поиска, описанной выше. Книга кодов с 1 2-битовыми векторами содержит 4096 векторов коэффициентов, которые оптимизируют для требуемого распределения вероятности с использованием стандартного алгоритма кластеризации. Поиск ОМ 100 векторного квантования (ВК) выбирают вектор коэффициентов, который показывает наименьшую взвешенную среднеквадратическую ошибку между ним и оптимальными коэффициентами. Оптимальные коэффициенты для каждого подблока затем замещают этими «квантованными» векторами. Обратный табличный поиск 101 ВК используют для подачи квантованных коэффициентов прогнозатора в кодировщик 72 АДИКМ.

Оценка разностного сигнала ά(η) прогнозирования

Важным затруднением с АДИКМ является то, что последовательность разностной выборки ά(η) не может быть легко спрогнозирована перед фактическим рекурсивным процессом 72. Основным требованием прямой адаптивной АДИКМ поддиапазона является то, что мощность разностного сигнала должна быть известна перед кодированием АДИКМ для того, чтобы вычислить подходящее распределение бит для квантователя, который будет создавать известную ошибку квантования, или уровень шума в восстановленных выборках. Знание мощности разностного сигнала также требуется для того, чтобы определить оптимальный разностный масштабный коэффициент перед кодированием.

К сожалению, мощность разностного сигнала зависит не только от параметров входного сигнала, но также от работы прогнозатора. Кроме известных ограничений, как например, порядок прогнозатора и оптимальность коэффициентов прогнозатора, на работу прогнозатора также влияет уровень ошибки квантования или шум, создаваемый в восстановленных выборках. Поскольку шум квантования определяет конечное распределение бит (ΑΒΙΤ) и среднеквадратические (или максимальные) значения масштабного коэффициента, оценка мощности разностного сигнала должна поступать итеративно 102.

Шаг 1. Предположение нулевой ошибки квантования.

Первую оценку разностного сигнала выполняют пропусканием буферизованных выборок х(п) поддиапазона через процесс АДИКМ, который не квантует разностный сигнал. Это выполняют блокировкой квантования и среднеквадратического масштабирования в цикле кодирования АДИКМ. При оценке разностного сигнала таким образом действия значений масштабного коэффициента и распределения бит удаляют из вычисления. Однако, действие ошибки квантования на коэффициенты прогнозатора принимают во внимание процессом при использовании векторных квантованных коэффициентов прогнозирования. Обратный табличный поиск 104 ВК используют для обеспечения квантованных коэффициентов прогнозирования. Для дополнительного повышения точности оценочного прогнозатора, выборки предыстории из фактического прогнозатора АДИКМ, которые были накоплены в конце предыдущего блока, копируют в прогнозатор перед вычислением. Это гарантирует то, что прогнозатор стартует оттуда, где реальный прогнозатор АДИКМ финишировал в конце предыдущего входного буфера.

Основным различием между этой оценкой еб(п) и фактическим процессом ά(η) является то, что действие шума квантования на восстановление выборки х(п) и на сниженную точность прогнозирования игнорируют. Для квантователей с большим числом уровней уровень шума будет вообще малым (при предположении подходящего масштабирования) и поэтому фактическая мощность разностного сигнала будет практически соответствовать мощности, вычисленной в оценке. Однако, когда число уровней квантования мало, как обстоит дело для типичных аудиокодировщиков с низкой скоростью бит, фактический прогнозируемый сигнал и, следовательно, мощность разностного сигнала, может значительно отличаться от оцениваемой мощности. Это создает минимальные уровни шума кодирования, которые отличаются от спрогнозированных ранее в процессе адаптивного распределения бит.

Несмотря на это, изменение в эффективности прогноза может быть незначительным для применения или скорости бит. Таким образом, оценка может быть использована непосредственно для вычисления распределений бит и масштабных коэффициентов без итерации. Дополнительное усовершенствование состоит в компенсации потери эффективности преднамеренной переоценкой мощности разностного сигнала, если вероятно, что квантователь с малым числом уровней должен быть назначен в этот поддиапазон. Переоценка может также быть сортирована в соответствии с изменяющимся числом уровней квантования для повышения точности.

Шаг 2. Повторное вычисление с использованием оценочных распределений бит и масштабных коэффициентов.

Если распределения бит (ΑΒΙΤ) и масштабные коэффициенты (8Р) сгенерированы с использованием разностного сигнала первой оценки, их оптимальность может быть проверена выполнением дополнительного процесса АДИКМ оценки с использованием оценочных значений ΑΒΙΤ и среднеквадратических (или максимальных) значений в цикле 72 АДИКМ. Также как в первой оценке, предысторию оценки прогнозатора копируют из фактического прогнозатора АДИКМ перед началом вычислений для гарантии того, что оба прогнозатора стартуют с одной и той же точки. Если все буферизированные входные выборки прошли через этот второй цикл оценки, результирующий минимальный уровень шума в каждом поддиапазоне сравнивают с допустимым минимальным уровнем шума в процессе адаптивного распределения бит. Любые существенные различия могут быть компенсированы модификацией распределения бит и/или масштабных коэффициентов.

Шаг 2 может быть повторен для усовершенствования подходящим образом распределенного минимального уровня шума в поддиапазонах, каждый раз используя последнюю оценку разностного сигнала для вычисления следующего множества распределений бит и масштабных коэффициентов. Вообще, если масштабные коэффициенты изменяются на бо19 лее чем 2-3 децибела, их повторно вычисляют. Иначе распределение бит может нарушить отношения сигнала к маске, генерируемые процессом психоакустической маскировки или альтернативно процессом минимальной среднеквадратической ошибки. Обычно достаточно одной итерации.

Вычисление режимов прогнозирования (РМОИЕ) поддиапазона

Для улучшения эффективности кодирования контроллер 106 может произвольно выключать процесс прогнозирования, когда выигрыш прогнозирования в текущем подблоке падает ниже порога, установкой флага РМОИЕ. Флаг РМОИЕ устанавливают на единицу, когда выигрыш прогнозирования (отношение мощности входного сигнала и оцененной мощности разностного сигнала), измеренный во время стадии оценки для блока входных выборок, превышает некоторый определенный барьер. Наоборот, если измеренный выигрыш прогнозирования меньше, чем определенный барьер, коэффициенты прогнозатора АДИКМ устанавливают на ноль как в кодировщике, так и в декодировщике для этого поддиапазона, и соответствующий РМОИЕ устанавливают на ноль. Порог выигрыша прогноза устанавливают равным коэффициенту искажения передаваемого вектора коэффициентов прогнозатора. Это делают для того, чтобы гарантировать, что когда РМОИЕ=1, выигрыш кодирования для процесса АДИКМ всегда больше, чем или равен выигрышу прямого адаптивного процесса кодирования ИКМ (АИКМ). Иначе при установке РМОИЕ на ноль и перезадании коэффициентов прогнозатора процесс АДИКМ просто возвращается в АИКМ.

Значения РМОИЕ могут быть установлены высокими в некотором или во всех поддиапазонах, если изменения выигрыша кодирования АДИКМ не важны для применения. Наоборот, значения РМОИЕ могут быть установлены низкими, если, например, определенные поддиапазоны не собираются кодировать совсем, скорость бит применения достаточно высока, когда выигрыши прогнозирования не требуются для поддержания субъективного качества аудио, переходная составляющая сигнала высока или склеивание характеристики закодированного АДИКМ аудио просто не желательно, как могло бы быть для приложений редактирования аудио.

Отдельные режимы прогнозирования (значения РМОИЕ) передают для каждого поддиапазона со скоростью, равной скорости корректировки линейных прогнозаторов в процессах АДИКМ кодировщика и декодировщика. Назначением параметра РМОИЕ является указание в декодировщик, будет ли конкретный поддиапазон иметь некоторый адрес вектора коэффициентов прогнозирования, связанный с его закодированным блоком аудиоданных. Когда РМОИЕ=1 в некотором поддиапазоне, адрес вектора коэффициентов прогнозатора будет всегда включен в поток данных. Когда РМОИЕ=0 в некотором поддиапазоне, тогда адрес вектора коэффициентов прогнозатора никогда не будет включен в поток данных и коэффициенты прогнозатора устанавливают на ноль на стадиях АДИКМ как кодировщика, так и декодировщика.

Вычисление значений РМОИЕ начинается анализом буферизованных мощностей входного сигнала поддиапазона относительно соответствующих мощностей буферизованного оцененного разностного сигнала, полученных на первой стадии оценки, т. е. при допущении отсутствия ошибки квантования. Как входные выборки х(п), так и оцененные разностные выборки еб(и) буферизируют для каждого поддиапазона отдельно. Размер буфера равняется числу выборок, содержащихся в каждом периоде корректировки прогнозатора, например, размеру подблока. Выигрыш прогнозирования затем вычисляют как:

Р_баш(децибел)=20,0· 1од (КМ§_х(и)/КМ§еЦ(и)), где КМ§_Х(_И) = среднеквадратическое значение буферизованных входных выборок х(и), а

РМЗ_е,|_Н1, = среднеквадратическое значение буферизованных оцененных разностных выборок еб.(и).

Для положительных выигрышей прогнозирования разностный сигнал в среднем меньше, чем входной сигнал и, следовательно, уменьшенный минимальный уровень шума восстановления может быть достигнут с использованием процесса АДИКМ относительно АИКМ для той же самой скорости бит. Для отрицательных выигрышей кодировщик АЛИКМ создает разностный сигнал, в среднем больший, чем входной сигнал, который приводит к более высоким минимальным уровням шума, чем АДИКМ для той же самой скорости бит. Обычно порог выигрыша прогнозирования, который включает РМОИЕ, будет положительным и будет иметь значение, которое учитывает дополнительную емкость канала, потребляемую при передаче адреса вектора коэффициентов прогнозатора.

Вычисление режимов импульсной помехи (ТМОИЕ) поддиапазона

Контроллер вычисляет режимы импульсной помехи (ТМОИЕ) для каждого подблока в каждом поддиапазоне. Значения ТМОИЕ указывают число масштабных коэффициентов и выборок в буфере оценочного разностного сигнала еб(и), когда РМОИЕ=1 или в буфере входного сигнала х(и) поддиапазона, когда РМОИЕ=0, для которых они достоверны. Значения ТМОИЕ корректируют с той же самой частотой, что и адреса вектора коэффициентов прогнозирования и передают в декодировщик. Назначением режимов импульсной помехи является уменьшение слышимых кодируемых «предэхо» искусст21 венных объектов кодирования при наличии переходных процессов сигнала.

Переходный процесс определяют как быстрый переход между сигналом малой амплитуды и сигналом большой амплитуды. Поскольку масштабные коэффициенты усредняют на блоке разностных выборок поддиапазона, если происходит быстрое изменение амплитуды сигнала в блоке, т. е. происходит переходный процесс, вычисленный масштабный коэффициент стремится быть больше, чем было бы оптимально для выборок малых амплитуд, предшествующих переходному процессу. Следовательно, ошибка квантования в выборках, предшествующих переходным процессам может быть очень большой. Этот шум воспринимают как искажение предэхо.

На практике режим импульсной помехи используют для модификации длины блока усредняемого масштабного коэффициента поддиапазона для ограничения влияния переходного процесса на масштабирование дифференциальных выборок, непосредственно предшествующих ему. Мотивацией для этого является свойство предварительной маскировки, присущее человеческой слуховой системе, которая предполагает, что при наличии переходного процесса шум может быть замаскирован перед переходным процессом при условии, что его продолжительность остается постоянной.

В зависимости от значения ΡΜΟΌΕ, либо содержимое, т.е. подблок, буфера еб(и) выборки поддиапазона, либо содержимое буфера еб(и) оцененной разности копируют в буфер анализа импульсной помехи. Здесь содержимое буфера разделяют одинаково на 2, 3, или 4 подподблока, в зависимости от размера выборки буфера анализа. Например, если буфер анализа содержит 32 выборки поддиапазона (21,3 миллисек 1500 Гц), буфер разделяют на 4 подподблока, каждый из 8 выборок, давая временное разрешения 5,3 мс для частоты выборки поддиапазона 1500 Гц. Альтернативно, если кадр анализа был сконфигурирован при 16 выборках поддиапазона, тогда требуется разделить буфер только на два подподблока для того, чтобы обеспечить то же самое временное разрешение.

Сигнал в каждом подподблоке анализируют и определяют статус каждого, кроме первого, переходного процесса. Если любые подподблоки объявляют с переходным процессом, два отдельных масштабных коэффициента генерируют для буфера анализа, т.е. текущего подблока. Первый масштабный коэффициент вычисляют из выборок в подподблоках, предшествующих подподблоку с переходным процессом. Второй масштабный коэффициент вычисляют из выборок в подподблоке с переходным процессом вместе со всеми предшествующими подподблоками.

Статус переходного процесса первого подподблока не вычисляют, т.к. шум квантования автоматически ограничивают началом кадра анализа. Если более, чем один подподблок объявляют с переходным процессом, тогда рассматривают только один, который появляется первым. Если не обнаруживают подподблоков с переходным процессом, тогда вычисляют только один масштабный коэффициент с использованием всех выборок в буфере анализа. Таким образом значения масштабного коэффициента, которые содержат выборки с переходным процессом, не используют для масштабирования предыдущих выборок, более чем на период времени подподблока ранее. Следовательно, шум квантования перед переходным процессом ограничивают периодом подподблока.

Объявление переходного процесса.

Подподблок объявляют с переходным процессом, если отношение его мощности к предшествующему подбуферу превышает порог переходного процесса (ТТ), а мощность в предшествующем подподблоке ниже порога перед переходным процессом (РТТ). Значения ТТ и РТТ будут зависеть от скорости бит и степени требуемого подавления перед эхом. Их обычно изменяют до тех пор, пока воспринимаемая помеха перед эхом согласуется с уровнем других искусственных объектов кодирования, если они существуют. Увеличение значения ТТ и/или уменьшение значения РТТ будет уменьшать вероятность объявления подподблока с переходным процессом и, следовательно, будет уменьшать скорость бит, связанную с передачей масштабных коэффициентов. Наоборот, уменьшение значения ТТ и/или увеличение значения РТТ будет увеличивать вероятность объявления подподблока с переходным процессом и, следовательно, будет увеличивать скорость бит, связанную с передачей масштабных коэффициентов.

Поскольку ТТ и РТТ индивидуально устанавливают для каждого поддиапазона, чувствительность обнаружения импульсной помехи в кодировщике может быть произвольно установлена для каждого поддиапазона. Например, если обнаруживают, что предэхо в высокочастотном поддиапазоне менее воспринимаемо, чем в низкочастотных поддиапазонах, тогда пороги могут быть установлены для уменьшения вероятности объявления импульсных помех в более высоких поддиапазонах. Более того, поскольку значения ΤΜΟΌΕ вставляют в поток сжатых данных, не требуется, чтобы декодировщик содержал алгоритм обнаружения переходного процесса, используемый кодировщиком, чтобы правильно декодировать информацию ΤΜΟΌΕ.

Четырёхподбуферная конфигурация.

Как показано на фиг. 11а, если первый подблок 108 в буфере 109 анализа поддиапазона с переходным процессом, или если не обнаруживают подподблоки с импульсной помехой, тогда ΤΜΟΌΕ=0. Если второй подподблок с переходным процессом, но не первый, тогда ΤΜΟΌΕ=1.

Если третий подподблок с переходным процессом, но не первый или второй, тогда ΤΜΘΌΕ=2. Если только четвёртый под-подблок с переходным процессом, тогда ΤΜΘΌΕ=3.

Вычисление масштабных коэффициентов.

Как показано на фиг. 11в, когда ΤΜΘΌΕ=0, масштабные коэффициенты 110 вычисляют относительно всех подподблоков. Когда ΤΜΘΌΕ=1, первый масштабный коэффициент вычисляют относительно первого подподблока, а второй масштабный коэффициент относительно всех предшествующих подподблоков. Когда ΤΜΘΌΕ=2, первый масштабный коэффициент вычисляют относительно первого и второго подподблоков, а второй масштабный коэффициент относительно всех предшествующих подподблоков. Когда ΤΜΘΌΕ=3, первый масштабный коэффициент вычисляют относительно первого, второго и третьего подподблоков, а второй масштабный коэффициент - относительно четвёртого подподблока.

Кодирование и декодирование АДИКМ с использованием ΤΜΘΌΕ.

Когда ΤΜΘΌΕ=0, один масштабный коэффициент используют для масштабирования разностных выборок поддиапазона в течение продолжительности всего буфера анализа, т.е. подблока, и передают в декодировщик для обеспечения обратного масштабирования. Когда ΤΜΘΌΕ>0, используют два масштабных коэффициента для масштабирования разностных выборок поддиапазона и обе передают в декодировщик. Для любого ΤΜΘΌΕ каждый масштабный коэффициент используют для масштабирования дифференциальных выборок, используемых для генерации его на первом месте.

Вычисление масштабных коэффициентов поддиапазона (среднеквадратических или максимальных).

В зависимости от значения ΡΜΟΌΕ для этого диапазона либо оцененные разностные выборки еД(п), либо входные выборки х(п) поддиапазона используют для вычисления соответствующего масштабного коэффициента (коэффициентов). Значения ΤΜΟΌΕ используют в этом вычислении для определения как числа масштабных коэффициентов, так и для идентификации соответствующих подподблоков в буфере.

Вычисление среднеквадратического (ΡΜδ) масштабного коэффициента.

Для _)-го поддиапазона среднеквадратические масштабные коэффициенты вычисляют следующим образом:

Когда ΤΜΟΌΕ=0, тогда единственное среднеквадратическое значение равно:

Ь

ΡΜδί=(ΣΌά(η)²/Ρ)⁰'⁵ п=1 где Ь - число выборок в подблоке

Когда ΤΜΟΌΕ>0, тогда два среднеквадратических значения равны:

к

ΡΜδ 1_)=^еД(п)²/Е)⁰·⁵п=1 к+1

ΡΜδ 2_)=(Σ еД(п)²/Ь)⁰·⁵п=1 где к = (ΤΜΟΌΕ) · Ь/ΝδΒ) и ΝδΒ - число одинаковых подподблоков.

Если ΡΜΟΌΕ=0, тогда выборки еП|(п) заменяют входными выборками х|(п).

Вычисление максимального (ΡΕΑΚ) масштабного коэффициента.

Для _)-го поддиапазона максимальный масштабный коэффициент вычисляют следующим образом:

Когда ΤΜΟΌΕ=0, то единственное максимальное значение равно:

ΡΕΑΙ<ί=ΜΑΧ(ΑΒίΆάί(π)) для: п=1, Ь

Когда ΤΜΟΌΕ>0, то два максимальных значения равны:

ΡΕΑΚ 1)=ΜΑΧ(ΑΒίΆάί(π)) для п=1, (ΤΜΟΌΕ· Ь/ΝδΒ) ΡΕΑΚ2ί=ΜΑΧ(ΑΒίΆάί)) для п=( 1+ΤΜΟΟΕΕ/ΝδΒ), Ь

Если ΡΜΟΌΕ=0, то выборки еф(п) заменяют входными выборками х|(п).

Квантование ΡΜΟΌΕ, ΤΜΟΌΕ и масштабных коэффициентов.

Квантование значений ΡΜΟΌΕ.

Флаги режима прогнозирования имеют только два значения: включено или выключено, и их передают непосредственно в декодировщик как 1 -битовые коды.

Квантование значений ΤΜΟΌΕ.

Флаги режима импульсной помехи имеют максимум 4 значения: 0,1,2 и 3, и их либо передают в кодировщик непосредственно с использованием 2-битовых целочисленных кодовых слов без знака, или альтернативно через 4уровневую таблицу энтропии для уменьшения средней длины слова значений ΤΜΟΌΕ ниже 2 битов. Обычно альтернативное кодирование энтропии используют для применений с малой скоростью бит для того, чтобы сохранить биты.

Процесс 112 кодирования энтропии, представленный подробно на фиг. 1 2, является следующим: коды режима импульсной помехи ΤΜΟΌΕ(ί) для _) поддиапазонов отображают в ряд (р) 4-уровневой с надстрочным элементом переменной длины книги кодов, где каждую книгу кодов оптимизируют для различной входной статистической характеристики. Значения ΤΜΟΌΕ отображают в 4-уровневые таблицы 114 и вычисляют 116 полное использование бит, связанное с каждой таблицей (ΝΒρ). Таблицу, которая обеспечивает самое низкое использование бит в процессе отображения, выбирают 118 с использованием индекса ΤΗυΡΡ. Отображенные коды νΤΜΟΌΕ(ί) извлекают из этой таблицы, упаковывают и передают в декодировщик вместе с индексным словом ΤΗυΡΡ.

Декодировщик, который хранит то же самое множество 4-уровневых обратных таблиц, использует индекс ТНИРР для направления входящих кодов переменной длины νΤΜΟΌΕ(ί) в подходящую таблицу для декодирования в индексы ΤΜΟΌΕ.

Квантование масштабных коэффициентов поддиапазона.

Для передачи масштабных коэффициентов в декодировщик они должны быть квантованы в известный формат кода. В этой системе их квантуют с использованием либо одинаковой 64-уровневой логарифмической характеристики, 128-уровневой логарифмической характеристики, либо переменной скорости кодирования одинаковой 64-уровневой логарифмической характеристики 1 20. 64-уровневый квантователь показывает размер шага 2,25 децибел в обоих случаях, а 128-уровневый - размер шага 1,25 децибел. 64-Уровневое квантование используют для скоростей бит от низких до средних, дополнительное кодирование с переменной скоростью используют для применений с низкой скоростью бит, а 118-уровневое обычно используют для высоких скоростей бит.

Процесс 1 20 квантования представлен на фиг. 13. Масштабные коэффициенты ΚΜ3 или ΡΕΑΚ считывают из буфера 121, преобразуют в логарифмический интервал 1 22, а затем подают либо в 64-уровневый, либо в 128-уровневый равномерные квантователи 1 24, 1 26, как определено управлением 1 28 режимом кодировщика. Логарифмически квантованные масштабные коэффициенты затем записывают в буфер 130. Диапазон 1 28 и 64-уровневых квантователей достаточен для покрытия масштабных коэффициентов с динамическим диапазоном приблизительно 1 60 децибел и 1 44 децибела, соответственно, 128-уровневый верхний предел устанавливают для покрытия динамического диапазона 24-битовых входных цифровых ИКМ аудиосигналов. 64-уровневый верхний предел устанавливают для покрытия динамического диапазона 20-битовых входных цифровых ИКМ аудиосигналов.

Логарифмические масштабные коэффициенты отображают в квантователь и масштабный коэффициент заменяют ближайшим кодом уровня квантователя КМ8р_Ъ (или РЕАК.,,.). В случае 64-уровневого квантователя эти коды имеют длину 64 бита и находятся в диапазоне между 0-63. В случае 128-уровневого квантователя, коды имеют длину 7 битов и находятся в диапазоне между 0-127.

Обратное квантование 131 достигается просто отображением кодов уровней в соответствующую обратную характеристику квантования для получения значений КМ§§ (или ΡΕΑΚ§). Квантованные масштабные коэффициенты используют как в кодировщике, так и в декодировщике для масштабирования АДИКМ (или АИКМ, если ΡΜΟΌΕ=0) дифференциальной выборки, таким образом обеспечивая идентичность процессов масштабирования и обратного масштабирования.

Если скорость бит кодов 64-уровневого квантователя требуется уменьшить, выполняют дополнительное кодирование энтропии или кодирование переменной длины. 64-уровневые коды сначала кодируют 132 дифференциально первого порядка в _) поддиапазонах, начиная со второго диапазона 0=2) до самого высокого активного поддиапазона. Процесс также может быть использован для кодирования максимальных (ΡΕΑΚ) масштабных коэффициентов. Дифференциальные коды ΌΚΜδρ_Σ(]), (ΌΡΕΑΚρ_Σ(ί)) со знаком имеют максимальный диапазон +/- 63 и их запоминают в буфере 134. Для уменьшения их скорости бит относительно исходных 6битовых кодов дифференциальные коды отображают в число (р) 127-уровневых книг кодов со средним надстрочным элементом переменой длины. Каждую книгу кодов оптимизируют для различной входной статистической характеристики.

Процесс кодирования энтропии дифференциальных кодов со знаком является таким же, как процесс кодирования энтропии для режимов импульсной помехи, представленный на фиг. 1 2, за исключением того, что используют р 1 27уровневые таблицы кодов переменной длины. Таблицу, которая обеспечивает самое малое потребление бит в процессе отображения выбирают с использованием индекса ЗНИРР. Отображенные коды νΌΡΜδ_χι|,(ί) извлекают из этой таблицы, упаковывают и передают в декодировщик вместе с индексным словом ЗНИРР. Декодировщик, который хранит то же самое множество из (р) 127-уровневых обратных таблиц, использует индекс ЗНИРР для направления входящих кодов переменной длины в подходящую таблицу для декодирования в дифференциальные уровни кодов квантователя. Дифференциальные уровни кодов возвращают в абсолютные значения с использованием следующих операций:

ΚΜ3_ΡΣ(1) = ΌΚΜ3_ρς(1)

ΚΜ3_ρΣ(ί) = ΌΚΜ3_ρΣ(ί) + ΚΜ3_ρΣ(ί-1) .)=2..., К, а максимальные (ΡΕΑΚ) уровни кодов возвращают в абсолютные значения с использованием следующих операций:

ΡΕΑΚ_ρΣ(1) = ΌΡΕΑΚ_ρς(1)

ΡΕΑΚ_ρς(]) = ΌΡΕΑΚ_ρΣ(ί) + ΡΕΑΚς,^-Ι) для 1=2,..., К, где в обоих случаях К = числу активных поддиапазонов.

Глобальное распределение бит

Глобальная система 30 управления битами, показанная на фиг. 1 0, управляет распределением бит (ΑΒΙΤ), определяет число активных поддиапазонов и стратегию совместной частоты и стратегию ВК для многоканального аудиокодировщика для обеспечения субъективно прозрач27 ного кодирования при уменьшенной скорости бит. Это увеличивает число аудиоканалов и/или время проигрывания, которые могут быть закодированы и запомнены на фиксированном носителе, при поддержке или улучшении аудиодостоверности. Вообще, система 30 ГУБ сначала распределяет биты в каждый поддиапазон в соответствии с психоакустическим анализом, модифицированным выигрышем прогнозирования кодировщика. Оставшиеся биты затем распределяют в соответствии со схемой минимальной средне-квадратической ошибки бит для снижения общего уровня шума. Для оптимизации эффективности кодирования система ГУБ одновременно распределяет биты по всем аудиоканалам, по всем поддиапазонам и во всем блоке. Кроме того, может быть использована стратегия совместного кодирования частоты. Таким образом, система использует неравномерное распределение мощности сигнала между аудиоканалами по частоте и во времени.

Психоакустический анализ.

Психоакустические измерения используют для определения нерелевантной воспринимаемой информации в аудиосигнале. Нерелевантная воспринимаемая информация - это те составляющие аудиосигнала, которые не могут быть восприняты слушателями и могут быть измерены в интервале времени, в частотном интервале или в некотором другом базисе. Дж. Д.Джонсон: «Преобразование кодирования аудиосигнала с использованием критерия восприятия шума», «Журнал общества инженеров по электронике по избранным областям в системах связи», том 18АС-6, с. 314-323, февраль 1988, описывает общие принципы психоакустического кодирования.

Два основных фактора влияют на психоакустическое измерение. Одним является зависящий от частоты абсолютный порог слышимости, применимый к людям. Другим является маскирующий эффект, который оказывает один звук на способность людей слышать второй звук, проигрываемый одновременно или даже после первого звука. Другими словами, первый звук мешает нам слышать второй звук, то есть маскирует его.

В кодировщике поддиапазона конечным результатом психоакустического вычисления является множество чисел, которые определяют неслышимый уровень шума для каждого поддиапазона в этот момент. Это вычисление хорошо известно и содержится в стандарте сжатия экспертной группы по кинофильмам 1 1δΘ/ΙΕδ ΌΙδ 11172 «Информационная технология - Кодирование кинофильмов и связанного звука для цифрового запоминающего носителя приблизительно до 1,5 Мбит/сек», 1992. Эти числа изменяются динамически с аудиосигналом. Кодировщик регулирует минимальный шум квантования в поддиапазонах путем процесса распределения бит так, чтобы шум квантования в этих поддиапазонах был меньше, чем слышимый уровень.

Точное психоакустическое вычисление обычно требует высокочастотного разрешения в преобразовании времени в частоту. Это предполагает большой кадр анализа для преобразования времени в частоту. Стандартный размер кадра анализа равен 1 024 выборкам, который соответствует подблоку сжатых аудиоданных. Частотное разрешение длины 1024 быстрых преобразований Фурье приблизительно соответствует временному разрешению человеческого уха.

Выходом психоакустической модели является отношение сигнала к маске (ОСМ) для каждого из 32 поддиапазонов. ОСМ показывает величину шума квантования, которую может переносить конкретный поддиапазон, и, следовательно, также показывает число битов, требуемых для квантования выборок в поддиапазоне. В частности, большое ОСМ (>>1) показывает, что требуется большое число битов, а малое ОСМ (>0) показывает, что требуется меньше битов. Если ОСМ <0, тогда аудиосигнал находится ниже порога маски шума и не требуются никакие биты для квантования.

Как показано на фиг. 14 отношения СМ генерируют для каждого последовательного блока вообще 1 ) вычислением быстрого преобразования Фурье, предпочтительно длины 1 024, на аудиовыборках ИКМ для создания последовательности частотных коэффициентов 142, 2) свертыванием частотных коэффициентов с частотно зависимыми тональными и шумовыми психоакустическими масками 1 44 для каждого поддиапазона, 3) усреднением результирующих коэффициентов в каждом поддиапазоне для создания уровней ОСМ, и 4) выборочно нормализацией отношений СМ в соответствии со слуховой характеристикой 1 46 человека, представленной на фиг. 15.

Чувствительность уха человека максимальна на частотах около 4 кГц и уменьшается, когда частота увеличивается или уменьшается. Таким образом, для того, чтобы быть воспринимаемым на некотором уровне, сигнал 20 кГц должен быть значительно сильнее, чем сигнал 4 кГц. Поэтому, отношения СМ на частотах около 4 кГц сравнительно более важны, чем отдаленные частоты. Однако, точная форма кривой зависит от средней мощности сигнала, идущего слушателю. Когда уровень громкости увеличивают, слуховая характеристика 1 46 сжимается. Таким образом, система, оптимизированная для конкретного уровня громкости, будет субоптимальной при других уровнях громкости. В результате, либо номинальный уровень мощности выбирают для нормализации отношений СМ, либо нормализацию блокируют. Результирующие отношения СМ 148 для 32 поддиапазонов представлены на фиг. 1 6.

Стандартная процедура распределения бит.

Система 30 ГУБ сначала выбирает подходящую стратегию кодирования поддиапазонов, которые будут кодировать с алгоритмами ВК и АДИКМ, а также будет ли разрешен СКЧ. После чего система ГУБ выбирает либо психоакустический подход, либо подход распределения бит с минимальной среднеквадратической ошибкой. Например, при высоких скоростях бит система может блокировать психоаккустическое моделирование и использовать правильную схему распределения с минимальной среднеквадратической ошибкой. Это уменьшает сложность вычисления без какого-либо заметного изменения в восстановленном аудиосигнале. Наоборот, при низких скоростях система может активизировать схему совместного кодирования частоты, обсужденную выше, для улучшения достоверности восстановления на низких частотах. Система ГУБ может переключаться между нормальным психоакустическим распределением и распределением с минимальной среднеквадратической ошибкой на основе содержания переходного процесса сигнала на поблочной основе. Когда содержание импульсной помехи высоко, предположение стационарности, которое используют для вычисления значений ОСМ не правильно и, следовательно, схема минимальной среднеквадратической ошибки обеспечивает большую эффективность.

Для психоакустического распределения система ГУБ сначала распределяет имеющиеся биты для обеспечения психоакустических эффектов, а затем распределяет оставшиеся биты для снижения общего минимального уровня шума. Первым шагом является определение значений ОСМ для каждого поддиапазона текущего блока, как описано выше. Следующим шагом является корректировка значений ОСМ для выигрыша прогнозирования (Р§ат) в соответствующих поддиапазонах для генерации отношений маски к шуму (значений ОМС). Причем, принцип заключается в том, что кодировщик АДИКМ будет обеспечивать часть требуемого ОСМ. В результате неслышимые психоаккустические уровни шума могут быть обеспечены меньшими битами.

ОМШ для )-го поддиапазона, при допущении ΡΜΘΌΕ=1 равно: ΜΝΚ(ΐ) = 8ΜΚ(ΐ) РдашО) · ΡΕΓ (ΑΒΙΤ), где ΡΕΓ (ΑΒΙΤ) показатель эффективности прогнозирования квантователя. Для вычисления ΜΝΚ(ΐ) разработчик должен иметь оценку распределения бит (ΑΒΙΤ), которая может быть сгенерирована либо при распределении битов только на основании 8ΜΚ(ΐ), либо при предположении, что ΡΕΓ (ΑΒΙΤ) = 1 . При скоростях бит от средних до высоких действительный выигрыш прогнозирования приблизительно равен вычисленному выигрышу прогнозирования. Однако при низких скоростях бит действительный выигрыш прогнозирования уменьшается. Действительный выигрыш прогнозирования, который достигают, например, 5-уровневым квантователем, равен приблизительно 0,7 от оцененного выигрыша прогнозирования, в то время как 65-уровневый квантователь дает возможность действительному выигрышу прогнозирования быть равным оцененному выигрышу прогнозирования ΡΕΓ = 1 ,0. В пределе, когда скорость бит равна нулю, прогнозируемое кодирование, по существу, непригодно и действительный выигрыш прогнозирования равен нулю.

На следующем шаге система 30 ГУБ генерирует схему распределения бит, которая обеспечивает ОМШ для каждого поддиапазона. Это выполняют с использованием аппроксимации, что 1 бит равняется 6 децибелам сигнала помехи. Для гарантии того, что помеха кодирования меньше, чем психоакустически слышимый порог, назначенная скорость бит равна наибольшему целому числу ΜΝΚ, деленному на 6 децибел, то есть:

АВ1Т(3)

ΜΝΚ(0 ) децибел

При распределении битов таким образом уровень 156 шума в восстановленном сигнале будет стремиться следовать самому сигналу 157, показанному на фиг. 17. Таким образом, на частотах, где сигнал очень сильный, уровень шума будет относительно высоким, но останется неслышимым. На частотах, где сигнал относительно слабый, минимальный уровень шума будет очень малым и неслышимым. Средняя ошибка, связанная с этим типом психоакустического моделирования, будет всегда больше, чем минимальная среднеквадратическая ошибка уровня 158 шума, но слышимая эффективность может быть лучше, особенно при низких скоростях бит.

В случае, когда сумма распределенных битов для каждого поддиапазона по всем аудиоканалам больше или меньше, чем целевая скорость бит, стандартная процедура ГУБ будет итеративно уменьшать или увеличивать распределение бит для отдельных поддиапазонов. Альтернативно, целевая скорость бит может быть вычислена для каждого аудиоканала. Это субоптимально, но проще, особенно при реализации аппаратного обеспечения. Например, имеющиеся биты могут быть распределены равномерно между аудиоканалами или могут быть распределены пропорционально среднему ОСМ или СК каждого канала.

В случае, когда целевая скорость бит выше на сумму локальных распределений бит, включая биты кода ВК и вспомогательной информации, стандартная процедура глобального управления битами будет постепенно уменьшать локальные распределения бит поддиапазона. Имеется ряд конкретных способов для уменьшения средней скорости бит. Прежде всего, скорости бит, которые были округлены наибольшей целочисленной функцией, могут быть восстановлены. Далее, один бит может быть изъят из поддиапазонов, имеющих наименьшие значения ОМШ. Кроме того, высокочастотные поддиапазоны могут быть выключены или может быть обеспечена возможность совместного кодирования частоты. Все стратегии уменьшения скорости бит следуют основному принципу постепенного плавного уменьшения разрешения кодирования с наименее агрессивно воспринимаемой стратегией, применяемой первой и наиболее агрессивной стратегией, используемой последней.

В случае, когда целевая скорость бит больше, чем сумма локальных распределений бит, включая биты кодов ВК и вспомогательной информации, стандартная процедура глобального управления битами будет постепенно и итеративно увеличивать локальное распределение бит поддиапазона для уменьшения общего минимального уровня шума восстановленного сигнала. Это может вызвать кодирование поддиапазонов, которым ранее были распределены нулевые биты. Издержки бит в «включаемых» поддиапазонах, таким образом, могут требоваться для отражения стоимости передачи любых коэффициентов прогнозатора, если разрешают режим прогнозирования (ΡΜΘΌΕ).

Стандартная процедура ГУБ может выбирать одну из трех различных схем для распределения оставшихся битов. Одним вариантом является использование подхода минимальной среднеквадратической ошибки, при котором перераспределяют все биты так, что результирующий минимальный уровень шума является приблизительно ровным. Это эквивалентно первоначальному блокированию психоакустического моделирования. Для достижения минимального уровня шума с минимальной среднеквадратической ошибкой график 160 среднеквадратических значений поддиапазонов, показанный на фиг. 18а переворачивают на 180°, как показано на фиг. 18Ь и «наполняют водой», пока не исчерпают все биты. Этот хорошо известный способ называется «наполнение водой», поскольку уровень искажения падает равномерно при увеличении числа распределенных битов. В показанном примере первый бит назначают в поддиапазон 1 , второй и третий биты назначают в поддиапазоны 1 и 2, биты с четвертого по седьмой назначают в поддиапазоны 1,2,4 и 7 и так далее. Альтернативно один бит может быть назначен в каждый поддиапазон, чтобы гарантировать, что каждый поддиапазон будет закодирован, а затем оставшиеся биты «заполняют водой».

Вторым и предпочтительным вариантом является распределение оставшихся битов в соответствии с подходом минимальной среднеквадратической ошибки и среднеквадратическим графиком, описанным выше. Эффектом этого способа является равномерное снижение минимального уровня шума 157, показанного на фиг. 1 7, с одновременной поддержкой формы, связанной с психоакустической маскировкой. Это обеспечивает хороший компромисс между психоакустическим искажением и искажением среднеквадратической ошибки.

Третьим подходом является распределение оставшихся битов с использованием подхода минимальной среднеквадратической ошибки, применяемого к графику разности между среднеквадратической и ОМШ значениями для поддиапазонов. Эффектом этого подхода является плавное преобразование формы минимального уровня шума из оптимальной психоакустической формы 157 в оптимальную (гладкую) форму 158 минимальной среднеквадратической ошибки, при увеличении скорости бит. В любой из этих схем, если ошибка кодирования в любом поддиапазоне падает ниже 0,5 самого младшего двоичного разряда относительно исходного ИКМ, то биты больше не распределяют в этот диапазон. Выборочно могут быть использованы фиксированные максимальные значения распределений бит поддиапазона для ограничения максимального числа битов, распределяемых в конкретный диапазон.

В системе кодирования, раскрытой выше, предполагалось что средняя скорость бит на выборку является фиксированной и распределение бит генерировали для максимизации достоверности восстановленного аудиосигнала. Альтернативно уровень искажения, среднеквадратический или воспринимаемый, может быть зафиксирован, а скорость бит может быть изменена для соответствия уровню искажения. В подходе минимальной среднеквадратической ошибки, среднеквадратический график просто «наполняют водой» до соответствия уровня искажения. Требуемую скорость бит изменяют на основе среднеквадратических уровней поддиапазонов. В психоакустическом подходе биты распределяют для удовлетворения индивидуальным значениям ОМШ. В результате скорость бит будет меняться на основе индивидуальных значений ОМШ и выигрышей прогнозирования. Этот тип распределения в настоящее время не используют, поскольку современные декодировщики работают при фиксированных скоростях. Однако, альтернативные системы доставки, например, асинхронной передачи данных или носитель с произвольным доступом к памяти могут сделать кодирование с переменной скоростью осуществимым в ближайшем будущем.

Квантование индексов распределения бит (ΑΒΙΤ).

Индексы распределения бит (ΑΒΠ) генерируют для каждого поддиапазона и каждого аудиоканала стандартной процедурой адаптивного распределения бит в процессе глобального управления битами. Назначением индексов ко33 дировщике является указание числа уровней 162, показанных на фиг. 10, которые необходимы для квантования разностного сигнала для получения субъективно оптимального минимального уровня шума восстановления в декодировщике звука. В декодировщике они указывают число уровней, необходимых для обратного квантования. Индексы генерируют для каждого буфера анализа, и их значения могут находиться в диапазоне от 0 до 27. Зависимость между значением индекса, числом уровней квантователя и приблизительным результирующим дифференциальным поддиапазоном представлены в таблице 3. Поскольку разностный сигнал нормализуют, размер шага 164 задают равным единице.

Таблица 3

Индекс ΑΒΙΤ	N О Уровней	Длина кода (биты)	8ΝρΚ (децибелы)
0	0	0	-
1	3	Переменная	8
2	5	Переменная	12
3	7(или 8)	Переменная(или 3)	16
4	9	Переменная	19
5	13	Переменная	21
6	17 (или 16)	Переменная(или 4)	24
7	25	Переменная	27
8	33 (или 32)	Переменная(или 5)	30
9	65 (или 64)	Переменная(или 6)	36
10	129 (или 128)	Переменная (или 7)	42
11	256	8	48
12	512	9	54
13	1024	10	60
14	2048	11	66
15	4096	12	72
16	8192	13	78
17	16384	14	84
18	32768	15	90
19	65536	16	96
20	131072	17	102
21	262144	18	108
22	524268	19	114
23	1048576	20	120
24	2097152	21	126
25	4194304	22	132
26	8388608	23	138
27	16777216	24	144

Индексы распределения бит (ΑΒΙΤ) передают в декодировщик непосредственно либо с использованием 4-битовых целочисленных кодовых слов без знака, 5-битовых целочисленных кодовых слов без знака, либо с использованием 12-уровневой таблицы энтропии. Обычно кодирование энтропии применяют при низкой скорости бит для сохранения битов. Способ кодирования ΑΒΙΤ устанавливают управлением режимом в кодировщике и передают в декодировщик. Кодировщик энтропии отображает 166 индексы ΑΒΙΤ в конкретную книгу кодов, идентифицируемую индексом ΒΗϋΡΡ и специальным кодом νΑΒΙΤ в книге кодов, с использованием процесса, показанного на фиг. 1 2 с 1 2уровневыми таблицами ΑΒΙΤ.

Г лобальное управление скоростью бит.

Поскольку как вспомогательная информация, так и дифференциальные выборки поддиапазона могут быть выборочно кодированы с использованием книг кодов переменной длины энтропии, необходимо применить некоторый механизм для регулировки результирующей скорости бит кодировщика, когда сжатый поток бит передают при фиксированной скорости. Поскольку обычно не желательно модифицировать вспомогательную информацию, вычисленную однажды, регулировки скорости бит лучше всего достигают итеративным изменением процесса квантования дифференциальной выборки поддиапазона внутри кодировщика АДИКМ до соответствия ограничению скорости.

В описываемой системе система 178 глобального управления скоростью (ГУС) на фиг. 1 0 регулирует скорость бит, которую получают в результате процесса отображения кодов уровней квантователя в таблицу энтропии, изменением статистического распределения значений кода уровня. Предполагается, что все таблицы энтропии имеют одинаковую тенденцию больших длин кода для больших значений кода уровня. В этом случае средняя скорость бит уменьшается, когда вероятность малого значения кода уровней увеличивается и наоборот. В процессе квантования АДИКМ (или АИКМ), величина масштабного коэффициента определяет распределение или использование значений кода уровня. Например, когда величина масштабного коэффициента увеличивается, дифференциальные выборки квантуют более низкими уровнями, следовательно, значения кода постепенно станут меньше. Это, в свою очередь, приводит к меньшей длине кодового слова энтропии и более низкой скорости бит.

Недостатком этого способа является то, что при увеличении величины масштабного коэффициента шум восстановления в выборках поддиапазона также повышается на тот же порядок. Однако, на практике регулировка масштабных коэффициентов обычно не более, чем 1-3 децибел. Если требуется большая регулировка, то предпочтительно уменьшить общее распределение бит, поскольку имеет место вероятность появления слышимого шума квантования в поддиапазонах, которые используют неровный масштабный коэффициент.

Для регулировки распределения бит энтропии, закодированной АДИКМ, выборки предыстории прогнозатора для каждого поддиапазона запоминают во временном буферном регистре, пока повторяют цикл кодирования АДИКМ. Далее все буферы выборки поддиапазона кодируют полным процессом АДИКМ с использованием коэффициентов А прогнозирования, полученных из анализа методом линейного прогнозирования поддиапазона вместе с масштабными коэффициентами, среднеквадратическими (или максимальными), распределениями бит квантователя (ΑΒΙΤ), режимами импульсной помехи ΤΜΟΌΕ и режимами прогнозирования ΡΜΟΌΕ, полученными из оцененного разностного сигнала. Результирующие коды уровня квантователя буферизируют и отображают в книгу кодов переменной длины энтропии, которая показывает наименьшее потребление бит, используя индекс распределения бит для определения размеров книги кодов.

Система ГУС затем анализирует число битов, использованных для каждого поддиапазона с использованием того же индекса распределения бит из всех индексов. Например, когда АВ1Т=1, вычисление распределения бит в глобальном управлении битами допускает среднюю скорость 1,4 на выборку поддиапазона (т.е., средняя скорость для книги кодов энтропии при допущении оптимального распределения амплитуды уровня кода). Если полное потребление бит всех диапазонов для каждого АВ1Т=1 больше, чем 1,4/ (полное число выборок поддиапазона), то масштабные коэффициенты могут быть увеличены во всех этих поддиапазонах для уменьшения скорости бит. Решение регулировать масштабные коэффициенты поддиапазона предпочтительно откладывают, пока не выбраны все скорости индекса ΑΒΙΤ. В результате индексы со скоростями бит ниже, чем предполагаемые в процессе распределения бит могут быть компенсированы индексами со скоростями бит выше этого уровня. Эта оценка может также быть расширена для покрытия всех подходящих аудиоканалов.

Рекомендуемой процедурой уменьшения общей скорости бит является выполнение с самой нижней скорости бит индекса ΑΒΙΤ, которая превышает порог, увеличения масштабных коэффициентов в каждом из поддиапазонов, которые имеют это распределение бит. Действительное потребление бит уменьшается на число бит, которые в этих поддиапазонах были выше номинальной скорости для этого распределения. Если модифицированное потребление бит превышает допустимый максимум, тогда масштабные коэффициенты для следующего самого высокого индекса ΑΒΙΤ, для которого потребление бит превышает номинал, увеличивают. Этот процесс продолжают до тех пор, пока модифицированное потребление бит не станет ниже максимума.

Если это достигнуто, данные предыстории загружают в прогнозатор и процесс 72 кодирования АДИКМ повторяют для тех поддиапазонов, в которых были модифицированы масштабные коэффициенты. После этого коды уровней опять отображают в книги кодов с наиболее оптимальной энтропией и потребление бит вычисляют повторно. Если любое из потреблений бит превышает номинальные скорости, то масштабные коэффициенты дополнительно увеличивают и цикл повторяют.

Модификация масштабных коэффициентов может быть выполнена двумя способами. Первый состоит в передаче в декодировщик коэффициента регулировки для каждого индекса ΑΒΙΤ. Например, 2-битовое слово может передавать сигнал регулировки в диапазоне, например, 0, 1 , 2 и 3 децибела. Поскольку тот же коэффициент регулировки используют для всех поддиапазонов, которые используют индекс ΑΒΙΤ и только индексы 1 -1 0 могут использовать кодирование энтропии, максимальное число коэффициентов регулировки, которые необходимо передавать для всех поддиапазонов, равно 1 0. Альтернативно, масштабный коэффициент может быть изменен в каждом поддиапазоне при выборе более высокого уровня квантования. Однако, поскольку квантователи масштабного коэффициента имеют размеры шагов 1,25 и 2,25 децибел, соответственно, регулировка масштабного коэффициента ограничена этими шагами. Более того, при использовании этого способа необходимо повторно вычислять дифференциальное кодирование масштабных коэффициентов и результирующего потребления бит, если разрешено кодирование энтропии.

Вообще говоря, та же процедура может быть использована для увеличения скорости бит, т.е. когда скорость бит ниже требуемой. В этом случае масштабные коэффициенты уменьшали бы, чтобы дифференциальные выборки больше использовали внешние уровни квантователя и, следовательно, использовали более длинные кодовые слова в таблице энтропии.

Если потребление бит для индексов распределения бит не может быть уменьшено в пределах разумного числа итераций, или в случае, когда передают коэффициенты регулировки масштабного коэффициента, число шагов регулировки достигло предела, тогда возможны два средства. Первое, масштабные коэффициенты поддиапазонов, которые находятся в пределах номинальной скорости, могут быть увеличены, таким образом снижая общую скорость бит. Альтернативно весь процесс кодирования АДИКМ может быть прекращен и повторно вычислены адаптивные распределения бит по диапазонам, с использованием меньшего количества.

Формат потока данных.

Мультиплексор 32, показанный на фиг. 10 упаковывает данные для каждого канала, а затем мультиплексирует упакованные данные для каждого канала в выходной блок для формирования потока 16 данных. Способ упаковки и мультиплексирования данных, т.е. формат 186 блока, показанный на фиг. 19, разработан так, что аудиокодировщик может быть использован в широком диапазоне применений и может быть расширен до более высоких частот дискретизации, количество данных в каждом блоке ограничивают, проигрывание может быть инициировано на каждом подподблоке независимо, для уменьшения времени ожидания, и ошибки декодирование снижаются.

Как показано, один блок 186 (4096 выборок ИКМ/канал) определяет границы потока данных, в которых находится достаточно информации для того, чтобы правильно декодировать блок звука, и состоит из 4 подблоков 188 (1024 выборок ИКМ/канал), каждый из которых, в свою очередь, состоит из 4 подподблоков 190 (256 выборок ИКМ/канал). Слово 192 синхронизации блока помещают в начале каждого аудио блока. Информация 194 заголовка блока в первую очередь дает информацию относительно структуры блока 186, конфигурацию кодировщика, который генерирует поток и различные дополнительные операционные особенности, например, управление вложенным динамическим диапазоном и временной код. Дополнительная информация 196 заголовка сообщает декодировщику, требуется ли смешение сигнала, если была сделана компенсация динамического диапазона и если вспомогательные байты данных включают в поток данных. Заголовки 198 аудиокодирования указывают компоновку упаковки и форматы кодирования, используемые в кодировщике для сборки «вспомогательной информации кодирования», т.е. распределение бит, масштабные коэффициенты, значения ΡΜΘΌΕ, значения ΤΜΘΌΕ, книги кодов и т.д. Остаток блока составлен из подблоков последовательных подблоков 188.

Каждый подблок начинается с вспомогательной информации 200 аудиокодирования, которая передает информацию относительно числа ключевых систем кодирования, используемых для сжатия звука в декодировщик. Они содержат выявление импульсной помехи, прогнозирующее кодирование, адаптивное распределение бит, высокочастотное векторное квантование, кодирование интенсивности и адаптивное масштабирование. Многие из этих данных распаковывают из потока данных с использованием вышеупомянутой информации заголовка аудиокодирования. Массив 202 высокочастотного кода ВК состоит из 10-битовых индексов на высокочастотный поддиапазон, указываемый индексами УЦЗИВ. Массив 204 низкочастотных эффектов является дополнительным и представляет данные очень низкой частоты, которые могут быть использованы для запуска, например, динамика низкого тона.

Аудиомассив 206 декодируют с использованием обратного квантователя Хафмана/фиксированного обратного квантователя и разделяют на ряд подподблоков (88С), причем каждый декодируют до 256 выборок ИКМ на аудиоканал. Массив 208 повышенной дискретизации аудиоприсутствует только, если частота выборки больше, чем 48 кГц. Для того, чтобы оставаться совместимыми, декодировщики, которые не могут работать на частотах выборки больше, чем 48 кГц, должны пропускать этот массив аудиоданных. Распакованную синхронизацию (ΌδΥΝΟ) 210 используют для проверки конца позиции подблока в аудиоблоке. Если позиция не проверяется, звук, декодированный в подблоке, объявляют ненадежным. В результате этот блок приглушают либо повторяют предыдущий блок.

Декодировщик поддиапазона.

Фиг. 20 представляет блок схему декодировщика 1 8 выборки поддиапазона. Декодировщик достаточно прост по сравнению с кодировщиком и не предполагает выполнения вычислений, которые существенно важны в качестве восстанавливаемого звука, например распределения бит. После синхронизации распаковщик 40 распаковывает поток 1 6 сжатых аудиоданных, обнаруживает и, если необходимо, корректирует ошибки, происходящие при передаче и демультиплексирует данные в отдельные аудиоканалы. Разностные сигналы поддиапазона повторно квантуют в сигналы ИКМ и каждый аудиоканал фильтруют для преобразования сигнала назад в интервал времени.

Прием аудиоблока и распаковка заголовков.

Закодированный поток данных упаковывают (или разбивают на блоки) в кодировщике, он содержит в каждом блоке дополнительные данные для синхронизации декодировщика, выявления и коррекции ошибки, флаги аудиокодирования и вспомогательную информацию кодирования, а также сами фактические аудиокоды. Распаковщик обнаруживает слово синхронизации и извлекает размер блока ΡδΙΖΕ.

Закодированный поток бит состоит из последовательных аудиоблоков, причем каждый начинается с 32-битового (Ох7ГГе8001) слова синхронизации (δΥΝΟ). Физический размер аудиоблока ΡδΙΖΕ извлекают из байтов, следующих после слова синхронизации. Это позволяет программисту задать таймер «конца блока» для уменьшения издержек программного обеспечения. Затем извлекают параметр ΝΒΓ-кк (число блоков), который позволяет декодировщику вычислить размер аудиоокна (32 (ΝΒΠ1<5+1)). Это сообщает декодировщику, какую дополнительную информацию извлекать и сколько восстановленных выборок генерировать.

Как только приняты байты заголовка блока (купс, йуре, кигр, пЫ1кк, Пй/с. атобе, кГгед, га1с. Ш1х1, бу η Г, буиср О те, аихси?, 1ГГ, Ьйад), достоверность первых 12 байтов можно проверить с использованием контрольных байтов Рида Соломона НСКС. Они будут корректировать 1 ошибочный байт из 1 4 байтов или 2 ошибочных данных флага. После того, как завершена проверка ошибок, информацию заголовка используют для корректировки флагов декодировщика.

Заголовки (ГШк, уетиит, сЫкр рстг, ипкрес), следующие после НСКС и до дополнительной информации могут быть извлечены и использованы для корректировки флагов деко39 дировщика. Поскольку эта информация не будет изменяться от блока к блоку, большинство схем мажоритарной выборки могут быть использованы для компенсации ошибок бит. Дополнительные данные заголовка (Дте8, тсоеГГ, ДсоеГГ, аихД, осгс) извлекают в соответствии с заголовками пй.хсЕ ДупГ, тте и аихсп!. Дополнительные данные могут быть проверены с использованием дополнительных байтов Рида Соломона НСКС. Заголовки блока аудиокодирования (киЬГк, 8иЬ8, сЙ8, уд8иЬ, )отх, ДшГГ, 8Йи£Г, ЫшГГ, 8е15, 8е17, 8е19, 8е113, 8е117, 8е125, 8е133, 8е165, 8е1129, айсгс) передают один раз в каждом блоке. Они могут быть проверены с использованием контрольных аудиобайтов Рида Соломона (контроля по избыточности) (ЛНСКС). Большинство заголовков повторяют для каждого аудиоканала, как определено СНЗ.

Распаковка вспомогательной информации кодирования подблока

Блок аудиокодирования разделяют на ряд подблоков (ЗИВРЗ). Вся необходимая вспомогательная информация (ртоЬе, руд, !тоДе, 8са1е8, аЬЙ8, ЬГгед) включается для того, чтобы правильно декодировать каждый подблок аудиосигнала без ссылки на любые другие подблоки. Каждый последовательный подблок декодируют сначала распаковкой его вспомогательной информации.

-битовый флаг режима прогнозирования (ΡΜΟΌΕ) передают для каждого активного поддиапазона и по всем аудиоканалам. Флаги ΡΜΟΌΕ справедливы для текущего подблока. ΡΜΟΌΕ=1 означает, что коэффициенты прогнозатора не включают в аудиоблок для этого поддиапазона. В этом случае коэффициенты прогнозатора в этой полосе устанавливают в ноль в течение длительности подблока. ΡΜΟΌΕ=1 означает, что вспомогательная информация содержит коэффициенты прогнозатора для этого поддиапазона. В этом случае коэффициенты прогнозатора извлекают и устанавливают в прогнозатор на продолжительность подблока.

Для каждого ΡΜΟΌΕ=1 в массиве ртоДе соответствующий индекс адреса УО (ВК) загружают в массив Ρνρ. Эти индексы являются фиксированными 12-битовыми целочисленными словами без знака и 4 коэффициента прогнозирования извлекают из поисковой таблицы отображением 1 2-битовой целочисленной в векторную таблицу 266.

Индексы распределения бит (АВ1Т) указывают число уровней в обратном квантователе, который будет преобразовывать аудиокоды поддиапазона назад в абсолютные значения. Формат распаковки отличается для индексов АВ1Т в каждом аудиоканале, в зависимости от индекса ВНИРР и специфического кода 256 УАВГГ.

Вспомогательную информацию режима импульсной помехи (ΤΜΟΌΕ) используют для указания позиции импульсных помех в каждом поддиапазоне относительно подблока. Каждый подблок разделяют на 1 -4 подподблока. В терминах выборок поддиапазона каждый подподблок состоит из 8 выборок. Максимальный размер подблока равен 32 выборкам поддиапазона. Если импульсная помеха появляется в первом подподблоке, тогда 1тоДе=0. Импульсная помеха указывается во втором подблоке, когда 1тоДе= 1 и т.д. Для управления искажением типа импульсной помехи, как например, предэхо, два масштабных коэффициента передают для поддиапазонов подблока, где ΤΜΟΌΕ больше, чем 0. Индексы ВНИРР, извлекаемые из аудиозаголовков, определяют способ, требуемый для декодирования значений ΤΜΘΌΕ. Когда ВНИРР=3, значения ΤΜΘΌΕ распаковывают как 2-битовые целочисленные без знака.

Индексы масштабных коэффициентов передают, чтобы обеспечить правильное масштабирование аудиокодов поддиапазона внутри каждого подблока. Если ΤΜΟΌΕ равно нулю, тогда передают один масштабный коэффициент. Если ΤΜΟΌΕ больше, чем ноль для любого поддиапазона, тогда два масштабных коэффициента передают вместе. Индексы 240 ЗНИРР, извлекаемые из аудиозаголовков, определяют способ, требуемый для декодирования ЗСАБРЗ для каждого отдельного аудиоканала. Индексы νΌΡΜδ^,, определяют значение среднеквадратического масштабного коэффициента.

В определенных режимах индексы ЗСАБРЗ распаковывают с использованием выбора из пяти 129-уровневых со знаком обратных квантователей Хафмана. Однако результирующие обратно квантованные индексы дифференциально кодируют и преобразуют в абсолютное значение следующим образом:

АВЗ_ЗСА^Ε (п+1) = ЗСА1.НЗ (п) ЗСАБРЗ (п+1) , где п - п-ый дифференциальный масштабный коэффициент в аудиоканале, начиная с первого поддиапазона.

В режимах аудиокодирования с низкой скоростью бит аудиокодировщик непосредственно использует векторное квантование для эффективного кодирования аудиовыборок высокочастотного поддиапазона. Дифференциальное кодирование не используют в этих поддиапазонах, и все массивы, относящиеся к обычным процессам АДИКМ, должны храниться в состоянии «0». Первый поддиапазон, который кодируют с использованием ВК, указывают с помощью УЦЗИВ, и все поддиапазоны до ЗИВЗ кодируют таким же образом.

Высокочастотные индексы (НРИБЦ) распаковывают 248 как фиксированные 10-битовые целые числа без знака. 32 выборки, требуемые для каждого подблока поддиапазона, извлекают из Θ4 дробной двоичной поисковой таблицы, подачей подходящих индексов. Это повторяют для каждого канала, в котором режим высокочастотного ВК является активным.

Коэффициент прореживания для эффектов каналов всегда равен Х128. Число 8-битовых выборок эффекта, присутствующих в ЬРЕ (низкочастотный эффект), определен выражением 88С· 2, когда Р8С=0 или (88С+1) · 2, когда Р8С не равно нулю. Дополнительный 7-битовый масштабный коэффициент (целочисленный без знака) также включают в конце массива ЬРЕ, который преобразуют в среднеквадратическое значение с использованием 7-битовой поисковой таблицы.

Распаковка массива аудиокодов подподблока.

Процессом извлечения аудиокодов поддиапазона управляют с помощью индексов ΑΒΙΤ и в случае, когда АВ1Т<11, также индексами 8ЕЬ. Аудиокоды форматируют либо с использованием кодов Хафмана переменной длины, либо фиксированных линейных кодов. Вообще, индексы АВ1Т=10 или меньше предполагают коды Хафмана переменной длины, которые выбирают кодами УОБ (п) 258, тогда как ΑΒΙΤ выше 10 всегда означают фиксированные коды. Все квантователи имеют среднешаговую равномерную характеристику. Для квантователей с фиксированным кодом (Υ²) наиболее отрицательный уровень удаляют. Аудиокоды упаковывают в подподблоки, каждый представляющий максимум 8 выборок поддиапазона, и эти подподблоки повторяют до четырех раз в текущем подблоке.

Если флаг частоты выборки указывает частоты выше, чем 48 кГц, тогда массив избыточных аудиоданных присутствует в аудиоблоке. Первые два байта в этом массиве будут указывать размер байта избыточных аудиоданных. Кроме того, частота выборки аппаратуры декодера должна быть установлена для работы при частоте выборки 8РКЕО/2 или 8РКЕО/4, в зависимости от высокочастотной частоты выборки.

Распаковка проверки синхронизации.

Данные распаковки слова проверки синхронизации Ό8ΥΝ С=0хГГГГ выявляют в конце каждого подблока, чтобы дать возможность проверить целостность распаковки. Использование переменных кодовых слов в вспомогательной информации и аудиокодах, что имеет место для низких скоростей аудиобит, может приводить к несовмещению распаковки, если заголовки, либо вспомогательная информация, либо аудиомассивы испорчены ошибками бит. Если указатель распаковки не указывает на начало Ό8ΥΝΟ то можно предположить, что предыдущий аудиоподблок является ненадежным.

Когда вспомогательная информация и аудиоданные распакованы, декодировщик восстанавливает многоканальный аудиосигнал по одному подблоку. На фиг. 20 представлена часть декодировщика основной полосы частот для одного поддиапазона в одном канале.

Восстановление среднеквадратических масштабных коэффициентов.

Декодировщик восстанавливает среднеквадратические масштабные коэффициенты (8САЬЕ8) для алгоритмов АДИКМ, ВК и СКЧ. В частности, индексы УТМОИЕ и ТНИРР обратно отображены для идентификации режима переходного процесса (ТМОИЕ) для текущего подблока. После чего индекс 8НИРР, коды УИК.М8_7)|, и ТМОИЕ обратно отображают для восстановления дифференциального среднеквадратического кода. Дифференциальный среднеквадратический код обратно дифференциально кодируют 242 для выбора среднеквадратического кода, который затем обратно квантуют 242 для создания среднеквадратического масштабного коэффициента.

Обратное квантование высокочастотных векторов.

Декодировщик обратно квантует высокочастотные векторы для восстановления аудиосигналов поддиапазона. В частности, выделенные высокочастотные выборки (НРКЕО), которые являются 8-битовыми дробными (04) двоичными числами со знаком, идентифицируемыми началом У О поддиапазона (УО8иВ8) отображают в обратную поисковую таблицу 248УО. Выбираемое значение таблицы обратно квантуют 250 и масштабируют 252 среднеквадратическим масштабным коэффициентом.

Обратное квантование аудиокодов.

Перед выходом в цикл АДИКМ аудиокоды обратно квантуют и масштабируют для создания восстановленных разностных выборок поддиапазона. Обратное квантование обеспечивают обратным отображением индексов УАВ1Т и ВНИРР для спецификации индекса АВ1Т, который определяет размер шага и число уровней квантования, и обратным отображением индекса 8ЕЬ и аудиокодов УОНп), которые создают коды уровня квантования ОИ(п). После чего кодовые слова ОБ/п) отображают в поисковую таблицу 260 обратного квантователя, специфицируемую индексами АВ1Т и 8ЕЬ. Несмотря на то, что коды упорядочивают с помощью АВ1Т, каждый отдельный аудиоканал будет иметь отдельный спецификатор 8ЕЬ. Процесс поиска выполняют для нахождения номера со знаком уровня квантователя, который может быть преобразован в среднеквадратическую величину умножением на размер шага квантователя. Значения среднеквадратической величины затем преобразовывают в полные разностные выборки умножением на обозначенный среднеквадратический масштабный коэффициент (8САЕЕ8) 262.

1. рЬ[п] = 1/0[собе[п]], где 1О - поисковая таблица обратного квантователя

2. Υ|π| = ОЕ|п| · 81ер8|/е|аЫ15|

3. Кб[п] = Υ|π| · 8са1е_Гас!ог, где Кб равен восстановленным разностным выборкам.

Обратная АДИКМ

Процесс АДИКМ декодирования выполняют для каждой разностной выборки поддиапазона следующим образом;

1. Загружают коэффициенты прогнозирования из поисковой таблицы обратного ВК.

2. Генерируют выборку прогнозирования свертыванием текущих коэффициентов прогнозатора с предыдущими 4 восстановленными выборками поддиапазона, хранимыми в массиве 268 предыстории прогнозаторов. Р[п]=8ит(сое££ [ί] · К[п - ί] для ί=1, 4, где п=текущему периоду выборки.

3. Ирибавляют выборку прогнозирования к восстановленной разностной выборке для формирования восстановленной выборки 270 поддиапазона. К[п]=КД[п]+Р[п].

4. Корректируют предысторию прогнозатора, то есть копируют текущую восстановленную выборку поддиапазона вверху списка предыстории К[п-1]=К[п - ί + 1] для 1=4,1.

В случае, когда ΡΜΘΌΕ=0, коэффициенты прогнозатора равны нулю, выборка прогнозирования - нулю, а восстановленная выборка поддиапазона равна дифференциальной выборке поддиапазона. Хотя в этом случае не требуется вычисление прогнозирования, существенно, что предысторию сохраняют скорректированной в случае, если ΡΜΘΌΕ должна стать активной в будущих подблоках. Кроме того, если НРЬАС активен в текущем аудиоблоке, предыстория прогнозатора должна быть очищена перед декодированием самого первого подподблока в блоке. Иредыстория должна быть скорректирована, как обычно, от этой точки.

В случае поддиапазонов высокочастотного ВК или, когда поддиапазоны не выбирают (т.е. выше предела 8ИВ§), предыстория должна оставаться очищенной до того времени, пока прогнозатор поддиапазона станет активным.

Выбор управления декодированием АДИКМ, ВК и СК4.

Иервый «переключатель» управляет выбором либо выхода АДИКМ, либо выхода ВК. Индекс УЦЗиВЗ идентифицирует начальный поддиапазон для кодирования ВК. Иоэтому, если текущий поддиапазон ниже, чем УЦ§ИВ§, переключатель выбирает выход АДИКМ. Иначе он выбирает выход ВК. Второй «переключатель» 278 управляет выбором либо выхода непосредственного канала, либо выходом кодирования СК4. Индекс 1ΌΙΝΧ идентифицирует, какие каналы совмещают и в каком канале генерируют восстановленный сигнал. Восстановленный сигнал СК4 образует источник интенсивности для входов СК4 в других каналах. Иоэтому, если текущий поддиапазон является частью СК4 и не назначенным каналом, тогда переключатель выбирает выход СК4. Обычно переключатель выбирает выход канала.

Дешифрация.

Режим аудиокодирования для потока данных указывает значение ΑΜΘΌΕ. Декодированные аудиоканалы могут быть перенаправлены для согласования с физическим устройством выходного канала в аппаратуре 280 декодировщика.

Данные управления динамическим диапазоном

Коэффициенты динамического диапазона ΌΟΘΕΡΡ могут быть выборочно вставлены в аудиоблок на стадии 282 кодирования. Целью этой особенности является обеспечение возможности удобного сжатия аудиодинамического диапазона на выходе декодировщика. Сжатие динамического диапазона особенно важно при условиях прослушивания, где высокие уровни окружающего шума не дают возможности различить сигналы низкого уровня без риска повредить динамики во время прохождений громких сигналов. Эта проблема дополнительно осложняется возрастающим использованием 20битовых ИКМ аудиозаписей, которые имеют динамические высокие диапазоны 110 децибел.

В зависимости от размера кадра блока (ΝΒΡΚδ) передают один, два, либо четыре коэффициента на аудиоканал для любого режима кодирования (ΌΥΝΡ). Если передают один коэффициент, его используют для всего блока. Ири двух коэффициентах первый используют для первой половины блока, а второй - для второй половины блока. Четыре коэффициента распределяют на каждый квадрант блока. Более высокое временное разрешение возможно при локальной интерполяции между передаваемыми значениями.

Каждый коэффициент является 8-битовым дробным Ц2 двоичным числом со знаком и представляет логарифмическое значение коэффициента передачи, как показано в таблице, давая диапазон +/-31,75 децибел при шагах 0,25 децибел. Коэффициенты упорядочивают по номеру канала. На сжатие динамического диапазона воздействуют умножением декодированных аудиовыборок на линейные коэффициенты.

Степень сжатия может быть изменена подходящей регулировкой значений коэффициентов в декодировщике или может быть полностью выключена игнорированием коэффициентов.

32-полосная группа фильтров интерполяции.

32-Иолосная группа 44 фильтров интерполяции преобразует 32 поддиапазона для каждого аудиоканала в один ИКМ сигнал временного интервала. Коэффициенты не полного восстановления (512 -выводные конечной импульсной характеристики фильтры) используют, когда Р1ЬТ§=1. Обычно косинусные коэффициенты модуляции вычисляют заранее и хранят в постоянной памяти. Ироцедура интерполяции может быть расширена для восстановления больших блоков данных для уменьшения непроизводительных издержек цикла. Однако в случае конечных блоков минимальное разрешение, которое может требоваться, равно 32 выборкам ИКМ. Алгоритм интерполяции является следующим: создают косинусные коэффициенты модуляции, считывают 32 новых выборки поддиапазона в массив ΧΙΝ, умножают на косинусные коэффициенты модуляции и создают временные массивы §ИМ и ΌΙΡΡ, сохраняют предысторию, умножают на коэффициенты фильтра, создают 32 выходные выборки ИКМ, корректируют рабочие массивы и выводят 32 новые выборки ИКМ.

В зависимости от скорости бит и действующей схемы кодирования, поток бит будет специфицировать коэффициенты интерполяции блока фильтра (Р1ЬТ§) неполного, либо полного восстановления. Поскольку группы фильтров прореживания декодировщика рассчитывают с 40-битовой точностью с плавающей запятой, способность декодировщика достигнуть максимальной теоретической точности восстановления будет зависеть от исходной длины слова ИКМ и точности ферритовой памяти, используемой для вычисления свёрток и способа, которым масштабируют операции.

Интерполяция низкочастотных эффектов ИКМ.

Аудиоданные, связанные с каналом низкочастотных эффектов, не зависят от основных аудиоканалов. Этот канал кодируют с использованием процесса 8-битовой АДИКМ на Х128 прореженном (полоса частот 120 гц) входе 20битовой ИКМ. Аудиоданные прореженных эффектов согласованы во времени с аудиоданными текущего подблока в основных аудиоканалах. Следовательно, поскольку задержка на 32полосной группе фильтров интерполяции равна 256 выборкам (512 отводов), должны быть приняты меры предосторожности, чтобы гарантировать, что интерполированный канал низкочастотного эффекта также согласуется с остальными аудиоканалами перед выходом. Компенсация не требуется, если фильтр (конечная импульсная характеристика) интерполяции эффектов является также 512 отводным. Алгоритм ЬРТ (низкочастотного преобразования) использования 512-отводного фильтра интерполяции 128Х (отводной конечной импульсной характеристики) следующий: отображают 7-битовый масштабный коэффициент в среднеквадратический, умножают на размер шага 7-битового квантователя, генерируют значения подвыборок из нормализованных значений и интерполируют на 128, используя фильтр нижних частот, такой как задан для каждой подвыборки.

Аппаратная реализация.

На фигурах 21 и 22 представлена основная функциональная структура аппаратной реализации шестиканальной версии кодировщика и декодировщика для работы с частотами выборки 32, 44,1 и 48 кГц. Как представлено на фиг, 21, восемь аналоговых устройств ΆΌδΡ21020, микросхем 296 40-битового процессора цифрового сигнала (ПЦС) с плавающей запятой используют для реализации шестиканального цифрового аудиокодировщика 298. Шесть ПЦС используют для кодирования каждого из каналов, в то время как седьмой и восьмой используют для реализации функций глобального распределения бит, управления и форматера потока данных и кодирования ошибки, соответственно. Каждую ΆΌδΡ21020 тактируют с 33 мгц, она использует внешнюю 48 бит Х 32 К программную память с произвольной выборкой (1111В) 300, 40 бит Х 32 К память данных с произвольной выборкой (статистическая ППВ) 302 для выполнения алгоритмов. В случае кодировщиков 8 бит Х 512 К стираемую программируемую постоянную память (СППП) 304 также используют для хранения фиксированных постоянных величин, например, книги кодов энтропии переменной длины. Форматирование потока данных использует микросхему 306 контроля по избыточности СКС Рида Соломона для облегчения обнаружения ошибок и защиты от ошибок в декодировщике. Связь между процессорами ЦС кодировщика и глобального распределения бит и управления реализуется двухпортовой статической ППВ 308.

Осуществляют процесс кодирования следующим образом. 2-канальный поток 310 цифровых аудиоданных ИКМ извлекают на выходе каждого из трех цифровых аудиоприемников с (ПАЭ) переключением аудиоэмуляции (ВЕС) вещания европейского союза. Первый канал каждой пары направляют в канал 1 , 3 и 5 процессоров ЦС кодировщика, соответственно, в то время как второй канал каждой пары направляют в канал 2, 4 и 6, соответственно. Выборки ИКМ считывают в процессоры ЦС преобразованием последовательных слов ИКМ в параллельные (посл./парал.). Каждый кодировщик накапливает блок выборок ИКМ и продолжает кодировать данные блока, как описано ранее. Информацию, относящуюся к оценочному разностному сигналу (еб(п)) и выборкам поддиапазона (ч(п)) для каждого канала, передают в ПЦС глобального распределения бит и управления через двухпортовую ППВ. Стратегии распределения бит для каждого кодировщика затем считывают таким же образом. Если процесс кодирования завершен, закодированные данные и вспомогательную информацию для шести каналов передают в ПЦС форматера потока данных через ПЦС глобального распределения бит и управления. На этой стадии контрольные байты СКС генерируют выборочно и добавляют к закодированным данным с целью обеспечения защиты от ошибок в декодировщике. Наконец, весь пакет 16 данных собирают и выводят.

Аппаратурная реализация шестиканального декодировщика описана на фиг. 22. Одно аналоговое устройство Α08Ρ21020, микросхему 324 40-битового процессора цифрового сигнала (ПЦС) с плавающей запятой, используют для реализации шестиканального цифрового аудиодекодировщика. ЛИ§Р21020 тактируют с 33 мгц, оно использует внешнюю 48 бит Х 32 К программную память с произвольной выборкой (ППВ) 326, 40 бит Х 32 К память данных с произвольной выборкой (статистическая ППВ) 328 для выполнения алгоритмов декодирования. Дополнительную 8 бит Х 512 К стираемую программируемую постоянную память (СППП) 330 также используют для хранения фиксированных постоянных величин, например, книги кодов энтропии и вектора прогнозируемых коэффициентов переменной длины.

Поток процесса кодирования является следующим. Поток 1 6 сжатых данных вводят в ПЦС через последовательно-параллельный преобразователь (посл./парал.) 332. Данные распаковывают и декодируют, как описано ранее. Выборки поддиапазона восстанавливают в единый поток 22 данных ИКМ для каждого канала и выводят на микросхемы 334 цифрового аудиопередатчика с переключением аудиоэмуляции/вещания европейского союза через три параллельно-последовательных преобразователя (парал./посл.) 335.

Несмотря на то, что показано и описано несколько конкретных вариантов осуществления изобретения, многочисленные изменения и альтернативные варианты осуществления очевидны для специалистов в данной области техники. Например, при увеличении скорости процессоров и уменьшении стоимости памяти, частоты выборки, скорости передачи и размер буфера, наиболее вероятно, увеличатся. Такие изменения и альтернативные варианты осуществления могут быть выполнены без выхода за рамки объема и сущности изобретения, которые определены в прилагаемой формуле изобретения.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ

1 . Многоканальный аудиокодировщик, содержащий:

устройство захвата блока, которое подает аудиокадр в каждый канал многоканального аудиосигнала, дискретизированного с частотой выборки, для создания соответствующей последовательности аудиоблоков, множество фильтров, которые разделяют аудиоблоки каналов на соответствующие множества частотных поддиапазонов относительно частотного диапазона основной полосы частот, причем каждый из упомянутых частотных поддиапазонов содержит последовательность блоков поддиапазона, которые имеют, по меньшей мере, один подблок аудиоданных на блок поддиапазона, множество кодировщиков поддиапазона, которые кодируют аудиоданные в соответствующих частотных поддиапазонах по одному подблоку в закодированные сигналы поддиапазона, мультиплексор, который упаковывает и мультиплексирует закодированные сигналы поддиапазона в выходной блок для каждого последовательного блока данных, таким образом формируя поток данных со скоростью передачи, и контроллер, который задает размер аудиокадра на основе частоты выборки и скорости передачи так, что размер упомянутых выходных блоков ограничен, чтобы находиться в требуемом диапазоне.
2. Многоканальный аудиокодировщик по п.1 , отличающийся тем, что контроллер задает размер аудиокадра как наибольшее кратное двум, которое меньше, чем (Ргаше к/е) · Ρ_Μΐηρ · (-), _Т ^А га1е где Ргаше δί/е - максимальный размер выходного блока, Р_8атр - частота выборки, а Т_|а1е - скорость передачи.
3. Многоканальный аудиокодировщик по п.1 , отличающийся тем, что многоканальный аудиосигнал кодируют с целевой скоростью бит, а кодировщики поддиапазона содержат прогнозирующие кодировщики, причем сам многоканальный аудиокодировщик содержит глобальный диспетчер бит, который вычисляет психоакустическое отношение сигнала к маске и оценивает выигрыш прогнозирования Р_да1и для каждого подблока, вычисляет отношения маски к шуму при уменьшении значений отношения сигнала к шуму на соответствующие части связанных с ними прогнозируемых коэффициентов передачи, распределяет скорость бит относительно всех поддиапазонов и регулирует отдельные распределения так, что фактическая скорость бит приблизительно равна целевой скорости бит.
4. Многоканальный аудиокодировщик по п. 1 или 3, отличающийся тем, что кодировщик поддиапазона разделяет каждый подблок на множество подподблоков, причем каждый кодировщик поддиапазона содержит прогнозирующий кодировщик, который генерирует и квантует сигнал ошибки для каждого подблока, и что дополнительно содержит анализатор, который генерирует оценочный сигнал ошибки перед кодированием для каждого подблока, выявляет переходные процессы в каждом подподблоке оценочного сигнала ошибки, генерирует код переходного процесса, который показывает, имеется ли переходный процесс в каком-либо подподблоке, отличном от первого, и в каком подблоке происходит переходный процесс, и когда обнаруживает переходный процесс, генерирует масштабный коэффициент предпереходного процесса для подподблоков перед переходным процессом и масштабный коэффициент после переходного про49 цесса для подподблоков переходного процесса и после переходного процесса, и иначе генерирует однородный масштабный коэффициент для подблока, причем упомянутый прогнозирующий кодировщик использует упомянутые масштабные коэффициенты предпереходного процесса, послепереходного процесса и однородный масштабный коэффициент для масштабирования сигнала ошибки перед кодированием для уменьшения ошибки кодирования в подподблоках, соответствующих масштабным коэффициентам предпереходного процесса.
5. Многоканальный аудиокодировщик по п. 1 , отличающийся тем, что упомянутый частотный диапазон основной полосы частот имеет максимальную частоту, и что дополнительно содержит предварительный фильтр, который разделяет каждый из упомянутых аудиоблоков на сигнал основной полосы частот и сигнал высокой частоты выборки на частотах в частотном диапазоне основной полосы частот и выше максимальной частоты, соответственно, причем упомянутый глобальный диспетчер бит распределяет биты в сигнал высокой частоты выборки для удовлетворения выбранному фиксированному искажению, и кодировщик высокой частоты выборки, который кодирует сигналы высокой частоты выборки аудиоканалов в соответствующие закодированные сигналы высокой частоты выборки, причем упомянутый мультиплексор упаковывает закодированные сигналы высокой частоты выборки каналов в соответствующие выходные блоки так, что часть основной полосы частот и часть высокой частоты выборки многоканального аудиосигнала являются независимо декодируемыми.
6. Многоканальный аудиодекодировщик для восстановления множественных аудиоканалов до частоты выборки декодировщика из потока данных, в котором каждый аудиоканал дискретизирован с частотой выборки кодировщика, которая, по меньшей мере, так высока, как частота выборки декодировщика, подразделенная на множество частотных поддиапазонов, сжатых и мультиплексированных в поток данных со скоростью передачи, содержащий:

входной буфер для считывания и запоминания потока данных по одному блоку, причем каждый из упомянутых блоков содержит слово синхронизации, заголовок блока, аудиозаголовок и, по меньшей мере, один подблок, который содержит аудиовспомогательную информацию, множество подподблоков, имеющих аудиокоды основной полосы частот выше, чем частотный диапазон основной полосы частот, блок аудиокодов высокой частоты выборки выше частотного диапазона высокой частоты выборки и синхронизацию распаковки, демультиплексор, который распознает слово синхронизации, распаковывает заголовок блока для извлечения размера кадра, который указывает число аудиовыборок в блоке, и размер блока, который указывает число байтов в блоке, причем упомянутый размер кадра задан как функция отношения скорости передачи к скорости выборки кодировщика так, что размер блока ограничен, чтобы быть меньше, чем размер входного буфера, распаковывает аудиозаголовок для извлечения числа подблоков в блоке и числа закодированных аудиоканалов и последовательно распаковывает каждый подблок для извлечения аудиовспомогательной информации, демультиплексирует аудиокоды основной полосы частот в каждом подподблоке в множественные аудиоканалы и распаковывает каждый аудиоканал в его аудиокоды поддиапазона, демультиплексирует аудиокоды высокой частоты выборки в множественные аудиоканалы до частоты выборки декодировщика и пропускает оставшиеся аудиокоды высокой частоты выборки до частоты выборки кодировщика и распознает синхронизацию распаковки для проверки конца подблока, декодировщик основной полосы частот, который использует вспомогательную информацию для декодирования аудиокодов поддиапазона в восстановленные сигналы поддиапазона по одному подблоку без ссылки на любые другие подблоки, фильтр восстановления основной полосы частот, который объединяет восстановленные сигналы поддиапазона каждого канала в восстановленный сигнал основной полосы частот по одному подблоку, декодировщик высокой частоты выборки для декодирования аудиокодов высокой частоты выборки в восстановленный сигнал высокой частоты выборки для каждого аудиоканала по одному подблоку, и фильтр восстановления канала, который объединяет восстановленный сигнал основной полосы частот и сигнал высокой частоты выборки в восстановленный многоканальный аудиосигнал по одному блоку.
7. Многоканальный аудиодекодировщик по п.6, отличающийся тем, что фильтр восстановления основной полосы частот содержит группу фильтров неполного восстановления и группу фильтров полного восстановления, а упомянутый заголовок блока содержит код фильтра, который выбирает одну из упомянутых групп фильтров неполного восстановления и полного восстановления.
8. Многоканальный аудиодекодировщик по п.6, отличающийся тем, что декодировщик основной полосы частот содержит множество обратных кодировщиков адаптивной дифференциальной импульсно-кодовой модуляции для декодирования соответствующих аудиокодов поддиапазона, причем упомянутая вспомога51 тельная информация содержит прогнозируемые коэффициенты для соответствующих кодировщиков адаптивной дифференциальной импульсно-кодовой модуляции и прогнозируемый режим для управления применением прогнозируемых коэффициентов к соответствующим кодировщикам адаптивной дифференциальной импульсно-кодовой модуляции, чтобы выборочно разрешать или блокировать их возможности прогноза.
9. Многоканальный аудиодекодировщик по п.6, отличающийся тем, что упомянутая вспомогательная информация содержит:

таблицу распределения бит для каждого поддиапазона канала, в котором каждую скорость бит поддиапазона фиксируют относительно подблока;

по меньшей мере, один масштабный коэффициент для каждого поддиапазона в каждом канале, режим переходного процесса для каждого поддиапазона в каждом канале, который идентифицирует число масштабных коэффициентов и их связанных подподблоков, причем упомянутый декодировщик основной полосы частот масштабирует аудиокоды поддиапазонов соответствующими масштабными коэффициентами в соответствии с их значениями режима переходного процесса для облегчения декодирования.
10. Портативный, считываемый вычислительной машиной носитель информации, содержащий поток цифровых данных, представляющий многоканальный аудиосигнал, дискретизированный с частотой выборки, закодированный относительно диапазона основной полосы частот, который подразделен на отдельные частотные поддиапазоны относительно частотного диапазона высокой частоты выборки и записан на упомянутый портативный считываемый вычислительной машиной запоминающий носитель как последовательность аудиоблоков со скоростью передачи, причем каждый из упомянутых аудиоблоков содержит последовательно слово синхронизации, заголовок блока, который содержит размер кадра, который указывает число аудиовыборок в аудиоблоке, и размер блока, который указывает число байтов в аудиоблоке, причем размер аудиокадра задан как функция отношения скорости передачи к частоте выборки так, что размер блока ограничен, чтобы быть меньше, чем максимальный размер, аудиозаголовок, который указывает устройство упаковки и формат кодирования для аудиоблока, по меньшей мере, один аудиоподблок, причем каждый аудиоподблок содержит:

вспомогательную информацию для декодирования аудиоподблока без ссылки на другие подблоки, множество аудиоподподблоков основной полосы частот, в которых аудиоданные для каждых частотных поддиапазонов канала упаковывают и мультиплексируют с другими каналами, аудиоблок высокой частоты выборки, в котором аудиоданные в частотном диапазоне высокой частоты выборки для каждого канала упаковывают и мультиплексируют с другими каналами так, что многоканальный аудиосигнал является декодируемым с множеством частот выборок декодирования, и синхронизацию распаковки для проверки конца подблока.