RU2687872C1 - Устройство и способ для обработки кодированного звукового сигнала - Google Patents

Устройство и способ для обработки кодированного звукового сигнала Download PDF

Info

Publication number
RU2687872C1
RU2687872C1 RU2018125879A RU2018125879A RU2687872C1 RU 2687872 C1 RU2687872 C1 RU 2687872C1 RU 2018125879 A RU2018125879 A RU 2018125879A RU 2018125879 A RU2018125879 A RU 2018125879A RU 2687872 C1 RU2687872 C1 RU 2687872C1
Authority
RU
Russia
Prior art keywords
spectrum
parameters
signal
increased
sampling
Prior art date
Application number
RU2018125879A
Other languages
English (en)
Inventor
Андреас НИДЕРМАЙЕР
Саша ДИШ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2687872C1 publication Critical patent/RU2687872C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к обработке звуковых сигналов, в частности к декодерам. Устройство содержит демультиплексор, формирующий из кадров аудиоинформации базовый сигнал и набор параметров, повышающий дискретизатор для повышающей дискретизации базового сигнала и выдачи первого спектра с повышенной дискретизацией и следующего по времени второго спектра с повышенной дискретизацией. Как первый спектр с повышенной дискретизацией, так и второй спектр с повышенной дискретизацией имеют то же самое содержимое, что и базовый сигнал, и имеют вторую ширину спектра, являющуюся большей, чем первая ширина спектра базового спектра. Преобразователь параметров для преобразования параметров упомянутого набора параметров упомянутого элемента доступа для получения преобразованных параметров и процессор заполнения спектральных промежутков для обработки упомянутого первого спектра с повышенной дискретизацией и упомянутого второго спектра с повышенной дискретизацией, с использованием упомянутых преобразованных параметров. Технический результат – высокая точность декодирования параметров, минимизация искажений сигналов, уменьшение вычислительной сложности. 2 н. и 20 з.п. ф-лы, 15 ил., 1 табл.

Description

Настоящее изобретение относится к устройству для обработки кодированного звукового сигнала и соответствующему способу.
Перцепционное звуковое кодирование является технологией цифрового представления звука адаптированным с учетом восприятия способом, чтобы предоставлять возможность для эффективного хранения, обработки, передачи и воспроизведения. Необходимым средством для дополнительного снижения потребления битов является полупараметрический способ, называемый расширением полосы пропускания (BWE). Эта технология расширяет кодированный с учетом восприятия сигнал, который ограничен по полосе нижними полосами (LF) частот, добавляя управляемую параметрами оценку пропавших верхних полос (HF) частот. Зачастую, это достигается посредством перестановки спектра LF и последующей коррекции огибающей энергии. Обычно, параллельно настраиваются несколько значимых с точки зрения восприятия параметров (уровень шума, тональность, и т. д.).
Репликация спектральной полосы (SBR) и Интеллектуальное заполнение промежутков (IGF) являются современными технологиями, которые предусматривают функциональные возможности расширения полосы пропускания. IGF (см. WO 2015/010948 A1) предлагает высокую эффективность кодирования и одновременно низкую вычислительную сложность, при относящемся к восприятию качестве, сопоставимым с SBR (см. WO 98/57436 A2).
Оценка огибающих спектра в верхних полосах частот в SBR и IGF выполняется с использованием гребенок фильтров QMF (квадратурного зеркального фильтра) и MCLT (модулированного комплексного преобразования с перекрытием) соответственно.
Это делает обновление существующего кодированного с SBR звукового материала в основанное на IGF представление привлекательной задачей. Прямым, но обременительным подходом является тандемное кодирование, включающее в себя декодирование основанного на SBR содержимого в сигнал временной области с импульсно-кодовой модуляцией (ИКМ, PCM), а затем, повторное кодирование этого сигнала в основанный на IGF формат.
Таким образом, цель изобретения состоит в том, чтобы обрабатывать кодированный звуковой сигнал, для того чтобы получать непосредственно перекодированный звуковой сигнал, являющийся кодированным звуковым сигналом, с использованием иного кодирования, чем исходное кодирование. Также, цель изобретения состоит в том, чтобы обрабатывать кодированный звуковой сигнал, для того чтобы получать звуковой сигнал посредством декодирования кодированного звукового сигнала, с использованием преимуществ иного способа декодирования.
Эти цели достигаются устройством для обработки кодированного звукового сигнала согласно пункту 1 формулы изобретения, и соответствующим способом согласно пункту 22 формулы изобретения.
Кодированный звуковой сигнал, подлежащий обработке с помощью обладающего признаками изобретения устройства или обладающим признаками изобретения способом, содержит последовательность элементов доступа. Каждый элемент доступа содержит базовый сигнал с первой шириной спектра и параметры, описывающие спектр выше первой ширины спектра.
Обладающее признаками изобретения устройство для обработки такого кодированного звукового сигнала содержит:
Демультиплексор (DEMUX) для формирования, из элемента доступа кодированного звукового сигнала, упомянутого базового сигнала и набора упомянутых параметров. Другими словами: демультиплексор извлекает из элементов доступа кодированного звукового сигнала базовый сигнал и параметры, которые предоставляют возможность воссоздавать пропавший спектр выше спектра, соответствующего базовому сигналу.
Повышающий дискретизатор для повышающей дискретизации упомянутого базового сигнала упомянутого элемента доступа и выдачи первого спектра с повышенной дискретизацией и следующего по времени второго спектра с повышенной дискретизацией. Как первый спектр с повышенной дискретизацией, так и второй спектр с повышенной дискретизацией имеют то же самое содержимое, что и базовый сигнал, и имеют вторую ширину спектра, являющуюся большей, чем первая ширина спектра базового спектра. Другими словами: повышающий дискретизатор повышает дискретизацию базового сигнала и выдает по меньшей мере два спектра с повышенной дискретизацией. Спектры с повышенной дискретизацией являются следующими друг за другом по времени, охватывают такую же информацию, как базовый сигнал, и имеют ширину спектра, большую чем ширина спектра базового сигнала.
Преобразователь параметров для преобразования параметров из упомянутого набора параметров упомянутого элемента доступа, чтобы получать преобразованные параметры. Другими словами: параметр в кодированном звуковом сигнале преобразуется в параметр, который может быть применен к спектру с повышенной дискретизацией.
Процессор заполнения спектральных промежутков для обработки упомянутого первого спектра с повышенной дискретизацией и упомянутого второго спектра с повышенной дискретизацией, с использованием упомянутых преобразованных параметров. Другими словами: процессор заполнения спектральных промежутков комбинирует спектры с повышенной дискретизацией и преобразованный параметр. Результатом может быть - в зависимости от варианта осуществления - перекодированный звуковой сигнал, являющийся кодированным звуковым сигналом, но с помощью иной технологии, чем исходный или входной кодированный звуковой сигнал, или результатом может быть звуковой сигнал.
В одном из вариантов осуществления, повышающий дискретизатор выполнен с возможностью заполнять верхнюю часть спектра упомянутого базового сигнала нулями и получать первый спектр с повышенной дискретизацией и второй спектр с повышенной дискретизацией из заполненного спектра базового сигнала.
В варианте осуществления, повышающая дискретизация выполняется на основании по меньшей мере двух элементов доступа кодированного звукового сигнала. В этом варианте осуществления, повышающий дискретизатор выполнен с возможностью повышающей дискретизации упомянутого базового сигнала упомянутого элемента доступа, дополнительно с использованием базового сигнала элемента доступа, непосредственно предшествующего упомянутому элементу доступа. Отсюда, информация о двух элементах доступа необходима и используется для получения спектров с повышенной дискретизацией.
В дополнительном варианте осуществления, повышающий дискретизатор выполнен с возможностью сбора базовых сигналов первого количества следующих друг за другом по времени элементов доступа и для выработки из этих базовых сигналов второго количества спектров с повышенной дискретизацией для нецелочисленного коэффициента повышающей дискретизации, при этом первое количество является знаменателем коэффициента, а второе количество является числителем коэффициента.
Согласно варианту осуществления, преобразователь параметров выполнен с возможностью преобразования первого подмножества параметров из упомянутого набора параметров, относящихся к первой части следующих друг за другом по времени временных интервалов, и для преобразования второго подмножества параметров из упомянутого набора параметров, относящихся ко второй части упомянутых временных интервалов, следующих друг за другом по времени за упомянутой первой частью временных интервалов. Кроме того, процессор заполнения спектральных промежутков выполнен с возможностью обрабатывать первое преобразованное подмножество параметров первым спектром с повышенной дискретизацией и обрабатывать второе преобразованное подмножество параметров вторым спектром с повышенной дискретизацией. В этом варианте осуществления, параметр кодированного звукового сигнала относится к временным интервалам, предпочтительно принадлежащим кадру.
В варианте осуществления, преобразователь выполнен с возможностью преобразования параметров, относящихся к значениям энергии упомянутого набора параметров, в значения энергии, используемые процессором заполнения спектральных промежутков, посредством масштабирования этих значений параметров заданным коэффициентом масштабирования.
В одном из вариантов осуществления, коэффициент масштабирования имеет постоянное значение.
В одном из вариантов осуществления, коэффициент масштабирования адаптирован под требования данного кодированного звукового сигнала. Поэтому, преобразователь выполнен с возможностью извлечения информации об оконной функции (взвешивания с использованием финитной функции), связанной с элементом доступа. Кроме того, преобразователь выполнен с возможностью адаптировать коэффициент масштабирования согласно оконной функции.
Для синхронизации, в одном из вариантов осуществления, преобразователь выполнен с возможностью смещения параметров из упомянутого набора параметров посредством вставки компенсации задержки.
Для примера преобразования MCLT и QMF, несовпадение задержек может учитываться, как изложено ниже. Это вытекает из допущения, что энергия MCLT определяется с использованием окна длинного блока (LB). Для сравнения энергий между преобразованиями, окна должны быть синхронно размещены на данных, так чтобы центры (CG) тяжести соответственных прототипных окон были выровнены. Весовой коэффициент является единицей в CG.
Прототипное окно, используемое для анализа QMF, может быть КИХ - фильтром (с конечной импульсной характеристикой, FIR) нижних частот. Коэффициенты окна оптимизированы для наилучшего подавления боковой полосы, предпочтительно давая в результате симметричное окно с плавным спадом на кромках окна, предвещающим отвечающее требованиям ослабление боковой полосы. Длина окна может иметь значение 640, при размере скачка продвижения окна, имеющего длину в 64 отсчета.
Для реализации MCLT может использоваться симметричное синусное окно. Например, окно имеет длину в 2048 отсчетов для длинных блоков, в то время как короткие блоки имеют длину в 256 отсчетов. Это одна восьмая размера длинных блоков. Размер скачка продвижения окна имеет значение 1024 и 128 отсчетов для длинных и коротких блоков соответственно, что равно разрешению преобразований по частоте.
Например, прототипные окна MCLT, используемые в IGF, покрывают длину в 2 N=2048 отсчетов и имеют перекрытие в 50%. Короткие окна в центре короткого блока имеют длину в N/4 и смещения в 448 отсчетов на каждой стороне. Таким образом, его размер скачка в N отсчетов захватывает первые входные отсчеты, в то время как задержка τ1 состоит из 1024 отсчетов.
Прототипное окно QMF может покрывать длину в 10M=640 отсчетов и имеет размер скачка в М отсчетов, называемую подвыборкой. Размер скачка также соответствует количеству М подполос в подвыборке QMF. Компенсация задержки τ2 может рассчитываться как (длина окна - размер скачка окна = 640-64 отсчетов) и имеет значение 576 отсчетов.
Согласно варианту осуществления, повышающий дискретизатор выполнен с возможностью повышающей дискретизации упомянутого базового сигнала посредством интерполяции значений упомянутого базового сигнала.
В варианте осуществления, повышающий дискретизатор сконфигурирован, как изложено ниже:
Повышающий дискретизатор выполнен с возможностью заполнять спектр базового сигнала предыдущего элемента доступа нулями.
Повышающий дискретизатор выполнен с возможностью заполнять спектр базового сигнала элемента доступа нулями.
Повышающий дискретизатор выполнен с возможностью выполнять обратное преобразование заполненного спектра элемента доступа и заполненного спектра предшествующего элемента доступа.
В заключение, повышающий дискретизатор выполнен с возможностью выполнять сложение с перекрытием сигнала временной области для заполненного спектра предыдущего элемента доступа и сигнала временной области для заполненного спектра элемента доступа, для получения промежуточного временного сигнала.
На основании вышеизложенного варианта осуществления, согласно варианту осуществления, повышающий дискретизатор выполнен с возможностью выполнять прямое преобразование по отношению к первой части промежуточного временного сигнала для получения первого спектра с повышенной дискретизацией. Повышающий дискретизатор также выполнен с возможностью выполнять прямое преобразование по отношению ко второй части промежуточного временного сигнала для получения второго спектра с повышенной дискретизацией. Это делается согласно ограничению, что первая часть перекрывается со второй частью.
Согласно варианту осуществления, повышающий дискретизатор выполнен с возможностью повышающей дискретизации упомянутого базового сигнала, для того чтобы получать базовый сигнал с повышенной дискретизацией, повышающий дискретизатор выполнен с возможностью выполнения обратного преобразования над упомянутым базовым сигналом с повышенной дискретизацией, для того чтобы получать сигнал временной области, и повышающий дискретизатор выполнен с возможностью обработки упомянутого сигнала временной области, чтобы получать упомянутый первый спектр с повышенной дискретизацией и упомянутый следующий по времени второй спектр с повышенной дискретизацией, применяя преобразование. При этом, обратное преобразование является обратным преобразованием от упомянутого преобразования.
В одном из вариантов осуществления, имеющем отношение к вышеизложенному варианту осуществления, обратное преобразование является обратным модифицированным дискретным косинусным преобразованием, а преобразование является модифицированным дискретным косинусным преобразованием.
В одном из вариантов осуществления, процессор заполнения спектральных промежутков выполнен с возможностью обрабатывать первый спектр с повышенной дискретизацией и второй спектр с повышенной дискретизацией с помощью преобразованных параметров для получения выходного сигнала временной области.
В следующем варианте осуществления, процессор заполнения спектральных промежутков выполнен с возможностью применять первую часть преобразованных параметров к первому спектру с повышенной дискретизацией для получения первого обработанного спектра и применять вторую часть преобразованных параметров ко второму спектру с повышенной дискретизацией для получения второго обработанного спектра.
Согласно варианту осуществления, процессор заполнения спектральных промежутков сконфигурирован, чтобы содержать преобразователь спектра для преобразования первого обработанного спектра и второго обработанного спектра во временную область, и процессор заполнения спектральных промежутков сконфигурирован, чтобы содержать звуковой сумматор, являющийся выполненным с возможностью сложения с перекрытием по меньшей мере двух выходных временных сигналов, для того чтобы получать звуковой сигнал.
В варианте осуществления, процессор заполнения спектральных промежутков выполнен с возможностью формирования кодированного сигнала с заполнением спектральных промежутков, имеющего первый элемент доступа и второй элемент доступа, первый элемент доступа содержит преобразованный вариант первого спектра с повышенной дискретизацией, и первой части преобразованного параметра, а второй элемент доступа содержит преобразованный вариант второго спектра с повышенной дискретизацией, и второй части преобразованного параметра.
Согласно варианту осуществления, процессор заполнения спектральных промежутков выполнен с возможностью формирования выходного потока данных, имеющего первый элемент доступа и второй элемент доступа. Например, этот поток данных является кодированным с IGF звуковым сигналом, будучи перекодированным звуковым сигналом.
В одном из вариантов осуществления, процессор заполнения спектральных промежутков выполнен с возможностью обработки упомянутого первого спектра с повышенной дискретизацией и упомянутого второго спектра с повышенной дискретизацией с помощью упомянутых преобразованных параметров для получения двух перекодированных элементов доступа, и процессор заполнения спектральных промежутков выполнен с возможностью сложения упомянутых двух перекодированных элементов доступа, чтобы получать перекодированный звуковой сигнал.
В случае, если устройство работает в качестве транскодера и, таким образом, выдает перекодированный звуковой сигнал, то согласно одному из вариантов осуществления, перекодированный звуковой сигнал является кодированным с IGF звуковым сигналом.
Согласно варианту осуществления, кодированный звуковой сигнал является кодированным с SBR звуковым сигналом.
Изобретение также относится к способу обработки кодированного звукового сигнала. Кодированный звуковой сигнал содержит последовательность элементов доступа, каждый элемент доступа содержит базовый сигнал с первой шириной спектра и параметры, описывающие спектр выше первой ширины спектра.
Обладающий признаками изобретения способ содержит по меньшей мере следующие этапы:
Формирование, из элемента доступа - этот элемент доступа может называться текущим элементом доступа - кодированного звукового сигнала, упомянутого базового сигнала и набора упомянутых параметров.
Повышающая дискретизация упомянутого базового сигнала упомянутого элемента доступа и выдача первого спектра с повышенной дискретизацией и следующего по времени второго спектра с повышенной дискретизацией. Как первый спектр с повышенной дискретизацией, так и второй спектр с повышенной дискретизацией имеют то же самое содержимое, что и базовый сигнал, и имеют вторую ширину спектра, являющуюся большей, чем первая ширина спектра базового спектра.
Преобразование параметров из упомянутого набора параметров упомянутого элемента доступа для получения преобразованных параметров.
Обработка упомянутого первого спектра с повышенной дискретизацией и упомянутого второго спектра с повышенной дискретизацией, с использованием упомянутых преобразованных параметров.
Вышеупомянутые варианты осуществления устройства также могут выполняться согласно этапам способа и соответствующим вариантам осуществления способа.
В одном из вариантов осуществления, обработка кодированного звукового сигнала относится к декодированию кодированного звукового сигнала для формирования звукового сигнала. В другом варианте осуществления, обработка кодированного звукового сигнала является непосредственным перекодированием кодированного звукового сигнала в иначе кодированный или перекодированный звуковой сигнал. Таким образом, транскодер формирует из - первого - кодированного звукового сигнала с первым способом кодирования - второй - кодированный звуковой сигнал на основании второго, иного вида кодирования.
Кодированный звуковой сигнал содержит базовый сигнал и параметр, описывающий пропавшие части исходного звукового сигнала выше базового сигнала. Например, параметр содержит огибающую спектра, заданную в кадрах, с заданным количеством временных интервалов и соответствующими значениями энергии или энергиями. Для параметров могут использоваться разные гребенки фильтров.
Преимуществами изобретения являются высокая точность отображения параметров, минимизация дополнительных артефактов перекодирования и пониженная вычислительная сложность.
Изобретение будет пояснено в последующем, с учетом варианта осуществления, изображенного на прилагаемых чертежах.
Предпочтительные варианты осуществления настоящего изобретения впоследствии описаны со ссылкой на прилагаемые чертежи, на которых:
фиг. 1 иллюстрирует базовый сигнал кодированного звукового сигнала,
фиг 2 иллюстрирует спектр, появляющийся во время применения изобретения,
фиг. 3 иллюстрирует сравнение двух преобразований звукового сигнала, с использованием QMF (квадратурного зеркального фильтра, верхний ряд) и MCLT (модулированного комплексного преобразования с перекрытием, нижний ряд),
фиг. 4 иллюстрирует оконную обработку следующих друг за другом по времени значений QMF посредством MCLT,
фиг. 5 иллюстрирует логарифмические значения энергии MCLT и QMF соответственно, и среднее смещение,
фиг. 6 иллюстрирует старт-стопную последовательность окон,
фиг. 7 иллюстрирует декодер, согласно предшествующему уровню техники,
фиг. 8 иллюстрирует вариант осуществления устройства для перекодирования кодированного звукового сигнала, в виде структурной схемы,
фиг. 9 иллюстрирует вариант осуществления устройства для декодирования кодированного звукового сигнала, в виде структурной схемы,
фиг. 10 иллюстрирует вариант осуществления повышающего дискретизатора, например, используемого в вариантах осуществления, показанных на фиг. 8 и фиг. 9, соответственно,
фиг. 11 иллюстрирует работу преобразователя параметров повышающего дискретизатора, показанного на фиг. 10,
фиг. 12 иллюстрирует повышающую дискретизацию базовых сигналов с коэффициентом 3:8,
фиг. 13 иллюстрирует последовательность сложения с перекрытием, применяемую к элементам доступа,
фиг. 14 иллюстрирует обладающее признаками изобретения устройство в виде структурной схемы, и
фиг. 15 иллюстрирует обладающий признаками изобретения способ, с использованием блок-схемы последовательности операций способа.
В нижеследующем, кодированный звуковой сигнал представлен в виде примера кодированного с SBR звукового сигнала, но изобретение не ограничено кодированными звуковыми сигналами, основанными на данной разновидности. Это также сохраняет силу для вида кодированного звукового сигнала, в котором кодированный с SBR звуковой сигнал перекодируется, или в котором вид соответствующих сигналов или спектров обрабатываются на каком-нибудь промежуточном этапе. Здесь, это представлено в виде примера многих вариантов кодированного с IGF звукового сигнала.
Для перекодирования данных SBR в представление IGF, выполняются по меньшей мере некоторые из следующих этапов:
Замена содержимого для переписывания SBR соответствующим IGF материалом для переписывания.
Вставка компенсации задержки QMF относительно MDCT для синхронизации данных.
Отображение огибающей верхней полосы спектра, полученной посредством SBR (благодаря основанному на QMF измерению энергии), в представление MCLT.
Отображение лежащей в основе частотно-временной сетки SBR на таковой у IGF: отображающая функция адаптируется согласно разным типам схем оконной обработки для получения энергии MCLT из энергий QMF.
Предпочтительно, применение поправочного множителя энергии для устранения какого бы то ни было сдвига и минимизации остаточной ошибки.
Предпочтительно, перевод оставшейся вспомогательной информации SBR (например, минимального уровня шума, тональности, также известной как уровень обратной фильтрации, и т. д.) в пригодные параметры IGF: например, уровень обратной фильтрации в SBR отображается в подходящий уровень выравнивания спектра в IGF для обеспечения оптимального относящегося к восприятию качества.
Фиг. 1 показывает базовый сигнал 101 элемента доступа кодированного звукового сигнала, имеющего ограниченную первую ширину спектра, здесь простирающуюся от нуля до частоты fxo. Параметры кодированного звукового сигнала описывают спектр выше этого базового сигнала 101, здесь простирающегося до частоты 2 * fxo.
Этот спектр должен сравниваться со спектром, показанным на фиг. 2. Здесь, спектры 1 с повышенной дискретизацией содержат такое же информационное содержимое, как базовый сигнал по фиг. 1, и несут для частот выше этого базового сигнала нулевые значения. Вторая ширина спектра в этом примере простирается от нуля до частоты 2 * fxo.
Для перекодирования данных SBR в представление IGF, необходимо отобразить энергии QMF в значения энергии MCLT.
Это подробно описано в нижеследующем, начиная со сравнения преобразований QMF и MCLT:
Пусть х является отдельным звуковым сигналом, дискретизированным с частотой SR дискретизации. Если преобразование QMF применяется к сигналу, получаем
Figure 00000001
где t - начальный отсчет преобразования, l - индекс временного интервала, а k=0, 1, …, m-1 - линия частоты вплоть до m, линия частоты Котельникова.
Если подвергнутое оконной обработке преобразование MCLT применяется к сигналу х, результатом является
Figure 00000002
где b - начальный блок преобразования, а i=0, 1, …, N - 1 - это линии частоты вплоть до линии N частоты Котельникова.
Примерные параметры также используются в нижеследующем обсуждении:
С преобразованием QMF используется длина прототипа в 640 отсчетов с размером скачка в 64 отсчетов. Это дает в результате m=64 для линии частоты Котельникова.
Например, если для MCLT используется длинный размер окна 2048 с перекрытием 50%, размер скачка имеет значение 1024, а потому, N=1024 для линии частоты Котельникова. Как правило, оконная обработка с перекрытием устраняет блочные артефакты.
Во время анализа, при такой примерной конфигурации, 32 временных интервала QMF необходимы для охвата такого же количества отсчетов, как преобразование MCLT, смотрите фиг. 3. Эта фиг. 3 также иллюстрирует синхронизацию данных, где подвыборки QMF выровнены с более длинным окном MCLT.
Для подготовки энергий QMF кодированного с SBR звукового сигнала для отображения, окно w применяется к следующим друг за другом по времени значениям QMF, таким как отсчеты временной области, которые подвергаются оконной обработке в MCLT. Эта оконная обработка QMF показана на фиг. 4.
Чтобы надлежащим образом отображать энергии QMF относительно энергий MCLT, необходимо, чтобы оба преобразования были выровнены по задержке.
В таком случае, для преобразования энергий QMF и MCLT, справедлива следующая формула:
Figure 00000003
Figure 00000004
где x0 - частота перехода SBR.
Следующий этап состоит в том, чтобы преобразовывать соответственные значения энергии из преобразования QMF в преобразование MCLT.
Кадры SBR помогают определять признаки сигнала, с использованием степени разбиения временных/спектральных огибающих. Отображение спектральных огибающих было рассмотрено в качестве части определения технологии отображения. Информация, сообщенная временным разрешением сеток адаптивного SBR переводится в технологии временной адаптации в IGF.
Сигнал временной области, проанализированный гребенкой фильтров QMF, имеет временное разрешение подвыборки. Наивысшее временное разрешение энергий SBR превышает временной интервал, то есть, двух отсчетов подвыборок. Компромисс между временным разрешением и разрешением по частоте может быть осуществлен исходя из комбинации временных интервалов и выбора группировки подполос. Разные типы кадров предоставляют возможность переменного количества временных/частотных сегментов в кадре. По существу, характеристики сигнала сохраняются посредством огибающих, которые квантованы сетками.
Адаптивное разрешение по времени/частоте в IGF может осуществляться с использованием разных типов окон MCLT. Как показали эксперименты, энергии подполосы QMF могут собираться в соответствии с блоком MCLT, при сравнении. Это служит причиной встраивания переключения блоков во время отображения энергии. Энергии, собранные таким образом в подполосы, могут интерполироваться на элементах MCLT разрешения по частоте. После этого, вспомогательная информация IGF может выводиться для профилирования огибающей во время перестановки спектра источника.
На основании экспериментов, энергия блока QMF может рассчитываться за 32 перекрывающихся отсчетах подвыборки в длинном блоке. Для уменьшения ошибки отображения в энергии блока MCLT, QMF требует применение весовых коэффициентов прототипного окна MCLT. Ожидается, что выбор надлежащего окна MCLT помогает сохранению признаков сигнала, определенных временными огибающими QMF.
Эти расчеты предпочтительно выполняются автономно и до использования устройства или способа.
Фиг. 5 показывает результат примерного измерения, в котором сопоставлялись логарифмические энергии EQMF и EMDCT (E'(QMF) и E'(MCLT)). Это предоставляет возможность рассчитывать в логарифмической области:
E'(QMF)+
Figure 00000005
Figure 00000006
E'(MCLT), b=1, 2, … B.
Это проверяет правильность преобразования значений энергии посредством использования постоянного коэффициента масштабирования s, таким образом, для линейного отображения в линейной области:
Figure 00000007
где коэффициент масштабирования s задан согласно:
Figure 00000008
а В - это общее количество блоков, которые измерялись. Среднее смещение
Figure 00000005
в одном из вариантов осуществления, предназначенное для всех блоков, обрезая все выбросы доверительным интервалом 10%:
Figure 00000009
Этот доверительный интервал предоставляет возможность обрезать отсчеты данных с избыточным отклонением от среднего значения.
Примерное измерение показало свободное от сдвигов и точное совпадение энергий с максимальной погрешностью приблизительно 1 дБ. С использованием данного отображения, можно преобразовывать значения энергий SBR, передаваемых в битовом потоке, содержащем кодированный с SBR звуковой сигнал, в соответствующие значения энергии IGF. Постоянный коэффициент масштабирования в показанном примере является меньшим, чем 20, и имеет значение около 18 в логарифмической области. Таковые могут подаваться непосредственно в декодер IGF, или, в качестве альтернативы, могут собираться в выходной битовый поток IGF.
Эксперименты показали, что среднее смещение
Figure 00000005
в логарифмической области имеет значение меньшее, чем 20. Было обнаружено, что среднее смещение
Figure 00000005
лежит между 16 и 17 или, в одном случае, имеет значение около 7. Значит, среднее смещение
Figure 00000010
имеет значения между 7 и 17.
Кроме того, эксперименты показали, что среднее смещение
Figure 00000011
зависит от типа используемых окон. Полученные значения показаны в следующей таблице:
Тип окна, условное обозначение
Figure 00000012
Figure 00000013
Длинные блоки, LB 16.0236 0.8785
Короткие блоки, SB 7.2606 0.5661
Длинный старт, Lstart 16.5683 0.5578
Длинный стоп, Lstop 16.5769 1.1006
Фиг. 6 показывает старт-стопную оконную последовательность для иллюстрации зависимости коэффициента масштабирования от использованной оконной последовательности. В показанном примере, кадр f кодированного с SBR звукового сигнала содержит в себе 32 отсчета подвыборки QMF. Первый тип ws(f, 0) окна последовательности охватывает данные полного кадра, то есть, блок th отсчетов подвыборки. Следующее окно ws(f, 1) перекрывает ws(f, 0), тем временем, охватывая th/2 отсчетов подвыборки кадра f и th/2 следующего кадра f+1. Кадры сеток SBR могут быть полезны в качестве блоков сеток энергии QMF - в этом показанном варианте осуществления - с соотношением, в котором один кадр формирует два блока отсчетов подвыборки QMF.
В нижеследующем, декодер IGF для декодирования кодированного с SBR звукового сигнала пояснен с использованием одного из вариантов осуществления.
Типичный декодер SBR 2:1, например, описан М. Ноендорфом и другими в «Унифицированном стандарте речевого и звукового кодирования - устойчивое высокое качество для всех типов контента и на всех скоростях передачи битов» (ʺThe ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Ratesʺ), журнале Общества инженеров звукозаписи, том 61, №12, стр. 956-977, декабрь 2013 г. (J. Audio Eng. Soc., vol. 61, no. 12, pp. 956-977, Dec. 2013), и показан на фиг. 7.
Вариант осуществления имеющего признаки изобретения транскодера в форме структурной схемы показан на фиг. 8.
Кодированный с SBR звуковой сигнал 100, содержащий элементы 100' доступа, подается в демультиплексор 1, извлекающий базовый сигнал 101 и набор параметров 102, предоставляющий возможность воссоздавать пропавшие части звукового сигнала. Базовый сигнал 101 подается в повышающий дискретизатор 2, который здесь воплощен разделителем MDCT, а набор параметров 102 подается в преобразователь параметров, который на этом изображении показан в качестве содержащего отдельные элементы.
В этом примере, набор параметров 102 главным образом относится к спектральной огибающей, предусмотренной кодированным с SBR звуковым сигналом. В этом примере, временные интервалы 0-15 кадра кодированного с SBR звукового сигнала передаются в верхний элемент преобразователя параметров, а временные интервалы 16-31 передаются в нижний элемент преобразователя параметров. Количество временных интервалов по-прежнему относится к примерным параметрам, используемым для обсуждения преобразования параметров из QMF в MCLT.
В каждой подсекции преобразователя 3 параметров, преобразуются по меньшей мере параметры, относящиеся к спектральной огибающей, что выполняется с помощью поясненного выше преобразования данных QMF в данные MCLT. Результирующие преобразованные параметры 104, 104' пригодны для использования интеллектуального заполнения промежутков и подаются в процессор 4 заполнения спектральных промежутков, содержащий два мультиплексора (MUX), для того чтобы объединяться с соответствующим спектром 103, 103' с повышенной дискретизацией, полученным повышающим дискретизатором 2 из базового сигнала 101.
Результат содержит два элемента 1. AU' и 2. AU' доступа в качестве выходного сигнала мультиплексоров процессора 4 заполнения спектральных промежутков. Как элемент 1. AU' доступа, так и элемент 2. AU' доступа подаются в сумматор 5, в котором второй элемент 2. AU' доступа задерживается элементом 6 задержки. Результатом сумматора 5 является перекодированный звуковой сигнал 200, который, в показанном варианте осуществления, главным образом является кодированным с IGF звуковым сигналом, имеющим два элемента 1. AU и 2. AU доступа.
Повышающий дискретизатор 2 пояснен с использованием примерного варианта осуществления, изображенного на фиг. 10, на которой повышающий дискретизатор 2 помечен как разделитель MDCT.
Повышающий дискретизатор 2 содержит повышающий дискретизатор 20 спектра для повышающей дискретизации спектра базового сигнала 101 (например, имеющего 1024 линии) исходного кодированного с SBR звукового сигнала. Спектр 110 с повышенной дискретизацией (если выполнена повышающая дискретизация, например, с коэффициентом 2, результирующий сигнал имеет 2048 линий) подвергается обратному модифицированному дискретному косинусному преобразованию, выполняемому преобразователем 21 IMDCT, в качестве одного из примеров обратного преобразования. Такой полученный сигнал 111 временной области (состоящий из отсчетов временной области) подвергается сложению с перекрытием (обозначенному ОА) и, как таковой, разделен на два сигнала. Оба сигнала, например, имеют 1024 линии и - здесь графически представлены такие - нижний сигнал находится под влиянием задержки 24 сложения с перекрытием, соответствующей 1024 линиям. Затем, оба сигнала подвергаются модифицированному дискретному косинусному преобразованию, выполняемому двумя преобразователями 23 MDCT, приводящему к двум спектрам 103 с повышенной дискретизацией в качестве выходного сигнала из повышающего дискретизатора 2.
Действие двух преобразователей 23 MDCT показано на фиг. 11. На этом изображении, 1. MDCT относится к верхнему преобразователю 23 MDCT, показанному на фиг. 3, а 2. MDCT относится к нижнему преобразователю 23 MDCT. Выходной сигнал из IMDCT относятся к подвергнутому обратному модифицированному дискретному косинусному преобразованию базовому сигналу 111 с повышенной дискретизацией. Кроме того, есть результат сложения ОА с перекрытием, выдаваемый преобразователю 21 IMDCT, например, с 2048 отсчетами.
Что касается подробностей о MDCT, например, смотрите WO 2014/128197 A1, в особенности, страницы 14-16.
В качестве альтернативы, выполняются не преобразование MDCT и преобразование IMDCT, а быстрое преобразование Фурье и обратное быстрое преобразование Фурье.
Устройство, показанное на фиг. 9, предоставляет возможность декодировать - здесь, SBR (Репликация спектральной полосы) - кодированный звуковой сигнал 100 в звуковой сигнал 300 в качестве одного из примеров для обработки такого кодированного звукового сигнала 100.
С этой целью, устройство содержит демультиплексор 1, который формирует, из элемента 100' доступа кодированного с SBR звукового сигнала 100, упомянутый базовый сигнал 101 и набор упомянутых параметров 102. Набор параметров 102 описывает спектры выше базового сигнала, то есть, описывает пропавшие части.
Базовый сигнал 101 подается в повышающий дискретизатор 2, здесь воплощенный в качестве разделителя MDCT, для повышающей дискретизации базового сигнала 101. Это происходит вследствие того обстоятельства, что базовый сигнал кодированного с SBR звукового сигнала имеет уменьшенную частоту дискретизации в сравнении с базовым сигналом кодированного с IGF звукового сигнала. Детали варианта осуществления повышающего дискретизатора 2 были пояснены в отношении фиг. 10.
Набор параметров 102 подается в преобразователь 3 параметров, который здесь воплощен двумя элементами или модулями преобразователя. Элемент 100' доступа содержит по меньшей мере кадр, охватывающий следующие друг за другом по времени временные интервалы. Здесь, есть 32 временных интервала. Параметры первых временных интервалов, охватывающих временные интервалы с 0 по 15, подаются в верхний модуль преобразователя параметров, а параметры второго временного интервала, находящиеся в диапазоне с 16 по 31, подаются в нижний модуль преобразователя параметров для преобразования. Параметры кодированного звукового сигнала и преобразованный параметр относятся к разным гребенкам фильтров, например, квадратурному зеркальному фильтру (QMF) и модулированному комплексному преобразованию с перекрытием (MCLT), соответственно. Поэтому, модуль преобразователя параметров вставляет компенсацию задержки в параметры кодированного с SBR звукового сигнала для синхронизации. Кроме того, модуль преобразователя параметров отображает частотно-временную сетку, которая лежит в основе временных интервалов кодированного с SBR звукового сигнала, с использованием оконной обработки, выполняемой - предпочтительно заблаговременно - над параметром, с использованием окна, примененного к временным сигналам, с использованием гребенок фильтров модулированного комплексного преобразования с перекрытием.
Результирующие преобразованные параметры 104, 104' подаются в два компонента (1. IGF и 2. IGF) процессора 4 заполнения спектральных промежутков для объединения спектров 103, 103' с повышенной дискретизацией с соответствующими преобразованными параметрами 104, 104'. В изображенном варианте осуществления, соответствующее подразумевает, что преобразованные параметры 104, полученные из первого набора временных интервалов, объединяются со спектром с повышенной дискретизацией, выданным из ʺMDCT 1.ʺ, показанном на фиг. 10, и что преобразованные параметры 104', полученные из второго набора временных интервалов, объединяются с задержанным спектром с повышенной дискретизацией, выданным из ʺMDCT 2.ʺ.
Результаты этих объединений преобразовываются двумя преобразователями 7 IMDCT, с использованием обратного модифицированного дискретного косинусного преобразования во временные сигналы, и складываются с перекрытием (задержка 8 и сумматор 9) в требуемый звуковой сигнал 300.
Фиг. 12 показывает пример для повышающей дискретизации базовых сигналов с коэффициентом 3:8. В этом случае, повышающий дискретизатор сохраняет базовые сигналы трех следующих друг за другом по времени элементов 100' доступа (это обсужденный выше, а отсюда, «текущий» элемент доступа) и двух вышеизложенных элементов 100'' и 100''' доступа. Эти три базовых сигнала складываются и впоследствии разделяются на восемь спектров с повышенной дискретизацией.
В - не показанном - случае, в котором повышающая дискретизация базовых сигналов выполняется с коэффициентов 3:4, повышающий дискретизатор также сохраняет базовые сигналы трех следующих друг за другом по времени элементов доступа. Эти базовые сигналы также складываются, но разделяются на четыре спектра с повышенной дискретизацией.
Подобным образом, требуется два базовых сигнала из двух элементов доступа для одного спектра с повышенной дискретизацией, если требуется определенное перекрытие.
Фиг. 13 схематически иллюстрирует сложение с перекрытием. Пояснение следует по строкам сверху вниз.
Заданы три элемента доступа: AU 0, AU 1, и AU 2, каждый имеет базовый сигнал с 1024 точками данных. Соответствующие спектры базовых сигналов дополняются нулями, вслед за спектрами базовых сигналов. Заполненные спектры имеют 2048 точек данных. Эти спектры преобразуются во временную область с сигналами, имеющими 2 * 2048=4096 точек данных.
Для этих временных сигналов, добавляются перекрывающиеся части сигналов, перекрытие относится к первой половине одного и второй половине другого временного сигнала.
Итоговая сумма временных сигналов имеет 2018 данных, так как из каждого из вышеизложенных временных сигналов используется только половина.
Отсюда, из трех элементов AU 0, AU 1, и AU 2, доступа, получается три временных сигнала. Из временного сигнала, происходящего из AU 0, вторая половина складывается с первой половиной временного сигнала, полученного из AU 1. Вторая половина временного сигнала, полученного из AU 1, складывается с первой половиной временного сигнала, полученного из AU 2. Вследствие этого, в этом примере перекрытия в 50%, три элемента доступа дают два сложенных с перекрытием временных сигнала, оба имеют 2048 точек данных.
Эти два сложенные с перекрытием временных сигнала впоследствии преобразуются в частотную область (например, с использованием, быстрого преобразования Фурье или любого другого пригодного преобразования), давая первый и второй спектры с повышенной дискретизацией, оба имеют 1024 точки данных.
На фиг. 14, еще раз показано имеющее признаки изобретения устройство.
В этом изображенном варианте осуществления, кодированный звуковой сигнал 100 содержит в себе элементы доступа, три из которых показаны: AU 0, AU 1 и AU 2. Эти элементы доступа подаются в демультиплексор 1, который извлекает соответственные базовые сигналы CS0, CS1, и CS 2 и соответственные параметры для описания пропавших частей звукового сигнала P0, P1, и P2.
Базовые сигналы CS0, CS1, и CS2 подаются в повышающий дискретизатор 2, который повышает дискретизацию базовых сигналов и создает для каждого базового сигнала два спектра с повышенной дискретизацией, US1, US2 для CS0, US3, US4 для CS1, и US5, US6 для CS2.
С другой стороны, параметры подаются в преобразователь 3 параметров, дающий преобразованные параметры cP0, cP1, и cP2.
Процессор 4 заполнения спектральных промежутков обрабатывает спектры US1, US2, US3, US4, US5, и US6 с повышенной дискретизацией, с использованием соответствующих преобразованных параметров cP0, cP1, и cP2.
Например, первый спектр US1 с повышенной дискретизацией первого элемента AU 0 доступа обрабатывается первым подмножеством преобразованных параметров cP0, а второй спектр US2 с повышенной дискретизацией первого элемента AU 0 доступа обрабатывается вторым подмножеством преобразованных параметров cP0. Например, выходной сигнал процессора 4 заполнения спектральных промежутков является звуковым сигналом или перекодированным звуковым сигналом.
Фиг. 15 показывает основные этапы имеющего признаки изобретения способа обработки кодированного звукового сигнала 100.
На этапе 1000, из кодированного звукового сигнала 1000 - или чтобы быть точнее: из одного элемента доступа кодированного звукового сигнала 100 формируется или извлекается базовый сигнал и набор параметров.
Следующие этапы могут выполняться в произвольной заданной последовательности или параллельно.
Дискретизация базового сигнала повышается на этапе 1001, что в особенности дает два следующих друг за другом по времени спектра с повышенной дискретизацией. Параметры преобразуются на этапе 1002 в преобразованные параметры, являющиеся применимыми к спектрам с повышенной дискретизацией.
В заключение, спектры с повышенной дискретизацией и преобразованный параметр - дополнительно, к тому же, другие параметры, полученные из элемента доступа кодированного звукового сигнала - обрабатываются на этапе 1003. Выходной сигнал из этой обработки, например, является звуковым сигналом в виде временного сигнала или иначе кодированного и, таким образом, перекодированного звукового сигнала.
Обычно, кодированный звуковой сигнал также содержит в себе дополнительные параметры для описания исходного звукового сигнала и для воссоздания пропавших частей во время декодирования кодированного звукового сигнала.
Имеющая признаки изобретения технология обработки, например, помогает при преобразовании вспомогательной информации SBR в IGF для формирования огибающей во время высокочастотного (HF) синтеза. Дополнительные параметры управления указывают высокочастотный спектр, где отношение шума к тональности, несмотря на формирование огибающей, не соответствует входному сигналу. Эта характерная черта звука наблюдается в сигналах, аналогичных деревянным духовым музыкальным инструментам, или в помещениях с реверберацией. Верхние частоты в этих случаях не являются гармоническими или высоко тональными и могут восприниматься в качестве зашумленных по сравнении с нижними частотами.
Форманты в сигналах оцениваются с использованием обратного фильтра ошибки предсказания в кодировщике. Уровень обратной фильтрации выбирается согласно сочетающимся признакам входного сигнала. Этот уровень сигнализируется из SBR. Так как формирование огибающей в высокочастотном спектре не помогает полностью снижать тональность спектра, фильтр предварительного выравнивания спектра с разными уровнями частотно-зависимого коэффициента линейно-частотной модуляции может применяться к линейному фильтру ошибки предсказания для выравнивания формант.
К этим аномальным характеристикам сигнала применяются ответные меры посредством SBR с использованием средства обратной фильтрации, в то время как IGF использует средство выравнивания спектра. Степень предварительного выравнивания спектра отображается в отдельные уровни технологий.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента, либо признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться посредством (или с использованием) аппаратного устройства, например, подобного микропроцессору, программируемому компьютеру или электронной схеме. В некоторых вариантах осуществления, один или более из наиболее важных этапов способа могут выполняться таким устройством.
К тому же, аспекты устройства для перекодирования кодированного с SBR звукового сигнала могут быть действительны применительно к устройству для декодирования кодированного с SBR звукового сигнала и наоборот. То же самое справедливо для соответствующих способов.

Claims (66)

1. Устройство для обработки кодированного звукового сигнала (100),
причем упомянутый кодированный звуковой сигнал (100) содержит последовательность элементов (100') доступа, каждый элемент доступа содержит базовый сигнал (101) с первой шириной спектра и параметры, описывающие спектр выше первой ширины спектра,
причем упомянутое устройство содержит:
демультиплексор (1) для формирования, из элемента (100') доступа кодированного звукового сигнала (100), упомянутого базового сигнала (101) и набора упомянутых параметров (102),
повышающий дискретизатор (2) для повышающей дискретизации упомянутого базового сигнала (101) упомянутого элемента (100') доступа и выдачи первого спектра (103) с повышенной дискретизацией и следующего по времени второго спектра (103') с повышенной дискретизацией, причем как первый спектр (103) с повышенной дискретизацией, так и второй спектр (103') с повышенной дискретизацией имеют то же самое содержимое, что и базовый сигнал (101), и имеют вторую ширину спектра, являющуюся большей, чем первая ширина спектра базового спектра (101),
преобразователь (3) параметров для преобразования параметров упомянутого набора параметров (102) упомянутого элемента (100') доступа для получения преобразованных параметров (104, 104'), являющихся применимыми к первому спектру (103) с повышенной дискретизацией и второму спектру (103') с повышенной дискретизацией, и
процессор (4) заполнения спектральных промежутков для обработки упомянутого первого спектра (103) с повышенной дискретизацией и упомянутого второго спектра (103') с повышенной дискретизацией, с использованием упомянутых преобразованных параметров (104).
2. Устройство по п. 1,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью заполнять верхнюю часть спектра упомянутого базового сигнала (101) нулями и получать первый спектр (103) с повышенной дискретизацией и второй спектр (103') с повышенной дискретизацией из заполненного спектра (110) базового сигнала (101).
3. Устройство по п. 1,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью повышающей дискретизации упомянутого базового сигнала (101) упомянутого элемента (100') доступа, дополнительно с использованием базового сигнала элемента (100'') доступа, непосредственно предшествующего упомянутому элементу (100') доступа.
4. Устройство по п. 1,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью сбора базовых сигналов (101) первого количества следующих друг за другом по времени элементов (100', 100'', 100''') доступа и для выработки из этих базовых сигналов (101) второго количества спектров (103) с повышенной дискретизацией для нецелочисленного коэффициента повышающей дискретизации, при этом первое количество является знаменателем коэффициента, а второе количество является числителем коэффициента.
5. Устройство по п. 1,
в котором упомянутый преобразователь (3) параметров выполнен с возможностью преобразования первого подмножества параметров из упомянутого набора параметров (102), относящихся к первой части следующих друг за другом по времени временных интервалов, и для преобразования второго подмножества параметров из упомянутого набора параметров (102), относящихся ко второй части упомянутых временных интервалов, следующих друг за другом по времени за упомянутой первой частью временных интервалов, и
в котором процессор (4) заполнения спектральных промежутков выполнен с возможностью обрабатывать первое преобразованное подмножество параметров (104) первым спектром (103) с повышенной дискретизацией и обрабатывать второе преобразованное подмножество параметров (104') вторым спектром (103') с повышенной дискретизацией.
6. Устройство по п. 1,
в котором упомянутый преобразователь (3) выполнен с возможностью преобразования параметров, относящихся к значениям энергии упомянутого набора параметров (102), в значения энергии, используемые процессором (4) заполнения спектральных промежутков, посредством масштабирования этих значений параметров заданным коэффициентом масштабирования.
7. Устройство по п. 6,
в котором упомянутый преобразователь (3) выполнен с возможностью извлечения информации об оконной функции, связанной с элементом (100') доступа, и
при этом упомянутый преобразователь (3) выполнен с возможностью адаптировать коэффициент масштабирования согласно оконной функции.
8. Устройство по п. 1,
в котором упомянутый преобразователь (3) выполнен с возможностью смещения параметров из упомянутого набора параметров (102) посредством вставки компенсации задержки.
9. Устройство по п. 1,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью повышающей (20) дискретизации упомянутого базового сигнала (101) посредством интерполяции значений упомянутого базового сигнала (101).
10. Устройство по п. 1,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью заполнять верхнюю часть спектра базового сигнала предыдущего элемента (100'') доступа нулями,
при этом упомянутый повышающий дискретизатор (2) выполнен с возможностью заполнять верхнюю часть спектра базового сигнала (101) элемента (100') доступа нулями,
при этом упомянутый повышающий дискретизатор (2) выполнен с возможностью выполнять обратное преобразование (21) заполненного спектра элемента (100') доступа и заполненного спектра предшествующего элемента (100'') доступа, и
при этом упомянутый повышающий дискретизатор (2) выполнен с возможностью выполнять сложение с перекрытием сигнала временной области для заполненного спектра предыдущего элемента (100'') доступа и сигнала временной области для заполненного спектра элемента (100') доступа, для получения промежуточного временного сигнала (111).
11. Устройство по п. 10,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью выполнять прямое преобразование по отношению к первой части промежуточного временного сигнала (111) для получения первого спектра (103) с повышенной дискретизацией, и
при этом упомянутый повышающий дискретизатор (2) выполнен с возможностью выполнять прямое преобразование по отношению ко второй части промежуточного временного сигнала (111) для получения второго спектра (103') с повышенной дискретизацией, и
при этом первая часть перекрывается со второй частью.
12. Устройство по п. 1,
в котором упомянутый повышающий дискретизатор (2) выполнен с возможностью повышающей (20) дискретизации упомянутого базового сигнала (101), для того чтобы получать базовый сигнал (110) с повышенной дискретизацией,
при этом упомянутый повышающий дискретизатор (2) выполнен с возможностью выполнения обратного преобразования (21) над упомянутым базовым сигналом (110) с повышенной дискретизацией, для того чтобы получать сигнал (111) временной области,
при этом упомянутый повышающий дискретизатор (2) выполнен с возможностью обработки упомянутого сигнала (111) временной области для получения упомянутого первого спектра (103) с повышенной дискретизацией и упомянутого следующего по времени второго спектра (103') с повышенной дискретизацией, посредством применения преобразования (22, 23), и
при этом упомянутое обратное преобразование (21) является обратным преобразованием от упомянутого преобразования.
13. Устройство по п. 12,
в котором упомянутое обратное преобразование является обратным модифицированным дискретным косинусным преобразованием, и при этом упомянутое преобразование является модифицированным дискретным косинусным преобразованием.
14. Устройство по п. 1,
в котором упомянутый процессор (4) заполнения спектральных промежутков выполнен с возможностью декодировать первый спектр (103) с повышенной дискретизацией и второй спектр (103') с повышенной дискретизацией с помощью преобразованных параметров (104, 104') для получения выходного сигнала (300) временной области.
15. Устройство по п. 14,
в котором упомянутый процессор (4) заполнения спектральных промежутков выполнен с возможностью применять первую часть преобразованных параметров (104) к первому спектру (103) с повышенной дискретизацией для получения первого обработанного спектра и применять вторую часть преобразованных параметров (104') ко второму спектру (103') с повышенной дискретизацией для получения второго обработанного спектра.
16. Устройство по п. 1,
в котором упомянутый процессор (4) заполнения спектральных промежутков выполнен с возможностью содержать преобразователь (7) спектра для преобразования первого обработанного спектра и второго обработанного спектра во временную область, и
при этом упомянутый процессор (4) заполнения спектральных промежутков выполнен с возможностью содержать звуковой сумматор (9), выполненный с возможностью сложения с перекрытием по меньшей мере двух выходных временных сигналов, для того чтобы получать звуковой сигнал (300).
17. Устройство по п. 1,
в котором упомянутый процессор (4) заполнения спектральных промежутков выполнен с возможностью формирования кодированного сигнала с заполнением спектральных промежутков, имеющего первый элемент доступа и второй элемент доступа, причем первый элемент доступа содержит преобразованный вариант первого спектра с повышенной дискретизацией и первой части преобразованного параметра, и второй элемент доступа содержит преобразованный вариант второго спектра с повышенной дискретизацией и второй части преобразованного параметра.
18. Устройство по п. 1,
в котором упомянутый процессор (4) заполнения спектральных промежутков выполнен с возможностью формирования выходного потока данных, имеющего первый элемент доступа и второй элемент доступа.
19. Устройство по п. 1,
в котором процессор (4) заполнения спектральных промежутков выполнен с возможностью обработки упомянутого первого спектра (103) с повышенной дискретизацией и упомянутого второго спектра (103') с повышенной дискретизацией, с помощью упомянутых преобразованных параметров (104, 104') для получения двух перекодированных элементов доступа, и
при этом процессор (4) заполнения спектральных промежутков выполнен с возможностью сложения (5) упомянутых двух перекодированных элементов доступа, чтобы получать перекодированный звуковой сигнал (200).
20. Устройство по п. 19,
в котором упомянутый перекодированный звуковой сигнал (200) является кодированным с IGF звуковым сигналом (200).
21. Устройство по п. 1,
в котором упомянутый кодированный звуковой сигнал (100) является кодированным с SBR звуковым сигналом (100).
22. Способ обработки кодированного звукового сигнала (100),
причем упомянутый кодированный звуковой сигнал (100) содержит последовательность элементов (100') доступа, каждый элемент доступа содержит базовый сигнал с первой шириной спектра и параметры, описывающие спектр выше первой ширины спектра,
причем упомянутый способ содержит этапы, на которых:
формируют, из элемента (100') доступа кодированного звукового сигнала (100), упомянутый базовый сигнал (101) и набор упомянутых параметров (102),
повышают дискретизацию упомянутого базового сигнала (101) упомянутого элемента (100') доступа и выдают первый спектр (103) с повышенной дискретизацией и следующий по времени второй спектр (103') с повышенной дискретизацией, причем как первый спектр (103) с повышенной дискретизацией, так и второй спектр (103') с повышенной дискретизацией имеют то же самое содержимое, что и базовый сигнал (101), и имеют вторую ширину спектра, являющуюся большей, чем первая ширина спектра базового спектра (101),
преобразуют параметры из упомянутого набора параметров (102) упомянутого элемента (100') доступа для получения преобразованных параметров (104), являющихся применимыми к первому спектру (103) с повышенной дискретизацией и второму спектру (103') с повышенной дискретизацией, и
обрабатывают упомянутый первый спектр (103) с повышенной дискретизацией и упомянутый второй спектр (103') с повышенной дискретизацией, с использованием упомянутых преобразованных параметров (104).
RU2018125879A 2015-12-14 2016-12-08 Устройство и способ для обработки кодированного звукового сигнала RU2687872C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15199851.5 2015-12-14
EP15199851.5A EP3182411A1 (en) 2015-12-14 2015-12-14 Apparatus and method for processing an encoded audio signal
PCT/EP2016/080331 WO2017102560A1 (en) 2015-12-14 2016-12-08 Apparatus and method for processing an encoded audio signal

Publications (1)

Publication Number Publication Date
RU2687872C1 true RU2687872C1 (ru) 2019-05-16

Family

ID=55024778

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018125879A RU2687872C1 (ru) 2015-12-14 2016-12-08 Устройство и способ для обработки кодированного звукового сигнала

Country Status (17)

Country Link
US (2) US11100939B2 (ru)
EP (2) EP3182411A1 (ru)
JP (1) JP6663996B2 (ru)
KR (2) KR20180095863A (ru)
CN (1) CN108701467B (ru)
AR (1) AR106970A1 (ru)
AU (1) AU2016373990B2 (ru)
BR (1) BR112018012007B1 (ru)
CA (1) CA3008388C (ru)
ES (1) ES2960963T3 (ru)
MX (1) MX2018007197A (ru)
MY (1) MY191239A (ru)
RU (1) RU2687872C1 (ru)
SG (1) SG11201805008YA (ru)
TW (1) TWI625722B (ru)
WO (1) WO2017102560A1 (ru)
ZA (1) ZA201804512B (ru)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418957B1 (en) * 2018-06-29 2019-09-17 Amazon Technologies, Inc. Audio event detection

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
US20090132261A1 (en) * 2001-11-29 2009-05-21 Kristofer Kjorling Methods for Improving High Frequency Reconstruction
US20100063802A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive Frequency Prediction
US20110002266A1 (en) * 2009-05-05 2011-01-06 GH Innovation, Inc. System and Method for Frequency Domain Audio Post-processing Based on Perceptual Masking
WO2011062536A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Improved excitation signal bandwidth extension
US7996233B2 (en) * 2002-09-06 2011-08-09 Panasonic Corporation Acoustic coding of an enhancement frame having a shorter time length than a base frame
EP1875464B1 (en) * 2005-04-22 2012-12-05 Qualcomm Incorporated Method, storage medium and apparatus for gain factor attenuation
US20130051571A1 (en) * 2010-03-09 2013-02-28 Frederik Nagel Apparatus and method for processing an audio signal using patch border alignment
RU2520402C2 (ru) * 2008-10-08 2014-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением
US8874450B2 (en) * 2010-04-13 2014-10-28 Zte Corporation Hierarchical audio frequency encoding and decoding method and system, hierarchical frequency encoding and decoding method for transient signal
EP2830054A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
US9020815B2 (en) * 2008-09-06 2015-04-28 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US20150162010A1 (en) * 2013-01-22 2015-06-11 Panasonic Corporation Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
US9111532B2 (en) * 2007-08-27 2015-08-18 Telefonaktiebolaget L M Ericsson (Publ) Methods and systems for perceptual spectral decoding

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2236649A1 (en) * 1998-05-05 1999-11-05 Tet Hin Yeap Method and apparatus for encoding of digital signals for transmission and/or storage, and decoding such encoded signals following such transmission and/or storage
US6778953B1 (en) 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
US7206359B2 (en) * 2002-03-29 2007-04-17 Scientific Research Corporation System and method for orthogonally multiplexed signal transmission and reception
US7486719B2 (en) * 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
WO2005078707A1 (en) 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
FR2875351A1 (fr) * 2004-09-16 2006-03-17 France Telecom Procede de traitement de donnees par passage entre domaines differents de sous-bandes
BRPI0616624A2 (pt) * 2005-09-30 2011-06-28 Matsushita Electric Ind Co Ltd aparelho de codificação de fala e método de codificação de fala
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
MX2010009307A (es) * 2008-03-14 2010-09-24 Panasonic Corp Dispositivo de codificacion, dispositivo de decodificacion y metodo de los mismos.
CA2989886C (en) 2008-12-15 2020-05-05 Frederik Nagel Audio encoder and bandwidth extension decoder
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
MY155997A (en) * 2010-10-06 2015-12-31 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
EP2777042B1 (en) * 2011-11-11 2019-08-14 Dolby International AB Upsampling using oversampled sbr
DE112011106073B4 (de) 2011-12-28 2016-08-11 Mitsubishi Electric Corp. Zentralseitiges System und fahrzeugseitiges System
CN103366750B (zh) * 2012-03-28 2015-10-21 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
ES2634621T3 (es) 2013-02-20 2017-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para generar una señal de audio o imagen codificada o para descodificar una señal de audio o imagen codificada en presencia de transitorios utilizando una parte de superposición múltiple
WO2014199632A1 (ja) 2013-06-11 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号の帯域幅拡張を行う装置及び方法
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
US20090132261A1 (en) * 2001-11-29 2009-05-21 Kristofer Kjorling Methods for Improving High Frequency Reconstruction
US7996233B2 (en) * 2002-09-06 2011-08-09 Panasonic Corporation Acoustic coding of an enhancement frame having a shorter time length than a base frame
EP1875464B1 (en) * 2005-04-22 2012-12-05 Qualcomm Incorporated Method, storage medium and apparatus for gain factor attenuation
US9111532B2 (en) * 2007-08-27 2015-08-18 Telefonaktiebolaget L M Ericsson (Publ) Methods and systems for perceptual spectral decoding
US20100063802A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive Frequency Prediction
US9020815B2 (en) * 2008-09-06 2015-04-28 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
RU2520402C2 (ru) * 2008-10-08 2014-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением
US20110002266A1 (en) * 2009-05-05 2011-01-06 GH Innovation, Inc. System and Method for Frequency Domain Audio Post-processing Based on Perceptual Masking
WO2011062536A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Improved excitation signal bandwidth extension
US20130051571A1 (en) * 2010-03-09 2013-02-28 Frederik Nagel Apparatus and method for processing an audio signal using patch border alignment
US8874450B2 (en) * 2010-04-13 2014-10-28 Zte Corporation Hierarchical audio frequency encoding and decoding method and system, hierarchical frequency encoding and decoding method for transient signal
US20150162010A1 (en) * 2013-01-22 2015-06-11 Panasonic Corporation Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
EP2830054A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
CA2918524A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection

Also Published As

Publication number Publication date
ZA201804512B (en) 2019-05-29
CA3008388A1 (en) 2017-06-22
MY191239A (en) 2022-06-10
JP6663996B2 (ja) 2020-03-13
KR20180095863A (ko) 2018-08-28
EP3391373A1 (en) 2018-10-24
TW201730876A (zh) 2017-09-01
CA3008388C (en) 2020-09-08
AU2016373990A1 (en) 2018-07-05
EP3391373B1 (en) 2023-09-27
AR106970A1 (es) 2018-03-07
CN108701467B (zh) 2023-12-08
JP2019502948A (ja) 2019-01-31
BR112018012007A2 (pt) 2018-12-04
US11862184B2 (en) 2024-01-02
US20210383818A1 (en) 2021-12-09
BR112018012007B1 (pt) 2023-12-05
US11100939B2 (en) 2021-08-24
EP3391373C0 (en) 2023-09-27
ES2960963T3 (es) 2024-03-07
KR102625047B1 (ko) 2024-01-16
WO2017102560A1 (en) 2017-06-22
SG11201805008YA (en) 2018-07-30
TWI625722B (zh) 2018-06-01
AU2016373990B2 (en) 2019-08-29
EP3182411A1 (en) 2017-06-21
CN108701467A (zh) 2018-10-23
KR20210054052A (ko) 2021-05-12
US20180293994A1 (en) 2018-10-11
MX2018007197A (es) 2018-11-09

Similar Documents

Publication Publication Date Title
JP7483792B2 (ja) 符号化オーディオ信号を復号する復号装置および復号方法
US9236061B2 (en) Harmonic transposition in an audio coding method and system
US11264042B2 (en) Apparatus and method for generating an enhanced signal using independent noise-filling information which comprises energy information and is included in an input signal
RU2687872C1 (ru) Устройство и способ для обработки кодированного звукового сигнала
AU2020201239A1 (en) Improved Harmonic Transposition
AU2013211560B2 (en) Improved harmonic transposition