RU2621003C2 - Адаптивное к тональности квантование низкой сложности аудиосигналов - Google Patents

Адаптивное к тональности квантование низкой сложности аудиосигналов Download PDF

Info

Publication number
RU2621003C2
RU2621003C2 RU2015136242A RU2015136242A RU2621003C2 RU 2621003 C2 RU2621003 C2 RU 2621003C2 RU 2015136242 A RU2015136242 A RU 2015136242A RU 2015136242 A RU2015136242 A RU 2015136242A RU 2621003 C2 RU2621003 C2 RU 2621003C2
Authority
RU
Russia
Prior art keywords
tonality
spectral lines
signal
frame
spectrum
Prior art date
Application number
RU2015136242A
Other languages
English (en)
Other versions
RU2015136242A (ru
Inventor
Мартин ДИТЦ
Гийом ФУКС
Кристиан ХЕЛЬМРИХ
Горан МАРКОВИЧ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2015136242A publication Critical patent/RU2015136242A/ru
Application granted granted Critical
Publication of RU2621003C2 publication Critical patent/RU2621003C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/555Tonality processing, involving the key in which a musical piece or melody is played
    • G10H2210/561Changing the tonality within a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к цифровой обработке аудиосигналов, более конкретно к квантованию аудиосигналов. Технический результат – обеспечение улучшенных концепций для адаптивного квантования аудиосигналов. Аудиокодер содержит: устройство формирования кадров, сконфигурированное с возможностью извлекать кадры (F) из аудиосигнала (AS); модуль квантования, сконфигурированный с возможностью отображать спектральные линии (SL1-32) сигнала спектра (SPS), выведенного из кадра (F) аудиосигнала (AS), в индексы квантования (I0, I1), при этом модуль квантования имеет мертвую зону (DZ), в которой входные спектральные линии (SL) отображаются в индекс квантования ноль (I0); и устройство управления, сконфигурированное с возможностью модифицировать мертвую зону (DZ); при этом устройство управления содержит устройство вычисления тональности, сконфигурированное с возможностью вычислять одно значение (TI5-32) указания тональности для одной спектральной линии (SL1-32) или для одной группы спектральных линий (SL1-32), при этом устройство управления сконфигурировано с возможностью модифицировать мертвую зону (DZ) для упомянутой одной спектральной линии (SL1-32) или упомянутой одной группы спектральных линий (SL1-32) в зависимости от соответствующего значения (TI5-32) указания тональности. 4 н. и 13 з.п. ф-лы, 2 ил.

Description

Изобретение относится к цифровой обработке аудиосигналов. Более конкретно изобретение относится к квантованию аудиосигналов.
В кодировании с преобразованием с очень низким битрейтом (частотой следования битов), количество бит в расчете на кадр, в общем, не является достаточным, чтобы избегать артефактов в декодированном сигнале. Музыкальный шум, в частности, может появляться в стационарных музыкальных или шумовых спектрах вследствие линий (интервалов) преобразования, которые "включаются и выключаются", то есть квантуются в нуль или не квантуются в нуль, на некоторой частоте от одного кадра к другому. Такой подход кодирования не только придает области декодированного сигнала более тональный характер, чем имеет исходный сигнал (отсюда признак музыкальный шум), он также не обеспечивает заметного преимущества над тем, чтобы не кодировать упомянутую спектральную область вовсе, и вместо этого применять способ замены интервалов, как, например, алгоритмы заполнения шумом в системах кодирования TCX или FD, используемых в xHE-AAC [4]. Фактически, явное, но недостаточное кодирование областей, подверженных музыкальному шуму кодирования, требует биты на этапе энтропийного кодирования кодера с преобразованием, которые с точки зрения звука более хорошо расходуются в других спектральных областях, особенно на низких частотах, где слуховая система человека является чувствительной.
Один способ уменьшения появления музыкального шума в кодировании аудио с низким битрейтом состоит в том, чтобы модифицировать поведение модуля квантования, отображающего входные спектральные линии в индексы квантования, так что он адаптируется к мгновенной характеристике входного сигнала и потреблению битов квантованного спектра. Более точно, мертвая зона, используемая в течение квантования, изменяется адаптивно к сигналу. Были опубликованы несколько подходов [5, 6, и ссылки в них]. В [5] адаптация модуля квантования выполняется над всем спектром, подлежащим кодированию. Адаптированный модуль квантования, поэтому, ведет себя одинаково для всех спектральных интервалов заданного кадра. Более того, в случае квантования с оптимальной мертвой зоной zopt, 2 бита сторонней информации должны передаваться в декодер, представляя битрейт и штраф обратной совместимости. В [6] модуль квантования адаптируется на основе в расчете на частотный диапазон, но в расчете на диапазон выполняются две попытки квантования, и только более хорошая попытка (согласно некоторому решению) используется для передачи. Это является сложным.
Цель настоящего изобретения состоит в том, чтобы обеспечить улучшенные концепции для обработки аудиосигналов. Более конкретно, цель настоящего изобретения состоит в том, чтобы обеспечить улучшенные концепции для адаптивного квантования аудиосигналов. Цель настоящего изобретения достигается посредством аудиокодера согласно пункту 1 формулы изобретения, посредством системы согласно пункту 15 формулы изобретения, посредством способа согласно пункту 16 формулы изобретения и посредством компьютерной программы согласно пункту 17 формулы изобретения.
В одном аспекте изобретение обеспечивает аудиокодер для кодирования аудиосигнала, чтобы вырабатывать из него кодированный сигнал, при этом аудиокодер содержит:
устройство формирования кадров, сконфигурированное с возможностью извлекать кадры из аудиосигнала;
модуль квантования, сконфигурированный с возможностью отображать спектральные линии сигнала спектра, выведенного из кадра аудиосигнала, в индексы квантования; при этом модуль квантования имеет мертвую зону, в которой спектральные линии отображаются в индекс квантования ноль; и
устройство управления, сконфигурированное с возможностью модифицировать мертвую зону;
при этом устройство управления содержит устройство вычисления тональности, сконфигурированное с возможностью вычислять по меньшей мере одно значение указания тональности для по меньшей мере одной спектральной линии или для по меньшей мере одной группы спектральных линий,
при этом устройство управления сконфигурировано с возможностью модифицировать мертвую зону для упомянутой по меньшей мере одной спектральной линии или упомянутой по меньшей мере одной группы спектральных линий в зависимости от соответствующего значения указания тональности.
Устройство формирования кадров может быть сконфигурировано с возможностью извлекать кадры из аудиосигнала посредством применения оконной функции к аудиосигналу. В обработке сигналов оконная функция (также известная как функция аподизации или коническая функция) является математической функцией, которая принимает нулевые значения вне некоторого выбранного интервала. Посредством применения оконной функции к сигналу, сигнал может разбиваться на короткие сегменты, которые обычно называются кадрами.
Квантование, в цифровой обработке аудиосигналов, является процессом отображения большого набора входных значений в (перечислимый) меньший набор - как, например, округлением значений с некоторой единицей точности. Устройство или алгоритмическая функция, которая выполняет квантование, называется модулем квантования.
Согласно изобретению сигнал спектра вычисляется для кадров аудиосигнала. Сигнал спектра может содержать спектр каждого из кадров аудиосигнала, который является сигналом временной области, при этом каждый спектр является представлением одного из кадров в частотной области. Частотный спектр может генерироваться посредством математического преобразования сигнала, и результирующие значения обычно представляются как амплитуда по отношению к частоте.
Мертвая зона является зоной, используемой в течение квантования, при этом спектральные линии (частотные интервалы) или группы спектральных линий (частотные диапазоны) отображаются в нуль. Мертвая зона имеет нижний предел, который обычно находится на амплитуде нуля, и верхний предел, который может изменяться для разных спектральных линий или групп спектральных линий.
Согласно изобретению мертвая зона может модифицироваться посредством устройства управления. Устройство управления содержит устройство вычисления тональности, которое сконфигурировано с возможностью вычислять по меньшей мере одно значение указания тональности для по меньшей мере одной спектральной линии или для по меньшей мере одной группы спектральных линий.
Термин "тональность" указывает на тональный характер сигнала спектра. В общем, можно сказать, что тональность является высокой в случае, когда спектр содержит преимущественно периодические компоненты, что означает, что спектр кадра содержит доминирующие пики. Противоположностью к тональному характеру является шумовой характер. В последнем случае спектр кадра является более плоским.
Дополнительно, устройство управления сконфигурировано с возможностью модифицировать мертвую зону для упомянутой по меньшей мере одной спектральной линии или упомянутой по меньшей мере одной группы спектральных линий в зависимости от соответствующего значения указания тональности.
Настоящее изобретение раскрывает схему квантования с адаптивной к сигналу мертвой зоной, которая
- не требует какой-либо сторонней информации, что обеспечивает возможность ее использования в существующих кодеках мультимедиа,
- принимает решение до квантования в отношении того, какую мертвую зону использовать в расчете на интервал или диапазон, при сохранении сложности,
- может определять мертвую зону в расчете на интервал или в расчете на диапазон на основе частоты диапазона и/или тональности сигнала.
Изобретение может применяться в существующей инфраструктуре кодирования, так как изменяется только модуль квантования сигналов в кодере; соответствующий декодер будет все еще способным читать (неизмененный) битовый поток, вырабатываемый из кодированного сигнала, и декодировать выходной сигнал. В отличие от [6] и ссылок в нем, мертвая зона для каждой группы спектральных линий или для каждой спектральной линии выбирается до квантования, таким образом, является необходимой только одна операция квантования в расчете на группу или спектральную линию. Наконец, решение модуля квантования не ограничено выбором между двумя возможными значениями мертвой зоны, но полным диапазоном значений. Решение детально описывается ниже. Схема адаптивного к тональности квантования, кратко описанная выше, может осуществляться в тракте возбуждения с кодированным преобразованием (TCX) кодера LD-USAC, вариант с низкой задержкой стандарта xHE-AAC [4].
Согласно одному предпочтительному варианту осуществления изобретения устройство управления сконфигурировано с возможностью модифицировать мертвую зону таким способом, что мертвая зона на одной из спектральных линий больше, чем мертвая зона на одной из спектральных линий, имеющих более большую тональность, или таким способом, что мертвая зона на одной из групп спектральных линий больше, чем мертвая зона на одной из групп спектральных линий, имеющих более большую тональность. Посредством этих свойств нетональные спектральные области имеют тенденцию квантоваться в нуль, что означает, что количество данных может уменьшаться.
Согласно одному предпочтительному варианту осуществления изобретения устройство управления содержит устройство вычисления спектра мощности, сконфигурированное с возможностью вычислять спектр мощности кадра аудиосигнала, при этом спектр мощности содержит значения мощности для спектральных линий или групп спектральных линий, при этом устройство вычисления тональности сконфигурировано с возможностью вычислять упомянутое по меньшей мере одно значение указания тональности в зависимости от спектра мощности. Посредством вычисления значения указания тональности на основе спектра мощности вычислительная сложность остается достаточно низкой.
Согласно одному предпочтительному варианту осуществления изобретения значение указания тональности для одной из спектральных линий основывается на сравнении значения мощности для соответствующей спектральной линии и суммы предварительно определенного количества его окружающих значений мощности спектра мощности, или значение указания тональности для одной из групп спектральных линий основывается на сравнении значения мощности для соответствующей группы спектральных линий и суммы предварительно определенного количества его окружающих значений мощности спектра мощности. Посредством сравнения значения мощности с его соседними значениями мощности пиковые области или плоские области спектра мощности могут легко идентифицироваться, так что значение указания тональности может вычисляться легким способом.
Согласно одному предпочтительному варианту осуществления изобретения значение указания тональности для одной из спектральных линий основывается на значении указания тональности спектральной линии предшествующего кадра аудиосигнала, или значение указания тональности для одной из групп спектральных линий основывается на значении указания тональности группы спектральных линий для предшествующего кадра аудиосигнала. Посредством этих свойств мертвая зона модифицируется с течением времени гладким способом.
Согласно одному предпочтительному варианту осуществления изобретения значение указания тональности вычисляется посредством формулы
Figure 00000001
,
где i является индексом, указывающим конкретный кадр аудиосигнала, k является индексом, указывающим конкретную спектральную линию, Pk,i является значением мощности k-й спектральной линии i-го кадра, или значение указания тональности вычисляется посредством формулы
Figure 00000002
,
где i является индексом, указывающим конкретный кадр аудиосигнала, m является индексом, указывающим конкретную группу спектральных линий, Pm,i является значением мощности m-й группы спектральных линий i-го кадра. Как можно заметить из формулы, значение указания тональности вычисляется из значения мощности i-го кадра, который является текущим кадром, и из i-1-го кадра, который является предшествующим кадром. Формула может быть изменена посредством опускания зависимости от i-1-го кадра. Здесь сумма 7 левых и 7 правых соседних значений мощности k-го значения мощности вычисляется и делится на соответствующее значение мощности. С использованием этой формулы низкое значение указания тональности показывает высокую тональность.
Согласно одному предпочтительному варианту осуществления изобретения аудиокодер содержит устройство вычисления начальной частоты, сконфигурированное с возможностью вычислять начальную частоту для модификации мертвой зоны, при этом мертвая зона модифицируется только для спектральных линий, представляющих частоту, более высокую чем или равную начальной частоте. Это означает, что мертвая зона является фиксированной для низких частот и переменной для более высоких частот. Эти особенности ведут к более хорошему качеству аудио, так как слуховая система человека является более чувствительной на низких частотах.
Согласно одному предпочтительному варианту осуществления изобретения устройство вычисления начальной частоты сконфигурировано с возможностью вычислять начальную частоту на основе частоты дискретизации аудиосигнала и/или на основе максимального битрейта, предвидимого для битового потока, вырабатываемого из кодированного сигнала. Посредством этих свойств качество аудио может оптимизироваться.
Согласно одному предпочтительному варианту осуществления изобретения аудиокодер содержит устройство вычисления модифицированного дискретного косинусного преобразования, сконфигурированное с возможностью вычислять модифицированное дискретное косинусное преобразование из кадра аудиосигнала, и устройство вычисления модифицированного дискретного синусного преобразования, сконфигурированное с возможностью вычислять модифицированное дискретное синусное преобразование из кадра аудиосигнала, при этом устройство вычисления спектра мощности сконфигурировано с возможностью вычислять спектр мощности на основе модифицированного дискретного косинусного преобразования и на основе модифицированного дискретного синусного преобразования. Модифицированное дискретное косинусное преобразование должно вычисляться в любом случае для цели кодирования аудиосигнала. Следовательно, только модифицированное дискретное синусное преобразование должно вычисляться дополнительно для цели адаптивного к тональности квантования. Поэтому сложность может уменьшаться. Однако могут использоваться другие преобразования, такие как дискретное преобразование Фурье или нечетное дискретное преобразование Фурье.
Согласно одному предпочтительному варианту осуществления изобретения устройство вычисления спектра мощности сконфигурировано с возможностью вычислять значения мощности согласно формуле Pk,i=(MDCTk,i)2+(MDSTk,i)2, где i является индексом, указывающим конкретный кадр аудиосигнала, k является индексом, указывающим конкретную спектральную линию, MDCTk,i является значением модифицированного дискретного косинусного преобразования на k-й спектральной линии i-го кадра, MDSTk,i является значением модифицированного дискретного синусного преобразования на k-й спектральной линии i-го кадра, и Pk,i является значением мощности k-й спектральной линии i-го кадра. Формула выше обеспечивает возможность вычисления значения мощности легким способом.
Согласно одному предпочтительному варианту осуществления изобретения аудиокодер содержит устройство вычисления сигнала спектра, сконфигурированное с возможностью вырабатывать сигнал спектра, при этом устройство вычисления сигнала спектра содержит устройство установки амплитуды, сконфигурированное с возможностью устанавливать амплитуды спектральных линий сигнала спектра таким способом, что потеря энергии вследствие модификации мертвой зоны компенсируется. Посредством этих особенностей квантование может осуществляться способом сохранения энергии.
Согласно одному предпочтительному варианту осуществления изобретения устройство установки амплитуды сконфигурировано с возможностью устанавливать амплитуды сигнала спектра в зависимости от модификации мертвой зоны на соответствующей спектральной линии. Например, спектральные линии, для которых мертвая зона увеличивается, могут незначительно усиливаться для этой цели.
Согласно одному предпочтительному варианту осуществления изобретения устройство вычисления сигнала спектра содержит устройство нормализации. Посредством этого свойства последующий этап квантования может осуществляться легким способом.
Согласно одному предпочтительному варианту осуществления изобретения модифицированное дискретное косинусное преобразование из кадра аудиосигнала, вычисленное посредством устройства вычисления модифицированного дискретного косинусного преобразования, подается в устройство вычисления сигнала спектра. Посредством этой особенности модифицированное дискретное косинусное преобразование используется для цели адаптации квантования и для цели вычисления кодированного сигнала.
В одном аспекте изобретение обеспечивает систему, содержащую кодер и декодер, при этом кодер сконструирован согласно изобретению.
В одном аспекте изобретение обеспечивает способ для кодирования аудиосигнала, чтобы вырабатывать из него кодированный сигнал, при этом способ содержит этапы:
извлечение кадров из аудиосигнала;
отображение спектральных линий сигнала спектра, выведенного из кадра аудиосигнала, в индексы квантования; при этом используется мертвая зона, в которой входные спектральные линии отображаются в нуль; и
модификацию мертвой зоны;
при этом вычисляется по меньшей мере одно значение указания тональности для по меньшей мере одной спектральной линии или для по меньшей мере одной группы спектральных линий,
при этом мертвая зона для упомянутой по меньшей мере одной спектральной линии или упомянутой по меньшей мере одной группы спектральных линий модифицируется в зависимости от соответствующего значения указания тональности.
В одном аспекте изобретение обеспечивает компьютерную программу для выполнения, когда исполняется на компьютере или процессоре, способа согласно изобретению.
Предпочтительные варианты осуществления изобретения далее описываются по отношению к сопровождающим чертежам, на которых:
фиг. 1 иллюстрирует один вариант осуществления кодера согласно изобретению и
Фиг. 2 иллюстрирует принцип работы кодера согласно изобретению.
Фиг. 1 изображает аудиокодер 1 для кодирования аудиосигнала, чтобы вырабатывать из него кодированный сигнал ES согласно изобретению. Аудиокодер 1 содержит:
устройство 2 формирования кадров, сконфигурированное с возможностью извлекать кадры F из аудиосигнала AS;
модуль 3 квантования, сконфигурированный с возможностью отображать спектральные линии SL1-32 (см. фиг. 2) сигнала спектра SPS, выведенного из кадра F аудиосигнала AS, в индексы квантования I0, I1; при этом модуль 3 квантования имеет мертвую зону DZ (см. фиг. 2), в которой спектральные линии SL1-32 отображаются в индекс квантования ноль I0; и
устройство 4 управления, сконфигурированное с возможностью модифицировать мертвую зону DZ;
при этом устройство 4 управления содержит устройство 5 вычисления тональности, сконфигурированное с возможностью вычислять по меньшей мере одно значение TI5-32 указания тональности для по меньшей мере одной спектральной линии SL1-32 или для по меньшей мере одной группы спектральных линий SL1-32,
при этом устройство 4 управления сконфигурировано с возможностью модифицировать мертвую зону DZ для упомянутой по меньшей мере одной спектральной линии SL1-32 или упомянутой по меньшей мере одной группы спектральных линий SL1-32 в зависимости от соответствующего значения TI5-32 указания тональности.
Устройство 2 формирования кадров может быть сконфигурировано с возможностью извлекать кадры F из аудиосигнала AS посредством применения оконной функции к аудиосигналу AS. В обработке сигналов, оконная функция (также известная как функция аподизации или коническая функция) является математической функцией, которая принимает нулевые значения вне некоторого выбранного интервала. Посредством применения оконной функции к сигналу AS, сигнал AS может разбиваться на короткие сегменты, которые обычно называются кадрами F.
Квантование, в цифровой обработке аудиосигналов, является процессом отображения большого набора входных значений в (перечислимый) меньший набор - как, например, округлением значений с некоторой единицей точности. Устройство или алгоритмическая функция, которая выполняет квантование, называется модулем квантования.
Согласно изобретению сигнал SPS спектра вычисляется для кадров F аудиосигнала AS. Сигнал SPS спектра может содержать спектр каждого из кадров F аудиосигнала AS, который является сигналом временной области, при этом каждый спектр является представлением одного из кадров F в частотной области. Частотный спектр может генерироваться посредством математического преобразования сигнала AS, и результирующие значения обычно представляются как амплитуда в зависимости от частоты.
Мертвая зона DZ является зоной, используемой в течение квантования, при этом спектральные линии SL1-32 (частотные интервалы) или группы спектральных линий SL1-32 (частотные диапазоны) отображаются в индекс квантования ноль. Мертвая зона DZ имеет нижний предел, который обычно находится на амплитуде нуля, и верхний предел, который может изменяться для разных спектральных линий SL1-32 или групп спектральных линий SL1-32.
Согласно изобретению мертвая зона DZ может модифицироваться посредством устройства 4 управления. Устройство 4 управления содержит устройство 5 вычисления тональности, которое сконфигурировано с возможностью вычислять по меньшей мере одно значение TI5-32 указания тональности для по меньшей мере одной спектральной линии SL1-32 или для по меньшей мере одной группы спектральных линий SL1-32.
Термин "тональность" указывает на тональный характер сигнала SPS спектра. В общем, можно сказать, что тональность является высокой в случае, когда спектр или его часть содержит преимущественно периодические компоненты, что означает, что спектр или его часть из кадра F содержит доминирующие пики. Противоположностью к тональному характеру является шумовой характер. В последнем случае спектр или его часть из кадра F является более плоским.
Дополнительно, устройство 4 управления сконфигурировано с возможностью модифицировать мертвую зону DZ для упомянутой по меньшей мере одной спектральной линии SL1-32 или упомянутой по меньшей мере одной группы спектральных линий SL1-32 в зависимости от соответствующего значения TI5-32 указания тональности.
Настоящее изобретение раскрывает схему квантования с адаптивной к сигналу мертвой зоной DZ, которая
- не требует какой-либо сторонней информации, что обеспечивает возможность ее использования в существующих кодеках мультимедиа,
- принимает решение до квантования в отношении того, какую мертвую зону DZ использовать в расчете на интервал или диапазон, при сохранении сложности,
- может определять в расчете на интервал или в расчете на диапазон мертвую зону DZ на основе частоты диапазона и/или тональности сигнала.
Изобретение может применяться в существующей инфраструктуре кодирования, так как изменяется только модуль 3 квантования сигналов в кодере 1; соответствующий декодер будет все еще способным читать (неизмененный) битовый поток, вырабатываемый из кодированного сигнала, и декодировать вывод. В отличие от [6] и ссылок в нем, мертвая зона DZ для каждой группы спектральных линий SL1-32 или для каждой спектральной линии SL1-32 выбирается до квантования, таким образом, является необходимой только одна операция квантования в расчете на группу или спектральную линию SL1-32. Наконец, решение модуля квантования не ограничено выбором между двумя возможными значениями мертвой зоны, но полным диапазоном значений. Схема адаптивного к тональности квантования, очерченная выше, может осуществляться в тракте возбуждения с кодированным преобразованием (TCX) кодера LD-USAC, вариант с низкой задержкой стандарта xHE-AAC [4].
Согласно одному предпочтительному варианту осуществления изобретения устройство 4 управления сконфигурировано с возможностью модифицировать мертвую зону DZ таким способом, что мертвая зона DZ на одной из спектральных линий SL1-32 больше, чем мертвая зона DZ на одной из спектральных линий SL1-32, имеющих более большую тональность, или таким способом, что мертвая зона DZ на одной из групп спектральных линий SL1-32 больше, чем мертвая зона DZ на одной из групп спектральных линий SL1-32, имеющих более большую тональность. Посредством этих особенностей нетональные спектральные области имеют тенденцию квантоваться в нуль, что означает, что количество данных может уменьшаться.
Согласно одному предпочтительному варианту осуществления изобретения устройство 4 управления содержит устройство 6 вычисления спектра мощности, сконфигурированное с возможностью вычислять спектр мощности PS (см. также фиг. 2) кадра F аудиосигнала AS, при этом спектр мощности PS содержит значения PS5-32 мощности для спектральных линий SL1-32 или групп спектральных линий SL1-32, при этом устройство 5 вычисления тональности сконфигурировано с возможностью вычислять упомянутое по меньшей мере одно значение TI5-32 указания тональности в зависимости от спектра мощности PS. Посредством вычисления значения указания TI5-32 тональности на основе спектра мощности PS вычислительная сложность остается достаточно низкой. Дополнительно, точность может увеличиваться.
Согласно одному предпочтительному варианту осуществления изобретения значение TI5-32 указания тональности для одной из спектральных линий SL1-32 основывается на сравнении значения PS5-32 мощности для соответствующей спектральной линии SL1-32 и суммы предварительно определенного количества его окружающих значений PS5-32 мощности спектра мощности PS, или значение указания тональности для одной из групп спектральных линий SL1-32 основывается на сравнении значения PS5-32 мощности для соответствующей группы спектральных линий и суммы предварительно определенного количества его окружающих значений PS5-32 мощности спектра мощности. Посредством сравнения значения PS5-32 мощности с его соседними значениями PS5-32 мощности пиковые области или плоские области спектра мощности SP могут легко идентифицироваться, так что значение TI5-32 указания тональности может вычисляться легким способом.
Согласно одному предпочтительному варианту осуществления изобретения значение TI5-32 указания тональности для одной из спектральных линий SL1-32 основывается на значении TI5-32 указания тональности спектральной линии SL1-32 предшествующего кадра F аудиосигнала AS, или значение TI5-32 указания тональности для одной из групп спектральных линий SL1-32 основывается на значении TI5-32 указания тональности группы спектральных линий SL1-32 для предшествующего кадра F аудиосигнала AS. Посредством этих особенностей мертвая зона DZ модифицируется с течением времени гладким (плавным) способом.
Согласно одному предпочтительному варианту осуществления изобретения значение TI5-32 указания тональности вычисляется посредством формулы
Figure 00000003
,
где i является индексом, указывающим конкретный кадр F аудиосигнала AS, k является индексом, указывающим конкретную спектральную линию SL1-32, Pk,i является значением PS5-32 мощности k-й спектральной линии SL1-32 i-го кадра, или значение TI5-32 указания тональности вычисляется посредством формулы
Figure 00000004
,
где i является индексом, указывающим конкретный кадр F аудиосигнала AS, m является индексом, указывающим конкретную группу спектральных линий SL1-32, Pm,i является значением PS5-32 мощности m-й группы спектральных линий SL1-32 i-го кадра. Как можно заметить из формулы, значение TI5-32 указания тональности вычисляется из значения PS5-32 мощности i-го кадра, который является текущим кадром F, и из i-1-го кадра F, который является предшествующим кадром F. Формула может быть изменена посредством опускания зависимости от i-1-го кадра F. Здесь сумма 7 левых и 7 правых соседних значений PS5-32 мощности k-го значения PS5-32 мощности некоторой спектральной линии SL1-32 или m-ое значение мощности группы спектральных линий SL1-32 вычисляется и делится на соответствующее значение PS5-32 мощности. С использованием этой формулы низкое значение TI5-32 указания тональности указывает высокую тональность.
Согласно одному предпочтительному варианту осуществления изобретения аудиокодер 1 содержит устройство 7 вычисления начальной частоты, сконфигурированное с возможностью вычислять начальную частоту SF для модификации мертвой зоны DZ, при этом мертвая зона DZ модифицируется только для спектральных линий SL5-32, представляющих частоту, более высокую, чем или равную начальной частоте SF. Это означает, что мертвая зона DZ является фиксированной для низких частот и переменной для более высоких частот. Эти свойства ведут к более хорошему качеству аудио, так как слуховая система человека является более чувствительной на низких частотах.
Согласно одному предпочтительному варианту осуществления изобретения устройство 7 вычисления начальной частоты сконфигурировано с возможностью вычислять начальную частоту SF на основе частоты дискретизации аудиосигнала AS и/или на основе максимального битрейта, предвидимого для битового потока, вырабатываемого из кодированного сигнала ES. Посредством этих особенностей качество аудио может оптимизироваться.
Согласно одному предпочтительному варианту осуществления изобретения аудиокодер 1 содержит устройство 8 вычисления модифицированного дискретного косинусного преобразования, сконфигурированное с возможностью вычислять модифицированное дискретное косинусное преобразование CT из кадра F аудиосигнала AS, и устройство 9 вычисления модифицированного дискретного синусного преобразования, сконфигурированное с возможностью вычислять модифицированное дискретное синусное преобразование ST из кадра F аудиосигнала AS, при этом устройство 6 вычисления спектра мощности сконфигурировано с возможностью вычислять спектр мощности PS на основе модифицированного дискретного косинусного преобразования CT и на основе модифицированного дискретного синусного преобразования ST. Модифицированное дискретное косинусное преобразование CT должно вычисляться в любом случае во многих случаях для цели кодирования аудиосигнала AS. Следовательно, только модифицированное дискретное синусное преобразование ST должно вычисляться дополнительно для цели адаптивного к тональности квантования. Поэтому сложность может уменьшаться. Однако могут использоваться другие преобразования, такие как дискретное преобразование Фурье или нечетное дискретное преобразование Фурье.
Согласно одному предпочтительному варианту осуществления изобретения устройство 6 вычисления спектра мощности сконфигурировано с возможностью вычислять значения мощности согласно формуле Pk,i=(MDCTk,i)2+(MDSTk,i)2, где i является индексом, указывающим конкретный кадр F аудиосигнала, k является индексом, указывающим конкретную спектральную линию SL1-32, MDCTk,i является значением модифицированного дискретного косинусного преобразования CT на k-й спектральной линии i-го кадра, MDSTk,i является значением модифицированного дискретного синусного преобразования ST на k-й спектральной линии i-го кадра, и Pk,i является значением PS5-32 мощности k-й спектральной линии i-го кадра. Формула выше обеспечивает возможность вычислять значения PS5-32 мощности легким способом.
Согласно одному предпочтительному варианту осуществления изобретения аудиокодер 1 содержит устройство 10 вычисления сигнала спектра, сконфигурированное с возможностью вырабатывать сигнал SPS спектра, при этом устройство 10 вычисления сигнала спектра содержит устройство 11 установки амплитуды, сконфигурированное с возможностью устанавливать амплитуды спектральных линий SL1-32 сигнала SPS спектра таким способом, что потеря энергии вследствие модификации мертвой зоны DZ компенсируется. Посредством этих особенностей квантование может осуществляться способом сохранения энергии.
Согласно одному предпочтительному варианту осуществления изобретения устройство 11 установки амплитуды сконфигурировано с возможностью устанавливать амплитуды сигнала SPS спектра в зависимости от модификации мертвой зоны DZ на соответствующей спектральной линии SL1-32. Например, спектральные линии SL1-32, для которых мертвая зона DZ увеличивается, могут незначительно усиливаться для этой цели.
Согласно одному предпочтительному варианту осуществления изобретения устройство 10 вычисления сигнала спектра содержит устройство 12 нормализации. Посредством этого свойства последующий этап квантования может осуществляться легким способом.
Согласно одному предпочтительному варианту осуществления изобретения модифицированное дискретное косинусное преобразование CT из кадра F аудиосигнала AS, вычисленное посредством устройства 8 вычисления модифицированного дискретного косинусного преобразования, подается в устройство 10 вычисления сигнала спектра. Посредством этой особенности модифицированное дискретное косинусное преобразование CT используется для цели адаптации квантования и для цели вычисления кодированного сигнала ES.
Фиг. 1 изображает поток данных и информацию управления в новом адаптивном кодере 1. Следует повторить, что нетональные спектральные области выше некоторой частоты SF имеют тенденцию квантоваться в нуль достаточно широко при низких битрейтах. Это, однако, предусматривается: вставка шума, применяемая на нулевых интервалах в декодере, будет с достаточной степенью восстанавливать шумо-подобные спектры, и квантование в нуль будет сохранять биты, которые могут использоваться, чтобы квантовать низкочастотные интервалы более точно.
Фиг. 2 иллюстрирует принцип работы кодера согласно изобретению. Здесь, мертвая зона DZ аудиокодера 1 согласно изобретению, спектр мощности PS с его значениями PS5-32 мощности кадра F аудиосигнала AS, значения TI5-32 указания тональности и спектральные линии SL1-32 спектра SP показаны в общей системе координат, где ось x обозначает частоту и ось y обозначает амплитуды. Необходимо отметить, что индексы отображения, более большие, чем 1, на фиг. 2 не показаны для упрощения.
Ниже начальной частоты SF, которая вычисляется посредством устройства 7 вычисления начальной частоты, мертвая зона имеет фиксированный размер. В этом примере спектральная линия SL1 оканчивается вне мертвой зоны, так что она будет отображаться в индекс один I1, тогда как спектральная линия SL7 оканчивается внутри мертвой зоны DZ, так что она может отображаться в индекс 0 I0. Однако начиная с начальной частоты SF и идя к более высоким частотам, размер мертвой зоны DZ может модифицироваться посредством устройства 4 управления. Для этой цели, значения PS5-32 мощности вычисляются, как описано выше. Дополнительно, значения TI5-32 указания тональности вычисляются из значений PS5-32 мощности.
В области от k=20 до k=23 спектр мощности PS имеет пик, который дает результатом низкие значения TI20-23 указания тональности, которые указывают высокую тональность. В других областях выше начальной частоты SF поскольку спектр мощности PS является более плоским, значения TI12-19 и TI24-32 указания тональности являются сравнительно более высокими, что показывает более низкую тональность в их соответствующих областях. Как результат мертвая зона DZ увеличивается в области от k=12 до k=19 и в области от k=24 до k=32. Это увеличение мертвой зоны DZ дает результатом то, что, например, спектральная линия SL12 и спектральная линия SL25, которые без адаптивного к тональности квантования отображались бы в индекс один, теперь отображаются в индекс ноль. Это квантование в нуль уменьшает количество данных, подлежащих передаче в декодер.
В одном предпочтительном варианте осуществления изобретения, работа кодера подытоживается следующим образом:
1. В течение этапа время-частотного преобразования, как MDCT (косинусная часть), так и MOST (синусная часть) вычисляются из подвергнутого оконной обработке входного сигнала для заданного кадра.
2. MDCT входного кадра используется для квантования, кодирования, и передачи. MOST дополнительно используется, чтобы вычислять в расчете на интервал спектр мощности Pk=MDCTk2+MDSTk2.
3. С использованием Pk в расчете на диапазон кодирования, или предпочтительно в расчете на интервал, вычисляется тональность или мера спектральной плоскостности. Несколько способов для достижения этого описаны в литературе [1, 2, 3]. Предпочтительно, используется версия низкой сложности только с несколькими операциями в расчете на интервал. В текущем случае, сравнение между Pk и суммой его окружающих Pk-7...k+7 осуществляется и улучшается с помощью гистерезиса аналогично модулю отслеживания рождения/смерти, описанному в [3]. Более того, интервалы ниже некоторой зависящей от битрейта частоты всегда рассматриваются как тональные.
4. В качестве необязательного этапа, тональность или мера плоскостности может использоваться, чтобы выполнять незначительное усиление спектра до квантования, чтобы компенсировать потерю энергии вследствие большой мертвой зоны модуля квантования. Более точно, интервалы, для которых применяется большая мертвая зона модуля квантования, немного усиливаются, тогда как интервалы, для которых используется нормальная или близкая к нормальной мертвая зона (то есть мертвая зона, которая имеет тенденцию сохранять энергию), не модифицируются.
5. Тональность или мера плоскостности из этапа 3 теперь управляет выбором мертвой зоны, используемой для квантования каждого частотного интервала. Интервалы, определенные как имеющие высокую тональность, что означает низкие значения Pk-7…k+7/Pk, квантуются с устанавливаемой по умолчанию (то есть грубо сохраняющей энергию) мертвой зоной, и интервалы с низкой тональностью квантуются с новой увеличенной мертвой зоной. Интервал низкой тональности, таким образом, имеет тенденцию квантоваться в нуль более часто, чем интервал высокой тональности. Необязательно, размер мертвой зоны интервала может определяться как непрерывная функция тональности интервала, с диапазоном между устанавливаемым по умолчанию (наименьшим) и максимальным размером мертвой зоны.
Хотя некоторые аспекты были описаны в контексте устройства, должно быть ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться посредством (или с использованием) устройства аппаратного обеспечения, такого, как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления, некоторые один или более из наиболее важных этапов способа могут выполняться посредством такого устройства.
В зависимости от некоторых требований к осуществлению, варианты осуществления изобретения могут осуществляться в аппаратном обеспечении или в программном обеспечении. Вариант осуществления может выполняться с использованием нетранзиторного запоминающего носителя, такого как цифровой запоминающий носитель, например, гибкий диск, DVD, Blu-Ray, CD, ROM, PROM, и EPROM, EEPROM или флэш-память, имеющего электронно-читаемые сигналы управления, сохраненные на нем, которые работают вместе (или являются способными работать вместе) с программируемой компьютерной системой, так что соответствующий способ выполняется. Поэтому, цифровой запоминающий носитель может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно-читаемые сигналы управления, которые являются способными работать вместе с программируемой компьютерной системой, так что выполняется один из способов, здесь описанных.
В общем, варианты осуществления настоящего изобретения могут осуществляться как компьютерный программный продукт с программным кодом, при этом программный код является работоспособным для выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код может, например, сохраняться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, здесь описанных, сохраненную на машиночитаемом носителе.
Другими словами, один вариант осуществления нового способа является, поэтому, компьютерной программой, имеющей программный код для выполнения одного из способов, здесь описанных, когда компьютерная программа исполняется на компьютере.
Один дополнительный вариант осуществления нового способа является, поэтому, носителем данных (или цифровым запоминающим носителем, или машиночитаемым носителем), содержащим, записанную на нем, компьютерную программу для выполнения одного из способов, здесь описанных. Носитель данных, цифровой запоминающий носитель или записывающий носитель являются обычно материальными и/или невременными.
Один дополнительный вариант осуществления способа изобретения является, поэтому, потоком данных или последовательностью сигналов, представляющим компьютерную программу для выполнения одного из способов, здесь описанных. Поток данных или последовательность сигналов может, например, быть сконфигурирован с возможностью передачи через соединение передачи данных, например, по сети Интернет.
Один дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное с возможностью, или выполненное с возможностью, выполнять один из способов, здесь описанных.
Один дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, здесь описанных.
Один дополнительный вариант осуществления согласно изобретению содержит устройство или систему, сконфигурированное с возможностью передавать (например, электронным образом или оптически) компьютерную программу для выполнения одного из способов, здесь описанных, в приемник. Приемник может, например, быть компьютером, мобильным устройством, запоминающим устройством или подобным. Устройство или система может, например, содержать файловый сервер для передачи компьютерной программы в приемник.
В некоторых вариантах осуществления может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица), чтобы выполнять некоторые или все из функциональных возможностей способов, здесь описанных. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может работать вместе с микропроцессором, чтобы выполнять один из способов, здесь описанных. В общем, способы предпочтительно выполняются посредством любого устройства аппаратного обеспечения.
Вышеописанные варианты осуществления являются всего лишь иллюстративными для принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и деталей, здесь описанных, должны быть ясными другим специалистам в данной области техники. Предполагается, поэтому, что ограничение обеспечивается только посредством объема приложенной патентной формулы изобретения и не посредством конкретных деталей, представленных путем описания и объяснения вариантов осуществления отсюда.
Ссылочные позиции:
1 аудиокодер
2 устройство формирования кадров
3 модуль квантования
4 устройство управления
5 устройство вычисления тональности
6 устройство вычисления спектра мощности
7 устройство вычисления начальной частоты
8 устройство вычисления модифицированного дискретного косинусного преобразования
9 устройство вычисления модифицированного дискретного синусного преобразования
10 устройство вычисления сигнала спектра
11 устройство установки амплитуды
12 устройство нормализации
AS аудиосигнал
ES кодированный сигнал
F Кадр
SL1-32 спектральная линия
SPS сигнал спектра
I индекс
DZ мертвая зона
TI5-32 значение указания тональности
PS спектр мощности
PS5-32 значение мощности
SF начальная частота
CT модифицированное дискретное косинусное преобразование
ST модифицированное дискретное синусное преобразование.
Источники
[1] L. Daudet, "Sparse and Structured Decomposition of Signals with the Molecular Matching Pursuit", IEEE Trans, on Audio, Speech, and Lang. Processing, Vol. 14, No. 5, Sep. 2006.
[2] F. Keiler, "Survey on Extraction of Sinusoids in Stationary Sounds", in Proc. DAFX, 2002.
[3] R.J. McAulay and T.F. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation", IEEE Trans. Acoustics, Speech, and Sig. Processing, Vol. 34, No. 4, Aug. 1986.
[4] M. Neuendorf и др., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Также должно появиться в Journal of the AES, 2013.
[5] M. Oger и др., "Model-Based Deadzone Optimization for Stack-Run Audio Coding with Uniform Scalar Quantization", in Proc. ICASSP 2008, Las Vegas, USA, Apr. 2008.
[6] M. Schug, EP2122615, "Apparatus and method for encoding an information signal", 2007.

Claims (31)

1. Аудио кодер для кодирования аудиосигнала (AS), чтобы вырабатывать из него кодированный сигнал (ES), при этом аудио кодер (1) содержит:
устройство (2) формирования кадров, сконфигурированное с возможностью извлекать кадры (F) из аудиосигнала (AS);
модуль (3) квантования, сконфигурированный с возможностью отображать спектральные линии (SL1-32) сигнала (SPS) спектра, выведенного из кадра (F) аудиосигнала (AS), в индексы (I0, I1) квантования, при этом модуль (3) квантования имеет мертвую зону (DZ), в которой спектральные линии (SL1-32) отображаются в индекс квантования ноль (I0); и
устройство (4) управления, сконфигурированное с возможностью модифицировать мертвую зону (DZ);
при этом устройство (4) управления содержит устройство (5) вычисления тональности, сконфигурированное с возможностью вычислять по меньшей мере одно значение (TI5-32) указания тональности для по меньшей мере одной спектральной линии (SL1-32) или для по меньшей мере одной группы спектральных линий (SL1-32),
при этом устройство (4) управления сконфигурировано с возможностью модифицировать мертвую зону (DZ) для упомянутой по меньшей мере одной спектральной линии (SL1-32) или упомянутой по меньшей мере одной группы спектральных линий (SL1-32) в зависимости от соответствующего значения (TI5-32) указания тональности.
2. Аудио кодер по п. 1, в котором устройство (4) управления сконфигурировано с возможностью модифицировать мертвую зону (DZ) таким способом, что мертвая зона (DZ) на одной из спектральных линий (SL1-32) больше, чем мертвая зона (DZ) на одной из спектральных линий (SL1-32), имеющих более большую тональность, или таким способом, что мертвая зона (DZ) на одной из групп спектральных линий (SL1-32) больше, чем мертвая зона (DZ) на одной из групп спектральных линий (SL1-32), имеющих более большую тональность.
3. Аудио кодер по п. 1, в котором устройство (4) управления содержит устройство (6) вычисления спектра мощности, сконфигурированное с возможностью вычислять спектр (PS) мощности кадра (F) аудиосигнала (AS), при этом спектр (PS) мощности содержит значения (PS5-32) мощности для спектральных линий (SL1-32) или групп спектральных линий (SL1-32), при этом устройство (4) вычисления тональности сконфигурировано с возможностью вычислять упомянутое по меньшей мере одно значение (Т5-32) указания тональности в зависимости от спектра (PS) мощности.
4. Аудио кодер по п. 3, в котором значение (TI5-32) указания тональности для одной из спектральных линий (SL1-32) основывается на сравнении значения (PS5-32) мощности для соответствующей спектральной линии (SL1-32) и суммы предварительно определенного количества его окружающих значений (Р5-32) мощности спектра (PS) мощности, или в котором значение (TI5-32) указания тональности для одной из групп спектральных линий (SL1-32) основывается на сравнении значения (PS5-32) мощности для соответствующей группы спектральных линий (SL1-32) и суммы предварительно определенного количества его окружающих значений (PS5-32) мощности спектра (PS) мощности.
5. Аудио кодер по п. 1, в котором значение (TI5-32) указания тональности для одной из спектральных линий (SL1-32) основывается на значении (TI5-32) указания тональности спектральной линии предшествующего кадра (F) аудиосигнала (AS), или в котором значение (TI5-32) указания тональности для одной из групп спектральных линий (SL1-32) основывается на значении (TI5-32) указания тональности группы спектральных линий (SL1-32) для предшествующего кадра (F) аудиосигнала (AS).
6. Аудио кодер по п. 3, в котором значение (TI5-32) указания тональности вычисляется посредством формулы
Figure 00000005
где i является индексом, указывающим конкретный кадр (F) аудиосигнала (AS), к является индексом, указывающим конкретную спектральную линию, Tk,i является значением (TI5-32) указания тональности k-ой спектральной линии i-ого кадра (F), Pk,i является значением (PS5-32) мощности k-ой спектральной линии i-ого кадра (F), или в котором значение (TI5-32) указания тональности вычисляется посредством формулы
Figure 00000006
где i является индексом, указывающим конкретный кадр (F) аудиосигнала (AS), m является индексом, указывающим конкретную группу спектральных линий (SL1-32), Pm,i является значением мощности m-ой группы спектральных линий (SL1-32) i-ого кадра.
7. Аудио кодер по п. 1, в котором аудио кодер (1) содержит устройство (7) вычисления начальной частоты, сконфигурированное с возможностью вычислять начальную частоту (SF) для модификации мертвой зоны (DZ), при этом мертвая зона (DZ) модифицируется только для спектральных линий (SL), представляющих частоту, более высокую, чем или равную начальной частоте (SF).
8. Аудио кодер по п. 7, в котором устройство (7) вычисления начальной частоты сконфигурировано с возможностью вычислять начальную частоту (SF) на основе частоты дискретизации аудиосигнала (AS) и/или на основе максимального битрейта, предвидимого для битового потока, вырабатываемого из кодированного сигнала (ES).
9. Аудио кодер по п. 3, в котором аудио кодер (1) содержит устройство (8) вычисления модифицированного дискретного косинусного преобразования, сконфигурированное с возможностью вычислять модифицированное дискретное косинусное преобразование (СТ) из кадра (F) аудиосигнала (AS), и устройство (9) вычисления модифицированного дискретного синусного преобразования, сконфигурированное с возможностью вычислять модифицированное дискретное синусное преобразование (ST) из кадра (F) аудиосигнала (AS), при этом устройство (6) вычисления спектра мощности сконфигурировано с возможностью вычислять спектр (PS) мощности на основе модифицированного дискретного косинусного преобразования (СТ) и на основе модифицированного дискретного синусного (ST) преобразования.
10. Аудио кодер по п. 3, в котором устройство (6) вычисления спектра мощности сконфигурировано с возможностью вычислять значения (PS5-32) мощности согласно формуле Pk,i=(MDCTk,i)2+(MDSTk,i)2, где i является индексом, указывающим конкретный кадр аудиосигнала, k является индексом, указывающим конкретную спектральную линию, MDCTk,i является значением модифицированного дискретного косинусного преобразования (СТ) на k-ой спектральной линии i-ого кадра, MDSTk,i является значением модифицированного дискретного синусного преобразования (ST) на k-ой спектральной линии i-ого кадра, и Pk,i является значением (PS5-32) мощности k-ой спектральной линии i-ого кадра.
11. Аудио кодер по п. 1, в котором аудио кодер (1) содержит устройство (10) вычисления сигнала спектра, сконфигурированное с возможностью вырабатывать сигнал (SPS) спектра, при этом устройство (10) вычисления сигнала спектра содержит устройство (11) установки амплитуды, сконфигурированное с возможностью устанавливать амплитуды спектральных линий (SL1-32) сигнала (SPS) спектра таким способом, что потеря энергии вследствие модификации мертвой зоны (DZ) компенсируется.
12. Аудио кодер по п. 11, в котором устройство (11) установки амплитуды сконфигурировано с возможностью устанавливать амплитуды сигнала (SPS) спектра в зависимости от модификации мертвой зоны (DZ) на соответствующей спектральной линии.
13. Аудио кодер по п. 11, в котором устройство (10) вычисления сигнала спектра содержит устройство (12) нормализации.
14. Аудио кодер по п. 11, в котором модифицированное дискретное косинусное преобразование (СТ) из кадра (F) аудиосигнала (AS), вычисленное посредством устройства (8) вычисления модифицированного дискретного косинусного преобразования, подается в устройство (10) вычисления сигнала спектра.
15. Система для кодирования и декодирования аудиосигнала, содержащая аудио кодер (1) и декодер, в которой аудио кодер (1) сконструирован по одному из пп. 1-14.
16. Способ для кодирования аудиосигнала (AS), чтобы вырабатывать из него кодированный сигнал (ES), при этом способ содержит этапы:
извлечения кадров (F) из аудиосигнала (AS);
отображения спектральных линий (SL1-32) сигнала (SPS) спектра, выведенного из кадра (F) аудиосигнала (AS), в индексы (I0, I1) квантования, при этом используется мертвая зона (DZ), в которой входные спектральные линии (SL1-32) отображаются в индекс квантования ноль (I0); и
модификации мертвой зоны (DZ);
при этом вычисляется по меньшей мере одно значение (TI5-32) указания тональности для по меньшей мере одной спектральной линии или для по меньшей мере одной группы спектральных линий (SL1-32),
при этом мертвая зона (DZ) для упомянутой по меньшей мере одной спектральной линии или упомянутой по меньшей мере одной группы спектральных линий (SL1-32) модифицируется в зависимости от соответствующего значения (TI5-32) указания тональности.
17. Машиночитаемый носитель, содержащий компьютерную программу для выполнения, когда исполняется на компьютере или процессоре, способа по п. 16.
RU2015136242A 2013-01-29 2014-01-28 Адаптивное к тональности квантование низкой сложности аудиосигналов RU2621003C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758191P 2013-01-29 2013-01-29
US61/758,191 2013-01-29
PCT/EP2014/051624 WO2014118171A1 (en) 2013-01-29 2014-01-28 Low-complexity tonality-adaptive audio signal quantization

Publications (2)

Publication Number Publication Date
RU2015136242A RU2015136242A (ru) 2017-03-07
RU2621003C2 true RU2621003C2 (ru) 2017-05-30

Family

ID=50023575

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015136242A RU2621003C2 (ru) 2013-01-29 2014-01-28 Адаптивное к тональности квантование низкой сложности аудиосигналов

Country Status (20)

Country Link
US (3) US10468043B2 (ru)
EP (1) EP2939235B1 (ru)
JP (3) JP6334564B2 (ru)
KR (1) KR101757341B1 (ru)
CN (2) CN105103226B (ru)
AR (1) AR095087A1 (ru)
AU (1) AU2014211539B2 (ru)
BR (1) BR112015018050B1 (ru)
CA (1) CA2898789C (ru)
ES (1) ES2613651T3 (ru)
HK (1) HK1216263A1 (ru)
MX (1) MX346732B (ru)
MY (1) MY172848A (ru)
PL (1) PL2939235T3 (ru)
PT (1) PT2939235T (ru)
RU (1) RU2621003C2 (ru)
SG (1) SG11201505922XA (ru)
TW (1) TWI524331B (ru)
WO (1) WO2014118171A1 (ru)
ZA (1) ZA201506319B (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2613651T3 (es) 2013-01-29 2017-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Cuantificación de señales de audio adaptativas por tonalidad de baja complejidad
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
US11348594B2 (en) 2020-06-11 2022-05-31 Qualcomm Incorporated Stream conformant bit error resilience

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263088A (en) * 1990-07-13 1993-11-16 Nec Corporation Adaptive bit assignment transform coding according to power distribution of transform coefficients
JPH08328597A (ja) * 1995-05-31 1996-12-13 Nec Corp 音声符号化装置
RU2119727C1 (ru) * 1993-03-01 1998-09-27 Сони Корпорейшн Способы и устройства обработки набора коэффициентов преобразования, способы и устройства обратного ортогонального преобразования набора коэффициентов преобразования, способы и устройства для уплотнения и расширения сигнала движущегося изображения, носитель записи уплотненного сигнала, представляющего движущееся изображение
US20080240235A1 (en) * 2007-03-26 2008-10-02 Microsoft Corporation Adaptive deadzone size adjustment in quantization
RU2361288C2 (ru) * 2005-04-15 2009-07-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для формирования сигнала управления многоканальным синтезатором и устройство и способ многоканального синтеза
US7738554B2 (en) * 2003-07-18 2010-06-15 Microsoft Corporation DC coefficient signaling at small quantization step sizes
WO2010134963A1 (en) * 2009-05-16 2010-11-25 Thomson Licensing Methods and apparatus for improved quantization rounding offset adjustment for video encoding and decoding
US7995649B2 (en) * 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995012920A1 (fr) * 1993-11-04 1995-05-11 Sony Corporation Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux
US6167093A (en) * 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
DE19505435C1 (de) 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
DE19614108C1 (de) * 1996-04-10 1997-10-23 Fraunhofer Ges Forschung Anordnung zur Vermessung der Koordinaten eines an einem Objekt angebrachten Retroreflektors
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US6301304B1 (en) * 1998-06-17 2001-10-09 Lsi Logic Corporation Architecture and method for inverse quantization of discrete cosine transform coefficients in MPEG decoders
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7280700B2 (en) 2002-07-05 2007-10-09 Microsoft Corporation Optimization techniques for data compression
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
US8059721B2 (en) * 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US20080049950A1 (en) * 2006-08-22 2008-02-28 Poletti Mark A Nonlinear Processor for Audio Signals
EP2122615B1 (en) * 2006-10-20 2011-05-11 Dolby Sweden AB Apparatus and method for encoding an information signal
JP5065687B2 (ja) * 2007-01-09 2012-11-07 株式会社東芝 オーディオデータ処理装置及び端末装置
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
WO2010001020A2 (fr) * 2008-06-06 2010-01-07 France Telecom Codage/decodage par plans de bits, perfectionne
AU2009267459B2 (en) * 2008-07-11 2014-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
MY185091A (en) 2011-04-21 2021-04-30 Samsung Electronics Co Ltd Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
TWI473078B (zh) * 2011-08-26 2015-02-11 Univ Nat Central 音訊處理方法以及裝置
US8885706B2 (en) * 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
ES2613651T3 (es) 2013-01-29 2017-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Cuantificación de señales de audio adaptativas por tonalidad de baja complejidad
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263088A (en) * 1990-07-13 1993-11-16 Nec Corporation Adaptive bit assignment transform coding according to power distribution of transform coefficients
RU2119727C1 (ru) * 1993-03-01 1998-09-27 Сони Корпорейшн Способы и устройства обработки набора коэффициентов преобразования, способы и устройства обратного ортогонального преобразования набора коэффициентов преобразования, способы и устройства для уплотнения и расширения сигнала движущегося изображения, носитель записи уплотненного сигнала, представляющего движущееся изображение
JPH08328597A (ja) * 1995-05-31 1996-12-13 Nec Corp 音声符号化装置
US7738554B2 (en) * 2003-07-18 2010-06-15 Microsoft Corporation DC coefficient signaling at small quantization step sizes
RU2361288C2 (ru) * 2005-04-15 2009-07-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для формирования сигнала управления многоканальным синтезатором и устройство и способ многоканального синтеза
US7995649B2 (en) * 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US20080240235A1 (en) * 2007-03-26 2008-10-02 Microsoft Corporation Adaptive deadzone size adjustment in quantization
WO2010134963A1 (en) * 2009-05-16 2010-11-25 Thomson Licensing Methods and apparatus for improved quantization rounding offset adjustment for video encoding and decoding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RU 2119727 C1, 27/09/1998. *

Also Published As

Publication number Publication date
JP2016510426A (ja) 2016-04-07
JP2019164367A (ja) 2019-09-26
KR101757341B1 (ko) 2017-07-14
CA2898789A1 (en) 2014-08-07
AU2014211539B2 (en) 2017-04-20
BR112015018050A2 (pt) 2017-07-18
JP6334564B2 (ja) 2018-05-30
MX346732B (es) 2017-03-30
CN110047499A (zh) 2019-07-23
US10468043B2 (en) 2019-11-05
SG11201505922XA (en) 2015-08-28
EP2939235A1 (en) 2015-11-04
KR20150118954A (ko) 2015-10-23
AU2014211539A1 (en) 2015-09-17
ES2613651T3 (es) 2017-05-25
EP2939235B1 (en) 2016-11-16
US11694701B2 (en) 2023-07-04
US20210366499A1 (en) 2021-11-25
CN110047499B (zh) 2023-08-29
JP2017151454A (ja) 2017-08-31
RU2015136242A (ru) 2017-03-07
TWI524331B (zh) 2016-03-01
CA2898789C (en) 2017-12-05
JP6526091B2 (ja) 2019-06-05
US20200090671A1 (en) 2020-03-19
PL2939235T3 (pl) 2017-04-28
CN105103226A (zh) 2015-11-25
US20160027448A1 (en) 2016-01-28
ZA201506319B (en) 2016-07-27
BR112015018050B1 (pt) 2021-02-23
HK1216263A1 (zh) 2016-10-28
JP6979048B2 (ja) 2021-12-08
PT2939235T (pt) 2017-02-07
MX2015009753A (es) 2015-11-06
US11094332B2 (en) 2021-08-17
AR095087A1 (es) 2015-09-30
WO2014118171A1 (en) 2014-08-07
MY172848A (en) 2019-12-12
TW201440039A (zh) 2014-10-16
CN105103226B (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
US10847166B2 (en) Coding of spectral coefficients of a spectrum of an audio signal
US11854561B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
US11694701B2 (en) Low-complexity tonality-adaptive audio signal quantization