RU2820849C2 - Model-based prediction in set of filters with critical sampling - Google Patents

Model-based prediction in set of filters with critical sampling Download PDF

Info

Publication number
RU2820849C2
RU2820849C2 RU2020141850A RU2020141850A RU2820849C2 RU 2820849 C2 RU2820849 C2 RU 2820849C2 RU 2020141850 A RU2020141850 A RU 2020141850A RU 2020141850 A RU2020141850 A RU 2020141850A RU 2820849 C2 RU2820849 C2 RU 2820849C2
Authority
RU
Russia
Prior art keywords
subband
prediction
model
signal
predictor
Prior art date
Application number
RU2020141850A
Other languages
Russian (ru)
Other versions
RU2020141850A (en
Inventor
Ларс ВИЛЛЕМОЕС
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Publication of RU2020141850A publication Critical patent/RU2020141850A/en
Application granted granted Critical
Publication of RU2820849C2 publication Critical patent/RU2820849C2/en

Links

Abstract

FIELD: physics.
SUBSTANCE: invention relates to audio source encoding systems. Signal model data containing the model parameter are determined. First prediction coefficient to be applied to the first previous discrete value of the subband signal is determined. Time interval of the first previous discrete value immediately precedes the time interval of the first discrete value. First prediction coefficient is determined in response to the model parameter using the first analytical function. Second prediction coefficient to be applied to the second previous discrete value of the subband signal is determined. Time interval of the second previous discrete value immediately precedes the time interval of the first previous discrete value. Second prediction coefficient is determined in response to the model parameter using the second analytical function. Discrete value is estimated by applying the first prediction coefficient to the first previous discrete value and by applying the second prediction coefficient to the second previous discrete value.
EFFECT: high coding efficiency.
3 cl, 9 dwg

Description

ОБЛАСТЬ ТЕХНИЧЕСКОГО ПРИМЕНЕНИЯTECHNICAL APPLICATION AREA

Настоящий документ относится к системам кодирования источника звука. В частности, настоящий документ относится к системам кодирования источника звука, использующим линейное предсказание в сочетании с набором фильтров.This document relates to audio source coding systems. In particular, this document relates to audio source coding systems using linear prediction in combination with a filter bank.

ПРЕДПОСЫЛКИBACKGROUND

Есть два важных инструментальных средства обработки сигналов, применяемых в системах кодирования источника звуковых сигналов, а именно: наборы фильтров с критической дискретизацией и линейное предсказание. Наборы фильтров с критической дискретизацией (например, наборы фильтров на основе модифицированного дискретного косинусного преобразования, MDCT) делают возможным прямой доступ к частотно-временным представлениям, где можно использовать перцепционное несоответствие и избыточность сигнала. Линейное предсказание делает возможным эффективное моделирование источника звуковых сигналов, в частности в речевых сигналах. Сочетание этих двух инструментальных средств, т.е. использование предсказания в подполосах набора фильтров, главным образом, было использовано для кодирования звука с высокой битовой скоростью передачи данных. Для кодирования с низкой битовой скоростью передачи данных проблемой, связанной с предсказанием в подполосах, является поддержание низких издержек (т.е. битовой скорости передачи данных) для описания предсказателей. Другой проблемой является управление ограничением результирующего шума сигнала ошибки предсказания, получаемого предсказателем подполос.There are two important signal processing tools used in audio source coding systems, namely critically sampled filter banks and linear prediction. Critically sampled filter banks (eg, modified discrete cosine transform (MDCT) filter banks) enable direct access to time-frequency representations where perceptual disparity and signal redundancy can be exploited. Linear prediction makes it possible to efficiently model the source of audio signals, particularly in speech signals. The combination of these two tools, i.e. the use of prediction in filter bank subbands has primarily been used for high bit rate audio encoding. For low bit rate coding, the challenge associated with subband prediction is maintaining low overhead (ie bit rate) for describing the predictors. Another problem is the control of limiting the resulting noise of the prediction error signal obtained by the subband predictor.

В US2006/0015329 A1 описан способ кодирования звука, в котором применяют устройство для синтезирования форм волн для генерирования набора предсказанных дискретных значения звукового сигнала.US2006/0015329 A1 describes an audio encoding method that uses a waveform synthesis apparatus to generate a set of predicted audio signal samples.

Возможным путем решения проблемы кодирования описания предсказателя подполос эффективным с точки зрения количества битов образом является оценка предсказателя исходя из ранее декодированных частей звукового сигнала и полностью избегать, таким образом, издержек описания предсказателя. Если предсказатель можно определить исходя из ранее декодированных частей звукового сигнала, то предсказатель можно определить в кодере и в декодере без необходимости в передаче описания предсказателя из кодера в декодер. Эта схема именуется адаптивной схемой предсказания в обратном порядке. Однако адаптивная схема предсказания в обратном порядке, как правило, значительно ухудшается при уменьшении битовой скорости передачи данных кодированного звукового сигнала. Одним из альтернативных или дополнительных путей к эффективному кодированию предсказателя подполос является выявление более естественного описания предсказателя, например описания, использующего структуру, внутренне присущую подлежащему кодированию звуковому сигналу. Например, кодирование речи с низкой битовой скоростью передачи данных, как правило, применяет адаптивную схему в прямом порядке, основанную на компактном представлении краткосрочного предсказателя (использующего краткосрочные корреляции) и долговременного предсказателя (использующего долгосрочные корреляции, обусловленные основным тоном, лежащим в основе речевого сигнала).A possible way to solve the problem of encoding the subband predictor description in a bit-efficient manner is to evaluate the predictor based on previously decoded portions of the audio signal, thereby avoiding the predictor description overhead entirely. If a predictor can be determined from previously decoded portions of the audio signal, then the predictor can be determined at the encoder and at the decoder without the need to pass a description of the predictor from the encoder to the decoder. This scheme is called adaptive backward prediction scheme. However, the adaptive backward prediction scheme typically degrades significantly as the bit rate of the encoded audio signal decreases. One alternative or complementary path to efficient subband predictor coding is to identify a more natural description of the predictor, such as one that uses structure intrinsic to the audio signal being coded. For example, low bit rate speech encoding typically employs a forward-order adaptive scheme based on a compact representation of a short-term predictor (using short-term correlations) and a long-term predictor (using long-term correlations due to the underlying pitch of the speech signal). .

Для решения проблемы управления ограничением шума сигнала ошибки предсказания было сделано наблюдение того, что несмотря на то, что ограничением шума предсказателя можно хорошо управлять внутри подполосы, окончательный выходной звуковой сигнал кодера, как правило, проявляет артефакты паразитных частот (за исключением звуковых сигналов, проявляющих по существу плоскую форму спектрального шума).To address the problem of controlling prediction error signal noise limiting, it was observed that although predictor noise limiting can be well controlled within a subband, the final output audio signal of the encoder typically exhibits spurious frequency artifacts (with the exception of audio signals exhibiting essentially a flat form of spectral noise).

Важным случаем предсказателя подполос является реализация долгосрочного предсказания в наборе фильтров с перекрывающимися окнами. Долгосрочный предсказатель, как правило, использует избыточности в периодических или близких к периодическим звуковых сигналах (таких как речевые сигналы, проявляющие внутренне присущий им основной тон), и его можно описать единственным параметром предсказания или небольшим количеством таких параметров. Долгосрочный предсказатель можно определить в непрерывном времени посредством задержки, отражающей периодичность звукового сигнала. Когда эта задержка велика в сравнении с длиной окна набора фильтров, долгосрочный предсказатель можно реализовать в области дискретного времени посредством сдвига, или дробной задержки, и можно преобразовать обратно в причинный предсказатель в области подполос. Такой долгосрочный предсказатель, как правило, не проявляет артефакты паразитных частот, но здесь существует значительный штраф в вычислительной сложности, вызванной необходимостью в дополнительных операциях набора фильтров для преобразования из временной области в область подполос. Кроме того, подход, заключающийся в определении задержки во временной области и преобразовании задержки в предсказатель подполос, не применим в случае, когда период подлежащего кодированию звукового сигнала сравним или не превышает размер окна набора фильтров.An important case of a subband predictor is the implementation of long-term prediction in a filter bank with overlapping windows. A long-term predictor typically exploits redundancies in periodic or near-periodic audio signals (such as speech signals exhibiting an intrinsic pitch), and can be described by a single prediction parameter or a small number of such parameters. The long-term predictor can be determined in continuous time by means of a delay reflecting the periodicity of the audio signal. When this delay is large compared to the length of the filter bank window, the long-term predictor can be implemented in the discrete-time domain by means of a shift, or fractional delay, and can be converted back to a causal predictor in the sub-band domain. Such a long-term predictor typically does not exhibit spurious frequency artifacts, but there is a significant penalty in computational complexity caused by the need for additional filter bank operations to convert from the time domain to the subband domain. Moreover, the approach of determining the delay in the time domain and converting the delay into a subband predictor is not applicable when the period of the audio signal to be encoded is comparable to or does not exceed the window size of the filter bank.

Настоящий документ направлен на вышеупомянутые недостатки предсказания подполос. В частности, настоящий документ описывает способы и системы, делающие возможным эффективное с точки зрения битовой скорости передачи данных описание предсказателей подполос и/или делающие возможным уменьшение артефактов паразитных частот, вызываемых предсказателями подполос. В частности, способ и системы, описываемые в настоящем документе, позволяют реализовать аудиокодеры с низкой битовой скоростью передачи данных, использующие предсказание подполос, вызывающее пониженный уровень артефактов паразитных частот.This paper addresses the above-mentioned shortcomings of subband prediction. In particular, this document describes methods and systems that enable bit rate efficient description of subband predictors and/or enable reduction of spurious frequency artifacts caused by subband predictors. In particular, the method and systems described herein enable the implementation of low bit rate audio encoders using subband prediction causing a reduced level of spurious frequency artifacts.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION

Настоящий документ описывает способы и системы, улучшающие качество кодирования источника звука с применением предсказания в области подполос набора фильтров с критической дискретизацией. Эти способы и системы могут использовать компактное описание предсказателей подполос, причем описание основано на моделях сигнала. В качестве альтернативы или в дополнение, способы и системы могут использовать эффективную реализацию предсказателей непосредственно в области подполос. В качестве альтернативы или в дополнение, способы и системы могут использовать члены межполосного предсказателя подполос, описываемые в настоящем документе, для того чтобы сделать возможным уменьшение артефактов паразитных частот.This document describes methods and systems that improve the quality of audio source encoding using prediction in the subband domain of a critically sampled filter bank. These methods and systems may use a compact description of subband predictors, the description being based on signal models. Alternatively or in addition, methods and systems may utilize efficient implementation of predictors directly in the subband domain. Alternatively or in addition, methods and systems may use the interband subband predictor terms described herein to enable the reduction of spurious frequency artifacts.

Как описывается в настоящем документе, компактное описание предсказателей подполос может содержать частоту синусоиды, период периодического сигнала, немного негармонический спектр, встречающийся при колебании жесткой струны, и/или множество тонов для полифонического сигнала. Показано, что в случае долгосрочного предсказателя периодическая модель сигнала обеспечивает высококачественные причинные предсказатели для интервала параметров запаздывания (или задержек), включающего значения, являющиеся более короткими и/или более длинными, чем размер окна набора фильтров. Это означает, что периодическую модель сигнала можно эффективно использовать для реализации долгосрочного предсказателя подполос. Предусмотрен плавный переход от предсказания на основе синусоидальной модели к приближению произвольной задержки.As described herein, a compact description of subband predictors may include the frequency of a sine wave, the period of a periodic signal, the slightly non-harmonic spectrum encountered in the vibration of a rigid string, and/or a set of tones for a polyphonic signal. In the case of a long-term predictor, the periodic signal model is shown to provide high-quality causal predictors for a range of lag parameters (or delays) including values that are shorter and/or longer than the filter bank window size. This means that the periodic signal model can be effectively used to implement a long-term subband predictor. A smooth transition is provided from the sinusoidal model-based prediction to the arbitrary delay approximation.

Непосредственная реализация предсказателей в области подполос делает возможным доступ в явном виде к воспринимаемым характеристикам вырабатываемых искажений квантования. Кроме того, реализация предсказателей в области подполос делает возможным доступ к таким численным свойствам, как коэффициент передачи предсказания и зависимость предсказателей от параметров. Например, анализ на основе модели сигнала может выявить, что коэффициент передачи предсказания является значимым лишь для подмножества рассматриваемых подполос, а изменение коэффициентов предсказателя в зависимости от параметра, выбранного для передачи, может быть полезно при проектировании форматов параметров, а также эффективных алгоритмов кодирования. Более того, вычислительную сложность можно значительно снизить по сравнению с реализациями предсказателей, полагающимися на использование алгоритмов, действующих как во временной области, так и в области подполос. В частности, способы и системы, описываемые в настоящем документе, можно использовать для реализации предсказания подполос непосредственно в области подполос без необходимости в определении и применении предсказателя (например, долгосрочной задержки) во временной области.The direct implementation of predictors in the subband domain makes it possible to explicitly access the perceived characteristics of the generated quantization distortions. In addition, the implementation of predictors in the subband domain makes it possible to access numerical properties such as prediction gain and parameter dependence of predictors. For example, signal model-based analysis may reveal that the prediction gain is significant only for a subset of the subbands considered, and varying predictor gains depending on the parameter selected for transmission may be useful in the design of parameter formats as well as efficient encoding algorithms. Moreover, the computational complexity can be significantly reduced compared to predictor implementations that rely on the use of both time-domain and sub-band domain algorithms. In particular, the methods and systems described herein can be used to implement subband prediction directly in the subband domain without the need to define and apply a predictor (eg, long term delay) in the time domain.

Использование в предсказателях подполос межполосных членов позволяет значительно улучшить свойства ограничения шума в частотной области по сравнению с внутриполосными предсказателями (которые полагаются исключительно на внутриполосное предсказание). Действуя таким образом, можно уменьшить артефакты паразитных частот, посредством этого делая возможным использование предсказания подполос для систем кодирования звука с относительно низкими битовыми скоростями передачи данных.The use of interband terms in subband predictors allows for significantly improved noise reduction properties in the frequency domain compared to inband predictors (which rely solely on inband prediction). By doing so, spurious frequency artifacts can be reduced, thereby making it possible to use subband prediction for audio coding systems with relatively low bit rates.

В соответствии с одной из особенностей, описывается способ оценки первого дискретного значения первой подполосы звукового сигнала. Эта первая подполоса звукового сигнала могла быть определена с применением набора анализирующих фильтров, содержащего ряд анализирующих фильтров, создающих из звукового сигнала ряд сигналов подполос, соответственно, в ряду подполос. Звуковой сигнал во временной области может быть передан в набор анализирующих фильтров, приводя к ряду сигналов подполос в ряде подполос. Каждая подполоса из ряда подполос, как правило, охватывает отличающийся диапазон частот звукового сигнала, посредством этого обеспечивая доступ к разным частотным составляющим звукового сигнала. Ряд подполос может иметь равный или равномерный интервал между подполосами. Первая подполоса соответствует одной подполосе из ряда подполос, созданных набором анализирующих фильтров.In accordance with one aspect, a method for estimating a first sampled value of a first subband of an audio signal is described. This first subband of the audio signal could be determined using an analysis filter bank comprising a series of analysis filters creating from the audio signal a series of subband signals, respectively, within a series of subbands. The time domain audio signal can be passed to a bank of analysis filters, resulting in a series of subband signals within a series of subbands. Each sub-band of a number of sub-bands typically covers a different frequency range of the audio signal, thereby providing access to different frequency components of the audio signal. A number of sub-bands may have equal or uniform spacing between sub-bands. The first subband corresponds to one subband from a number of subbands created by a bank of analysis filters.

Набор анализирующих фильтров может обладать разнообразными свойствами. Набор синтезирующих фильтров, содержащий ряд синтезирующих фильтров, может иметь похожие или такие же свойства. Свойства, описываемые для набора анализирующих фильтров и для анализирующих фильтров, также применимы к свойствам набора синтезирующих фильтров и к синтезирующим фильтрам. Как правило, сочетание набора анализирующих фильтров и набора синтезирующих фильтров делает возможной совершенную реконструкцию звукового сигнала. Анализирующие фильтры из набора анализирующих фильтров могут быть инвариантны относительно сдвига друг относительно друга. В качестве альтернативы или в дополнение, анализирующие фильтры из набора анализирующих фильтров могут содержать общую оконную функцию. В частности, анализирующие фильтры из набора анализирующих фильтров могут содержать по-разному модулированные версии общей оконной функции. В одном из вариантов осуществления общая оконная функция является модулированной с применением косинусной функции, посредством этого приводя к набору косинусно-модулированных анализирующих фильтров. В частности, набор анализирующих фильтров может содержать одно или несколько (или может соответствовать одному или нескольким) из следующих преобразований: MDCT, QMF и/или ELT. Общая оконная функция может иметь конечную длительность К. Длительность общей оконной функции может быть такой, чтобы последовательные дискретные значения сигнала подполосы определялись с применением перекрывающихся сегментов звукового сигнала во временной области. Как таковой, набор анализирующих фильтров может содержать преобразование с перекрытием. Анализирующие фильтры из набора анализирующих фильтров могут образовывать ортогональный и/или ортонормированный базис. В качестве одного из дополнительных свойств набор анализирующих фильтров может соответствовать набору фильтров с критической дискретизацией. В частности, количество дискретных значений из ряда сигналов подполос может соответствовать количеству дискретных значений звукового сигнала во временной области.A set of analysis filters can have various properties. A synthesis filter bank containing a number of synthesis filters may have similar or identical properties. The properties described for the analysis filter bank and for the analysis filters also apply to the properties of the synthesis filter bank and for the synthesis filters. Typically, the combination of an analysis filter bank and a synthesis filter bank makes perfect reconstruction of the audio signal possible. Analysis filters from a set of analysis filters may be offset invariant with respect to each other. Alternatively or in addition, the parsing filters of the parsing filter set may comprise a common window function. In particular, analysis filters from a set of analysis filters may contain differently modulated versions of a common window function. In one embodiment, the overall window function is modulated using a cosine function, thereby resulting in a bank of cosine modulated analysis filters. In particular, the analysis filter set may contain one or more (or may correspond to one or more) of the following transformations: MDCT, QMF and/or ELT. The common window function may have a finite duration K. The duration of the common window function may be such that successive samples of the subband signal are determined using overlapping segments of the time domain audio signal. As such, the analysis filter bank may contain an overlap transform. Analysis filters from a set of analysis filters can form an orthogonal and/or orthonormal basis. As an additional property, the analysis filter bank may correspond to a critically sampled filter bank. In particular, the number of samples from a number of subband signals may correspond to the number of samples of the audio signal in the time domain.

Способ может включать определение параметра модели для модели сигнала. Следует отметить, что модель сигнала может быть описана с применением ряда параметров модели. Как таковой, указанный способ может включать определение этого ряда параметров модели для модели сигнала. Параметр (параметры) модели можно извлекать из принятого битового потока, содержащего или служащего признаком параметра модели и сигнала ошибки предсказания. В качестве альтернативы, параметр (параметры) модели можно определять, подбирая модель сигнала для звукового сигнала (например, на покадровой основе), например, с применением подхода среднеквадратичной ошибки.The method may include determining a model parameter for the signal model. It should be noted that the signal model can be described using a number of model parameters. As such, the method may include determining this set of model parameters for the signal model. The model parameter(s) may be extracted from the received bitstream containing or indicative of the model parameter and prediction error signal. Alternatively, the model parameter(s) can be determined by fitting a signal model to the audio signal (eg, on a frame-by-frame basis), for example, using a mean squared error approach.

Модель сигнала может содержать одну или несколько синусоидальных составляющих модели. В этом случае, параметр модели может служить признаком одной или нескольких частот одной или нескольких синусоидальных составляющих модели. В качестве примера, параметр модели может служить признаком основной частоты Ω модели мультисинусоидального сигнала, при этом мультисинусоидальный сигнал содержит синусоидальные составляющие модели на частотах, соответствующих кратным частотам qΩ основной частоты Ω. Как таковая, модель мультисинусоидального сигнала может содержать периодическую составляющую сигнала, при этом периодическая составляющая сигнала содержит ряд синусоидальных составляющих и при этом ряд синусоидальных составляющих имеет частоту, являющуюся кратной основной частоте Ω. Как будет показано в настоящем документе, такую периодическую составляющую сигнала можно использовать для моделирования задержки во временной области (например, используемой в долгосрочных предсказателях). Модель сигнала может содержать один или несколько параметров модели, служащих признаками сдвига и/или отклонения модели сигнала от периодической модели сигнала. Сдвиг и/или отклонение могут служить признаком отклонения частот ряда синусоидальных составляющих периодической модели сигнала от соответствующих кратных частот qΩ основной частоты Ω.The signal model may contain one or more sinusoidal model components. In this case, the model parameter may serve as an indication of one or more frequencies of one or more sinusoidal components of the model. As an example, a model parameter may be indicative of the fundamental frequency Ω of a multisine signal model, wherein the multisine signal contains sinusoidal components of the model at frequencies corresponding to multiples of the frequencies qΩ of the fundamental frequency Ω. As such, the multisine waveform model may comprise a periodic signal component, wherein the periodic signal component contains a number of sinusoidal components and wherein the number of sinusoidal components have a frequency that is a multiple of a fundamental frequency Ω. As will be shown herein, such a periodic signal component can be used to model delay in the time domain (eg, used in long-term predictors). The signal model may contain one or more model parameters that serve as signs of a shift and/or deviation of the signal model from the periodic signal model. The shift and/or deviation may indicate the deviation of the frequencies of a number of sinusoidal components of the periodic signal pattern from the corresponding multiples of the frequencies qΩ of the fundamental frequency Ω.

Модель сигнала может содержать ряд периодических составляющих сигнала. Каждая из периодических составляющих сигнала может быть описана с применением одного или нескольких параметров модели. Параметры модели могут служить признаками ряда основных частот из ряда периодических составляющих сигнала. В качестве альтернативы или в дополнение, модель сигнала можно описать предварительно определяемым и/или корректируемым параметром ослабления (который может представлять собой один из параметров модели). Параметр ослабления может быть рассчитан на выравнивание или сглаживание линейчатого спектра периодической составляющей сигнала. Конкретные примеры моделей сигнала и связанных с ними параметров описываются в разделе вариантов осуществления настоящего документа.The signal model may contain a number of periodic signal components. Each of the periodic components of the signal can be described using one or more model parameters. Model parameters can serve as indicators of a number of fundamental frequencies from a number of periodic signal components. Alternatively or in addition, the signal model can be described by a predetermined and/or adjusted attenuation parameter (which may be one of the model parameters). The attenuation parameter can be designed to level or smooth the line spectrum of the periodic component of the signal. Specific examples of signal models and associated parameters are described in the embodiments section of this document.

Параметр (параметры) модели можно определить так, чтобы уменьшать (например, минимизировать) среднее значение сигнала квадратичной ошибки предсказания. Сигнал ошибки предсказания можно определить на основе разности между первым дискретным значением и оценкой первого дискретного значения. В частности, среднее значение сигнала квадратичной ошибки предсказания можно определить на основе ряда последовательных первых дискретных значений сигнала первой подполосы и на основе соответствующего ряда оценочных первых дискретных значений. В частности, в настоящем документе предлагается моделировать звуковой сигнал или по меньшей мере сигнал первой подполосы звукового сигнала с применением модели сигнала, описываемой одним или несколькими параметрами модели. Параметры модели используют для определения одного или нескольких коэффициентов предсказания линейного предсказателя, определяющего первый оценочный сигнал подполосы. Разность между сигналом первой подполосы и оценочным сигналом первой подполосы приводит к сигналу подполосы ошибки предсказания. Один или несколько параметров модели можно определить так, чтобы уменьшать (например, минимизировать) среднее значение сигнала подполос квадратичной ошибки предсказания.The model parameter(s) may be defined to reduce (eg, minimize) the average value of the squared prediction error signal. The prediction error signal may be determined based on the difference between the first sample value and the estimate of the first sample value. In particular, the average value of the squared prediction error signal may be determined based on a series of successive first samples of the first subband signal and based on a corresponding series of estimated first samples. In particular, this document proposes to model an audio signal, or at least a first subband signal of an audio signal, using a signal model described by one or more model parameters. The model parameters are used to determine one or more prediction coefficients of a linear predictor that determines the first estimated subband signal. The difference between the first subband signal and the estimated first subband signal results in a prediction error subband signal. One or more model parameters may be defined to reduce (eg, minimize) the average signal value of the squared prediction error subbands.

Способ может также включать определение коэффициента предсказания, подлежащего применению к предыдущему дискретному значению декодированного сигнала первой подполосы, полученного из сигнала первой подполосы. В частности, предыдущее дискретное значение можно определить путем сложения (квантованной версии) сигнала ошибки предсказания с соответствующим дискретным значением сигнала первой подполосы. Декодированный сигнал первой подполосы может быть идентичен сигналу первой подполосы (например, в случае кодера без потерь). Временной интервал предыдущего дискретного значения, как правило, находится перед временным интервалом первого дискретного значения. В частности, этот способ может включать определение одного или нескольких коэффициентов предсказания рекурсивного фильтра с предсказанием (с конечной импульсной характеристикой), выполненного с возможностью определения первого дискретного значения сигнала первой подполосы исходя из одного или нескольких предыдущих дискретных значений.The method may also include determining a prediction coefficient to be applied to a previous sample value of the decoded first subband signal obtained from the first subband signal. In particular, the previous sampled value can be determined by adding the (quantized version) of the prediction error signal with the corresponding sampled value of the first subband signal. The decoded signal of the first subband may be identical to the signal of the first subband (eg, in the case of a lossless encoder). The time interval of the previous discrete value is usually before the time interval of the first discrete value. In particular, the method may include determining one or more prediction coefficients of a recursive predictive filter (finite impulse response) configured to determine a first sample value of the first subband signal from one or more previous samples.

Один или несколько коэффициентов предсказания можно определить на основе модели сигнала, на основе параметра модели и на основе набора анализирующих фильтров. В частности, коэффициент предсказания можно определить на основе аналитической оценки модели сигнала и набора анализирующих фильтров. Аналитическая оценка модели сигнала и набора анализирующих фильтров может приводить к определению справочной таблицы и/или аналитической функции. Как таковой, коэффициент предсказания можно определить, используя справочную таблицу и/или аналитическую функцию, при этом справочную таблицу и/или аналитическую функцию можно предварительно определить на основе модели сигнала и на основе набора анализирующих фильтров. Справочная таблица и/или аналитическая функция могут предусматривать коэффициент (коэффициенты) предсказания в зависимости от параметра, полученного исходя из параметра (параметров) модели. Параметр, полученный исходя из параметра модели, может, например, представлять собой параметр модели, или его можно получить исходя из параметра модели с применением предварительно определенной функции. Как таковой, один или несколько коэффициентов предсказания можно определить вычислительно эффективно, используя предварительно определенную справочную таблицу и/или аналитическую функцию, предусматривающую один или несколько коэффициентов предсказания в зависимости (только) от одного или нескольких параметров, полученных (только) исходя из одного или нескольких параметров модели. Таким образом, определение коэффициента предсказания можно свести к простому поиску элемента в справочной таблице.One or more prediction coefficients may be determined based on a signal model, based on a model parameter, and based on a set of analysis filters. In particular, the prediction coefficient can be determined based on an analytical evaluation of the signal model and a set of analysis filters. Analytical evaluation of the signal model and analysis filter set may lead to the definition of a lookup table and/or analysis function. As such, the prediction coefficient can be determined using a lookup table and/or analysis function, wherein the lookup table and/or analysis function can be predetermined based on the signal model and based on a set of analysis filters. The lookup table and/or analysis function may provide a prediction coefficient(s) depending on a parameter derived from the model parameter(s). The parameter derived from the model parameter may, for example, be a model parameter, or it may be derived from the model parameter using a predefined function. As such, one or more prediction coefficients can be determined computationally efficiently using a predefined lookup table and/or analytic function providing one or more prediction coefficients as a function of (only) one or more parameters derived (only) from one or more model parameters. Thus, determining the prediction coefficient can be reduced to a simple search for the element in the lookup table.

Как было указано выше, набор анализирующих фильтров может содержать или может проявлять модулированную структуру. Как результат такой модулированной структуры наблюдается, что абсолютное значение одного или нескольких коэффициентов предсказания не зависит от порядкового номера первой подполосы. Это означает, что справочная таблица и/или аналитическая функция может быть инвариантна относительно сдвига (без учета знака) в отношении порядкового номера ряда подполос. В таких случаях параметр, полученный исходя из параметра модели, т.е. параметра, введенного в справочную таблицу и/или аналитическую функцию с целью определения коэффициента предсказания, можно получить, выражая параметр модели относительным образом — в отношении подполосы из ряда подполос.As noted above, the analysis filter bank may contain or may exhibit a modulated structure. As a result of such a modulated structure, it is observed that the absolute value of one or more prediction coefficients is independent of the serial number of the first subband. This means that the lookup table and/or analysis function can be shift invariant (ignoring sign) with respect to the serial number of a number of subbands. In such cases, the parameter obtained from the model parameter, i.e. a parameter entered into a lookup table and/or analytical function for the purpose of determining a prediction coefficient can be obtained by expressing the model parameter in a relative manner - with respect to a subband of a number of subbands.

Как было описано выше, параметр модели может служить признаком основной частоты модели мультисинусоидального сигнала (например, периодической модели сигнала). В таких случаях определение коэффициента предсказания может включать определение кратной частоты основной частоты Ω, лежащей в пределах первой подполосы. Если кратная частота основной частоты Ω лежит в пределах первой подполосы, то можно определить относительное смещение кратной частоты основной частоты Ω от центральной частоты первой подполосы. В частности, можно определить относительное смещение этой кратной частоты основной частоты Ω, ближайшей к центральной частоте первой подполосы. Справочную таблицу и/или аналитическую функцию можно определить так, чтобы справочная таблица и/или аналитическая функция предусматривала коэффициент предсказания в зависимости от возможных относительных смещений от центральной частоты подполосы (например, в зависимости от нормированной частоты и/или в зависимости от параметра сдвига, описываемого в настоящем документе). Как таковой, коэффициент предсказания можно определить на основе справочной таблицы и/или на основе аналитической функции, используя определенное относительное смещение. Предварительно определенная справочная таблица может включать ограниченное количество элементов для ограниченного количества возможных относительных смещений. В этом случае перед поиском коэффициента предсказания по справочной таблице определяемое относительное смещение можно округлить до ближайшего возможного относительного смещения из ограниченного числа возможных относительных смещений.As described above, a model parameter can serve as an indication of the fundamental frequency of a multisine wave model (eg, a periodic signal model). In such cases, determining the prediction coefficient may include determining a frequency multiple of the fundamental frequency Ω lying within the first subband. If a multiple of the fundamental frequency Ω lies within the first subband, then the relative displacement of the multiple of the fundamental frequency Ω from the center frequency of the first subband can be determined. In particular, the relative offset of this multiple of the fundamental frequency Ω closest to the center frequency of the first subband can be determined. The lookup table and/or analysis function can be defined such that the lookup table and/or analysis function provides a prediction coefficient depending on possible relative offsets from the center frequency of the subband (for example, depending on the normalized frequency and/or depending on the parameter shift described in this document). As such, the prediction coefficient can be determined based on the lookup table and/or based on the analytical function using the determined relative offset. A predefined lookup table may include a limited number of elements for a limited number of possible relative offsets. In this case, before looking up the prediction coefficient from the lookup table, the determined relative offset can be rounded to the nearest possible relative offset from a limited number of possible relative offsets.

С другой стороны, если в пределах первой подполосы, точнее, в пределах расширенного диапазона частот, окружающего первую подполосу, не лежит кратная частота основной частоты Ω, коэффициент предсказания может быть приравнен нулю. В этих случаях оценка первого дискретного значения также будет нулевой.On the other hand, if within the first subband, or more precisely, within the extended frequency range surrounding the first subband, a multiple of the fundamental frequency Ω does not lie, the prediction coefficient can be set to zero. In these cases, the estimate of the first discrete value will also be zero.

Определение коэффициента предсказания может включать выбор одной из нескольких справочных таблиц на основе параметра модели. Например, параметр модели может служить признаком основной частоты Ω периодической модели сигнала. Основная частота Ω периодической модели сигнала соответствует периодичности T периодической модели сигнала. В настоящем документе показано, что в случае относительно небольших периодичностей T периодическая модель сигнала стремится к односинусоидальной модели. Кроме того, в настоящем документе показано, что в случае относительно больших периодичностей Т справочные таблицы медленно изменяются с абсолютным значением Т и главным образом зависят от относительного смещения (т.е. от параметра сдвига). Как таковой, ряд справочных таблиц можно предварительно определить для ряда различных значений периодичности Т. Параметр модели (т.е. периодичность Т) можно использовать для выбора подходящей справочной таблицы из ряда справочных таблиц, а коэффициент предсказания можно определить на основе выбранной справочной таблицы из ряда справочных таблиц (используя относительное смещение, например используя параметр сдвига). Как таковой, параметр модели (представляющий, например, периодичность Т), который может иметь относительно высокую точность, можно с пониженной точностью декодировать в пару параметров (например, в периодичность Т и относительное смещение). Первый параметр (например, периодичность Т) из этой пары параметров можно использовать для выбора конкретной справочной таблицы, а второй параметр (например, относительное смещение) можно использовать для идентификации элемента в выбранной справочной таблице.Determining the prediction coefficient may involve selecting one of several lookup tables based on a model parameter. For example, a model parameter can serve as an indication of the fundamental frequency Ω of a periodic signal model. The fundamental frequency Ω of the periodic signal model corresponds to the periodicity T of the periodic signal model. This document shows that in the case of relatively small periodicities T, the periodic model of the signal tends to a single sine model. In addition, this document shows that in the case of relatively large periodicities T, the lookup tables change slowly with the absolute value of T and mainly depend on the relative offset (i.e. the parameter shift). As such, a set of lookup tables can be predefined for a number of different periodicity values T. A model parameter (i.e., periodicity T) can be used to select an appropriate lookup table from a set of lookup tables, and a prediction coefficient can be determined based on the selected lookup table from a set lookup tables (using a relative offset, such as using the parameter shift). As such, a model parameter (representing, for example, periodicity T), which may have relatively high accuracy, can be decoded with reduced accuracy into a pair of parameters (for example, periodicity T and relative offset). The first parameter (eg, periodicity T) of this parameter pair can be used to select a particular lookup table, and the second parameter (eg, relative offset) can be used to identify an element in the selected lookup table.

Способ может также включать определение оценки первого дискретного значения путем применения коэффициента предсказания к предыдущему дискретному значению. Применение коэффициента предсказания к предыдущему дискретному значению может включать умножение коэффициента предсказания на значение предыдущего дискретного значения, посредством чего получается оценка первого дискретного значения. Как правило, применяя коэффициент предсказания к последовательности предыдущих дискретных значений, определяют ряд первых дискретных значений из сигнала первой подполосы. Определение оценки первого дискретного значения также может включать применение масштабного коэффициента передачи к коэффициенту предсказания и/или к первому дискретному значению. Масштабный коэффициент передачи (или его указатель) можно использовать, например, для долгосрочного предсказания (LTP). Иными словами, масштабный коэффициент передачи может вытекать из другого предсказателя (например, из долгосрочного предсказателя). Масштабный коэффициент передачи может отличаться для разных подполос. Кроме того, масштабный коэффициент передачи может передаваться как часть кодированного звукового сигнала.The method may also include determining an estimate of the first sample value by applying a prediction coefficient to the previous sample value. Applying the prediction coefficient to the previous sampled value may include multiplying the prediction coefficient by the value of the previous sampled value, thereby obtaining an estimate of the first sampled value. Typically, by applying the prediction coefficient to the sequence of previous samples, a series of first samples are determined from the first subband signal. Determining an estimate of the first sampled value may also include applying a scaling factor to the prediction coefficient and/or to the first sampled value. The scale factor (or its indicator) can be used, for example, for long-term prediction (LTP). In other words, the scaling factor may be derived from another predictor (eg, a long-term predictor). The scaling factor may differ for different subbands. Additionally, the scale factor may be transmitted as part of the encoded audio signal.

Как таковое, эффективное описание предсказателя подполос (содержащего один или несколько коэффициентов предсказания) создают, используя модель сигнала, описываемую параметром модели. Параметр модели используют для определения одного или нескольких коэффициентов предсказания для предсказателя подполос. Это означает, что аудиокодер не нуждается в передаче указателя одного или нескольких коэффициентов предсказания, но лишь указателя параметра модели. Как правило, параметр модели можно кодировать более эффективно (т.е. меньшим количеством битов), чем один или несколько коэффициентов предсказания. Поэтому использование предсказания на основе модели делает возможным кодирование подполос с низкой битовой скоростью передачи данных.As such, an effective description of a subband predictor (comprising one or more prediction coefficients) is created using a signal model described by a model parameter. The model parameter is used to determine one or more prediction coefficients for the subband predictor. This means that the audio encoder does not need to pass a pointer to one or more prediction coefficients, but only a pointer to the model parameter. Typically, a model parameter can be encoded more efficiently (i.e., in fewer bits) than one or more prediction coefficients. Therefore, the use of model-based prediction makes it possible to encode low bit rate subbands.

Способ может также включать определение маски предсказания, служащей признаком ряда предыдущих дискретных значений в ряду подполос несущего множества маски предсказания. Ряд подполос несущего множества маски предсказания может содержать по меньшей мере одну подполосу из ряда подполос, отличающуюся от первой подполосы. Как таковой, предсказатель подполос может быть выполнен с возможностью оценки дискретного значения из сигнала первой подполосы исходя из дискретных значений одного или нескольких других сигналов подполос из ряда сигналов подполос, отличающихся от сигнала первой подполосы. Это именуется в настоящем документе межполосным предсказанием подполос. Маска предсказания может определять упорядочение ряда предыдущих дискретных значений (например, временное запаздывание относительно временного интервала первой подполосы и/или запаздывание индекса подполосы относительно порядкового номера первой подполосы), используемых для оценки первого дискретного значения из сигнала первой подполосы.The method may also include determining a prediction mask indicative of a series of previous samples in a series of subbands of the prediction mask carrier set. The number of subbands of the prediction mask carrier set may comprise at least one subband of the number of subbands different from the first subband. As such, the subband predictor may be configured to estimate a sample value from a first subband signal based on samples of one or more other subband signals from a number of subband signals different from the first subband signal. This is referred to herein as inter-band sub-band prediction. The prediction mask may determine the ordering of a number of previous samples (eg, a time lag relative to the time interval of the first subband and/or a lag of the subband index relative to the sequence number of the first subband) used to estimate the first sample from the first subband signal.

Способ может продолжаться определением ряда коэффициентов предсказания, подлежащих применению к ряду предыдущих дискретных значений. Ряд коэффициентов предсказания можно определить на основе модели сигнала, на основе параметра модели и на основе набора анализирующих фильтров (например, с применением схем предсказания на основе модели, описанных выше в настоящем документе). Как таковой, ряд коэффициентов предсказания можно определить, используя один или несколько параметров модели. Иными словами, для определения ряда коэффициентов предсказания может быть достаточно ограниченного количества параметров модели. Это означает, что посредством использования предсказания подполос на основе модели можно эффективным с точки зрения битовой скорости передачи данных образом реализовать межполосное предсказание подполос.The method may proceed by determining a series of prediction coefficients to be applied to the series of previous samples. A number of prediction coefficients may be determined based on a signal model, based on a model parameter, and based on a set of analysis filters (eg, using the model-based prediction schemes described above herein). As such, a number of prediction coefficients can be determined using one or more model parameters. In other words, a limited number of model parameters may be sufficient to determine a number of prediction coefficients. This means that by using model-based subband prediction, interband subband prediction can be implemented in a bit rate efficient manner.

Способ может включать определение оценки первого дискретного значения путем применения ряда коэффициентов предсказания, соответственно, к ряду предыдущих дискретных значений. Определение оценки первого дискретного значения, как правило, включает определение суммы ряда предыдущих дискретных значений, взвешенной по ряду соответствующих коэффициентов предсказания.The method may include determining an estimate of the first sample value by applying a series of prediction coefficients, respectively, to a series of previous samples. Determining the estimate of the first sample typically involves determining the sum of a number of previous samples, weighted by a number of corresponding prediction coefficients.

Как было описано выше, параметр модели может служить признаком периодичности Т. Ряд справочных таблиц, используемых для определения одного или нескольких коэффициентов предсказания, может содержать справочные таблицы для разных значений периодичности Т. В частности, ряд справочных таблиц может содержать справочные таблицы для разных значений периодичности Т в пределах интервала [Tmin, Tmax] с предварительно определенным размером шага ∆T. Как будет описано в настоящем документе, Tmin может находиться в интервале 0,25, а Tmax может находиться в интервале 2,5. Tmin можно выбрать так, чтобы при T<Tmin звуковой сигнал мог моделироваться с применением модели сигнала, содержащей односинусоидальную составляющую модели. Tmax можно выбрать так, чтобы при T>Tmax справочные таблицы для периодичностей от Tmax до Tmax+1 по существу соответствовали справочным таблицам для периодичностей от Tmax-1 до Tmax. То же в целом применимо для периодичностей Tmax+n до Tmax+n+1 при .As described above, a model parameter may serve as an indication of the periodicity T. A series of lookup tables used to determine one or more prediction coefficients may contain lookup tables for different values of periodicity T. In particular, a series of lookup tables may contain lookup tables for different values of periodicity T within the interval [T min , T max ] with a predetermined step size ∆T. As will be described herein, T min may be in the range of 0.25 and T max may be in the range of 2.5. T min can be chosen so that when T<T min the audio signal can be modeled using a signal model containing a single sine wave component of the model. T max can be selected such that, when T>T max, the lookup tables for periodicities T max to Tmax +1 are substantially the same as the lookup tables for periodicities Tmax -1 to Tmax . The same generally applies for periodicities T max +n to T max +n+1 at .

Способ может включать определение выбранной справочной таблицы в качестве справочной таблицы для периодичности Т, указанной параметром модели. После того как был сделан выбор справочной таблицы, содержащей или указывающей один или несколько коэффициентов предсказания, для идентификации в выбранной справочной таблице подходящего одного или нескольких элементов, указывающих соответственно один или несколько коэффициентов предсказания, можно использовать параметр поиска. Параметр поиска может соответствовать или может быть получен исходя из параметра сдвига.The method may include defining the selected lookup table as the lookup table for the periodicity T indicated by the model parameter. Once a lookup table containing or indicating one or more prediction coefficients has been selected, a search parameter can be used to identify in the selected lookup table the appropriate one or more elements indicating, respectively, the one or more prediction coefficients. The search parameter can match or can be derived from the parameter shift

Способ может включать, для параметра модели, служащего признаком периодичности T>Tmax, определение остаточной периодичности Tr путем вычитания целочисленного значения из Т так, чтобы остаточная периодичность Tr лежала в интервале [Tmax-1, Tmax]. Тогда справочную таблицу для определения коэффициента предсказания можно определить как справочную таблицу для остаточной периодичности Tr.The method may include, for a model parameter indicative of periodicity T>T max , determining the residual periodicity T r by subtracting an integer value from T such that the residual periodicity T r lies in the interval [T max -1, T max ]. Then the lookup table for determining the prediction coefficient can be defined as the lookup table for the residual periodicity T r .

Способ может включать, для параметра модели, служащего признаком периодичности T<Tmin, выбор справочной таблицы для определения одного или нескольких коэффициентов предсказания в качестве справочной таблицы для периодичности Tmin. Кроме того, параметр поиска (например, параметр сдвига) для идентификации одного или нескольких элементов выбранной справочной таблицы, обеспечивающих один или несколько коэффициентов предсказания, можно масштабировать в соответствии с отношением . Тогда один или несколько коэффициентов предсказания можно определить, используя выбранную справочную таблицу и масштабированный параметр поиска. В частности, один или несколько коэффициентов предсказания можно определить на основе одного или нескольких элементов выбранной справочной таблицы, соответствующих масштабированному параметру поиска.The method may include, for a model parameter indicative of periodicity T<T min , selecting a look-up table for determining one or more prediction coefficients as a look-up table for periodicity T min . In addition, the search parameter (for example, the parameter shift) to identify one or more elements of a selected lookup table that provide one or more prediction coefficients, can be scaled according to the ratio . Then one or more prediction coefficients can be determined using the selected lookup table and the scaled search parameter. In particular, one or more prediction coefficients may be determined based on one or more elements of the selected lookup table corresponding to the scaled search parameter.

Как таковое, количество справочных таблиц может быть ограничено предварительно определенным интервалом [Tmin, Tmax], посредством чего ограничиваются требования к памяти аудиокодера/аудиодекодера. Тем не менее коэффициенты предсказания можно определить для всех возможных значений периодичности Т, используя предварительно определенные справочные таблицы, посредством этого делая возможным эффективную с вычислительной точки зрения реализацию аудиокодера/аудиодекодера.As such, the number of lookup tables may be limited to a predetermined interval [T min , T max ], thereby limiting the memory requirements of the audio encoder/audio decoder. However, prediction coefficients can be determined for all possible periodicity values T using predefined lookup tables, thereby allowing a computationally efficient implementation of the audio encoder/audio decoder.

В соответствии с одной из дальнейших особенностей описывается способ оценки первого дискретного значения из сигнала первой подполосы звукового сигнала. Как было описано выше, сигнал первой подполосы звукового сигнала можно определить, используя набор анализирующих фильтров, содержащий ряд анализирующих фильтров, создающих соответственно из звукового сигнала ряд сигналов подполос в ряду подполос. Вышеописанные характерные признаки также применимы и к описываемому ниже способу.In accordance with one further feature, a method for estimating a first sampled value from a first subband signal of an audio signal is described. As described above, the first subband signal of the audio signal can be determined using an analysis filter bank comprising a number of analysis filters correspondingly creating a number of subband signals within a row of subbands from the audio signal. The above-described characteristics also apply to the method described below.

Способ включает определение маски предсказания, служащего признаком ряда предыдущих дискретных значений в ряду подполос несущего множества маски предсказания. Ряд подполос несущего множества маски предсказания содержит по меньшей мере одну подполосу из ряда подполос, отличающуюся от первой подполосы. В частности, ряд подполос несущего множества маски предсказания может содержать первую подполосу и/или ряд подполос несущего множества маски предсказания может содержать одну или несколько подполос, непосредственно примыкающих к первой подполосе.The method includes determining a prediction mask indicative of a series of previous discrete values in a series of subbands of the prediction mask carrier set. The number of subbands of the prediction mask carrier set contains at least one subband of the number of subbands different from the first subband. In particular, a number of subbands of a prediction mask carrier set may comprise a first subband, and/or a number of subbands of a prediction mask carrier set may comprise one or more subbands immediately adjacent to the first subband.

Способ также может включать определение ряда коэффициентов предсказания, подлежащих применению к ряду предыдущих дискретных значений. Ряд предыдущих дискретных значений, как правило, получают исходя из ряда сигналов подполос звукового сигнала. В частности, ряд предыдущих дискретных значений, как правило, соответствует дискретным значениям из ряда декодированных сигналов подполос. Ряд коэффициентов предсказания может соответствовать коэффициентам предсказания из рекурсивного фильтра с предсказанием (с конечной импульсной характеристикой), который также учитывает одно или несколько дискретных значений подполос, отличающихся от первой подполосы. Оценку первого дискретного значения можно определить путем применения ряда коэффициентов предсказания, соответственно, к ряду предыдущих дискретных значений. Как таковой, способ делает возможным предсказание подполосы с применением одного или нескольких дискретных значений из других (например, смежных) подполос. Действуя таким образом, можно уменьшить артефакты паразитных частот, вызываемые кодерами на основе предсказания подполос.The method may also include determining a series of prediction coefficients to be applied to the series of previous samples. A series of previous discrete values are typically obtained from a series of audio subband signals. In particular, a series of previous samples typically correspond to samples from a series of decoded subband signals. A number of prediction coefficients may correspond to prediction coefficients from a recursive predictive filter (finite impulse response) that also takes into account one or more samples of subbands different from the first subband. An estimate of the first sample can be determined by applying a series of prediction coefficients to the series of previous samples, respectively. As such, the method makes it possible to predict a subband using one or more samples from other (eg, adjacent) subbands. By doing so, it is possible to reduce spurious frequency artifacts caused by subband prediction based encoders.

Способ может также включать определение параметра модели для модели сигнала. Ряд коэффициентов предсказания можно определить на основе модели сигнала, основанной на параметре модели, и на основе набора анализирующих фильтров. Как таковой, ряд коэффициентов предсказания можно определить с применением предсказания на основе модели, описываемого в настоящем документе. В частности, ряд коэффициентов предсказания можно определить с применением справочной таблицы и/или аналитической функции. Справочную таблицу и/или аналитическую функцию можно предварительно определить на основе модели сигнала и на основе набора анализирующих фильтров. Кроме того, справочная таблица и/или аналитическая функция может предусматривать ряд коэффициентов предсказания (только) в зависимости от параметра, полученного исходя из параметра модели. Таким образом, параметр модели может непосредственно предусматривать ряд коэффициентов предсказания при использовании справочной таблицы и/или аналитической функции. Как таковой, этот параметр модели можно использовать для эффективного описания коэффициента межполосного предсказателя.The method may also include determining a model parameter for the signal model. A number of prediction coefficients can be determined based on a signal model based on a model parameter and based on a set of analysis filters. As such, a number of prediction coefficients can be determined using the model-based prediction described herein. In particular, a number of prediction coefficients can be determined using a lookup table and/or an analytical function. The lookup table and/or analysis function can be predefined based on the signal model and based on a set of analysis filters. In addition, the lookup table and/or analysis function may provide a number of prediction coefficients (only) depending on the parameter derived from the model parameter. Thus, a model parameter can directly provide a set of prediction coefficients when using a lookup table and/or analytical function. As such, this model parameter can be used to effectively describe the coefficient of the interband predictor.

В соответствии с одной из дальнейших особенностей изобретения описывается способ кодирования звукового сигнала. Способ может включать определение ряда сигналов подполос исходя из звукового сигнала с применением набора анализирующих фильтров, содержащего ряд анализирующих фильтров. Способ можно продолжить оценкой дискретных значений ряда сигналов подполос с применением любого из способов предсказания, описываемых в настоящем документе, посредством чего получается ряд оценочных сигналов подполос. Кроме того, на основе соответствующих дискретных значений из ряда сигналов подполос и дискретных значений из ряда оценочных сигналов подполос можно определить дискретные значения из ряда сигналов подполос ошибок предсказания. Способ можно продолжить квантованием ряда сигналов подполос ошибок предсказания и генерированием кодированного звукового сигнала. Этот кодированный звуковой сигнал может служить признаком (например, может содержать) ряда квантованных сигналов подполос ошибок предсказания. Кроме того, кодированный сигнал может служить признаком (например, может содержать) одного или несколько параметров, использованных для оценки дискретных значений из ряда оценочных сигналов подполос, например, служащих признаком одного или нескольких параметров модели, использованных при определении одного или нескольких коэффициентов предсказания, которые затем были использованы для оценки дискретных значений из ряда оценочных сигналов подполос.According to one further aspect of the invention, a method for encoding an audio signal is described. The method may include determining a number of subband signals from the audio signal using an analysis filter bank comprising a number of analysis filters. The method can proceed by estimating samples of a number of subband signals using any of the prediction methods described herein, whereby a number of estimated subband signals are obtained. In addition, based on the corresponding samples from the plurality of subband signals and the samples from the plurality of estimated subband signals, the sampled values from the plurality of prediction error subband signals can be determined. The method can be continued by quantizing a number of prediction error subband signals and generating a coded audio signal. This encoded audio signal may be indicative of (eg, may contain) a number of quantized prediction error subband signals. In addition, the encoded signal may be indicative of (e.g., may contain) one or more parameters used to estimate discrete values from a number of subband estimate signals, e.g., indicative of one or more model parameters used in determining one or more prediction coefficients that were then used to estimate discrete values from a number of subband signal estimates.

В соответствии с другой особенностью описывается способ декодирования кодированного звукового сигнала. Кодированный звуковой сигнал, как правило, служит признаком ряда квантованных сигналов подполос ошибок предсказания и одного или нескольких параметров, подлежащих использованию при оценке дискретных значений из ряда оценочных сигналов подполос. Способ может включать деквантование ряда квантованных сигналов подполос ошибок предсказания, посредством чего получается ряд деквантованных сигналов подполос ошибок предсказания. Кроме того, способ может включать оценку дискретных значений из ряда оценочных сигналов подполос с применением любого из способов предсказания, описываемых в настоящем документе. Дискретные значения из ряда декодированных сигналов подполос можно определить на основе соответствующих дискретных значений из ряда оценочных сигналов подполос и на основе дискретных значений из ряда деквантованных сигналов подполос ошибок предсказания. Декодированный звуковой сигнал можно определить исходя из ряда декодированных сигналов подполос с применением набора синтезирующих фильтров, содержащего ряд синтезирующих фильтров.In another aspect, a method for decoding an encoded audio signal is described. The encoded audio signal typically is indicative of a number of quantized prediction error subband signals and one or more parameters to be used in estimating discrete values from a number of estimated subband signals. The method may include dequantizing a number of quantized prediction error subband signals, whereby a number of dequantized prediction error subband signals are obtained. In addition, the method may include estimating samples from a number of estimated subband signals using any of the prediction methods described herein. Samples from a series of decoded subband signals may be determined based on corresponding samples from a series of estimated subband signals and based on samples from a series of dequantized prediction error subband signals. The decoded audio signal can be determined from a number of decoded subband signals using a synthesis filter bank containing a number of synthesis filters.

В соответствии с одной из дальнейших особенностей описывается система, выполненная с возможностью оценки одного или нескольких первых дискретных значений из сигнала первой подполосы звукового сигнала. Сигнал первой подполосы звукового сигнала можно определить, используя набор анализирующих фильтров, содержащий ряд анализирующих фильтров, создающих ряд сигналов подполос исходя из звукового сигнала в ряду соответствующих подполос. Система может содержать вычислитель предсказателя, выполненный с возможностью определения параметра модели для модели сигнала. Кроме того, вычислитель предсказателя может быть выполнен с возможностью определения одного или нескольких коэффициентов предсказания, подлежащих применению к одному или нескольким предыдущим дискретным значениям декодированного сигнала первой подполосы. Как таковой, вычислитель предсказателя может быть выполнен с возможностью определения одного или нескольких коэффициентов предсказания из рекурсивного фильтра с предсказанием, в частности рекурсивного фильтра с предсказанием подполос. Один или несколько коэффициентов предсказания можно определить на основе модели сигнала, основанной на параметре модели, и на основе набора анализирующих фильтров (например, используя способы предсказания на основе модели, описываемые в настоящем документе). Временные интервалы одного или нескольких предыдущих дискретных значений находятся, как правило, перед временными интервалами одного или нескольких первых дискретных значений. Система также может содержать предсказатель подполос, выполненный с возможностью определения оценки одного или нескольких первых дискретных значений путем применения одного или нескольких коэффициентов предсказания к одному или нескольким предыдущим дискретным значениям.In accordance with one further feature, a system is described configured to estimate one or more first samples from a first subband signal of an audio signal. The signal of the first subband of the audio signal can be determined using an analysis filter bank containing a number of analysis filters that create a number of subband signals from the audio signal in the row of corresponding subbands. The system may include a predictor calculator configured to determine a model parameter for a signal model. In addition, the predictor calculator may be configured to determine one or more prediction coefficients to be applied to one or more previous samples of the decoded first subband signal. As such, the predictor calculator may be configured to determine one or more prediction coefficients from a recursive predictive filter, in particular a recursive subband predictive filter. One or more prediction coefficients may be determined based on a signal model based on a model parameter and based on a set of analysis filters (eg, using model-based prediction methods described herein). The time intervals of one or more previous discrete values are, as a rule, before the time intervals of one or more first discrete values. The system may also include a subband predictor configured to determine an estimate of one or more first samples by applying one or more prediction coefficients to one or more previous samples.

В соответствии с другой особенностью описывается система, выполненная с возможностью оценки одного или нескольких первых дискретных значений из сигнала первой подполосы звукового сигнала. Этот сигнал первой подполосы соответствует первой подполосе из ряда подполос. Сигнал первой подполосы, как правило, определяют, используя набор анализирующих фильтров, содержащий ряд анализирующих фильтров, создающих ряд сигналов подполос, соответственно, для ряда подполос. Система содержит вычислитель предсказателя, выполненный с возможностью определения маски предсказания, служащей признаком ряда предыдущих дискретных значений в ряду подполос несущего множества маски предсказания. Ряд подполос несущего множества маски предсказания содержит по меньшей мере одну подполосу из ряда подполос, отличающуюся от первой подполосы. Вычислитель предсказателя также выполнен с возможностью определения ряда коэффициентов предсказания (или рекурсивного фильтра с предсказанием), подлежащих применению к ряду предыдущих дискретных значений. Кроме того, система содержит предсказатель подполос, выполненный с возможностью определения оценки одного или нескольких первых дискретных значений путем применения ряда коэффициентов предсказания, соответственно, к ряду предыдущих дискретных значений.In another aspect, a system is described configured to estimate one or more first samples from a first subband signal of an audio signal. This first subband signal corresponds to the first subband of a series of subbands. The first subband signal is typically determined using an analysis filter bank comprising a number of analysis filters producing a number of subband signals, respectively, for a number of subbands. The system includes a predictor calculator configured to determine a prediction mask indicative of a series of previous discrete values in a series of subbands of the prediction mask carrier set. The number of subbands of the prediction mask carrier set contains at least one subband of the number of subbands different from the first subband. The predictor calculator is also configured to determine a series of prediction coefficients (or a recursive predictive filter) to be applied to the series of previous sample values. In addition, the system includes a subband predictor configured to determine an estimate of one or more first sample values by applying a number of prediction coefficients, respectively, to a number of previous samples.

В соответствии с другой особенностью описывается аудиокодер для кодирования звукового сигнала. Аудиокодер содержит набор анализирующих фильтров, выполненный с возможностью определения ряда сигналов подполос исходя из звукового сигнала с применением ряда анализирующих фильтров. Кроме того, аудиокодер содержит вычислитель предсказателя и предсказатель подполос, описываемые в настоящем документе, выполненные с возможностью оценки дискретных значений ряда сигналов подполос, посредством чего получается ряд оценочных сигналов подполос. Кроме того, кодер может содержать разностный модуль, выполненный с возможностью определения дискретных значений из ряда сигналов подполос ошибок предсказания на основе соответствующих дискретных значений из ряда сигналов подполос и ряда оценочных сигналов подполос. Для квантования ряда сигналов подполос ошибок предсказания можно использовать модуль квантования. Кроме того, модуль генерирования битового потока может быть выполнен с возможностью генерирования кодированного звукового сигнала, служащего признаком ряда квантованных сигналов подполос ошибок предсказания и одного или нескольких параметров (например, одного или нескольких параметров модели), используемых при оценке дискретных значений из ряда оценочных сигналов подполос.According to another aspect, an audio encoder for encoding an audio signal is described. The audio encoder contains a set of analysis filters configured to determine a number of subband signals based on the audio signal using a number of analysis filters. In addition, the audio encoder includes a predictor calculator and a subband predictor described herein, configured to estimate samples of a number of subband signals, whereby a number of estimated subband signals are obtained. In addition, the encoder may include a difference module configured to determine samples from the plurality of prediction error subband signals based on corresponding samples from the plurality of subband signals and the plurality of subband estimate signals. A quantization module can be used to quantize a number of prediction error subband signals. In addition, the bitstream generation module may be configured to generate a coded audio signal indicative of a number of quantized prediction error subband signals and one or more parameters (e.g., one or more model parameters) used in estimating discrete values from the number of estimated subband signals .

В соответствии с одной из дальнейших особенностей описывается аудиодекодер, выполненный с возможностью декодирования кодированного звукового сигнала. Кодированный звуковой сигнал служит признаком (например, содержит) ряда квантованных сигналов подполос ошибок предсказания и одного или нескольких параметров, использованных при оценке дискретных значений из ряда оценочных сигналов подполос. Аудиодекодер может содержать обратный квантователь, выполненный с возможностью деквантования ряда квантованных сигналов подполос ошибок предсказания, посредством чего получается ряд деквантованных сигналов подполос ошибок предсказания. Кроме того, декодер содержит вычислитель предсказателя и предсказатель подполос, описываемые в настоящем документе, выполненные с возможностью оценки дискретных значений из ряда оценочных сигналов подполос. Для определения дискретных значений ряда декодированных сигналов подполос на основе соответствующих дискретных значений из ряда оценочных сигналов подполос и на основе дискретных значений из ряда деквантованных сигналов подполос ошибок предсказания можно использовать суммирующий модуль. Кроме того, для определения декодированного звукового сигнала исходя из ряда декодированных сигналов подполос с применением ряда синтезирующих фильтров можно использовать набор синтезирующих фильтров.In accordance with one further feature, an audio decoder configured to decode an encoded audio signal is described. The encoded audio signal is indicative of (eg, contains) a number of quantized prediction error subband signals and one or more parameters used in estimating samples from the number of estimated subband signals. The audio decoder may include an inverse quantizer configured to dequantize a plurality of quantized subprediction error subband signals, thereby producing a plurality of dequantized subprediction error subband signals. In addition, the decoder includes a predictor calculator and a subband predictor described herein, configured to estimate discrete values from a number of subband estimation signals. An adding module may be used to determine samples of a number of decoded subband signals based on corresponding samples from a number of estimated subband signals and based on samples from a number of dequantized prediction error subband signals. In addition, a synthesis filter bank may be used to determine a decoded audio signal from a number of decoded subband signals using a number of synthesis filters.

В соответствии с одной из дальнейших особенностей описывается программа, реализованная программно. Программа, реализованная программно, может быть приспособлена для исполнения на процессоре и для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на процессоре.In accordance with one of the further features, a program implemented in software is described. The program, implemented in software, may be adapted to be executed on a processor and to perform steps of the methods described herein when implemented on the processor.

В соответствии с другой особенностью описывается носитель данных. Носитель данных может содержать программу, реализованную программно и приспособленную для исполнения на процессоре и для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на процессоре.In accordance with another feature, a storage medium is described. The storage medium may contain a program implemented in software and adapted to be executed on a processor and to perform steps of the methods described herein when implemented on the processor.

В соответствии с одной из дальнейших особенностей описывается компьютерный программный продукт. Компьютерный программный продукт может содержать исполняемые команды для выполнения этапов способов, описываемых в настоящем документе, при исполнении на компьютере.In accordance with one further feature, a computer program product is described. The computer program product may contain executable instructions for performing steps of the methods described herein when executed on a computer.

Следует отметить, что способы и системы, включая их предпочтительные варианты осуществления, описываемые в этой патентной заявке, можно использовать автономно или в сочетании с другими способами и системами, описываемыми в настоящем документе. Кроме того, все особенности способов и систем, описываемых в этой патентной заявке, можно произвольно сочетать. В частности, произвольно можно сочетать друг с другом характерные признаки, изложенные в формуле изобретения.It should be noted that the methods and systems, including their preferred embodiments, described in this patent application may be used alone or in combination with other methods and systems described herein. In addition, all features of the methods and systems described in this patent application can be freely combined. In particular, the characteristic features set out in the claims can be combined with each other at will.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS

Настоящее изобретение описывается ниже на иллюстративных примерах, не ограничивающих объем или суть изобретения, со ссылкой на сопроводительные графические материалы, в которых:The present invention is described below by way of illustrative examples, which do not limit the scope or spirit of the invention, with reference to the accompanying drawings, in which:

фиг. 1 изображает блок-схему одного из примеров аудиодекодера, применяющего линейное предсказание в области набора фильтров (т.е. в области подполос);fig. 1 is a block diagram of one example of an audio decoder that applies linear prediction in a filterbank domain (ie, a subband domain);

фиг. 2 показывает пример масок предсказания в частотно-временной сетке;fig. 2 shows an example of prediction masks in a time-frequency grid;

фиг. 3 иллюстрирует пример табличных данных для вычислителя предсказателя на основе синусоидальной модели;fig. 3 illustrates an example of tabular data for a predictor calculator based on a sinusoidal model;

фиг. 4 иллюстрирует пример ограничения шума в результате внутриполосного предсказания подполос;fig. 4 illustrates an example of noise limitation resulting from in-band subband prediction;

фиг. 5 иллюстрирует пример ограничения шума в результате межполосного предсказания подполос; иfig. 5 illustrates an example of noise limitation resulting from interband subband prediction; And

фиг. 6a изображает один из примеров двумерной сетки квантования, лежащей в основе табличных данных для вычисления предсказателя на основе периодической модели;fig. 6a depicts one example of a two-dimensional quantization grid underlying a data table for computing a predictor based on a periodic model;

фиг. 6b иллюстрирует использование разных масок предсказания для разных интервалов периодичностей сигнала; иfig. 6b illustrates the use of different prediction masks for different signal periodicity intervals; And

фиг. 7a и 7b показывают схемы последовательностей иллюстративных способов кодирования и декодирования с применением предсказания подполос на основе модели.fig. 7a and 7b show flow diagrams of exemplary encoding and decoding methods using model-based subband prediction.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

Описываемые ниже варианты осуществления являются лишь иллюстрирующими принципы настоящего изобретения для предсказания на основе модели в наборе фильтров с критической дискретизацией. Следует понимать, что специалистам в данной области техники будут очевидны модификации и изменения схем и подробностей, описываемых в настоящем документе. Поэтому намерение заключается в ограничении только объемом предстоящей формулы изобретения, а не конкретными подробностями, представленными в настоящем документе с целью описания и разъяснения вариантов осуществления.The embodiments described below are merely illustrative of the principles of the present invention for model-based prediction in a critically sampled filterbank. It should be understood that modifications and changes to the diagrams and details described herein will be apparent to those skilled in the art. It is therefore intended to be limited only by the scope of the forthcoming claims and not to the specific details provided herein for the purpose of describing and explaining embodiments.

Фиг. 1 изображает блок-схему одного из примеров аудиодекодера 100, применяющего линейное предсказание в области набора фильтров (также именуемой областью подполос). Аудиодекодер 100 принимает битовый поток, содержащий информацию в отношении сигнала ошибки предсказания (также именуемого остаточным сигналом) и, возможно, информацию в отношении описания предсказателя, использованного соответствующим кодером для определения сигнала ошибки предсказания исходя из исходного входного звукового сигнала. Информация в отношении сигнала ошибки предсказания может относиться к подполосам входного звукового сигнала, а информация в отношении описания предсказателя может относиться к одному или нескольким предсказателям подполос.Fig. 1 depicts a block diagram of one example of an audio decoder 100 that applies linear prediction in a filterbank region (also referred to as a subband region). Audio decoder 100 receives a bitstream containing information regarding a prediction error signal (also referred to as a residual signal) and optionally information regarding a description of a predictor used by the corresponding encoder to determine the prediction error signal from the original input audio signal. Information regarding the prediction error signal may relate to subbands of the input audio signal, and information regarding a predictor description may relate to one or more subband predictors.

Для данной полученной информации битового потока обратный квантователь 101 может выводить дискретные значения 111 сигналов подполос ошибок предсказания. Эти дискретные значения могут быть добавлены к выводу 112 предсказателя 103 подполос, а сумма 113 может проходить в буфер 104 подполос, ведущий учет предыдущих декодированных дискретных значений 113 подполос декодированного звукового сигнала. Вывод предсказателя 103 подполос можно именовать оценочными сигналами 112 подполос. Декодированные дискретные значения 113 подполос декодированного звукового сигнала могут подаваться в набор 102 синтезирующих фильтров, преобразующий дискретные значения подполос во временную область, посредством этого приводя к дискретным значениям 114 временной области декодированного звукового сигнала.For a given received bitstream information, the inverse quantizer 101 may output sampled prediction error subband signal values 111. These samples may be added to the output 112 of the subband predictor 103, and the sum 113 may be passed to a subband buffer 104 keeping a record of the previous decoded subband samples 113 of the decoded audio signal. The output of the subband predictor 103 may be referred to as the subband estimation signals 112. The decoded subband samples 113 of the decoded audio signal may be provided to a synthesis filter bank 102 that converts the subband samples into the time domain, thereby resulting in time domain samples 114 of the decoded audio signal.

Иными словами, декодер 100 может действовать в области подполос. В частности, декодер 100 может определять ряд оценочных сигналов 112 подполос, используя предсказатель 103 подполос. Кроме того, декодер 100 может определять ряд остаточных сигналов 111 подполос, используя обратный квантователь 101. Соответствующие пары из ряда оценочных сигналов 112 подполос и ряда остаточных сигналов 111 подполос можно складывать, получая соответствующий ряд декодированных сигналов 113 подполос. Этот ряд декодированных сигналов 113 подполос может подаваться в набор 102 синтезирующих фильтров, приводящий к декодированному звуковому сигналу 114 во временной области. In other words, the decoder 100 may operate in the subband region. In particular, the decoder 100 may determine a number of subband estimate signals 112 using a subband predictor 103 . In addition, the decoder 100 may determine a series of residual subband signals 111 using an inverse quantizer 101. Corresponding pairs of a series of estimated subband signals 112 and a series of residual subband signals 111 may be added to obtain a corresponding series of decoded subband signals 113. This series of decoded subband signals 113 may be fed to a synthesis filter bank 102 resulting in a decoded time domain audio signal 114.

В одном из вариантов осуществления предсказателя 103 подполос данное дискретное значение из данного оценочного сигнала 112 подполосы можно получить путем линейной комбинации дискретных значений подполос из буфера 104, соответствующих иному времени и иной частоте (т.е. иной подполосе), отличных от данного дискретного значения из данного оценочного сигнала 112 подполосы. Иными словами, дискретное значение из оценочного сигнала 112 подполосы в первый момент времени и в первой подполосе можно определить на основе одного или нескольких дискретных значений из декодированных сигналов 113 подполос, относящихся ко второму моменту времени (отличному от первого момента времени) и относящихся ко второй подполосе (отличной от первой подполосы). Совокупность коэффициентов предсказания и их прикрепление к временной и частотной маске может определять предсказатель 103, и эту информацию представляет вычислитель 105 предсказателя декодера 100. Вычислитель 105 предсказателя выводит информацию, определяющую предсказатель 103 посредством преобразования данных модели сигнала, заключенных в принятом битовом потоке. Может быть передан дополнительный коэффициент передачи, модифицирующий масштаб вывода предсказателя 103. В одном из вариантов осуществления вычислителя 105 предсказателя данные модели сигнала представлены в форме эффективно параметризованного линейчатого спектра, при этом каждую линию в этом параметризованном линейчатом спектре или группе последовательных линий в параметризованном линейчатом спектре используют для указания табличных значений коэффициентов предсказателя. Как таковые, данные модели сигнала, доставленные в принятом битовом потоке, можно использовать для идентификации элементов в предварительно определенной справочной таблице, при этом элементы из справочной таблицы предусматривают одно или несколько значений коэффициентов предсказателя (также именуемых коэффициентами предсказания), подлежащих использованию предсказателем 103. Способ, применяемый для поиска в таблице, может зависеть от компромиссов между сложностью и требованиями к памяти. Например, для достижения наиболее низкой сложности можно использовать поиск по типу ближайшего соседа, в то время как интерполяционный способ поиска может обеспечивать аналогичную производительность для таблицы меньшего размера.In one embodiment of the subband predictor 103, a given sample value from a given subband estimate signal 112 can be obtained by a linear combination of subband samples from buffer 104 corresponding to a different time and frequency (i.e., a different subband) different from the given sample value from of this evaluation signal 112 subbands. In other words, the sampled value from the estimated subband signal 112 at the first time and in the first subband can be determined based on one or more samples from the decoded subband signals 113 related to the second time (different from the first time) and related to the second subband (different from the first subband). The combination of prediction coefficients and their attachment to the time and frequency mask may be determined by the predictor 103, and this information is represented by the predictor calculator 105 of the decoder 100. The predictor calculator 105 outputs information defining the predictor 103 by transforming the signal model data contained in the received bit stream. An additional gain may be transmitted that modifies the output scale of the predictor 103. In one embodiment of the predictor calculator 105, the signal model data is represented in the form of an effectively parameterized line spectrum, wherein each line in the parameterized line spectrum or a group of consecutive lines in the parameterized line spectrum is used to indicate tabular values of predictor coefficients. As such, the signal model data delivered in the received bitstream can be used to identify entries in a predefined lookup table, wherein the entries from the lookup table provide one or more predictor coefficient values (also referred to as prediction coefficients) to be used by predictor 103. Method ,used for table lookup may depend on trade-offs between,complexity and memory requirements. For example, nearest neighbor search can be used to achieve the lowest complexity, while interpolation search can provide similar performance for a smaller table.

Как было указано выше, принимаемый битовый поток может содержать один или несколько передаваемых в явном виде коэффициентов передачи (или передаваемых в явном виде указателей коэффициентов передачи). Коэффициенты передачи можно применять как часть операции предсказания или после нее. Один или несколько передаваемых в явном виде коэффициентов передачи могут отличаться для разных подполос. Передаваемые в явном виде (в форме указателей) дополнительные коэффициенты передачи доставляются в дополнение к одному или нескольким параметрам модели, используемым для определения коэффициентов предсказания предсказателя 103. Как таковые, дополнительные коэффициенты передачи можно использовать для масштабирования коэффициентов предсказания предсказателя 103.As noted above, the received bitstream may contain one or more explicit transmission coefficients (or explicit transmission coefficient indicators). Transfer coefficients can be applied as part of the prediction operation or after it. One or more explicitly transmitted transmission coefficients may differ for different subbands. Explicitly passed (in the form of pointers), the additional gain coefficients are delivered in addition to one or more model parameters used to determine the prediction coefficients of the predictor 103. As such, the additional gain coefficients can be used to scale the prediction coefficients of the predictor 103.

Фиг. 2 показывает пример несущих множеств маски предсказания в частотно-временной сетке. Несущие множества маски предсказания можно использовать для предсказателей 103, действующих в наборе фильтров с равномерной частотно-временной разрешающей способностью, таком как набор косинусно-модулированных фильтров (например, набор фильтров MDCT). Обозначение проиллюстрировано схемой 201, в которой целевое дискретное значение 211 подполосы темного оттенка представляет собой вывод предсказания на основе дискретного значения 212 подполосы светлого оттенка. На схемах 202—205 совокупность дискретных значений подполос светлого оттенка указывает несущее множество маски предсказания. Сочетание исходных дискретных значений 212 подполос и целевых дискретных значений 211 подполос будет именоваться маской 201 предсказания. Частотно-временную сетку можно использовать для упорядочения дискретных значений подполос вблизи целевого дискретного значения подполосы. Индекс временных интервалов увеличивается слева направо, а индекс частот подполос увеличивается снизу вверх. Фиг. 2 показывает иллюстративные случаи масок предсказания и несущие множества масок предсказателя, и следует отметить, что можно использовать другие различные маски предсказания и несущие множества масок предсказателя. Примерами масок предсказания являются:Fig. 2 shows an example of prediction mask carrier sets in a time-frequency grid. The prediction mask set carriers can be used for predictors 103 operating on a uniform time-frequency resolution filter bank, such as a cosine modulated filter bank (eg, an MDCT filter bank). The notation is illustrated by circuit 201, in which the target dark subband sample 211 is a prediction output based on the light subband sample 212. In diagrams 202-205, a set of light-colored subband samples indicate a prediction mask carrier set. The combination of source subband samples 212 and target subband samples 211 will be referred to as prediction mask 201. A time-frequency grid can be used to order subband samples around a target subband sample. The time slot index increases from left to right, and the subband frequency index increases from bottom to top. Fig. 2 shows illustrative cases of prediction masks and predictor mask carrier arrays, and it should be noted that various other prediction masks and predictor mask carrier arrays may be used. Examples of prediction masks are:

• Маска 202 предсказания определяет внутриполосное предсказание оценочного дискретного значения 221 подполосы в момент времени k исходя из двух предыдущих декодированных дискретных значений 222 подполосы в моменты времени k–1 и k–2.• Prediction mask 202 determines an in-band prediction of the estimated subband sample 221 at time k based on the two previous decoded subband samples 222 at times k–1 and k–2.

• Маска 203 предсказания определяет межполосное предсказание оценочного дискретного значения 231 подполосы в момент времени k и в подполосе n на основе трех предыдущих декодированных дискретных значений 232 подполос в момент времени k–1 в подполосах n–1, n, n+1.• Prediction mask 203 determines an inter-band prediction of the estimated subband samples 231 at time k and in subband n based on the three previous decoded subband samples 232 at time k–1 in subbands n–1, n, n+1.

• Маска 204 предсказания определяет межполосное предсказание трех оценочных дискретных значений 241 подполос в момент времени k и в трех различных подполосах n–1, n, n+1 на основе трех предыдущих декодированных дискретных значений 242 подполос в момент времени k–1 в подполосах n–1, n, n+1. Межполосное предсказание можно выполнять так, чтобы каждое оценочное дискретное значение 241 подполосы можно было определить на основе всех трех предыдущих декодированных дискретных значений 242 подполос в подполосах n–1, n, n+1.• Prediction mask 204 determines inter-band prediction of three estimated subband samples 241 at time k and in three different subbands n–1, n, n+1 based on three previous decoded subband samples 242 at time k–1 in subbands n– 1, n, n+1. Interband prediction can be performed such that each estimated subband sample 241 can be determined based on all three previous decoded subband samples 242 in subbands n–1, n, n+1.

• Маска 205 предсказания определяет межполосное предсказание оценочного дискретного значения 251 подполосы в момент времени k и в подполосе n на основе двенадцати предыдущих декодированных дискретных значений 252 подполос в моменты времени k–2, k–3, k–4, k–5 и в подполосах n–1, n, n+1.• Prediction mask 205 determines an inter-band prediction of the estimated subband sample 251 at time k and in subband n based on the twelve previous decoded subband samples 252 at times k–2, k–3, k–4, k–5 and in subbands n–1, n, n+1.

Фиг. 3 иллюстрирует табличные данные для вычислителя 105 предсказателя на основе синусоидальной модели, предусмотренного в наборе косинусно-модулированных фильтров. Несущее множество маски предсказания является таким же, как на схеме 204. Для данного параметра частоты в качестве центральной целевой подполосы можно выбрать подполосу с ближайшей центральной частотой подполосы. Разность между параметром частоты и центральной частотой центральной целевой подполосы можно вычислить в единицах разноса частот набора фильтров (элементов разрешения). Это дает значение –0,5-0,5, которое можно округлить до ближайшего доступного элемента в табличных данных, изображенных абсциссами на девяти графиках 301 по фиг. 3. Это вырабатывает матрицу размера 3×3 из коэффициентов, подлежащих применению к самым новым значениям из ряда декодированных сигналов 113 подполос в буфере 104 подполос для целевой подполосы и двух смежных с ней подполос. Результирующий вектор размера 3×1 составляет вклад предсказателя 103 подполос в эти три подполосы для данного параметра частоты. Этот процесс можно повторить аддитивным образом для всех синусоидальных составляющих в модели сигнала.Fig. 3 illustrates tabular data for a sine model predictor calculator 105 provided in a cosine modulated filter bank. The prediction mask carrier set is the same as in diagram 204. For a given frequency parameter, the subband with the closest subband center frequency can be selected as the center target subband. The difference between the frequency parameter and the center frequency of the central target subband can be calculated in units of the frequency spacing of the filter bank (resolution elements). This gives a value of -0.5-0.5, which can be rounded to the nearest available element in the tabular data shown as abscissas in the nine plots 301 of FIG. 3. This produces a 3x3 matrix of coefficients to be applied to the newest values from the set of decoded subband signals 113 in subband buffer 104 for the target subband and its two adjacent subbands. The resulting 3x1 vector represents the 103 subband predictor contribution to the three subbands for a given frequency parameter. This process can be repeated in an additive manner for all sinusoidal components in the signal model.

Иными словами, фиг. 3 иллюстрирует один из примеров описания предсказателя подполос на основе модели. Предполагается, что входной звуковой сигнал содержит одну или несколько синусоидальных составляющих с основными частотами . Для каждой одной или нескольких синусоидальных составляющих можно, используя предварительно определенную маску предсказания (например, маску 204 предсказания), определить предсказатель подполос. Основная частота входного звукового сигнала может лежать в пределах одной из подполос набора фильтров. Эта подполоса может именоваться центральной подполосой для этой конкретной основной частоты . Основную частоту можно выразить как значение в интервале –0,5-0,5 относительно центральной частоты центральной подполосы. Аудиокодер может передавать информацию, касающуюся этой основной частоты , в декодер 100. Вычислитель 105 предсказателя декодера 100 может использовать матрицу размера три на три по фиг. 3 для определения матрицы три на три из коэффициентов предсказания путем определения значения 302 коэффициента для значения 303 относительной частоты основной частоты . Это означает, что коэффициент предсказателя 103 подполос, использующего маску 204 предсказания, можно определить, используя только принятую информацию, касающуюся конкретной основной частоты . Иными словами, путем моделирования входного звукового сигнала с применением, например, модели из одной или нескольких синусоидальных составляющих можно создать эффективное с точки зрения битовой скорости передачи данных описание предсказателя подполос.In other words, FIG. 3 illustrates one example of a model-based description of a subband predictor. It is assumed that the input audio signal contains one or more sinusoidal components with fundamental frequencies . For each one or more sinusoidal components, a subband predictor can be determined using a predefined prediction mask (eg, prediction mask 204). Fundamental frequency The input audio signal may lie within one of the subbands of the filter bank. This subband may be referred to as the center subband for that particular fundamental frequency . Fundamental frequency can be expressed as a value in the range –0.5-0.5 relative to the center frequency of the central subband. The audio encoder can transmit information related to this fundamental frequency , into the decoder 100. The predictor calculator 105 of the decoder 100 may use the three-by-three matrix of FIG. 3 for determining a three-by-three matrix of the prediction coefficients by determining a coefficient value 302 for a fundamental frequency relative frequency value 303 . This means that the coefficient of the subband predictor 103 using the prediction mask 204 can be determined using only the received information regarding a particular fundamental frequency . In other words, by modeling the input audio signal using, for example, a model of one or more sine wave components, a bit rate efficient description of the subband predictor can be created.

Фиг. 4 иллюстрирует пример ограничения шума, являющегося результатом внутриполосного предсказания подполос в наборе косинусно-модулированных фильтров. Модель сигнала, использованная для выполнения внутриполосного предсказания подполос, представляет собой авторегрессивный стохастический процесс второго порядка с островершинным резонансом, описываемый дифференциальным уравнением второго порядка, управляемым случайным гауссовским белым шумом. Кривая 401 показывает измеренный спектр абсолютных значений для одной из реализаций процесса. Для этого примера применяют маску 202 предсказания по фиг. 2. То есть вычислитель 105 предсказателя представляет предсказатель 103 подполос для заданной целевой подполосы 221 на основе только предыдущих дискретных значений 222 в той же подполосе. Замена обратного квантователя 101 генератором гауссовского белого шума приводит к синтезированному спектру 402 абсолютных значений. Как видно, при синтезе возникают сильные артефакты паразитных частот, так как синтезированный спектр 402 содержит пики, не совпадающие с исходным спектром 401.Fig. 4 illustrates an example of noise limitation resulting from in-band subband prediction in a cosine modulated filter bank. The signal model used to perform in-band subband prediction is a second-order autoregressive stochastic process with peaked resonance, described by a second-order differential equation driven by random Gaussian white noise. Curve 401 shows the measured spectrum of absolute values for one of the process implementations. For this example, the prediction mask 202 of FIG. 2. That is, predictor calculator 105 represents subband predictor 103 for a given target subband 221 based only on previous samples 222 in the same subband. Replacing the inverse quantizer 101 with a Gaussian white noise generator results in a synthesized absolute value spectrum 402. As can be seen, strong artifacts of spurious frequencies arise during synthesis, since the synthesized spectrum 402 contains peaks that do not coincide with the original spectrum 401.

Фиг. 5 иллюстрирует пример ограничения шума, возникающего в результате межполосного предсказания подполос. Условия являются такими же, как по фиг. 4, за исключением того, что применяется маска 203 предсказания. Поэтому вычислитель 105 представляет предсказатель 103 для заданной целевой подполосы 231 на основе предыдущих дискретных значений 232 подполос в этой целевой подполосе и в двух смежных подполосах. Как видно на фиг. 5, спектр 502 синтезированного сигнала по существу совпадает со спектром 501 исходного сигнала, т.е. при использовании межполосного предсказания подполос проблемы паразитных частот по существу подавляются.Fig. 5 illustrates an example of noise limitation resulting from interband subband prediction. The conditions are the same as in FIG. 4, except that the prediction mask 203 is applied. Therefore, the calculator 105 presents a predictor 103 for a given target subband 231 based on the previous subband samples 232 in that target subband and in two adjacent subbands. As can be seen in FIG. 5, the spectrum 502 of the synthesized signal essentially coincides with the spectrum 501 of the original signal, i.e. By using interband subband prediction, spurious frequency problems are essentially suppressed.

Таким образом, фиг. 4 и 5 иллюстрируют то, что при использовании межполосного предсказания подполос, т.е. при предсказании дискретного значения подполосы на основе предыдущих дискретных значений подполос из одной или нескольких смежных подполос, можно уменьшить артефакты паразитных частот, вызванные предсказанием подполосы. В результате предсказание подполос также можно применить в контексте аудиокодеров с низкой битовой скоростью передачи данных без риска вызова слышных артефактов паразитных частот. Использование межполосного предсказания подполос, как правило, увеличивает количество коэффициентов предсказания. Однако, как показано на фиг. 3, использование моделей входного звукового сигнала (например, использование синусоидальной модели или периодической модели) делает возможным эффективное описание предсказателя подполос, посредством этого позволяя использовать межполосное предсказание подполос для аудиокодеров с низкой битовой скоростью передачи данных.Thus, FIG. 4 and 5 illustrate that when using inter-band sub-band prediction, i.e. By predicting a subband sample based on previous subband samples from one or more adjacent subbands, spurious frequency artifacts caused by the subband prediction can be reduced. As a result, subband prediction can also be applied in the context of low bit rate audio encoders without the risk of causing audible spurious artifacts. Using interband subband prediction typically increases the number of prediction coefficients. However, as shown in FIG. 3, the use of input audio signal models (eg, use of a sinusoidal model or a periodic model) enables efficient specification of the subband predictor, thereby allowing the use of interband subband prediction for low bit rate audio encoders.

Ниже со ссылкой на фиг. 1—6 и посредством добавления соответствующей математической терминологии будет дано описание принципов предсказания на основе модели в наборе фильтров с критической дискретизацией.Below with reference to FIG. 1-6 and by adding appropriate mathematical terminology, a description of the principles of model-based prediction in a critically sampled filter bank will be given.

Возможной моделью сигнала, лежащей в основе линейного предсказания, является модель слабостационарного стохастического процесса с нулевым средним, статистика которого определяется его автокорреляционной функцией . Для рассмотрения в качестве хорошей модели наборов фильтров с критической дискретизацией пусть — совокупность вещественнозначных форм синтезируемых сигналов , составляющих ортогональный базис. Иными словами, набор фильтров можно представить формами сигналов . Дискретные значения подполос сигнала во временной области получаются путем скалярных произведенийA possible signal model underlying linear prediction is the model of a weakly stationary stochastic process with zero mean, the statistics of which are determined by its autocorrelation function . To consider critically sampled filter banks as a good model, let — a set of real-valued forms of synthesized signals , constituting the orthogonal basis. In other words, a set of filters can be represented by waveforms . Discrete values of signal subbands in the time domain are obtained by scalar products

, (1) , (1)

а сигнал находят какand the signal is found as

. (2) . (2)

Дискретные значения подполос из процесса представляют собой случайные переменные, ковариационная матрица Rαβ которых определяется автокорреляционной функцией следующим образом:Discrete subband values from the process are random variables whose covariance matrix R αβ is determined by the autocorrelation function in the following way:

, (3) , (3)

где — взаимная корреляция двух форм синтезируемых сигналов:Where — mutual correlation of two forms of synthesized signals:

. (4) . (4)

Линейное предсказание дискретного значения подполосы определяется исходя из совокупности декодированных дискретных значений подполос какLinear prediction of a discrete subband value determined based on the set of decoded discrete subband values How

. (5) . (5)

В уравнении (5) множество определяет исходные дискретные значения подполос, т.е. множество определяет несущее множество маски предсказания. Среднее значение квадратичной ошибки предсказания имеет вид:In equation (5) the set determines the initial discrete values of the subbands, i.e. a bunch of defines the carrier set of the prediction mask. The average value of the squared error of prediction has the form:

, (6) , (6)

и решение минимальной среднеквадратичной ошибки (MSE) получают путем решения нормальных уравнений для коэффициентов предсказания :and the minimum mean square error (MSE) solution is obtained by solving the normal equations for the prediction coefficients :

. (7) . (7)

Если коэффициенты предсказания удовлетворяют уравнению (7), правую сторону уравнения (6) приводят к виду . Нормальные уравнения (7) можно эффективно решать, используя, например, алгоритм Левинсона-Дарбина.If the prediction coefficients satisfy equation (7), the right-hand side of equation (6) is reduced to the form . Normal equations (7) can be solved efficiently using, for example, the Levinson-Durbin algorithm.

В настоящем документе предлагается передавать параметрическое представление модели сигнала, из которой коэффициенты предсказания можно получить в вычислителе 105 предсказателя. Например, модель сигнала может предусматривать параметрическое представление автокорреляционной функции модели сигнала. Декодер 100 может получать автокорреляционную функцию , используя принятое параметрическое представление, и может объединять автокорреляционную функцию с взаимной корреляцией формы синтезируемого сигнала, чтобы получать элементы ковариационной матрицы, требуемые для нормальных уравнений (7). Эти уравнения можно затем решать с целью получения коэффициентов предсказания.This document proposes to convey a parametric representation of a signal model from which the prediction coefficients can be obtained in the predictor computer 105. For example, the signal model may include a parametric representation of the autocorrelation function signal models. Decoder 100 may receive an autocorrelation function , using the accepted parametric representation, and can combine the autocorrelation function with cross correlation shape of the synthesized signal in order to obtain the elements of the covariance matrix required for the normal equations (7). These equations can then be solved to obtain prediction coefficients.

Иными словами, подлежащий кодированию входной звуковой сигнал можно смоделировать процессом , который можно описать, используя ограниченное количество параметров модели. В частности, модельный процесс может быть таким, что его автокорреляционную функцию можно описать, используя ограниченное количество параметров. Ограниченное количество параметров для описания автокорреляционной функции можно передать в декодер 100. Вычислитель 105 предсказателя декодера 100 может определять автокорреляционную функцию , исходя из принятых параметров, и может использовать уравнение (3) для определения ковариационной матрицы сигналов подполос, из которой можно определить нормальное уравнение (7). Нормальное уравнение (7) может быть затем решено вычислителем 105 предсказателя, посредством чего получаются коэффициенты предсказания.In other words, the input audio signal to be encoded can be modeled by the process , which can be described using a limited number of model parameters. In particular, the model process may be such that its autocorrelation function can be described using a limited number of parameters. Limited number of parameters to describe the autocorrelation function can be transmitted to the decoder 100. The predictor calculator 105 of the decoder 100 can determine the autocorrelation function , based on the accepted parameters, and can use equation (3) to determine the covariance matrix subband signals, from which the normal equation (7) can be determined. Normal equation (7) can then be solved by predictor computer 105, whereby the coefficients are obtained predictions.

Ниже описаны примеры моделей сигналов, которые можно эффективно использовать для применения вышеописанной схемы предсказания на основе модели. Модели сигналов, описываемые ниже, как правило, являются в высокой степени значимыми для кодирования звуковых сигналов, например для кодирования речевых сигналов.Examples of signal models that can be effectively used to apply the above-described model-based prediction scheme are described below. The signal models described below are generally highly relevant to audio coding, such as speech coding.

Один из примеров модели сигнала имеет вид синусоидального процесса:One example of a signal model takes the form of a sinusoidal process:

, (8) , (8)

где случайные переменные являются некоррелирующими, имеют нулевое среднее и вариантность, равную единице.where are the random variables are uncorrelated, have zero mean and variance equal to one.

Автокорреляционная функция этого синусоидального процесса имеет вид:The autocorrelation function of this sinusoidal process has the form:

. (9) . (9)

Обобщение такого синусоидального процесса в мультисинусной модели содержит набор (угловых) частот , т.е. содержит ряд различных (угловых) частот ,A generalization of such a sinusoidal process in a multisine model contains a set of (angular) frequencies , i.e. contains a number of different (angular) frequencies ,

. (10) . (10)

Полагая, что все случайные переменные являются попарно некоррелирующими, имеют нулевое среднее и вариантность, равную единице, мультисинусный процесс имеет автокорреляционную функцию:Assuming that all random variables are pairwise uncorrelated, have zero mean and variance equal to one, the multisine process has an autocorrelation function:

. (11) . (eleven)

Спектральная плотность мощности (PSD) мультисинусного процесса (соответствующая преобразованию Фурье автокорреляционной функции) представляет собой линейчатый спектр:The power spectral density (PSD) of a multisine process (corresponding to the Fourier transform of the autocorrelation function) is a line spectrum:

. (12) . (12)

Численные соображения могут приводить к замене чисто мультисинусного процесса автокорреляционной функцией тождественного процесса с ослабленным мультисинусным процессом, имеющим автокорреляционную функцию , где — относительно небольшой параметр ослабления. Последняя модель приводит к строго положительной PSD без импульсных функций.Numerical considerations can lead to replacing a purely multisine process with an autocorrelation function of an identical process with a weakened multisine process having an autocorrelation function , Where - relatively small attenuation parameter. The latter model results in a strictly positive PSD without impulse functions.

Примеры компактных описаний набора из S частот мультисинусной модели являются следующими:Examples of compact descriptions of a set of S frequencies of a multisine model are as follows:

1. Единственная основная частота : 1. Single fundamental frequency :

2. М основных частот: Ω01,…,ΩМ-1: 2. M fundamental frequencies: Ω 01 ,…,Ω M-1 :

3. Единственная боковая полоса, сдвинутая на основную частоту : 3. Single sideband shifted to the main frequency :

4. Слабо негармоническая модель: : , где описывает негармоническую составляющую модели.4. Weakly non-harmonic model: : , Where describes the non-harmonic component of the model.

Как таковую, мультисинусную модель (возможно, ослабленную), проявляющую PSD, заданную уравнением (12), можно эффективно описать, используя одно из вышеперечисленных иллюстративных описаний. Для примера, полный набор частот в линейчатом спектре по уравнению (12) можно описать, используя только единственную основную частоту Ω. Если подлежащий кодированию входной звуковой сигнал вполне можно описать, используя мультисинусную модель, проявляющую единственную основную частоту , то предсказатель на основе модели можно описать единственным параметром (например, основной частотой ) независимо от количества коэффициентов предсказания (т.е. независимо от маски 202, 203, 204, 205 предсказания), используемых предсказателем 103 подполос.As such, a multisine model (possibly attenuated) exhibiting the PSD given by equation (12) can be effectively described using one of the above illustrative descriptions. For example, a complete set frequencies in the line spectrum according to equation (12) can be described using only a single fundamental frequency Ω. If the input audio signal to be encoded can well be described using a multisine model exhibiting a single fundamental frequency , then the model-based predictor can be described by a single parameter (for example, the fundamental frequency ) regardless of the number of prediction coefficients (ie, regardless of the prediction mask 202, 203, 204, 205) used by the subband predictor 103.

Случай 1 для описания набора частот приводит к процессу , моделирующему входные звуковые сигналы с периодом . При включении в уравнение (11) нулевой частоты (DC) с вариантностью ½ и подверганию результата изменению масштаба в раз, автокорреляционную функцию этой периодической модели можно записать какCase 1 to describe the set frequencies leads to the process , which models input audio signals with a period . By including zero frequency (DC) in equation (11) with a variation of ½ and subjecting the result to a scale change of times, the autocorrelation function of this periodic model can be written as

. (13) . (13)

С учетом определения коэффициента ослабления автокорреляционная функция ослабленной версии периодической модели имеет вид:Taking into account the definition of the attenuation coefficient The autocorrelation function of the weakened version of the periodic model is:

. (14) . (14)

Уравнение (14) также соответствует автокорреляционной функции процесса, определяемого единственным циклом задержки, снабжаемым белым шумом , то есть процесса модели:Equation (14) also corresponds to the autocorrelation function of the process defined by a single delay cycle supplied with white noise , that is, the model process:

. (15) . (15)

Это означает, что периодический процесс, проявляющий единственную основную частоту , соответствует задержке во временной области, при этом задержка представляет собой .This means that a periodic process exhibiting a single fundamental frequency , corresponds to a delay in the time domain, where the delay is .

Вышеупомянутые всеобщие модели сигналов, как правило, имеют плоский спектр мощности в большом масштабе по причине допущения единичной вариантности синусоидальных амплитудных параметров . Однако следует отметить, что модели сигналов, как правило, рассматривают лишь локально для подмножества подполос набора фильтров с критической дискретизацией, причем набор фильтров служит инструментальным средством формирования полного спектра. Иными словами, для сигнала, имеющего форму спектра с малым изменением в сравнении с ширинами подполос, модели плоского спектра мощности будут обеспечивать хорошее согласование с сигналом, и, соответственно, предсказатели на основе модели будут выражать достаточные уровни коэффициента передачи предсказания.The above-mentioned general signal models tend to have a flat power spectrum on a large scale due to the assumption of unit variation in sinusoidal amplitude parameters . However, it should be noted that signal models are typically considered only locally for a subset of critically sampled filterbank subbands, with the filterbank instrumental in generating the full spectrum. In other words, for a signal having a spectral shape with little variation relative to subbandwidths, flat power spectrum models will provide a good fit to the signal, and accordingly model-based predictors will express sufficient levels of prediction gain.

В более общем смысле модель PSD можно было бы описать в выражении стандартных параметризаций авторегрессивного (AR) процесса или процесса авторегрессивного скользящего среднего (ARMA). Это могло бы повысить производительность предсказания на основе модели за счет возможного увеличения количества описательных параметров модели.More generally, the PSD model could be described in terms of standard parameterizations of an autoregressive (AR) process or an autoregressive moving average (ARMA) process. This could improve the performance of model-based prediction by possibly increasing the number of descriptive model parameters.

Другое изменение получают, отбрасывая предположение о стационарности стохастической модели сигнала. Тогда автокорреляционная функция становится функцией двух переменных . Например, значимые нестационарные синусоидальные модели могут содержать амплитудную (АМ) и частотную (FM) модуляцию.Another change is obtained by discarding the assumption of stationarity of the stochastic signal model. Then the autocorrelation function becomes a function of two variables . For example, significant non-stationary sinusoidal patterns may contain amplitude (AM) and frequency (FM) modulation.

Кроме того, можно задействовать более детерминированную модель сигнала. Как будет видно в некоторых приводимых ниже примерах, такое предсказание может иметь исчезающе малую ошибку в некоторых случаях. В таких случаях можно избежать вероятностного подхода. Если предсказание является совершенным для всех сигналов в пространстве модели, нет необходимости в вычислении среднего значения производительности предсказания посредством вероятностной меры пространства рассматриваемой модели.In addition, a more deterministic signal model can be used. As will be seen in some of the examples below, such a prediction may have a vanishingly small error in some cases. In such cases, the probabilistic approach can be avoided. If the prediction is perfect for all signals in the model space, there is no need to calculate the average of the prediction performance by means of the probability measure of the model space under consideration.

Ниже описываются различные особенности, касающиеся наборов модулированных фильтров. В частности, описываются особенности, оказывающие влияние на определение ковариационной матрицы, посредством чего обеспечиваются эффективные средства для определения коэффициентов предсказания предсказателя подполос.Various features regarding modulated filter banks are described below. In particular, features affecting the determination of the covariance matrix are described, thereby providing an effective means for determining the prediction coefficients of a subband predictor.

Набор модулированных фильтров можно описать как содержащий двумерное индексное множество форм синтезируемых сигналов , где — индекс подполосы (полоса частот), и где — индекс дискретного значения подполосы (временной интервал). Для простоты описания предполагается, что формы синтезируемых сигналов приведены в непрерывном времени и нормированы на единичный шаг по времени:A modulated filter bank can be described as containing a two-dimensional index set of synthesized waveforms , Where is the subband index (frequency band), and where — index of the discrete value of the subband (time interval). For simplicity of description, it is assumed that the shapes of the synthesized signals are given in continuous time and normalized to a unit time step:

, (16) , (16)

гдеWhere

, (17) , (17)

в случае набора косинусно-модулированных фильтров. Предполагается, что оконная функция является вещественнозначной и четной. До незначительных изменений закона модуляции это охватывает диапазон случаев с высокой значимостью, таких как MDCT (модифицированное дискретное косинусное преобразование), QMF (квадратурный зеркальный фильтр) и ELT (расширенные перекрывающиеся преобразования) с L подполос при дискретизации с временным шагом . Предполагается, что окно имеет конечную длительность или длину с несущим множеством в интервале , где К — коэффициент перекрытия перекрывающегося преобразования, и где указывает длину оконной функции.in the case of a set of cosine modulated filters. It is assumed that the window function is real-valued and even. Up to minor changes in the modulation law, this covers a range of high impact cases such as MDCT (Modified Discrete Cosine Transform), QMF (Quadrature Mirror Filter) and ELT (Extended Overlapping Transforms) with L subbands in time-step sampling . The window is assumed to have a finite duration or length with a supporting set in the interval , where K is the overlap coefficient of the overlapping transform, and where specifies the length of the window function.

По причине структуры, инвариантной относительно сдвига, можно найти, что функцию взаимной корреляции формы синтезируемого сигнала (определенную в уравнении (4)) можно записать как:Due to the shift-invariant structure, it can be found that the cross-correlation function of the synthesized waveform (defined in equation (4)) can be written as:

. (18) . (18)

То есть с учетом определения . Структура (17) модуляции допускает дальнейшее разложение вThat is taking into account the definition . Structure (17) of modulation allows further expansion in

, (19) , (19)

где кернфункция отображает дискретизацию с шагом по частоте подполосы набора фильтров, переменным в соответствии с распределением Вигнера-Вилле окна набора фильтров:where is the core function displays the frequency-stepped sampling of the filterbank subband, variable according to the Wigner-Ville distribution of the filterbank window:

. (20) . (20)

Ядро является вещественным и четным по и по причине вышеупомянутых предположений об оконной функции . Ее преобразование Фурье является произведением характеристик сдвинутых окон:The kernel is real and even in And due to the above assumptions about the window function . Its Fourier transform is the product of the characteristics of the shifted windows:

. (21) . (21)

Из уравнений (20) и (21) видно, что ядро становится исчезающее малым для и обладает быстрым спадом в зависимости от при типичном выборе окон набора фильтров. Как следствие, вторым членом уравнения (19), включающим , часто можно пренебречь за исключением самых нижних подполос.From equations (20) and (21) it is clear that the core becomes vanishingly small for and has a rapid decline depending on with a typical choice of windows set of filters. As a consequence, the second term of equation (19), including , can often be neglected except for the lowest subbands.

Для автокорреляционной функции заданной модели сигнала вышеупомянутые формулы можно вставить в определения ковариационной матрицы дискретных значений подполос, заданной уравнением (3). Получим с определениемFor the autocorrelation function Given a signal model, the above formulas can be inserted into the definitions of the covariance matrix of discrete subband values given by equation (3). We get with definition

. (22) . (22)

В зависимости от спектральной плотности мощности данной модели сигнала (которая соответствует преобразованию Фурье автокорреляционной функции ) находимDepending on power spectral density given signal model (which corresponds to the Fourier transform of the autocorrelation function ) we find

, (23) , (23)

где — преобразование Фурье , где определяют индексы подполос, и где представляет запаздывание интервала времени (). Выражение из уравнения (23) можно переписать какWhere — Fourier transform , Where define the subband indices, and where represents the delay of the time interval ( ). The expression from equation (23) can be rewritten as

(24) (24)

Важное наблюдение заключается в том, что первый член уравнения (24) по существу обладает свойством инвариантности относительно сдвигов по частоте. Если пренебречь вторым членом уравнения (24) и сдвинуть на целое число, в раз превышающее интервал между подполосами , до , можно найти соответствующий сдвиг в ковариациях , где знак зависит от (целочисленных) значений запаздывания по времени . Это отражает преимущество использования набора фильтров с модулированной структурой в сравнении с общим случаем набора фильтров.An important observation is that the first term of equation (24) is essentially invariant with respect to frequency shifts. If we neglect the second term of equation (24) and shift by an integer, in times the interval between subbands , before , we can find the corresponding shift in covariances , where the sign depends on the (integer) time delay values . This reflects the advantage of using a modulated filter bank over the general filter bank case.

Уравнение (24) обеспечивает эффективные средства для определения матричных коэффициентов ковариационной матрицы дискретных значений подполос, если известна PSD лежащей в ее основе модели сигнала. Например, в случае схемы предсказания на основе синусоидальной модели, использующей модель сигнала , содержащую единственную синусоиду с (угловой) частотой , PSD имеет вид: . Подстановка в уравнение (24) дает четыре члена, тремя из которых можно пренебречь в предположении, что является большим числом. Остающийся член обращается в Equation (24) provides an efficient means for determining the covariance matrix coefficients of discrete subband values if the PSD of the underlying signal model is known. For example, in the case of a sine wave prediction scheme using a signal model , containing a single sinusoid with (angular) frequency , PSD looks like: . Substitution into equation (24) gives four terms, three of which can be neglected under the assumption that is a large number. The remaining member turns to

(25) (25)

Уравнение (25) обеспечивает эффективные средства для определения ковариационной матрицы подполосы. Дискретное значение подполосы можно надежно предсказать при помощи совокупности окружающих дискретных значений подполос, которые, как предполагается, оказывают значительное влияние на рассматриваемую частоту. Абсолютную частоту можно выразить в относительном выражении, по отношению к центральной частоте подполосы, как , где — индекс подполосы для подполосы, содержащей частоту , и где — параметр нормированной частоты, принимающий значения от –0,5 до +0,5 и указывающий положение частоты относительно центральной частоты подполосы . Установив ковариационную матрицу подполосы , коэффициенты предсказателя , применяемые к дискретному значению подполосы в подполосе m с индексом дискретного значения l для оценки дискретного значения подполосы в подполосе n с индексом дискретного значения k, находят, решая нормальные уравнения (7), которые в рассматриваемом случае можно записать какEquation (25) provides an efficient means for determining the covariance matrix subbands. Discrete value subbands can be reliably predicted using a population of surrounding discrete values subbands that are expected to have a significant influence on the frequency in question. Absolute frequency can be expressed in relative terms, with respect to the center frequency subbands like , Where — subband index for the subband containing the frequency , and where — normalized frequency parameter, taking values from –0.5 to +0.5 and indicating the frequency position relative to the center frequency of the subband . By establishing the subband covariance matrix , predictor coefficients , applied to a discrete value of a subband in subband m with discrete value index l to estimate the discrete value of a subband in subband n with discrete value index k, are found by solving normal equations (7), which in the case under consideration can be written as

. (26) . (26)

В уравнении (26) множество описывает несущее множество маски предсказания, проиллюстрированное, например, на фиг. 2. Иными словами, множество определяет подполосы m и индексы l дискретных значений, используемые для предсказания целевого дискретного значения.In equation (26) the set describes a prediction mask carrier set illustrated, for example, in FIG. 2. In other words, many defines the m subbands and l sample indices used to predict the target sample.

Ниже иллюстративным образом представлены решения нормальных уравнений (26) для различных несущих множеств маски предсказания (как показано на фиг. 2). Пример причинного внутриполосного предсказателя второго порядка получен путем выбора несущего множества маски предсказания . Такое несущее множество маски предсказания соответствует маске 202 предсказания по фиг. 2. Нормальные уравнения (26) для этого предсказания с двумя ответвлениями при использовании приближения по уравнению (25) обращаются вThe solutions to normal equations (26) for various prediction mask carrier sets (as shown in FIG. 2) are illustrated below. An example of a second-order causal in-band predictor is obtained by selecting the carrier set of the prediction mask . Such a prediction mask carrier set corresponds to the prediction mask 202 of FIG. 2. The normal equations (26) for this two-branch prediction, when using the approximation of equation (25), become

. (27) . (27)

Решение уравнения (27) имеет вид , , и является единственным до тех пор, пока частота не будет выбрана так, что . Можно найти, что среднее значение квадратичной ошибки предсказания в соответствии с уравнением (6) является исчезающе малым. Следовательно, синусоидальное предсказание является совершенным с точностью приближения уравнения (25). Свойство инвариантности относительно сдвигов по частоте здесь проиллюстрировано тем, что при использовании определения коэффициент предсказания можно переписать в выражении нормированной частоты f как . Это означает, что коэффициенты предсказания зависят только от нормированной частоты в пределах отдельной подполосы. Абсолютные значения коэффициентов предсказания, однако, не зависят от индекса подполосы.The solution to equation (27) has the form , , and is unique as long as the frequency will not be chosen so that . It can be found that the average value of the squared prediction error according to equation (6) is vanishingly small. Therefore, the sinusoidal prediction is perfect within the accuracy of the approximation of equation (25). The property of invariance with respect to frequency shifts is illustrated here by the fact that when using the definition coefficient the predictions can be rewritten in terms of the normalized frequency f as . This means that the prediction coefficients depend only on the normalized frequency within a separate subband. The absolute values of the prediction coefficients, however, do not depend on the index subbands.

Как обсуждалось выше для фиг. 4, внутриполосное предсказание имеет некоторые недостатки в отношении артефактов паразитных частот при ограничении шума. Следующий пример относится к улучшенному поведению, проиллюстрированному на фиг. 5. Причинное межполосное предсказание, как следует из настоящего документа, получают, выбирая несущее множество маски предсказания , требующее лишь одного более раннего временного интервала вместо двух и выполняющее ограничение шума с меньшими вкладами паразитных частот, чем для классической маски 202 предсказания из первого примера. Несущее множество маски предсказания соответствует маске 203 предсказания по фиг. 2. Нормальные уравнения (26), основанные на приближении уравнения (25), сокращаются в данном случае до двух уравнений для трех неизвестных коэффициентов , :As discussed above for FIG. 4, in-band prediction has some disadvantages in terms of spurious frequency artifacts when limiting noise. The following example relates to the improved behavior illustrated in FIG. 5. Causal inter-band prediction, as follows herein, is obtained by selecting the carrier set of the prediction mask , requiring only one earlier time slot instead of two and performing noise limitation with lower spurious frequency contributions than the classic prediction mask 202 of the first example. Carrier array of divination masks corresponds to the prediction mask 203 of FIG. 2. Normal equations (26), based on the approximation of equation (25), are reduced in this case to two equations for three unknown coefficients , :

. (28) . (28)

Можно найти, что любое решение уравнений (28) приводит к стремлению к нулю среднего значения квадратичной ошибки предсказания в соответствии с уравнением (6). Возможной стратегией выбора одного решения среди бесконечного количества решений уравнений (28) является минимизация суммы квадратов коэффициентов предсказания. Это приводит к коэффициентам, имеющим вид:It can be found that any solution to equations (28) leads to the tending to zero of the average value of the squared error of prediction in accordance with equation (6). A possible strategy for selecting one solution among an infinite number of solutions to equations (28) is to minimize the sum of squares of the prediction coefficients. This leads to coefficients of the form:

. (29) . (29)

Из формул (29) видно, что коэффициенты предсказания зависят только от нормированной частоты относительно средней точки целевой подполосы , а также зависят от четности целевой подполосы .From formulas (29) it is clear that the prediction coefficients depend only on the normalized frequency relative to the midpoint of the target subband , and also depend on the parity of the target subband .

Используя то же несущее множество маски предсказания для предсказания трех дискретных значений подполос для , как проиллюстрировано маской 204 предсказания по фиг. 2, получают матрицу предсказания размера 3×3. При введении более естественной стратегии во избежание неопределенности в нормальных уравнениях, а именно подставляя ослабленную синусоидальную модель , соответствующую , численные вычисления приводят к элементам матрицы предсказания размера 3×3 по фиг. 3. Элементы матрицы предсказания показаны в зависимости от нормированной частоты в случае перекрытия с синусоидальной оконной функцией и в случае нечетной подполосы .Using the same prediction mask carrier set to predict three discrete values subbands for , as illustrated by the prediction mask 204 of FIG. 2, a prediction matrix of size 3×3 is obtained. By introducing a more natural strategy to avoid uncertainty in the normal equations, namely by substituting a weakened sinusoidal model , corresponding ,numerical calculations lead to the 3x3 prediction matrix elements of,Fig. 3. Elements of the prediction matrix are shown depending on the normalized frequency in case of overlap with sinusoidal window function and in the case of an odd subband .

Таким образом, было показано, что для описания характеристик, лежащих в основе подлежащего кодированию входного звукового сигнала, можно использовать модели сигнала . Параметры, описывающие автокорреляционную функцию , можно передавать в декодер 100, посредством этого делая возможным вычисление декодером 100 предсказателя исходя из переданных параметров и из знания модели сигнала . Было показано, что для наборов модулированных фильтров можно получить эффективные средства для определения ковариационной матрицы подполос модели сигнала и для решения нормальных уравнений с целью определения коэффициентов предсказателя. В частности, было показано, что результирующие коэффициенты предсказателя являются инвариантными относительно сдвигов подполос и, как правило, зависят только от нормированной частоты относительно конкретной подполосы. В результате можно предусмотреть предварительно определяемые справочные таблицы (такие как таблица, проиллюстрированная на фиг. 3), позволяющие определять коэффициенты предсказателя, зная нормированную частоту , не зависящую (без учета значения четности) от индекса подполосы, для которой определяются эти коэффициенты предсказателя.Thus, it has been shown that signal models can be used to describe the characteristics underlying the input audio signal to be encoded . Parameters describing the autocorrelation function , can be transmitted to the decoder 100, thereby making it possible for the decoder 100 to calculate a predictor based on the transmitted parameters and from knowledge of the signal model . It has been shown that modulated filter banks can provide an effective means for determining the subband covariance matrix of a signal model and for solving normal equations to determine predictor coefficients. In particular, it has been shown that the resulting predictor coefficients are invariant with respect to subband shifts and, as a rule, depend only on the normalized frequency with respect to a particular subband. As a result, predefined lookup tables (such as the table illustrated in FIG. 3) can be provided to allow predictor coefficients to be determined given the normalized frequency , independent (without taking into account the parity value) of the index subband for which these predictor coefficients are determined.

Ниже в дальнейших подробностях описывается предсказание на основе периодической модели с применением единственной основной частоты . Автокорреляционная функция такой периодической модели имеет вид уравнения (13). Эквивалентная PSD, или линейчатый спектр, имеет вид:The prediction based on the periodic model using a single fundamental frequency is described in further detail below. . Autocorrelation function such a periodic model has the form of equation (13). The equivalent PSD, or line spectrum, is:

. (30) . (thirty)

Когда период периодической модели является достаточно малым, например , основная частота является достаточно большой, чтобы сделать возможным применение синусоидальной модели, полученной выше с применением частоты гармоники , ближайшей к центральной частоте подполосы подлежащего предсказанию целевого дискретного значения подполосы. Это означает, что с применением вышеописанной синусоидальной модели можно верно смоделировать и предсказать периодические сигналы, имеющие малый период , т.е. период, являющийся малым относительно временного шага набора фильтров.When is the period periodic model is quite small, for example , fundamental frequency is large enough to make it possible to apply the sinusoidal model obtained above using the harmonic frequency , closest to the center frequency subbands target discrete subband value to be predicted. This means that using the sinusoidal model described above, it is possible to correctly simulate and predict periodic signals having a small period , i.e. a period that is small relative to the time step of the filter bank.

Когда период является достаточно большим по сравнению с длительностью окна набора фильтров, предсказатель уменьшается до приближения задержки на . Как будет показано, коэффициенты этого предсказателя можно считывать непосредственно из функции взаимной корреляции форм сигналов, имеющей вид уравнения (19).When is the period is quite large compared to the duration window set of filters, the predictor is reduced until the delay approaches . As will be shown, the coefficients of this predictor can be read directly from the waveform cross-correlation function of the form Equation (19).

Вставка модели в соответствии с уравнением (13) в уравнение (22) приводит к уравнениюInserting the model according to equation (13) into equation (22) results in equation

, (31) , (31)

Важным наблюдением является то, что если , то для каждой ненулевым является самое большее один член уравнения (31), поскольку для. Выбирая несущее множество маски предсказания с диаметром временного интервала , можно наблюдать, что предполагает , и поэтому единственным членом уравнения (31) является член, для которого . Из этого следует, что , что представляет собой скалярное произведение ортогональных форм сигналов и что стремится к нулю как при , так и при . В общем, нормальные уравнения (7) обращаются вAn important observation is that if , then for each at most one term of equation (31) is nonzero, since For . Selecting a prediction mask carrier set with time interval diameter , it can be observed that assumes , and therefore the only term in equation (31) is the term for which . It follows that , which is the scalar product of orthogonal waveforms and which tends to zero as with , and with . In general, normal equations (7) become

. (32) . (32)

Несущее множество маски предсказания можно выбрать так, чтобы оно было центрировано около , и в этом случае правая сторона уравнения (32) вносит свой единственный вклад от . Тогда коэффициенты имеют вид:The prediction mask carrier set can be chosen to be centered around , and in this case the right side of equation (32) makes its only contribution from . Then the coefficients have the form:

, (33) , (33)

при этом можно подставить выражение в явном виде из уравнения (19). Геометрия несущего множества маски предсказания в этом случае могла бы иметь внешний вид несущего множества маски предсказания для маски 205 предсказания по фиг. 2. Среднее значение квадратичной ошибки предсказания, имеющей вид уравнения (6), равно квадратичной норме проекции на интервал, охватываемый дополнением приблизительных форм сигналов , .in this case, you can substitute the expression explicitly from equation (19). The geometry of the prediction mask carrier set in this case could have the appearance of the prediction mask carrier set for prediction mask 205 of FIG. 2. The average value of the quadratic prediction error, which has the form of equation (6), is equal to the quadratic norm of the projection to the interval covered by the addition of approximate waveforms , .

Ввиду вышесказанного из настоящего документа следует, что дискретное значение подполосы (в подполосе p и с временным индексом 0) можно предсказать, используя подходящее несущее множество маски предсказания, центрированное около , с временным диаметром, приблизительно равным Т. Нормальные уравнения можно решать для каждого значения Т и р. Иными словами, для каждой периодичности Т входного звукового сигнала и для каждой подполосы р коэффициенты предсказания при заданном несущем множестве В маски предсказания можно определить, используя нормальные уравнения (33).In view of the above, it follows from this document that the discrete value subbands (in subband p and with time index 0) can be predicted using a suitable carrier set prediction masks centered around , with a time diameter approximately equal to T. Normal equations can be solved for each value of T and p. In other words, for each periodicity T of the input audio signal and for each subband p, the prediction coefficients for a given carrier set B of the prediction mask can be determined using normal equations (33).

При большом количестве подполос р и широком интервале периодов Т сведение в таблицу всех коэффициентов предсказателя напрямую является непрактичным. Но в случае, подобном случаю с синусоидальной моделью, модулированная структура набора фильтров предполагает значительное уменьшение необходимого размера таблицы посредством свойства инвариантности относительно сдвигов по частоте. Как правило, достаточно изучить сдвинутую гармоническую модель с параметром сдвига , центрированную около центра подполосы р, т.е. центрированную около , определяемую подмножеством положительных частот из совокупности частот , ,With a large number of subbands p and a wide interval of periods T, tabulating all predictor coefficients directly is impractical. But in a case like the sinusoidal model, the modulated filterbank structure implies a significant reduction in the required table size through the property of invariance with respect to frequency shifts. Typically, it is sufficient to study the shifted harmonic model with the shift parameter , centered near the center of the subband p, i.e. centered around , defined by the subset positive frequencies from a set of frequencies , ,

. (34) . (34)

Действительно, при заданном Т и достаточно большом индексе р подполосы, периодическую модель в соответствии с уравнением (30) можно воспроизвести с хорошим приближением посредством сдвинутой модели в соответствии с уравнением (34) путем подходящего выбора параметра сдвига. Вставка уравнения (34) в уравнение (24) при и (при этом и определяют индексы подполос около подполосы р из несущего множества маски предсказания) и преобразования на основе анализа Фурье приводят к следующему выражению для ковариационной матрицы:Indeed, for a given T and a sufficiently large subband index p, the periodic model in accordance with equation (30) can be reproduced with a good approximation by the shifted model in accordance with equation (34) by suitable choice of parameter shift Inserting equation (34) into equation (24) at And (wherein And determine the indices of the subbands around the subband p from the carrier set of the prediction mask) and transformations based on Fourier analysis lead to the following expression for the covariance matrix:

. (35) . (35)

Как видно, выражение (35) зависит от индекса р целевой подполосы только посредством коэффициента . Для случая большого периода Т и малого временного запаздывания в выражение (35) вносит вклад только первый член для l=0, и снова можно найти, что ковариационная матрица представляет собой единичную матрицу. Тогда правая сторона нормальных уравнений (26) для подходящего несущего множества В маски предсказания, центрированного около , дает коэффициенты предсказания непосредственно какAs can be seen, expression (35) depends on the index p of the target subband only through the coefficient . For the case of a large period T and a small time delay only the first term for l=0 contributes to expression (35), and again the covariance matrix can be found to be the identity matrix. Then the right-hand side of the normal equations (26) for a suitable prediction mask carrier set B centered around , gives the prediction coefficients directly as

. (36) . (36)

Это воспроизводит вклад первого члена уравнений (19)-(33) с каноническим выбором сдвига .This reproduces the contribution of the first term of equations (19)-(33) with a canonical choice of shift .

Уравнение (36) позволяет определять коэффициенты предсказания для подполосы с временным индексом , при этом подлежащее предсказанию дискретное значение представляет собой дискретное значение из подполосы с временным индексом 0. Как видно из уравнения (36), коэффициенты предсказания зависят от индекса р целевой подполосы только посредством коэффициента , который влияет на знак коэффициента предсказания. Абсолютное значение коэффициента предсказания, однако, не зависит от индекса р целевой подполосы. С другой стороны, коэффициент предсказания зависит от периодичности Т и от параметра сдвига. Кроме того, коэффициент предсказания зависит от и , т.е. от несущего множества В маски предсказания, используемого для предсказания целевого дискретного значения в целевой подполосе р.Equation (36) allows us to determine the coefficients subband predictions with temporary index , wherein the sampled value to be predicted is a sampled value from the subband with time index 0. As can be seen from equation (36), the coefficients predictions depend on the index p of the target subband only through the coefficient , which affects the sign of the prediction coefficient. The absolute value of the prediction coefficient, however, does not depend on the index p of the target subband. On the other hand, the coefficient prediction depends on the periodicity T and the parameter shift In addition, the coefficient predictions depend on And , i.e. from the prediction mask carrier set B used to predict the target sample in the target subband p.

В настоящем документе предлагается создавать справочную таблицу, позволяющую отыскивать набор коэффициентов предсказания для предварительно определенного несущего множества В маски предсказания. Для данного несущего множества В маски предсказания справочная таблица предусматривает набор коэффициентов предсказания для предварительно определенного набора значений периодичности Т и значений параметра сдвига. С целью ограничения количества элементов справочной таблицы следует ограничить количество предварительно определенных значений периодичности Т и количество предварительно определенных значений параметра сдвига. Как видно из выражения (36) подходящая величина шага квантования для предварительно определенных значений периодичности Т и параметра сдвига должна зависеть от периодичности Т. В частности, видно, что для относительно больших периодичностей Т (относительно длительности К оконной функции) можно использовать относительно большие шаги квантования для периодичности Т и параметра сдвига. В другом предельном случае для относительно малых периодичностей Т, стремящихся к нулю, нужно учитывать только один синусоидальный вклад, поэтому периодичность Т теряет свою важность. С другой стороны, формулы для синусоидального предсказания в соответствии с уравнением (29) требуют того, чтобы нормированный сдвиг по абсолютной частоте изменялся медленно, поэтому величину шага квантования для параметра сдвига следует масштабировать на основе периодичности Т.This document proposes to create a lookup table that allows you to search for a set of coefficients predictions for a predetermined carrier set B of the prediction mask. For a given carrier set B of the prediction mask, the lookup table provides a set of coefficients predictions for a predefined set of periodicity values T and parameter values shift In order to limit the number of elements of the lookup table, you should limit the number of predefined values of frequency T and the number of predefined parameter values shift As can be seen from expression (36), the appropriate quantization step size for predetermined values of periodicity T and parameter shift should depend on the periodicity T. In particular, it is clear that for relatively large periodicities T (relative to the duration K of the window function), relatively large quantization steps can be used for the periodicity T and the parameter shift In another limiting case, for relatively small periodicities T tending to zero, only one sinusoidal contribution needs to be taken into account, so the periodicity T loses its importance. On the other hand, the formulas for sinusoidal prediction according to equation (29) require that the normalized absolute frequency shift changed slowly, so the quantization step for the parameter shifts should be scaled based on the periodicity T.

В общем, в настоящем документе предлагается использовать равномерное квантование периодичности Т с фиксированной величиной шага. Параметр сдвига также можно квантовать равномерным образом, однако, с величиной шага, пропорциональной , где значение А зависит от специфики оконной функции набора фильтров. Более того, для Т<2 интервал параметров сдвига можно ограничить как с некоторой постоянной С, отражающей некоторый предел сдвигов по абсолютной частоте.In general, this document proposes to use uniform quantization of periodicity T with a fixed step size. Parameter shift can also be quantized uniformly, however, with a step size proportional to , where the value of A depends on the specifics of the window function of the filter set. Moreover, for T<2 the parameter interval the shift can be limited as with a certain constant C, reflecting a certain limit of shifts by absolute frequency.

Фиг. 6а иллюстрирует один из примеров результирующей сетки квантования в плоскости для А=2. Рассматривается только интервал полной двумерной зависимости, в то время как для остального представляющего интерес интервала можно использовать по существу одномерные параметризации, заданные уравнениями (29) и уравнениями (36). В частности, для периодичностей Т, стремящихся к нулю (например, Т<0,25), предсказание на основе периодической модели по существу соответствует предсказанию на основе синусоидальной модели, и коэффициенты предсказания можно определить, используя формулы (29). С другой стороны, для периодичностей Т, существенно превышающих длительность окна K (например, Т>1,5), с применением уравнения (36) можно определить набор коэффициентов предсказания, использующих предсказание на основе периодической модели. Это уравнение можно переопределить путем подстановки . Находим:Fig. 6a illustrates one example of the resulting quantization grid in the plane for A=2. Only the interval is considered full two-dimensional dependence, while for the remaining interval of interest the essentially one-dimensional parameterizations given by equations (29) and equations (36) can be used. In particular, for periodicities T tending to zero (eg, T<0.25), the prediction based on the periodic model essentially corresponds to the prediction based on the sinusoidal model, and the prediction coefficients can be determined using formulas (29). On the other hand, for periodicities T significantly exceeding the duration of the window K (for example, T>1.5), using equation (36) it is possible to determine a set of coefficients predictions using periodic model prediction. This equation can be redefined by substituting . We find:

. (37) . (37)

Отводя роль, приданную параметру при сведении в таблицу, получается по существу раздельная структура в эквивалентной плоскости . С точностью до изменений знака в зависимости от индексов подполос и временных интервалов зависимость от Т содержится в первом, медленно меняющемся множителе, а зависимость от содержится в 1-периодичном втором множителе в уравнении (37).Retracting role given to the parameter when tabulated, one obtains an essentially separate structure in the equivalent plane . Up to changes in sign depending on the indices of subbands and time intervals, the dependence on T is contained in the first, slowly changing factor, and the dependence on is contained in the 1-periodic second factor in equation (37).

Модифицированный параметр сдвига можно интерпретировать как сдвиг гармонического ряда в единицах основной частоты при измерении от средней точки средних точек исходного и целевого элементов разрешения. Преимущественным является сохранение этой модифицированной параметризации для всех значений периодичностей Т, поскольку симметрии в уравнении (37), очевидные в отношении одновременных изменений знака и , будут в целом сохраняться, и их можно использовать для уменьшения размеров таблиц.Modified parameter The shift can be interpreted as the shift of the harmonic series in units of fundamental frequency when measured from the midpoint of the midpoints of the source and target resolution elements. It is advantageous to retain this modified parameterization for all values of periodicity T, since the symmetries in equation (37) are obvious with respect to simultaneous changes in sign And , will generally be preserved and can be used to reduce table sizes.

Как указано выше, фиг. 6а изображает двумерную сетку квантования, лежащую в основе табличных данных для вычисления предсказателя на основе периодической модели в наборе косинусно-модулированных фильтров. Эта модель сигнала является такой для сигнала с периодом Т 602, измеренным в единицах временного шага набора фильтров. Эквивалентно, эта модель содержит линии частот целочисленных множителей, также известные как гармоники, основной частоты, соответствующей периоду Т. Для каждой целевой подполосы параметр 601 сдвига указывает расстояние от ближайшей гармоники до центральной частоты, измеренное в единицах основной частоты Ω. Параметр 601 сдвига имеет значение –0,5-0,5. Черные кресты 603 на фиг. 6а иллюстрируют соответствующую плотность узловых точек квантования для сведения в таблицу предсказателей с высоким коэффициентом передачи предсказания на основе периодической модели. Для больших периодов (например, Т>2) сетка является равномерной. Повышенная плотность в параметре сдвига, как правило, требуется тогда, когда период Т уменьшается. Однако в области за пределами линий 604 расстояние больше одного элемента разрешения по частоте набора фильтров, поэтому большинством узловых точек сетки в этой области можно пренебречь. Многоугольник 605 ограничивает область, достаточную для полного сведения в таблицу. В дополнение к наклонным линиям немного за пределами линий 604 представлены границы Т=0,25 и Т=1,5. Это возможно, поскольку с небольшими периодами 602 можно обращаться как с отельными синусоидами и поскольку предсказатели для больших периодов 602 можно аппроксимировать по существу одномерными таблицами, зависящими, главным образом, от параметра сдвига (или от модифицированного параметра сдвига). Для варианта осуществления, проиллюстрированного на фиг. 6а, несущее множество маски предсказания, как правило, аналогично маске 205 предсказания по фиг. 2 для больших периодов Т.As stated above, FIG. 6a depicts a two-dimensional quantization grid underlying the table data for computing a predictor based on a periodic model in a cosine modulated filter bank. This signal model is that of a signal with period T 602, measured in units of filter bank time step. Equivalently, this model contains frequency lines of integer factors, also known as harmonics, of the fundamental frequency corresponding to the period T. For each target subband, the parameter 601 offset indicates the distance from the nearest harmonic to the center frequency, measured in units of the fundamental frequency Ω. Parameter 601 shifts have a value of –0.5-0.5. Black crosses 603 in Fig. 6a illustrates the appropriate density of quantization nodes for tabulating high gain predictors based on the periodic model. For large periods (for example, T>2) the grid is uniform. Increased density in parameter a shift is usually required when the period T decreases. However, in the area outside the 604 lines, the distance there is more than one frequency resolution element of the filter bank, so most grid nodes in this region can be neglected. Polygon 605 delimits an area sufficient for complete tabulation. In addition to the slanted lines, boundaries T=0.25 and T=1.5 are presented slightly beyond lines 604. This is possible because small periods 602 can be treated as individual sinusoids and because predictors for large periods 602 can be approximated by essentially one-dimensional tables depending primarily on the parameter shift (or from a modified parameter shift). For the embodiment illustrated in FIG. 6a carrying a prediction mask plurality is generally similar to the prediction mask 205 of FIG. 2 for large periods T.

Фиг. 6b иллюстрирует предсказание на основе периодической модели в случае относительно больших периодов Т и в случае относительно малых периодов Т. Видно, что для больших периодов Т из верхней схемы, т.е. для относительно небольших основных частот Ω 613, оконная функция 612 набора фильтров захватывает относительно большое количество линий, или импульсов 616 Дирака, для PSD периодического сигнала. Импульсы 616 Дирака расположены при частотах 610 , где . Центральные частоты подполос набора фильтров расположены при частотах , где . Для заданной подполосы р расположение частоты импульса 616 с частотой , ближайшей к центральной частоте данной подполосы , можно описать в относительном выражении как , с параметром сдвига в интервале от –0,5 до +0,5. Как таковой, член отражает расстояние (по частоте) от центральной частоты до ближайшей частотной составляющей 616 гармонической модели. Это проиллюстрировано верхней схемой по фиг. 6b, где центральной частотой является и где расстояние 618 проиллюстрировано для случая относительно большого периода Т. Видно, что параметр сдвига позволяет описывать весь гармонический ряд при рассмотрении в перспективе из центра подполосы .Fig. 6b illustrates the prediction based on the periodic model in the case of relatively large periods T and in the case of relatively small periods T. It can be seen that for large periods T from the upper diagram, i.e. for relatively small fundamental frequencies Ω 613, the filter bank window function 612 captures a relatively large number of lines, or Dirac pulses 616, for the PSD of the periodic signal. 616 Dirac pulses are located at frequencies 610 , Where . The central frequencies of the subbands of the filter bank are located at frequencies , Where . For a given subband p, the location of the pulse frequency 616 with frequency , closest to the center frequency of this subband , can be described in relative terms as , with parameter shift in the range from –0.5 to +0.5. As such, member reflects the distance (by frequency) from the center frequency to the nearest frequency component of the 616 harmonic model. This is illustrated by the top diagram of FIG. 6b, where the center frequency is and where is the distance 618 illustrated for the case of a relatively large period T. It can be seen that the parameter shift allows you to describe the entire harmonic series when viewed in perspective from the center of the subband .

Нижняя схема по фиг. 6b иллюстрирует случай относительно малых периодов Т, т.е. относительно больших основных частот Ω 623, особенно основных частот 623, которые больше ширины окна 612. Видно, что в таких случаях оконная функция 612 может содержать только единственный импульс 626 периодического сигнала так, что сигнал можно рассматривать как синусоидальный сигнал в окне 612. Это означает, что для относительно малых периодов Т схема предсказания на основе периодической модели сходится к схеме предсказания на основе синусоидальной модели.The lower diagram in Fig. 6b illustrates the case of relatively short periods T, i.e. relatively large fundamental frequencies Ω 623, especially fundamental frequencies 623 that are larger than the width of the window 612. It will be seen that in such cases the window function 612 may contain only a single pulse 626 of the periodic signal so that the signal can be considered as a sinusoidal signal in the window 612. This means , that for relatively short periods T the prediction scheme based on the periodic model converges to the prediction scheme based on the sinusoidal model.

Фиг. 6b также иллюстрирует примеры масок 611, 621 предсказания, которые можно использовать соответственно для схемы предсказания на основе периодической модели и для схемы предсказания на основе синусоидальной модели. Маска 611 предсказания, используемая для схемы предсказания на основе периодической модели, может соответствовать маске 205 предсказания по фиг. 2 и может содержать несущее множество 614 маски предсказания для оценки целевого дискретного значения 615 подполосы. Маска 621 предсказания, используемая для схемы предсказания на основе синусоидальной модели, может соответствовать маске 203 предсказания по фиг. 2 и может содержать несущее множество 624 маски предсказания для оценки целевого дискретного значения 625 подполосы.Fig. 6b also illustrates examples of prediction masks 611, 621 that can be used respectively for a periodic model-based prediction circuit and for a sine-wave model-based prediction circuit. The prediction mask 611 used for the periodic model based prediction scheme may correspond to the prediction mask 205 of FIG. 2 and may include a prediction mask carrier set 614 for estimating a target subband sample 615. The prediction mask 621 used for the sine wave model-based prediction circuit may correspond to the prediction mask 203 of FIG. 2 and may include a prediction mask carrier set 624 for estimating a target subband sample 625.

Фиг. 7а иллюстрирует пример способа 700 кодирования, включающий предсказание подполосы на основе модели с применением периодической модели (содержащей, например, единственную основную частоту Ω). Рассматривается кадр входного звукового сигнала. Для этого кадра можно определить (этап 701) периодичность Т или основную частоту Ω. Аудиокодер может содержать элементы декодера 100, проиллюстрированного на фиг. 1, в частности аудиокодер может содержать вычислитель 105 предсказателя и предсказатель 103 подполос. Периодичность Т или основную частоту Ω можно определить так, чтобы среднее значение сигналов 111 подполос квадратичных ошибок предсказания в соответствии с уравнением (6) уменьшалось (например, минимизировалось). Для примера, аудиокодер может применять подход «грубой силы», определяющий сигналы 111 подполос ошибок предсказания с применением различных основных частот Ω и определяющий основную частоту Ω, для которой среднее значение сигналов 111 подполос квадратичных ошибок предсказания уменьшается (например, минимизируется). Этот способ продолжается квантованием результирующих сигналов 111 подполос ошибок предсказания (этап 702). Кроме того, способ включает этап генерирования 703 битового потока, содержащего информацию, служащую признаком определенной основной частоты Ω и квантованных сигналов 111 подполос ошибок предсказания.Fig. 7a illustrates an example of a coding method 700 including model-based subband prediction using a periodic model (containing, for example, a single fundamental frequency Ω). A frame of the input audio signal is considered. For this frame, a periodicity T or a fundamental frequency Ω may be determined (step 701). The audio encoder may include elements of the decoder 100 illustrated in FIG. 1, in particular, the audio encoder may include a predictor calculator 105 and a subband predictor 103. The periodicity T or the fundamental frequency Ω can be determined so that the average value of the signals 111 sub-bands of squared prediction errors in accordance with equation (6) is reduced (eg, minimized). For example, an audio encoder may employ a brute force approach of determining the prediction error subband signals 111 using different fundamental frequencies Ω and determining the fundamental frequency Ω for which the average value of the squared prediction error subband signals 111 is reduced (eg, minimized). This method continues by quantizing the resulting prediction error subband signals 111 (step 702). In addition, the method includes the step of generating a bitstream 703 containing information indicative of the determined fundamental frequency Ω and quantized prediction error subband signals 111.

При определении основной частоты Ω на этапе 701, аудиокодер может использовать уравнения (36) и/или (29) с целью определения коэффициентов предсказания для конкретной основной частоты Ω. Набор возможных основных частот Ω может быть ограничен количеством битов, доступных для передачи информации, служащей признаком определенной основной частоты Ω.When determining the fundamental frequency Ω at step 701, the audio encoder may use equations (36) and/or (29) to determine prediction coefficients for a particular fundamental frequency Ω. The set of possible fundamental frequencies Ω may be limited by the number of bits available to convey information indicative of a particular fundamental frequency Ω.

Следует отметить, что система кодирования звука может использовать предварительно определенную модель (например, периодическую модель, содержащую единственную основную частоту Ω, или любую другую из моделей, представленных в настоящем документе) и/или предварительно определенную маску 202, 203, 204, 205 предсказания. С другой стороны, система кодирования звука может быть снабжена дополнительными степенями свободы путем предоставления аудиокодеру возможности определения соответствующей модели и/или соответствующей маски предсказания для подлежащего кодированию звукового сигнала. Информацию относительно выбранной модели и/или выбранной маски предсказания затем кодируют в битовом потоке и доставляют в соответствующий декодер 100.It should be noted that the audio coding system may use a predefined model (eg, a periodic model containing a single fundamental frequency Ω, or any other of the models presented herein) and/or a predefined prediction mask 202, 203, 204, 205. Alternatively, an audio coding system may be provided with additional degrees of freedom by allowing the audio encoder to determine an appropriate model and/or an appropriate prediction mask for the audio signal to be encoded. Information regarding the selected model and/or the selected prediction mask is then encoded into the bit stream and delivered to the appropriate decoder 100.

Фиг. 7b иллюстрирует один из примеров способа 710 декодирования звукового сигнала, который был закодирован с применением предсказания на основе модели. Предполагается, что декодер 100 осведомлен о модели сигнала и маске предсказания, использованных кодером (либо посредством принятого битового потока, либо по причине предварительно определенных установок). Кроме того, в иллюстративных целях предполагается, что была использована периодическая модель предсказания. Декодер 100 извлекает из принятого битового потока информацию относительно основной частоты Ω (этап 711). Используя информацию относительно основной частоты Ω, декодер 100 может определять периодичность Т. Основную частоту Ω и/или периодичность Т можно использовать для определения набора коэффициентов предсказания для разных предсказателей подполос (этап 712). Предсказатели подполос можно использовать для определения оценочных сигналов подполос (этап 713), которые объединяют с деквантованными сигналами 111 подполос ошибок предсказания, получая декодированные сигналы 113 подполос. Декодированные сигналы 113 подполос можно подвергнуть фильтрации (этап 715) с применением набора 102 синтезирующих фильтров, посредством этого получая декодированный звуковой сигнал 114 во временной области.Fig. 7b illustrates one example of a method 710 for decoding an audio signal that has been encoded using model-based prediction. It is assumed that the decoder 100 is aware of the signal model and prediction mask used by the encoder (either through the received bitstream or due to predetermined settings). Additionally, for illustrative purposes, it is assumed that a periodic prediction model was used. Decoder 100 extracts information regarding the fundamental frequency Ω from the received bit stream (step 711). Using information regarding the fundamental frequency Ω, the decoder 100 can determine the periodicity T. The fundamental frequency Ω and/or the periodicity T can be used to determine a set of prediction coefficients for different subband predictors (step 712). The subband predictors can be used to determine estimated subband signals (step 713), which are combined with the dequantized prediction error subband signals 111 to produce decoded subband signals 113. The decoded subband signals 113 may be filtered (step 715) using a synthesis filter bank 102, thereby producing a decoded time domain audio signal 114.

Вычислитель 105 предсказателя может использовать уравнения (36) и/или (29) для определения коэффициентов предсказания для предсказателей 103 подполос на основе принятой информации относительно основной частоты Ω (этап 712). Это можно выполнить эффективно, используя справочную таблицу, проиллюстрированную на фиг. 6а и 3. Для примера, вычислитель 105 предсказателя может определять периодичность Т и определять, лежит ли эта периодичность ниже предварительно определенного нижнего порогового значения (например, Т=0,25). Если это так, то используется схема предсказания на основе синусоидальной модели. Это означает, что на основе принятой основной частоты Ω определяются подполосы р, содержащие кратную частоту , где , основной частоты. Затем с применением отношения определяется нормированная частота f, где частота соответствует кратной частоте , лежащей в подполосе р. Вычислитель 105 предсказателя может затем использовать уравнение (29) или предварительно вычисленную справочную таблицу для определения набора коэффициентов предсказания (с применением маски 203 предсказания по фиг. 2 или маски 621 предсказания по фиг. 6b).The predictor computer 105 may use equations (36) and/or (29) to determine prediction coefficients for the subband predictors 103 based on the received information regarding the fundamental frequency Ω (step 712). This can be done efficiently using the lookup table illustrated in FIG. 6a and 3. For example, the predictor computer 105 may determine the periodicity T and determine whether the periodicity is below a predetermined lower threshold value (eg, T=0.25). If this is the case, then a prediction scheme based on a sinusoidal model is used. This means that based on the accepted fundamental frequency Ω, subbands p containing a multiple of the frequency are determined , Where , fundamental frequency. Then using the relation the normalized frequency f is determined, where the frequency corresponds to a multiple of frequency , lying in the sub-band of the river. Predictor calculator 105 may then use equation (29) or a precomputed lookup table to determine a set of prediction coefficients (using prediction mask 203 of FIG. 2 or prediction mask 621 of FIG. 6b).

Следует отметить, что для каждой подполосы можно определять отличающийся набор коэффициентов предсказания. Однако в случае схемы предсказания на основе синусоидальной модели набор коэффициентов предсказания, как правило, определяется только для подполос р, находящихся под значительным воздействием кратной частоты , где , основной частоты. Для других подполос коэффициенты предсказания не определяются, что означает, что оценочные сигналы 112 подполос для таких других подполос являются нулевыми.It should be noted that a different set of prediction coefficients can be defined for each subband. However, in the case of a prediction scheme based on a sinusoidal model, the set of prediction coefficients is typically determined only for the p subbands that are significantly affected by the frequency multiple , Where , fundamental frequency. For other subbands, prediction coefficients are not determined, which means that the estimated subband signals 112 for such other subbands are zero.

Для того чтобы уменьшить вычислительную сложность декодера 100 (и кодера, использующего такой же вычислитель 105 предсказателя), вычислитель 105 предсказателя может использовать предварительно определенную справочную таблицу, предоставляющую набор коэффициентов предсказания, обусловленных значениями Т и . В частности, вычислитель 105 предсказателя может использовать ряд справочных таблиц для ряда разных значений Т. Каждая таблица из ряда справочных таблиц представляет отличающийся набор коэффициентов предсказания для ряда разных значений параметра сдвига.In order to reduce the computational complexity of the decoder 100 (and the encoder using the same predictor engine 105), the predictor engine 105 may use a predefined lookup table providing a set of prediction coefficients conditional on the values of T and . In particular, the predictor computer 105 may use a number of lookup tables for a number of different values of T. Each table of the set of lookup tables represents a different set of prediction coefficients for a number of different parameter values. shift

В практической реализации ряд справочных таблиц может быть предусмотрен для разных значений параметра Т периода. Для примера, справочные таблицы можно предусмотреть для значений Т в интервале 0,25-2,5 (как проиллюстрировано на фиг. 6а). Справочные таблицы могут быть предусмотрены для предварительно определенной степени разбиения, или величины шага, различных параметров Т периода. В одной из иллюстративных реализаций величина шага для нормированного параметра Т периода составляет 1/16, и для T=8/32-80/32 предусмотрены разные справочные таблицы для квантованных коэффициентов предсказания. Таким образом, может быть предусмотрено всего 37 разных справочных таблиц. Каждая таблица может предусматривать квантованные коэффициенты предсказания в зависимости от параметра сдвига или в зависимости от модифицированного параметра сдвига. Справочные таблицы для T=8/32-80/32 можно использовать для интервала с приращением на половину величины шага, т.е. . Для заданной периодичности, отличающейся от доступных периодичностей, для которых были определены справочные таблицы, можно использовать справочную таблицу для ближайшей доступной периодичности.In a practical implementation, a number of lookup tables may be provided for different values of the period T parameter. For example, lookup tables can be provided for T values in the range of 0.25-2.5 (as illustrated in FIG. 6a). Lookup tables may be provided for a predetermined degree of partitioning, or step size, of the various T period parameters. In one illustrative implementation, the step size for the normalized period parameter T is 1/16, and different lookup tables are provided for the quantized prediction coefficients for T=8/32-80/32. Thus, a total of 37 different lookup tables can be provided. Each table may provide quantized prediction coefficients depending on the parameter shift or depending on the modified parameter shift Lookup tables for T=8/32-80/32 can be used for the interval in increments of half the step size, i.e. . For a given periodicity that is different from the available periodicities for which lookup tables have been defined, you can use the lookup table for the closest available periodicity.

Как было описано выше, для длинных периодов Т (например, для периодов Т, превышающих период, для которого определена справочная таблица) можно использовать уравнение (36). В качестве альтернативы, для периодов Т, превышающих периоды, для которых были определены справочные таблицы, например для периодов Т>81/32, период Т можно разделить на целочисленную задержку Ti и на остаточную задержку Tr так, что T=Ti+Tr. Это разделение может быть таким, что остаточная задержка Tr будет лежать в пределах интервала, для которого применимо уравнение (36) и для которого доступны справочные таблицы, например, в пределах интервала [1,5, 2,5] или [49/32, 81/32] для приведенного выше примера. Действуя таким образом, можно определять коэффициенты предсказания с применением справочной таблицы для остаточной задержки Tr, и предсказатель 103 подполос может действовать на буфере 104 подполос, который был задержан на величину целочисленной задержки Ti. Например, если период T=3,7, то целочисленная задержка может составлять Ti=2, и за ней следует остаточная задержка Tr=1,7. Предсказатель может применяться на основе коэффициентов для Tr=1,7 на буфере сигналов, (дополнительно) задержанном на Ti=2.As described above, for long periods T (eg, for periods T greater than the period for which the lookup table is defined), equation (36) can be used. Alternatively, for periods T greater than the periods for which lookup tables have been defined, for example for periods T>81/32, period T can be divided into an integer delay T i and a residual delay T r such that T=T i + T r . This division may be such that the residual delay T r lies within the interval for which equation (36) applies and for which lookup tables are available, for example within the interval [1.5, 2.5] or [49/32 , 81/32] for the above example. Operating in this manner, prediction coefficients can be determined using a lookup table for the residual delay T r , and the subband predictor 103 can operate on the subband buffer 104 that has been delayed by the amount of integer delay T i . For example, if the period is T=3.7, then the integer delay may be T i =2, followed by a residual delay T r =1.7. The predictor can be applied based on the coefficients for T r =1.7 on a signal buffer (additionally) delayed by T i =2.

Этот подход разделения полагается на разумное предположение о том, что экстрактор аппроксимирует задержку посредством Т в интервале [1,5, 2,5] или [49/32, 81/32]. Преимущество процедуры разделения по сравнению с применением уравнения (36) заключается в том, что коэффициенты предсказания можно определять в вычислительно эффективных операциях на справочных таблицах.This partitioning approach relies on the reasonable assumption that the extractor approximates the delay by T in the interval [1.5, 2.5] or [49/32, 81/32]. The advantage of the partitioning procedure over using equation (36) is that the prediction coefficients can be determined in computationally efficient lookup table operations.

Как было описано выше, для коротких периодов (T<0,25) при определении коэффициентов предсказания можно использовать уравнение (29). В качестве альтернативы, может быть полезно использование (уже доступных) справочных таблиц (с целью уменьшения вычислительной сложности). Было сделано наблюдение, что модифицированный параметр сдвига ограничен интервалом с величиной шага дискретизации (для T<0,25 и для C=1, A=1/2). As described above, for short periods (T<0.25), equation (29) can be used to determine the prediction coefficients. Alternatively, using (already available) lookup tables (to reduce computational complexity) may be useful. It was observed that the modified parameter shift is limited by interval with sampling step size (for T<0.25 and for C=1, A=1/2).

В настоящем документе предложено повторно использовать справочную таблицу для самого нижнего периода Т=0,25 посредством масштабирования модифицированного параметра сдвига коэффициентом , при этом соответствует самому нижнему периоду, для которого доступна справочная таблица (например, Tl=0,25). Для примера, при Т = 0,1 и таблицу для T=0,25 можно запросить с повторно масштабированным параметром сдвига. Действуя таким образом, также можно вычислительно эффективно определять коэффициенты предсказания для коротких периодов (T<0,25) с применением операций поиска в таблицах. Кроме того, можно уменьшить требования к памяти предсказателя, так как можно уменьшить количество справочных таблиц.This paper proposes to reuse the lookup table for the lowest period T=0.25 by scaling the modified parameter shift coefficient , wherein corresponds to the lowest period for which a lookup table is available (for example, T l =0.25). For example, at T = 0.1 and the table for T=0.25 can be queried with the rescaled parameter shift By doing this, it is also possible to determine prediction coefficients for short periods (T<0.25) computationally efficiently using table lookups. In addition, the memory requirements of the predictor can be reduced since the number of lookup tables can be reduced.

В настоящем документе была описана схема предсказания подполос на основе модели. Схема предсказания подполос на основе модели делает возможным эффективное описание предсказателей подполос, т.е. описание, требующее лишь относительно небольшого количества битов. Как результат эффективного описания предсказателей подполос можно использовать схемы межполосного предсказания подполос, ведущие к уменьшению артефактов паразитных частот. В целом, это делает возможным создание аудиокодеров с низкой битовой скоростью передачи данных, использующих предсказание подполос.A model-based subband prediction scheme has been described herein. The model-based subband prediction scheme makes it possible to efficiently describe subband predictors, i.e. a description requiring only a relatively small number of bits. As a result of the efficient description of subband predictors, interband subband prediction schemes can be used, leading to a reduction in spurious frequency artifacts. In general, this makes it possible to create low bit rate audio encoders using subband prediction.

Claims (14)

1. Способ оценки дискретного значения сигнала подполосы из двух или более предыдущих дискретных значений сигнала подполосы, выполняемый устройством обработки звуковых сигналов, при этом сигнал подполосы соответствует одной из множества подполос представления области подполос звукового сигнала, при этом способ включает:1. A method of estimating a subband signal sample from two or more previous subband signal samples, performed by an audio signal processing device, wherein the subband signal corresponds to one of a plurality of subbands representing a subband region of the audio signal, the method comprising: определение данных модели сигнала, содержащих параметр модели;defining signal model data containing a model parameter; определение первого коэффициента предсказания, подлежащего применению к первому предыдущему дискретному значению сигнала подполосы; при этом временной интервал первого предыдущего дискретного значения непосредственно предшествует временному интервалу первого дискретного значения; при этом первый коэффициент предсказания определяют в ответ на параметр модели с применением первой аналитической функции; determining a first prediction coefficient to be applied to the first previous sample value of the subband signal; wherein the time interval of the first previous discrete value immediately precedes the time interval of the first discrete value; wherein the first prediction coefficient is determined in response to the model parameter using the first analytical function; определение второго коэффициента предсказания, подлежащего применению ко второму предыдущему дискретному значению сигнала подполосы; при этом временной интервал второго предыдущего дискретного значения непосредственно предшествует временному интервалу первого предыдущего дискретного значения; при этом второй коэффициент предсказания определяют в ответ на параметр модели с применением второй аналитической функции; иdetermining a second prediction coefficient to be applied to the second previous sample value of the subband signal; wherein the time interval of the second previous discrete value immediately precedes the time interval of the first previous discrete value; wherein a second prediction coefficient is determined in response to a model parameter using a second analytical function; And оценку дискретного значения посредством применения первого коэффициента предсказания к первому предыдущему дискретному значению и посредством применения второго коэффициента предсказания ко второму предыдущему дискретному значению;estimating the sample value by applying a first prediction coefficient to the first previous sample value and by applying a second prediction coefficient to the second previous sample value; при этом первая аналитическая функция и вторая аналитическая функция отличаются, и способ реализуют, по меньшей мере частично, посредством одного или нескольких процессоров устройства обработки звуковых сигналов.wherein the first analytical function and the second analytical function are different, and the method is implemented, at least in part, by one or more processors of the audio signal processing device. 2. Устройство обработки звуковых сигналов, выполненное с возможностью оценки дискретного значения сигнала подполосы из двух или более предыдущих дискретных значений сигнала подполосы, при этом сигнал подполосы соответствует одной из множества подполос представления области подполос звукового сигнала, при этом устройство обработки звуковых сигналов содержит:2. An audio signal processing device configured to estimate a subband signal sample from two or more previous subband signal samples, wherein the subband signal corresponds to one of a plurality of subbands representing a subband region of the audio signal, wherein the audio signal processing device comprises: вычислитель предсказателя, выполненный с возможностью: predictor computer configured to: определения данных модели сигнала, содержащих параметр модели; defining signal model data containing a model parameter; определения первого коэффициента предсказания, подлежащего применению к первому предыдущему дискретному значению сигнала подполосы; при этом временной интервал первого предыдущего дискретного значения непосредственно предшествует временному интервалу первого дискретного значения; при этом первый коэффициент предсказания определяют в ответ на параметр модели с применением первой аналитической функции; иdetermining a first prediction coefficient to be applied to the first previous sample value of the subband signal; wherein the time interval of the first previous discrete value immediately precedes the time interval of the first discrete value; wherein the first prediction coefficient is determined in response to the model parameter using the first analytical function; And определения второго коэффициента предсказания, подлежащего применению ко второму предыдущему дискретному значению сигнала подполосы; при этом временной интервал второго предыдущего дискретного значения непосредственно предшествует временному интервалу первого предыдущего дискретного значения; при этом второй коэффициент предсказания определяют в ответ на параметр модели с применением второй аналитической функции; иdetermining a second prediction coefficient to be applied to the second previous sample value of the subband signal; wherein the time interval of the second previous discrete value immediately precedes the time interval of the first previous discrete value; wherein a second prediction coefficient is determined in response to a model parameter using a second analytical function; And предсказатель подполос, выполненный с возможностью оценки первого дискретного значения посредством применения первого коэффициента предсказания к первому предыдущему дискретному значению и посредством применения второго коэффициента предсказания ко второму предыдущему дискретному значению; a subband predictor configured to estimate the first sample value by applying a first prediction coefficient to the first previous sample value and by applying a second prediction coefficient to the second previous sample value; при этом первая аналитическая функция и вторая аналитическая функция отличаются, и один или несколько из вычислителя предсказателя и предсказателя подполос реализованы, по меньшей мере частично, посредством одного или нескольких процессоров устройства обработки звуковых сигналов.wherein the first analysis function and the second analysis function are different, and one or more of the predictor calculator and the subband predictor are implemented at least in part by one or more processors of the audio signal processing apparatus. 3. Постоянный машиночитаемый носитель данных, содержащий последовательность команд, при осуществлении которых компьютер выполняет способ по п. 1. 3. A permanent machine-readable storage medium containing a sequence of commands, during which the computer executes the method according to claim 1.
RU2020141850A 2013-01-08 2020-12-18 Model-based prediction in set of filters with critical sampling RU2820849C2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US61/750,052 2013-01-08
US61/875,528 2013-09-09

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2017134071A Division RU2742460C2 (en) 2013-01-08 2014-01-07 Predicted based on model in a set of filters with critical sampling rate

Publications (2)

Publication Number Publication Date
RU2020141850A RU2020141850A (en) 2022-06-20
RU2820849C2 true RU2820849C2 (en) 2024-06-11

Family

ID=

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US20060015329A1 (en) * 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
US20090063163A1 (en) * 2007-08-31 2009-03-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding media signal
US20110010168A1 (en) * 2008-03-14 2011-01-13 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
WO2011118018A1 (en) * 2010-03-26 2011-09-29 株式会社フィールドシステム Sending device
US8055506B2 (en) * 2007-02-12 2011-11-08 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method using psychoacoustic frequency
US20110320207A1 (en) * 2009-12-21 2011-12-29 Telefonica, S.A. Coding, modification and synthesis of speech segments
RU2452043C2 (en) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Audio encoding using downmixing
RU2010152580A (en) * 2008-05-23 2012-06-27 Конинклейке Филипс Электроникс Н.В. (Nl) DEVICE FOR PARAMETRIC STEREOPHONIC UPGRADING MIXING, PARAMETRIC STEREOPHONIC DECODER, DEVICE FOR PARAMETRIC STEREOPHONIC LOWER MIXING, PARAMETERIC CEREO

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US20060015329A1 (en) * 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
US8055506B2 (en) * 2007-02-12 2011-11-08 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method using psychoacoustic frequency
US20090063163A1 (en) * 2007-08-31 2009-03-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding media signal
RU2452043C2 (en) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Audio encoding using downmixing
US20110010168A1 (en) * 2008-03-14 2011-01-13 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
RU2010152580A (en) * 2008-05-23 2012-06-27 Конинклейке Филипс Электроникс Н.В. (Nl) DEVICE FOR PARAMETRIC STEREOPHONIC UPGRADING MIXING, PARAMETRIC STEREOPHONIC DECODER, DEVICE FOR PARAMETRIC STEREOPHONIC LOWER MIXING, PARAMETERIC CEREO
US20110320207A1 (en) * 2009-12-21 2011-12-29 Telefonica, S.A. Coding, modification and synthesis of speech segments
WO2011118018A1 (en) * 2010-03-26 2011-09-29 株式会社フィールドシステム Sending device

Similar Documents

Publication Publication Date Title
AU2023203057B2 (en) Model based prediction in a critically sampled filterbank
RU2820849C2 (en) Model-based prediction in set of filters with critical sampling