RU2818033C1 - Device, method or computer program for processing encoded audio scene using parameter smoothing - Google Patents

Device, method or computer program for processing encoded audio scene using parameter smoothing Download PDF

Info

Publication number
RU2818033C1
RU2818033C1 RU2023111685A RU2023111685A RU2818033C1 RU 2818033 C1 RU2818033 C1 RU 2818033C1 RU 2023111685 A RU2023111685 A RU 2023111685A RU 2023111685 A RU2023111685 A RU 2023111685A RU 2818033 C1 RU2818033 C1 RU 2818033C1
Authority
RU
Russia
Prior art keywords
parameter
parameters
transport signal
signal
representation
Prior art date
Application number
RU2023111685A
Other languages
Russian (ru)
Inventor
Франц РОЙТЕЛЬХУБЕР
Гийом ФУКС
Маркус МУЛЬТРУС
Элени ФОТОПОУЛОУ
Штефан БАЙЕР
Ян БЮТЕ
Штефан ДЁЛА
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2818033C1 publication Critical patent/RU2818033C1/en

Links

Abstract

FIELD: physics.
SUBSTANCE: present invention relates to processing audio data and, in particular, to processing an encoded audio scene for the purpose of generating a processed audio scene for rendering, transmission or storage. Apparatus for processing an audio scene, which is a sound field, wherein the audio scene contains information on a transport signal and a first set of parameters. Device comprises a parameter processor for processing a first set of parameters to obtain a second set of parameters, wherein the parameter processor is configured to calculate at least one raw parameter for each output time frame using at least one parameter from the first set of parameters for the input time frame, calculating smoothing information, such as a coefficient for each raw parameter in accordance with a smoothing rule, and applying the corresponding smoothing information to the corresponding raw parameter to extract the parameter from the second set of parameters for the output time frame. Device further comprises an output interface for generating a processed audio scene using a second set of parameters and information on the transport signal.
EFFECT: maintaining minimum total codec delay without deterioration of reproduction quality.
33 cl, 17 dwg, 2 tbl

Description

Настоящее изобретение относится к обработке аудиоданных и, в частности, к обработке кодированной аудиосцены для целей формирования обработанной аудиосцены для рендеринга, передачи или хранения.The present invention relates to audio data processing and, in particular, to encoded audio scene processing for the purpose of generating a processed audio scene for rendering, transmission or storage.

Обычно аудиоприложения, которые обеспечивают средства для пользовательской связи, такие как телефония или видеоконференцсвязь, ограничены главным образом монозаписью и воспроизведением. Тем не менее, в последние годы появление новой иммерсивной технологии VR/AR также приводит к возрастающему интересу к пространственному рендерингу сценариев связи. Для удовлетворения этого интереса в данный момент в разработке находится новый аудиостандарт 3GPP, называемый «иммерсивными услугами передачи голоса и аудио (IVAS)». На основе недавно выпущенного стандарта улучшенных голосовых услуг (EVS) IVAS обеспечивает многоканальные расширения и расширения VR, допускающие рендеринг иммерсивных аудиосцен, например, для пространственной видеоконференцсвязи при одновременном удовлетворении требований по низкой задержке для сглаженной аудиосвязи. Эта постоянная потребность в сохранении минимальной общей задержки кодека без ухудшения качества воспроизведения обеспечивает мотивацию для работы, описанной ниже.Typically, audio applications that provide means for user communication, such as telephony or video conferencing, are limited primarily to mono recording and playback. However, in recent years, the emergence of new immersive VR/AR technology has also led to increasing interest in spatial rendering of communication scenarios. To address this interest, a new 3GPP audio standard called “immersive voice and audio services (IVAS)” is currently in development. Based on the recently released Enhanced Voice Services (EVS) standard, IVAS provides multi-channel and VR extensions that enable the rendering of immersive audio scenes, such as for spatial video conferencing, while meeting low latency requirements for smooth audio communications. This ongoing need to keep overall codec latency as low as possible without compromising playback quality provides the motivation for the work described below.

Кодирование сцено-ориентированного аудиоматериала (SBA) (такого как амбиофоническое содержимое третьего порядка) с помощью системы, которая использует параметрическое кодирование аудио (такое как направленное кодирование аудио (DirAC) [1][2]) на низких скоростях передачи битов (например, в 32 Кбит/с и ниже) обеспечивает возможность непосредственного кодирования только одного (транспортного) канала при восстановлении пространственной информации через боковые параметры в декодере в области гребенки фильтров. В случаях, если компоновка динамиков в декодере допускает только стереовоспроизведение, полное восстановление трехмерной аудиосцены не требуется. Для более высоких скоростей передачи битов, кодирование 2 транспортных каналов или более является возможным, так что в этих случаях стереофоническое воспроизведение сцены может непосредственно извлекаться и воспроизводиться вообще без параметрического пространственного повышающего микширования (при полном пропуске модуля пространственного рендеринга) и дополнительной задержки, которая его сопровождает (например, вследствие дополнительного анализа/синтеза на основе гребенки фильтров, такой как гребенка комплекснозначных фильтров с низкой задержкой (CLDFB)). Тем не менее в низкоскоростных случаях только с одним транспортным каналом это является невозможным. Таким образом, в случае DirAC, к настоящему моменту для стереовывода требуется повышающее микширование на основе FOA (амбиофонии первого порядка) со следующим преобразованием L/R. Это проблематично, поскольку этот случай теперь имеет более высокую полную задержку, чем другие возможные выходные стереоконфигурации в системе, и должно быть желательным совмещение всей выходной стереоконфигурации.Encoding scene-based audio (SBA) material (such as third-order ambiophonic content) with a system that uses parametric audio coding (such as directional audio coding (DirAC) [1][2]) at low bit rates (e.g. 32 Kbit/s and below) provides the ability to directly encode only one (transport) channel while restoring spatial information through side parameters in the decoder in the filter bank region. In cases where the speaker layout in the decoder only allows stereo playback, full reconstruction of the 3D audio scene is not required. For higher bit rates, encoding 2 transport channels or more is possible, so that in these cases the stereo rendering of the scene can be directly extracted and played back without parametric spatial upmixing at all (by skipping the spatial renderer entirely) and the additional delay that accompanies it (eg, due to additional analysis/synthesis based on a filter bank, such as a complex-valued low-delay filter bank (CLDFB)). However, in low-speed cases with only one transport channel this is not possible. So in the case of DirAC, by now stereo output requires FOA (First Order Ambiophony) based upmixing with the following L/R conversion. This is problematic because this case now has a higher total latency than other possible stereo output configurations in the system, and matching the entire stereo output configuration must be desirable.

Пример стереорендеринга DirAC с высокой задержкойExample of DirAC stereo rendering with high latency

Фиг. 12 показывает пример блок-схемы традиционной обработки с помощью декодера для повышающего стереомикширования DirAC с высокой задержкой.Fig. 12 shows an example block diagram of conventional decoder processing for DirAC high latency stereo upmixing.

Например, в кодере, который не иллюстрируется, один канал понижающего микширования извлекается через пространственное понижающее микширование в обработке с помощью кодера DirAC и затем кодируется с помощью базового кодера, к примеру, по стандарту улучшенных голосовых услуг (EVS) [3].For example, in an encoder that is not illustrated, one downmix channel is extracted through spatial downmixing in DirAC encoder processing and then encoded using a base encoder, for example, the enhanced voice services (EVS) standard [3].

В декодере, например, с использованием традиционного процесса повышающего микширования DirAC, изображенного на фиг. 12, один доступный транспортный канал сначала декодируется посредством использования монодекодера или монодекодера 1210 IVAS из потока 1212 битов, приводя к сигналу временной области, который может рассматриваться качестве декодированного понижающего мономикширования 1214 исходной аудиосцены.In a decoder, for example, using the traditional DirAC upmixing process depicted in FIG. 12, one available transport channel is first decoded using a mono decoder or IVAS mono decoder 1210 from a bit stream 1212, resulting in a time domain signal that can be considered as a decoded mono downmix 1214 of the original audio scene.

Декодированный моносигнал 1214 вводится в CLDFB 1220 для анализа сигнала 1214 (преобразования сигнала в частотную область), который вызывает задержку. Существенно задержанный выходной сигнал 1222 вводится в модуль 1230 рендеринга DirAC. Модуль 1230 рендеринга DirAC обрабатывает задержанный выходной сигнал 1222, и передаваемая вспомогательная информация, а именно, боковые параметры 1213 DirAC, используется для преобразования сигнала 1222 в представление FOA, а именно в повышающее микширование 1232 FOA исходной сцены с восстановленной пространственной информацией из боковых параметров 1213 DirAC.The decoded mono signal 1214 is input to the CLDFB 1220 to analyze the signal 1214 (signal to frequency domain conversion) that causes the delay. The substantially delayed output signal 1222 is input to the DirAC renderer 1230 . The DirAC rendering module 1230 processes the delayed output signal 1222, and the transmitted side information, namely the DirAC side parameters 1213, is used to convert the signal 1222 into an FOA representation, namely an FOA upmix 1232 of the original scene with the reconstructed spatial information from the DirAC side parameters 1213 .

Передаваемые параметры 1213 могут содержать направляющие углы, например, одно значение азимута для горизонтальной плоскости и один угол места для вертикальной плоскости и одно значение рассеянности в расчете на полосу частот, чтобы перцепционно описывать полную трехмерную аудиосцену. Вследствие обработки для каждой полосы частот повышающего стереомикширования DirAC, параметры 1213 отправляются многократно в расчете на кадр, а именно, по одному набору для каждой полосы частот. Кроме того, каждый набор содержит несколько параметров направления для отдельных субкадров в полном кадре (например, с длиной на 20 мс), с тем чтобы увеличивать временное разрешение.The transmitted parameters 1213 may include direction angles, such as one azimuth value for the horizontal plane and one elevation angle for the vertical plane, and one dispersion value per bandwidth, to perceptually describe the complete three-dimensional audio scene. Due to the DirAC stereo upmix processing for each frequency band, parameters 1213 are sent multiple times per frame, namely one set for each frequency band. In addition, each set contains multiple direction parameters for individual subframes in the full frame (eg, 20 ms long) in order to increase temporal resolution.

Результат модуля 1230 рендеринга DirAC, например, может представлять собой полную трехмерную сцену в формате FOA, а именно повышающее микширование 1232 FOA, которое может теперь превращаться, с использованием матричных преобразований 1240, в сигнал 1242 L/R, подходящий для воспроизведения в компоновке стереодинамиков. Другими словами, сигнал 1242 L/R может вводиться в стереодинамик или может вводиться в синтез 1250 CLDFB, который использует заданные канальные весовые коэффициенты. Синтез 1250 CLDFB преобразует вводимые два выходных канала (сигнал 1242 L/R) в частотной области во временную область, приводя к выходному сигналу 1252, готовому к стереовоспроизведению.The output of the DirAC renderer 1230, for example, may be a complete 3D scene in FOA format, namely the FOA upmix 1232, which can now be converted, using matrix transforms 1240, into an L/R signal 1242 suitable for playback in a stereo speaker layout. In other words, the L/R signal 1242 may be input to a stereo speaker or may be input to a CLDFB synthesis 1250 that uses predetermined channel weights. The CLDFB synthesis 1250 converts the input two output channels (L/R signal 1242) in the frequency domain into the time domain, resulting in an output signal 1252 ready for stereo playback.

В качестве альтернативы, можно использовать одинаковое повышающее стереомикширование DirAC для непосредственного формирования рендеринга для выходной стереоконфигурации, что исключает промежуточный этап формирования сигнала FOA. Это должно уменьшать алгоритмическую сложность для потенциальной комплексификации инфраструктуры. Тем не менее, оба подхода требуют использования дополнительной гребенки фильтров после базового кодирования, что приводит к дополнительной задержке в 5 мс. Дополнительный пример рендеринга DirAC содержится в [2].Alternatively, equal DirAC stereo upmixing can be used to directly render the output stereo configuration, eliminating the intermediate FOA signal conditioning step. This should reduce algorithmic complexity for potential infrastructure complexification. However, both approaches require the use of an additional filter bank after the base encoding, resulting in an additional 5 ms latency. An additional example of DirAC rendering is contained in [2].

Подход на основе повышающего стереомикширования DirAC является довольно субоптимальным с точки зрения как задержки, так и сложности. Вследствие использования гребенки фильтров CLDFB, вывод существенно задерживается (в примере DirAC на дополнительные 5 мс) и в силу этого имеет одинаковую полную задержку с полным повышающим микшированием SBA (по сравнению с задержкой выходной стереоконфигурации, в которой дополнительный этап рендеринга не требуется). Обоснованное предположение также заключается в том, что проведение полного повышающего микширования SBA для формирования стереосигнала, не является идеальным относительно сложности системы.The DirAC stereo upmixing approach is quite suboptimal in terms of both latency and complexity. Due to the use of the CLDFB filter bank, the output is delayed significantly (in the DirAC example by an additional 5 ms) and therefore has the same total latency with full SBA upmixing (compared to the latency of the output stereo configuration, which does not require an additional rendering step). An educated guess is also that performing a full SBA upmix to produce a stereo signal is not ideal relative to the complexity of the system.

Задача настоящего изобретения состоит в создании усовершенствованной концепции для обработки кодированной аудиосцены.An object of the present invention is to provide an improved concept for processing a coded audio scene.

Данная задача решается устройством для обработки кодированной аудиосцены по пункту 1 формулы, способом обработки кодированной аудиосцены по пункту 32 формулы или компьютерной программой по пункту 33 формулы.This problem is solved by a device for processing a coded audio scene according to claim 1 of the formula, a method for processing a coded audio scene according to claim 32 of the formula, or a computer program according to claim 33 of the formula.

Настоящее изобретение основано на понимании того, что, в соответствии с первым аспектом, связанным с преобразованием параметров, усовершенствованная концепция для обработки кодированной аудиосцены получается посредством преобразования данных параметров в кодированной аудиосцене, связанной с виртуальным положением слушателя, в преобразованные параметры, связанные с канальным представлением данного выходного формата. Эта процедура обеспечивает высокую гибкость при обработке и конечном рендеринге обработанной аудиосцены в канально-ориентированном окружении.The present invention is based on the understanding that, in accordance with the first aspect related to parameter mapping, an improved concept for encoded audio scene processing is obtained by transforming parameter data in the encoded audio scene associated with a virtual listener position into transformed parameters associated with a channel representation of that output format. This procedure provides high flexibility in processing and final rendering of the processed audio scene in a channel-oriented environment.

Вариант осуществления согласно первому аспекту настоящего изобретения содержит устройство для обработки кодированной аудиосцены, представляющей звуковое поле, связанное с виртуальным положением слушателя, причем кодированная аудиосцена содержит информацию в отношении транспортного сигнала, например, базового кодированного аудиосигнала и первого набора параметров, связанных с виртуальным положением слушателя. Устройство содержит преобразователь параметров для преобразования первого набора параметров, например, боковых параметров направленного кодирования аудио (DirAC) в B-формате или формате амбиофонии первого порядка (FOA), во второй набор параметров, например, в стереопараметры, связанные с канальным представлением, содержащим два или более каналов для воспроизведения в заданных пространственных положениях для двух или более каналов, и выходной интерфейс для формирования обработанной аудиосцены с использованием второго набора параметров и информации в отношении транспортного сигнала.An embodiment according to a first aspect of the present invention comprises an apparatus for processing a coded audio scene representing an audio field associated with a virtual listener position, wherein the coded audio scene contains information regarding a transport signal, for example, a base coded audio signal and a first set of parameters associated with the virtual listener position. The apparatus includes a parameter converter for converting a first set of parameters, for example, directional audio coding (DirAC) parameters in a B-format or a first-order ambiphony (FOA) format, into a second set of parameters, for example, stereo parameters associated with a channel representation containing two or more channels for reproduction at specified spatial positions for two or more channels, and an output interface for generating a processed audio scene using a second set of parameters and information regarding the transport signal.

В варианте осуществления, гребенка фильтров на основе кратковременного преобразования Фурье (STFT) используется для повышающего микширования, вместо модуля рендеринга на основе направленного кодирования аудио (DirAC). Таким образом, появляется возможность микширования с повышением одного канала понижающего микширования (включенного в поток битов) в стереовывод вообще без дополнительной полной задержки. За счет использования окон с очень короткими перекрытиями для анализа в декодере, повышающее микширование позволяет оставаться в пределах полной задержки, необходимой для кодеков связи или последующих иммерсивных услуг передачи голоса и аудио (IVAS). Это значение, например, может составлять 32 миллисекунды. В таких вариантах осуществления, постобработка для целей расширения полосы пропускания может вообще исключаться, поскольку такая обработка может выполняться параллельно с преобразованием параметров или преобразованием параметров.In an embodiment, a short time Fourier transform (STFT) filter bank is used for upmixing, instead of a directional audio coding (DirAC) renderer. This makes it possible to upmix one channel of the downmix (included in the bitstream) into stereo output without any additional total latency at all. By using very short overlap windows for analysis at the decoder, upmixing allows you to stay within the full latency required for communications codecs or downstream immersive voice and audio services (IVAS). This value, for example, could be 32 milliseconds. In such embodiments, post-processing for bandwidth expansion purposes may be eliminated altogether, since such processing may be performed in parallel with the parameter mapping or parameter mapping.

Посредством преобразования конкретных для слушателя параметров для сигналов полосы низких частот (LB) в набор конкретных для канала стереопараметров для полосы низких частот, может достигаться повышающее микширование с низкой задержкой для полосы низких частот в области DFT. Для полосы высоких частот, один набор стереопараметров обеспечивает возможность выполнять повышающее микширование в полосе высоких частот во временной области, предпочтительно параллельно со спектральным анализом, спектральным повышающим микшированием и спектральным синтезом для полосы низких частот.By converting listener-specific parameters for the low-band (LB) signals into a set of channel-specific stereo parameters for the low-band, low-latency upmixing of the low-band in the DFT domain can be achieved. For the high band, one set of stereo parameters provides the ability to perform high band upmixing in the time domain, preferably in parallel with spectral analysis, spectral upmixing, and spectral synthesis for the low band.

В качестве примера, преобразователь параметров выполнен с возможностью использования одного параметра бокового усиления для панорамирования и параметра остаточного прогнозирования, который тесно связан со стереошириной, а также тесно связан с параметром рассеянности, используемым в направленном кодировании аудио (DirAC).As an example, the parameter converter is configured to use one side gain parameter for panning and a residual prediction parameter, which is closely related to stereo width, and is also closely related to the dispersion parameter used in directional audio coding (DirAC).

Этот подход на основе «стереорежима DFT» в варианте осуществления обеспечивает возможность того, что кодек IVAS остается в пределах той же полной задержки, что и в EVS, в частности, в 32 миллисекунды, в случае обработки кодированной аудиосцены (сцено-ориентированного аудио) таким образом, чтобы получить стереовывод. За счет реализации простой обработки через стереорежим DFT вместо пространственного рендеринга DirAC, достигается более низкая сложность параметрического повышающего стереомикширования.This "stereo DFT" approach in the embodiment ensures that the IVAS codec remains within the same overall latency as in EVS, in particular 32 milliseconds, in the case of processing encoded audio scene (scene-based audio) such way to get stereo output. By implementing simple processing through DFT stereo instead of DirAC spatial rendering, lower complexity of parametric stereo upmixing is achieved.

Настоящее изобретение основано на понимании того, что, в соответствии со вторым аспектом, связанным с расширением полосы пропускания, получается усовершенствованная концепция для обработки кодированной аудиосцены.The present invention is based on the understanding that, in accordance with the second aspect related to bandwidth expansion, an improved concept for processing a coded audio scene is obtained.

Вариант осуществления согласно второму аспекту настоящего изобретения содержит устройство для обработки аудиосцены, представляющей звуковое поле, причем аудиосцена содержит информацию в отношении транспортного сигнала и набора параметров. Устройство дополнительно содержит выходной интерфейс для формирования обработанной аудиосцены с использованием набора параметров и информации в отношении транспортного сигнала, при этом выходной интерфейс выполнен с возможностью формирования необработанного представления двух или более каналов с использованием набора параметров и транспортного сигнала, модуль многоканального улучшения для формирования улучшающего представления двух или более каналов с использованием транспортного сигнала и модуль комбинирования сигналов для комбинирования необработанного представления двух или более каналов и улучшающего представления двух или более каналов для получения обработанной аудиосцены.An embodiment according to a second aspect of the present invention comprises an apparatus for processing an audio scene representing a sound field, wherein the audio scene contains information regarding a transport signal and a set of parameters. The device further comprises an output interface for generating a processed audio scene using a set of parameters and information regarding the transport signal, wherein the output interface is configured to generate a raw representation of two or more channels using the set of parameters and the transport signal, a multi-channel enhancement module for generating an enhancing representation of two or more channels using a transport signal; and a signal combining module for combining the raw representation of two or more channels and enhancing the representation of two or more channels to obtain a processed audio scene.

Формирование необработанного представления двух или более каналов, с одной стороны, и отдельное формирование улучшающего представления двух или более каналов, с другой стороны, обеспечивают значительную гибкость в выборе алгоритмов для необработанного представления и улучшающего представления. Конечное комбинирование уже осуществляется для каждого из одного или более выходных каналов, т.е. в многоканальной выходной области, а не в более низкой области канального ввода или кодированной сцены. Следовательно, после комбинирования, два или более каналов синтезируются и могут использоваться для дополнительных процедур, таких как рендеринг, передача или хранение.Generating a raw representation of two or more channels, on the one hand, and separately generating an enhancement representation of two or more channels, on the other hand, provide considerable flexibility in the choice of algorithms for the raw representation and the enhancement representation. The final combination is already carried out for each of one or more output channels, i.e. in the multi-channel output region rather than in the lower channel input or encoded scene region. Therefore, after combining, two or more channels are synthesized and can be used for additional procedures such as rendering, transmission or storage.

В варианте осуществления, часть базовой обработки, такая как расширение полосы пропускания (BWE) речевого кодера на основе линейного прогнозирования с возбуждением по алгебраическому коду (ACELP) для улучшающего представления может выполняться параллельно стереообработке DFT для необработанного представления. Таким образом, любые задержки, понесенные посредством обоих алгоритмов, не накапливаются, но только данная задержка, понесенная посредством одного алгоритма, должна представлять собой конечную задержку. В варианте осуществления, только транспортный сигнал, например, сигнал (канал) полосы низких частот (LB), вводится в выходной интерфейс, например, стереообработку DFT, тогда как полоса высоких частот (HB) микшируется с повышением отдельно во временной области, например, посредством использования модуля многоканального улучшения таким образом, что стереодекодирование может обрабатываться в целевом временном окне в 32 миллисекунды. Посредством использования широкополосного панорамирования, например, на основе преобразованных боковых усилений, например, из преобразователя параметров, прямое повышающее микширование во временной области для целой полосы высоких частот получается вообще без существенной задержки.In an embodiment, part of the base processing, such as bandwidth expansion (BWE) of an algebraically code-excited linear prediction (ACELP) speech encoder for the enhancement representation, may be performed in parallel with DFT stereo processing for the raw representation. Thus, any delays incurred by both algorithms do not accumulate, but only a given delay incurred by one algorithm should constitute a final delay. In an embodiment, only the transport signal, e.g., the low band (LB) signal (channel), is input to the output interface, e.g., DFT stereo processing, while the high band (HB) is upmixed separately in the time domain, e.g., by using a multi-channel enhancement module such that stereo decoding can be processed within a target time window of 32 milliseconds. By using wideband panning, eg based on converted side gains, eg from a parameter converter, direct time domain upmixing of the entire high frequency band is achieved without any significant latency at all.

В варианте осуществления, уменьшенная задержка в стереорежиме DFT может не получаться полностью в результате разностей в перекрытии двух преобразований, например, задержки на преобразование в 5 мс, вызываемой посредством CLDFB, и задержки на преобразование в 3,125 мс, вызываемой посредством STFT. Вместо этого, стереорежим DFT использует преимущество того факта, что последние 3,25 мс из целевой задержки кодера EVS в 32 мс по существу исходят из ACELP BWE. Все остальное (оставшиеся миллисекунды до тех пор, пока не будет достигнута целевая задержка кодера EVS) просто искусственно задерживается для обеспечения совмещения двух преобразованных сигналов (сигнала HB повышающего стереомикширования и заполняющего сигнала HB с базовым стереосигналом LB) снова в конце. Следовательно, чтобы исключать дополнительную задержку в стереорежиме DFT, только все остальные компоненты кодера преобразуются, например, в пределах очень короткого перекрытия окон DFT, тогда как ACELP BWE, например, с использованием модуля многоканального улучшения, микшируется с повышением почти без задержек во временной области.In an embodiment, the reduced latency in DFT stereo mode may not be obtained entirely as a result of differences in the overlap of the two transforms, eg, a 5 ms transform delay caused by CLDFB and a 3.125 ms transform delay caused by STFT. Instead, DFT stereo mode takes advantage of the fact that the last 3.25 ms of the EVS encoder target latency of 32 ms essentially comes from the BWE ACELP. Everything else (the remaining milliseconds until the EVS encoder target latency is reached) is simply delayed artificially to ensure that the two converted signals (the stereo upmix HB signal and the HB fill signal with the LB stereo base signal) are combined again at the end. Therefore, to eliminate the additional delay in stereo DFT, only all other encoder components are converted, for example within a very short overlap of DFT windows, while ACELP BWE, for example using a multi-channel enhancer, is upmixed with almost no delay in the time domain.

Настоящее изобретение основано на понимании того, что, в соответствии с третьим аспектом, связанным со сглаживанием параметров, усовершенствованная концепция для обработки кодированной аудиосцены получается посредством выполнения сглаживания параметров относительно времени в соответствии с правилом сглаживания. Таким образом, обработанная аудиосцена, полученная посредством применения сглаженных параметров, а не необработанных параметров, к транспортному каналу(ам), должна иметь повышенное качество звука. Это является, в частности, истинным, когда сглаженные параметры представляют собой параметры повышающего микширования, но для любых других параметров, таких как параметры огибающей или LPC-параметры, или параметры шума, или параметры в виде коэффициентов масштабирования, использование или сглаженные параметры, полученные посредством правила сглаживания, должны приводить к повышенному субъективному качеству звучания полученной обработанной аудиосцены.The present invention is based on the understanding that, in accordance with the third aspect related to parameter smoothing, an improved concept for processing an encoded audio scene is obtained by performing parameter smoothing with respect to time in accordance with a smoothing rule. Thus, the processed audio scene obtained by applying the smoothed parameters rather than the raw parameters to the transport channel(s) should have improved audio quality. This is particularly true when the smoothed parameters are upmix parameters, but for any other parameters such as envelope parameters or LPC parameters or noise parameters or scale factor parameters, use or smooth parameters obtained by smoothing rules should lead to increased subjective sound quality of the resulting processed audio scene.

Вариант осуществления согласно третьему аспекту настоящего изобретения содержит устройство для обработки аудиосцены, представляющей звуковое поле, причем аудиосцена содержит информацию в отношении транспортного сигнала и первого набора параметров. Устройство дополнительно содержит процессор параметров для обработки первого набора параметров для получения второго набора параметров, при этом процессор параметров выполнен с возможностью вычисления по меньшей мере одного необработанного параметра для каждого выходного временного кадра с использованием по меньшей мере одного параметра из первого набора параметров для входного временного кадра, вычислять информацию сглаживания, такую как коэффициент для каждого необработанного параметра, в соответствии с правилом сглаживания и применять соответствующую информацию сглаживания к соответствующему необработанному параметру для извлечения параметра из второго набора параметров для выходного временного кадра, и выходной интерфейс для формирования обработанной аудиосцены с использованием второго набора параметров и информации в отношении транспортного сигнала.An embodiment according to a third aspect of the present invention comprises an apparatus for processing an audio scene representing a sound field, wherein the audio scene contains information regarding a transport signal and a first set of parameters. The device further comprises a parameter processor for processing the first set of parameters to obtain a second set of parameters, wherein the parameter processor is configured to calculate at least one raw parameter for each output time frame using at least one parameter from the first set of parameters for the input time frame , calculate smoothing information such as a coefficient for each raw parameter according to the smoothing rule, and apply the corresponding smoothing information to the corresponding raw parameter to extract a parameter from the second set of parameters for the output time frame, and an output interface to generate a processed audio scene using the second set parameters and information regarding the transport signal.

За счет сглаживания необработанных параметров во времени, сильные флуктуации в усилениях или параметрах между кадрами исключаются. Коэффициент сглаживания определяет силу сглаживания, которая вычисляется адаптивно в предпочтительных вариантах осуществления, посредством процессора параметров, который также имеет, в вариантах осуществления, функциональность преобразователя параметров для преобразования связанных с положением слушателя параметров в связанные с каналом параметры. Адаптивное вычисление обеспечивает возможность получать более быстрый отклик каждый раз, когда аудиосцена внезапно изменяется. Адаптивный коэффициент сглаживания вычисляется для каждой полосы частот из изменения энергий в текущей полосе частот. Энергии для каждой полосы частот вычисляются во всех субкадрах, включенных в кадр. Помимо этого, изменение энергий во времени характеризуется посредством двух средних, кратковременного среднего и долговременного среднего, таким образом, что крайние случаи не оказывают влияние на сглаживание, тогда как менее быстрое увеличение энергии не снижает сглаживание настолько сильно. Таким образом, коэффициент сглаживания вычисляется для каждого стереосубкадра DTF в текущем кадре из частного средних.By smoothing the raw parameters over time, large fluctuations in gains or parameters between frames are eliminated. The smoothing factor determines the strength of the smoothing, which is calculated adaptively in preferred embodiments, by a parameter processor, which also has, in embodiments, parameter converter functionality for converting listener position-related parameters into channel-related parameters. Adaptive computing enables faster response whenever the audio scene suddenly changes. An adaptive smoothing factor is calculated for each frequency band from the change in energies in the current frequency band. The energies for each frequency band are calculated in all subframes included in the frame. In addition, the change in energies over time is characterized by two averages, a short-term average and a long-term average, such that extreme cases do not affect smoothing, while less rapid increases in energy do not reduce smoothing as much. Thus, the smoothing factor is calculated for each DTF stereo subframe in the current frame from the partial averages.

Здесь следует отметить, что все альтернативы или аспекты, поясненные выше и поясненные ниже, могут использоваться отдельно, т.е. без любого аспекта. Тем не менее, в других вариантах осуществления, два или более из аспектов комбинируются друг с другом, и в других вариантах осуществления, все аспекты комбинируются между собой для получения большего компромисса между полной задержкой, достижимым качеством звучания и требуемыми усилиями по реализации.It should be noted here that all the alternatives or aspects explained above and explained below can be used separately, i.e. without any aspect. However, in other embodiments, two or more of the aspects are combined with each other, and in other embodiments, all aspects are combined to obtain a greater compromise between overall latency, achievable audio quality, and required implementation effort.

Ниже предпочтительные варианты осуществления настоящего изобретения поясняются с обращением к сопровождающим чертежам, на которых:Below, preferred embodiments of the present invention are explained with reference to the accompanying drawings, in which:

Фиг. 1 является блок-схемой устройства для обработки кодированной аудиосцены с использованием преобразователя параметров согласно варианту осуществления;Fig. 1 is a block diagram of an apparatus for processing a coded audio scene using a parameter mapper according to an embodiment;

Фиг. 2a иллюстрирует принципиальную схему для первого набора параметров и для второго набора параметров согласно варианту осуществления;Fig. 2a illustrates a circuit diagram for a first set of parameters and for a second set of parameters according to an embodiment;

Фиг. 2b является вариантом осуществления преобразователя параметров или процессора параметров для вычисления необработанного параметра;Fig. 2b is an embodiment of a parameter converter or parameter processor for computing a raw parameter;

Фиг. 2c является вариантом осуществления преобразователя параметров или процессора параметров для комбинирования необработанных параметров;Fig. 2c is an embodiment of a parameter converter or parameter processor for combining raw parameters;

Фиг. 3 является вариантом осуществления преобразователя параметров или процессора параметров для выполнения комбинирования со взвешиванием необработанных параметров;Fig. 3 is an embodiment of a parameter converter or parameter processor for performing combination with weighting of raw parameters;

Фиг. 4 является вариантом осуществления преобразователя параметров для формирования параметров бокового усиления и параметров остаточного прогнозирования;Fig. 4 is an embodiment of a parameter converter for generating lateral gain parameters and residual prediction parameters;

Фиг. 5a является вариантом осуществления преобразователя параметров или процессора параметров для вычисления коэффициента сглаживания для необработанного параметра;Fig. 5a is an embodiment of a parameter converter or parameter processor for calculating a smoothing coefficient for a raw parameter;

Фиг. 5b является вариантом осуществления преобразователя параметров или процессора параметров для вычисления коэффициента сглаживания для полосы частот;Fig. 5b is an embodiment of a parameter converter or parameter processor for calculating a smoothing coefficient for a frequency band;

Фиг. 6 иллюстрирует принципиальную схему усреднения транспортного сигнала для коэффициента сглаживания согласно варианту осуществления;Fig. 6 illustrates a circuit diagram of transport signal averaging for a smoothing coefficient according to an embodiment;

Фиг. 7 является вариантом осуществления преобразователя параметров или процессора параметров для вычисления рекурсивного сглаживания;Fig. 7 is an embodiment of a parameter converter or parameter processor for calculating recursive smoothing;

Фиг. 8 является вариантом осуществления устройства для декодирования транспортного сигнала;Fig. 8 is an embodiment of an apparatus for decoding a transport signal;

Фиг. 9 является вариантом осуществления устройства для обработки кодированной аудиосцены с использованием расширения полосы пропускания;Fig. 9 is an embodiment of an apparatus for processing a coded audio scene using bandwidth expansion;

Фиг. 10 является вариантом осуществления устройства для получения обработанной аудиосцены;Fig. 10 is an embodiment of an apparatus for obtaining a processed audio scene;

Фиг. 11 является блок-схемой варианта осуществления модуля многоканального улучшения;Fig. 11 is a block diagram of an embodiment of a multi-channel enhancement module;

Фиг. 12 является блок-схемой традиционного процесса повышающего стереомикширования DirAC;Fig. 12 is a flow diagram of a conventional DirAC stereo upmixing process;

Фиг. 13 является вариантом осуществления устройства для получения обработанной аудиосцены с использованием преобразования параметров; иFig. 13 is an embodiment of an apparatus for obtaining a processed audio scene using parameter transformation; And

Фиг. 14 является вариантом осуществления устройства для получения обработанной аудиосцены с использованием расширения полосы пропускания.Fig. 14 is an embodiment of an apparatus for obtaining a processed audio scene using bandwidth expansion.

Фиг. 1 иллюстрирует устройство для обработки кодированной аудиосцены 130, например, представляющей звуковое поле, связанное с виртуальным положением слушателя. Кодированная аудиосцена 130 содержит информацию в отношении транспортного сигнала 122, например, потока битов и первого набора 112 параметров, например, множества параметров DirAC, также включенных в потоке битов, которые связаны с виртуальным положением слушателя. Первый набор 112 параметров вводится в преобразователь 110 параметров или процессор параметров, который преобразует первый набор 112 параметров во второй набор 114 параметров, которые связаны с канальным представлением, содержащим по меньшей мере два или более каналов. Устройство допускает поддержку различных аудиоформатов. Аудиосигналы могут быть акустическими по своему характеру, сниматься посредством микрофонов либо электрическими по своему характеру, причем они предположительно должны передаваться в громкоговорители. Поддерживаемые аудиоформаты могут представлять собой моносигнал, сигнал полосы низких частот, сигнал полосы высоких частот, многоканальный сигнал, компоненты амбиофонии первого порядка и высшего порядка и аудиообъекты. Аудиосцена также может описываться посредством комбинирования различных входных форматов.Fig. 1 illustrates an apparatus for processing an encoded audio scene 130, for example representing a sound field associated with a virtual listening position. The encoded audio scene 130 contains information regarding a transport signal 122, eg, a bitstream, and a first set 112 of parameters, eg, a plurality of DirAC parameters, also included in the bitstream, that are associated with the virtual position of the listener. The first set of parameters 112 is input to a parameter converter 110 or parameter processor, which converts the first set of parameters 112 into a second set of parameters 114 that are associated with a channel representation comprising at least two or more channels. The device supports various audio formats. The audio signals may be acoustic in nature, picked up through microphones, or electrical in nature, presumably being transmitted to loudspeakers. Supported audio formats may be mono, low-band, high-band, multi-channel, first-order and higher-order ambiophonic components, and audio objects. An audio scene can also be described by combining different input formats.

Преобразователь 110 параметров выполнен с возможностью вычисления второго набора 114 параметров в качестве параметрических стерео- или многоканальных параметров, например, двух или более каналов, которые вводятся в выходной интерфейс 120. Выходной интерфейс 120 выполнен с возможностью формирования обработанной аудиосцены 124 посредством комбинирования транспортного сигнала 122 или информации в отношении транспортного сигнала и второго набора 114 параметров для получения транскодированной аудиосцены в качестве обработанной аудиосцены 124. Другой вариант осуществления содержит повышающее микширование транспортного сигнала 122 с использованием второго набора 114 параметров в сигнал повышающего микширования, содержащий два или более каналов. Другими словами, преобразователь параметров 120 преобразует первый набор 112 параметров, например, используемых для рендеринга DirAC, во второй набор 114 параметров. Второй набор параметров может содержать параметр бокового усиления, используемый для панорамирования, и параметр остаточного прогнозирования, который, при применении в повышающем микшировании, приводит к улучшенному пространственному изображению аудиосцены. Например, параметры первого набора 112 параметров могут содержать по меньшей мере один из параметра направления поступления, параметра рассеянности, параметра информации направления, связанного со сферой с виртуальным положением прослушивания в качестве начала координат сферы, и параметра расстояния. Например, параметры из второго набора 114 параметров могут содержать по меньшей мере один из параметра бокового усиления, параметра усиления для остаточного прогнозирования, параметра межканальной разности уровней, параметра межканальной разности времен, параметра межканальной разности фаз и параметра межканальной когерентности.The parameter converter 110 is configured to calculate the second set of parameters 114 as parametric stereo or multi-channel parameters, such as two or more channels, that are input to the output interface 120. The output interface 120 is configured to generate a processed audio scene 124 by combining the transport signal 122 or information regarding the transport signal and a second parameter set 114 to obtain the transcoded audio scene as a processed audio scene 124. Another embodiment comprises upmixing the transport signal 122 using the second parameter set 114 into an upmix signal comprising two or more channels. In other words, parameter converter 120 converts a first set of parameters 112, such as those used for DirAC rendering, into a second set 114 of parameters. The second set of parameters may comprise a side gain parameter used for panning and a residual prediction parameter which, when applied in upmixing, results in an improved spatial representation of the audio scene. For example, the parameters of the first parameter set 112 may comprise at least one of an arrival direction parameter, a scatter parameter, a direction information parameter associated with a sphere with the virtual listening position as the sphere origin, and a distance parameter. For example, the parameters from the second parameter set 114 may comprise at least one of a side gain parameter, a residual prediction gain parameter, an inter-channel level difference parameter, an inter-channel time difference parameter, an inter-channel phase difference parameter, and an inter-channel coherence parameter.

Фиг. 2a иллюстрирует принципиальную схему для первого набора 112 параметров и для второго набора 114 параметров согласно варианту осуществления. В частности, изображается разрешение параметров для обоих параметров (первого и второго). Каждая абсцисса на фиг. 2a представляет время, и каждая ордината на фиг. 2a представляет частоту. Как показано на фиг. 2a, входной временной кадр 210, с которым связан первый набор 112 параметров, содержит два или более входных временных субкадров 212 и 213. Непосредственно ниже, выходной временной кадр 220, с которым связан второй набор 114 параметров, показывается на соответствующей схеме, связанной с верхней схемой. Это указывает, что выходной временной кадр 220 меньше по сравнению с входным временным кадром 210, и что выходной временной кадр 220 больше по сравнению с входным временным субкадром 212 или 213. Следует отметить, что входной временной субкадр 212 или 213 и выходной временной кадр 220 могут содержать множество частот в качестве полосы частот. Полоса 230 входных частот может содержать одинаковые частоты с полосами 240 выходных частот. Согласно вариантам осуществления, полосы частот для полосы 230 входных частот и полос 240 выходных частот могут не соединяться или не коррелироваться между собой.Fig. 2a illustrates a circuit diagram for a first parameter set 112 and a second parameter set 114 according to an embodiment. In particular, the parameter resolution for both parameters (first and second) is depicted. Each abscissa in Fig. 2a represents time, and each ordinate in FIG. 2a represents the frequency. As shown in FIG. 2a, the input time frame 210 to which the first parameter set 112 is associated contains two or more input time subframes 212 and 213. Immediately below, the output time frame 220 to which the second parameter set 114 is associated is shown in the corresponding diagram associated with the top scheme. This indicates that the output time frame 220 is smaller compared to the input time frame 210, and that the output time frame 220 is larger compared to the input time subframe 212 or 213. It should be noted that the input time subframe 212 or 213 and the output time frame 220 may contain multiple frequencies as a frequency band. The input frequency band 230 may contain the same frequencies as the output frequency bands 240. According to embodiments, the frequency bands for input frequency band 230 and output frequency bands 240 may not be connected or correlated with each other.

Следует отметить, что боковое усиление и остаточное усиление, которые описываются на фиг. 4, типично вычисляются для кадров таким образом, что для каждого входного кадра 210, одно боковое усиление и одно остаточное усиление вычисляются. Тем не менее, в других вариантах осуществления, не только одно боковое усиление и одно остаточное усиление вычисляются для каждого кадра, но группа боковых усилений и группа остаточных усилений вычисляются для входного временного кадра 210, причем каждое боковое усиление и каждое остаточное усиление связаны с определенным входным временным субкадром 212 или 213, например, полосы частот. Таким образом, в вариантах осуществления, преобразователь 110 параметров вычисляет, для каждого кадра первого набора 112 параметров и второго набора 114 параметров, группу боковых усилений и группу остаточных усилений, причем число боковых и остаточных усилений для входного временного кадра 210 типично равно числу полос 230 входных частот.It should be noted that the lateral reinforcement and residual reinforcement, which are described in FIG. 4 are typically calculated on a per-frame basis such that for each input frame 210, one side gain and one residual gain are calculated. However, in other embodiments, not only one side gain and one residual gain are calculated for each frame, but a group of side gains and a group of residual gains are calculated for the input time frame 210, with each side gain and each residual gain associated with a specific input time subframe 212 or 213, for example, frequency bands. Thus, in embodiments, parameter converter 110 calculates, for each frame of the first parameter set 112 and the second parameter set 114, a side gain group and a residual gain group, wherein the number of side and residual gains for the input time frame 210 is typically equal to the number of input bands 230 frequency

Фиг. 2b показывает вариант осуществления преобразователя 110 параметров для вычисления 250 необработанного параметра 252 из второго набора 114 параметров. Преобразователь 110 параметров вычисляет необработанный параметр 252 для каждого из двух или более входных временных субкадров 212 и 213 последовательно во времени. Например, вычисление 250 извлекает, для каждой полосы 230 входных частот и момента времени (входного временного субкадра 212, 213), преобладающее направление поступления (DOA) азимута θ и преобладающее направление поступления угла места ϕ, и параметр ψ рассеянности.Fig. 2b shows an embodiment of a parameter transformer 110 for calculating 250 a raw parameter 252 from a second parameter set 114. Parameter converter 110 calculates raw parameter 252 for each of two or more input time subframes 212 and 213 sequentially in time. For example, calculation 250 extracts, for each input frequency band 230 and time instant (input time subframe 212, 213), the dominant direction of arrival (DOA) of azimuth θ and the dominant direction of arrival of elevation angle ϕ, and the scattering parameter ψ.

Для направленных компонентов, таких как X, Y и Z, обеспечивается возможность того, что сферические гармоники первого порядка в центральном положении могут извлекаться посредством всенаправленного компонента w(b,n) и параметров DirAC с использованием следующих уравнений:For directional components such as X, Y and Z, it is possible that first order spherical harmonics at the center position can be extracted by the omnidirectional component w(b,n) and DirAC parameters using the following equations:

W-канал представляет ненаправленный монокомпонент сигнала, соответствующий выводу всенаправленного микрофона. X-, Y- и Z-каналы представляют собой направленные компоненты в трех измерениях. Из этих четырех каналов FOA, есть возможность получать стереосигнал (стереоверсию, стереовывод) посредством декодирования, заключающего в себе W-канал и Y-канал, с использованием преобразователя 110 параметров, что приводит к двум кардиоидам, указывающим на углы азимута в +90 градусов и -90 градусов. Вследствие этого факта, следующее уравнение показывает взаимосвязь стереосигнала, левого и правого, в котором, посредством суммирования Y-канала с W-каналом, представляется левый канал L, и в котором, посредством вычитания Y-канала из W-канала, представляется правый канал R.The W channel represents the omnidirectional mono component of the signal corresponding to the output of an omnidirectional microphone. X-, Y-, and Z-channels represent directional components in three dimensions. From these four FOA channels, it is possible to obtain a stereo signal (stereo version, stereo output) through decoding comprising a W channel and a Y channel using a 110 parameter converter, resulting in two cardioids indicating azimuth angles of +90 degrees and -90 degrees. Because of this fact, the following equation shows the relationship of a stereo signal, left and right, in which, by summing the Y channel with the W channel, the left channel L is represented, and in which, by subtracting the Y channel from the W channel, the right channel R is represented .

Другими словами, это декодирование соответствует формированию диаграммы направленности первого порядка, указывающей в двух направлениях, которое может выражаться с использованием следующего уравнения:In other words, this decoding corresponds to first-order beamforming pointing in two directions, which can be expressed using the following equation:

Следовательно, предусмотрена непосредственная взаимосвязь между стереовыводом (левым каналом и правым каналом) и первым набором 112 параметров, а именно параметрами DirAC.Therefore, there is a direct relationship between the stereo output (left channel and right channel) and the first set of parameters 112, namely the DirAC parameters.

Но, с другой стороны, второй набор 114 параметров, а именно, параметры DFT базируются на модели левого L канала и правого R канала на основе среднего сигнала M и бокового сигнала S, которая может выражаться с использованием следующего уравнения:But on the other hand, the second set of 114 parameters, namely, the DFT parameters are based on the model of the left L channel and the right R channel based on the average signal M and the side signal S, which can be expressed using the following equation:

Здесь, M передается в качестве моносигнала (канала), который соответствует всенаправленному каналу W в случае сцено-ориентированного аудиорежима (SBA). Кроме того, в стереорежиме DFT S прогнозируется из M с использованием параметра бокового усиления, который поясняется ниже.Here, M is transmitted as a mono signal (channel), which corresponds to the omnidirectional channel W in the case of scene-based audio (SBA) mode. Moreover, in DFT stereo mode, S is predicted from M using the side gain parameter, which is explained below.

Фиг. 4 показывает вариант осуществления преобразователя 110 параметров для формирования параметров 455 бокового усиления и параметров 456 остаточного прогнозирования, например, с использованием процесса 450 вычисления. Преобразователь 110 параметров предпочтительно обрабатывает вычисление 250 и 450 для вычисления необработанного параметра 252, например, бокового параметра 455 для полосы 241 выходных частот с использованием следующего уравнения:Fig. 4 shows an embodiment of a parameter converter 110 for generating side gain parameters 455 and residual prediction parameters 456, for example, using a calculation process 450. Parameter converter 110 preferably processes calculation 250 and 450 to calculate raw parameter 252, for example, side parameter 455 for output frequency band 241 using the following equation:

Согласно уравнению, b является полосой выходных частот, sidegain является параметром 455 бокового усиления, azimuth является азимутальным компонентом параметра направления поступления, и elevation является компонентом угла места параметра направления поступления. Как показано на фиг. 4, первый набор 112 параметров содержит параметры 456 направления поступления (DOA) для полосы 231 входных частот, как описано выше, и второй набор 114 параметров содержит параметр 455 бокового усиления в расчете на полосу 230 входных частот. Тем не менее, если первый набор 112 параметров дополнительно содержит параметр ψ 453 рассеянности для полосы 231 входных частот, преобразователь 110 параметров выполнен с возможностью вычисления 250 параметра 455 бокового усиления для полосы 241 выходных частот с использованием следующего уравнения:According to the equation, b is the output frequency band, sidegain is the side gain parameter 455, azimuth is the azimuthal component of the arrival direction parameter, and elevation is the elevation component of the arrival direction parameter. As shown in FIG. 4, the first parameter set 112 contains direction of arrival (DOA) parameters 456 for input frequency band 231 as described above, and the second parameter set 114 contains side gain parameter 455 per input frequency band 230. However, if the first parameter set 112 further includes a dissipation parameter ψ 453 for the input frequency band 231, the parameter converter 110 is configured to calculate 250 the side gain parameter 455 for the output frequency band 241 using the following equation:

Согласно уравнению, diff(b) является параметром ψ 453 рассеянности для полосы b 230 входных частот. Следует отметить, что параметры 456 направления из первого набора 112 параметров могут содержать различные диапазоны значений, например, параметр 451 азимута составляет [0;360], параметр 452 угла места составляет [0;180], и результирующий параметр 455 бокового усиления составляет [-1;1]. Как показано на фиг. 2c, преобразователь 110 параметров комбинирует, с использованием модуля 260 комбинирования по меньшей мере два необработанных параметра 252 таким образом, что параметр из второго набора 114 параметров, связанного с выходным временным кадром 220, извлекается.According to the equation, diff(b) is the scattering parameter ψ 453 for the input frequency band b 230. It should be noted that the direction parameters 456 of the first parameter set 112 may contain different ranges of values, for example, the azimuth parameter 451 is [0;360], the elevation parameter 452 is [0;180], and the resulting lateral gain parameter 455 is [- 1;1]. As shown in FIG. 2c, parameter mapper 110 combines, using combiner 260, at least two raw parameters 252 such that a parameter from the second parameter set 114 associated with output time frame 220 is extracted.

Согласно варианту осуществления, второй набор 114 параметров дополнительно содержит параметр 456 остаточного прогнозирования для полосы 241 выходных частот из полос 240 выходных частот, которая показывается на фиг. 4. Преобразователь 110 параметров может использовать, в качестве параметра 456 остаточного прогнозирования для полосы 241 выходных частот, параметр ψ 453 рассеянности из полосы 231 входных частот, как проиллюстрировано посредством модуля 410 остаточного выбора. Если полоса 231 входных частот и полоса 241 выходных частот равны друг другу, то преобразователь 110 параметров использует параметр ψ 453 рассеянности из полосы 231 входных частот. Из параметра ψ 453 рассеянности для полосы 231 входных частот извлекается параметр ψ 453 рассеянности для полосы 241 выходных частот, и параметр ψ 453 рассеянности используется для полосы 241 выходных частот в качестве параметра 456 остаточного прогнозирования для полосы 241 выходных частот. Затем преобразователь 110 параметров может использовать параметр ψ 453 рассеянности из полосы 231 входных частот.According to an embodiment, the second parameter set 114 further includes a residual prediction parameter 456 for the output frequency band 241 of the output frequency bands 240, which is shown in FIG. 4. The parameter converter 110 may use, as a residual prediction parameter 456 for the output frequency band 241, a scatter parameter ψ 453 from the input frequency band 231, as illustrated by the residual selection unit 410. If the input frequency band 231 and the output frequency band 241 are equal to each other, then the parameter converter 110 uses the scatter parameter ψ 453 from the input frequency band 231. From the scatter parameter ψ 453 for the input frequency band 231, the scatter parameter ψ 453 for the output frequency band 241 is extracted, and the scatter parameter ψ 453 is used for the output frequency band 241 as a residual prediction parameter 456 for the output frequency band 241. The parameter converter 110 may then use the scatter parameter ψ 453 from the input frequency band 231.

В стереообработке DFT остаток прогнозирования, с использованием модуля 410 остаточного выбора, предполагается и ожидается некогерентным и моделируется посредством своей энергии и декорреляции остаточных сигналов, идущих в левый L и в правый R. Остаток прогнозирования бокового сигнала S со средним сигналом M в качестве моносигнала (канала) может выражаться следующим образом:In DFT stereo processing, the prediction residual, using the residual selection module 410, is assumed and expected to be incoherent and is modeled by its energy and the decorrelation of the residual signals going to the left L and to the right R. The prediction residual of the side signal S with the middle signal M as the mono signal (channel ) can be expressed as follows:

Его энергия моделируется в стереообработке DFT с использованием усиления для остаточного прогнозирования с использованием следующего уравнения:Its energy is modeled in DFT stereo processing using gain for residual prediction using the following equation:

Поскольку остаточное усиление представляет компонент межканальной некогерентности стереосигнала и пространственной ширины, оно непосредственно взаимосвязано с рассеянной частью, моделируемой посредством DirAC. Следовательно, остаточная энергия может перезаписываться в качестве функции параметра рассеянности DirAC:Since the residual gain represents a component of the inter-channel stereo incoherence and spatial width, it is directly related to the scattered portion modeled by DirAC. Therefore, the residual energy can be rewritten as a function of the dissipation parameter DirAC:

Фиг. 3 показывает преобразователь 110 параметров для выполнения комбинирования 310 со взвешиванием необработанных параметров 252 согласно варианту осуществления. По меньшей мере два необработанных параметра 252 вводятся в комбинирование 310 со взвешиванием, при этом весовые коэффициенты 324 для комбинирования 310 со взвешиванием извлекаются на основе связанного с амплитудой показателя 320 транспортного сигнала 122 в соответствующем входном временном субкадре 212. Кроме того, преобразователь 110 параметров выполнен с возможностью использования в качестве связанного с амплитудой показателя 320 значения энергии или мощности транспортного сигнала 112 в соответствующем входном временном субкадре 212 или 213. Связанный с амплитудой показатель 320 измеряет энергию или мощность транспортного сигнала 122 в соответствующем входном временном субкадре 212, например, таким образом, что весовой коэффициент 324 для этого входного субкадра 212 больше в случае более высокой энергии или мощности транспортного сигнала 122 в соответствующем входном временном субкадре 212 по сравнению с весовым коэффициентом 324 для входного субкадра 212, имеющего более низкую энергию или мощность транспортного сигнала 122 в соответствующем входном временном субкадре 212.Fig. 3 shows a parameter converter 110 for performing a combination 310 with a weighting of the raw parameters 252 according to an embodiment. At least two raw parameters 252 are input to the weighted combination 310, wherein weights 324 for the weighted combination 310 are derived based on the amplitude-related metric 320 of the transport signal 122 in the corresponding input time subframe 212. In addition, the parameter converter 110 is configured with the possibility of using as the amplitude-related metric 320 the energy or power value of the transport signal 112 in the corresponding input time subframe 212 or 213. The amplitude-related metric 320 measures the energy or power of the transport signal 122 in the corresponding input time subframe 212, for example, such that the weighting factor 324 for this input subframe 212 is greater in the case of higher energy or power of the transport signal 122 in the corresponding input time subframe 212 compared to the weighting factor 324 for the input subframe 212 having lower energy or power of the transport signal 122 in the corresponding input time subframe 212.

Как описано выше, параметры направления, параметры азимута и параметры угла места имеют соответствующие диапазоны значений. Тем не менее, параметры направления из первого набора 112 параметров обычно имеют более высокое временное разрешение, чем из второго набора 114 параметров, что означает, что два или более значений азимута и угла места должны использоваться для вычисления одного значения бокового усиления. Согласно варианту осуществления, вычисление основано на энергозависимых весовых коэффициентах, которые могут получаться в качестве вывода связанного с амплитудой показателя 320. Например, для всех K входных временных субкадров 212 и 213 энергия nrg субкадра вычисляется с использованием следующего уравнения:As described above, the heading parameters, azimuth parameters and elevation parameters have corresponding ranges of values. However, the direction parameters from the first parameter set 112 typically have a higher temporal resolution than those from the second parameter set 114, which means that two or more azimuth and elevation values must be used to calculate a single lateral gain value. According to an embodiment, the calculation is based on energy-dependent weighting factors that may be obtained as the output of amplitude-related metric 320. For example, for all K input time subframes 212 and 213, subframe energy nrg is calculated using the following equation:

, ,

где x является входным сигналом временной области, N является числом выборок в каждом субкадре, и i является индексом выборки. Кроме того, для каждого выходного временного кадра l, 230 весовых коэффициентов 324 затем могут вычисляться для доли каждого входного временного субкадра k 212, 213 в каждом выходном временном кадре l следующим образом:where x is the time domain input signal, N is the number of samples in each subframe, and i is the sample index. Additionally, for each output time frame l, 230, weights 324 can then be calculated for the proportion of each input time subframe k 212, 213 in each output time frame l as follows:

Параметры 455 бокового усиления затем в конечном счете вычисляются с использованием следующего уравнения:The lateral gain parameters 455 are then ultimately calculated using the following equation:

Вследствие подобия между параметрами, параметр 453 рассеянности в расчете на полосу частот непосредственно преобразуется в параметр 456 остаточного прогнозирования всех субкадров в той же полосе частот. Подобие может выражаться с помощью следующего уравнения:Due to the similarity between the parameters, the per-band scatter parameter 453 is directly converted to the residual prediction parameter 456 of all subframes in the same frequency band. Similarity can be expressed using the following equation:

Фиг. 5a показывает вариант осуществления преобразователя 110 параметров или процессора параметров для вычисления коэффициента 512 сглаживания для каждого необработанного параметра 252 в соответствии с правилом 514 сглаживания. Кроме того, преобразователь 110 параметров выполнен с возможностью применения коэффициента 512 сглаживания (соответствующего коэффициента сглаживания для одного необработанного параметра) к необработанному параметру 252 (к одному необработанному параметру, соответствующему коэффициенту сглаживания) для извлечения параметра из второго набора 114 параметров для выходного временного кадра 220, а именно параметра выходного временного кадра.Fig. 5a shows an embodiment of a parameter mapper 110 or parameter processor for calculating a smoothing coefficient 512 for each raw parameter 252 in accordance with a smoothing rule 514. In addition, the parameter transformer 110 is configured to apply a smoothing coefficient 512 (the corresponding smoothing coefficient for one raw parameter) to the raw parameter 252 (the one raw parameter corresponding to the smoothing coefficient) to extract the parameter from the second set of parameters 114 for the output time frame 220. namely the output time frame parameter.

Фиг. 5b показывает вариант осуществления преобразователя 110 параметров или процессора параметров для вычисления коэффициента 522 сглаживания для полосы частот с использованием функции 540 сжатия. Функция 540 сжатия может отличаться для различных полос частот, так что сила сжатия функции 540 сжатия является большей для полосы нижних частот, чем для полосы верхних частот. Преобразователь 110 параметров дополнительно выполнен с возможностью вычисления коэффициента 512, 522 сглаживания с использованием выбора 550 максимального предела. Другими словами, преобразователь 110 параметров может получать коэффициент 512, 522 сглаживания посредством использования различных максимальных пределов для различных полос частот, так что максимальный предел для полосы нижних частот выше максимального предела для полосы верхних частот.Fig. 5b shows an embodiment of a parameter converter 110 or parameter processor for calculating a smoothing factor 522 for a frequency band using a compression function 540. The compression function 540 may be different for different frequency bands, such that the compression strength of the compression function 540 is greater for the low band than for the high band. The parameter converter 110 is further configured to calculate a smoothing coefficient 512, 522 using the maximum limit selection 550. In other words, the parameter converter 110 may obtain the smoothing factor 512, 522 by using different maximum limits for different frequency bands, such that the maximum limit for the low-pass band is higher than the maximum limit for the high-pass band.

Как функция 540 сжатия, так и выбор 550 максимального предела вводятся в вычисление 520, получающее коэффициент 522 сглаживания для полосы 522 частот. Например, преобразователь 110 параметров не ограничен использованием двух вычислений 510 и 520 для вычисления коэффициентов 512 и 522 сглаживания таким образом, что преобразователь 110 параметров выполнен с возможностью вычисления коэффициентов 512, 522 сглаживания с использованием только одного блока вычисления, который может выводить коэффициенты 512 и 522 сглаживания. Другими словами, коэффициент сглаживания вычисляется для каждой полосы частот (для каждого необработанного параметра 252) из изменения энергий в текущей полосе частот. Например, посредством использования процесса сглаживания параметров, параметр 455 бокового усиления и параметр 456 остаточного прогнозирования сглаживаются во времени, с тем чтобы исключать сильные флуктуации в усилениях. Поскольку это требует относительно сильного сглаживания большую часть времени, но требует более быстрого отклика каждый раз, когда аудиосцена 130 внезапно изменяется, коэффициент 512, 522 сглаживания, определяющий силу сглаживания, вычисляется адаптивно.Both the compression function 540 and the maximum limit selection 550 are entered into a calculation 520 that produces a smoothing factor 522 for the frequency band 522. For example, the parameter transformer 110 is not limited to using two calculations 510 and 520 to calculate the smoothing coefficients 512 and 522 such that the parameter transformer 110 is configured to calculate the smoothing coefficients 512, 522 using only one calculation block that can output the coefficients 512 and 522 smoothing. In other words, a smoothing factor is calculated for each frequency band (for each raw parameter 252) from the change in energies in the current frequency band. For example, by using a parameter smoothing process, the lateral gain parameter 455 and the residual prediction parameter 456 are smoothed over time so as to eliminate large fluctuations in the gains. Since this requires relatively strong smoothing most of the time, but requires faster response whenever the audio scene 130 suddenly changes, a smoothing factor 512, 522 determining the strength of the smoothing is calculated adaptively.

Следовательно, энергии nrg для каждой полосы частот вычисляются во всех субкадрах k с использованием следующего уравнения:Therefore, the energies nrg for each frequency band are calculated in all k subframes using the following equation:

, ,

где x являются частотными элементами разрешения преобразованного DFT сигнала (действительного и мнимого), и i является индексом элемента выборки по всем элементам разрешения в текущей полосе b частот.where x are the frequency bins of the transformed DFT signal (real and imaginary), and i is the bin index over all bins in the current frequency band b.

Чтобы захватывать изменение энергий во времени, два средних, одно кратковременное среднее 331 и одно долговременное среднее 332, вычисляются с использованием связанного с амплитудой показателя 320 транспортного сигнала 122, как показано на фиг. 3.To capture the change in energies over time, two averages, one short-term average 331 and one long-term average 332, are calculated using the amplitude-related metric 320 of the transport signal 122, as shown in FIG. 3.

Фиг. 6 иллюстрирует принципиальную схему связанного с амплитудой показателя 320, усредняющего транспортный сигнал 122 для коэффициента 512 сглаживания согласно варианту осуществления. Ось X представляет время, и ось Y представляет энергию (транспортного сигнала 122). Транспортный сигнал 122 иллюстрирует схематичную часть синусоидальной функции 122. Как представлено на фиг. 6, вторая временная часть 631 меньше первой временной части 632. Изменение энергий по средним 331 и 332 вычисляется для каждой полосы b частот согласно следующему уравнению:Fig. 6 illustrates a schematic diagram of an amplitude-related metric 320 averaging the transport signal 122 for a smoothing factor 512 according to an embodiment. The X-axis represents time and the Y-axis represents energy (of the transport signal 122). Transport signal 122 illustrates a schematic portion of sine function 122. As shown in FIG. 6, the second time portion 631 is less than the first time portion 632. The change in energies over the averages 331 and 332 is calculated for each frequency band b according to the following equation:

и:And:

, ,

где Nshort и Nlong являются числом предыдущих временных субкадров k, для которых вычисляются отдельные средние. Например, в этом конкретном варианте осуществления, Nshort задано равным значению 3, и Nlong задано равным значению 10.where N short and N long are the number of previous k time subframes for which individual averages are calculated. For example, in this particular embodiment, N short is set to a value of 3, and N long is set to a value of 10.

Кроме того, преобразователь параметров или процессор 110 параметров выполнен с возможностью вычисления коэффициента 512, 522 сглаживания с использованием вычисления 510 на основе соотношения между долговременным средним 332 и кратковременным средним 331. Другими словами, частное двух средних 331 и 332 вычисляется таким образом, что более высокое кратковременное среднее, указывающее недавнее увеличение энергии, приводит к уменьшению сглаживания. Следующее уравнение показывает корреляцию коэффициента 512 сглаживания и двух средних 331 и 312.In addition, the parameter converter or parameter processor 110 is configured to calculate a smoothing coefficient 512, 522 using a calculation 510 based on the relationship between the long-term average 332 and the short-term average 331. In other words, the quotient of the two averages 331 and 332 is calculated such that the higher a short-term average indicating a recent increase in energy results in decreased smoothing. The following equation shows the correlation of the smoothing coefficient 512 and the two averages 331 and 312.

Вследствие того, что более высокие долговременные средние 332, указывающие снижающуюся энергию, не приводят к уменьшенному сглаживанию, коэффициент 512 сглаживания задан равным максимуму в 1 (на данный момент). Как результат, вышеприведенная формула ограничивает минимум до Nshort/Nlong (в этом варианте осуществления как 0,3). Тем не менее коэффициент должен составлять близко к 0 в крайних случаях, вследствие чего значение преобразуется из диапазона [Nshort/Nlong; 1] в диапазон [0;1] с использованием следующего уравнения:Due to the fact that higher long-term averages 332 indicating decreasing energy do not result in reduced smoothing, the smoothing factor 512 is set to a maximum of 1 (for now). As a result, the above formula limits the minimum to N short /N long (in this embodiment as 0.3). However, the coefficient should be close to 0 in extreme cases, causing the value to be converted from the range [N short /N long ; 1] to the range [0;1] using the following equation:

В варианте осуществления, сглаживание уменьшается чрезмерно, по сравнению со сглаживанием, проиллюстрированным выше, так что коэффициент сжимается с помощью функции вычисления корня к значению 1. Поскольку стабильность является особенно важной в наименьших полосах частот, корень четвертой степени используется в полосах частот в b=0 и b=1. Уравнение для наименьших полос частот является следующим:In an embodiment, the smoothing is reduced excessively compared to the smoothing illustrated above, so that the coefficient is compressed using the root-to-value 1 function. Because stability is especially important in the smallest frequency bands, the fourth root is used in the frequency bands at b=0 and b=1. The equation for the smallest frequency bands is:

Уравнение для всех других полос частот в b>1 выполняет сжатие посредством функции вычисления квадратного корня, с использованием следующего уравнения.The equation for all other frequency bands in b>1 performs compression via a square root function using the following equation.

Посредством применения функции вычисления квадратного корня для всех других полос частот в b>1, крайние случаи, в которых энергия может увеличиваться экспоненциально, становятся меньшими, тогда как менее быстрое увеличение энергии не снижает сглаживание настолько сильно.By applying the square root function to all other frequency bands at b>1, the edge cases in which the energy can increase exponentially become smaller, whereas a less rapid increase in energy does not reduce the smoothing as much.

Кроме того, максимальное сглаживание устанавливается в зависимости от полосы частот для следующего уравнения. Следует отметить, что коэффициент в 1 должен просто повторять предыдущее значение без доли текущего усиления.In addition, the maximum smoothing is set depending on the frequency band for the following equation. It should be noted that a gain of 1 should simply repeat the previous value without a fraction of the current gain.

Здесь, bounds[b] представляет данную реализацию с 5 полосами частот, которые задаются согласно следующей таблице:Here, bounds[b] represents this implementation with 5 frequency bands, which are specified according to the following table:

b (= полоса частот)b (= frequency band) bounds[b] (заданное значение в расчете на полосу частот)bounds[b] (set value per bandwidth) 00 0,980.98 11 0,970.97 22 0,950.95 33 0,90.9 44 0,90.9

Коэффициент сглаживания вычисляется для каждого стереосубкадра k DFT в текущем кадре.The smoothing coefficient is calculated for each k DFT stereo subframe in the current frame.

Фиг. 7 показывает преобразователь 110 параметров согласно варианту осуществления с использованием рекурсивного сглаживания 710, в котором как параметр gside[k][b] 455 бокового усиления, так и параметр gpred[k][b] 456 усиления для остаточного прогнозирования рекурсивно сглаживаются согласно следующим уравнениям:Fig. 7 shows a parameter mapper 110 according to an embodiment using recursive smoothing 710, in which both the side gain parameter g side [k][b] 455 and the gain parameter g pred [k][b] 456 for residual prediction are recursively smoothed according to the following equations:

и:And:

Посредством комбинирования параметра для предшествующего выходного временного кадра 532, взвешенного посредством первого весового значения, и необработанного параметра 252 для текущего выходного временного кадра 220, взвешенного посредством второго весового значения, вычисляется рекурсивное сглаживание 710 для последовательных во времени выходных временных кадров для текущего выходного временного кадра. Другими словами, сглаженный параметр для текущего выходного временного кадра вычисляется таким образом, что первое весовое значение и второе весовое значение извлекаются из коэффициента сглаживания для текущего временного кадра.By combining the parameter for the previous output time frame 532 weighted by the first weight value, and the raw parameter 252 for the current output time frame 220 weighted by the second weight value, a recursive smoothing 710 is calculated for time-sequential output time frames for the current output time frame. In other words, the smoothing parameter for the current output time frame is calculated such that the first weight value and the second weight value are derived from the smoothing coefficient for the current time frame.

Эти преобразованные и сглаженные параметры (gside, gpred) вводятся в стереообработку DFT, а именно в выходной интерфейс 120, в котором стереосигнал L/R формируется из понижающего микширования DMX, сигнала PRED остаточного прогнозирования и преобразованных параметров gside и gpred. Например, понижающее микширование DMX получается из понижающего микширования или посредством усовершенствованного стереозаполнения, с использованием всечастотных фильтров или посредством стереозаполнения, с использованием задержки.These converted and smoothed parameters (g side , g pred ) are input to DFT stereo processing, namely output interface 120, in which the stereo L/R signal is generated from the DMX downmix, the residual prediction signal PRED, and the converted parameters g side and g pred . For example, a DMX downmix is obtained from a downmix or through advanced stereo fill using all-pass filters or through stereo fill using a delay.

Повышающее микширование описано следующими уравнениями:Upmixing is described by the following equations:

и:And:

Повышающее микширование обрабатывается для каждого субкадра k во всех элементах i разрешения в полосах b частот, что описано в ранее показанной таблице. Кроме того, каждое боковое усиление gside взвешивается посредством коэффициента gnorm нормализации энергии, вычисленного из энергий понижающего микширования DMX и параметра PRED усиления для остаточного прогнозирования или gpred[k][b], как указано выше.Upmixing is processed for each subframe k in all bins i in the b frequency bands, as described in the previously shown table. In addition, each side gain g side is weighted by the energy normalization factor g norm calculated from the DMX downmix energies and the residual prediction gain parameter PRED or g pred [k][b] as above.

Преобразованное и сглаженное боковое усиление 755 и преобразованное и сглаженное остаточное усиление 756 вводятся в выходной интерфейс 120 для получения сглаженной аудиосцены. Следовательно, обработка кодированной аудиосцены с использованием параметра сглаживания, на основе вышеприведенного описания, приводит к большему компромиссу между достижимым качеством звучания и усилиями по реализации.The converted and smoothed side gain 755 and the converted and smoothed residual gain 756 are input to output interface 120 to produce a smoothed audio scene. Therefore, processing the encoded audio scene using the anti-aliasing parameter, based on the above description, results in a greater trade-off between the achievable audio quality and the implementation effort.

Фиг. 8 показывает устройство для декодирования транспортного сигнала 122 согласно варианту осуществления. (Кодированный) аудиосигнал 816 вводится в базовый декодер 810 транспортных сигналов для базового декодирования (базового кодированного) аудиосигнала 816, чтобы получать (декодированный необработанный) транспортный сигнал 812, который вводится в выходной интерфейс 120. Например, транспортный сигнал 122 может представлять собой кодированный транспортный сигнал 812, который выводится из базового кодера 810 транспортных сигналов. (Декодированный) транспортный сигнал 812 вводится в выходной интерфейс 120, который выполнен с возможностью формирования необработанного представления 818 двух или более каналов, например, левого канала и правого канала, с использованием набора 814 параметров, содержащего второй набор 114 параметров. Например, базовый декодер 810 транспортных сигналов для декодирования базового кодированного аудиосигнала для получения транспортного сигнала 122, представляет собой декодер ACELP. Кроме того, базовый декодер 810 выполнен с возможностью подачи декодированного необработанного транспортного сигнала 812 в двух параллельных ветвях, причем первая ветвь из двух параллельных ветвей содержит выходной интерфейс 120, и вторая ветвь из двух параллельных ветвей содержит модуль 820 улучшения транспортных сигналов или модуль 990 многоканального улучшения либо и то, и другое. Модуль 940 комбинирования сигналов выполнен с возможностью приёма первого ввода, который должен комбинироваться из первой ветви, и второго ввода, который должен комбинироваться из второй ветви.Fig. 8 shows an apparatus for decoding a transport signal 122 according to an embodiment. The (encoded) audio signal 816 is input to a base transport decoder 810 to base decode the (base encoded) audio signal 816 to obtain a (decoded raw) transport signal 812, which is input to an output interface 120. For example, the transport signal 122 may be an encoded transport signal. 812, which is derived from the base transport signal encoder 810. The (decoded) transport signal 812 is input to an output interface 120, which is configured to generate a raw representation 818 of two or more channels, for example, a left channel and a right channel, using a parameter set 814 containing a second parameter set 114. For example, the base transport signal decoder 810 for decoding the base encoded audio signal to obtain the transport signal 122 is an ACELP decoder. In addition, the base decoder 810 is configured to supply the decoded raw transport signal 812 in two parallel branches, wherein the first branch of the two parallel branches includes an output interface 120, and the second branch of the two parallel branches contains a transport signal enhancement module 820 or a multi-channel enhancement module 990 or both. The signal combining unit 940 is configured to receive a first input that is to be combined from the first branch and a second input that is to be combined from the second branch.

Как показано на фиг. 9 устройство для обработки кодированной аудиосцены 130 может использовать процессор 910 расширения полосы пропускания. Транспортный сигнал 901 полосы низких частот вводится в выходной интерфейс 120 для получения двухканального представления 972 в полосе низких частот транспортного сигнала. Следует отметить, что выходной интерфейс 120 обрабатывает транспортный сигнал 901 в частотной области 955, например, во время процесса 960 повышающего микширования и преобразует двухканальный транспортный сигнал 901 во временной области 966. Это осуществляется посредством преобразователя 970, который преобразует микшированное с повышением спектральное представление 962, которое представляет частотную область 955, во временную область для получения двухканального представления 972 в полосе низких частот транспортного сигнала.As shown in FIG. 9, the apparatus for processing the encoded audio scene 130 may use a bandwidth expansion processor 910. The lowband transport signal 901 is input to the output interface 120 to obtain a two-channel lowband representation 972 of the transport signal. It should be noted that the output interface 120 processes the transport signal 901 in the frequency domain 955, for example, during the upmixing process 960, and converts the two-channel transport signal 901 in the time domain 966. This is accomplished by a converter 970, which converts the upmixed spectral representation 962, which represents the frequency domain 955, into the time domain to obtain a two-channel low-band representation 972 of the transport signal.

Как показано на фиг. 8, одноканальный транспортный сигнал 901 полосы низких частот вводится в преобразователь 950, выполняющий, например, преобразование временной части транспортного сигнала 901, соответствующей выходному временному кадру 220, в спектральное представление 952 транспортного сигнала 901, т.е. из временной области 966 в частотную область 955. Например, как описано на фиг. 2, часть (выходного временного кадра) меньше входного временного кадра 210, в котором организуются параметры 252 первого набора 112 параметров.As shown in FIG. 8, a single-channel low-band transport signal 901 is input to a converter 950 that performs, for example, converting the time portion of the transport signal 901 corresponding to the output time frame 220 into a spectral representation 952 of the transport signal 901, i.e. from time domain 966 to frequency domain 955. For example, as described in FIG. 2, a portion (of the output time frame) is smaller than the input time frame 210 in which the parameters 252 of the first parameter set 112 are organized.

Спектральное представление 952 вводится в повышающий микшер 960 для повышающего микширования спектрального представления 952, с использованием, например, второго набора 114 параметров таким образом, чтобы получить микшированное с повышением спектральное представление 962, которое (по-прежнему) обрабатывается в частотной области 955. Как указано выше, микшированное с повышением спектральное представление 962 вводится в преобразователь 970 для преобразования микшированного с повышением спектрального представления 962, а именно каждого канала из двух или более каналов, из частотной области 955 во временную область 966 (временное представление), чтобы получать представление 972 в полосе низких частот. Таким образом вычисляются два или более каналов в микшированном с повышением спектральном представлении 962. Предпочтительно, выходной интерфейс 120 выполнен с возможностью работы в области комплексного дискретного преобразования Фурье, при этом операция повышающего микширования выполняется в области комплексного дискретного преобразования Фурье. Преобразование из области комплексного дискретного преобразования Фурье обратно в действительнозначное представление во временной области проводится с использованием преобразователя 970. Другими словами, выходной интерфейс 120 выполнен с возможностью формирования необработанного представления двух или более каналов с использованием повышающего микшера 960 во второй области, а именно в частотной области 955, при этом первая область представляет временную область 966.The spectral representation 952 is input to an upmixer 960 to upmix the spectral representation 952, using, for example, a second set of parameters 114 so as to obtain an upmixed spectral representation 962, which is (still) processed in the frequency domain 955. As indicated. above, the upmixed spectral representation 962 is input to a converter 970 to convert the upmixed spectral representation 962, namely each channel of two or more channels, from the frequency domain 955 to the time domain 966 (time representation) to obtain the band representation 972 low frequencies. In this way, two or more channels are calculated in the upmixed spectral representation 962. Preferably, the output interface 120 is configured to operate in the complex discrete Fourier transform domain, with the upmixing operation performed in the complex discrete Fourier transform domain. Conversion from the complex discrete Fourier transform domain back to a real-valued time domain representation is carried out using transformer 970. In other words, output interface 120 is configured to generate a raw representation of two or more channels using upmixer 960 in a second domain, namely the frequency domain. 955, with the first region representing a temporary region 966.

В варианте осуществления, операция повышающего микширования повышающего микшера 960 основана на следующем уравнении:In an embodiment, the upmixing operation of upmixer 960 is based on the following equation:

= =

иAnd

= , = ,

- при этом является транспортным сигналом 901 для кадра t и частотного элемента k разрешения, при этом является параметром 455 бокового усиления для кадра t и подполосы b частот, при этом является параметром 456 усиления для остаточного прогнозирования для кадра t и подполосы b частот, при этом gnorm является энергетическим регулирующим коэффициентом, который может использоваться или не использоваться, и при этом является необработанным остаточным сигналом для кадра t и частотного элемента k разрешения.- wherein is the transport signal 901 for frame t and frequency bin k, wherein is the side gain parameter 455 for frame t and frequency subband b, wherein is a gain parameter 456 for residual prediction for frame t and frequency subband b, wherein g norm is an energy control coefficient that may or may not be used, and wherein is the raw residual signal for frame t and frequency bin k.

Транспортный сигнал 902, 122 обрабатывается во временной области 966, в отличие от транспортного сигнала 901 полосы низких частот. Транспортный сигнал 902 вводится в процессор 910 расширения полосы пропускания (процессор BWE) для формирования сигнала 912 полосы высоких частот и вводится в многоканальный фильтр 930 для применения операции многоканального заполнения. Сигнал 912 полосы высоких частот вводится в повышающий микшер 920 для повышающего микширования сигнала 912 полосы высоких частот в микшированный с повышением сигнал 922 полосы высоких частот с использованием второго набора 144 параметров, а именно, параметра выходного временного кадра 262, 532. Например, повышающий микшер 920 может применять процесс широкополосного панорамирования во временной области 966 к сигналу 912 полосы высоких частот с использованием по меньшей мере одного параметра из второго набора 114 параметров.The transport signal 902, 122 is processed in the time domain 966, as opposed to the low band transport signal 901. The transport signal 902 is input to a bandwidth extension processor 910 (BWE processor) to generate a high band signal 912 and is input to a multi-channel filter 930 to apply a multi-channel padding operation. The high band signal 912 is input to the upmixer 920 to upmix the high band signal 912 into the upmixed high band signal 922 using a second set of parameters 144, namely, the output time frame parameter 262, 532. For example, upmixer 920 may apply a time domain wideband panning process 966 to the high band signal 912 using at least one parameter from the second set of parameters 114.

Представление 972 в полосе низких частот, микшированный с повышением сигнал 922 полосы высоких частот и многоканальный заполненный транспортный сигнал 932 вводятся в модуль 940 комбинирования сигналов для комбинирования, во временной области 966, результата широкополосного панорамирования 922, результата стереозаполнения 932 и представления 972 в полосе низких частот двух или более каналов. Это комбинирование приводит в результате к многоканальному сигналу 942 полной полосы частот во временной области 966 в качестве канального представления. Как указано ранее, преобразователь 970 преобразует каждый канал из двух или более каналов в спектральном представлении 962 во временное представление, чтобы получать необработанное временное представление 972 двух или более каналов. Следовательно, модуль 940 комбинирования сигналов комбинирует необработанное временное представление двух или более каналов и улучшающее временное представление двух или более каналов.The low band representation 972, the upmixed high band signal 922, and the multi-channel filled transport signal 932 are input to a signal combiner 940 to combine, in the time domain 966, the wideband panning result 922, the stereo fill result 932, and the low band representation 972 two or more channels. This combination results in a full-bandwidth multi-channel time domain signal 942 966 as a channel representation. As stated previously, converter 970 converts each channel of the two or more channels in the spectral representation 962 into a temporal representation to obtain a raw temporal representation 972 of the two or more channels. Therefore, signal combining module 940 combines the raw temporal representation of two or more channels and the enhancing temporal representation of two or more channels.

В варианте осуществления, только транспортный сигнал 901 полосы низких частот (LB) вводится в обработке (в стереорежиме DFT) в выходном интерфейсе 120, тогда как транспортный сигнал 912 полосы высоких частот (HB) микшируется с повышением (с использованием повышающего микшера 920) отдельно во временной области. Такой процесс реализуется через операцию панорамирования с использованием процессора 910 BWE плюс стереозаполнение во временной области, с использованием модуля 930 многоканального заполнения для формирования доли объемного окружения. Процесс панорамирования содержит широкополосное панорамирование, которое основано на преобразованных боковых усилениях, например, на преобразованном и сглаженном боковом усилении 755 в расчете на кадр. Здесь, предусмотрено только одно усиление в расчете на кадр, покрывающее полную частотную область полосы высоких частот, что упрощает вычисление левого и правого каналов полосы высоких частот из канала понижающего микширования, который основан на следующих уравнениях:In an embodiment, only the low band (LB) transport signal 901 is input into processing (in DFT stereo mode) at output interface 120, while the high band (HB) transport signal 912 is upmixed (using upmixer 920) separately at time domain. This process is implemented through a panning operation using the BWE processor 910 plus time-domain stereo fill, using the multi-channel fill module 930 to generate the surround portion. The panning process comprises wideband panning that is based on converted side gains, for example, a converted and smoothed side gain 755 per frame. Here, there is only one gain per frame covering the entire highband frequency domain, which simplifies the calculation of the left and right highband channels from the downmix channel, which is based on the following equations:

иAnd

для каждой выборки i в каждом субкадре k.for each sample i in each subframe k.

Сигнал PREDhb стереозаполнения полосы высоких частот, а именно, многоканальный заполненный транспортный сигнал 932 получается посредством задержки HBdmx и его взвешивания посредством gside,hb и дополнительно с использованием коэффициента gnorm нормализации энергии, как описано в следующих уравнениях:The stereo high band fill signal PRED hb , namely the multi-channel filled transport signal 932, is obtained by delaying HB dmx and weighting it by g side,hb and additionally using the energy normalization factor g norm , as described in the following equations:

иAnd

для каждой выборки i в текущем временном кадре (проводится для полного временного кадра 210, а не для временных субкадров 213 и 213); d является числом выборок, на которое понижающее микширование полосы высоких частот задерживается для формирования заполняющего сигнала 932, полученного посредством модуля 930 многоканального заполнения. Другие способы для формирования заполняющего сигнала, за исключением задержки, могут приспосабливаться, такие как усовершенствованная обработка декорреляции либо использование шумового сигнала или любого другого сигнала, извлекаемого из транспортного сигнала другим способом по сравнению с задержкой.for each sample i in the current time frame (done for the full time frame 210, not for time subframes 213 and 213); d is the number of samples by which the high band downmix is delayed to generate fill signal 932 obtained by multi-channel fill module 930. Other methods for generating a fill signal other than delay can be adapted, such as improved decorrelation processing or the use of a noise signal or any other signal extracted from the transport signal in a different manner than delay.

Как панорамированный стереосигнал 972 и 922, так и сформированный сигнал 932 стереозаполнения комбинируются (микшируются обратно) в базовый сигнал после синтеза DFT с использованием модуля 940 комбинирования сигналов.Both the panned stereo signal 972 and 922 and the generated stereo fill signal 932 are combined (backmixed) into a base signal after DFT synthesis using a signal combiner 940 .

Этот описанный процесс для полосы высоких частот ACELP также отличается от обработки DirAC с более высокой задержкой, в которой базовые кадры ACELP и кадры ACELP TCX искусственно задерживаются таким образом, что они совмещаются с полосой высоких частот ACELP. Таким образом, CLDFB (анализ) выполняется для полного сигнала, что означает то, повышающее микширование полосы ACELP высоких частот также проводится в области CLDFB (в частотной области).This described process for the ACELP high band also differs from the higher latency DirAC processing, in which ACELP base frames and ACELP TCX frames are artificially delayed such that they are co-located with the ACELP high band. Thus, CLDFB (analysis) is performed on the overall signal, which means that upmixing of the ACELP high frequency band is also performed in the CLDFB (frequency domain) region.

Фиг. 10 показывает вариант осуществления устройства для получения обработанной аудиосцены 124. Транспортный сигнал 122 вводится в выходной интерфейс 120 для формирования необработанного представления 972 двух или более каналов, с использованием второго набора 114 параметров и в модуль 990 многоканального улучшения для формирования улучшающего представления 992 двух или более каналов. Например, модуль 990 многоканального улучшения выполнен с возможностью выполнения по меньшей мере одной операции из группы операций, содержащих операцию расширения полосы пропускания, операцию заполнения интервалов отсутствия сигнала, операцию повышения качества или операцию интерполяции. Как необработанное представление 972 двух или более каналов, так и улучшающее представление 992 двух или более каналов вводятся в модуль 940 комбинирования сигналов для получения обработанной аудиосцены 124.Fig. 10 shows an embodiment of an apparatus for obtaining a processed audio scene 124. A transport signal 122 is input to an output interface 120 to generate a raw representation 972 of two or more channels, using a second set of parameters 114, and to a multi-channel enhancement module 990 to generate an enhancement representation 992 of two or more channels. . For example, multi-channel enhancement module 990 is configured to perform at least one of a group of operations comprising a bandwidth expansion operation, a signal gap filling operation, a quality enhancement operation, or an interpolation operation. Both the raw representation 972 of two or more channels and the enhancement representation 992 of two or more channels are input to signal combiner 940 to produce a processed audio scene 124.

Фиг. 11 показывает блок-схему варианта осуществления модуля 990 многоканального улучшения для формирования улучшающего представления 992 двух или более каналов, содержащего модуль 820 улучшения транспортных сигналов, повышающий микшер 830 и модуль 930 многоканального заполнения. Транспортный сигнал 122 и/или декодированный необработанный транспортный сигнал 812 вводятся в модуль 820 улучшения транспортных сигналов, формирующий улучшающий транспортный сигнал 822, который вводится в повышающий микшер 830 и модуль 930 многоканального заполнения. Например, модуль 820 улучшения транспортных сигналов выполнен с возможностью выполнения по меньшей мере одной операции из группы операций, содержащих операцию расширения полосы пропускания, операцию заполнения интервалов отсутствия сигнала, операцию повышения качества или операцию интерполяции.Fig. 11 shows a block diagram of an embodiment of a multi-channel enhancement module 990 for generating an enhancement representation 992 of two or more channels, comprising a transport signal enhancement module 820, an up-mixer 830, and a multi-channel filler module 930. The transport signal 122 and/or the decoded raw transport signal 812 is input to a transport signal enhancement module 820, generating an enhancement transport signal 822, which is input to an up-mixer 830 and a multi-channel filler module 930. For example, transport signal enhancement module 820 is configured to perform at least one of a group of operations comprising a bandwidth expansion operation, a signal gap filling operation, a quality enhancement operation, or an interpolation operation.

Как видно на фиг. 9 модуль 930 многоканального заполнения формирует многоканальный заполненный транспортный сигнал 932 с использованием транспортного сигнала 902 и по меньшей мере одного параметра 532. Другими словами, модуль 990 многоканального улучшения выполнен с возможностью формирования улучшающего представления двух или более каналов 992 с использованием улучшающего транспортного сигнала 822 и второго набора 114 параметров либо с использованием улучшающего транспортного сигнала 822 и микшированного с повышением улучшающего транспортного сигнала 832. Например, модуль 990 многоканального улучшения содержит или повышающий микшер 830, или модуль 930 многоканального заполнения либо как повышающий микшер 830, так и модуль 930 многоканального заполнения для формирования улучшающего представления 992 двух или более каналов с использованием транспортного сигнала 122 или улучшающего транспортного сигнала 933 и по меньшей мере одного параметра из второго набора 532 параметров. В варианте осуществления, модуль 820 улучшения транспортных сигналов или модуль 990 многоканального улучшения выполнен с возможностью работы параллельно с выходным интерфейсом 120 при формировании необработанного представления 972, или преобразователь 110 параметров выполнен с возможностью работы параллельно с модулем 820 улучшения транспортных сигналов.As can be seen in FIG. 9, multichannel padding module 930 generates a multichannel padded transport signal 932 using transport signal 902 and at least one parameter 532. In other words, multichannel enhancement module 990 is configured to generate an enhancement representation of two or more channels 992 using enhancement transport signal 822 and a second parameter set 114, either using an enhancing transport signal 822 and an upmixed enhancing transport signal 832. For example, multi-channel enhancement module 990 includes either an up-mixer 830 or a multi-channel filler module 930, or both an up-mixer 830 and a multi-channel filler module 930 for generating enhancing representations 992 of two or more channels using a transport signal 122 or an enhancing transport signal 933 and at least one parameter from a second set of parameters 532. In an embodiment, the transport signal enhancement module 820 or the multi-channel enhancement module 990 is configured to operate in parallel with the output interface 120 when generating the raw representation 972, or the parameter converter 110 is configured to operate in parallel with the transport signal enhancement module 820.

На фиг. 13, поток 1312 битов, который передается из кодера в декодер, может быть одинаковым со схемой повышающего микширования на основе DirAC, показанной на фиг. 12. Один транспортный канал 1312, извлекаемый из процесса пространственного понижающего микширования на основе DirAC, вводится в базовый декодер 1310 и декодируется с помощью базового декодера, например, монодекодера EVS или IVAS, и передается наряду с соответствующими боковыми параметрами 1313 DirAC.In fig. 13, the bit stream 1312 that is transferred from the encoder to the decoder may be the same as the DirAC based upmixing circuit shown in FIG. 12. One transport channel 1312 extracted from the DirAC-based spatial downmix process is input to the core decoder 1310 and decoded by the core decoder, such as an EVS or IVAS mono decoder, and transmitted along with the corresponding DirAC side parameters 1313.

В этом стереоподходе DFT для обработки аудиосцены без дополнительной задержки, начальное декодирование в базовом монодекодере (монодекодере IVAS) транспортного канала также остается неизменным. Вместо прохождения через гребенку 1220 фильтров CLDFB из фиг. 12, декодированный сигнал 1314 понижающего микширования вводится в анализ 1320 DFT, для преобразования декодированного моносигнала 1314 в область STFT (частотную область), к примеру, посредством использования окон с очень коротким перекрытием. Таким образом, анализ 1320 DFT вообще не вызывает дополнительную задержку относительно целевой задержки в системе в 32 мс только с использованием оставшегося запаса мощности между полной задержкой и того, что уже вызывается посредством анализа/синтеза MDCT базового декодера.In this stereo DFT approach for processing the audio scene without additional delay, the initial decoding in the underlying mono decoder (IVAS mono decoder) of the transport channel also remains unchanged. Instead of passing through the CLDFB filter bank 1220 of FIG. 12, the decoded downmix signal 1314 is input to DFT analysis 1320 to convert the decoded mono signal 1314 into the STFT domain (frequency domain), for example, by using very short overlap windows. Thus, the 1320 DFT analysis causes no additional latency at all relative to the system latency target of 32 ms by only using the remaining headroom between the full latency and what is already caused by the base decoder MDCT analysis/synthesis.

Боковые параметры 1313 DirAC или первый набор 112 параметров вводятся в преобразование 1360 параметров, которое, например, может содержать преобразователь 110 параметров или процессор параметров для получения боковых стереопараметров DFT, а именно второго набора 114 параметров. Сигнал 1322 частотной области и боковые параметры 1362 DFT вводятся в стереодекодер 1330 DFT для формирования сигнала 1332 повышающего стереомикширования, например, посредством использования повышающего микшера 960, описанного на фиг. 9. Два канала повышающего стереомикширования 1332 вводятся в синтез DFT, для преобразования повышающего стереомикширования 1332 из частотной области во временную область, например, с использованием преобразователя 970, описанного на фиг. 9, приводя к выходному сигналу 1342, который может представлять обработанную аудиосцену 124.The DirAC side parameters 1313 or the first parameter set 112 are input to a parameter transform 1360, which, for example, may comprise a parameter transformer 110 or a parameter processor to obtain the DFT stereo side parameters, namely the second parameter set 114. The frequency domain signal 1322 and DFT side parameters 1362 are input to a stereo DFT decoder 1330 to generate a stereo upmix signal 1332, for example, by using the upmixer 960 described in FIG. 9. Two channels of the stereo upmix 1332 are input into the DFT synthesis to convert the stereo upmix 1332 from the frequency domain to the time domain, for example, using the converter 970 described in FIG. 9, resulting in an output signal 1342 that may represent a processed audio scene 124.

Фиг. 14 показывает вариант осуществления для обработки кодированной аудиосцены с использованием расширения 1470 полосы пропускания. Поток 1412 битов вводится в базовый (или в полосе низких частот) декодер 1410 ACELP вместо монодекодера IVAS, как описано на фиг. 13, для формирования декодированного сигнала 1414 полосы низких частот. Декодированный сигнал 1414 полосы низких частот вводится в анализ 1420 DFT для преобразования сигнала 1414 в сигнал 1422 частотной области, например, в спектральное представление 952 транспортного сигнала 901 из фиг. 9. Стереодекодер 1430 DFT может представлять повышающий микшер 960, который формирует повышающее стереомикширование 1432 LB с использованием декодированного сигнала 1442 полосы низких частот в частотной области и боковых стереопараметров 1462 DFT из преобразования 1460 параметров. Сформированное повышающее стереомикширование 1432 LB вводится в блок 1440 синтеза DFT для выполнения преобразования во временную область, с использованием, например, преобразователя 970 фиг. 9. Представление 972 в полосе низких частот транспортного сигнала 122, а именно, выходной сигнал 1442 каскада 1440 синтеза DFT вводится в модуль 940 комбинирования сигналов, комбинирующий микшированный с повышением стереосигнал 922 полосы высоких частот и многоканальный заполненный транспортный сигнал 932 полосы высоких частот и представление 972 в полосе низких частот транспортного сигнала, приводящее к многоканальному сигналу 942 полной полосы частот.Fig. 14 shows an embodiment for processing a coded audio scene using bandwidth extension 1470. The 1412 bit stream is input to the base (or low band) ACELP decoder 1410 instead of the IVAS mono decoder as described in FIG. 13 to generate a decoded low band signal 1414. The decoded low-band signal 1414 is input into DFT analysis 1420 to convert the signal 1414 into a frequency domain signal 1422, such as the spectral representation 952 of the transport signal 901 of FIG. 9. The DFT stereo decoder 1430 may represent an upmixer 960 that generates a stereo LB upmix 1432 using the decoded frequency domain low pass signal 1442 and the DFT side stereo parameters 1462 from the parameter transform 1460. The generated LB stereo upmix 1432 is input to DFT synthesis block 1440 to perform time domain conversion using, for example, converter 970 of FIG. 9. A low-band representation 972 of the transport signal 122, namely, the output signal 1442 of the DFT synthesis stage 1440 is input to a signal combiner 940 combining the upmixed stereo high-band signal 922 and the multi-channel filled high-band transport signal 932 and the representation 972 in the low-band transport signal, resulting in a full-bandwidth multi-channel signal 942.

Декодированный сигнал 1414 LB и параметры 1415 для BWE 1470 вводятся в декодер 910 ACELP BWE для формирования декодированного сигнала 912 полосы высоких частот. Преобразованные боковые усиления 1462, например, преобразованные и сглаженные боковые усиления 755 для спектральной области полосы низких частот вводятся в стереоблок 1430 DFT, и преобразованное и сглаженное одно боковое усиление для целой полосы высоких частот перенаправляется в блок 920 повышающего микширования в полосе высоких частот и блок 930 стереозаполнения. Блок 920 повышающего микширования HB для повышающего микширования декодированного сигнала 912 HB с использованием бокового усиления 1472 в полосе высоких частот, к примеру, параметров 532 выходного временного кадра 262 из второго набора 114 параметров, формирует микшированный с повышением сигнал 922 полосы высоких частот. Блок 930 стереозаполнения для заполнения декодированного транспортного сигнала 912, 902 полосы высоких частот использует параметры 532, 456 выходного временного кадра 262 из второго набора 114 параметров и формирует заполненный транспортный сигнал 932 полосы высоких частот.The decoded LB signal 1414 and parameters 1415 for the BWE 1470 are input to the ACELP BWE decoder 910 to generate the decoded high band signal 912. The converted side gains 1462, for example, the converted and smoothed side gains 755 for the low band spectral region are input to the stereo DFT block 1430, and the converted and smoothed single side gain for the entire high band is forwarded to the high band upmixer 920 and block 930 stereo fill. An HB upmixer 920 for upmixing the decoded HB signal 912 using highband side gain 1472, eg, parameters 532 of the output time frame 262 from the second parameter set 114, produces an upmixed highband signal 922. A stereo filler 930 to fill the decoded high band transport signal 912, 902 uses parameters 532, 456 of the output time frame 262 from the second parameter set 114 and generates a filled high band transport signal 932.

В качестве вывода, варианты осуществления согласно изобретению создают концепцию для обработки кодированной аудиосцены с использованием преобразования параметров и/или с использованием расширения полосы пропускания, и/или с использованием сглаживания параметров, которая приводит к большему компромиссу между полной задержкой, достижимым качеством звучания и усилиями по реализации.As a conclusion, embodiments of the invention provide a concept for processing an encoded audio scene using parameter mapping and/or using bandwidth expansion and/or using parameter smoothing that results in a greater trade-off between overall latency, achievable audio quality, and processing effort. implementation.

Ниже проиллюстрированы дополнительные варианты осуществления аспектов изобретения и, в частности, сочетание аспектов изобретения. Предлагаемое решение для обеспечения повышающего микширования с низкой задержкой заключается в использовании параметрического стереоподхода, например, подхода, описанного в [4], с использованием гребенок фильтров на основе кратковременного преобразования Фурье (STFT), а не модуля рендеринга DirAC. В этом подходе на основе «стереорежима DFT» описано повышающее микширование одного канала понижающего микширования в стереовывод. Преимущество этого способа состоит в том, что окна с очень короткими перекрытиями используются для анализа DFT в декодере, что обеспечивает возможность оставаться в пределах гораздо более низкой полной задержки, необходимой для кодеков связи, таких как EVS [3] или последующий кодек IVAS (32 мс). Кроме того, в отличие от DirAC CLDFB, стереообработка DFT не представляет собой этап постобработки в базовый кодер, а выполняется параллельно с частью базовой обработки, а именно, с расширением полосы пропускания (BWE) речевого кодера на основе линейного прогнозирования с возбуждением по алгебраическому коду (ACELP), без превышения этой уже заданной задержки. Относительно задержки в 32 мс для EVS, стереообработка DFT может в силу этого называться «свободной от задержки», поскольку она работает при равной полной задержке кодера. С другой стороны, DirAC может рассматриваться в качестве постпроцессора, который вызывает дополнительную задержку в 5 мс вследствие CLDFB, расширяющую полную задержку до 37 мс.Illustrated below are additional embodiments of aspects of the invention and, in particular, combinations of aspects of the invention. A proposed solution to achieve low latency upmixing is to use a parametric stereo approach, such as the approach described in [4], using short-time Fourier transform (STFT) filter banks rather than the DirAC renderer. This "stereo DFT" approach describes upmixing a single downmix channel into a stereo output. The advantage of this technique is that very short overlap windows are used for DFT analysis in the decoder, allowing the ability to stay within the much lower overall latency required by communications codecs such as EVS [3] or the subsequent IVAS codec (32 ms). ). Additionally, unlike DirAC CLDFB, DFT stereo processing is not a post-processing step into the base encoder, but is performed in parallel with part of the base processing, namely the bandwidth extension (BWE) of the speech encoder based on linear prediction with algebraic code excitation ( ACELP), without exceeding this already specified delay. Relative to EVS's 32ms latency, DFT stereo processing can therefore be called "latency-free" since it operates at the same full encoder latency. On the other hand, DirAC can be considered as a post-processor, which introduces an additional 5 ms of latency due to CLDFB, extending the total latency to 37 ms.

В общем, усиление в задержке достигается. Низкая задержка исходит из этапа обработки, который происходит параллельно с базовой обработкой, тогда как примерная версия CLDFB представляет собой этап постобработки для выполнения необходимого рендеринга, который происходит после базового кодирования.In general, delay gain is achieved. The low latency comes from a processing step that occurs in parallel with the base processing, while the example version of CLDFB is a post-processing step to perform the necessary rendering that occurs after the base encoding.

В отличие от DirAC, стереорежим DFT использует искусственную задержку в 3,25 мс для всех компонентов, за исключением ACELP BWE, посредством преобразования только этих компонентов в область DFT с использованием окон с очень коротким перекрытием в 3,125 мс, которые вписываются в доступный запас мощности, без вызывания большей задержки. Таким образом, только TCX и ACELP без BWE микшируются с повышением в частотной области, тогда как ACELP BWE микшируется с повышением во временной области посредством отдельного свободного от задержки этапа обработки, называемого «межканальным расширением полосы пропускания (ICBWE)» [5]. В специальном случае стереовывода данного варианта осуществления, эта обработка BWE во временной области немного изменяется, что описано в конце варианта осуществления.Unlike DirAC, stereo DFT mode uses an artificial latency of 3.25 ms for all components except ACELP BWE, by converting only those components into the DFT domain using very short 3.125 ms overlap windows that fit within the available power headroom. without causing more delay. Thus, only TCX and ACELP without BWE are upmixed in the frequency domain, while ACELP BWE is upmixed in the time domain through a separate delay-free processing step called “inter-channel bandwidth extension (ICBWE)” [5]. In the special case of stereo output of this embodiment, this time domain BWE processing is slightly modified, which is described at the end of the embodiment.

Передаваемые параметры DirAC не могут использоваться непосредственно для повышающего стереомикширования DFT. Преобразование данных параметров DirAC в соответствующие стереопараметры DFT становится в силу этого необходимым. Хотя DirAC использует углы азимута и углы места для пространственного размещения наряду с параметром рассеянности, стереорежим DFT имеет один параметр бокового усиления, используемый для панорамирования, и параметр остаточного прогнозирования, который тесно связан со стереошириной и в силу этого с параметром рассеянности DirAC. С точки зрения разрешения параметров, каждый кадр разделяется на два субкадра и несколько полос частот в расчете на субкадр. Боковое и остаточное усиление, используемые в стереорежиме DFT, описаны в [6].Passed DirAC parameters cannot be used directly for DFT stereo upmixing. Conversion of DirAC parameter data into corresponding DFT stereo parameters therefore becomes necessary. While DirAC uses azimuth angles and elevation angles for spatial placement along with a scattering parameter, DFT stereo mode has one side gain parameter used for panning and a residual prediction parameter that is closely related to the stereo width and therefore the diffusion parameter of DirAC. In terms of parameter resolution, each frame is divided into two subframes and several frequency bands per subframe. The side and residual gain used in DFT stereo mode are described in [6].

Параметры DirAC извлекаются из анализа для каждой полосы частот аудиосцены первоначально в B-формате или FOA. Он затем извлекает для каждой полосы k частот и момента n времени преобладающее направление поступления азимута θ(b,n) и угла места ϕ(b,n) и коэффициента ψ(b,n) рассеянности. Для направленных компонентов, обеспечивается возможность того, что сферические гармоники первого порядка в центральном положении могут извлекаться посредством всенаправленного компонента w(b,n) и параметров DirAC:DirAC parameters are extracted from the analysis for each frequency band of the audio scene, initially in B-format or FOA. It then extracts for each k frequency band and time n the dominant direction of arrival of azimuth θ(b,n) and elevation angle ϕ(b,n) and scattering coefficient ψ(b,n). For directional components, it is possible that first order spherical harmonics at the center position can be extracted by the omnidirectional component w(b,n) and the DirAC parameters:

Кроме того, из каналов FOA можно получать стереоверсию посредством декодирования, заключающего в себе W и Y, что приводит к двум кардиоидам, указывающим на углы азимута в +90 и -90 градусов.In addition, a stereo version can be obtained from the FOA channels by decoding that encapsulates W and Y, resulting in two cardioids indicating azimuth angles of +90 and -90 degrees.

Это декодирование соответствует формированию диаграммы направленности первого порядка, указывающей в двух направлениях.This decoding corresponds to the formation of a first order beam pattern pointing in two directions.

Следовательно, предусмотрена непосредственная взаимосвязь между стереовыводом и параметрами DirAC. С другой стороны, параметры DFT базируются на модели L- и R-каналов на основе среднего сигнала M и бокового сигнала S.Therefore, there is a direct relationship between the stereo output and the DirAC parameters. On the other hand, DFT parameters are based on the L and R channel model based on the mean signal M and the side signal S.

M передается в качестве моноканала и соответствует всенаправленному каналу W в случае режима SBA. В стереорежиме DFT S прогнозируется из M с использованием бокового усиления, которое затем может выражаться с использованием параметров DirAC следующим образом:M is transmitted as a mono channel and corresponds to the omnidirectional channel W in the case of SBA mode. In DFT stereo mode, S is predicted from M using lateral gain, which can then be expressed using DirAC parameters as follows:

В стереорежиме DFT остаток прогнозирования предполагается и ожидается некогерентным и моделируется посредством своей энергии и декорреляции остаточных сигналов, идущих в левый и в правый. Остаток прогнозирования S с M может выражаться следующим образом:In DFT stereo mode, the prediction residual is assumed and expected to be incoherent and is modeled through its energy and the decorrelation of the residual signals going to the left and to the right. The remainder of the prediction S with M can be expressed as follows:

Кроме того, его энергия моделируется в стереорежиме DFT с использованием усилений для прогнозирования следующим образом:Additionally, its energy is modeled in stereo DFT using prediction gains as follows:

Поскольку остаточное усиление представляет компонент межканальной некогерентности стереосигнала и пространственной ширины, оно непосредственно взаимосвязано с рассеянной частью, моделируемой посредством DirAC. Следовательно, остаточная энергия может перезаписываться в качестве функции параметра рассеянности DirAC:Since the residual gain represents a component of the inter-channel stereo incoherence and spatial width, it is directly related to the scattered portion modeled by DirAC. Therefore, the residual energy can be rewritten as a function of the dissipation parameter DirAC:

Поскольку конфигурация полосы частот, нормально используемая в стереорежиме DFT, не является одинаковой с DirAC, она должно быть выполнена с возможностью покрытия одинаковых частотных диапазонов с полосами частот DirAC. Для этих полос частот направляющие углы DirAC затем могут преобразовываться в параметр бокового усиления стереорежима DFT через следующее:Since the frequency band configuration normally used in DFT stereo mode is not the same as DirAC, it must be configured to cover the same frequency ranges as DirAC frequency bands. For these frequency bands, the DirAC direction angles can then be converted into a DFT stereo side gain parameter via the following:

, ,

где b является текущей полосой частот, и диапазоны параметров составляют [0;360] для азимута, [0; 180] для угла места и [-1; 1] для результирующего значения бокового усиления. Тем не менее, параметры направления DirAC обычно имеют более высокое временное разрешение, чем стереорежим DFT, что означает, что для вычисления одного значения бокового усиления должны использоваться 2 или более значений азимута и угла места. Один способ заключается в выполнении усреднения между субкадрами, но в этой реализации вычисление основано на энергозависимых весовых коэффициентах. Для всех K субкадров DirAC, энергия субкадра вычисляется следующим образом:where b is the current frequency band and the parameter ranges are [0;360] for azimuth, [0; 180] for elevation angle and [-1; 1] for the resulting lateral gain value. However, DirAC heading parameters typically have higher temporal resolution than DFT stereo, which means that 2 or more azimuth and elevation values must be used to calculate one lateral gain value. One way is to perform averaging between subframes, but in this implementation the calculation is based on volatile weighting factors. For all K DirAC subframes, the subframe energy is calculated as follows:

, ,

где x является входным сигналом временной области, N является числом выборок в каждом субкадре, и i является индексом выборки. Для каждого стереосубкадра l DFT, весовые коэффициенты затем могут вычисляться для доли каждого субкадра DirAC k внутри l следующим образом:where x is the time domain input signal, N is the number of samples in each subframe, and i is the sample index. For each stereo DFT subframe l, weights can then be calculated for the proportion of each DirAC subframe k within l as follows:

Боковые усиления затем в конечном счете вычисляются в следующим образом:The lateral gains are then ultimately calculated as follows:

Вследствие подобия между параметрами, одно значение рассеянности в расчете на полосу частот непосредственно преобразуется в параметр остаточного прогнозирования всех субкадров в той же полосе частот:Due to the similarity between the parameters, one scatter value per frequency band is directly converted into a residual prediction parameter of all subframes in the same frequency band:

Кроме того, параметры сглаживаются во времени, с тем чтобы исключать сильные флуктуации в усилениях. Поскольку это требует относительно сильного сглаживания большую часть времени, но требует более быстрого отклика каждый раз, когда сцена внезапно изменяется, коэффициент сглаживания, определяющий силу сглаживания, вычисляется адаптивно. Этот адаптивный коэффициент сглаживания вычисляется для каждой полосы частот из изменения энергий в текущей полосе частот. Следовательно, энергии для каждой полосы частот должны вычисляться во всех субкадрах k сначала:In addition, the parameters are smoothed over time to eliminate large fluctuations in the gains. Because this requires relatively strong anti-aliasing most of the time, but requires faster response whenever the scene suddenly changes, the anti-aliasing factor that determines the anti-aliasing strength is calculated adaptively. This adaptive smoothing factor is calculated for each frequency band from the variation of energies in the current frequency band. Therefore, the energies for each frequency band must be calculated in all k subframes first:

, ,

где x являются частотными элементами разрешения преобразованного DFT сигнала (действительного и мнимого), и i является индексом элемента выборки по всем элементам разрешения в текущей полосе b частот.where x are the frequency bins of the transformed DFT signal (real and imaginary), and i is the bin index over all bins in the current frequency band b.

Чтобы захватывать изменение энергий во времени, 2 средних, одно кратковременное и одно долговременное, затем вычисляются для каждой полосы b частот согласно:To capture the change in energies over time, 2 averages, one short-term and one long-term, are then calculated for each frequency band b according to:

и:And:

, ,

где Nshort и Nlong являются числом предыдущих субкадров k, для которых вычисляются отдельные средние. В этой конкретной реализации Nshort задано равным 3, и Nlong задано равным 10. Коэффициент сглаживания затем вычисляется из частного средних таким образом, что более высокое кратковременное среднее, указывающее недавнее увеличение энергии, приводит к уменьшению сглаживания:where N short and N long are the number of previous k subframes for which individual averages are calculated. In this particular implementation, N short is set to 3, and N long is set to 10. The smoothing factor is then calculated from the quotient of the averages such that a higher short-term average, indicating a recent increase in energy, results in a decrease in smoothing:

Более высокие долговременные средние, указывающие снижающуюся энергию, не приводят к уменьшенному сглаживанию, так что коэффициент сглаживания на данный момент установлен равным максимуму в 1.Higher long-term averages, indicating decreasing energy, do not result in reduced smoothing, so the smoothing factor is currently set to a maximum of 1.

Вышеприведенная формула ограничивает минимум до Nshort/Nlong (в этой реализации как 0,3). Тем не менее, коэффициент должен составлять близко к 0 в крайних случаях, вследствие чего значение преобразуется из диапазона [Nshort/Nlong; 1] в диапазон [0;1] через следующее:The above formula limits the minimum to N short /N long (in this implementation as 0.3). However, the coefficient should be close to 0 in extreme cases, causing the value to be converted from the range [N short /N long ; 1] to range [0;1] via the following:

Для менее крайних случаев, сглаживание теперь уменьшается чрезмерно, так что коэффициент сжимается с помощью функции вычисления корня к значению 1. Поскольку стабильность является особенно важной в наименьших полосах частот, корень четвертой степени используется в полосах частот в b=0 и b=1:For less extreme cases, the smoothing is now reduced excessively, so that the coefficient is compressed by the root function to the value 1. Because stability is especially important in the smallest frequency bands, the fourth root is used in the frequency bands at b=0 and b=1:

, ,

тогда как все другие полосы частот в b>1 сжимаются посредством квадратного корня:while all other frequency bands in b>1 are compressed by square root:

Таким образом, крайние случаи остаются близкими к 0, тогда как менее быстрое увеличение энергии не снижает сглаживание настолько сильно.This way, the edge cases remain close to 0, whereas a less rapid increase in energy does not reduce the smoothing as much.

В завершение, максимальное сглаживание устанавливается в зависимости от полосы частот (коэффициент в 1 должен просто повторять предыдущее значение без доли текущего усиления):Finally, the maximum smoothing is set depending on the frequency band (a factor of 1 should simply repeat the previous value without a fraction of the current gain):

, ,

где bounds[b] в данной реализации с 5 полосами частот установлены согласно следующей таблице:where bounds[b] in this 5-band implementation are set according to the following table:

BB bounds[b]bounds[b] 00 0,980.98 11 0,970.97 22 0,950.95 33 0,90.9 44 0,90.9

Коэффициент сглаживания вычисляется для каждого стереосубкадра k DFT в текущем кадре.The smoothing coefficient is calculated for each k DFT stereo subframe in the current frame.

На последнем этапе, как боковое усиление, так и усиление для остаточного прогнозирования рекурсивно сглаживаются согласно:In the final step, both the lateral gain and the residual prediction gain are recursively smoothed according to:

и:And:

Эти преобразованные и сглаженные параметры теперь подаются в стереообработку DFT, в которой стереосигнал L/R формируется из понижающего микширования DMX, сигнала PRED остаточного прогнозирования (полученного из понижающего микширования или посредством «усовершенствованного стереозаполнения» с использованием всечастотных фильтров [7], или посредством регулярного стереозаполнения с использованием задержки) и преобразованных параметров gside и gpred. Повышающее микширование описано в общем посредством следующих формул [6]:These converted and smoothed parameters are now fed into DFT stereo processing, in which the stereo L/R signal is generated from the DMX downmix, the residual prediction PRED signal (derived from the downmix, or through "advanced stereo fill" using all-pass filters [7], or through regular stereo fill using delay) and the transformed parameters g side and g pred . Upmixing is described generally by the following formulas [6]:

и:And:

, ,

для каждого субкадра k все элементы i разрешения в полосах b частот. Кроме того, каждое боковое усиление gside взвешивается посредством коэффициента gnorm нормализации энергии, вычисленного из энергий DMX и PRED.for each subframe k, all i resolution elements in b frequency bands. In addition, each lateral gain g side is weighted by the energy normalization factor g norm calculated from the DMX and PRED energies.

В завершение, микшированный с повышением сигнал преобразуется обратно во временную область через IDFT для воспроизведения в данной стереокомпоновке.Finally, the upmixed signal is converted back to the time domain via IDFT for playback in the given stereo layout.

Поскольку «расширение полосы пропускания во временной области (TBE)» [8], которое используется в ACELP, формирует собственную задержку (в реализации, этот вариант осуществления основан точно на 2,3125 мс), она не может преобразовываться в область DFT при пребывании в пределах полной задержки в 32 мс (при этом 3,25 мс оставляются для стереодекодера, из которых STFT уже использует 3,125 мс). Таким образом, только полоса низких частот (LB) помещается в стереообработку DFT, указываемую посредством 1450 на фиг. 14, тогда как полоса высоких частот (HB) должна микшироваться с повышением отдельно во временной области, как показано в блоке 920 на фиг. 14. В обычном - стереорежиме DFT это выполняется через межканальное расширение полосы пропускания (ICBWE) [5] для панорамирования плюс стереозаполнение во временной области для объемного окружения. В данном случае, стереозаполнение в блоке 930 вычисляется аналогично регулярному стереорежиму DFT. Тем не менее обработка ICBWE полностью пропускается вследствие отсутствующих параметров и заменяется посредством незначительных ресурсов, требующих широкополосного панорамирования в блоке 920 на основе преобразованных боковых усилений 1472. В данном варианте осуществления, предусмотрено только одно усиление, покрывающее полную область HB, что упрощает вычисление левого и правого каналов HB в блоке 920 из канала понижающего микширования как:Since the “Time Domain Bandwidth Extension (TBE)” [8] that is used in ACELP generates its own delay (in implementation, this embodiment is based on exactly 2.3125 ms), it cannot be converted to the DFT domain when staying in within a total latency of 32 ms (leaving 3.25 ms for the stereo decoder, of which STFT already uses 3.125 ms). Thus, only the low frequency band (LB) is placed into the DFT stereo processing indicated by 1450 in FIG. 14, while the high band (HB) must be upmixed separately in the time domain, as shown at block 920 in FIG. 14. In conventional - stereo DFT mode, this is done via Inter-Channel Bandwidth Enhancement (ICBWE) [5] for panning plus time-domain stereo fill for surround. In this case, the stereo fill in block 930 is calculated similarly to the regular DFT stereo mode. However, the ICBWE processing is completely bypassed due to missing parameters and is replaced by negligible resources requiring wideband panning in block 920 based on the converted side gains 1472. In this embodiment, there is only one gain covering the entire HB region, which simplifies left and right calculations. HB channels in block 920 from the downmix channel as:

иAnd

, ,

для каждой выборки i в каждом субкадре k.for each sample i in each subframe k.

Сигнал HB PREDhb стереозаполнения получается в блоке 930 посредством задержки HBdmx и взвешивания посредством gside,hb и коэффициента gnorm нормализации энергии следующим образом:The stereo fill signal HB PRED hb is obtained at block 930 by delaying HB dmx and weighting by g side,hb and the energy normalization factor g norm as follows:

иAnd

, ,

для каждой выборки i в текущем кадре (проводится для полного кадра, а не для субкадров), и где d является числом выборок, на которое понижающее микширование HB задерживается для заполняющего сигнала.for each sample i in the current frame (done for the full frame, not for subframes), and where d is the number of samples by which the HB downmix is delayed for the fill signal.

Как панорамированный стереосигнал, так и сформированный сигнал стереозаполнения в конечном счете микшируются обратно в базовый сигнал после синтеза DFT в модуле 940 комбинирования.Both the panned stereo signal and the generated stereo fill signal are ultimately mixed back into the base signal after DFT synthesis in the combiner 940.

Эта специальная обработка ACELP HB также отличается от обработки DirAC с более высокой задержкой, в которой базовые кадры ACELP и кадры ACELP TCX искусственно задерживаются таким образом, что они совмещаются с ACELP HB. Таким образом, CLDFB выполняется для полного сигнала, т.е. повышающее микширование ACELP HB также проводится в области CLDFB.This special ACELP HB processing also differs from the higher latency DirAC processing, in which ACELP core frames and ACELP TCX frames are artificially delayed such that they are co-located with ACELP HB. Thus, CLDFB is performed for the complete signal, i.e. ACELP HB upmixing is also carried out in the CLDFB area.

Преимущества предложенного способаAdvantages of the proposed method

Отсутствие дополнительной задержки позволяет кодеку IVAS оставаться в пределах той же полной задержки, что и в EVS (32 мс), для этого конкретного случая из ввода SBA в стереовывод.The lack of additional latency allows the IVAS codec to remain within the same overall latency as EVS (32ms) for this particular case from the SBA input to the stereo output.

Гораздо более низкая сложность параметрического повышающего стереомикширования через DFT, чем при пространственном рендеринге DirAC, обусловлена в целом более простой и более прямолинейной обработкой.The much lower complexity of parametric stereo upmixing via DFT than DirAC spatial rendering is due to the overall simpler and more straightforward processing.

Дополнительные предпочтительные варианты осуществленияAdditional preferred embodiments

1. Устройство, способ или компьютерная программа для кодирования или декодирования, как описано выше.1. A device, method or computer program for encoding or decoding as described above.

2. Устройство или способ для кодирования или декодирования или связанная компьютерная программа, содержащая:2. A device or method for encoding or decoding or an associated computer program containing:

- систему, в которой ввод кодируется с помощью модели на основе пространственного аудиопредставления звуковой сцены с первым набором параметров и декодируется в выводе с помощью стереомодели для 2 выходных каналов или с помощью многоканальной модели более чем для 2 выходных каналов со вторым набором параметров; и/или- a system in which the input is encoded using a model based on a spatial audio representation of the sound stage with a first set of parameters and decoded into output using a stereo model for 2 output channels or using a multi-channel model for more than 2 output channels with a second set of parameters; and/or

- преобразование пространственных параметров в стереопараметры; и/или- conversion of spatial parameters into stereo parameters; and/or

- преобразование из входного представления/параметров на основе одной частотной области в выходное представление/параметры на основе другой частотной области; и/или- conversion from input representation/parameters based on one frequency domain to output representation/parameters based on another frequency domain; and/or

- преобразование параметров с более высоким временным разрешением в более низкое временное разрешение; и/или- conversion of parameters with a higher time resolution to a lower time resolution; and/or

- более низкую выходную задержку вследствие более короткого перекрытия окон второго преобразования частоты; и/или- lower output delay due to shorter overlap of second frequency conversion windows; and/or

- преобразование параметров DirAC (направляющих углов, рассеянности) в стереопараметры DFT (боковое усиление, усиление для остаточного прогнозирования) для вывода кодированного DirAC содержимого SBA в качестве стерео; и/или- converting DirAC parameters (direction angles, scattering) into stereo DFT parameters (lateral gain, residual prediction gain) to output DirAC encoded SBA content as stereo; and/or

- преобразование из входного представления/параметров на основе CLDFB в выходное представление/параметры на основе DFT; и/или- conversion from CLDFB-based input representation/parameters to DFT-based output representation/parameters; and/or

- преобразование параметров с разрешением в 5 мс в параметры с 10 мс; и/или- conversion of parameters with a resolution of 5 ms into parameters with 10 ms; and/or

- Преимущество: более низкая выходная задержка вследствие более короткого перекрытия окон DFT по сравнению с CLDFB.- Advantage: Lower output delay due to shorter window overlap of DFT compared to CLDFB.

Здесь следует отметить, что все альтернативы или аспекты, поясненные выше, и все аспекты, определяемые независимыми пунктами нижеприведенной формулы изобретения, могут использоваться по отдельности, т.е. без альтернатив или целей, отличных от предполагаемой альтернативы, цели или независимого пункта формулы изобретения. Тем не менее, в других вариантах осуществления могут быть объединены друг с другом две или более из альтернатив или аспектов или независимых пунктов формулы изобретения, и в других вариантах осуществления могут быть объединены друг с другом все аспекты или альтернативы и все независимые пункты формулы изобретения.It should be noted here that all the alternatives or aspects explained above and all aspects defined by the independent claims below can be used separately, i.e. without alternatives or purposes other than the intended alternative, purpose or independent claim. However, in other embodiments, two or more of the alternatives or aspects or independent claims may be combined with each other, and in other embodiments, all aspects or alternatives and all independent claims may be combined with each other.

Следует отметить, что различные аспекты изобретения связаны с аспектом преобразования параметров, аспектом сглаживания и аспектом расширения полосы пропускания. Эти аспекты могут быть реализованы отдельно или независимо друг от друга, или могут быть объединены любые два аспекта по меньшей мере из трех аспектов, или могут быть объединены все три аспекта в одном варианте осуществления, как описано выше.It should be noted that various aspects of the invention relate to a parameter transformation aspect, an anti-aliasing aspect, and a bandwidth expansion aspect. These aspects may be implemented separately or independently of each other, or any two aspects of at least three aspects may be combined, or all three aspects may be combined in a single embodiment as described above.

Кодированный сигнал согласно изобретению может сохраняться на цифровом носителе хранения данных или на постоянном носителе хранения данных либо может передаваться в среде передачи, такой как беспроводная среда передачи или проводная среда передачи, например Интернет.The encoded signal according to the invention may be stored on a digital storage medium or a non-transitory storage medium, or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.Although certain aspects are described in the context of an apparatus, it will be appreciated that these aspects also represent a description of the corresponding method, wherein the block or apparatus corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. An implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having stored electronically readable control signals that interface (or are interoperable) with a programmable computer system such that the appropriate method is carried out.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention include a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system in a manner that implements one of the methods described herein.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to implement one of the methods where the computer program product is executed on a computer. The program code, for example, may be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на постоянном носителе хранения данных.Other embodiments comprise a computer program for performing one of the methods described herein stored on a computer-readable medium or a non-transitory storage medium.

Другими словами, таким образом вариант осуществления способа согласно изобретению представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.In other words, therefore, an embodiment of the method according to the invention is a computer program having program code for carrying out one of the methods described herein when the computer program is executed on a computer.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.Therefore, a further embodiment of the methods of the invention is a storage medium (digital storage medium or computer readable medium) containing a recorded computer program for performing one of the methods described herein.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с обеспечением возможности передачи через соединение для передачи данных, например через Интернет.Therefore, a further embodiment of the method of the invention is a data stream or signal sequence representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to implement one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.A further embodiment comprises a computer having a computer program installed for performing one of the methods described herein.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a field programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably implemented by any hardware device.

Вышеописанные варианты осуществления являются лишь иллюстрацией в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, но не конкретными подробностями, представленными в порядке описания и пояснения вариантов осуществления в данном документе.The above-described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the configurations and details described herein will be apparent to those skilled in the art. Therefore, it is intended to be limited only by the scope of the following claims and not by the specific details presented by way of description and explanation of the embodiments herein.

Список использованной литературыList of used literature

[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki и T. Pihlajamäki "Directional audio coding-perception-based reproduction of spatial sound", in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009 г.[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamäki "Directional audio coding-perception-based reproduction of spatial sound", in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009

[2] G. Fuchs, O. Thiergart, S. Korse, S. Döhla, M. Multrus, F. Küch, Bouthéon, A. Eichenseer и S. Bayer "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO 2020115311A1, 11.06.2020.[2] G. Fuchs, O. Thiergart, S. Korse, S. Döhla, M. Multrus, F. Küch, Bouthéon, A. Eichenseer and S. Bayer "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO 2020115311A1, 06/11/2020.

[3] 3GPP TS 26.445 "Codec for Enhanced Voice Services (EVS); Detailed algorithmic description". [3] 3GPP TS 26.445 "Codec for Enhanced Voice Services (EVS); Detailed algorithmic description".

[4] S. Bayer, M. Dietz, S. Döhla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli и M. Schnell "APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". WO 17125563, 27.07.2017.[4] S. Bayer, M. Dietz, S. Döhla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell "APPARATUS AND METHOD FOR ESTIMATING AN INTER -CHANNEL TIME DIFFERENCE". WO 17125563, 07/27/2017.

[5] V. S. C. S. Chebiyyam и V. Atti "Inter-channel bandwidth extension". WO 2018187082A1, 11.10.2018.[5] V. S. C. S. Chebiyyam and V. Atti "Inter-channel bandwidth extension". WO 2018187082A1, 10/11/2018.

[6] J. Büthe, G. Fuchs, W. Jägers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus и S. Korse "Apparatus and method for encoding or decoding the multichannel signal using the side gain and the residual gain". WO 2018086947A1, 17.05.2018.[6] J. Büthe, G. Fuchs, W. Jägers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus and S. Korse "Apparatus and method for encoding or decoding the multichannel signal using the side gain and the residual gain". WO 2018086947A1, 05/17/2018.

[7] J. Büthe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus и R. Geiger "Apparatus for Encoding or Decoding the Encoded Multichannel Signal Using the Filling signal Generated by the Broad Band Filter". WO 2019020757A2, 31.01.2019.[7] J. Büthe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus and R. Geiger "Apparatus for Encoding or Decoding the Encoded Multichannel Signal Using the Filling signal Generated by the Broad Band Filter." WO 2019020757A2, 01/31/2019.

[8] V. Atti et al. "Super-wideband bandwidth extension for speech in the 3GPP EVS codec", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015 г.[8] V. Atti et al. "Super-wideband bandwidth extension for speech in the 3GPP EVS codec", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015.

Claims (92)

1. Устройство для обработки аудиосцены (130), представляющей звуковое поле, причем аудиосцена (130) содержит информацию в отношении транспортного сигнала (122) и первый набор (112) параметров, причем устройство содержит:1. An apparatus for processing an audio scene (130) representing a sound field, the audio scene (130) comprising information regarding a transport signal (122) and a first set (112) of parameters, the apparatus comprising: - процессор (110) параметров для обработки первого набора (112) параметров для получения второго набора (114) параметров, при этом процессор (110) параметров выполнен с возможностью:- a parameter processor (110) for processing the first set (112) of parameters to obtain a second set (114) of parameters, wherein the parameter processor (110) is configured to: - вычисления по меньшей мере одного необработанного параметра (252) для каждого выходного временного кадра (220) с использованием по меньшей мере одного параметра из первого набора (112) параметров для входного временного кадра (210),- calculating at least one raw parameter (252) for each output time frame (220) using at least one parameter from the first set (112) of parameters for the input time frame (210), - вычисления коэффициента (512; 522) сглаживания для каждого необработанного параметра (252) в соответствии с правилом сглаживания, и- calculating the smoothing coefficient (512; 522) for each raw parameter (252) in accordance with the smoothing rule, and - применения соответствующего коэффициента (512; 522) сглаживания к соответствующему необработанному параметру (252) для извлечения параметра из второго набора (114) параметров для выходного временного кадра (220); и- applying a corresponding smoothing factor (512; 522) to a corresponding raw parameter (252) to extract a parameter from a second set (114) of parameters for the output time frame (220); And - выходной интерфейс (120) для формирования обработанной аудиосцены (124) с использованием второго набора (114) параметров и информации в отношении транспортного сигнала (122),- an output interface (120) for generating a processed audio scene (124) using a second set (114) of parameters and information regarding the transport signal (122), - при этом процессор (110) параметров выполнен с возможностью сглаживания необработанных параметров (252) со временем таким образом, что относительно сильное сглаживание получается в первой временной части аудиосцены (130), и относительно слабое сглаживание получается во второй временной части аудиосцены (130), при этом аудиосцена (130) изменяется быстрее во второй временной части аудиосцены (130), чем в первой временной части аудиосцены (130).- wherein the parameter processor (110) is configured to smooth the raw parameters (252) over time such that relatively strong smoothing is obtained in the first time portion of the audio scene (130), and relatively weak smoothing is obtained in the second time portion of the audio scene (130), wherein the audio scene (130) changes faster in the second time portion of the audio scene (130) than in the first time portion of the audio scene (130). 2. Устройство по п. 1, в котором процессор (110) параметров выполнен с возможностью:2. The device according to claim 1, in which the parameter processor (110) is configured to: - вычисления долговременного среднего (332) для связанного с амплитудой показателя (320) первой временной части транспортного сигнала (122), и- calculating a long-term average (332) for the amplitude-related metric (320) of the first time portion of the transport signal (122), and - вычисления кратковременного среднего (331) для связанного с амплитудой показателя (320) второй временной части транспортного сигнала (122), при этом вторая временная часть транспортного сигнала (122) меньше первой временной частитранспортного сигнала (122), и- calculating a short-term average (331) for an amplitude-related metric (320) of a second time portion of the transport signal (122), wherein the second time portion of the transport signal (122) is less than the first time portion of the transport signal (122), and - вычисления коэффициента (512; 522) сглаживания на основании соотношения между долговременным средним (332) и кратковременным средним (331).- calculating the smoothing coefficient (512; 522) based on the relationship between the long-term average (332) and the short-term average (331). 3. Устройство по п. 1 или 2, в котором процессор (110) параметров выполнен с возможностью вычисления коэффициента (512; 522) сглаживания для полосы частот с использованием функции (540) сжатия, причем функция сжатия отличается для различных полос частот, и при этом сила сжатия функции сжатия является большей для полосы нижних частот, чем для полосы верхних частот.3. The device according to claim 1 or 2, wherein the parameter processor (110) is configured to calculate a smoothing coefficient (512; 522) for a frequency band using a compression function (540), wherein the compression function is different for different frequency bands, and when In this case, the compression force of the compression function is greater for the low-pass band than for the high-pass band. 4. Устройство по одному из пп. 1-3, в котором процессор (110) параметров выполнен с возможностью вычисления коэффициента (512; 522) сглаживания с использованием различных максимальных пределов для коэффициента сглаживания для различных полос частот, при этом максимальный предел для коэффициента сглаживания для полосы нижних частот из различных полос частот выше максимального предела для коэффициента сглаживания для полосы верхних частот из различных полос частот.4. Device according to one of paragraphs. 1-3, wherein the parameter processor (110) is configured to calculate a smoothing coefficient (512; 522) using different maximum limits for the smoothing coefficient for different frequency bands, wherein the maximum limit for the smoothing coefficient for the low-pass band of different frequency bands above the maximum limit for the smoothing factor for the high-pass band from different frequency bands. 5. Устройство по одному из пп. 1-4, в котором процессор (110) параметров выполнен с возможностью применения в качестве правила сглаживания правила (710) рекурсивного сглаживания для последовательных во времени выходных временных кадров таким образом, что сглаженный параметр для текущего выходного временного кадра (220) вычисляется посредством комбинирования параметра для предшествующего выходного временного кадра (220), взвешенного посредством первого весового значения, и необработанного параметра (252) для текущего выходного временного кадра (220), взвешенного посредством второго весового значения, при этом первое весовое значение и второе весовое значение извлекаются из коэффициента (512; 522) сглаживания для текущего временного кадра.5. Device according to one of paragraphs. 1-4, in which the parameter processor (110) is configured to apply, as a smoothing rule, a recursive smoothing rule (710) to time-sequential output time frames such that a smoothed parameter for the current output time frame (220) is calculated by combining the parameter for the previous output time frame (220) weighted by the first weight value, and the raw parameter (252) for the current output time frame (220) weighted by the second weight value, wherein the first weight value and the second weight value are derived from the coefficient (512 ; 522) smoothing for the current time frame. 6. Устройство по п. 1,6. Device according to claim 1, - в котором выходной интерфейс (120) выполнен с возможностью повышающего микширования транспортного сигнала (122) с использованием второго набора (114) параметров в сигнал повышающего микширования, содержащий два или более каналов.- wherein the output interface (120) is configured to upmix the transport signal (122) using the second set (114) of parameters into an upmix signal containing two or more channels. 7. Устройство по п. 1, в котором выходной интерфейс (120) выполнен с возможностью формирования обработанной аудиосцены (124) посредством комбинирования транспортного сигнала (122) или информации в отношении транспортного сигнала (122) и второгонабора (114) параметров для получения транскодированной аудиосцены в качестве обработанной аудиосцены (124).7. The apparatus of claim 1, wherein the output interface (120) is configured to generate a processed audio scene (124) by combining the transport signal (122) or information regarding the transport signal (122) and a second set of parameters (114) to obtain a transcoded audio scene as a processed audio scene (124). 8. Устройство по одному из предшествующих пунктов, в котором первый набор (112) параметров содержит, для каждого входного временного кадра (210) из множества входных временных кадров и для каждой полосы (231) входных частот из множества полос (230) входных частот, параметр, связанный с виртуальным положением слушателя, такой как по меньшей мере один параметр DirAC,8. The apparatus of one of the preceding claims, wherein the first set (112) of parameters comprises, for each input time frame (210) of the plurality of input time frames and for each input frequency band (231) of the plurality of input frequency bands (230), a parameter associated with the virtual position of the listener, such as at least one DirAC parameter, - при этом процессор (110) параметров выполнен с возможностью вычисления второго набора (114) параметров в качестве параметров, связанных с канальным представлением, содержащим два или более каналов для воспроизведения в предварительно заданных пространственных положениях для двух или более каналов, таких как параметрические стерео- или многоканальные параметры.- wherein the parameter processor (110) is configured to calculate the second set (114) of parameters as parameters associated with a channel representation containing two or more channels for reproduction at predetermined spatial positions for two or more channels, such as parametric stereo- or multi-channel options. 9. Устройство по п. 8, в котором по меньшей мере один параметр содержит по меньшей мере один из параметра направления поступления, параметра рассеянности, параметра информации направления, связанного со сферой с виртуальным положением прослушивания в качестве начала координат сферы, и параметра расстояния, и9. The apparatus of claim 8, wherein the at least one parameter comprises at least one of an arrival direction parameter, a scattering parameter, a direction information parameter associated with a sphere with the virtual listening position as the origin of the sphere, and a distance parameter, and - при этом параметрические стерео- или многоканальные параметры содержат по меньшей мере один из параметра (455) бокового усиления, параметра (456) усиления для остаточного прогнозирования, параметра межканальной разности уровней, параметра межканальной разности времен, параметра межканальной разности фаз и параметра межканальной когерентности.- wherein the parametric stereo or multi-channel parameters comprise at least one of a side gain parameter (455), a residual prediction gain parameter (456), an inter-channel level difference parameter, an inter-channel time difference parameter, an inter-channel phase difference parameter and an inter-channel coherence parameter. 10. Устройство по одному из предшествующих пунктов, в котором входной временной кадр (120), с которым связан первый набор (112) параметров, содержит два или более входных временных субкадра, и при этом выходной временной кадр (220), с которым связан второй набор (114) параметров, меньше входного временного кадра (210) и больше входного временного субкадра из двух или более входных временных субкадров, и10. The apparatus of one of the preceding claims, wherein the input time frame (120) with which the first set (112) of parameters is associated contains two or more input time subframes, and wherein the output time frame (220) with which the second is associated a set (114) of parameters less than the input time frame (210) and more than the input time subframe of two or more input time subframes, and - при этом процессор (110) параметров выполнен с возможностью вычисления необработанного параметра (252) из второго набора (114) параметров для каждого из двух или более входных временных субкадров, которые являются последовательными во времени, и комбинирования по меньшей мере двух необработанныхпараметров (252) для извлечения параметра из второго набора (114) параметров, связанного с выходным субкадром.- wherein the parameter processor (110) is configured to calculate a raw parameter (252) from the second set (114) of parameters for each of two or more input time subframes that are sequential in time, and combine the at least two raw parameters (252) to retrieve a parameter from a second parameter set (114) associated with the output subframe. 11. Устройство по п. 10, в котором процессор (110) параметров выполнен с возможностью выполнения комбинирования со взвешиванием по меньшей мере двух необработанных параметров (252) при комбинировании по меньшей мере двух необработанных параметров, при этом весовые коэффициенты для комбинирования со взвешиванием извлекаются на основании связанного с амплитудой показателя (320) транспортного сигнала (122) в соответствующем входном временном субкадре.11. The apparatus of claim 10, wherein the parameter processor (110) is configured to perform a weighted combination of the at least two raw parameters (252) upon combining the at least two raw parameters, wherein the weighting coefficients for the weighted combination are extracted to based on the amplitude-related index (320) of the transport signal (122) in the corresponding input time subframe. 12. Устройство по п. 11, в котором процессор (110) параметров выполнен с возможностью использования энергии или мощности в качестве связанного с амплитудой показателя (320), и при этом весовой коэффициент для входного субкадра больше в случае более высокой энергии или мощности транспортного сигнала (122) в соответствующем входном временном субкадре по сравнению с весовым коэффициентом для входного субкадра, имеющего более низкую энергию или мощность транспортного сигнала (122) в соответствующем входном временном субкадре.12. The apparatus of claim 11, wherein the parameter processor (110) is configured to use energy or power as an amplitude-related metric (320), and wherein the weighting factor for the input subframe is greater in the case of higher energy or power of the transport signal (122) in the corresponding input time subframe compared to a weighting factor for the input subframe having lower energy or power of the transport signal (122) in the corresponding input time subframe. 13. Устройство по одному из предшествующих пунктов, в котором коэффициент (512; 522) сглаживания вычисляется для каждой полосы частот в зависимости от изменения энергий в соответствующей полосе частот.13. The device according to one of the preceding paragraphs, in which the smoothing coefficient (512; 522) is calculated for each frequency band depending on the change in energies in the corresponding frequency band. 14. Устройство по одному из предшествующих пунктов, в котором выходной интерфейс (120) выполнен с возможностью:14. The device according to one of the preceding paragraphs, in which the output interface (120) is configured to: - выполнения преобразования временной части транспортного сигнала (122), соответствующего выходному временному кадру (220), в спектральное представление, при этом временная часть транспортного сигнала (122) меньше входного временного кадра (210), в котором организуются параметры из первого набора (112) параметров,- performing a transformation of the time part of the transport signal (122), corresponding to the output time frame (220), into a spectral representation, while the time part of the transport signal (122) is less than the input time frame (210), in which the parameters from the first set (112) are organized parameters, - выполнения операции повышающего микширования спектрального представления с использованием второго набора (114) параметров для получения двух или более каналов в спектральном представлении; и- performing an operation of upmixing the spectral representation using the second set (114) of parameters to obtain two or more channels in the spectral representation; And - преобразования каждого канала из двух или более каналов в спектральном представлении во временное представление.- converting each channel from two or more channels in a spectral representation into a temporal representation. 15. Устройство по п. 14, в котором выходной интерфейс (120) выполнен с возможностью:15. The device according to claim 14, in which the output interface (120) is configured to: - преобразования в область комплексного дискретногопреобразования Фурье,- transformation into the domain of complex discrete Fourier transform, - выполнения операции повышающего микширования в области комплексного дискретного преобразования Фурье, и- performing an upmixing operation in the domain of the complex discrete Fourier transform, and - выполнения преобразования из области комплексного дискретного преобразования Фурье в действительнозначное представление во временной области.- performing a transformation from the domain of the complex discrete Fourier transform to a real-valued representation in the time domain. 16. Устройство по п. 14 или 15, в котором выходной интерфейс (120) выполнен с возможностью выполнять операцию повышающего микширования на основе следующего уравнения:16. The apparatus of claim 14 or 15, wherein the output interface (120) is configured to perform an upmixing operation based on the following equation: - при этом является транспортным сигналом (122) для кадра t и частотного элемента k разрешения, при этом является первым каналом из двух или более каналов в спектральном представлении для кадра t и частотного элемента k разрешения, при этом является вторым каналом из двух или более каналов в спектральном представлении для кадра t и частотного элемента к разрешения, при этом является параметром (455) бокового усиления для кадра t и подполосы b частот, при этом является параметром (456) усиления для остаточного прогнозирования для кадра t и подполосы b частот, при этом gnorm является энергетическим регулирующим коэффициентом, который может использоваться или не использоваться, и при этом является необработанным остаточным сигналом для кадра t и частотного элемента k разрешения.- wherein is the transport signal (122) for frame t and frequency element k of resolution, while is the first channel of two or more channels in the spectral representation for frame t and frequency bin k, wherein is the second channel of two or more channels in the spectral representation for frame t and frequency bin k of resolution, wherein is the side gain parameter (455) for frame t and frequency subband b, wherein is the gain parameter (456) for the residual prediction for frame t and frequency subband b, wherein g norm is an energy control factor that may or may not be used, and wherein is the raw residual signal for frame t and frequency bin k. 17. Устройство по одному из предшествующих пунктов,17. The device according to one of the previous paragraphs, - в котором первый набор (122) параметров представляет собой параметр направления поступления для полосы (231) входных частот, и при этом второй набор (114) параметров содержит параметр (455) бокового усиления в расчете на полосу (231) входных частот, и- wherein the first set of parameters (122) is a direction of arrival parameter for the input frequency band (231), and wherein the second set of parameters (114) contains a side gain parameter (455) per input frequency band (231), and - при этом преобразователь (110) параметров выполнен с возможностью вычисления параметра (455) бокового усиления для полосы (241) выходных частот с использованием следующего уравнения: - wherein the parameter converter (110) is configured to calculate the side gain parameter (455) for the output frequency band (241) using the following equation: - при этом b является полосой (241) выходных частот, при этом sidegain является параметром (455) бокового усиления, при этом azimuth является азимутальным компонентом параметра направления поступления, и при этом elevation являетсякомпонентом угла места параметра направления поступления.- wherein b is the output frequency band (241), wherein sidegain is the side gain parameter (455), wherein azimuth is the azimuthal component of the arrival direction parameter, and wherein elevation is the elevation component of the arrival direction parameter. 18. Устройство по п. 17,18. Device according to clause 17, - в котором первый набор (112) параметров дополнительно содержит параметр рассеянности для полосы (231) входных частот, и при этом преобразователь (110) параметров выполнен с возможностью вычисления параметра (455) бокового усиления для полосы (241) выходных частот с использованием следующего уравнения:- wherein the first parameter set (112) further comprises a dissipation parameter for the input frequency band (231), and wherein the parameter converter (110) is configured to calculate the side gain parameter (455) for the output frequency band (241) using the following equation : - при этом diff(b) является параметром рассеянности для полосы (231) b входных частот.- in this case, diff(b) is the scattering parameter for the band (231) b of the input frequencies. 19. Устройство по одному из предшествующих пунктов,19. The device according to one of the previous paragraphs, - в котором первый набор (112) параметров содержит параметр рассеянности в расчете на полосу (231) входных частот, и- in which the first set (112) of parameters contains a scattering parameter per input frequency band (231), and - при этом второй набор (114) параметров содержит параметр (456) усиления для остаточного прогнозирования для полосы (241) выходных частот, и- wherein the second set (114) of parameters contains a gain parameter (456) for residual prediction for the output frequency band (241), and - при этом процессор (110) параметров должен использовать в качестве параметра (456) усиления для остаточного прогнозирования для полосы частот выходных параметров параметр рассеянности из полосы частот входных параметров, когда полоса частот входных параметров и полоса частот выходных параметров равны друг другу, или извлекать из параметра рассеянности для полосы частот входных параметров параметр рассеянности для полосы частот выходных параметров и затем использовать параметр рассеянности для полосы частот выходных параметров в качестве параметра (456) усиления для остаточного прогнозирования для полосы частот выходных параметров.- in this case, the parameter processor (110) must use as a gain parameter (456) for the residual prediction for the frequency band of the output parameters the scattering parameter from the frequency band of the input parameters, when the frequency band of the input parameters and the frequency band of the output parameters are equal to each other, or extract from scatter parameter for the input bandwidth; scatter parameter for the output bandwidth; and then use the scatter parameter for the output bandwidth as the gain parameter (456) for the residual prediction for the output bandwidth. 20. Устройство по одному из пп. 14-19, в котором информация относительно транспортного сигнала (122) содержит базовый кодированный аудиосигнал, и при этом устройство дополнительно содержит:20. Device according to one of paragraphs. 14-19, wherein the information regarding the transport signal (122) comprises a base encoded audio signal, and wherein the device further comprises: - базовый декодер (810) транспортных сигналов для базового декодирования базового кодированного аудиосигнала для получения транспортного сигнала (122).- a base transport signal decoder (810) for base decoding the base encoded audio signal to obtain a transport signal (122). 21. Устройство по п. 20, в котором базовый декодер (810) транспортных сигналов находится в декодере ACELP, или21. The apparatus of claim 20, wherein the base transport signal decoder (810) is located in an ACELP decoder, or - в котором выходной интерфейс (120) выполнен с возможностью преобразования транспортного сигнала (122), представляющего собой сигнал полосы низких частот, в спектральное представление, повышающего микширования спектрального представления и преобразования микшированного с повышением спектрального представления во временной области для получения представления в полосе низких частот двух или более каналов,- wherein the output interface (120) is configured to convert the transport signal (122), which is a low-band signal, into a spectral representation, upmix the spectral representation, and convert the upmixed spectral representation in the time domain to obtain a low-band representation two or more channels, - при этом устройство содержит:- the device contains: - процессор (910) расширения полосы пропускания для формирования сигнала полосы высоких частот из транспортного сигнала (122) во временной области,- a bandwidth extension processor (910) for generating a high frequency band signal from the transport signal (122) in the time domain, - модуль (930) многоканального заполнения для применения операции многоканального заполнения к транспортному сигналу (122) во временной области,- a multi-channel padding module (930) for applying a multi-channel padding operation to the transport signal (122) in the time domain, - повышающий микшер (920) для применения широкополосного панорамирования во временной области к сигналу полосы высоких частот с использованием по меньшей мере одного параметра из второго набора (114) параметров; и- an upmixer (920) for applying wideband time domain panning to the high frequency band signal using at least one parameter from a second set (114) of parameters; And - модуль (940) комбинирования сигналов для комбинирования во временной области результата широкополосного панорамирования, результата стереозаполнения и представления в полосе низких частот двух или более каналов для получения полнополосного многоканального сигнала во временной области в качестве канального представления.- a signal combining module (940) for combining in the time domain the result of wideband panning, the result of stereo fill and the low-band representation of two or more channels to obtain a full-bandwidth multi-channel signal in the time domain as a channel representation. 22. Устройство по одному из предшествующих пунктов,22. The device according to one of the previous paragraphs, - в котором выходной интерфейс (120) выполнен с возможностью формирования необработанного представления двух или более каналов с использованием второго набора (114) параметров и транспортного сигнала (122),- wherein the output interface (120) is configured to generate a raw representation of two or more channels using a second set (114) of parameters and a transport signal (122), - при этом устройство дополнительно содержит модуль (990) многоканального улучшения для формирования улучшающего представления двух или более каналов с использованием транспортного сигнала (122), и- wherein the device further comprises a multi-channel enhancement module (990) for generating an enhancing representation of two or more channels using the transport signal (122), and - при этом устройство дополнительно содержит модуль (940) комбинирования сигналов для комбинирования необработанного представления двух или более каналов и улучшающего представления двух или более каналов для получения обработанной аудиосцены (124).- wherein the device further comprises a signal combining module (940) for combining the raw representation of two or more channels and the enhancing representation of two or more channels to obtain a processed audio scene (124). 23. Устройство по п. 22, в котором модуль (990) многоканального улучшения выполнен с возможностью формирования улучшающего представления (992) двух или более каналов сиспользованием улучшающего транспортного сигнала (822) и второго набора (114) параметров, или23. The apparatus of claim 22, wherein the multi-channel enhancement module (990) is configured to generate an enhancing representation (992) of two or more channels using the enhancing transport signal (822) and the second set of parameters (114), or - при этом модуль (990) многоканального улучшения содержит модуль (820) улучшения транспортных сигналов для формирования улучшающего транспортного сигнала (822) и повышающий микшер для повышающего микширования улучшающего транспортного сигнала (822).- wherein the multi-channel enhancement module (990) comprises a transport signal enhancement module (820) for generating an enhancing transport signal (822) and an up-mixer for up-mixing the improving transport signal (822). 24. Устройство по п. 23, в котором транспортный сигнал (122) представляет собой кодированный транспортный сигнал, и при этом устройство дополнительно содержит:24. The device of claim 23, wherein the transport signal (122) is a coded transport signal, and the device further comprises: - базовый декодер (810) транспортных сигналов для формирования декодированного необработанного транспортного сигнала,- a base decoder (810) of transport signals for generating a decoded raw transport signal, - при этом модуль (820) улучшения транспортных сигналов выполнен с возможностью формирования улучшающего транспортного сигнала с использованием декодированного необработанного транспортного сигнала, и- wherein the transport signal enhancement module (820) is configured to generate an enhancing transport signal using the decoded raw transport signal, and - при этом выходной интерфейс (120) выполнен с возможностью формировать необработанное представление двух или более каналов с использованием второго набора (114) параметров и декодированного необработанного транспортного сигнала.- wherein the output interface (120) is configured to generate a raw representation of two or more channels using the second set (114) of parameters and the decoded raw transport signal. 25. Устройство по п. 22, или 23, или 24, в котором модуль (990) многоканального улучшения содержит или повышающий микшер, или модуль (930) многоканального заполнения, либо как повышающий микшер, так и модуль (930) многоканального заполнения для формирования улучшающего представления двух или более каналов с использованием транспортного сигнала (122) или улучшающего транспортного сигнала (822) и по меньшей мере одного параметра из второго набора (114) параметров.25. The apparatus of claim 22, or 23, or 24, wherein the multi-channel enhancement module (990) comprises either an up-mixer or a multi-channel filler module (930), or both an up-mixer and a multi-channel filler module (930) for generating improving representations of two or more channels using a transport signal (122) or an enhancing transport signal (822) and at least one parameter from a second set of parameters (114). 26. Устройство по одному из пп. 22, 23, 24 или 25, в котором выходной интерфейс (120) выполнен с возможностью формирования необработанного представления двух или более каналов с использованием повышающего микширования во второй области,26. Device according to one of paragraphs. 22, 23, 24 or 25, wherein the output interface (120) is configured to generate a raw representation of two or more channels using upmixing in a second region, - при этом модуль (820) улучшения транспортных сигналов выполнен с возможностью формирования улучшающего транспортного сигнала (822) в первой области, отличающейся от второй области, или при этом модуль (990) многоканального улучшения выполнен с возможностью формирования улучшающего представления двух или более каналов с использованием улучшающего транспортного сигнала(822) в первой области, и- wherein the transport signal enhancement module (820) is configured to generate an enhancing transport signal (822) in a first region different from the second region, or wherein the multi-channel enhancement module (990) is configured to generate an enhancing representation of two or more channels using improving transport signal (822) in the first region, and - при этом модуль (940) комбинирования сигналов выполнен с возможностью комбинирования необработанного представления двух или более каналов и улучшающего представления двух или более каналов в первой области.- wherein the signal combining module (940) is configured to combine the raw representation of two or more channels and the enhancing representation of two or more channels in the first region. 27. Устройство по п. 26, в котором первая область представляет собой временную область, и вторая область представляет собой спектральную область.27. The apparatus of claim 26, wherein the first region is a time domain and the second region is a spectral domain. 28. Устройство по одному из пп. 22-27, в котором модуль (820) улучшения транспортных сигналов или модуль (990) многоканального улучшения выполнен с возможностью выполнения по меньшей мере одной операции из группы операций, содержащих операцию расширения полосы пропускания, операцию заполнения интервалов отсутствия сигнала, операцию повышения качества или операцию интерполяции.28. Device according to one of paragraphs. 22-27, in which the transport signal enhancement module (820) or the multi-channel enhancement module (990) is configured to perform at least one operation from a group of operations comprising a bandwidth expansion operation, a signal gap filling operation, a quality enhancement operation, or a interpolation. 29. Устройство по одному из пп. 22-28,29. Device according to one of paragraphs. 22-28, - в котором модуль (820) улучшения транспортных сигналов или модуль (990) многоканального улучшения выполнен с возможностью работы параллельно с выходным интерфейсом (120) при формировании необработанного представления, или- wherein the transport signal enhancement module (820) or the multi-channel enhancement module (990) is configured to operate in parallel with the output interface (120) when generating the raw representation, or - в котором процессор (110) параметров выполнен с возможностью работы параллельно с модулем (820) улучшения транспортных сигналов.- in which the parameter processor (110) is configured to operate in parallel with the transport signal enhancement module (820). 30. Устройство по одному из пп. 24-29, в котором базовый декодер (810) транспортных сигналов выполнен с возможностью подачи декодированного необработанного транспортного сигнала в двух параллельных ветвях, причем первая ветвь из двух параллельных ветвей содержит выходной интерфейс (120), и вторая ветвь из двух параллельных ветвей содержит модуль (820) улучшения транспортных сигналов или модуль (990) многоканального улучшения, либо и то, и другое, и при этом модуль (940) комбинирования сигналов выполнен с возможностью приема первого ввода, который должен комбинироваться из первой ветви, и второго ввода, который должен комбинироваться из второй ветви.30. Device according to one of paragraphs. 24-29, wherein the base transport signal decoder (810) is configured to supply the decoded raw transport signal in two parallel branches, the first branch of the two parallel branches comprising an output interface (120), and the second branch of the two parallel branches comprising a module ( 820) transport signal enhancement module (990) or a multi-channel enhancement module (990), or both, and wherein the signal combining module (940) is configured to receive a first input to be combined from the first branch and a second input to be combined from the second branch. 31. Устройство по одному из пп. 1-30, в котором выходной интерфейс (120) выполнен с возможностью:31. Device according to one of paragraphs. 1-30, in which the output interface (120) is configured to: - выполнения преобразования временной части транспортного сигнала (122), соответствующего выходному временному кадру (220), в спектральное представление,- converting the time portion of the transport signal (122) corresponding to the output time frame (220) into a spectral representation, - выполнения операции повышающего микшированияспектрального представления с использованием второго набора (114) параметров для получения двух или более каналов в спектральном представлении; и- performing an operation of upmixing the spectral representation using the second set (114) of parameters to obtain two or more channels in the spectral representation; And - преобразования каждого канала из двух или более каналов в спектральном представлении во временное представление для получения необработанного временного представления двух или более каналов, и- converting each channel of two or more channels in a spectral representation into a temporal representation to obtain a raw temporal representation of the two or more channels, and - при этом модуль (940) комбинирования сигналов выполнен с возможностью комбинирования необработанного временного представления двух или более каналов и улучшающего временного представления двух или более каналов.- wherein the signal combining module (940) is configured to combine the raw temporal representation of two or more channels and the improving temporal representation of two or more channels. 32. Способ обработки аудиосцены (130), представляющей звуковое поле, причем аудиосцена (130) содержит информацию относительно транспортного сигнала и первый набор параметров, при этом способ содержит этапы, на которых:32. A method for processing an audio scene (130) representing a sound field, the audio scene (130) comprising information regarding a transport signal and a first set of parameters, the method comprising the steps of: - обрабатывают первый набор (112) параметров для получения второго набора (114) параметров, при этом обработка содержит этапы, на которых:- processing the first set (112) of parameters to obtain a second set (114) of parameters, wherein the processing comprises the steps of: - вычисляют по меньшей мере один необработанный параметр (252) для каждого выходного временного кадра (220) с использованием по меньшей мере одного параметра из первого набора (112) параметров для входного временного кадра (210),- calculating at least one raw parameter (252) for each output time frame (220) using at least one parameter from the first set (112) of parameters for the input time frame (210), - вычисляют коэффициент (512; 522) сглаживания для каждого необработанного параметра (252) в соответствии с правилом сглаживания, и- calculate the smoothing coefficient (512; 522) for each raw parameter (252) in accordance with the smoothing rule, and - применяют соответствующий коэффициент (512; 522) сглаживания к соответствующему необработанному параметру (252) для извлечения параметра из второго набора (114) параметров для выходного временного кадра (220),- apply a corresponding smoothing factor (512; 522) to the corresponding raw parameter (252) to extract the parameter from the second set (114) of parameters for the output time frame (220), - при этом обработка содержит этап, на котором сглаживают необработанные параметры (252) со временем таким образом, что относительно сильное сглаживание получается в первой временной части аудиосцены (130), и относительно слабое сглаживание получается во второй временной части аудиосцены (130), при этом аудиосцена (130) изменяется быстрее во второй временной части аудиосцены (130), чем в первой временной части аудиосцены (130); иwherein the processing comprises smoothing the raw parameters (252) over time such that relatively strong smoothing is obtained in a first time portion of the audio scene (130), and relatively weak smoothing is obtained in a second time portion of the audio scene (130), wherein the audio scene (130) changes faster in the second time audio scene portion (130) than in the first time audio scene portion (130); And - формируют обработанную аудиосцену (124) с использованием второго набора параметров и информации в отношении транспортного сигнала.- generating a processed audio scene (124) using a second set of parameters and information regarding the transport signal. 33. Физический носитель данных, на котором сохранена компьютерная программа для осуществления при выполнении на компьютере или процессоре способа по п. 32.33. A physical storage medium on which a computer program is stored for implementing the method according to claim 32 when executed on a computer or processor.
RU2023111685A 2021-10-08 Device, method or computer program for processing encoded audio scene using parameter smoothing RU2818033C1 (en)

Publications (1)

Publication Number Publication Date
RU2818033C1 true RU2818033C1 (en) 2024-04-23

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010115850A1 (en) * 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010115850A1 (en) * 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Similar Documents

Publication Publication Date Title
JP6626581B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using one wideband alignment parameter and multiple narrowband alignment parameters
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
US9129593B2 (en) Multi channel audio processing
CA3036880A1 (en) Audio apparatus and audio providing method thereof
TWI697894B (en) Apparatus, method and computer program for decoding an encoded multichannel signal
JP2023085524A (en) Acoustic scene encoder and acoustic scene decoder using hybrid encoder/decoder space analysis, and methods thereof
US20230238006A1 (en) Apparatus, Method, or Computer Program for Processing an Encoded Audio Scene using a Parameter Conversion
RU2818033C1 (en) Device, method or computer program for processing encoded audio scene using parameter smoothing
RU2822446C1 (en) Device, method or computer program for processing an encoded audio scene using parameter conversion
RU2820946C1 (en) Device, method or computer program for processing encoded audio scene using bandwidth extension
TWI805019B (en) Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
TWI803999B (en) Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
CN116457878A (en) Apparatus, method or computer program for processing encoded audio scenes using bandwidth extension
CN116529813A (en) Apparatus, method or computer program for processing encoded audio scenes using parameter conversion
TW202347317A (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing