RU2802803C2

RU2802803C2 - Methods and devices for coding and/or decoding diving audio signals

Info

Publication number: RU2802803C2
Application number: RU2020130053A
Authority: RU
Inventors: Дэвид С. МАКГРАТ; Майкл ЭККЕРТ; Хейко ПУРНХАГЕН; Стефан БРУН
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн; Долби Интернэшнл Аб
Priority date: 2018-07-02
Filing date: 2019-07-02
Publication date: 2023-09-04

Abstract

FIELD: audio signal coding means.

SUBSTANCE: plurality of channel downmix signals are determined from the multichannel input ambiophonic signal. Energy multiplexing of a plurality of downmix channel signals is performed to obtain a plurality of compressed channel signals. The audio recovery metadata is determined based on the plurality of compressed channel signals and based on the multi-channel input ambiophonic signal. In this case, the audio restoration metadata enables the recipient device to upmix multiple compressed channel signals into an approximation of a multi-channel input ambiophonic signal. A plurality of compressed channel signals and audio reconstruction metadata are encoded.

EFFECT: increased efficiency of audio coding.

8 cl, 8 dwg

Description

Перекрестные ссылки на родственные заявкиCross references to related applications

Данная заявка притязает на приоритет предварительной заявки на патент (США) № 62/693246, поданной 2 июля 2018 года, которая настоящим содержится по ссылке в данном документе.This application claims priority to U.S. Provisional Patent Application No. 62/693,246, filed July 2, 2018, which is hereby incorporated by reference herein.

Область техники, к которой относится изобретениеField of technology to which the invention relates

Настоящий документ относится к аудиосигналам погружения, которые могут содержать сигналы представления звукового поля, а именно, к амбиофоническим сигналам. В частности, настоящий документ относится к предоставлению кодера и соответствующего декодера, которые обеспечивают возможность передачи и/или сохранения аудиосигналов погружения эффективным по скорости передачи битов способом и/или с высоким перцепционным качеством.This document relates to immersive audio signals that may contain sound field representation signals, namely ambiophonic signals. In particular, this document relates to providing an encoder and a corresponding decoder that enable the transmission and/or storage of immersive audio signals in a bit rate efficient manner and/or with high perceptual quality.

Уровень техникиState of the art

Звук или звуковое поле в окружении прослушивания слушателя, который размещается в позиции прослушивания, может описываться с использованием амбиофонического сигнала. Амбиофонический сигнал может рассматриваться в качестве многоканального аудиосигнала, причем каждый канал соответствует конкретной диаграмме направленности звукового поля в позиции прослушивания слушателя. Амбиофонический сигнал может описываться с использованием трехмерной декартовой системы координат, причем начало системы координат соответствует позиции прослушивания, ось X указывает вперед, ось Y указывает влево, и ось Z указывает вверх.The sound or sound field in the listening environment of a listener who is positioned at the listening position may be described using an ambiophonic signal. An ambiophonic signal can be thought of as a multi-channel audio signal, with each channel corresponding to a specific sound field pattern at the listener's listening position. An ambiophonic signal can be described using a three-dimensional Cartesian coordinate system, with the origin of the coordinate system corresponding to the listening position, the X-axis pointing forward, the Y-axis pointing to the left, and the Z-axis pointing up.

Посредством увеличения числа аудиосигналов или каналов и посредством увеличения числа соответствующих диаграмм направленности (и соответствующих функций панорамирования), может увеличиваться точность, с которой описывается звуковое поле. В качестве примера, амбиофонический сигнал первого порядка содержит 4 канала или формы сигналов, а именно, W-канал, указывающий всенаправленный компонент звукового поля, X-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси X, Y-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси Y, и Z-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси Z. Амбиофонический сигнал второго порядка содержит 9 каналов, включающих в себя 4 канала амбиофонического сигнала первого порядка (также называемых "B-форматом") плюс 5 дополнительных каналов для различных диаграмм направленности. В общем, амбиофонический сигнал L-порядка содержит (L+1)² каналов, включающих в себя L² каналов амбиофонических сигналов (L-1)-порядка плюс [(L+1)²-L²] дополнительных каналов для дополнительных диаграмм направленности (при использовании формата трехмерной амбиофонии). Амбиофонические сигналы L-порядка для L>1 могут называться "сигналами на основе амбиофонии высшего порядка (HOA)".By increasing the number of audio signals or channels and by increasing the number of corresponding polar patterns (and corresponding panning functions), the accuracy with which the sound field is described can be increased. As an example, a first order ambiophonic signal contains 4 channels or waveforms, namely, a W channel indicating the omnidirectional component of the sound field, an X channel describing the sound field with a dipole radiation pattern corresponding to the X axis, a Y channel describing the sound field field with a dipole pattern corresponding to the Y axis, and a Z channel describing the sound field with a dipole pattern corresponding to the Z axis. The second order ambiophonic signal contains 9 channels, including 4 channels of the first order ambiophonic signal (also called "B- format") plus 5 additional channels for different radiation patterns. In general, an L-order ambiophonic signal contains (L+1) ² channels, including L ² channels of (L-1)-order ambiophonic signals plus [(L+1) ² -L ² ] additional channels for additional radiation patterns (when using the 3D ambiophony format). L-order ambiophonic signals for L>1 may be referred to as "higher order ambiophonic (HOA) signals".

HOA-сигнал может использоваться для того, чтобы описывать трехмерное звуковое поле независимо из компоновки динамиков, которая используется для рендеринга HOA-сигнала. Примерные компоновки динамиков содержат наушники или одну или более компоновок громкоговорителей, или окружение рендеринга в стиле виртуальной реальности. Следовательно, может быть преимущественным предоставлять HOA-сигнал в модуль аудиорендеринга, чтобы обеспечивать возможность модулю аудиорендеринга гибко адаптироваться к различным компоновкам динамиков.The HOA signal can be used to describe a three-dimensional sound field independent of the speaker arrangement that is used to render the HOA signal. Exemplary speaker arrangements include headphones or one or more speaker arrangements, or a virtual reality style rendering environment. Therefore, it may be advantageous to provide an HOA signal to the audio rendering module to allow the audio rendering module to flexibly adapt to different speaker layouts.

Сигналы представления звукового поля (SR), такие как амбиофонические сигналы, могут дополняться аудиообъектами и/или многоканальными (нагрузочными) сигналами, чтобы предоставлять аудиосигнал погружения (IA). Настоящий документ решает техническую проблему передачи и/или сохранения IA-сигналов с высоким перцепционным качеством эффективным по полосе пропускания способом. Техническая проблема решается посредством независимых пунктов формулы изобретения. Предпочтительные примеры описываются в зависимых пунктах формулы изобретения.Sound field representation (SR) signals, such as ambiophonic signals, can be complemented with audio objects and/or multi-channel (load) signals to provide an immersive audio (IA) signal. The present document solves the technical problem of transmitting and/or storing IA signals with high perceptual quality in a bandwidth-efficient manner. The technical problem is solved by independent claims. Preferred examples are described in the dependent claims.

Сущность изобретенияThe essence of the invention

Согласно аспекту, описывается способ для кодирования многоканального входного сигнала. Многоканальный входной сигнал может представлять собой часть аудиосигнала погружения (IA). Многоканальный входной сигнал может содержать сигнал представления звукового поля (SR), а именно, амбиофонический сигнал первого или высшего порядка. Способ содержит определение множества канальных сигналов понижающего микширования из многоканального входного сигнала. Кроме того, способ содержит выполнение энергетического уплотнения множества канальных сигналов понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов. Помимо этого, способ содержит определение метаданных объединенного кодирования (а именно, метаданных восстановления разрешения пространственного аудио (SPAR)) на основе множества уплотненных канальных сигналов и на основе многоканального входного сигнала, при этом метаданные объединенного кодирования являются такими, что они обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного сигнала. Способ дополнительно содержит кодирование множества уплотненных канальных сигналов и метаданных объединенного кодирования.According to an aspect, a method for encoding a multi-channel input signal is described. The multi-channel input signal may be part of an immersion audio (IA) signal. The multi-channel input signal may comprise a sound field representation (SR) signal, namely a first or higher order ambiophonic signal. The method comprises determining a plurality of downmix channel signals from a multi-channel input signal. The method further comprises performing energy multiplexing on a plurality of downmix channel signals so as to provide a plurality of compressed channel signals. In addition, the method includes determining merged encoding metadata (namely, spatial audio resolution recovery (SPAR) metadata) based on a plurality of compressed channel signals and based on a multi-channel input signal, wherein the merged encoding metadata is such that it enables upmixing of the plurality of compressed channel signals to approximate a multi-channel input signal. The method further comprises encoding a plurality of compressed channel signals and concatenated encoding metadata.

Согласно дополнительному аспекту, описывается способ для определения восстановленного многоканального сигнала из кодированных аудиоданных, указывающих множество восстановленных канальных сигналов, и из кодированных метаданных, указывающих метаданные объединенного кодирования. Способ содержит декодирование кодированных аудиоданных, чтобы предоставлять множество восстановленных канальных сигналов, и декодирование кодированных метаданных, чтобы предоставлять метаданные объединенного кодирования. Кроме того, способ содержит определение восстановленного многоканального сигнала из множества восстановленных канальных сигналов с использованием метаданных объединенного кодирования.According to a further aspect, a method is described for determining a reconstructed multi-channel signal from encoded audio data indicating a plurality of reconstructed channel signals and from encoded metadata indicating merged encoding metadata. The method comprises decoding encoded audio data to provide a plurality of reconstructed channel signals, and decoding encoded metadata to provide merged encoding metadata. The method further comprises determining a reconstructed multi-channel signal from a plurality of reconstructed channel signals using fusion encoding metadata.

Согласно дополнительному аспекту, описывается программно-реализованная программа. Программно-реализованная программа может адаптироваться с возможностью выполнения на процессоре и с возможностью осуществления этапов способа, указанных в настоящем документе, при выполнении на процессоре.According to a further aspect, a software program is described. The software program may be adapted to be executed on a processor and to be capable of performing the steps of a method specified herein when executed on a processor.

Согласно другому аспекту, описывается носитель хранения данных. Носитель хранения данных может содержать программно-реализованную программу, адаптированную с возможностью выполнения на процессоре и с возможностью осуществления этапов способа, указанных в настоящем документе, при выполнении на процессоре.According to another aspect, a storage medium is described. The storage medium may comprise a software program adapted to be executed on a processor and capable of performing the steps of a method set forth herein when executed on a processor.

Согласно дополнительному аспекту, описывается компьютерный программный продукт. Компьютерная программа может содержать выполняемые инструкции для осуществления этапов способа, указанных в настоящем документе, при выполнении на компьютере.According to a further aspect, a computer program product is described. The computer program may contain executable instructions for carrying out the steps of the method specified herein when executed on a computer.

Согласно другому аспекту, описывается блок кодирования или устройство кодирования для кодирования многоканального входного сигнала и/или аудиосигнала погружения (IA). Блок кодирования выполнен с возможностью определять множество канальных сигналов понижающего микширования из многоканального входного сигнала. Кроме того, блок кодирования выполнен с возможностью выполнять энергетическое уплотнение множества канальных сигналов понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов. Помимо этого, блок кодирования выполнен с возможностью определять метаданные объединенного кодирования на основе множества уплотненных канальных сигналов и на основе многоканального входного сигнала, при этом метаданные объединенного кодирования являются такими, что они обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного сигнала. Блок кодирования дополнительно выполнен с возможностью кодировать множество уплотненных канальных сигналов и метаданных объединенного кодирования.According to another aspect, an encoder or encoder for encoding a multi-channel input signal and/or an immersion audio (IA) signal is described. The encoding unit is configured to determine a plurality of downmix channel signals from a multi-channel input signal. In addition, the encoding unit is configured to perform energy multiplexing of a plurality of downmix channel signals so as to provide a plurality of compressed channel signals. In addition, the encoding unit is configured to determine fusion encoding metadata based on the plurality of compressed channel signals and based on the multi-channel input signal, wherein the fusion encoding metadata is such that it enables upmixing of the plurality of compressed channel signals into an approximation of the multi-channel input signal. The encoding unit is further configured to encode a plurality of compressed channel signals and concatenated encoding metadata.

Согласно другому аспекту, описывается блок декодирования или устройство декодирования для определения восстановленного многоканального сигнала из кодированных аудиоданных, указывающих множество восстановленных канальных сигналов, и из кодированных метаданных, указывающих метаданные объединенного кодирования. Блок декодирования выполнен с возможностью декодировать кодированные аудиоданные, чтобы предоставлять множество восстановленных канальных сигналов, и декодировать кодированные метаданные, чтобы предоставлять метаданные объединенного кодирования. Кроме того, блок декодирования выполнен с возможностью определять восстановленный многоканальный сигнал из множества восстановленных канальных сигналов с использованием метаданных объединенного кодирования.According to another aspect, a decoding unit or decoding apparatus is described for determining a reconstructed multi-channel signal from encoded audio data indicating a plurality of reconstructed channel signals and from encoded metadata indicating combined encoding metadata. The decoding unit is configured to decode encoded audio data to provide a plurality of reconstructed channel signals, and decode encoded metadata to provide merged encoding metadata. In addition, the decoding unit is configured to determine a reconstructed multi-channel signal from a plurality of reconstructed channel signals using merged encoding metadata.

Следует отметить, что способы, устройства и системы, включающие в себя их предпочтительные варианты осуществления, как указано в настоящей заявке на патент, могут использоваться автономно или в комбинации с другими способами, устройствами и системами, раскрытыми в этом документе. Кроме того, все аспекты способов, устройств и систем, указанных в настоящей заявке на патент, могут произвольно комбинироваться. В частности, признаки пунктов формулы изобретения могут комбинироваться между собой произвольным способом.It should be noted that the methods, devices and systems, including their preferred embodiments, as set forth in this patent application, may be used alone or in combination with other methods, devices and systems disclosed herein. In addition, all aspects of the methods, devices and systems disclosed in this patent application may be freely combined. In particular, the features of the claims can be combined with each other in any way.

Краткое описание чертежейBrief description of drawings

Ниже поясняется изобретение примерным способом со ссылкой на прилагаемые чертежи, на которых:The invention is explained below in an exemplary manner with reference to the accompanying drawings, in which:

Фиг. 1 показывает примерную систему кодирования;Fig. 1 shows an exemplary coding system;

Фиг. 2 показывает примерный блок кодирования для кодирования аудиосигнала погружения;Fig. 2 shows an exemplary encoding block for encoding an dive audio signal;

Фиг. 3 показывает другой пример блок декодирования для декодирования аудиосигнала погружения;Fig. 3 shows another example of a decoding block for decoding an immersion audio signal;

Фиг. 4 показывает примерный блок кодирования и блок декодирования для кодирования и декодирования аудиосигнала погружения;Fig. 4 shows an example encoding block and decoding block for encoding and decoding an immersive audio signal;

Фиг. 5 показывает примерный блок кодирования и блок декодирования с переключением режимов;Fig. 5 shows an example encoding block and decoding block with mode switching;

Фиг. 6 показывает примерный модуль восстановления;Fig. 6 shows an example recovery module;

Фиг. 7 показывает блок-схему последовательности операций примерного способа для кодирования аудиосигнала погружения; иFig. 7 shows a flowchart of an exemplary method for encoding an dive audio signal; And

Фиг. 8 показывает блок-схему последовательности операций примерного способа для декодирования данных, указывающих аудиосигнал погружения.Fig. 8 shows a flowchart of an exemplary method for decoding data indicative of an immersion audio signal.

Подробное описание изобретенияDetailed Description of the Invention

Как указано выше, настоящий документ относится к эффективному кодированию аудиосигналов погружения (IA), таких как сигналы амбиофонии первого порядка (FOA) или HOA-сигналы, многоканальные и/или объектные аудиосигналы, при этом именно FOA- или HOA-сигналы, если обобщить, называются в данном документе "сигналами представления звукового поля (SR)".As stated above, this document relates to the efficient encoding of immersive audio (IA) signals, such as first order ambiophony (FOA) or HOA signals, multi-channel and/or object audio signals, wherein FOA or HOA signals, in general, are referred to herein as “sound field representation (SR) signals”.

Как указано в разделе введения, SR-сигнал может содержать относительно высокое число каналов или форм сигналов, при этом различные каналы связаны с различными функциями панорамирования и/или с различными диаграммами направленности. В качестве примера, трехмерный FOA- или HOA-сигнал L-ого порядка содержит (L+1)² каналов. SR-сигнал может представляться во всевозможных форматах.As stated in the introduction section, an SR signal may contain a relatively high number of channels or waveforms, with different channels associated with different panning functions and/or different radiation patterns. As an example, an Lth order 3D FOA or HOA signal contains (L+1) ² channels. The SR signal can be presented in a variety of formats.

Звуковое поле может рассматриваться как состоящее из одного или более акустических событий, исходящих из произвольных направлений вокруг позиции прослушивания. Как следствие, местоположения одного или более акустических событий могут задаваться на поверхности сферы (при этом позиция прослушивания или опорная позиция находится в центре сферы).The sound field can be thought of as consisting of one or more acoustic events emanating from arbitrary directions around the listening position. As a consequence, the locations of one or more acoustic events can be defined on the surface of the sphere (with the listening position or reference position being at the center of the sphere).

Формат звукового поля, такой как FOA или амбиофония высшего порядка (HOA), задается таким образом, чтобы обеспечивать возможность рендеринга звукового поля для произвольных компоновок динамиков (т.е. для произвольных систем рендеринга). Тем не менее, системы рендеринга (такие как система Dolby Atmos) типично ограничены в том смысле, что возможные подъемы динамиков являются фиксированно равными заданному числу плоскостей (например, (горизонтальная) плоскость на высоте ушей, потолок или верхняя плоскость и/или пол или нижняя плоскость). Следовательно, понятие идеального сферического звукового поля может модифицироваться до звукового поля, которое состоит из акустических объектов, которые расположены в различных кольцах на различных высотах на поверхности сферы (аналогично многоярусным кольцам, которые составляют улей).A sound field format, such as FOA or Higher Order Ambiophony (HOA), is specified to allow the sound field to be rendered for arbitrary speaker layouts (i.e., arbitrary rendering systems). However, rendering systems (such as the Dolby Atmos system) are typically limited in the sense that possible speaker elevations are fixed to a given number of planes (e.g., ear-height (horizontal) plane, ceiling or top plane, and/or floor or bottom plane). Therefore, the concept of an ideal spherical sound field can be modified to a sound field that consists of acoustic objects that are arranged in various rings at various heights on the surface of a sphere (similar to the multi-tiered rings that make up a beehive).

Как показано на фиг. 1, система 100 кодирования аудио содержит блок 110 кодирования и блок 120 декодирования. Блок 110 кодирования может быть выполнен с возможностью формировать поток 101 битов для передачи в блок 120 декодирования на основе входного сигнала 111, при этом входной сигнал 111 может содержать аудиосигнал погружения (используемый, например, для вариантов применения в стиле виртуальной реальности (VR)). Аудиосигнал погружения может содержать SR-сигнал, многоканальные (нагрузочные) сигналы и/или множество объектов (причем каждый объект содержит объектный сигнал и метаданные объектов). Блок 120 декодирования может быть выполнен с возможностью предоставлять выходной сигнал 121 на основе потока 101 битов, при этом выходной сигнал 121 может содержать восстановленный аудиосигнал погружения.As shown in FIG. 1, the audio encoding system 100 includes an encoding unit 110 and a decoding unit 120. The encoding block 110 may be configured to generate a bit stream 101 for transmission to the decoding block 120 based on the input signal 111, wherein the input signal 111 may comprise an immersive audio signal (used, for example, for virtual reality (VR) style applications). The dive audio signal may comprise an SR signal, multi-channel (load) signals, and/or multiple objects (with each object containing an object signal and object metadata). Decoding unit 120 may be configured to provide an output signal 121 based on the bit stream 101, wherein the output signal 121 may comprise a reconstructed immersion audio signal.

Фиг. 2 иллюстрирует примерный блок 110, 200 кодирования. Блок 200 кодирования может быть выполнен с возможностью кодировать входной сигнал 111, причем входной сигнал 111 может представлять собой входной аудиосигнал 111 погружения (IA). Входной IA-сигнал 111 может содержать многоканальный входной сигнал 201. Многоканальный входной сигнал 201 может содержать SR-сигнал и один или более объектных сигналов. Кроме того, метаданные 202 объектов для множества объектных сигналов могут предоставляться в качестве части входного IA-сигнала 111. Входной IA-сигнал 111 может предоставляться посредством механизма приема контента, при этом механизм приема контента может быть выполнен с возможностью извлекать объекты и/или SR-сигналы из (комплексного) VR-контента.Fig. 2 illustrates an example encoding block 110, 200. The encoding unit 200 may be configured to encode the input signal 111, wherein the input signal 111 may be an dive audio (IA) input signal 111. The IA input signal 111 may include a multi-channel input signal 201. The multi-channel input signal 201 may include an SR signal and one or more object signals. In addition, object metadata 202 for a plurality of object signals may be provided as part of the input IA signal 111. The input IA signal 111 may be provided by a content receiving engine, wherein the content receiving engine may be configured to retrieve objects and/or SRs. signals from (complex) VR content.

Блок 200 кодирования содержит модуль 210 понижающего микширования, выполненный с возможностью понижающе сводить многоканальный входной сигнал 201 во множество канальных сигналов 203 понижающего микширования. Множество канальных сигналов 203 понижающего микширования могут соответствовать SR-сигналу, а именно, сигналу амбиофонии первого порядка (FOA). Понижающее микширование может выполняться в подполосной области или в QMF-области (например, с использованием 10 или более подполос частот).The encoding unit 200 includes a downmixer 210 configured to downmix the multi-channel input signal 201 into a plurality of downmix channel signals 203. A plurality of channel downmix signals 203 may correspond to an SR signal, namely a first order ambiphony (FOA) signal. Downmixing can be performed in the subband domain or in the QMF domain (eg, using 10 or more subbands).

Блок 200 кодирования дополнительно содержит модуль 230 объединенного кодирования (а именно, SPAR-модуль), который выполнен с возможностью определять метаданные 205 объединенного кодирования (а именно, метаданные SPAR (восстановления разрешения пространственного аудио)), которые выполнены с возможностью восстанавливать многоканальный входной сигнал 201 из множества канальных сигналов 203 понижающего микширования. Модуль 230 объединенного кодирования может быть выполнен с возможностью определять метаданные 205 объединенного кодирования в подполосной области.The encoding unit 200 further includes a merged encoding module 230 (namely, a SPAR module) that is configured to define merged encoding metadata 205 (namely, SPAR (Spatial Audio Resolution Recovery) metadata) that is configured to recover the multi-channel input signal 201 of a plurality of downmix channel signals 203. The merged encoding module 230 may be configured to determine the merged encoding metadata 205 in the subband domain.

Для определения метаданных 205 объединенного кодирования, множество канальных сигналов 203 понижающего микширования могут преобразовываться в подполосную область и/или могут обрабатываться в подполосной области. Кроме того, многоканальный входной сигнал 201 может преобразовываться в подполосную область. Затем, метаданные 205 объединенного кодирования могут определяться в расчете на каждую подполосу частот, а именно, таким образом, что посредством повышающего микширования подполосного сигнала из множества канальных сигналов 203 понижающего микширования с использованием метаданных 205 объединенного кодирования, получается аппроксимация подполосного сигнала многоканального входного сигнала 201. Метаданные 205 объединенного кодирования для различных подполос частот могут вставляться в поток 101 битов для передачи в соответствующий блок 120 декодирования.To determine the merged encoding metadata 205, a plurality of channel downmix signals 203 may be converted to the sub-band domain and/or may be processed in the sub-band domain. In addition, the multi-channel input signal 201 may be converted to the sub-band domain. Next, the merged encoding metadata 205 may be determined on a per-subband basis, such that by upmixing a subband signal from a plurality of channel downmix signals 203 using the merged encoding metadata 205, an approximation of the subband signal of the multi-channel input signal 201 is obtained. Combined encoding metadata 205 for various subbands may be inserted into bit stream 101 for transmission to the corresponding decoding block 120.

Помимо этого, блок 200 кодирования может содержать модуль 240 кодирования, который выполнен с возможностью выполнять кодирование на основе формы сигналов множества канальных сигналов 203 понижающего микширования, за счет этого предоставляя кодированные аудиоданные 206. Каждый из канальных сигналов 203 понижающего микширования может кодироваться с использованием монокодера на основе формы сигналов (например, 3GPP EVS-кодирования), за счет этого обеспечивая эффективное кодирование. Дополнительные примеры для кодирования множества канальных сигналов 203 понижающего микширования представляют собой MPEG AAC, MPEG HE-AAC и другие MPEG-аудиокодеки, 3GPP-кодеки, Dolby Digital/Dolby Digital Plus (AC-3, eAC-3), Opus, LC-3 и аналогичные кодеки. В качестве дополнительного примера, инструментальные средства кодирования, содержащиеся в AC-4-кодеке, также могут быть выполнены с возможностью выполнять операции блока 200 кодирования.In addition, the encoding unit 200 may include an encoding unit 240 that is configured to perform waveform-based encoding of a plurality of channel downmix signals 203, thereby providing encoded audio data 206. Each of the channel downmix signals 203 may be encoded using a mono encoder on based on waveforms (eg 3GPP EVS coding), thereby ensuring efficient coding. Additional examples for encoding multiple channel downmix signals 203 include MPEG AAC, MPEG HE-AAC and other MPEG audio codecs, 3GPP codecs, Dolby Digital/Dolby Digital Plus (AC-3, eAC-3), Opus, LC-3 and similar codecs. As a further example, the encoding tools contained in the AC-4 codec may also be configured to perform the operations of the encoding block 200.

Кроме того, модуль 240 кодирования может быть выполнен с возможностью выполнять энтропийное кодирование метаданных 205 объединенного кодирования (т.е. SPAR-метаданных) и метаданных 202 объектов, за счет этого предоставляя кодированные метаданные 207. Кодированные аудиоданные 206 и кодированные метаданные 207 могут вставляться в поток 101 битов.In addition, encoding module 240 may be configured to entropy encode the combined encoding metadata 205 (i.e., SPAR metadata) and object metadata 202, thereby providing encoded metadata 207. Encoded audio data 206 and encoded metadata 207 may be inserted into stream 101 bits.

Фиг. 3 показывает примерный блок 120, 350 декодирования. Блок 120, 350 декодирования может включать в себя приемное устройство, которое принимает поток 101 битов, который может включать в себя кодированные аудиоданные 206 и кодированные метаданные 207. Блок 120, 350 декодирования может включать в себя процессор и/или демультиплексор, который демультиплексирует кодированные аудиоданные 206 и кодированные метаданные 207 из потока 101 битов. Блок 350 декодирования содержит модуль 360 декодирования, который выполнен с возможностью извлекать множество восстановленных канальных сигналов 314 из кодированных аудиоданных 206. Модуль 360 декодирования дополнительно может быть выполнен с возможностью извлекать метаданные 205 объединенного кодирования и метаданные 202 объектов из кодированных метаданных 207.Fig. 3 shows an example decoding block 120, 350. The decoding unit 120, 350 may include a receiver that receives a bit stream 101, which may include encoded audio data 206 and encoded metadata 207. The decoding unit 120, 350 may include a processor and/or a demultiplexer that demultiplexes the encoded audio data. 206 and encoded metadata 207 from the bit stream 101. The decoding unit 350 includes a decoding module 360, which is configured to extract a plurality of reconstructed channel signals 314 from the encoded audio data 206. The decoding module 360 may further be configured to extract the merged encoding metadata 205 and object metadata 202 from the encoded metadata 207.

Помимо этого, блок 350 декодирования содержит модуль 370 восстановления, который выполнен с возможностью извлекать восстановленный многоканальный сигнал 311 из метаданных 205 объединенного кодирования и из множества восстановленных канальных сигналов 314. Метаданные 205 объединенного кодирования могут передавать изменяющиеся во времени и/или по частоте элементы матрицы повышающего микширования, которая обеспечивает возможность восстановления многоканального сигнала 311 из множества восстановленных канальных сигналов 314. Процесс повышающего микширования может выполняться в подполосной области на основе QMF (квадратурных зеркальных фильтров). Альтернативно, другое частотно-временное преобразование, а именно, преобразование на основе FFT (быстрого преобразования Фурье), может использоваться для того, чтобы выполнять процесс повышающего микширования. В общем, может применяться преобразование, которое обеспечивает частотно-избирательный анализ и обработку (повышающего микширования). Процесс повышающего микширования также может включать в себя декорреляторы, которые обеспечивают улучшенное восстановление ковариации восстановленного многоканального сигнала 311, при этом декорреляторы могут управляться посредством дополнительных метаданных 205 объединенного кодирования.In addition, the decoding unit 350 includes a recovery module 370, which is configured to extract the reconstructed multi-channel signal 311 from the merged encoding metadata 205 and from the plurality of reconstructed channel signals 314. The merged encoding metadata 205 may convey time- and/or frequency-varying up-up matrix elements. mixing that allows the multi-channel signal 311 to be reconstructed from a plurality of reconstructed channel signals 314. The upmixing process may be performed in the sub-band domain based on QMFs (quadrature mirror filters). Alternatively, another time-frequency transform, namely an FFT (Fast Fourier Transform) based transform, can be used to perform the upmixing process. In general, a transform can be applied that provides frequency-selective analysis and (upmixing) processing. The upmixing process may also include decorrelators that provide improved covariance recovery of the reconstructed multi-channel signal 311, where the decorrelators may be controlled by additional merged encoding metadata 205.

Восстановленный многоканальный сигнал 311 может содержать сигнал, известный как восстановленный SR-сигнал, и один или более восстановленных объектных сигналов. Восстановленный многоканальный сигнал 311 и метаданные объектов могут формировать восстановленный IA-сигнал 121. Восстановленный IA-сигнал 121 может использоваться для рендеринга 330 в динамиках, для рендеринга 331 в наушниках и/или для SR-рендеринга 332.The reconstructed multi-channel signal 311 may comprise a signal known as a reconstructed SR signal and one or more reconstructed object signals. The reconstructed multi-channel signal 311 and object metadata may form a reconstructed IA signal 121. The reconstructed IA signal 121 may be used for speaker rendering 330, for headphone rendering 331, and/or for SR rendering 332.

Фиг. 4 иллюстрирует блок 200 кодирования и блок 350 декодирования. Блок 200 кодирования содержит компоненты, описанные в контексте фиг. 2. Кроме того, блок 200 кодирования содержит модуль 420 энергетического уплотнения, который выполнен с возможностью концентрировать энергию множества канальных сигналов 203 понижающего микширования в одном или более канальных сигналов 203 понижающего микширования. Модуль 420 энергетического уплотнения может преобразовывать канальные сигналы 203 понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов 404. Преобразование может выполняться таким образом, что один или более уплотненных канальных сигналов 404 имеют меньше энергии, чем соответствующий один или более канальных сигналов 203 понижающего микширования.Fig. 4 illustrates an encoding block 200 and a decoding block 350. Encoding block 200 includes the components described in the context of FIG. 2. In addition, the encoding unit 200 includes an energy compressor 420, which is configured to concentrate the energy of a plurality of channel downmix signals 203 into one or more channel downmix signals 203. The energy compressor module 420 may convert the downmix channel signals 203 so as to provide a plurality of compressed channel signals 404. The conversion may be performed such that one or more compressed channel signals 404 have less energy than the corresponding one or more downmix channel signals 203 .

В качестве примера, множество канальных сигналов 203 понижающего микширования могут содержать W-канальный сигнал, X-канальный сигнал, Y-канальный сигнал и Z-канальный сигнал. Множество уплотненных канальных сигналов 404 могут содержать W-канальный сигнал, X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал. X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал могут определяться таким образом, что X'-канальный сигнал имеет меньше энергии, чем X-канальный сигнал, таким образом, что Y'-канальный сигнал имеет меньше энергии, чем Y-канальный сигнал, и/или таким образом, что Z'-канальный сигнал имеет меньше энергии, чем Z-канальный сигнал.As an example, the plurality of downmix channel signals 203 may include a W channel signal, an X channel signal, a Y channel signal, and a Z channel signal. The plurality of compressed channel signals 404 may include a W channel signal, an X' channel signal, a Y' channel signal, and a Z' channel signal. The X' channel signal, the Y' channel signal and the Z' channel signal may be determined such that the X' channel signal has less energy than the X channel signal, such that the Y' channel signal has less energy than the Y channel signal, and/or such that the Z' channel signal has less energy than the Z channel signal.

Модуль 420 энергетического уплотнения может быть выполнен с возможностью выполнять энергетическое уплотнение с использованием операции прогнозирования. В частности, первый поднабор множества канальных сигналов 203 понижающего микширования (например, X-канального сигнала, Y-канального сигнала и Z-канального сигнала) может прогнозироваться из второго поднабора множества канальных сигналов 203 понижающего микширования (например, W-канального сигнала). Энергетическое уплотнение может содержать вычитание масштабированной версии одного из канальных сигналов 203 понижающего микширования (например, W-канального сигнала) из других канальных сигналов 203 понижающего микширования (например, X-канального сигнала, Y-канального сигнала и/или Z-канального сигнала). Коэффициент масштабирования может определяться таким образом, что энергия других канальных сигналов 203 понижающего микширования уменьшается, а именно, минимизируется.The energy compaction module 420 may be configured to perform energy compaction using a predictive operation. Specifically, a first subset of a plurality of downmix channel signals 203 (eg, an X-channel signal, a Y-channel signal, and a Z-channel signal) may be predicted from a second subset of a plurality of downmix channel signals 203 (eg, a W-channel signal). The energy multiplex may comprise subtracting a scaled version of one of the downmix channel signals 203 (eg, a W channel signal) from the other downmix channel signals 203 (eg, an X channel signal, a Y channel signal, and/or a Z channel signal). The scaling factor may be determined such that the energy of the other channel downmix signals 203 is reduced, that is, minimized.

Посредством выполнения энергетического уплотнения, эффективность для кодирования множества уплотненного канального сигнала 404 может увеличиваться по сравнению с кодированием множества канальных сигналов 203 понижающего микширования. Блок 200 кодирования выполнен с возможностью неявно вставлять метаданные для выполнения инверсии операции энергетического уплотнения в метаданные 205 объединенного кодирования. В результате этого, достигается эффективное кодирование в качестве входного IA-сигнала 111.By performing energy multiplexing, the efficiency for encoding a plurality of compressed channel signals 404 can be increased compared with encoding a plurality of downmix channel signals 203. The encoding block 200 is configured to implicitly insert metadata to perform the inversion of the energy compaction operation into the merged encoding metadata 205. As a result, efficient encoding is achieved as the input IA signal 111.

Как указано выше, блок декодирования содержит модуль 370 восстановления. Фиг. 6 иллюстрирует примерный модуль 370 восстановления. Модуль 370 восстановления принимает в качестве ввода множество восстановленных канальных сигналов 314 (который, например, может формировать амбиофонический сигнал первого порядка). Первый микшер 611 может быть выполнен с возможностью повышающе сводить множество восстановленных канальных сигналов 314 (например, четыре канальных сигнала) в увеличенное число сигналов (например, в одиннадцать сигналов, представляющих амбиофонический сигнал второго порядка, и в два объектных сигнала). Первый микшер 611 зависит от метаданных 205 объединенного кодирования.As stated above, the decoding unit includes a recovery module 370. Fig. 6 illustrates an example recovery module 370. Reconstruction module 370 receives as input a plurality of reconstructed channel signals 314 (which, for example, may generate a first order ambiophonic signal). The first mixer 611 may be configured to upmix the plurality of reconstructed channel signals 314 (eg, four channel signals) into an increased number of signals (eg, eleven signals representing a second order ambiophonic signal and two object signals). The first mixer 611 depends on the merged encoding metadata 205.

Модуль 370 восстановления может содержать декорреляторы 601, 602, которые выполнены с возможностью формировать два сигнала из W-канального сигнала, которые обрабатываются во втором микшере 612, чтобы формировать увеличенное число сигналов (например, одиннадцать сигналов). Второй микшер 612 зависит от метаданных 205 объединенного кодирования. Вывод первого микшера 611 и вывод второго микшера 612 суммируются, чтобы предоставлять восстановленный многоканальный сигнал 311.The reconstruction module 370 may include decorrelators 601, 602, which are configured to generate two signals from the W-channel signal, which are processed in the second mixer 612 to generate an increased number of signals (eg, eleven signals). The second mixer 612 depends on the merged encoding metadata 205. The output of the first mixer 611 and the output of the second mixer 612 are summed to provide the reconstructed multi-channel signal 311.

Как указано выше, метаданные 205 объединенного кодирования или SPAR-метаданные могут состоять из данных, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 611 и посредством второго микшера 612. Микшеры 611, 612 могут работать в подполосной области (а именно, в QMF-области). В этом случае, метаданные 205 объединенного кодирования или SPAR-метаданные содержат данные, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 611 и посредством второго микшера 612 для множества различных подполос частот (например, 10 или более подполос частот).As discussed above, the merged encoding metadata 205 or SPAR metadata may consist of data that represents the coefficients of the upmix matrices used by the first mixer 611 and by the second mixer 612. The mixers 611, 612 may operate in the subband domain (namely, in QMF -regions). In this case, the merged encoding metadata 205 or SPAR metadata contains data that represents the coefficients of the upmix matrices used by the first mixer 611 and by the second mixer 612 for a plurality of different subbands (eg, 10 or more subbands).

Фиг. 5 показывает блок 200 кодирования, который содержит две ветви для кодирования многоканального входного сигнала 201 и для кодирования метаданных 202 объектов (которые формируют входной IA-сигнал 111). Верхняя ветвь соответствует схеме кодирования, описанной в контексте фиг. 4. В нижней ветви, блок 230 объединенного кодирования модифицируется, чтобы определять метаданные 205, которые обеспечивают возможность восстановления множества канальных сигналов 203 понижающего микширования из множества уплотненных канальных сигналов 404. Следовательно, метаданные 205 указывают предиктор (а именно, один или более коэффициентов масштабирования), который использован для того, чтобы формировать множество уплотненных канальных сигналов 404 из множества канальных сигналов 203 понижающего микширования. В разновидности, метаданные 205 могут предоставляться непосредственно из модуля 220 энергетического уплотнения (без необходимости использования модуля 230 объединенного кодирования).Fig. 5 shows an encoding block 200 that contains two branches for encoding the multi-channel input signal 201 and for encoding object metadata 202 (which forms the IA input signal 111). The upper branch corresponds to the encoding scheme described in the context of FIG. 4. In the lower branch, the concatenated encoding block 230 is modified to define metadata 205 that enables the plurality of downmix channel signals 203 to be recovered from the plurality of compressed channel signals 404. Therefore, the metadata 205 specifies a predictor (namely, one or more scaling factors) , which is used to generate a plurality of compressed channel signals 404 from a plurality of downmix channel signals 203. In a variation, metadata 205 may be provided directly from energy multiplex module 220 (without the need for merged encoding module 230).

Блок 200 кодирования по фиг. 5 содержит модуль 500 переключения режимов, который выполнен с возможностью переключаться между первым режимом (соответствующим верхней ветви) и вторым режимом (соответствующим нижней ветви). Первый режим может использоваться для предоставления высокого перцепционного качества на увеличенной скорости передачи битов, и второй режим может использоваться для предоставления уменьшенного перцепционного качества на уменьшенной скорости передачи битов. Модуль 500 переключения режимов может быть выполнен с возможностью переключаться между первым режимом и вторым режимом в зависимости от состояния сети передачи.The encoding block 200 of FIG. 5 includes a mode switching module 500, which is configured to switch between a first mode (corresponding to the upper branch) and a second mode (corresponding to the lower branch). The first mode can be used to provide high perceptual quality at an increased bit rate, and the second mode can be used to provide reduced perceptual quality at a reduced bit rate. The mode switching unit 500 may be configured to switch between the first mode and the second mode depending on the state of the transmission network.

Кроме того, фиг. 5 показывает соответствующий блок 350 декодирования, который выполнен с возможностью выполнять декодирование согласно первому режиму (верхняя ветвь) и согласно второму режиму (нижняя ветвь). Модуль 550 переключения режимов может быть выполнен с возможностью определять то, какой режим использован посредством блока 200 кодирования (например, на покадровой основе). Если использован первый режим, то могут определяться восстановленный многоканальный сигнал 311 и метаданные 202 объектов (как указано в контексте фиг. 4). С другой стороны, если использован второй режим, то множество восстановленных канальных сигналов 513 понижающего микширования (соответствующих множеству канальных сигналов 203 понижающего микширования) могут определяться посредством блока 350 декодирования.In addition, FIG. 5 shows a corresponding decoding unit 350, which is configured to perform decoding according to a first mode (upper branch) and according to a second mode (lower branch). The mode switching module 550 may be configured to determine which mode is used by the encoding unit 200 (eg, on a frame-by-frame basis). If the first mode is used, then the reconstructed multi-channel signal 311 and object metadata 202 (as indicated in the context of FIG. 4) can be determined. On the other hand, if the second mode is used, a plurality of reconstructed downmix channel signals 513 (corresponding to a plurality of downmix channel signals 203) can be determined by the decoding unit 350.

Следовательно, описывается блок 200 кодирования, который содержит модуль 210 понижающего микширования, который выполнен с возможностью обрабатывать объекты и входной HOA-сигнал 111, с тем чтобы формировать выходной сигнал 203, имеющий сокращенное число каналов, например, сигнал амбиофонии первого порядка (FOA). Модуль 230 SPAR-кодирования формирует метаданные 205 (т.е. SPAR-метаданные), которые указывают то, как исходные вводы 111, 201 (например, объектные сигналы плюс HOA) могут повторно формироваться из FOA-сигнала 203. Набор EVS-кодеров 240 может принимать 4-канальный FOA-сигнал 203 и может создавать кодированные аудиоданные 206, которые должны вставляться в поток 101 битов, который затем декодируется посредством набора EVS-декодеров 360, чтобы создавать четырехканальный FOA-сигнал 314. SPAR-метаданные 205 могут предоставляться в качестве (энтропийно) кодированных метаданных 207 в потоке 101 битов в декодер 360. Модуль 370 восстановления затем повторно формирует вывод 121, состоящий из аудиообъектов и HOA-сигнала.Therefore, an encoding unit 200 is described that includes a downmixer 210 that is configured to process the objects and the input HOA signal 111 so as to generate an output signal 203 having a reduced number of channels, for example, a first order ambiophony (FOA) signal. The SPAR encoding module 230 generates metadata 205 (ie, SPAR metadata) that indicates how the original inputs 111, 201 (eg, object signals plus HOA) can be regenerated from the FOA signal 203. EVS encoder set 240 may receive a 4-channel FOA signal 203 and may produce encoded audio data 206 to be inserted into a bitstream 101 that is then decoded by a set of EVS decoders 360 to produce a 4-channel FOA signal 314. SPAR metadata 205 may be provided as (entropy) encoded metadata 207 in a bit stream 101 to decoder 360. Reconstruction module 370 then regenerates output 121 consisting of audio objects and the HOA signal.

Сигнал 203 низкого разрешения, сформированный посредством модуля 210 понижающего микширования, может модифицироваться посредством WXYZ-преобразования для энергетического уплотнения (в модуле 420), которое формирует выходной сигнал 404, который имеет меньшую межканальную корреляцию, по сравнению с выводом модуля 210 понижающего микширования. Цель фильтра 420 энергетического уплотнения состоит в том, чтобы уменьшать энергию в XYZ-каналах таким образом, что W-канал может кодироваться на более высокой скорости передачи битов, и низкоэнергетические X'Y'Z'-каналы могут кодироваться на более низких скоростях передачи битов. Артефакты кодирования эффективнее маскируются за счет этого, так что качество звука повышается.The low-resolution signal 203 generated by the downmixer 210 may be modified by a WXYZ transform for energy multiplexing (in the module 420), which produces an output signal 404 that has lower inter-channel correlation compared to the output of the downmixer 210. The purpose of the energy multiplex filter 420 is to reduce energy in the XYZ channels such that the W channel can be encoded at a higher bit rate and the low energy X'Y'Z' channels can be encoded at lower bit rates . Encoding artifacts are masked more effectively by this, so the sound quality is improved.

Помимо этого или альтернативно выполнению прогнозирования, энергетическое уплотнение может использовать преобразование Карунена-Лоэва (KLT), преобразование на основе анализа главных компонентов (PCA) и/или преобразование на основе разложения по сингулярным значениям (SVD). В частности, может использоваться фильтр 420 энергетического уплотнения, который содержит отбеливающий фильтр, KLT, PCA-преобразование и/или SVD-преобразование. Отбеливающий фильтр может реализовываться с использованием вышеуказанной схемы прогнозирования. В частности, фильтр 420 энергетического уплотнения может содержать комбинацию отбеливающего фильтра и KLT-, PCA- и/или SVD-преобразования, при этом второе размещается последовательно с отбеливающим фильтром. KLT-, PCA- и/или SVD-преобразование может применяться к X, Y, Z-каналам, а именно, к остаткам прогнозирования.In addition, or as an alternative to making predictions, energy compaction may use a Karhunen-Loeve transform (KLT), a principal component analysis (PCA) transform, and/or a singular value decomposition (SVD) transform. In particular, an energy compaction filter 420 may be used that includes a whitening filter, KLT, PCA transform, and/or SVD transform. The whitening filter can be implemented using the above prediction scheme. In particular, energy compaction filter 420 may comprise a combination of a whitening filter and a KLT, PCA and/or SVD transform, the latter being placed in series with the whitening filter. The KLT, PCA and/or SVD transformation can be applied to the X, Y, Z channels, namely the prediction residuals.

Фиг. 7 показывает блок-схему последовательности операций примерного способа 700 для кодирования многоканального входного сигнала 201. В частности, способ 700 направлен на кодирование IA-сигнала, который содержит многоканальный входной сигнал 201. Многоканальный входной сигнал 201 может содержать сигнал представления звукового поля (SR). В частности, многоканальный входной сигнал 201 может содержать комбинацию SR-сигнала (например, HOA-сигнала, а именно, амбиофонического сигнала второго порядка) и одного или более (а именно, двух) объектных сигналов одного или более аудиообъектов 303.Fig. 7 shows a flowchart of an exemplary method 700 for encoding a multi-channel input signal 201. In particular, the method 700 is directed to encoding an IA signal that includes a multi-channel input signal 201. The multi-channel input signal 201 may include a sound field representation (SR) signal. In particular, the multi-channel input signal 201 may comprise a combination of an SR signal (e.g., an HOA signal, namely a second order ambiophonic signal) and one or more (namely, two) object signals of one or more audio objects 303.

Способ 700 содержит определение 701 множества канальных сигналов 203 понижающего микширования из многоканального входного сигнала 201. Множество канальных сигналов 203 понижающего микширования могут содержать сокращенное число каналов по сравнению с многоканальным входным сигналом 201. Как указано выше, многоканальный входной сигнал 201 может содержать SR-сигнал, а именно, амбиофонический сигнал L-ого порядка, при L≥1, и один или более объектных сигналов одного или более аудиообъектов 303. Множество канальных сигналов 203 понижающего микширования могут определяться посредством понижающего микширования многоканального входного сигнала 201 в SR-сигнал, а именно, в амбиофонический сигнал K-го порядка, при L≥K. Следовательно, множество канальных сигналов 203 понижающего микширования могут представлять собой SR-сигнал, а именно, амбиофонический сигнал K-го порядка.Method 700 includes determining 701 a plurality of downmix channel signals 203 from the multi-channel input signal 201. The plurality of downmix channel signals 203 may comprise a reduced number of channels compared to the multi-channel input signal 201. As discussed above, the multi-channel input signal 201 may comprise an SR signal, namely, an L-th order ambiophonic signal, with L≥1, and one or more object signals of one or more audio objects 303. A plurality of channel downmix signals 203 may be determined by downmixing the multi-channel input signal 201 into an SR signal, namely, into an ambiophonic signal of the Kth order, with L≥K. Therefore, the plurality of channel downmix signals 203 may be an SR signal, namely a K-th order ambiophonic signal.

В частности, определение 701 множества канальных сигналов 203 понижающего микширования может содержать микширование одного или более объектных сигналов одного или более аудиообъектов 303 (многоканального входного сигнала 201) в SR-сигнал многоканального входного сигнала 201 (или в микшированную с понижением версию SR-сигнала). Микширование (а именно, панорамирование) может выполняться в зависимости от метаданных 202 объектов одного или более аудиообъектов 303, при этом метаданные 202 объектов аудиообъекта 303 указывают пространственную позицию аудиообъекта 303. Понижающее микширование SR-сигнала может содержать удаление [(L+1)²-L²] дополнительных каналов из SR-сигнала L-ого порядка, за счет этого предоставляя SR-сигнал (L-1)-го порядка.In particular, defining 701 a plurality of downmix channel signals 203 may comprise mixing one or more object signals of one or more audio objects 303 (multi-channel input signal 201) into an SR signal of the multi-channel input signal 201 (or a downmixed version of the SR signal). Mixing (namely, panning) may be performed depending on the object metadata 202 of one or more audio objects 303, wherein the object metadata 202 of the audio object 303 indicates the spatial position of the audio object 303. Downmixing the SR signal may include removing [(L+1) ² - L ² ] additional channels from the Lth order SR signal, thereby providing an (L-1)th order SR signal.

В предпочтительном примере, множество канальных сигналов 203 понижающего микширования формируют амбиофонический сигнал первого порядка, а именно, в B-формате или в A-формате. SR-сигнал многоканального входного сигнала 201 может представлять собой амбиофонический сигнал второго (или более высокого) порядка.In a preferred example, the plurality of channel downmix signals 203 form a first order ambiophonic signal, namely, B-format or A-format. The SR signal of the multi-channel input signal 201 may be a second (or higher) order ambiophonic signal.

Кроме того, способ 700 содержит выполнение 702 энергетического уплотнения множества канальных сигналов 203 понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов 404. Число каналов множества канальных сигналов 203 понижающего микширования и множества уплотненных канальных сигналов 404 может быть идентичным. В частности, множество уплотненных канальных сигналов 404 могут формировать или могут иметь формат амбиофонического сигнала первого порядка, а именно, B-формат или A-формат.In addition, method 700 includes performing 702 energy multiplexing of the plurality of downmix channel signals 203 so as to provide a plurality of compressed channel signals 404. The number of channels of the plurality of downmix channel signals 203 and the plurality of compressed channel signals 404 may be identical. In particular, the plurality of compressed channel signals 404 may form or may have a first order ambiophonic signal format, namely B-format or A-format.

Энергетическое уплотнение может выполняться таким образом, что межканальная корреляция между различными канальными сигналами 203 уменьшается. В частности, множество уплотненных канальных сигналов 404 могут демонстрировать меньшую межканальную корреляцию, чем множество канальных сигналов 203 понижающего микширования. Кроме того, или помимо этого, энергетическое уплотнение может выполняться таким образом, что энергия уплотненного канального сигнала ниже или равна энергии соответствующего канального сигнала понижающего микширования. Это условие может удовлетворяться для каждого канала.Energy multiplexing may be performed such that inter-channel correlation between different channel signals 203 is reduced. In particular, the plurality of compressed channel signals 404 may exhibit less inter-channel correlation than the plurality of downmix channel signals 203. In addition or in addition, energy multiplexing may be performed such that the energy of the multiplexed channel signal is lower than or equal to the energy of the corresponding downmix channel signal. This condition can be satisfied for each channel.

Выполнение 702 энергетического уплотнения может содержать прогнозирование первого канального сигнала 203 понижающего микширования (например, X-, Y- или Z-канала) из второго канального сигнала понижающего микширования (например, W-канала), чтобы предоставлять первый прогнозированный канальный сигнал. Первый прогнозированный канальный сигнал может вычитаться из первого канального сигнала 203 понижающего микширования (или наоборот), чтобы предоставлять первый уплотненный канальный сигнал 404.Performing energy multiplex 702 may include predicting a first downmix channel signal 203 (eg, an X-, Y-, or Z-channel) from a second downmix channel signal (eg, a W-channel) to provide the first predicted channel signal. The first predicted channel signal may be subtracted from the first downmix channel signal 203 (or vice versa) to provide a first compressed channel signal 404.

Прогнозирование первого канального сигнала 203 понижающего микширования из второго канального сигнала 203 понижающего микширования может содержать определение коэффициента масштабирования для масштабирования второго канального сигнала 203 понижающего микширования. Коэффициент масштабирования может определяться таким образом, что энергия первого уплотненного канального сигнала 404 уменьшается по сравнению с энергией первого канального сигнала 203 понижающего микширования, и/или таким образом, что энергия первого уплотненного канального сигнала 404 минимизируется. Первый прогнозированный канальный сигнал затем может соответствовать второму канальному сигналу 203 понижающего микширования, масштабируемому согласно коэффициенту масштабирования. Для различных каналов, могут определяться различные коэффициенты масштабирования.Predicting the first channel downmix signal 203 from the second channel downmix signal 203 may comprise determining a scaling factor for scaling the second channel downmix signal 203. The scaling factor may be determined such that the energy of the first compressed channel signal 404 is reduced relative to the energy of the first downmix channel signal 203, and/or such that the energy of the first compressed channel signal 404 is minimized. The first predicted channel signal may then correspond to the second channel downmix signal 203 scaled according to the scaling factor. For different channels, different scaling factors can be defined.

В частности, (в случае амбиофонического сигнала первого порядка), выполнение 702 энергетического уплотнения может содержать прогнозирование X-канального сигнала, Y-канального сигнала и Z-канального сигнала из W-канального сигнала из множества канальных сигналов 203 понижающего микширования таким образом, чтобы предоставлять прогнозированный X-канальный сигнал, прогнозированный Y-канальный сигнал и прогнозированный Z-канальный сигнал, соответственно. Прогнозированный X-канальный сигнал может вычитаться из X-канального сигнала (или наоборот), чтобы определять X'-канальный сигнал из множества уплотненных канальных сигналов 404. Прогнозированный Y-канальный сигнал может вычитаться из Y-канального сигнала (или наоборот), чтобы определять Y'-канальный сигнал из множества уплотненных канальных сигналов 404. Прогнозированный Z-канальный сигнал может вычитаться из Z-канального сигнала (или наоборот), чтобы определять Z'-канальный сигнал из множества уплотненных канальных сигналов 404. Кроме того, W-канальный сигнал из множества канальных сигналов 203 понижающего микширования может использоваться в качестве W-канального сигнала из множества уплотненных канальных сигналов 404.In particular, (in the case of a first-order ambiophonic signal), performing energy multiplex 702 may comprise predicting an X-channel signal, a Y-channel signal, and a Z-channel signal from a W-channel signal from a plurality of downmix channel signals 203 so as to provide predicted X-channel signal, predicted Y-channel signal and predicted Z-channel signal, respectively. The predicted X channel signal may be subtracted from the X channel signal (or vice versa) to determine the X' channel signal from the plurality of compressed channel signals 404. The predicted Y channel signal may be subtracted from the Y channel signal (or vice versa) to determine A Y'-channel signal from a plurality of compressed channel signals 404. The predicted Z-channel signal may be subtracted from the Z-channel signal (or vice versa) to determine a Z'-channel signal from a plurality of compressed channel signals 404. Additionally, a W-channel signal of the plurality of downmix channel signals 203 may be used as a W channel signal of the plurality of compressed channel signals 404.

В результате этого, энергия всех каналов (кроме одного, т.е. W-канала) может уменьшаться, за счет этого обеспечивая эффективное кодирование множества уплотненных канальных сигналов 404.As a result, the energy of all channels (except one, i.e., the W channel) can be reduced, thereby allowing efficient coding of multiple compressed channel signals 404.

Способ 700 дополнительно может содержать определение 703 метаданных 205 объединенного кодирования (также называются в данном документе "SPAR-метаданными") на основе множества уплотненных канальных сигналов 404 и на основе многоканального входного сигнала 201. Метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов 404 в аппроксимацию многоканального входного сигнала 201. Посредством использования множества уплотненных канальных сигналов 404 для определения метаданных объединенного кодирования, процесс инверсии энергетического уплотнения автоматически включается в метаданные 205 объединенного кодирования (без необходимости предоставления дополнительных метаданных специально для инверсии операции энергетического уплотнения).The method 700 may further comprise determining 703 merged encoding metadata 205 (also referred to herein as "SPAR metadata") based on the plurality of compressed channel signals 404 and based on the multi-channel input signal 201. The merged encoding metadata 205 may be determined such that the metadata 205 combined encodings provide the ability to upmix a plurality of compressed channel signals 404 into an approximation of a multi-channel input signal 201. By using multiple compressed channel signals 404 to define the combined encoding metadata, the energy multiplex inversion process is automatically included in the combined encoding metadata 205 (without the need to provide additional metadata specifically for inversion of the energy compaction operation).

Метаданные 205 объединенного кодирования могут содержать данные повышающего микширования, а именно, одну или более матриц повышающего микширования, обеспечивающих повышающее микширование множества уплотненных канальных сигналов 404 в аппроксимацию многоканального входного сигнала 201. Аппроксимация многоканального входного сигнала 201 содержит число каналов, идентичное числу каналов многоканального входного сигнала 201. Кроме того, метаданные 205 объединенного кодирования могут содержать декорреляционные данные, обеспечивающие восстановление ковариации многоканального входного сигнала 201.The concatenated encoding metadata 205 may include upmix data, namely, one or more upmix matrices providing upmixing of a plurality of compressed channel signals 404 into an approximation of the multi-channel input signal 201. The approximation of the multi-channel input signal 201 contains a number of channels identical to the number of channels of the multi-channel input signal. 201. Additionally, the fusion encoding metadata 205 may include decorrelation data to provide covariance recovery of the multi-channel input signal 201.

Метаданные 205 объединенного кодирования могут определяться для множества различных подполос частот многоканального входного сигнала 201 (например, для 10 или более подполос частот, а именно, в QMF-области). Посредством предоставления метаданных 205 объединенного кодирования для различных подполос частот (т.е. в различных полосах частот), может выполняться точная операция повышающего микширования.Fusion encoding metadata 205 may be defined for many different subbands of the multi-channel input signal 201 (eg, 10 or more subbands, namely, in the QMF domain). By providing merged encoding metadata 205 for different subbands (ie, in different frequency bands), a precise upmixing operation can be performed.

Помимо этого, способ 700 содержит кодирование 704 множества уплотненных канальных сигналов 404 и метаданных 205 объединенного кодирования (также известных как SPAR-метаданные). Кодирование 704 множества уплотненных канальных сигналов 404 может содержать выполнение кодирования на основе формы сигналов (а именно, EVS-кодирования) каждого из множества уплотненных канальных сигналов 404, в частности, с использованием монокодера для каждого уплотненного канального сигнала 404. Кроме того, или помимо этого, метаданные 205 объединенного кодирования могут кодироваться с использованием энтропийного кодера. Как указано выше, многоканальный входной сигнал 201 может содержать один или более объектных сигналов одного или более аудиообъектов 303. В таких случаях, способ 700 может содержать кодирование, в частности, с использованием энтропийного кодера, метаданных 202 объектов для одного или более аудиообъектов 303.In addition, method 700 includes encoding 704 of a plurality of compressed channel signals 404 and concatenated encoding metadata 205 (also known as SPAR metadata). Encoding 704 of the plurality of compressed channel signals 404 may comprise performing waveform coding (namely, EVS coding) of each of the plurality of compressed channel signals 404, particularly using a mono encoder for each compressed channel signal 404. Additionally or in addition to this, , the merged encoding metadata 205 may be encoded using an entropy encoder. As discussed above, multi-channel input signal 201 may comprise one or more object signals of one or more audio objects 303. In such cases, method 700 may comprise encoding, particularly using an entropy encoder, object metadata 202 for one or more audio objects 303.

Способ 700 обеспечивает возможность кодирования многоканального входного сигнала 201, который может указывать SR-сигнал и/или один или более сигналов аудиообъектов, эффективным по скорости передачи битов способом, при обеспечении возможности декодеру восстанавливать многоканальный входной сигнал 201 с высоким перцепционным качеством.Method 700 provides the ability to encode a multi-channel input signal 201, which may indicate an SR signal and/or one or more audio object signals, in a bit-rate efficient manner while allowing a decoder to reconstruct the multi-channel input signal 201 with high perceptual quality.

Определение метаданных 205 объединенного кодирования на основе множества уплотненных канальных сигналов 404 и на основе многоканального входного сигнала 201 может соответствовать первому режиму для кодирования многоканального входного сигнала 201.Defining fusion encoding metadata 205 based on the plurality of compressed channel signals 404 and based on the multi-channel input signal 201 may correspond to a first mode for encoding the multi-channel input signal 201.

Кроме того, или в дополнение к использованию прогнозирования, выполнение 702 энергетического уплотнения может содержать применение преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов 203 понижающего микширования. За счет этого, может дополнительно повышаться эффективность кодирования множества уплотненных канальных сигналов 404.Additionally, or in addition to using prediction, performing energy compaction 702 may include applying a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform to at least some of the plurality of channel signals 203 downmixing. Due to this, the coding efficiency of the plurality of compressed channel signals 404 can be further improved.

В частности, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к уплотненным канальным сигналам 404, которые соответствуют остаткам прогнозирования, которые извлечены на основе второго канального сигнала 203 понижающего микширования (а именно, на основе W-канального сигнала). Другими словами, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к остаткам прогнозирования.In particular, a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform may be applied to the compressed channel signals 404 that correspond to prediction residuals that are extracted based on the second channel downmix signal 203 (namely , based on W-channel signal). In other words, the Karhunen-Loeve transform, the principal component analysis transform, and/or the singular value decomposition transform can be applied to the forecast residuals.

Как указано выше, в контексте прогнозирования, X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал могут извлекаться на основе W-канального сигнала из множества канальных сигналов 203 понижающего микширования, формирующих амбиофонический сигнал. В частности, X'-канальный сигнал может соответствовать X-канальному сигналу минус прогнозирование X-канального сигнала, которое основано на W-канальном сигнале. Таким же образом, Y'-канальный сигнал может соответствовать Y-канальному сигналу минус прогнозирование Y-канального сигнала, которое основано на W-канальном сигнале. Таким же образом, Z'-канальный сигнал может соответствовать Z-канальному сигналу минус прогнозирование Z-канального сигнала, которое основано на W-канальном сигнале. Множество уплотненных канальных сигналов 404 могут определяться на основе либо могут соответствовать W-канальному сигналу, X'-канальному сигналу, Y'-канальному сигналу и Z'-канальному сигналу.As stated above, in the context of prediction, the X'-channel signal, the Y'-channel signal and the Z'-channel signal can be extracted based on the W-channel signal from the plurality of downmix channel signals 203 forming the ambiophonic signal. In particular, the X'-channel signal may correspond to the X-channel signal minus the X-channel signal prediction that is based on the W-channel signal. In the same way, the Y'-channel signal may correspond to the Y-channel signal minus the Y-channel signal prediction that is based on the W-channel signal. In the same way, the Z'-channel signal may correspond to the Z-channel signal minus the Z-channel signal prediction that is based on the W-channel signal. A plurality of compressed channel signals 404 may be determined based on or may correspond to a W channel signal, an X' channel signal, a Y' channel signal, and a Z' channel signal.

Чтобы дополнительно повышать эффективность кодирования множества уплотненных канальных сигналов 404, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к X'-канальному сигналу, Y'-канальному сигналу и Z'-канальному сигналу, чтобы предоставлять X''-канальный сигнал, Y''-канальный сигнал и Z''-канальный сигнал. Множество уплотненных канальных сигналов 404 затем могут определяться на основе W-канального сигнала, X''-канального сигнала, Y''-канального сигнала и Z''-канального сигнала.To further improve the encoding efficiency of multiple compressed channel signals 404, a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform may be applied to the X'-channel signal, the Y'-channel signal, and the Z'-channel signal. channel signal to provide an X''-channel signal, a Y''-channel signal, and a Z''-channel signal. A plurality of compressed channel signals 404 may then be determined based on the W channel signal, the X'' channel signal, the Y'' channel signal, and the Z'' channel signal.

Во втором режиме, метаданные 205 объединенного кодирования могут определяться на основе множества уплотненных канальных сигналов 404 и на основе множества канальных сигналов 203 понижающего микширования. Метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования обеспечивают возможность восстановления множества канальных сигналов 203 понижающего микширования из множества уплотненных канальных сигналов 404. В частности, метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования (только) оборачивают или инвертируют операцию энергетического уплотнения (без выполнения операции повышающего микширования). Второй режим может использоваться для уменьшения скорости передачи битов (с уменьшенным перцепционным качеством).In the second mode, merged encoding metadata 205 may be determined based on a plurality of compressed channel signals 404 and based on a plurality of downmix channel signals 203. The merged encoding metadata 205 may be defined such that the merged encoding metadata 205 enables recovery of a plurality of channel downmix signals 203 from a plurality of compressed channel signals 404. In particular, the merged encoding metadata 205 may be defined such that the merged encoding metadata 205 (only) wrap around or invert the energy compaction operation (without performing the upmixing operation). The second mode can be used to reduce the bit rate (with reduced perceptual quality).

Как указано выше, многоканальный входной сигнал 201 может содержать SR-сигнал и один или более объектных сигналов. Первый режим и второй режим могут обеспечивать возможность восстановления SR-сигнала (на основе множества уплотненных канальных сигналов 404). Следовательно, общее восприятие при прослушивании слушателя может поддерживаться (даже при использовании второго режима).As stated above, multi-channel input signal 201 may include an SR signal and one or more object signals. The first mode and the second mode may provide the ability to reconstruct the SR signal (based on a plurality of compressed channel signals 404). Therefore, the listener's overall listening experience can be maintained (even when using the second mode).

Многоканальный входной сигнал 201 может содержать последовательность кадров. Обработка, описанная в настоящем документе, может выполняться покадрово для каждого кадра из последовательности кадров. В частности, способ 700 может содержать определение, для каждого кадра из последовательности кадров, того, следует использовать первый режим или второй режим. За счет этого, кодирование может быть выполнено с возможностью изменения условий сети передачи быстрым способом.Multi-channel input signal 201 may comprise a sequence of frames. The processing described herein may be performed frame by frame for each frame of a sequence of frames. In particular, method 700 may comprise determining, for each frame of a sequence of frames, whether a first mode or a second mode should be used. Due to this, coding can be performed with the ability to change transmission network conditions in a fast manner.

Способ 700 может содержать формирование потока битов 101 на основе кодированных аудиоданных 206, извлекаемых посредством кодирования 704 множества уплотненных канальных сигналов 404, и на основе кодированных метаданных 207, извлекаемых посредством кодирования 704 метаданных 205 объединенного кодирования. Кроме того, способ 700 может содержать вставку в поток 101 битов индикатора, который указывает то, использован второй режим или первый режим. Индикатор может вставляться на покадровой основе. В результате этого, соответствующему блоку 350 декодирования обеспечивается возможность адаптировать декодирование надежным способом.Method 700 may include generating a bitstream 101 based on encoded audio data 206 extracted by encoding 704 of multiple compressed channel signals 404 and based on encoded metadata 207 extracted by encoding 704 of concatenated encoding metadata 205. In addition, method 700 may include inserting into bit stream 101 an indicator that indicates whether the second mode or the first mode is in use. The indicator can be inserted on a frame-by-frame basis. As a result, the corresponding decoding unit 350 is enabled to adapt the decoding in a reliable manner.

Фиг. 8 показывает блок-схему последовательности операций примерного способа 800 для определения восстановленного многоканального сигнала 311 из кодированных аудиоданных 206, указывающих множество восстановленных канальных сигналов 314, и из кодированных метаданных 207, указывающих метаданные 205 объединенного кодирования. Способ 800 может содержать извлечение кодированных аудиоданных 206 и кодированных метаданных 207 из потока 101 битов.Fig. 8 shows a flowchart of an exemplary method 800 for determining a reconstructed multi-channel signal 311 from encoded audio data 206 indicating a plurality of reconstructed channel signals 314 and from encoded metadata 207 indicating merged encoding metadata 205. Method 800 may comprise extracting encoded audio data 206 and encoded metadata 207 from the bitstream 101 .

Кроме того, способ 800 может содержать декодирование 801 кодированных аудиоданных 206, чтобы предоставлять множество восстановленных канальных сигналов 314, и декодирование кодированных метаданных 207, чтобы предоставлять метаданные 205 объединенного кодирования. В предпочтительном примере, множество восстановленных канальных сигналов 203 формируют амбиофонический сигнал первого порядка, а именно, в B-формате или в A-формате.In addition, method 800 may comprise decoding 801 of encoded audio data 206 to provide a plurality of reconstructed channel signals 314 and decoding of encoded metadata 207 to provide merged encoding metadata 205. In a preferred example, the plurality of reconstructed channel signals 203 form a first order ambiophonic signal, namely, B-format or A-format.

Декодирование 801 кодированных аудиоданных 206 может содержать декодирование на основе формы сигналов каждого из множества восстановленных канальных сигналов 314, в частности, с использованием монодекодера (например, EVS-декодера) для каждого восстановленного канального сигнала 314. Кодированные метаданные 207 могут декодироваться с использованием энтропийного декодера.Decoding 801 of the encoded audio data 206 may comprise waveform-based decoding of each of the plurality of reconstructed channel signals 314, particularly using a mono decoder (eg, an EVS decoder) for each reconstructed channel signal 314. The encoded metadata 207 may be decoded using an entropy decoder.

Кроме того, способ 800 содержит определение 802 восстановленного многоканального сигнала 311 из множества восстановленных канальных сигналов 314 с использованием метаданных 205 объединенного кодирования, при этом восстановленный многоканальный сигнал 311 может содержать восстановленный сигнал представления звукового поля (SR). В частности, восстановленный многоканальный сигнал 311 соответствует аппроксимации или восстановлению многоканального входного сигнала 201. Восстановленный многоканальный сигнал 311 и метаданные 202 объектов могут вместе формировать восстановленный аудиосигнал 121 погружения (IA).In addition, method 800 includes determining 802 a reconstructed multi-channel signal 311 from a plurality of reconstructed channel signals 314 using merged encoding metadata 205, wherein the reconstructed multi-channel signal 311 may include a reconstructed sound field representation (SR) signal. In particular, the reconstructed multi-channel signal 311 corresponds to an approximation or reconstruction of the multi-channel input signal 201. The reconstructed multi-channel signal 311 and object metadata 202 may together form a reconstructed immersion audio (IA) signal 121.

Помимо этого, способ 800 может содержать рендеринг восстановленного многоканального сигнала 311 (типично в сочетании с метаданными 202 объектов). Рендеринг может выполняться с использованием рендеринга в наушниках, рендеринга в динамиках и/или рендеринга звукового поля. В результате этого, обеспечивается гибкий рендеринг контента пространственного аудио (в частности, для VR-вариантов применения).In addition, method 800 may include rendering the reconstructed multi-channel signal 311 (typically in combination with object metadata 202). Rendering can be done using headphone rendering, speaker rendering, and/or sound field rendering. The result is flexible rendering of spatial audio content (particularly for VR applications).

Как указано выше, метаданные 205 объединенного кодирования могут содержать данные повышающего микширования, а именно, одну или более матриц повышающего микширования, обеспечивающих повышающее микширование множества восстановленных канальных сигналов 404 в восстановленный многоканальный сигнал 311. Кроме того, метаданные 205 объединенного кодирования могут содержать декорреляционные данные, обеспечивающие формирование восстановленного многоканального сигнала 311, имеющего предварительно определенную ковариацию. Метаданные 205 объединенного кодирования могут содержать различные метаданные для различных подполос частот восстановленного многоканального сигнала 311. В результате этого, может достигаться точное восстановление многоканального входного сигнала 201.As discussed above, the merged encoding metadata 205 may include upmix data, namely, one or more upmix matrices providing upmixing of a plurality of reconstructed channel signals 404 into a reconstructed multi-channel signal 311. Additionally, the merged encoding metadata 205 may include decorrelation data, providing the generation of a reconstructed multi-channel signal 311 having a predetermined covariance. The merged encoding metadata 205 may contain different metadata for different subbands of the reconstructed multi-channel signal 311. As a result, accurate reconstruction of the multi-channel input signal 201 can be achieved.

В соответствующем кодере 200, энергетические уплотнения могут применяться ко множеству канальных сигналов 304 понижающего микширования. Энергетическое уплотнение может выполняться с использованием прогнозирования и/или с использованием преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям. Метаданные 205 объединенного кодирования могут быть такими, что, в дополнение к повышающему микшированию, они неявно выполняют инверсию операции энергетического уплотнения. В частности, метаданные 205 объединенного кодирования могут быть такими, что, помимо этого, они неявно выполняют инверсию операции прогнозирования и/или инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям.In the corresponding encoder 200, energy multiplexes may be applied to a plurality of channel downmix signals 304. Energy compaction may be performed using prediction and/or using Karhunen-Loeve transform, principal component analysis based transform and/or singular value decomposition based transform. The merged encoding metadata 205 may be such that, in addition to upmixing, it implicitly performs the inverse of the energy compaction operation. In particular, the fusion encoding metadata 205 may be such that, in addition, it implicitly performs the inversion of a prediction operation and/or the inversion of a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform.

Другими словами, метаданные 205 объединенного кодирования могут быть выполнены с возможностью обеспечивать повышающее микширование множества восстановленных канальных сигналов 404 в восстановленный многоканальный сигнал 311 и (неявно) выполнять инверсию операции энергетического уплотнения для множества восстановленных канальных сигналов 314. В частности, метаданные 205 объединенного кодирования могут быть выполнены с возможностью (неявно) выполнять операцию обратного прогнозирования (инверсию относительно операции прогнозирования, выполняемой посредством кодера 200), по меньшей мере, для некоторых из множества восстановленных канальных сигналов 314. Кроме того, или помимо этого, метаданные 205 объединенного кодирования могут быть выполнены с возможностью выполнять инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям (инверсию относительно преобразования, выполняемого посредством кодера 200), по меньшей мере, для некоторых из множества восстановленных канальных сигналов 314. В результате этого, может предоставляться очень эффективная схема кодирования.In other words, the merged encoding metadata 205 may be configured to provide upmixing of a plurality of reconstructed channel signals 404 into a reconstructed multi-channel signal 311 and (implicitly) perform an inverse of the energy compaction operation on the plurality of reconstructed channel signals 314. In particular, the merged encoding metadata 205 may be configured to (implicitly) perform an inverse prediction operation (an inversion of the prediction operation performed by the encoder 200) on at least some of the plurality of reconstructed channel signals 314. Additionally or in addition, the merged encoding metadata 205 may be performed with the ability to perform an inversion of the Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform (the inverse of the transform performed by encoder 200) on at least some of the plurality of reconstructed channel signals 314. As a result, This, a very efficient encoding scheme can be provided.

Восстановленный многоканальный сигнал 311 может содержать один или более восстановленных объектных сигналов одного или более аудиообъектов 303 (в дополнение к SR-сигналу, например, FOA- или HOA-сигналу). Способ 800 может содержать декодирование, в частности, с использованием энтропийного декодера, метаданных 202 объектов для одного или более аудиообъектов 303 из кодированных метаданных 207. В результате этого, один или более объектов 303 могут подготавливаться посредством рендеринга точным способом.The reconstructed multi-channel signal 311 may include one or more reconstructed object signals of one or more audio objects 303 (in addition to an SR signal, such as an FOA or HOA signal). Method 800 may comprise decoding, particularly using an entropy decoder, object metadata 202 for one or more audio objects 303 from encoded metadata 207. As a result, one or more objects 303 may be rendered in an accurate manner.

Как указано выше, множество восстановленных канальных сигналов 314 могут формировать SR-сигнал, а именно, амбиофонический сигнал K-го порядка, при K≥1 (а именно, K=1). С другой стороны, восстановленный многоканальный сигнал 311 может содержать восстановленный SR-сигнал, а именно, амбиофонический сигнал L-ого порядка, при L≥K (а именно, L=K или L=K+1) и один или более (например, n=2) восстановленных объектных сигналов одного или более аудиообъектов 303. Восстановленный многоканальный сигнал 311 может определяться посредством повышающего микширования множества восстановленных канальных сигналов 314 с использованием метаданных 205 объединенного кодирования, за счет этого предоставляя восстановленный многоканальный сигнал 311 с существенными пространственными акустическими событиями.As stated above, the plurality of reconstructed channel signals 314 may form an SR signal, namely, a K-th order ambiophonic signal, with K≥1 (namely, K=1). On the other hand, the reconstructed multi-channel signal 311 may comprise a reconstructed SR signal, namely, an L-th order ambiophonic signal, with L≥K (namely, L=K or L=K+1) and one or more (for example, n=2) reconstructed object signals of one or more audio objects 303. The reconstructed multi-channel signal 311 may be determined by upmixing a plurality of reconstructed channel signals 314 using pooled encoding metadata 205, thereby providing a reconstructed multi-channel signal 311 with significant spatial acoustic events.

Как указано выше, использование повышающего микширования может соответствовать первому режиму (для высокого перцепционного качества). В первом режиме, объединенные метаданные 205 объектов содержат данные повышающего микширования для обеспечения возможности операции повышающего микширования. Во втором режиме, восстановленный многоканальный сигнал 311 может содержать число каналов, идентичное числу каналов множества восстановленных канальных сигналов 314 (таким образом, что операция повышающего микширования не требуется).As stated above, the use of upmixing may correspond to the first mode (for high perceptual quality). In the first mode, the combined object metadata 205 contains upmixing data to enable the upmixing operation. In the second mode, the reconstructed multi-channel signal 311 may contain a number of channels identical to the number of channels of the plurality of reconstructed channel signals 314 (such that no upmixing operation is required).

Во втором режиме, метаданные 205 объединенного кодирования могут содержать прогнозирующие данные (например, один или более коэффициентов масштабирования), выполненные с возможностью перераспределять энергию между различными восстановленными канальными сигналами 314. Кроме того, во втором режиме, определение 802 восстановленного многоканального сигнала 311 может содержать перераспределение энергии между различными восстановленными канальными сигналами 314 с использованием прогнозирующих данных. В частности, инверсия вышеуказанной операции энергетического уплотнения может выполняться с использованием метаданных 205 объединенного кодирования. В результате этого, множество канальных сигналов 203 понижающего микширования могут восстанавливаться эффективным и точным способом.In a second mode, the merged encoding metadata 205 may include predictive data (e.g., one or more scaling factors) configured to redistribute energy among the various reconstructed channel signals 314. Additionally, in the second mode, the determination 802 of the reconstructed multi-channel signal 311 may include redistribution energy between different reconstructed channel signals 314 using predictive data. In particular, the inversion of the above energy compaction operation can be performed using the merged encoding metadata 205. As a result of this, a plurality of channel downmix signals 203 can be restored in an efficient and accurate manner.

Как указано выше, операция энергетического уплотнения, которая выполняется во время кодирования, может содержать применение преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов 203 понижающего микширования. Метаданные 205 объединенного кодирования могут содержать данные преобразования, которые обеспечивают возможность декодеру 350 выполнять инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям. Другими словами, данные преобразования указывают инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, которое должно применяться, по меньшей мере, к некоторым из множества восстановленных канальных сигналов 314 для определения восстановленного многоканального сигнала 311. В результате этого, множество канальных сигналов 203 понижающего микширования могут восстанавливаться эффективным и точным способом.As discussed above, the energy compaction operation that is performed during encoding may comprise applying a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform to at least some of the plurality of channel signals 203 downmixing. Fusion encoding metadata 205 may include transform data that enables decoder 350 to perform the inverse of the Karhunen-Loeve transform, the principal component analysis transform, and/or the singular value decomposition transform. In other words, these transforms indicate the inverse of the Karhunen-Loeve transform, the principal component analysis transform, and/or the singular value decomposition transform that must be applied to at least some of the plurality of reconstructed channel signals 314 to determine the reconstructed multi-channel signal 311. As a result, a plurality of channel downmix signals 203 can be reconstructed in an efficient and accurate manner.

Как указано выше, восстановленный многоканальный входной сигнал 311 может содержать последовательность кадров. Способ 800 может содержать определение, для каждого кадра из последовательности кадров, того, должен или нет использоваться второй режим. С этой целью, из потока 101 битов может извлекаться индикатор, который указывает то, должен или нет использоваться второй режим.As noted above, the reconstructed multi-channel input signal 311 may comprise a sequence of frames. The method 800 may include determining, for each frame of the sequence of frames, whether or not the second mode should be used. To this end, an indicator may be extracted from the bitstream 101 that indicates whether or not the second mode should be used.

Различные примерные варианты осуществления настоящего изобретения могут реализовываться в аппаратных средствах или в схемах специального назначения, в программном обеспечении, в логике либо в любой комбинации вышеозначенного. Некоторые аспекты могут реализовываться в аппаратных средствах, тогда как другие аспекты могут реализовываться в микропрограммном обеспечении или программном обеспечении, которое может выполняться посредством контроллера, микропроцессора или другого вычислительного устройства. В общем, следует понимать, что настоящее раскрытие сущности также охватывает оборудование, подходящее для осуществления способов, описанных выше, например, оборудование (модуль пространственного рендеринга), имеющее запоминающее устройство и процессор, соединенный с запоминающим устройством, при этом процессор выполнен с возможностью выполнять инструкции и осуществлять способы согласно вариантам осуществления раскрытия сущности.Various exemplary embodiments of the present invention may be implemented in hardware or special purpose circuitry, software, logic, or any combination thereof. Some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software that may be executed by a controller, microprocessor, or other computing device. In general, it should be understood that the present disclosure also covers equipment suitable for implementing the methods described above, for example, equipment (spatial rendering module) having a storage device and a processor coupled to the storage device, wherein the processor is configured to execute instructions and carry out methods according to embodiments of the disclosure.

Хотя различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в качестве блок-схем, блок-схем последовательности операций способа или с использованием некоторого другого графического представления, следует принимать во внимание, что блоки, оборудование, системы, технологии или способы, описанные в данном документе, могут реализовываться, в качестве неограничивающих примеров, в аппаратных средствах, в программном обеспечении, в микропрограммном обеспечении, в схемах специального назначения или в логике, в аппаратных средствах общего назначения или в контроллере, или в других вычислительных устройствах, или в некоторой комбинации вышеозначенного.Although various aspects of exemplary embodiments of the present invention are illustrated and described as block diagrams, flowcharts, or some other graphical representation, it should be appreciated that the blocks, equipment, systems, technologies, or methods described herein document, may be implemented, by way of non-limiting examples, in hardware, software, firmware, special-purpose circuit or logic, general-purpose hardware or a controller, or other computing devices, or some combination of the foregoing. .

Дополнительно, различные блоки, показанные на блок-схемах последовательности операций способа, могут рассматриваться в качестве этапов способа и/или в качестве операций, которые получаются в результате операции компьютерного программного кода, и/или в качестве множества соединенных логических схемных элементов, сконструированных с возможностью выполнять ассоциированную функцию(и). Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, содержащий компьютерную программу, материально осуществленную на машиночитаемом носителе, при этом компьютерная программа содержит программные коды, выполненные с возможностью осуществлять способы, как описано выше.Additionally, the various blocks shown in the flowcharts may be considered as steps of a method and/or as operations that result from an operation of computer program code, and/or as a plurality of interconnected logical circuit elements designed to perform associated function(s). For example, embodiments of the present invention include a computer program product comprising a computer program tangibly embodied on a computer-readable medium, wherein the computer program includes program codes configured to implement methods as described above.

В контексте раскрытия сущности, машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или сохранять программу для использования посредством или в связи с системой, оборудованием или устройством выполнения инструкций. Машиночитаемый носитель может представлять собой машиночитаемую среду передачи сигналов или машиночитаемый носитель хранения данных. Машиночитаемый носитель может включать в себя, но не только, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, оборудование или устройство либо любую подходящую комбинацию вышеприведенного. Более конкретные примеры машиночитаемого носителя хранения данных должны включать в себя электрическое соединение, имеющее один или более проводов, портативную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптоволокно, портативное постоянное запоминающее устройство на компакт-дисках (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных либо любую подходящую комбинацию вышеприведенного.For the purposes of the disclosure, a computer-readable medium can be any tangible medium that can contain or store a program for use by or in connection with an instruction execution system, equipment, or apparatus. The computer-readable medium may be a computer-readable signaling medium or a computer-readable storage medium. A computer-readable medium may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, equipment, or device, or any suitable combination of the foregoing. More specific examples of computer readable storage media include an electrical connection having one or more wires, a portable computer diskette, a hard disk, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash). -memory), fiber optic, portable compact disc read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.

Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любой комбинации одного или более языков программирования. Эти компьютерные программные коды могут предоставляться в процессор компьютера общего назначения, компьютер специального назначения или другое программируемое оборудование обработки данных таким образом, что программные коды, при выполнении посредством процессора компьютера или другого программируемого оборудования обработки данных, инструктируют реализацию функций/операций, указываемых на блок-схемах последовательности операций способа и/или на блок-схемах. Программный код может выполняться полностью на компьютере, частично на компьютере, в качестве автономного программного пакета, частично на компьютере и частично на удаленном компьютере либо полностью на удаленном компьютере или сервере.The computer program code for implementing the methods of the present invention may be written in any combination of one or more programming languages. These computer program codes may be provided to a general purpose computer processor, a special purpose computer, or other programmable data processing equipment such that the program codes, when executed by the computer processor or other programmable data processing equipment, cause the implementation of functions/operations pointed to by the block. flowcharts and/or block diagrams. The software code may run entirely on a computer, partially on a computer, as a stand-alone software package, partially on a computer and partially on a remote computer, or entirely on a remote computer or server.

Дополнительно, хотя операции проиллюстрированы в конкретном порядке, это не следует понимать как обязательность того, что такие операции должны выполняться в конкретном показанном порядке либо в последовательном порядке, или того, что все проиллюстрированные операции должны выполняться для того, чтобы достигать требуемых результатов. При определенных обстоятельствах, может быть преимущественной многозадачная и параллельная обработка. Аналогично, хотя несколько конкретных сведений по реализации содержатся в вышеприведенном пояснении, они должны истолковываться не как ограничения на объем любого изобретения либо на формулу изобретения, а вместо этого как описания признаков, которые могут быть характерными для конкретных вариантов осуществления конкретных изобретений. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут реализовываться в комбинации в одном варианте осуществления. Наоборот, различные признаки, которые описываются в контексте одного варианта осуществления, также могут реализовываться в нескольких вариантах осуществления по отдельности либо в любой подходящей субкомбинации.Additionally, although operations are illustrated in a particular order, it should not be understood to imply that such operations must be performed in the particular order illustrated or in a sequential order, or that all illustrated operations must be performed in order to achieve the desired results. Under certain circumstances, multitasking and parallel processing may be advantageous. Likewise, although several specific implementation details are contained in the foregoing explanation, they should not be construed as limitations on the scope of any invention or on the claims, but instead as descriptions of features that may be characteristic of particular embodiments of particular inventions. Certain features that are explained in this detailed description in the context of individual embodiments may also be implemented in combination in a single embodiment. Conversely, various features that are described in the context of one embodiment may also be implemented in multiple embodiments individually or in any suitable subcombination.

Следует отметить, что описание и чертежи иллюстрируют только принципы предложенных способов и оборудования. Таким образом, следует принимать во внимание, что специалисты в данной области техники должны иметь возможность разрабатывать различные компоновки, которые, хотя не описаны или показаны явно в данном документе, осуществляют принципы изобретения и включаются в его сущность и объем. Кроме того, все примеры, изложенные в данном документе, принципиально предназначаются в явной форме только в педагогических целях, чтобы помогать читателю в понимании принципов предлагаемых способов и оборудования, а также идей, вносимых авторами изобретения для совершенствования области техники, и должны трактоваться как не имеющие ограничения такими конкретно изложенными примерами и условиями. Кроме того, все утверждения в данном документе в отношении принципов, аспектов и вариантов осуществления изобретения, а также их конкретных примеров, имеют намерение охватывать их эквиваленты.It should be noted that the description and drawings illustrate only the principles of the proposed methods and equipment. Thus, it should be appreciated that those skilled in the art should be able to develop various arrangements that, although not explicitly described or shown herein, implement the principles of the invention and are included within the spirit and scope thereof. In addition, all examples set forth herein are, in principle, intended explicitly for pedagogical purposes only to assist the reader in understanding the principles of the proposed methods and equipment, as well as the ideas introduced by the inventors to improve the field of technology, and should be construed as not having limited by such specifically stated examples and conditions. Moreover, all statements herein with respect to the principles, aspects and embodiments of the invention, as well as specific examples thereof, are intended to cover their equivalents.

Claims

1. Способ для кодирования многоканального входного амбиофонического сигнала, при этом способ содержит этапы, на которых:1. A method for encoding a multi-channel ambiophonic input signal, the method comprising the steps of:

- определяют множество канальных сигналов понижающего микширования из многоканального входного амбиофонического сигнала;- determining a plurality of downmix channel signals from the multi-channel ambiophonic input signal;

- выполняют энергетическое уплотнение множества канальных сигналов понижающего микширования для получения множества уплотненных канальных сигналов;- performing energy multiplexing of the plurality of downmix channel signals to obtain a plurality of compressed channel signals;

- определяют метаданные восстановления аудио на основе множества уплотненных канальных сигналов и на основе многоканального входного амбиофонического сигнала, при этом метаданные восстановления аудио обеспечивают устройству получателю возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала; и- defining audio restoration metadata based on the plurality of compressed channel signals and based on the multi-channel input ambiophonic signal, wherein the audio restoration metadata provides the recipient device with the ability to upmix the plurality of compressed channel signals into an approximation of the multi-channel input ambiophonic signal; And

- кодируют множество уплотненных канальных сигналов и метаданных восстановления аудио.- encode a plurality of compressed channel signals and audio reconstruction metadata.

2. Способ по п. 1, в котором выполнение энергетического уплотнения содержит 2. The method according to claim 1, in which performing energy compaction comprises

- прогнозирование первого канального сигнала понижающего микширования из второго канального сигнала понижающего микширования для обеспечения первого прогнозированного канального сигнала; и- predicting a first downmix channel signal from a second downmix channel signal to provide a first predicted channel signal; And

- вычитают первый прогнозированный канальный сигнал из первого канального сигнала понижающего микширования для обеспечения первого уплотненного канального сигнала.- subtracting the first predicted channel signal from the first downmix channel signal to provide a first compressed channel signal.

3. Способ по п. 1, в котором по крайней мере, одно из приведенных ниже (1) или (2) верно:3. The method of claim 1, wherein at least one of (1) or (2) below is true:

- (1) множество канальных сигналов понижающего микширования представляют собой амбиофонический сигнал первого порядка, в B-формате или в A-формате; - (1) the plurality of downmix channel signals are a first order ambiophonic signal, in B-format or in A-format;

- (2) множество уплотненных канальных сигналов представляются в формате амбиофонического сигнала первого порядка, в B-формате или в A-формате.- (2) a plurality of compressed channel signals are represented in a first order ambiophonic signal format, B-format or A-format.

4. Способ по п. 1, в котором выполнение энергетического уплотнения содержит применение одного из: преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов или преобразование на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов понижающего микширования.4. The method of claim 1, wherein performing the energy compaction comprises applying one of a Karhunen-Loeve transform, a principal component analysis transform, or a singular value decomposition transform to at least some of the plurality of channel downmix signals .

5. Способ по п. 1, в котором метаданные восстановления аудио содержат:5. The method according to claim 1, in which the audio recovery metadata contains:

- данные повышающего микширования, матрицу повышающего микширования, обеспечивающую повышающее микширование множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала, содержащего число каналов, идентичное числу каналов многоканального входного амбиофонического сигнала; или- upmix data, an upmix matrix providing upmixing of a plurality of compressed channel signals into an approximation of a multi-channel ambiophonic input signal containing a number of channels identical to the number of channels of the multi-channel ambiophonic input signal; or

- декорреляционные данные, обеспечивающие восстановление ковариации многоканального входного амбиофонического сигнала.- decorrelation data that provides restoration of the covariance of a multi-channel input ambiophonic signal.

6. Способ по п. 1, в котором:6. The method according to claim 1, in which:

- многоканальный входной амбиофонический сигнал содержит сигнал представления звукового поля, называемого "SR", амбиофонический сигнал L-ого порядка, при L≥1, и один или более объектных сигналов одного или более аудиообъектов; и- the multi-channel ambiophonic input signal comprises a sound field representation signal called "SR", an L-th order ambiophonic signal, with L≥1, and one or more object signals of one or more audio objects; And

- множество канальных сигналов понижающего микширования определяются посредством понижающего микширования многоканального входного амбиофонического сигнала в SR-сигнал, в амбиофонический сигнал K-го порядка, при L≥K.- a plurality of channel downmix signals are determined by downmixing the multi-channel input ambiophonic signal into an SR signal, into a K-th order ambiophonic signal, at L≥K.

7. Способ по п. 1, в котором:7. The method according to claim 1, in which:

- способ содержит этап, на котором определяют то, что многоканальный входной амбиофонический сигнал должен кодироваться с использованием второго режима; и- the method comprises determining that the multi-channel ambiophonic input signal should be encoded using a second mode; And

- во втором режиме, метаданные восстановления аудио определяются на основе множества уплотненных канальных сигналов и на основе множества канальных сигналов понижающего микширования таким образом, что метаданные восстановления аудио обеспечивают возможность восстановления множества канальных сигналов понижающего микширования из множества уплотненных канальных сигналов.- in the second mode, audio restoration metadata is determined based on the plurality of compressed channel signals and based on the plurality of downmix channel signals such that the audio restoration metadata allows the plurality of downmix channel signals to be reconstructed from the plurality of compressed channel signals.

8. Устройство кодирования для кодирования многоканального входного амбиофонического сигнала, при этом устройство кодирования выполнено с возможностью:8. An encoding device for encoding a multi-channel input ambiophonic signal, wherein the encoding device is configured to:

- определять множество канальных сигналов понижающего микширования из многоканального входного амбиофонического сигнала;- determine a plurality of downmix channel signals from the multi-channel ambiophonic input signal;

- выполнять энергетическое уплотнение множества канальных сигналов понижающего микширования для обеспечения множества уплотненных канальных сигналов;- perform energy multiplexing on a plurality of downmix channel signals to provide a plurality of compressed channel signals;

- определять метаданные восстановления аудио на основе множества уплотненных канальных сигналов и на основе многоканального входного амбиофонического сигнала, при этом метаданные восстановления аудио обеспечивают устройству получателю возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала; и- determine audio restoration metadata based on the plurality of compressed channel signals and based on the multi-channel ambiophonic input signal, wherein the audio restoration metadata provides the recipient device with the ability to upmix the plurality of compressed channel signals into an approximation of the multi-channel ambiophonic input signal; And

- кодировать множество уплотненных канальных сигналов и метаданных восстановления аудио.- encode multiple compressed channel signals and audio reconstruction metadata.