RU2802803C2 - Methods and devices for coding and/or decoding diving audio signals - Google Patents
Methods and devices for coding and/or decoding diving audio signals Download PDFInfo
- Publication number
- RU2802803C2 RU2802803C2 RU2020130053A RU2020130053A RU2802803C2 RU 2802803 C2 RU2802803 C2 RU 2802803C2 RU 2020130053 A RU2020130053 A RU 2020130053A RU 2020130053 A RU2020130053 A RU 2020130053A RU 2802803 C2 RU2802803 C2 RU 2802803C2
- Authority
- RU
- Russia
- Prior art keywords
- channel
- signal
- signals
- ambiophonic
- metadata
- Prior art date
Links
Images
Abstract
Description
Перекрестные ссылки на родственные заявкиCross references to related applications
Данная заявка притязает на приоритет предварительной заявки на патент (США) № 62/693246, поданной 2 июля 2018 года, которая настоящим содержится по ссылке в данном документе.This application claims priority to U.S. Provisional Patent Application No. 62/693,246, filed July 2, 2018, which is hereby incorporated by reference herein.
Область техники, к которой относится изобретениеField of technology to which the invention relates
Настоящий документ относится к аудиосигналам погружения, которые могут содержать сигналы представления звукового поля, а именно, к амбиофоническим сигналам. В частности, настоящий документ относится к предоставлению кодера и соответствующего декодера, которые обеспечивают возможность передачи и/или сохранения аудиосигналов погружения эффективным по скорости передачи битов способом и/или с высоким перцепционным качеством.This document relates to immersive audio signals that may contain sound field representation signals, namely ambiophonic signals. In particular, this document relates to providing an encoder and a corresponding decoder that enable the transmission and/or storage of immersive audio signals in a bit rate efficient manner and/or with high perceptual quality.
Уровень техникиState of the art
Звук или звуковое поле в окружении прослушивания слушателя, который размещается в позиции прослушивания, может описываться с использованием амбиофонического сигнала. Амбиофонический сигнал может рассматриваться в качестве многоканального аудиосигнала, причем каждый канал соответствует конкретной диаграмме направленности звукового поля в позиции прослушивания слушателя. Амбиофонический сигнал может описываться с использованием трехмерной декартовой системы координат, причем начало системы координат соответствует позиции прослушивания, ось X указывает вперед, ось Y указывает влево, и ось Z указывает вверх.The sound or sound field in the listening environment of a listener who is positioned at the listening position may be described using an ambiophonic signal. An ambiophonic signal can be thought of as a multi-channel audio signal, with each channel corresponding to a specific sound field pattern at the listener's listening position. An ambiophonic signal can be described using a three-dimensional Cartesian coordinate system, with the origin of the coordinate system corresponding to the listening position, the X-axis pointing forward, the Y-axis pointing to the left, and the Z-axis pointing up.
Посредством увеличения числа аудиосигналов или каналов и посредством увеличения числа соответствующих диаграмм направленности (и соответствующих функций панорамирования), может увеличиваться точность, с которой описывается звуковое поле. В качестве примера, амбиофонический сигнал первого порядка содержит 4 канала или формы сигналов, а именно, W-канал, указывающий всенаправленный компонент звукового поля, X-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси X, Y-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси Y, и Z-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси Z. Амбиофонический сигнал второго порядка содержит 9 каналов, включающих в себя 4 канала амбиофонического сигнала первого порядка (также называемых "B-форматом") плюс 5 дополнительных каналов для различных диаграмм направленности. В общем, амбиофонический сигнал L-порядка содержит (L+1)2 каналов, включающих в себя L2 каналов амбиофонических сигналов (L-1)-порядка плюс [(L+1)2-L2] дополнительных каналов для дополнительных диаграмм направленности (при использовании формата трехмерной амбиофонии). Амбиофонические сигналы L-порядка для L>1 могут называться "сигналами на основе амбиофонии высшего порядка (HOA)".By increasing the number of audio signals or channels and by increasing the number of corresponding polar patterns (and corresponding panning functions), the accuracy with which the sound field is described can be increased. As an example, a first order ambiophonic signal contains 4 channels or waveforms, namely, a W channel indicating the omnidirectional component of the sound field, an X channel describing the sound field with a dipole radiation pattern corresponding to the X axis, a Y channel describing the sound field field with a dipole pattern corresponding to the Y axis, and a Z channel describing the sound field with a dipole pattern corresponding to the Z axis. The second order ambiophonic signal contains 9 channels, including 4 channels of the first order ambiophonic signal (also called "B- format") plus 5 additional channels for different radiation patterns. In general, an L-order ambiophonic signal contains (L+1) 2 channels, including L 2 channels of (L-1)-order ambiophonic signals plus [(L+1) 2 -L 2 ] additional channels for additional radiation patterns (when using the 3D ambiophony format). L-order ambiophonic signals for L>1 may be referred to as "higher order ambiophonic (HOA) signals".
HOA-сигнал может использоваться для того, чтобы описывать трехмерное звуковое поле независимо из компоновки динамиков, которая используется для рендеринга HOA-сигнала. Примерные компоновки динамиков содержат наушники или одну или более компоновок громкоговорителей, или окружение рендеринга в стиле виртуальной реальности. Следовательно, может быть преимущественным предоставлять HOA-сигнал в модуль аудиорендеринга, чтобы обеспечивать возможность модулю аудиорендеринга гибко адаптироваться к различным компоновкам динамиков.The HOA signal can be used to describe a three-dimensional sound field independent of the speaker arrangement that is used to render the HOA signal. Exemplary speaker arrangements include headphones or one or more speaker arrangements, or a virtual reality style rendering environment. Therefore, it may be advantageous to provide an HOA signal to the audio rendering module to allow the audio rendering module to flexibly adapt to different speaker layouts.
Сигналы представления звукового поля (SR), такие как амбиофонические сигналы, могут дополняться аудиообъектами и/или многоканальными (нагрузочными) сигналами, чтобы предоставлять аудиосигнал погружения (IA). Настоящий документ решает техническую проблему передачи и/или сохранения IA-сигналов с высоким перцепционным качеством эффективным по полосе пропускания способом. Техническая проблема решается посредством независимых пунктов формулы изобретения. Предпочтительные примеры описываются в зависимых пунктах формулы изобретения.Sound field representation (SR) signals, such as ambiophonic signals, can be complemented with audio objects and/or multi-channel (load) signals to provide an immersive audio (IA) signal. The present document solves the technical problem of transmitting and/or storing IA signals with high perceptual quality in a bandwidth-efficient manner. The technical problem is solved by independent claims. Preferred examples are described in the dependent claims.
Сущность изобретенияThe essence of the invention
Согласно аспекту, описывается способ для кодирования многоканального входного сигнала. Многоканальный входной сигнал может представлять собой часть аудиосигнала погружения (IA). Многоканальный входной сигнал может содержать сигнал представления звукового поля (SR), а именно, амбиофонический сигнал первого или высшего порядка. Способ содержит определение множества канальных сигналов понижающего микширования из многоканального входного сигнала. Кроме того, способ содержит выполнение энергетического уплотнения множества канальных сигналов понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов. Помимо этого, способ содержит определение метаданных объединенного кодирования (а именно, метаданных восстановления разрешения пространственного аудио (SPAR)) на основе множества уплотненных канальных сигналов и на основе многоканального входного сигнала, при этом метаданные объединенного кодирования являются такими, что они обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного сигнала. Способ дополнительно содержит кодирование множества уплотненных канальных сигналов и метаданных объединенного кодирования.According to an aspect, a method for encoding a multi-channel input signal is described. The multi-channel input signal may be part of an immersion audio (IA) signal. The multi-channel input signal may comprise a sound field representation (SR) signal, namely a first or higher order ambiophonic signal. The method comprises determining a plurality of downmix channel signals from a multi-channel input signal. The method further comprises performing energy multiplexing on a plurality of downmix channel signals so as to provide a plurality of compressed channel signals. In addition, the method includes determining merged encoding metadata (namely, spatial audio resolution recovery (SPAR) metadata) based on a plurality of compressed channel signals and based on a multi-channel input signal, wherein the merged encoding metadata is such that it enables upmixing of the plurality of compressed channel signals to approximate a multi-channel input signal. The method further comprises encoding a plurality of compressed channel signals and concatenated encoding metadata.
Согласно дополнительному аспекту, описывается способ для определения восстановленного многоканального сигнала из кодированных аудиоданных, указывающих множество восстановленных канальных сигналов, и из кодированных метаданных, указывающих метаданные объединенного кодирования. Способ содержит декодирование кодированных аудиоданных, чтобы предоставлять множество восстановленных канальных сигналов, и декодирование кодированных метаданных, чтобы предоставлять метаданные объединенного кодирования. Кроме того, способ содержит определение восстановленного многоканального сигнала из множества восстановленных канальных сигналов с использованием метаданных объединенного кодирования.According to a further aspect, a method is described for determining a reconstructed multi-channel signal from encoded audio data indicating a plurality of reconstructed channel signals and from encoded metadata indicating merged encoding metadata. The method comprises decoding encoded audio data to provide a plurality of reconstructed channel signals, and decoding encoded metadata to provide merged encoding metadata. The method further comprises determining a reconstructed multi-channel signal from a plurality of reconstructed channel signals using fusion encoding metadata.
Согласно дополнительному аспекту, описывается программно-реализованная программа. Программно-реализованная программа может адаптироваться с возможностью выполнения на процессоре и с возможностью осуществления этапов способа, указанных в настоящем документе, при выполнении на процессоре.According to a further aspect, a software program is described. The software program may be adapted to be executed on a processor and to be capable of performing the steps of a method specified herein when executed on a processor.
Согласно другому аспекту, описывается носитель хранения данных. Носитель хранения данных может содержать программно-реализованную программу, адаптированную с возможностью выполнения на процессоре и с возможностью осуществления этапов способа, указанных в настоящем документе, при выполнении на процессоре.According to another aspect, a storage medium is described. The storage medium may comprise a software program adapted to be executed on a processor and capable of performing the steps of a method set forth herein when executed on a processor.
Согласно дополнительному аспекту, описывается компьютерный программный продукт. Компьютерная программа может содержать выполняемые инструкции для осуществления этапов способа, указанных в настоящем документе, при выполнении на компьютере.According to a further aspect, a computer program product is described. The computer program may contain executable instructions for carrying out the steps of the method specified herein when executed on a computer.
Согласно другому аспекту, описывается блок кодирования или устройство кодирования для кодирования многоканального входного сигнала и/или аудиосигнала погружения (IA). Блок кодирования выполнен с возможностью определять множество канальных сигналов понижающего микширования из многоканального входного сигнала. Кроме того, блок кодирования выполнен с возможностью выполнять энергетическое уплотнение множества канальных сигналов понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов. Помимо этого, блок кодирования выполнен с возможностью определять метаданные объединенного кодирования на основе множества уплотненных канальных сигналов и на основе многоканального входного сигнала, при этом метаданные объединенного кодирования являются такими, что они обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного сигнала. Блок кодирования дополнительно выполнен с возможностью кодировать множество уплотненных канальных сигналов и метаданных объединенного кодирования.According to another aspect, an encoder or encoder for encoding a multi-channel input signal and/or an immersion audio (IA) signal is described. The encoding unit is configured to determine a plurality of downmix channel signals from a multi-channel input signal. In addition, the encoding unit is configured to perform energy multiplexing of a plurality of downmix channel signals so as to provide a plurality of compressed channel signals. In addition, the encoding unit is configured to determine fusion encoding metadata based on the plurality of compressed channel signals and based on the multi-channel input signal, wherein the fusion encoding metadata is such that it enables upmixing of the plurality of compressed channel signals into an approximation of the multi-channel input signal. The encoding unit is further configured to encode a plurality of compressed channel signals and concatenated encoding metadata.
Согласно другому аспекту, описывается блок декодирования или устройство декодирования для определения восстановленного многоканального сигнала из кодированных аудиоданных, указывающих множество восстановленных канальных сигналов, и из кодированных метаданных, указывающих метаданные объединенного кодирования. Блок декодирования выполнен с возможностью декодировать кодированные аудиоданные, чтобы предоставлять множество восстановленных канальных сигналов, и декодировать кодированные метаданные, чтобы предоставлять метаданные объединенного кодирования. Кроме того, блок декодирования выполнен с возможностью определять восстановленный многоканальный сигнал из множества восстановленных канальных сигналов с использованием метаданных объединенного кодирования.According to another aspect, a decoding unit or decoding apparatus is described for determining a reconstructed multi-channel signal from encoded audio data indicating a plurality of reconstructed channel signals and from encoded metadata indicating combined encoding metadata. The decoding unit is configured to decode encoded audio data to provide a plurality of reconstructed channel signals, and decode encoded metadata to provide merged encoding metadata. In addition, the decoding unit is configured to determine a reconstructed multi-channel signal from a plurality of reconstructed channel signals using merged encoding metadata.
Следует отметить, что способы, устройства и системы, включающие в себя их предпочтительные варианты осуществления, как указано в настоящей заявке на патент, могут использоваться автономно или в комбинации с другими способами, устройствами и системами, раскрытыми в этом документе. Кроме того, все аспекты способов, устройств и систем, указанных в настоящей заявке на патент, могут произвольно комбинироваться. В частности, признаки пунктов формулы изобретения могут комбинироваться между собой произвольным способом.It should be noted that the methods, devices and systems, including their preferred embodiments, as set forth in this patent application, may be used alone or in combination with other methods, devices and systems disclosed herein. In addition, all aspects of the methods, devices and systems disclosed in this patent application may be freely combined. In particular, the features of the claims can be combined with each other in any way.
Краткое описание чертежейBrief description of drawings
Ниже поясняется изобретение примерным способом со ссылкой на прилагаемые чертежи, на которых:The invention is explained below in an exemplary manner with reference to the accompanying drawings, in which:
Фиг. 1 показывает примерную систему кодирования;Fig. 1 shows an exemplary coding system;
Фиг. 2 показывает примерный блок кодирования для кодирования аудиосигнала погружения;Fig. 2 shows an exemplary encoding block for encoding an dive audio signal;
Фиг. 3 показывает другой пример блок декодирования для декодирования аудиосигнала погружения;Fig. 3 shows another example of a decoding block for decoding an immersion audio signal;
Фиг. 4 показывает примерный блок кодирования и блок декодирования для кодирования и декодирования аудиосигнала погружения;Fig. 4 shows an example encoding block and decoding block for encoding and decoding an immersive audio signal;
Фиг. 5 показывает примерный блок кодирования и блок декодирования с переключением режимов;Fig. 5 shows an example encoding block and decoding block with mode switching;
Фиг. 6 показывает примерный модуль восстановления;Fig. 6 shows an example recovery module;
Фиг. 7 показывает блок-схему последовательности операций примерного способа для кодирования аудиосигнала погружения; иFig. 7 shows a flowchart of an exemplary method for encoding an dive audio signal; And
Фиг. 8 показывает блок-схему последовательности операций примерного способа для декодирования данных, указывающих аудиосигнал погружения.Fig. 8 shows a flowchart of an exemplary method for decoding data indicative of an immersion audio signal.
Подробное описание изобретенияDetailed Description of the Invention
Как указано выше, настоящий документ относится к эффективному кодированию аудиосигналов погружения (IA), таких как сигналы амбиофонии первого порядка (FOA) или HOA-сигналы, многоканальные и/или объектные аудиосигналы, при этом именно FOA- или HOA-сигналы, если обобщить, называются в данном документе "сигналами представления звукового поля (SR)".As stated above, this document relates to the efficient encoding of immersive audio (IA) signals, such as first order ambiophony (FOA) or HOA signals, multi-channel and/or object audio signals, wherein FOA or HOA signals, in general, are referred to herein as “sound field representation (SR) signals”.
Как указано в разделе введения, SR-сигнал может содержать относительно высокое число каналов или форм сигналов, при этом различные каналы связаны с различными функциями панорамирования и/или с различными диаграммами направленности. В качестве примера, трехмерный FOA- или HOA-сигнал L-ого порядка содержит (L+1)2 каналов. SR-сигнал может представляться во всевозможных форматах.As stated in the introduction section, an SR signal may contain a relatively high number of channels or waveforms, with different channels associated with different panning functions and/or different radiation patterns. As an example, an Lth order 3D FOA or HOA signal contains (L+1) 2 channels. The SR signal can be presented in a variety of formats.
Звуковое поле может рассматриваться как состоящее из одного или более акустических событий, исходящих из произвольных направлений вокруг позиции прослушивания. Как следствие, местоположения одного или более акустических событий могут задаваться на поверхности сферы (при этом позиция прослушивания или опорная позиция находится в центре сферы).The sound field can be thought of as consisting of one or more acoustic events emanating from arbitrary directions around the listening position. As a consequence, the locations of one or more acoustic events can be defined on the surface of the sphere (with the listening position or reference position being at the center of the sphere).
Формат звукового поля, такой как FOA или амбиофония высшего порядка (HOA), задается таким образом, чтобы обеспечивать возможность рендеринга звукового поля для произвольных компоновок динамиков (т.е. для произвольных систем рендеринга). Тем не менее, системы рендеринга (такие как система Dolby Atmos) типично ограничены в том смысле, что возможные подъемы динамиков являются фиксированно равными заданному числу плоскостей (например, (горизонтальная) плоскость на высоте ушей, потолок или верхняя плоскость и/или пол или нижняя плоскость). Следовательно, понятие идеального сферического звукового поля может модифицироваться до звукового поля, которое состоит из акустических объектов, которые расположены в различных кольцах на различных высотах на поверхности сферы (аналогично многоярусным кольцам, которые составляют улей).A sound field format, such as FOA or Higher Order Ambiophony (HOA), is specified to allow the sound field to be rendered for arbitrary speaker layouts (i.e., arbitrary rendering systems). However, rendering systems (such as the Dolby Atmos system) are typically limited in the sense that possible speaker elevations are fixed to a given number of planes (e.g., ear-height (horizontal) plane, ceiling or top plane, and/or floor or bottom plane). Therefore, the concept of an ideal spherical sound field can be modified to a sound field that consists of acoustic objects that are arranged in various rings at various heights on the surface of a sphere (similar to the multi-tiered rings that make up a beehive).
Как показано на фиг. 1, система 100 кодирования аудио содержит блок 110 кодирования и блок 120 декодирования. Блок 110 кодирования может быть выполнен с возможностью формировать поток 101 битов для передачи в блок 120 декодирования на основе входного сигнала 111, при этом входной сигнал 111 может содержать аудиосигнал погружения (используемый, например, для вариантов применения в стиле виртуальной реальности (VR)). Аудиосигнал погружения может содержать SR-сигнал, многоканальные (нагрузочные) сигналы и/или множество объектов (причем каждый объект содержит объектный сигнал и метаданные объектов). Блок 120 декодирования может быть выполнен с возможностью предоставлять выходной сигнал 121 на основе потока 101 битов, при этом выходной сигнал 121 может содержать восстановленный аудиосигнал погружения.As shown in FIG. 1, the
Фиг. 2 иллюстрирует примерный блок 110, 200 кодирования. Блок 200 кодирования может быть выполнен с возможностью кодировать входной сигнал 111, причем входной сигнал 111 может представлять собой входной аудиосигнал 111 погружения (IA). Входной IA-сигнал 111 может содержать многоканальный входной сигнал 201. Многоканальный входной сигнал 201 может содержать SR-сигнал и один или более объектных сигналов. Кроме того, метаданные 202 объектов для множества объектных сигналов могут предоставляться в качестве части входного IA-сигнала 111. Входной IA-сигнал 111 может предоставляться посредством механизма приема контента, при этом механизм приема контента может быть выполнен с возможностью извлекать объекты и/или SR-сигналы из (комплексного) VR-контента.Fig. 2 illustrates an
Блок 200 кодирования содержит модуль 210 понижающего микширования, выполненный с возможностью понижающе сводить многоканальный входной сигнал 201 во множество канальных сигналов 203 понижающего микширования. Множество канальных сигналов 203 понижающего микширования могут соответствовать SR-сигналу, а именно, сигналу амбиофонии первого порядка (FOA). Понижающее микширование может выполняться в подполосной области или в QMF-области (например, с использованием 10 или более подполос частот).The
Блок 200 кодирования дополнительно содержит модуль 230 объединенного кодирования (а именно, SPAR-модуль), который выполнен с возможностью определять метаданные 205 объединенного кодирования (а именно, метаданные SPAR (восстановления разрешения пространственного аудио)), которые выполнены с возможностью восстанавливать многоканальный входной сигнал 201 из множества канальных сигналов 203 понижающего микширования. Модуль 230 объединенного кодирования может быть выполнен с возможностью определять метаданные 205 объединенного кодирования в подполосной области.The
Для определения метаданных 205 объединенного кодирования, множество канальных сигналов 203 понижающего микширования могут преобразовываться в подполосную область и/или могут обрабатываться в подполосной области. Кроме того, многоканальный входной сигнал 201 может преобразовываться в подполосную область. Затем, метаданные 205 объединенного кодирования могут определяться в расчете на каждую подполосу частот, а именно, таким образом, что посредством повышающего микширования подполосного сигнала из множества канальных сигналов 203 понижающего микширования с использованием метаданных 205 объединенного кодирования, получается аппроксимация подполосного сигнала многоканального входного сигнала 201. Метаданные 205 объединенного кодирования для различных подполос частот могут вставляться в поток 101 битов для передачи в соответствующий блок 120 декодирования.To determine the
Помимо этого, блок 200 кодирования может содержать модуль 240 кодирования, который выполнен с возможностью выполнять кодирование на основе формы сигналов множества канальных сигналов 203 понижающего микширования, за счет этого предоставляя кодированные аудиоданные 206. Каждый из канальных сигналов 203 понижающего микширования может кодироваться с использованием монокодера на основе формы сигналов (например, 3GPP EVS-кодирования), за счет этого обеспечивая эффективное кодирование. Дополнительные примеры для кодирования множества канальных сигналов 203 понижающего микширования представляют собой MPEG AAC, MPEG HE-AAC и другие MPEG-аудиокодеки, 3GPP-кодеки, Dolby Digital/Dolby Digital Plus (AC-3, eAC-3), Opus, LC-3 и аналогичные кодеки. В качестве дополнительного примера, инструментальные средства кодирования, содержащиеся в AC-4-кодеке, также могут быть выполнены с возможностью выполнять операции блока 200 кодирования.In addition, the
Кроме того, модуль 240 кодирования может быть выполнен с возможностью выполнять энтропийное кодирование метаданных 205 объединенного кодирования (т.е. SPAR-метаданных) и метаданных 202 объектов, за счет этого предоставляя кодированные метаданные 207. Кодированные аудиоданные 206 и кодированные метаданные 207 могут вставляться в поток 101 битов.In addition,
Фиг. 3 показывает примерный блок 120, 350 декодирования. Блок 120, 350 декодирования может включать в себя приемное устройство, которое принимает поток 101 битов, который может включать в себя кодированные аудиоданные 206 и кодированные метаданные 207. Блок 120, 350 декодирования может включать в себя процессор и/или демультиплексор, который демультиплексирует кодированные аудиоданные 206 и кодированные метаданные 207 из потока 101 битов. Блок 350 декодирования содержит модуль 360 декодирования, который выполнен с возможностью извлекать множество восстановленных канальных сигналов 314 из кодированных аудиоданных 206. Модуль 360 декодирования дополнительно может быть выполнен с возможностью извлекать метаданные 205 объединенного кодирования и метаданные 202 объектов из кодированных метаданных 207.Fig. 3 shows an
Помимо этого, блок 350 декодирования содержит модуль 370 восстановления, который выполнен с возможностью извлекать восстановленный многоканальный сигнал 311 из метаданных 205 объединенного кодирования и из множества восстановленных канальных сигналов 314. Метаданные 205 объединенного кодирования могут передавать изменяющиеся во времени и/или по частоте элементы матрицы повышающего микширования, которая обеспечивает возможность восстановления многоканального сигнала 311 из множества восстановленных канальных сигналов 314. Процесс повышающего микширования может выполняться в подполосной области на основе QMF (квадратурных зеркальных фильтров). Альтернативно, другое частотно-временное преобразование, а именно, преобразование на основе FFT (быстрого преобразования Фурье), может использоваться для того, чтобы выполнять процесс повышающего микширования. В общем, может применяться преобразование, которое обеспечивает частотно-избирательный анализ и обработку (повышающего микширования). Процесс повышающего микширования также может включать в себя декорреляторы, которые обеспечивают улучшенное восстановление ковариации восстановленного многоканального сигнала 311, при этом декорреляторы могут управляться посредством дополнительных метаданных 205 объединенного кодирования.In addition, the
Восстановленный многоканальный сигнал 311 может содержать сигнал, известный как восстановленный SR-сигнал, и один или более восстановленных объектных сигналов. Восстановленный многоканальный сигнал 311 и метаданные объектов могут формировать восстановленный IA-сигнал 121. Восстановленный IA-сигнал 121 может использоваться для рендеринга 330 в динамиках, для рендеринга 331 в наушниках и/или для SR-рендеринга 332.The reconstructed
Фиг. 4 иллюстрирует блок 200 кодирования и блок 350 декодирования. Блок 200 кодирования содержит компоненты, описанные в контексте фиг. 2. Кроме того, блок 200 кодирования содержит модуль 420 энергетического уплотнения, который выполнен с возможностью концентрировать энергию множества канальных сигналов 203 понижающего микширования в одном или более канальных сигналов 203 понижающего микширования. Модуль 420 энергетического уплотнения может преобразовывать канальные сигналы 203 понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов 404. Преобразование может выполняться таким образом, что один или более уплотненных канальных сигналов 404 имеют меньше энергии, чем соответствующий один или более канальных сигналов 203 понижающего микширования.Fig. 4 illustrates an
В качестве примера, множество канальных сигналов 203 понижающего микширования могут содержать W-канальный сигнал, X-канальный сигнал, Y-канальный сигнал и Z-канальный сигнал. Множество уплотненных канальных сигналов 404 могут содержать W-канальный сигнал, X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал. X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал могут определяться таким образом, что X'-канальный сигнал имеет меньше энергии, чем X-канальный сигнал, таким образом, что Y'-канальный сигнал имеет меньше энергии, чем Y-канальный сигнал, и/или таким образом, что Z'-канальный сигнал имеет меньше энергии, чем Z-канальный сигнал.As an example, the plurality of downmix channel signals 203 may include a W channel signal, an X channel signal, a Y channel signal, and a Z channel signal. The plurality of compressed channel signals 404 may include a W channel signal, an X' channel signal, a Y' channel signal, and a Z' channel signal. The X' channel signal, the Y' channel signal and the Z' channel signal may be determined such that the X' channel signal has less energy than the X channel signal, such that the Y' channel signal has less energy than the Y channel signal, and/or such that the Z' channel signal has less energy than the Z channel signal.
Модуль 420 энергетического уплотнения может быть выполнен с возможностью выполнять энергетическое уплотнение с использованием операции прогнозирования. В частности, первый поднабор множества канальных сигналов 203 понижающего микширования (например, X-канального сигнала, Y-канального сигнала и Z-канального сигнала) может прогнозироваться из второго поднабора множества канальных сигналов 203 понижающего микширования (например, W-канального сигнала). Энергетическое уплотнение может содержать вычитание масштабированной версии одного из канальных сигналов 203 понижающего микширования (например, W-канального сигнала) из других канальных сигналов 203 понижающего микширования (например, X-канального сигнала, Y-канального сигнала и/или Z-канального сигнала). Коэффициент масштабирования может определяться таким образом, что энергия других канальных сигналов 203 понижающего микширования уменьшается, а именно, минимизируется.The
Посредством выполнения энергетического уплотнения, эффективность для кодирования множества уплотненного канального сигнала 404 может увеличиваться по сравнению с кодированием множества канальных сигналов 203 понижающего микширования. Блок 200 кодирования выполнен с возможностью неявно вставлять метаданные для выполнения инверсии операции энергетического уплотнения в метаданные 205 объединенного кодирования. В результате этого, достигается эффективное кодирование в качестве входного IA-сигнала 111.By performing energy multiplexing, the efficiency for encoding a plurality of compressed channel signals 404 can be increased compared with encoding a plurality of downmix channel signals 203. The
Как указано выше, блок декодирования содержит модуль 370 восстановления. Фиг. 6 иллюстрирует примерный модуль 370 восстановления. Модуль 370 восстановления принимает в качестве ввода множество восстановленных канальных сигналов 314 (который, например, может формировать амбиофонический сигнал первого порядка). Первый микшер 611 может быть выполнен с возможностью повышающе сводить множество восстановленных канальных сигналов 314 (например, четыре канальных сигнала) в увеличенное число сигналов (например, в одиннадцать сигналов, представляющих амбиофонический сигнал второго порядка, и в два объектных сигнала). Первый микшер 611 зависит от метаданных 205 объединенного кодирования.As stated above, the decoding unit includes a
Модуль 370 восстановления может содержать декорреляторы 601, 602, которые выполнены с возможностью формировать два сигнала из W-канального сигнала, которые обрабатываются во втором микшере 612, чтобы формировать увеличенное число сигналов (например, одиннадцать сигналов). Второй микшер 612 зависит от метаданных 205 объединенного кодирования. Вывод первого микшера 611 и вывод второго микшера 612 суммируются, чтобы предоставлять восстановленный многоканальный сигнал 311.The
Как указано выше, метаданные 205 объединенного кодирования или SPAR-метаданные могут состоять из данных, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 611 и посредством второго микшера 612. Микшеры 611, 612 могут работать в подполосной области (а именно, в QMF-области). В этом случае, метаданные 205 объединенного кодирования или SPAR-метаданные содержат данные, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 611 и посредством второго микшера 612 для множества различных подполос частот (например, 10 или более подполос частот).As discussed above, the
Фиг. 5 показывает блок 200 кодирования, который содержит две ветви для кодирования многоканального входного сигнала 201 и для кодирования метаданных 202 объектов (которые формируют входной IA-сигнал 111). Верхняя ветвь соответствует схеме кодирования, описанной в контексте фиг. 4. В нижней ветви, блок 230 объединенного кодирования модифицируется, чтобы определять метаданные 205, которые обеспечивают возможность восстановления множества канальных сигналов 203 понижающего микширования из множества уплотненных канальных сигналов 404. Следовательно, метаданные 205 указывают предиктор (а именно, один или более коэффициентов масштабирования), который использован для того, чтобы формировать множество уплотненных канальных сигналов 404 из множества канальных сигналов 203 понижающего микширования. В разновидности, метаданные 205 могут предоставляться непосредственно из модуля 220 энергетического уплотнения (без необходимости использования модуля 230 объединенного кодирования).Fig. 5 shows an
Блок 200 кодирования по фиг. 5 содержит модуль 500 переключения режимов, который выполнен с возможностью переключаться между первым режимом (соответствующим верхней ветви) и вторым режимом (соответствующим нижней ветви). Первый режим может использоваться для предоставления высокого перцепционного качества на увеличенной скорости передачи битов, и второй режим может использоваться для предоставления уменьшенного перцепционного качества на уменьшенной скорости передачи битов. Модуль 500 переключения режимов может быть выполнен с возможностью переключаться между первым режимом и вторым режимом в зависимости от состояния сети передачи.The
Кроме того, фиг. 5 показывает соответствующий блок 350 декодирования, который выполнен с возможностью выполнять декодирование согласно первому режиму (верхняя ветвь) и согласно второму режиму (нижняя ветвь). Модуль 550 переключения режимов может быть выполнен с возможностью определять то, какой режим использован посредством блока 200 кодирования (например, на покадровой основе). Если использован первый режим, то могут определяться восстановленный многоканальный сигнал 311 и метаданные 202 объектов (как указано в контексте фиг. 4). С другой стороны, если использован второй режим, то множество восстановленных канальных сигналов 513 понижающего микширования (соответствующих множеству канальных сигналов 203 понижающего микширования) могут определяться посредством блока 350 декодирования.In addition, FIG. 5 shows a
Следовательно, описывается блок 200 кодирования, который содержит модуль 210 понижающего микширования, который выполнен с возможностью обрабатывать объекты и входной HOA-сигнал 111, с тем чтобы формировать выходной сигнал 203, имеющий сокращенное число каналов, например, сигнал амбиофонии первого порядка (FOA). Модуль 230 SPAR-кодирования формирует метаданные 205 (т.е. SPAR-метаданные), которые указывают то, как исходные вводы 111, 201 (например, объектные сигналы плюс HOA) могут повторно формироваться из FOA-сигнала 203. Набор EVS-кодеров 240 может принимать 4-канальный FOA-сигнал 203 и может создавать кодированные аудиоданные 206, которые должны вставляться в поток 101 битов, который затем декодируется посредством набора EVS-декодеров 360, чтобы создавать четырехканальный FOA-сигнал 314. SPAR-метаданные 205 могут предоставляться в качестве (энтропийно) кодированных метаданных 207 в потоке 101 битов в декодер 360. Модуль 370 восстановления затем повторно формирует вывод 121, состоящий из аудиообъектов и HOA-сигнала.Therefore, an
Сигнал 203 низкого разрешения, сформированный посредством модуля 210 понижающего микширования, может модифицироваться посредством WXYZ-преобразования для энергетического уплотнения (в модуле 420), которое формирует выходной сигнал 404, который имеет меньшую межканальную корреляцию, по сравнению с выводом модуля 210 понижающего микширования. Цель фильтра 420 энергетического уплотнения состоит в том, чтобы уменьшать энергию в XYZ-каналах таким образом, что W-канал может кодироваться на более высокой скорости передачи битов, и низкоэнергетические X'Y'Z'-каналы могут кодироваться на более низких скоростях передачи битов. Артефакты кодирования эффективнее маскируются за счет этого, так что качество звука повышается.The low-
Помимо этого или альтернативно выполнению прогнозирования, энергетическое уплотнение может использовать преобразование Карунена-Лоэва (KLT), преобразование на основе анализа главных компонентов (PCA) и/или преобразование на основе разложения по сингулярным значениям (SVD). В частности, может использоваться фильтр 420 энергетического уплотнения, который содержит отбеливающий фильтр, KLT, PCA-преобразование и/или SVD-преобразование. Отбеливающий фильтр может реализовываться с использованием вышеуказанной схемы прогнозирования. В частности, фильтр 420 энергетического уплотнения может содержать комбинацию отбеливающего фильтра и KLT-, PCA- и/или SVD-преобразования, при этом второе размещается последовательно с отбеливающим фильтром. KLT-, PCA- и/или SVD-преобразование может применяться к X, Y, Z-каналам, а именно, к остаткам прогнозирования.In addition, or as an alternative to making predictions, energy compaction may use a Karhunen-Loeve transform (KLT), a principal component analysis (PCA) transform, and/or a singular value decomposition (SVD) transform. In particular, an
Фиг. 7 показывает блок-схему последовательности операций примерного способа 700 для кодирования многоканального входного сигнала 201. В частности, способ 700 направлен на кодирование IA-сигнала, который содержит многоканальный входной сигнал 201. Многоканальный входной сигнал 201 может содержать сигнал представления звукового поля (SR). В частности, многоканальный входной сигнал 201 может содержать комбинацию SR-сигнала (например, HOA-сигнала, а именно, амбиофонического сигнала второго порядка) и одного или более (а именно, двух) объектных сигналов одного или более аудиообъектов 303.Fig. 7 shows a flowchart of an
Способ 700 содержит определение 701 множества канальных сигналов 203 понижающего микширования из многоканального входного сигнала 201. Множество канальных сигналов 203 понижающего микширования могут содержать сокращенное число каналов по сравнению с многоканальным входным сигналом 201. Как указано выше, многоканальный входной сигнал 201 может содержать SR-сигнал, а именно, амбиофонический сигнал L-ого порядка, при L≥1, и один или более объектных сигналов одного или более аудиообъектов 303. Множество канальных сигналов 203 понижающего микширования могут определяться посредством понижающего микширования многоканального входного сигнала 201 в SR-сигнал, а именно, в амбиофонический сигнал K-го порядка, при L≥K. Следовательно, множество канальных сигналов 203 понижающего микширования могут представлять собой SR-сигнал, а именно, амбиофонический сигнал K-го порядка.
В частности, определение 701 множества канальных сигналов 203 понижающего микширования может содержать микширование одного или более объектных сигналов одного или более аудиообъектов 303 (многоканального входного сигнала 201) в SR-сигнал многоканального входного сигнала 201 (или в микшированную с понижением версию SR-сигнала). Микширование (а именно, панорамирование) может выполняться в зависимости от метаданных 202 объектов одного или более аудиообъектов 303, при этом метаданные 202 объектов аудиообъекта 303 указывают пространственную позицию аудиообъекта 303. Понижающее микширование SR-сигнала может содержать удаление [(L+1)2-L2] дополнительных каналов из SR-сигнала L-ого порядка, за счет этого предоставляя SR-сигнал (L-1)-го порядка.In particular, defining 701 a plurality of downmix channel signals 203 may comprise mixing one or more object signals of one or more audio objects 303 (multi-channel input signal 201) into an SR signal of the multi-channel input signal 201 (or a downmixed version of the SR signal). Mixing (namely, panning) may be performed depending on the
В предпочтительном примере, множество канальных сигналов 203 понижающего микширования формируют амбиофонический сигнал первого порядка, а именно, в B-формате или в A-формате. SR-сигнал многоканального входного сигнала 201 может представлять собой амбиофонический сигнал второго (или более высокого) порядка.In a preferred example, the plurality of channel downmix signals 203 form a first order ambiophonic signal, namely, B-format or A-format. The SR signal of the
Кроме того, способ 700 содержит выполнение 702 энергетического уплотнения множества канальных сигналов 203 понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов 404. Число каналов множества канальных сигналов 203 понижающего микширования и множества уплотненных канальных сигналов 404 может быть идентичным. В частности, множество уплотненных канальных сигналов 404 могут формировать или могут иметь формат амбиофонического сигнала первого порядка, а именно, B-формат или A-формат.In addition,
Энергетическое уплотнение может выполняться таким образом, что межканальная корреляция между различными канальными сигналами 203 уменьшается. В частности, множество уплотненных канальных сигналов 404 могут демонстрировать меньшую межканальную корреляцию, чем множество канальных сигналов 203 понижающего микширования. Кроме того, или помимо этого, энергетическое уплотнение может выполняться таким образом, что энергия уплотненного канального сигнала ниже или равна энергии соответствующего канального сигнала понижающего микширования. Это условие может удовлетворяться для каждого канала.Energy multiplexing may be performed such that inter-channel correlation between different channel signals 203 is reduced. In particular, the plurality of compressed channel signals 404 may exhibit less inter-channel correlation than the plurality of downmix channel signals 203. In addition or in addition, energy multiplexing may be performed such that the energy of the multiplexed channel signal is lower than or equal to the energy of the corresponding downmix channel signal. This condition can be satisfied for each channel.
Выполнение 702 энергетического уплотнения может содержать прогнозирование первого канального сигнала 203 понижающего микширования (например, X-, Y- или Z-канала) из второго канального сигнала понижающего микширования (например, W-канала), чтобы предоставлять первый прогнозированный канальный сигнал. Первый прогнозированный канальный сигнал может вычитаться из первого канального сигнала 203 понижающего микширования (или наоборот), чтобы предоставлять первый уплотненный канальный сигнал 404.Performing
Прогнозирование первого канального сигнала 203 понижающего микширования из второго канального сигнала 203 понижающего микширования может содержать определение коэффициента масштабирования для масштабирования второго канального сигнала 203 понижающего микширования. Коэффициент масштабирования может определяться таким образом, что энергия первого уплотненного канального сигнала 404 уменьшается по сравнению с энергией первого канального сигнала 203 понижающего микширования, и/или таким образом, что энергия первого уплотненного канального сигнала 404 минимизируется. Первый прогнозированный канальный сигнал затем может соответствовать второму канальному сигналу 203 понижающего микширования, масштабируемому согласно коэффициенту масштабирования. Для различных каналов, могут определяться различные коэффициенты масштабирования.Predicting the first channel downmix signal 203 from the second channel downmix signal 203 may comprise determining a scaling factor for scaling the second
В частности, (в случае амбиофонического сигнала первого порядка), выполнение 702 энергетического уплотнения может содержать прогнозирование X-канального сигнала, Y-канального сигнала и Z-канального сигнала из W-канального сигнала из множества канальных сигналов 203 понижающего микширования таким образом, чтобы предоставлять прогнозированный X-канальный сигнал, прогнозированный Y-канальный сигнал и прогнозированный Z-канальный сигнал, соответственно. Прогнозированный X-канальный сигнал может вычитаться из X-канального сигнала (или наоборот), чтобы определять X'-канальный сигнал из множества уплотненных канальных сигналов 404. Прогнозированный Y-канальный сигнал может вычитаться из Y-канального сигнала (или наоборот), чтобы определять Y'-канальный сигнал из множества уплотненных канальных сигналов 404. Прогнозированный Z-канальный сигнал может вычитаться из Z-канального сигнала (или наоборот), чтобы определять Z'-канальный сигнал из множества уплотненных канальных сигналов 404. Кроме того, W-канальный сигнал из множества канальных сигналов 203 понижающего микширования может использоваться в качестве W-канального сигнала из множества уплотненных канальных сигналов 404.In particular, (in the case of a first-order ambiophonic signal), performing
В результате этого, энергия всех каналов (кроме одного, т.е. W-канала) может уменьшаться, за счет этого обеспечивая эффективное кодирование множества уплотненных канальных сигналов 404.As a result, the energy of all channels (except one, i.e., the W channel) can be reduced, thereby allowing efficient coding of multiple compressed channel signals 404.
Способ 700 дополнительно может содержать определение 703 метаданных 205 объединенного кодирования (также называются в данном документе "SPAR-метаданными") на основе множества уплотненных канальных сигналов 404 и на основе многоканального входного сигнала 201. Метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов 404 в аппроксимацию многоканального входного сигнала 201. Посредством использования множества уплотненных канальных сигналов 404 для определения метаданных объединенного кодирования, процесс инверсии энергетического уплотнения автоматически включается в метаданные 205 объединенного кодирования (без необходимости предоставления дополнительных метаданных специально для инверсии операции энергетического уплотнения).The
Метаданные 205 объединенного кодирования могут содержать данные повышающего микширования, а именно, одну или более матриц повышающего микширования, обеспечивающих повышающее микширование множества уплотненных канальных сигналов 404 в аппроксимацию многоканального входного сигнала 201. Аппроксимация многоканального входного сигнала 201 содержит число каналов, идентичное числу каналов многоканального входного сигнала 201. Кроме того, метаданные 205 объединенного кодирования могут содержать декорреляционные данные, обеспечивающие восстановление ковариации многоканального входного сигнала 201.The concatenated
Метаданные 205 объединенного кодирования могут определяться для множества различных подполос частот многоканального входного сигнала 201 (например, для 10 или более подполос частот, а именно, в QMF-области). Посредством предоставления метаданных 205 объединенного кодирования для различных подполос частот (т.е. в различных полосах частот), может выполняться точная операция повышающего микширования.
Помимо этого, способ 700 содержит кодирование 704 множества уплотненных канальных сигналов 404 и метаданных 205 объединенного кодирования (также известных как SPAR-метаданные). Кодирование 704 множества уплотненных канальных сигналов 404 может содержать выполнение кодирования на основе формы сигналов (а именно, EVS-кодирования) каждого из множества уплотненных канальных сигналов 404, в частности, с использованием монокодера для каждого уплотненного канального сигнала 404. Кроме того, или помимо этого, метаданные 205 объединенного кодирования могут кодироваться с использованием энтропийного кодера. Как указано выше, многоканальный входной сигнал 201 может содержать один или более объектных сигналов одного или более аудиообъектов 303. В таких случаях, способ 700 может содержать кодирование, в частности, с использованием энтропийного кодера, метаданных 202 объектов для одного или более аудиообъектов 303.In addition,
Способ 700 обеспечивает возможность кодирования многоканального входного сигнала 201, который может указывать SR-сигнал и/или один или более сигналов аудиообъектов, эффективным по скорости передачи битов способом, при обеспечении возможности декодеру восстанавливать многоканальный входной сигнал 201 с высоким перцепционным качеством.
Определение метаданных 205 объединенного кодирования на основе множества уплотненных канальных сигналов 404 и на основе многоканального входного сигнала 201 может соответствовать первому режиму для кодирования многоканального входного сигнала 201.Defining
Кроме того, или в дополнение к использованию прогнозирования, выполнение 702 энергетического уплотнения может содержать применение преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов 203 понижающего микширования. За счет этого, может дополнительно повышаться эффективность кодирования множества уплотненных канальных сигналов 404.Additionally, or in addition to using prediction, performing
В частности, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к уплотненным канальным сигналам 404, которые соответствуют остаткам прогнозирования, которые извлечены на основе второго канального сигнала 203 понижающего микширования (а именно, на основе W-канального сигнала). Другими словами, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к остаткам прогнозирования.In particular, a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform may be applied to the compressed channel signals 404 that correspond to prediction residuals that are extracted based on the second channel downmix signal 203 (namely , based on W-channel signal). In other words, the Karhunen-Loeve transform, the principal component analysis transform, and/or the singular value decomposition transform can be applied to the forecast residuals.
Как указано выше, в контексте прогнозирования, X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал могут извлекаться на основе W-канального сигнала из множества канальных сигналов 203 понижающего микширования, формирующих амбиофонический сигнал. В частности, X'-канальный сигнал может соответствовать X-канальному сигналу минус прогнозирование X-канального сигнала, которое основано на W-канальном сигнале. Таким же образом, Y'-канальный сигнал может соответствовать Y-канальному сигналу минус прогнозирование Y-канального сигнала, которое основано на W-канальном сигнале. Таким же образом, Z'-канальный сигнал может соответствовать Z-канальному сигналу минус прогнозирование Z-канального сигнала, которое основано на W-канальном сигнале. Множество уплотненных канальных сигналов 404 могут определяться на основе либо могут соответствовать W-канальному сигналу, X'-канальному сигналу, Y'-канальному сигналу и Z'-канальному сигналу.As stated above, in the context of prediction, the X'-channel signal, the Y'-channel signal and the Z'-channel signal can be extracted based on the W-channel signal from the plurality of downmix channel signals 203 forming the ambiophonic signal. In particular, the X'-channel signal may correspond to the X-channel signal minus the X-channel signal prediction that is based on the W-channel signal. In the same way, the Y'-channel signal may correspond to the Y-channel signal minus the Y-channel signal prediction that is based on the W-channel signal. In the same way, the Z'-channel signal may correspond to the Z-channel signal minus the Z-channel signal prediction that is based on the W-channel signal. A plurality of compressed channel signals 404 may be determined based on or may correspond to a W channel signal, an X' channel signal, a Y' channel signal, and a Z' channel signal.
Чтобы дополнительно повышать эффективность кодирования множества уплотненных канальных сигналов 404, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к X'-канальному сигналу, Y'-канальному сигналу и Z'-канальному сигналу, чтобы предоставлять X''-канальный сигнал, Y''-канальный сигнал и Z''-канальный сигнал. Множество уплотненных канальных сигналов 404 затем могут определяться на основе W-канального сигнала, X''-канального сигнала, Y''-канального сигнала и Z''-канального сигнала.To further improve the encoding efficiency of multiple compressed channel signals 404, a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform may be applied to the X'-channel signal, the Y'-channel signal, and the Z'-channel signal. channel signal to provide an X''-channel signal, a Y''-channel signal, and a Z''-channel signal. A plurality of compressed channel signals 404 may then be determined based on the W channel signal, the X'' channel signal, the Y'' channel signal, and the Z'' channel signal.
Во втором режиме, метаданные 205 объединенного кодирования могут определяться на основе множества уплотненных канальных сигналов 404 и на основе множества канальных сигналов 203 понижающего микширования. Метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования обеспечивают возможность восстановления множества канальных сигналов 203 понижающего микширования из множества уплотненных канальных сигналов 404. В частности, метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования (только) оборачивают или инвертируют операцию энергетического уплотнения (без выполнения операции повышающего микширования). Второй режим может использоваться для уменьшения скорости передачи битов (с уменьшенным перцепционным качеством).In the second mode, merged encoding
Как указано выше, многоканальный входной сигнал 201 может содержать SR-сигнал и один или более объектных сигналов. Первый режим и второй режим могут обеспечивать возможность восстановления SR-сигнала (на основе множества уплотненных канальных сигналов 404). Следовательно, общее восприятие при прослушивании слушателя может поддерживаться (даже при использовании второго режима).As stated above,
Многоканальный входной сигнал 201 может содержать последовательность кадров. Обработка, описанная в настоящем документе, может выполняться покадрово для каждого кадра из последовательности кадров. В частности, способ 700 может содержать определение, для каждого кадра из последовательности кадров, того, следует использовать первый режим или второй режим. За счет этого, кодирование может быть выполнено с возможностью изменения условий сети передачи быстрым способом.
Способ 700 может содержать формирование потока битов 101 на основе кодированных аудиоданных 206, извлекаемых посредством кодирования 704 множества уплотненных канальных сигналов 404, и на основе кодированных метаданных 207, извлекаемых посредством кодирования 704 метаданных 205 объединенного кодирования. Кроме того, способ 700 может содержать вставку в поток 101 битов индикатора, который указывает то, использован второй режим или первый режим. Индикатор может вставляться на покадровой основе. В результате этого, соответствующему блоку 350 декодирования обеспечивается возможность адаптировать декодирование надежным способом.
Фиг. 8 показывает блок-схему последовательности операций примерного способа 800 для определения восстановленного многоканального сигнала 311 из кодированных аудиоданных 206, указывающих множество восстановленных канальных сигналов 314, и из кодированных метаданных 207, указывающих метаданные 205 объединенного кодирования. Способ 800 может содержать извлечение кодированных аудиоданных 206 и кодированных метаданных 207 из потока 101 битов.Fig. 8 shows a flowchart of an
Кроме того, способ 800 может содержать декодирование 801 кодированных аудиоданных 206, чтобы предоставлять множество восстановленных канальных сигналов 314, и декодирование кодированных метаданных 207, чтобы предоставлять метаданные 205 объединенного кодирования. В предпочтительном примере, множество восстановленных канальных сигналов 203 формируют амбиофонический сигнал первого порядка, а именно, в B-формате или в A-формате.In addition,
Декодирование 801 кодированных аудиоданных 206 может содержать декодирование на основе формы сигналов каждого из множества восстановленных канальных сигналов 314, в частности, с использованием монодекодера (например, EVS-декодера) для каждого восстановленного канального сигнала 314. Кодированные метаданные 207 могут декодироваться с использованием энтропийного декодера.Decoding 801 of the encoded
Кроме того, способ 800 содержит определение 802 восстановленного многоканального сигнала 311 из множества восстановленных канальных сигналов 314 с использованием метаданных 205 объединенного кодирования, при этом восстановленный многоканальный сигнал 311 может содержать восстановленный сигнал представления звукового поля (SR). В частности, восстановленный многоканальный сигнал 311 соответствует аппроксимации или восстановлению многоканального входного сигнала 201. Восстановленный многоканальный сигнал 311 и метаданные 202 объектов могут вместе формировать восстановленный аудиосигнал 121 погружения (IA).In addition,
Помимо этого, способ 800 может содержать рендеринг восстановленного многоканального сигнала 311 (типично в сочетании с метаданными 202 объектов). Рендеринг может выполняться с использованием рендеринга в наушниках, рендеринга в динамиках и/или рендеринга звукового поля. В результате этого, обеспечивается гибкий рендеринг контента пространственного аудио (в частности, для VR-вариантов применения).In addition,
Как указано выше, метаданные 205 объединенного кодирования могут содержать данные повышающего микширования, а именно, одну или более матриц повышающего микширования, обеспечивающих повышающее микширование множества восстановленных канальных сигналов 404 в восстановленный многоканальный сигнал 311. Кроме того, метаданные 205 объединенного кодирования могут содержать декорреляционные данные, обеспечивающие формирование восстановленного многоканального сигнала 311, имеющего предварительно определенную ковариацию. Метаданные 205 объединенного кодирования могут содержать различные метаданные для различных подполос частот восстановленного многоканального сигнала 311. В результате этого, может достигаться точное восстановление многоканального входного сигнала 201.As discussed above, the
В соответствующем кодере 200, энергетические уплотнения могут применяться ко множеству канальных сигналов 304 понижающего микширования. Энергетическое уплотнение может выполняться с использованием прогнозирования и/или с использованием преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям. Метаданные 205 объединенного кодирования могут быть такими, что, в дополнение к повышающему микшированию, они неявно выполняют инверсию операции энергетического уплотнения. В частности, метаданные 205 объединенного кодирования могут быть такими, что, помимо этого, они неявно выполняют инверсию операции прогнозирования и/или инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям.In the
Другими словами, метаданные 205 объединенного кодирования могут быть выполнены с возможностью обеспечивать повышающее микширование множества восстановленных канальных сигналов 404 в восстановленный многоканальный сигнал 311 и (неявно) выполнять инверсию операции энергетического уплотнения для множества восстановленных канальных сигналов 314. В частности, метаданные 205 объединенного кодирования могут быть выполнены с возможностью (неявно) выполнять операцию обратного прогнозирования (инверсию относительно операции прогнозирования, выполняемой посредством кодера 200), по меньшей мере, для некоторых из множества восстановленных канальных сигналов 314. Кроме того, или помимо этого, метаданные 205 объединенного кодирования могут быть выполнены с возможностью выполнять инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям (инверсию относительно преобразования, выполняемого посредством кодера 200), по меньшей мере, для некоторых из множества восстановленных канальных сигналов 314. В результате этого, может предоставляться очень эффективная схема кодирования.In other words, the
Восстановленный многоканальный сигнал 311 может содержать один или более восстановленных объектных сигналов одного или более аудиообъектов 303 (в дополнение к SR-сигналу, например, FOA- или HOA-сигналу). Способ 800 может содержать декодирование, в частности, с использованием энтропийного декодера, метаданных 202 объектов для одного или более аудиообъектов 303 из кодированных метаданных 207. В результате этого, один или более объектов 303 могут подготавливаться посредством рендеринга точным способом.The reconstructed
Как указано выше, множество восстановленных канальных сигналов 314 могут формировать SR-сигнал, а именно, амбиофонический сигнал K-го порядка, при K≥1 (а именно, K=1). С другой стороны, восстановленный многоканальный сигнал 311 может содержать восстановленный SR-сигнал, а именно, амбиофонический сигнал L-ого порядка, при L≥K (а именно, L=K или L=K+1) и один или более (например, n=2) восстановленных объектных сигналов одного или более аудиообъектов 303. Восстановленный многоканальный сигнал 311 может определяться посредством повышающего микширования множества восстановленных канальных сигналов 314 с использованием метаданных 205 объединенного кодирования, за счет этого предоставляя восстановленный многоканальный сигнал 311 с существенными пространственными акустическими событиями.As stated above, the plurality of reconstructed channel signals 314 may form an SR signal, namely, a K-th order ambiophonic signal, with K≥1 (namely, K=1). On the other hand, the reconstructed
Как указано выше, использование повышающего микширования может соответствовать первому режиму (для высокого перцепционного качества). В первом режиме, объединенные метаданные 205 объектов содержат данные повышающего микширования для обеспечения возможности операции повышающего микширования. Во втором режиме, восстановленный многоканальный сигнал 311 может содержать число каналов, идентичное числу каналов множества восстановленных канальных сигналов 314 (таким образом, что операция повышающего микширования не требуется).As stated above, the use of upmixing may correspond to the first mode (for high perceptual quality). In the first mode, the combined
Во втором режиме, метаданные 205 объединенного кодирования могут содержать прогнозирующие данные (например, один или более коэффициентов масштабирования), выполненные с возможностью перераспределять энергию между различными восстановленными канальными сигналами 314. Кроме того, во втором режиме, определение 802 восстановленного многоканального сигнала 311 может содержать перераспределение энергии между различными восстановленными канальными сигналами 314 с использованием прогнозирующих данных. В частности, инверсия вышеуказанной операции энергетического уплотнения может выполняться с использованием метаданных 205 объединенного кодирования. В результате этого, множество канальных сигналов 203 понижающего микширования могут восстанавливаться эффективным и точным способом.In a second mode, the
Как указано выше, операция энергетического уплотнения, которая выполняется во время кодирования, может содержать применение преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов 203 понижающего микширования. Метаданные 205 объединенного кодирования могут содержать данные преобразования, которые обеспечивают возможность декодеру 350 выполнять инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям. Другими словами, данные преобразования указывают инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, которое должно применяться, по меньшей мере, к некоторым из множества восстановленных канальных сигналов 314 для определения восстановленного многоканального сигнала 311. В результате этого, множество канальных сигналов 203 понижающего микширования могут восстанавливаться эффективным и точным способом.As discussed above, the energy compaction operation that is performed during encoding may comprise applying a Karhunen-Loeve transform, a principal component analysis transform, and/or a singular value decomposition transform to at least some of the plurality of
Как указано выше, восстановленный многоканальный входной сигнал 311 может содержать последовательность кадров. Способ 800 может содержать определение, для каждого кадра из последовательности кадров, того, должен или нет использоваться второй режим. С этой целью, из потока 101 битов может извлекаться индикатор, который указывает то, должен или нет использоваться второй режим.As noted above, the reconstructed
Различные примерные варианты осуществления настоящего изобретения могут реализовываться в аппаратных средствах или в схемах специального назначения, в программном обеспечении, в логике либо в любой комбинации вышеозначенного. Некоторые аспекты могут реализовываться в аппаратных средствах, тогда как другие аспекты могут реализовываться в микропрограммном обеспечении или программном обеспечении, которое может выполняться посредством контроллера, микропроцессора или другого вычислительного устройства. В общем, следует понимать, что настоящее раскрытие сущности также охватывает оборудование, подходящее для осуществления способов, описанных выше, например, оборудование (модуль пространственного рендеринга), имеющее запоминающее устройство и процессор, соединенный с запоминающим устройством, при этом процессор выполнен с возможностью выполнять инструкции и осуществлять способы согласно вариантам осуществления раскрытия сущности.Various exemplary embodiments of the present invention may be implemented in hardware or special purpose circuitry, software, logic, or any combination thereof. Some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software that may be executed by a controller, microprocessor, or other computing device. In general, it should be understood that the present disclosure also covers equipment suitable for implementing the methods described above, for example, equipment (spatial rendering module) having a storage device and a processor coupled to the storage device, wherein the processor is configured to execute instructions and carry out methods according to embodiments of the disclosure.
Хотя различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в качестве блок-схем, блок-схем последовательности операций способа или с использованием некоторого другого графического представления, следует принимать во внимание, что блоки, оборудование, системы, технологии или способы, описанные в данном документе, могут реализовываться, в качестве неограничивающих примеров, в аппаратных средствах, в программном обеспечении, в микропрограммном обеспечении, в схемах специального назначения или в логике, в аппаратных средствах общего назначения или в контроллере, или в других вычислительных устройствах, или в некоторой комбинации вышеозначенного.Although various aspects of exemplary embodiments of the present invention are illustrated and described as block diagrams, flowcharts, or some other graphical representation, it should be appreciated that the blocks, equipment, systems, technologies, or methods described herein document, may be implemented, by way of non-limiting examples, in hardware, software, firmware, special-purpose circuit or logic, general-purpose hardware or a controller, or other computing devices, or some combination of the foregoing. .
Дополнительно, различные блоки, показанные на блок-схемах последовательности операций способа, могут рассматриваться в качестве этапов способа и/или в качестве операций, которые получаются в результате операции компьютерного программного кода, и/или в качестве множества соединенных логических схемных элементов, сконструированных с возможностью выполнять ассоциированную функцию(и). Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, содержащий компьютерную программу, материально осуществленную на машиночитаемом носителе, при этом компьютерная программа содержит программные коды, выполненные с возможностью осуществлять способы, как описано выше.Additionally, the various blocks shown in the flowcharts may be considered as steps of a method and/or as operations that result from an operation of computer program code, and/or as a plurality of interconnected logical circuit elements designed to perform associated function(s). For example, embodiments of the present invention include a computer program product comprising a computer program tangibly embodied on a computer-readable medium, wherein the computer program includes program codes configured to implement methods as described above.
В контексте раскрытия сущности, машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или сохранять программу для использования посредством или в связи с системой, оборудованием или устройством выполнения инструкций. Машиночитаемый носитель может представлять собой машиночитаемую среду передачи сигналов или машиночитаемый носитель хранения данных. Машиночитаемый носитель может включать в себя, но не только, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, оборудование или устройство либо любую подходящую комбинацию вышеприведенного. Более конкретные примеры машиночитаемого носителя хранения данных должны включать в себя электрическое соединение, имеющее один или более проводов, портативную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптоволокно, портативное постоянное запоминающее устройство на компакт-дисках (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных либо любую подходящую комбинацию вышеприведенного.For the purposes of the disclosure, a computer-readable medium can be any tangible medium that can contain or store a program for use by or in connection with an instruction execution system, equipment, or apparatus. The computer-readable medium may be a computer-readable signaling medium or a computer-readable storage medium. A computer-readable medium may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, equipment, or device, or any suitable combination of the foregoing. More specific examples of computer readable storage media include an electrical connection having one or more wires, a portable computer diskette, a hard disk, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash). -memory), fiber optic, portable compact disc read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любой комбинации одного или более языков программирования. Эти компьютерные программные коды могут предоставляться в процессор компьютера общего назначения, компьютер специального назначения или другое программируемое оборудование обработки данных таким образом, что программные коды, при выполнении посредством процессора компьютера или другого программируемого оборудования обработки данных, инструктируют реализацию функций/операций, указываемых на блок-схемах последовательности операций способа и/или на блок-схемах. Программный код может выполняться полностью на компьютере, частично на компьютере, в качестве автономного программного пакета, частично на компьютере и частично на удаленном компьютере либо полностью на удаленном компьютере или сервере.The computer program code for implementing the methods of the present invention may be written in any combination of one or more programming languages. These computer program codes may be provided to a general purpose computer processor, a special purpose computer, or other programmable data processing equipment such that the program codes, when executed by the computer processor or other programmable data processing equipment, cause the implementation of functions/operations pointed to by the block. flowcharts and/or block diagrams. The software code may run entirely on a computer, partially on a computer, as a stand-alone software package, partially on a computer and partially on a remote computer, or entirely on a remote computer or server.
Дополнительно, хотя операции проиллюстрированы в конкретном порядке, это не следует понимать как обязательность того, что такие операции должны выполняться в конкретном показанном порядке либо в последовательном порядке, или того, что все проиллюстрированные операции должны выполняться для того, чтобы достигать требуемых результатов. При определенных обстоятельствах, может быть преимущественной многозадачная и параллельная обработка. Аналогично, хотя несколько конкретных сведений по реализации содержатся в вышеприведенном пояснении, они должны истолковываться не как ограничения на объем любого изобретения либо на формулу изобретения, а вместо этого как описания признаков, которые могут быть характерными для конкретных вариантов осуществления конкретных изобретений. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут реализовываться в комбинации в одном варианте осуществления. Наоборот, различные признаки, которые описываются в контексте одного варианта осуществления, также могут реализовываться в нескольких вариантах осуществления по отдельности либо в любой подходящей субкомбинации.Additionally, although operations are illustrated in a particular order, it should not be understood to imply that such operations must be performed in the particular order illustrated or in a sequential order, or that all illustrated operations must be performed in order to achieve the desired results. Under certain circumstances, multitasking and parallel processing may be advantageous. Likewise, although several specific implementation details are contained in the foregoing explanation, they should not be construed as limitations on the scope of any invention or on the claims, but instead as descriptions of features that may be characteristic of particular embodiments of particular inventions. Certain features that are explained in this detailed description in the context of individual embodiments may also be implemented in combination in a single embodiment. Conversely, various features that are described in the context of one embodiment may also be implemented in multiple embodiments individually or in any suitable subcombination.
Следует отметить, что описание и чертежи иллюстрируют только принципы предложенных способов и оборудования. Таким образом, следует принимать во внимание, что специалисты в данной области техники должны иметь возможность разрабатывать различные компоновки, которые, хотя не описаны или показаны явно в данном документе, осуществляют принципы изобретения и включаются в его сущность и объем. Кроме того, все примеры, изложенные в данном документе, принципиально предназначаются в явной форме только в педагогических целях, чтобы помогать читателю в понимании принципов предлагаемых способов и оборудования, а также идей, вносимых авторами изобретения для совершенствования области техники, и должны трактоваться как не имеющие ограничения такими конкретно изложенными примерами и условиями. Кроме того, все утверждения в данном документе в отношении принципов, аспектов и вариантов осуществления изобретения, а также их конкретных примеров, имеют намерение охватывать их эквиваленты.It should be noted that the description and drawings illustrate only the principles of the proposed methods and equipment. Thus, it should be appreciated that those skilled in the art should be able to develop various arrangements that, although not explicitly described or shown herein, implement the principles of the invention and are included within the spirit and scope thereof. In addition, all examples set forth herein are, in principle, intended explicitly for pedagogical purposes only to assist the reader in understanding the principles of the proposed methods and equipment, as well as the ideas introduced by the inventors to improve the field of technology, and should be construed as not having limited by such specifically stated examples and conditions. Moreover, all statements herein with respect to the principles, aspects and embodiments of the invention, as well as specific examples thereof, are intended to cover their equivalents.
Claims (26)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862693246P | 2018-07-02 | 2018-07-02 | |
US62/693,246 | 2018-07-02 | ||
PCT/US2019/040282 WO2020010072A1 (en) | 2018-07-02 | 2019-07-02 | Methods and devices for encoding and/or decoding immersive audio signals |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2023121473A Division RU2023121473A (en) | 2018-07-02 | 2019-07-02 | METHODS AND DEVICES FOR ENCODING AND/OR DECODING IMMERSION AUDIO SIGNALS |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2020130053A RU2020130053A (en) | 2022-03-14 |
RU2802803C2 true RU2802803C2 (en) | 2023-09-04 |
Family
ID=
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2492530C2 (en) * | 2008-07-11 | 2013-09-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Apparatus and method for encoding/decoding audio signal using aliasing switch scheme |
WO2017140666A1 (en) * | 2016-02-17 | 2017-08-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for stereo filling in multichannel coding |
US9870778B2 (en) * | 2013-02-08 | 2018-01-16 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US9942688B2 (en) * | 2011-07-01 | 2018-04-10 | Dolby Laboraties Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2492530C2 (en) * | 2008-07-11 | 2013-09-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Apparatus and method for encoding/decoding audio signal using aliasing switch scheme |
US9942688B2 (en) * | 2011-07-01 | 2018-04-10 | Dolby Laboraties Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
US9870778B2 (en) * | 2013-02-08 | 2018-01-16 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
WO2017140666A1 (en) * | 2016-02-17 | 2017-08-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for stereo filling in multichannel coding |
Non-Patent Citations (1)
Title |
---|
Mikko-Ville Laitinen et al. "Converting 5.1 Audio Recordings to B-Format for Directional Audio Coding Reproduction", 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), с. 61 - 64, опубл. 2011. Heiko Purnhagen et al. "Immersive Audio Delivery Using Joint Object Coding", AES, presented at the 140th Convention, Paris, France, июнь 2016. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11699451B2 (en) | Methods and devices for encoding and/or decoding immersive audio signals | |
JP6735053B2 (en) | Stereo filling apparatus and method in multi-channel coding | |
RU2641481C2 (en) | Principle for audio coding and decoding for audio channels and audio objects | |
US20110249822A1 (en) | Advanced encoding of multi-channel digital audio signals | |
EP3165005B1 (en) | Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation | |
KR20150032718A (en) | Method and device for improving the rendering of multi-channel audio signals | |
WO2008120933A1 (en) | Apparatus and method for coding and decoding multi object audio signal with multi channel | |
KR20090095009A (en) | Method and apparatus for encoding/decoding multi-channel audio using plurality of variable length code tables | |
EP3165006B1 (en) | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation | |
EP3740950B1 (en) | Methods and devices for coding soundfield representation signals | |
WO2009048239A2 (en) | Encoding and decoding method using variable subband analysis and apparatus thereof | |
KR20170063657A (en) | Audio encoder and decoder | |
KR20140123015A (en) | Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal | |
KR102433192B1 (en) | Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation | |
KR102657547B1 (en) | Internal channel processing method and device for low-computation format conversion | |
RU2802803C2 (en) | Methods and devices for coding and/or decoding diving audio signals | |
KR101641685B1 (en) | Method and apparatus for down mixing multi-channel audio | |
AU2019298240B2 (en) | Methods and devices for encoding and/or decoding immersive audio signals | |
CN110223702B (en) | Audio decoding system and reconstruction method | |
KR20170023827A (en) | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation | |
RU2803451C2 (en) | Encoding and decoding parameters | |
KR20130012972A (en) | Method of encoding audio/speech signal |