EA038833B1

EA038833B1 - Layered coding for compressed sound or sound field representations

Info

Publication number: EA038833B1
Application number: EA202090663A
Authority: EA
Inventors: Свен КОРДОН; Александр КРЮГЕР
Original assignee: Долби Интернэшнл Аб
Priority date: 2016-07-13
Filing date: 2016-10-07
Publication date: 2021-10-26
Also published as: EA202090663A1

Abstract

The invention relates to a method of layered encoding of a compressed sound representation of a sound or sound field. The compressed sound representation comprises a basic compressed sound representation comprising a plurality of components, basic side information for decoding the basic compressed sound representation to a basic reconstructed sound representation of the sound or sound field, and enhancement side information including parameters for improving the basic reconstructed sound representation. The method comprises sub-dividing the plurality of components into a plurality of groups of components and assigning each of the plurality of groups to a respective one of a plurality of hierarchical layers, the number of groups corresponding to the number of layers, and the plurality of layers including a baselayer and one or more hierarchical enhancement layers, adding the basic side information to the base layer, and determining a plurality of portions of enhancement side information from the enhancement side information and assigning each of the plurality of portions of enhancement side information to a respective one of the plurality of layers, wherein each portion of enhancement side information includes parameters for improving a reconstructed sound representation obtainable from data included in the respective layer and any layers lower than the respective layer. The invention further relates to a method of decoding a compressed sound representation of a sound or sound field, wherein the compressed sound representation is encoded in a plurality of hierarchical layers that include a base layer and one or more hierarchical enhancement layers, as well as to an encoder and a decoder for layered coding of a compressed sound representation.

Description

Перекрестная ссылка на родственные заявкиCross-reference to related claims

По настоящей заявке испрашивается приоритет согласно европейской патентной заявке №This application claims priority under European Patent Application No.

15306590.9, поданной 8 октября 2015 года, и патентной заявке США № 62/361809, содержание которых полностью включено в настоящую заявку посредством ссылки.15306590.9, filed October 8, 2015, and US patent application No. 62/361809, the contents of which are fully incorporated into this application by reference.

Область техники, к которой относится изобретениеThe technical field to which the invention relates

Настоящий документ относится к способам и устройствам для многоуровневого аудиокодирования. В частности, настоящий документ относится к способам и устройствам для многоуровневого аудиокодирования сжатых представлений звука (или звукового поля), например представления звука (или звукового поля) системы Амбисоник высшего порядка (Higher-Order Ambisonics, HOA).This document relates to methods and apparatus for layered audio coding. In particular, this document relates to methods and apparatus for multi-level audio coding of compressed sound (or sound field) representations, for example, the sound (or sound field) representations of the Higher-Order Ambisonics (HOA) system.

Уровень техникиState of the art

Для потокового представления звука (или звукового поля) по каналу передачи с изменяющимися по времени условиями многоуровневое кодирование является средством, чтобы адаптировать качество принятого представления звука к условиям передачи и, в частности, избежать нежелательных пропаданий сигнала.For streaming an audio (or sound field) representation over a transmission channel with time-varying conditions, layered coding is a means to adapt the quality of the received audio representation to the transmission conditions and, in particular, to avoid unwanted signal dropouts.

Для многоуровневого кодирования представление звука (или звукового поля) обычно подразделяется на высокоприоритетный базовый уровень относительно небольшого размера и дополнительные улучшающие уровни с убывающими приоритетами и произвольными размерами. Каждый улучшающий уровень, как обычно предполагается, содержит нарастающую информацию, чтобы дополнить все из более низких уровней для улучшения качества представления звука (или звукового поля). Величиной защиты от ошибок для передачи отдельных уровней управляют на основе их приоритета. В частности, базовому уровню предоставляется высокая защита от ошибок, которая является разумной и приемлемой вследствие ее малого размера.For multi-level coding, the sound (or sound field) representation is usually subdivided into a relatively small high priority base layer and additional enhancement layers with decreasing priorities and arbitrary sizes. Each enhancement level is usually assumed to contain incremental information to complement all of the lower levels to improve the quality of the sound (or sound field) presentation. The amount of error protection for the transmission of the individual layers is controlled based on their priority. In particular, the base layer is provided with high error protection that is reasonable and acceptable due to its small size.

Однако существует потребность в многоуровневых схемах кодирования для (расширенной версии) специальных типов сжатых представлений звука или звуковых полей, таких как, например, сжатые представления HOA звука или звукового поля.However, there is a need for layered coding schemes for (extended version) special types of compressed audio or sound field representations, such as, for example, HOA compressed sound or sound field representations.

Настоящий документ решает упомянутые выше проблемы. В частности, описаны способы и кодеры/декодеры для многоуровневого кодирования сжатых представлений звука или звукового поля.This document addresses the issues mentioned above. In particular, methods and encoders / decoders are described for multi-level encoding of compressed audio or sound field representations.

Сущность изобретенияThe essence of the invention

В соответствии с аспектом описан способ многоуровневого кодирования сжатого представления звука или звукового поля. Сжатое представление звука может включать в себя базовое сжатое представление звука, которое включает в себя множество компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Сжатое представление звука может дополнительно включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Сжатое представление звука может, кроме того, включать в себя улучшающую вспомогательную информацию, включающую в себя параметры для улучшения (например, расширения) базового воссозданного представления звука. Способ может включать в себя подразделение (например, группировку) множества компонентов на множество групп компонентов. Способ может дополнительно включать в себя присвоение (например, добавление) каждой из множества групп соответствующему одному из множества иерархических уровней. Присвоение может указывать соответствие между соответствующими группами и уровнями. Можно сказать, что компоненты, присвоенные соответствующему уровню, включены в этот уровень. Количество групп может соответствовать (например, быть равным) количеству уровней. Множество уровней может включать в себя базовый уровень и один или более иерархических улучшающих уровней. Множество иерархических уровней может быть упорядочено от базового уровня, через первый улучшающий уровень, второй улучшающий уровень и т.д., вплоть до общего наиболее высокого улучшающего уровня (общего наиболее высокого уровня). Способ может дополнительно включать в себя добавление базовой вспомогательной информации к базовому уровню (например, включение базовой вспомогательной информации в базовый уровень или распределение базовой вспомогательной информации базовому уровню, например, в целях передачи или хранения). Способ может дополнительно включать в себя определение множества частей улучшающей вспомогательной информации на основе улучшающей вспомогательной информации. Способ может, кроме того, включать в себя присвоение (например, добавление) каждой из множества частей улучшающей вспомогательной информации соответствующему одному из множества уровней. Каждая часть улучшающей вспомогательной информации может включать в себя параметры для улучшения воссозданного (например, восстановленного) представления звука, доступные из данных, включенных (например, присвоенных или добавленных) в соответствующий уровень и любые уровни ниже соответствующего уровня. Многоуровневое кодирование может быть выполнено в целях передачи по каналу передачи или в целях сохранения на подходящем запоминающем носителе, таком как, например, CD, DVD или Blu-ray Disc™.In accordance with an aspect, a method for multi-level encoding of a compressed audio or sound field representation is described. The compressed audio representation may include a basic compressed audio representation that includes many components. Many components can be complementary components. The compressed audio representation may further include basic ancillary information for decoding the basic compressed audio representation into a basic reconstructed audio or sound field representation. The compressed audio representation may further include enhancement ancillary information including parameters for enhancing (eg, expanding) the base reconstructed audio representation. The method may include subdividing (eg, grouping) a plurality of components into a plurality of component groups. The method can further include assigning (eg, adding) each of the plurality of groups to a corresponding one of the plurality of hierarchical levels. The assignment can indicate the correspondence between the respective groups and levels. It can be said that the components assigned to the respective level are included in that level. The number of groups can correspond (for example, be equal to) the number of levels. The plurality of levels can include a base level and one or more hierarchical enhancement levels. The plurality of hierarchical levels can be ordered from the base level, through the first enhancement level, the second enhancement level, etc., up to the overall highest enhancement level (the overall highest level). The method may further include adding basic side information to the base layer (eg, including the basic side information in the base layer, or distributing the basic side information to the base layer, for example, for transmission or storage purposes). The method may further include determining a plurality of pieces of enhancement side information based on the enhancement side information. The method may further include assigning (eg, adding) each of the plurality of pieces of enhancement ancillary information to a corresponding one of the plurality of levels. Each piece of enhancement ancillary information may include parameters for enhancing the reconstructed (eg, reconstructed) audio presentation, available from data included (eg, assigned or added) at the appropriate level and any levels below the corresponding level. Layered coding can be done for transmission over a transmission channel or for storage on a suitable storage medium such as, for example, CD, DVD or Blu-ray Disc ™.

Сконфигурированный, как упомянуто выше, предложенный способ позволяет эффективно применять многоуровневое кодирование к сжатым представлениям звука, содержащим множество компонентов, а также первую и улучшающую вспомогательную информацию (например, независимую базовую вспомогательную информацию и улучшающую вспомогательную информацию), имеющие изложенныеConfigured as mentioned above, the proposed method effectively applies multi-level coding to compressed audio representations containing multiple components, as well as first and enhancement ancillary information (e.g., independent basic ancillary information and enhancement ancillary information) having the following

- 1 038833 выше свойства. В частности, предложенный способ гарантирует, что каждый уровень включает в себя подходящую вспомогательную информацию для восстановления воссозданного представления звука из компонентов, включенных в любые уровни вплоть до рассматриваемого уровня. При этом предполагается, что уровни вплоть до рассматриваемого уровня включают в себя, например, базовый уровень, первый улучшающий уровень, второй улучшающий уровень и т.д., вплоть до рассматриваемого уровня. Таким образом, независимо от фактического наиболее высокого применимого уровня (например, уровня ниже наиболее низкого слоя, который не был корректно принят, и, таким образом, все уровни ниже наиболее высокого применимого уровня и сам наиболее высокий применимый уровень приняты корректно), декодеру позволяется улучшить или расширить воссозданное представление звука, даже если воссозданное представление звука может отличаться от полного представления звука. В частности, независимо от фактического наиболее высокого применимого уровня, для декодера достаточно декодировать полезную нагрузку улучшающей вспомогательной информации только для единственного слоя (т.е. для наиболее высокого применимого уровня), чтобы улучшить или расширить воссозданное представление звука, которое доступно на основе всех компонентов, включенных в уровни вплоть до фактического наиболее высокого применимого уровня. Таким образом, для каждого временного интервала (например, кадра) должна быть декодирована только единственная полезная нагрузка улучшающей вспомогательной информации. С другой стороны, предложенный способ позволяет полностью использовать преимущество сокращения требуемой ширины полосы, которое может быть достигнуто при применении многоуровневого кодирования.- 1 038833 above properties. In particular, the proposed method ensures that each layer includes suitable ancillary information for reconstructing the reconstructed audio presentation from components included in any layers up to the layer in question. Herein, it is assumed that the levels up to the considered level include, for example, the base level, the first enhancement level, the second enhancement level, etc., up to the considered level. Thus, regardless of the actual highest applicable level (for example, the level below the lowest level that was not correctly received, and thus all levels below the highest applicable level and the highest applicable level itself are correctly received), the decoder is allowed to improve or to expand the recreated sound representation, even if the recreated sound representation may differ from the complete sound representation. In particular, regardless of the actual highest applicable layer, it is sufficient for the decoder to decode the enhancement ancillary payload for only a single layer (i.e., the highest applicable layer) in order to enhance or enhance the reconstructed audio representation that is available based on all components. included in the levels up to the actual highest applicable level. Thus, for each slot (eg, frame) only a single enhancement ancillary payload needs to be decoded. On the other hand, the proposed method takes full advantage of the reduction in the required bandwidth that can be achieved with the use of layered coding.

В вариантах осуществления компоненты базового сжатого представления звука могут соответствовать монауральным сигналам (например, транспортным сигналам или монауральным транспортным сигналам). Монауральные сигналы могут представлять либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления HOA. Монауральные сигналы могут быть квантованы.In embodiments, the components of the underlying compressed audio representation may correspond to monaural signals (eg, transport signals or monaural transport signals). Monaural signals can represent either dominant audio signals or sequences of HOA representation coefficients. Monaural signals can be quantized.

В вариантах осуществления базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование (например, восстановление) одного или более из множества компонентов индивидуально, независимо от других компонентов. Например, базовая вспомогательная информация может представлять вспомогательную информацию, относящуюся к индивидуальным монауральным сигналам, независимо от других монауральных сигналов. Таким образом, базовая вспомогательная информация может упоминаться как независимая базовая вспомогательная информация.In embodiments, the basic ancillary information may include information that determines decoding (eg, recovery) of one or more of the plurality of components individually, independently of other components. For example, the basic ancillary information may represent ancillary information related to individual monaural cues, independent of other monaural cues. Thus, the basic side information can be referred to as independent basic side information.

В вариантах осуществления улучшающая вспомогательная информация может представлять улучшающую вспомогательную информацию. Улучшающая вспомогательная информация может включать в себя параметры предсказания для базового сжатого представления звука для улучшения (например, расширения) базового воссозданного представления звука, которые доступны из базового сжатого представления звука и базовой вспомогательной информации.In embodiments, the enhancement side information may represent the enhancement side information. The enhancement side information may include prediction parameters for the baseline compressed audio representation for enhancing (eg, expanding) the baseline reconstructed audio representation, which are available from the baseline compressed audio representation and the baseline side information.

В вариантах осуществления способ может дополнительно включать в себя формирование транспортного потока для передачи данных множества уровней (например, данных, присвоенных или добавленных к соответствующим уровням, или иным образом включенных в соответствующие уровни). Базовый уровень может иметь наиболее высокий приоритет передачи, и иерархические улучшающие уровни могут иметь убывающие приоритеты передачи. Таким образом, приоритет передачи может уменьшаться от базового уровня до первого улучшающего уровня, от первого улучшающего уровня до второго улучшающего уровня и т.д. Величиной защиты от ошибок для передачи данных множества уровней можно управлять в соответствии с соответствующими приоритетами передачи. Тем самым может быть обеспечено, что, по меньшей мере, некоторое количество более низких уровней передаются достоверно, с другой стороны, сокращая полную требуемую ширину полосы без применения чрезмерной защиты от ошибок к более высоким уровням.In embodiments, the method may further include generating a transport stream for transmitting multiple layers of data (eg, data assigned or added to the respective layers, or otherwise included in the respective layers). The base layer may have the highest transmission priority, and the hierarchical enhancement layers may have descending transmission priorities. Thus, the transmission priority can be reduced from the base layer to the first enhancement layer, from the first enhancement layer to the second enhancement layer, and so on. The amount of error protection for data transmission of multiple layers can be controlled in accordance with the respective transmission priorities. Thereby, it can be ensured that at least some of the lower layers are transmitted reliably, on the other hand, reducing the total required bandwidth without applying excessive error protection to the higher layers.

В вариантах осуществления способ может дополнительно включать в себя для каждого из множества уровней формирование пакета транспортного уровня, включающего в себя данные соответствующего уровня. Например, для каждого временного интервала (например, кадра) соответствующий пакет транспортного уровня может быть сформирован для каждого из множества уровней.In embodiments, the method may further include, for each of the plurality of layers, generating a transport layer packet including data of the corresponding layer. For example, for each time slot (eg, frame), a corresponding transport layer packet may be generated for each of a plurality of layers.

В вариантах осуществления сжатое представление звука может дополнительно включать в себя дополнительную базовую вспомогательную информацию для декодирования базового сжатого представления звука в базовое воссозданное представление звука. Дополнительная базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов. Способ может дополнительно включать в себя выполнение декомпозиции дополнительной базовой вспомогательной информации на множество частей дополнительной базовой вспомогательной информации. Способ может, кроме того, включать в себя добавление частей дополнительной базовой вспомогательной информации к базовому уровню (например, включение части дополнительной базовой вспомогательной информации в базовый уровень или распределение частей дополнительной базовой вспомогательной информации базовому уровню, например в целях передачи или хранения). Каждая часть дополнительной базовой вспомогательной информации может быть связана с соответствующим уровнем и может включать в себя информацию, которая определяет декодирование одного или более компонентов, присвоенных соответстIn embodiments, the compressed audio representation may further include additional basic ancillary information for decoding the basic compressed audio representation into the basic reconstructed audio representation. Additional basic ancillary information may include information that determines decoding of one or more of the plurality of components depending on the corresponding other components. The method may further include decomposing the additional basic side information into a plurality of pieces of additional basic side information. The method may further include adding portions of the additional basic ancillary information to the base layer (eg, including a portion of the additional basic ancillary information in the base layer, or allocating portions of the additional basic ancillary information to the base layer, for example, for transmission or storage purposes). Each piece of additional basic ancillary information may be associated with a corresponding layer and may include information that determines the decoding of one or more components assigned to the corresponding layer.

- 2 038833 вующему уровню, в зависимости (только) от соответствующих других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня. Таким образом, каждая часть дополнительной базовой вспомогательной информации определяет компоненты на соответствующем уровне, которому соответствует эта часть дополнительной базовой вспомогательной информации, независимо от любых других компонентов, присвоенных более высоким уровням, чем соответствующий уровень.- 2 038833 the next level, depending (only) on the corresponding other components assigned to the corresponding level and any levels below the corresponding level. Thus, each piece of additional basic ancillary information identifies the components at the corresponding level to which that piece of additional basic ancillary information corresponds, independently of any other components assigned to levels higher than the corresponding level.

Сконфигурированный таким образом предложенный способ избегает фрагментации дополнительной базовой вспомогательной информации посредством добавления всех частей к базовому уровню. Другими словами, все части дополнительной базовой вспомогательной информации включены в базовый уровень. Декомпозиция дополнительной базовой вспомогательной информации гарантирует, что для каждого уровня доступна часть дополнительной базовой вспомогательной информации, что не требует знания компонентов на более высоких уровнях. Таким образом, независимо от фактического наиболее высокого применимого уровня, для декодера достаточно декодировать дополнительную базовую вспомогательную информацию, включенную в уровни вплоть до наиболее высокого применимого уровня.Thus configured, the proposed method avoids fragmentation of additional basic ancillary information by adding all parts to the basic layer. In other words, all pieces of additional basic ancillary information are included in the basic layer. Decomposition of additional basic ancillary information ensures that some additional basic ancillary information is available for each level, which does not require knowledge of the components at higher levels. Thus, regardless of the actual highest applicable layer, it is sufficient for the decoder to decode the additional basic ancillary information included in the layers up to the highest applicable layer.

В вариантах осуществления дополнительная базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование (например, восстановление) одного или более из множества компонентов в зависимости от других компонентов. Например, дополнительная базовая вспомогательная информация может представлять вспомогательную информацию, относящуюся к индивидуальным монауральным сигналам, в зависимости от других монауральных сигналов. Таким образом, дополнительная базовая вспомогательная информация может упоминаться как зависимая базовая вспомогательная информация.In embodiments, the additional basic ancillary information may include information that determines decoding (eg, recovery) of one or more of the plurality of components in dependence on other components. For example, the additional basic ancillary information may represent ancillary information related to individual monaural cues in relation to other monaural cues. Thus, the additional basic side information may be referred to as dependent basic side information.

В вариантах осуществления сжатое представление звука может быть обработано для последовательных временных интервалов, например временных интервалов равного размера. Последовательные временные интервалы могут являться кадрами. Таким образом, способ может работать на основе кадров, т.е. сжатое представление звука может быть закодировано покадрово. Сжатое представление звука может быть доступно для каждого последовательного временного интервала (например, для каждого кадра). Таким образом, операция сжатия, посредством которой было получено сжатое представление звука, может работать на основе кадров.In embodiments, the compressed audio representation may be processed for consecutive time slots, eg, time slots of equal size. Consecutive slots can be frames. Thus, the method can operate on a frame basis, i. E. the compressed audio representation can be encoded frame by frame. A compressed audio representation may be available for every consecutive time slot (eg, every frame). Thus, the compression operation by which a compressed representation of the audio has been obtained can operate on a frame basis.

В вариантах осуществления способ может дополнительно включать в себя формирование информации конфигурации, которая указывает для каждого уровня компоненты базового сжатого представления звука, которые присвоены этому уровню. Таким образом, декодер может без затруднений осуществить доступ к информации, необходимой для декодирования, без ненужного анализа принятых полезных нагрузок данных.In embodiments, the method may further include generating configuration information that indicates, for each layer, the base compressed audio components that are assigned to that layer. Thus, the decoder can easily access the information needed for decoding without unnecessarily parsing the received data payloads.

В соответствии с другим аспектом описан способ многоуровневого кодирования сжатого представления звука или звукового поля. Сжатое представление звука может включать в себя базовое сжатое представление звука, которое включает в себя множество компонентов. Множество компонентов может являться взаимодополняющими компонентами. Сжатое представление звука может дополнительно включать в себя базовую вспомогательную информацию (например, независимую базовую вспомогательную информацию) и третью информацию (например, зависимую базовую вспомогательную информацию) для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов индивидуально, независимо от других компонентов. Дополнительная базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов. Способ может включать в себя подразделение (например, группировку) множества компонентов на множество групп компонентов. Способ может дополнительно включать в себя присвоение (например, добавление) каждой из множества групп соответствующему одному из множества иерархических уровней. Присвоение может указывать соответствие между соответствующими группами и уровнями. Можно сказать, что компоненты, присвоенные соответствующему уровню, включены в тот уровень. Количество групп может соответствовать (например, быть равным) количеству уровней. Множество уровней может включать в себя базовый уровень и один или более иерархических улучшающих уровней. Способ может дополнительно включать в себя добавление базовой вспомогательной информации к базовому уровню (например, включение базовой вспомогательной информации в базовый уровень или распределение базовой вспомогательной информации базовому уровню, например в целях передачи или хранения). Способ может дополнительно включать в себя выполнение декомпозиции дополнительной базовой вспомогательной информации на множество частей дополнительной базовой вспомогательной информации и добавление частей дополнительной базовой вспомогательной информации к базовому уровню (например, включение частей дополнительной базовой вспомогательной информации в базовый уровень или распределение частей дополнительной базовой вспомогательной информации базовому уровню, например, в целях передачи или хранения). Каждая часть дополнительной базовой вспомогательной информации может быть связана с соответствующим уровнем и включать в себя информацию, которая определяет декодирование одного или более компо- 3 038833 нентов, присвоенных соответствующему уровню, в зависимости от соответствующих других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня.In accordance with another aspect, a method for multi-level encoding of a compressed audio or sound field representation is described. The compressed audio representation may include a basic compressed audio representation that includes many components. Many components can be complementary components. The compressed audio representation may further include basic side information (eg, independent basic side information) and third information (eg, dependent basic side information) for decoding the basic compressed audio representation into a basic reconstructed sound or sound field representation. Basic side information may include information that determines decoding of one or more of the plurality of components individually, independently of other components. Additional basic ancillary information may include information that determines decoding of one or more of the plurality of components depending on the corresponding other components. The method may include subdividing (eg, grouping) a plurality of components into a plurality of component groups. The method can further include assigning (eg, adding) each of the plurality of groups to a corresponding one of the plurality of hierarchical levels. The assignment can indicate the correspondence between the respective groups and levels. It can be said that the components assigned to the corresponding level are included in that level. The number of groups can correspond (for example, be equal to) the number of levels. The plurality of levels can include a base level and one or more hierarchical enhancement levels. The method may further include adding basic side information to the base layer (eg, including the basic side information in the base layer, or distributing the basic side information to the base layer, for example, for transmission or storage purposes). The method may further include decomposing the additional basic ancillary information into a plurality of pieces of additional basic ancillary information and adding portions of the additional basic ancillary information to the base layer (e.g., including portions of the additional basic ancillary information in the base layer or allocating portions of the additional basic ancillary information to the base layer). e.g. for transmission or storage purposes). Each piece of additional basic ancillary information may be associated with a corresponding layer and include information that determines the decoding of one or more components assigned to the corresponding layer, depending on the corresponding other components assigned to the corresponding layer and any levels below the corresponding layer. ...

Сконфигурированный таким образом предложенный способ гарантирует, что для каждого уровня доступна подходящая дополнительная базовая вспомогательная информация для декодирования компонентов, включенных в любой уровень вплоть до соответствующего уровня, не требуя корректного приема или декодирования (или, в целом, знания) любых более высоких уровней. В случае сжатого представления HOA предложенный способ гарантирует, что в режиме векторного кодирования подходящий Vвектор доступен для всего компонента, принадлежащего уровням вплоть до наиболее высокого применимого уровня. В частности, предложенный способ исключает случай, в котором элементы V-вектора, соответствующего компонентам на более высоких уровнях, явно не сообщены. В соответствии с этим информация, включенная в уровни вплоть до наиболее высокого применимого уровня, является достаточной для декодирования (например, восстановления) любых компонентов, принадлежащих уровням вплоть до наиболее высокого применимого уровня. Тем самым обеспечивается подходящая восстановление соответствующих воссозданных представлений HOA для более низких уровней, даже если более высокие уровни не могли быть корректно приняты декодером. С другой стороны, предложенный способ позволяет полностью использовать преимущества сокращения требуемой ширины полосы, которое может быть достигнуто при применении многоуровневого кодирования.Thus configured, the proposed method ensures that for each layer suitable additional basic ancillary information is available to decode components included in any layer up to the corresponding layer, without requiring correct reception or decoding (or, in general, knowledge) of any higher layers. In the case of a compressed HOA representation, the proposed method ensures that in vector coding mode a suitable Vvector is available for the entire component belonging to the layers up to the highest applicable layer. In particular, the proposed method eliminates the case in which the elements of the V-vector corresponding to the components at higher levels are not explicitly communicated. Accordingly, the information included in the layers up to the highest applicable layer is sufficient to decode (eg, reconstruct) any components belonging to the layers up to the highest applicable layer. This provides a suitable reconstruction of the corresponding reconstructed HOA representations for the lower layers, even if the higher layers could not be correctly received by the decoder. On the other hand, the proposed method makes full use of the advantages of reducing the required bandwidth, which can be achieved with the use of multi-level coding.

Варианты осуществления этого аспекта могут относиться к вариантам осуществления предыдущего аспекта.Embodiments of this aspect may relate to embodiments of the previous aspect.

В соответствии с другим аспектом описан способ декодирования сжатого представления звука или звукового поля. Сжатое представление звука может быть закодировано во множестве иерархических уровней. Множество иерархических уровней может включать в себя базовый уровень и один или несколько иерархических возрастающих уровней. Множество уровней может иметь присвоенные им компоненты базового сжатого представления звука или звукового поля. Другими словами, множество уровней может включать в себя компоненты базовой сжатой вспомогательной информации. Компоненты могут быть присвоены соответствующим уровням в соответствующих группах компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Каждый уровень может включать в себя часть улучшающей вспомогательной информации, включающую в себя параметры для улучшения базового воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня. Способ может включать в себя прием полезных нагрузок данных, соответственно связанных с множеством иерархических уровней. Способ может дополнительно включать в себя определение первого индекса уровня, указывающего наиболее высокий применимый уровень среди множества уровней для использования для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Способ может дополнительно включать в себя получение базового воссозданного представления звука из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации. Способ может дополнительно включать в себя определение второго индекса уровня, который указывает, какая часть улучшающей вспомогательной информации должна использоваться для улучшения (например, расширения) базового воссозданного представления звука. Способ, кроме того, может включать в себя получение воссозданного представления звука или звукового поля из базового воссозданного представления звука со ссылкой на второй индекс уровня.In accordance with another aspect, a method for decoding a compressed audio or sound field representation is described. The compressed audio representation can be encoded at many hierarchical levels. The plurality of hierarchical levels may include a base level and one or more hierarchical ascending levels. Multiple levels can have components of the basic compressed sound representation or sound field assigned to them. In other words, the plurality of layers may include components of the basic compressed ancillary information. Components can be assigned to the respective levels in the respective component groups. Many components can be complementary components. The base layer may include base side information for decoding the base compressed audio representation. Each layer may include a piece of enhancing ancillary information including parameters for enhancing the basic reconstructed audio presentation available from data included in the corresponding layer and any levels below the corresponding layer. The method can include receiving data payloads correspondingly associated with multiple hierarchical levels. The method may further include determining a first layer index indicating the highest applicable layer among the plurality of layers to use for decoding the baseline compressed audio representation into a baseline reconstituted sound or sound field representation. The method may further include obtaining a basic reconstructed audio representation from the components assigned to the highest applicable level and any levels below the highest applicable level using the basic ancillary information. The method may further include determining a second layer index that indicates how much of the enhancement ancillary information is to be used to enhance (eg, expand) the base reconstructed audio representation. The method can further include obtaining a reconstructed sound or sound field representation from the base reconstructed sound representation with reference to the second layer index.

Сконфигурированный таким образом предложенный способ гарантирует, что воссозданное представление звука имеет оптимальное качество с использованием доступной (например, корректно принятой) информации в наилучшей возможной степени.Thus configured, the proposed method ensures that the reconstructed audio representation is of optimal quality using the available (eg, correctly received) information to the best possible extent.

В вариантах осуществления компоненты базового сжатого представления звука могут соответствовать монауральным сигналам (например, монауральным транспортным сигналам). Монауральные сигналы могут представлять либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления HOA. Монауральные сигналы могут быть квантованы.In embodiments, the components of the underlying compressed audio representation may correspond to monaural signals (eg, monaural transport signals). Monaural signals can represent either dominant audio signals or sequences of HOA representation coefficients. Monaural signals can be quantized.

В вариантах осуществления способ может дополнительно включать в себя определение для каждо- 4 038833 го уровня, был ли соответствующий уровень принят корректно. Способ может дополнительно включать в себя определение первого индекса уровня как индекса того уровня, который находится непосредственно ниже наиболее низкого уровня, который не был принят корректно.In embodiments, the method may further include determining, for each 4038833th layer, whether the corresponding layer was received correctly. The method may further include determining the first level index as an index of the level immediately below the lowest level that has not been received correctly.

В вариантах осуществления определение второго индекса уровня может включать в себя либо определение второго индекса уровня как равного первому индексу уровня, либо определению значения индекса в качестве второго индекса уровня, которое указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука. В последнем случае воссозданное представление звука может быть эквивалентно базовому воссозданному представлению звука.In embodiments, determining the second level index may include either determining the second level index to be equal to the first level index, or determining the index value as the second level index, which indicates that no enhancement ancillary information should be used when obtaining the reconstructed audio representation. ... In the latter case, the reconstructed sound representation can be equivalent to the base reconstructed sound representation.

В вариантах осуществления полезные нагрузки данных могут быть приняты и обработаны для последовательных временных интервалов, например временных интервалов равного размера. Последовательные временные интервалы могут являться кадрами. Таким образом, способ может работать на основе кадров. Способ может дополнительно включать в себя определение второго индекса уровня как равного первому индексу уровня, если сжатые представления звука для последовательных временных интервалов могут быть декодированы независимо друг от друга.In embodiments, data payloads may be received and processed for consecutive time slots, eg, time slots of equal size. Consecutive slots can be frames. Thus, the method can operate on a frame basis. The method may further include determining the second layer index to be equal to the first layer index if the compressed audio representations for successive time slots can be decoded independently of each other.

В вариантах осуществления полезные нагрузки данных могут быть приняты и обработаны для последовательных временных интервалов, например временных интервалов равного размера. Последовательные временные интервалы могут являться кадрами. Таким образом, способ может работать на основе кадров. Способ может дополнительно включать в себя для данного временного интервала среди последовательных временных интервалов определение для каждого уровня, был ли соответствующий уровень принят корректно, если сжатые представления звука для последовательных временных интервалов не могут быть декодированы независимо друг от друга. Способ может дополнительно включать в себя определение первого индекса уровня для данного временного интервала как меньшего индекса из первого индекса уровня временного интервала, предшествующего данному временному интервалу, и индекса уровня, находящегося непосредственно ниже наиболее низкого уровня, который не был принят корректно.In embodiments, data payloads may be received and processed for consecutive time slots, eg, time slots of equal size. Consecutive slots can be frames. Thus, the method can operate on a frame basis. The method may further include, for a given time slot among consecutive time slots, determining for each layer whether the corresponding layer has been correctly received if the compressed audio representations for successive time slots cannot be decoded independently of each other. The method may further include determining a first level index for a given slot as a lower index from a first level index of a slot prior to a given slot and a level index immediately below the lowest level that has not been received correctly.

В вариантах осуществления способ может дополнительно включать в себя для данного временного интервала определение, равен ли первый индекс уровня для данного временного интервала первому индексу уровня для предыдущего временного интервала, если сжатые представления звука для последовательных временных интервалов не могут быть декодированы независимо друг от друга. Способ может дополнительно включать в себя определение, что второй индекс уровня для данного временного интервала равен первому индексу уровня для данного временного интервала, если первый индекс уровня для данного временного интервала равен первому индексу уровня для предыдущего временного интервала. Способ может дополнительно включать в себя определение значения индекса в качестве второго индекса уровня, которое указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука, если первый индекс уровня для данного временного интервала не равен первому индексу уровня для предыдущего временного интервала.In embodiments, the method may further include, for a given slot, determining whether a first layer index for a given slot is equal to a first layer index for a previous slot if compressed audio representations for successive slots cannot be decoded independently of each other. The method can further include determining that the second level index for a given slot is equal to a first level index for a given slot if the first level index for a given slot is equal to a first level index for a previous slot. The method may further include determining an index value as a second layer index that indicates that no enhancement ancillary information should be used in obtaining the reconstructed audio representation if the first layer index for a given slot is not equal to the first level index for a previous slot. interval.

В вариантах осуществления базовый уровень может включать в себя по меньшей мере одну часть дополнительной базовой вспомогательной информации, связанную с соответствующим уровнем и включающую в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может дополнительно включать в себя для каждой части дополнительной базовой вспомогательной информации декодирование части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может дополнительно включать в себя коррекцию части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому уровню и любым уровням между наиболее высоким применимым уровнем и соответствующим уровнем. Базовое воссозданное представление звука может быть получено из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации и скорректированной части дополнительной базовой вспомогательной информации, полученной из частей дополнительной базовой вспомогательной информации, соответствующих уровням вплоть до наиболее высокого применимого уровня.In embodiments, the base layer may include at least one piece of additional base side information associated with the corresponding layer and including information that determines decoding of one or more components among the components assigned to the corresponding layer depending on other components assigned to the corresponding layer. the corresponding level and any levels below the corresponding level. The method may further include, for each piece of additional basic side information, decoding the piece of additional basic side information by referencing the components assigned to its respective layer and any layers below the corresponding layer. The method may further include correcting a portion of the additional basic ancillary information by referencing the components assigned to the highest applicable level and any levels between the highest applicable level and the corresponding level. The basic reconstructed audio representation can be obtained from the components assigned to the highest applicable level and any levels below the highest applicable level using the basic ancillary information and an adjusted part of the additional basic ancillary information obtained from the parts of the additional basic ancillary information corresponding to the levels up to the most high applicable level.

В соответствии с другим аспектом описан способ декодирования сжатого представления звука или звукового поля. Сжатое представление звука может быть закодировано во множестве иерархических уровней. Множество иерархических уровней может включать в себя базовый уровень и один или не- 5 038833 сколько иерархических возрастающих уровней. Множество уровней может иметь присвоенные им компоненты базового сжатого представления звука или звукового поля. Другими словами, множество уровней может включать в себя компоненты базовой сжатой вспомогательной информации. Компоненты могут быть присвоены соответствующим уровням в соответствующих группах компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Базовый уровень может дополнительно включать в себя по меньшей мере одну часть дополнительной базовой вспомогательной информации, связанную с соответствующим уровнем и включающую в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может включать в себя прием полезных нагрузок данных, соответственно связанных с множеством иерархических уровней. Способ может дополнительно включать в себя определение первого индекса уровня, указывающего наиболее высокий применимый уровень среди множества уровней для использования для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Способ может дополнительно включать в себя для каждой части дополнительной базовой вспомогательной информации декодирование части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может дополнительно включать в себя для каждой части дополнительной базовой вспомогательной информации коррекцию части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому уровню и любым уровням между наиболее высоким применимым уровнем и соответствующим уровнем. Базовое воссозданное представление звука может быть получено из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации и скорректированной части дополнительной базовой вспомогательной информации, полученной из частей дополнительной базовой вспомогательной информации, соответствующих уровням вплоть до наиболее высокого применимого уровня. Способ может дополнительно содержать определение второго индекса уровня, который либо равен первому индексу уровня, либо указывает опущение улучшающей вспомогательной информации во время декодирования.In accordance with another aspect, a method for decoding a compressed audio or sound field representation is described. The compressed audio representation can be encoded at many hierarchical levels. The plurality of hierarchical levels may include a base level and one or more hierarchical ascending levels. Multiple levels can have components of the basic compressed sound representation or sound field assigned to them. In other words, the plurality of layers may include components of the basic compressed ancillary information. Components can be assigned to the respective levels in the respective component groups. Many components can be complementary components. The base layer may include base side information for decoding the base compressed audio representation. The base layer may further include at least one piece of additional base side information associated with the corresponding layer and including information that determines decoding of one or more components among the components assigned to the corresponding layer depending on other components assigned to the corresponding layer and any level below the corresponding level. The method can include receiving data payloads correspondingly associated with multiple hierarchical levels. The method may further include determining a first layer index indicating the highest applicable layer among the plurality of layers for use to decode the baseline compressed audio representation into a baseline reconstituted sound or sound field representation. The method may further include, for each piece of additional basic side information, decoding the piece of additional basic side information by referencing the components assigned to its respective layer and any layers below the corresponding layer. The method may further include, for each piece of additional basic ancillary information, correcting the portion of the additional basic ancillary information by referencing the components assigned to the highest applicable level and any levels between the highest applicable level and the corresponding level. The basic reconstructed audio representation can be obtained from the components assigned to the highest applicable level and any levels below the highest applicable level using the basic ancillary information and an adjusted part of the additional basic ancillary information obtained from the parts of the additional basic ancillary information corresponding to the levels up to the most high applicable level. The method may further comprise determining a second layer index that is either equal to the first layer index or indicates the omission of enhancement side information during decoding.

Сконфигурированный таким образом предложенный способ гарантирует, что дополнительная базовая вспомогательная информация, которая в конечном счете используется для декодирования базового сжатого представления звука, не включает в себя избыточные элементы, тем самым реализуя более эффективное фактическое декодирование базового сжатого представления звука.Thus configured, the proposed method ensures that the additional basic ancillary information that is ultimately used to decode the basic compressed audio representation does not include redundant elements, thereby realizing the actual decoding of the basic compressed audio representation more efficiently.

В соответствии с другим аспектом описан кодер для многоуровневого кодирования сжатого представления звука или звукового поля. Сжатое представление звука может включать в себя базовое сжатое представление звука, которое включает в себя множество компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Сжатое представление звука может дополнительно включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Сжатое представление звука может, кроме того, включать в себя улучшающую вспомогательную информацию, включающую в себя параметры для улучшения (например, расширения) базового воссозданного представления звука. Кодер может включать в себя процессор, выполненный с возможностью выполнять некоторые или все этапы способов в соответствии с первым упомянутым выше аспектом и вторым упомянутым выше аспектом.In accordance with another aspect, an encoder is described for multi-level encoding of a compressed audio or sound field representation. The compressed audio representation may include a basic compressed audio representation that includes many components. Many components can be complementary components. The compressed audio representation may further include basic ancillary information for decoding the basic compressed audio representation into a basic reconstructed audio or sound field representation. The compressed audio representation may further include enhancement ancillary information including parameters for enhancing (eg, expanding) the base reconstructed audio representation. The encoder may include a processor configured to perform some or all of the steps of the methods in accordance with the above-mentioned first aspect and the above-mentioned second aspect.

В соответствии с другим аспектом описан декодер для декодирования сжатого представления звука или звукового поля. Сжатое представление звука может быть закодировано во множестве иерархических уровней. Множество иерархических уровней может включать в себя базовый уровень и один или несколько иерархических возрастающих уровней. Множество уровней может иметь присвоенные им компоненты базового сжатого представления звука или звукового поля. Другими словами, множество уровней может включать в себя компоненты базовой сжатой вспомогательной информации. Компоненты могут быть присвоены соответствующим уровням в соответствующих группах компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Каждый уровень может включать в себя часть улучшающей вспомогательной информации, включающей в себя параметры для улучшения (например, расширения) базового воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня. Декодер может включать в себя процессор, выполненный с возможностью выполнять некоторые или все этапы способов в соответствии с третьим упомянутым выше аспектом и четвертым упомянутым выше аспектом.In accordance with another aspect, a decoder is described for decoding a compressed audio or sound field representation. The compressed audio representation can be encoded at many hierarchical levels. The plurality of hierarchical levels may include a base level and one or more hierarchical ascending levels. Multiple levels can have components of the basic compressed sound representation or sound field assigned to them. In other words, the plurality of layers may include components of the basic compressed ancillary information. Components can be assigned to the respective levels in the respective component groups. Many components can be complementary components. The base layer may include base side information for decoding the base compressed audio representation. Each layer may include a piece of enhancing ancillary information including parameters for enhancing (eg, expanding) the base reconstructed audio representation available from data included in the corresponding layer and any levels below the corresponding layer. The decoder may include a processor configured to perform some or all of the steps of the methods in accordance with the above-mentioned third aspect and the above-mentioned fourth aspect.

В соответствии с другими аспектами способы, устройства и системы направлены на декодированиеIn accordance with other aspects, methods, devices, and systems are directed to decoding

- 6 038833 сжатого представления Higher Order Ambisonics (HOA) звука или звукового поля (пространственного звука или звукового поля высшего порядка). Устройство может иметь приемник, выполненный с возможностью принимать, или способ может принимать битовый поток, содержащий сжатое представление HOA, соответствующее множеству иерархических уровней, которые включают в себя базовый уровень и один или более иерархических улучшающих уровней. Множество уровней имеют присвоенные им компоненты базового сжатого представления звука или звукового поля, компоненты присвоены соответствующим уровням в соответствующих группах компонентов. Устройство может иметь декодер, выполненный с возможностью декодировать, или способ может декодировать сжатое представление HOA на основе базовой вспомогательной информации, которая связана с базовым уровнем, и на основе улучшающей вспомогательной информации, которая связана с одним или более иерархическими улучшающими уровнями. Базовая вспомогательная информация может включать в себя базовую независимую вспомогательную информацию, относящуюся к первым индивидуальным монауральным сигналам, которые будут декодироваться независимо от других монауральных сигналов. Каждый из одного или более иерархических улучшающих уровней может включать в себя часть улучшающей вспомогательной информации, включающей в себя параметры для улучшения базового воссозданного представления звука, доступные из данных, включенных в соответствующие уровни и любые уровни ниже соответствующего уровня.- 6,038,833 Higher Order Ambisonics (HOA) compressed representations of a sound or sound field (spatial sound or higher order sound field). The apparatus may have a receiver configured to receive, or the method may receive a bitstream containing a compressed HOA representation corresponding to a plurality of hierarchical levels that include a base layer and one or more hierarchical enhancement layers. The plurality of levels have components of the basic compressed sound representation or sound field assigned to them, the components are assigned to the corresponding levels in the corresponding component groups. The apparatus may have a decoder configured to decode, or the method may decode the compressed HOA representation based on basic side information that is associated with the base layer and based on enhancement side information that is associated with one or more hierarchical enhancement layers. The basic side information may include basic independent side information related to the first individual monaural signals to be decoded independently of other monaural signals. Each of the one or more hierarchical enhancement levels may include a portion of enhancement ancillary information including parameters for enhancing the basic reconstructed audio presentation available from data included in the respective levels and any levels below the corresponding level.

Базовая независимая вспомогательная информация может указывать, что первые индивидуальные монауральные сигналы представляют направленный сигнал с направлением падения. Базовая вспомогательная информация может дополнительно включать в себя базовую зависимую вспомогательную информацию, относящуюся ко вторым индивидуальным монауральным сигналам, которые будут декодироваться зависимо от других монауральных сигналов. Базовая зависимая вспомогательная информация может включать в себя основанные на векторах сигналы, которые распределены по направлениям в звуковом поле, причем распределение по направлениям определено посредством вектора. Компоненты вектора установлены равными нулю и не являются частью сжатого векторного представления.Basic independent ancillary information may indicate that the first individual monaural signals represent a directional signal with a direction of incidence. The basic side information may further include basic dependent side information related to the second individual monaural signals to be decoded dependent on the other monaural signals. The basic dependent ancillary information may include vector-based signals that are directional distribution in the sound field, the directional distribution being defined by a vector. The vector components are set to zero and are not part of the compressed vector representation.

Компоненты базового сжатого представления звука могут соответствовать монауральным сигналам, которые представляют либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления HOA. Битовый поток включает в себя полезные нагрузки данных, соответственно связанные с множеством иерархических уровней. Улучшающая вспомогательная информация может включать в себя параметры, относящиеся по меньшей мере к одному из перечисленного: пространственное предсказание, синтез направленных подполосных сигналов и параметрическое дублирование звукового окружения. Улучшающая вспомогательная информация может включать в себя информацию, которая делает возможным предсказание недостающих частей звука или звукового поля на основе направленных сигналов. Может быть дополнительно определено для каждого уровня, был ли соответствующий уровень принят корректно, и индекс уровня, который находится непосредственно ниже наиболее низкого уровня, который не был принят корректно.The components of the basic compressed audio representation can correspond to monaural signals that represent either dominant audio signals or HOA representation coefficient sequences. The bitstream includes data payloads, respectively associated with multiple hierarchical levels. The enhancement side information may include parameters related to at least one of the following: spatial prediction, directional subband synthesis, and parametric ambience duplication. The enhancement side information can include information that makes it possible to predict missing portions of a sound or sound field based on directional signals. It may additionally be determined for each level whether the corresponding level was received correctly and the index of the level that is immediately below the lowest level that was not received correctly.

В соответствии с другим аспектом описана программа. Программа может быть адаптирована для исполнения на процессоре и для выполнения некоторых или всех этапов способа, изложенных в настоящем документе, при ее исполнении на вычислительном устройстве.In accordance with another aspect, a program is described. The program can be adapted to run on a processor and to perform some or all of the method steps described herein when executed on a computing device.

В соответствии с еще одним аспектом описан запоминающий носитель. Запоминающий носитель может содержать программу, адаптированную для исполнения на процессоре и для выполнения некоторых или всех этапов способа, изложенных в настоящем документе, при ее исполнении на вычислительном устройстве.In accordance with another aspect, a storage medium is described. A storage medium may contain a program adapted to run on a processor and to perform some or all of the steps of the method described herein when executed on a computing device.

Утверждения, сделанные в отношении любого из упомянутых выше аспектов или их вариантов осуществления, также относятся к соответствующим другим аспектам или их вариантам осуществления, как поймет специалист в области техники. Повторение этих утверждений для каждого аспекта или варианта осуществления было опущено для краткости.Statements made with respect to any of the above aspects or their embodiments also apply to corresponding other aspects or embodiments as those skilled in the art will understand. The repetition of these statements for each aspect or embodiment has been omitted for brevity.

Способы и устройства, включающие в себя предпочтительные варианты осуществления, изложенные в настоящем документе, могут использоваться автономно или в сочетании с другими способами и системами, раскрытыми в этом документе. Кроме того, все аспекты способов и устройств, изложенные в настоящем документе, могут быть произвольным образом объединены. В частности, признаки пунктов формулы изобретения могут быть объединены друг с другом произвольным образом.The methods and devices, including the preferred embodiments set forth herein, can be used stand-alone or in combination with other methods and systems disclosed herein. In addition, all aspects of the methods and devices set forth herein can be arbitrarily combined. In particular, the features of the claims can be combined with each other in an arbitrary manner.

Этапы способов и признаки устройств могут являться взаимозаменяемыми различным образом. В частности, подробности раскрытого способа могут быть реализованы как устройство, выполненное с возможностью исполнять некоторые или все этапы способа, и наоборот, как поймет специалист в области техники.The steps of the methods and the features of the devices can be interchangeable in various ways. In particular, the details of the disclosed method may be implemented as a device configured to perform some or all of the steps of the method, and vice versa, as will be understood by one of ordinary skill in the art.

Краткое описание чертежейBrief Description of Drawings

Изобретение разъяснено ниже иллюстративным образом со ссылкой на прилагаемые чертежи.The invention is explained below in an illustrative manner with reference to the accompanying drawings.

фиг. 1 - блок-схема последовательности этапов, иллюстрирующая пример способа многоуровневого кодирования в соответствии с вариантами осуществления раскрытия;fig. 1 is a flowchart illustrating an example of a layered coding method in accordance with embodiments of the disclosure;

фиг. 2 - блок-схема, схематично иллюстрирующая пример стадии кодера в соответствии с вариантами осуществления раскрытия;fig. 2 is a block diagram schematically illustrating an example of an encoder stage in accordance with embodiments of the disclosure;

- 7 038833 фиг. 3 - блок-схема последовательности этапов, иллюстрирующая пример способа декодирования сжатого представления звука или звукового поля, который был закодирован в множестве иерархических уровней, в соответствии с вариантами осуществления раскрытия;- 7 038833 fig. 3 is a flowchart illustrating an example of a method for decoding a compressed representation of an audio or sound field that has been encoded at multiple hierarchical levels, in accordance with embodiments of the disclosure;

фиг. 4А и 4В - блок-схемы, схематично иллюстрирующие примеры стадии декодера, в соответствии с вариантами осуществления раскрытия;fig. 4A and 4B are block diagrams schematically illustrating examples of a decoder stage in accordance with embodiments of the disclosure;

фиг. 5 - блок-схема, схематично иллюстрирующая пример аппаратной реализации кодера в соответствии с вариантами осуществления раскрытия; и фиг. 6 - блок-схема, схематично иллюстрирующая пример аппаратной реализации декодера в соответствии с вариантами осуществления раскрытия.fig. 5 is a block diagram schematically illustrating an example of a hardware implementation of an encoder in accordance with embodiments of the disclosure; and FIG. 6 is a block diagram schematically illustrating an example of a hardware implementation of a decoder in accordance with embodiments of the disclosure.

Осуществление изобретенияImplementation of the invention

Сначала будет описано сжатое представление звука (или звукового поля) (далее для краткости называемое сжатым представлением звука), к которому применимы способы и кодеры/декодеры в соответствии с настоящим раскрытием. В целом, полное сжатое представление звука (или звукового поля) (далее для краткости называемое полным сжатым представлением звука) может содержать три следующих компонента (например, состоять из них): базовое сжатое представление звука (или звукового поля) (далее для краткости называемое базовым сжатым представлением звука), базовую вспомогательную информацию и улучшающую вспомогательную информацию.First, a compressed audio (or sound field) representation (hereinafter referred to as a compressed audio representation for brevity), to which the methods and encoders / decoders of the present disclosure are applicable, will be described. In general, a complete compressed sound (or sound field) representation (hereinafter referred to as a complete compressed sound representation for brevity) may contain (for example, consist of three components): a basic compressed sound (or sound field) representation (hereinafter referred to as baseline for brevity) compressed audio representation), basic ancillary information, and enhancement ancillary information.

Само базовое сжатое представление звука содержит несколько компонентов (например, состоит из них) (например, взаимодополняющих компонентов). Базовое сжатое представление звука может принимать во внимание определенно наибольший процент полного сжатого представления звука. Базовое сжатое представление звука может состоять из монауральных транспортных сигналов, представляющих либо преобладающие звуковые сигналы, либо последовательности коэффициентов первоначального представления HOA.The basic compressed audio representation itself contains several components (for example, consists of them) (for example, complementary components). The baseline compressed audio representation can take into account definitely the largest percentage of the complete compressed audio representation. The basic compressed audio representation may consist of monaural transport signals representing either dominant audio signals or a sequence of HOA initial representation coefficients.

Базовая вспомогательная информация нужна для декодирования базового сжатого представления звука и, как предполагается, имеет намного меньший размер по сравнению с базовым сжатым представлением звука. Это может быть сделано вплоть до ее наибольшей части несвязных частей, каждая из которых определяет восстановление только одного конкретного компонента базового сжатого представления звука. Базовая вспомогательная информация может содержать первую часть, которая может быть известна как независимая базовая вспомогательная информация, и вторую часть, которая может быть известна как дополнительная базовая вспомогательная информация.The basic ancillary information is needed to decode the basic compressed audio representation and is assumed to be much smaller than the basic compressed audio representation. This can be done down to its largest part of the disjointed parts, each of which determines the restoration of only one specific component of the basic compressed audio representation. The basic side information may comprise a first portion, which may be known as independent basic side information, and a second portion, which may be known as additional basic side information.

И первая, и вторая части, независимая базовая вспомогательная информация и дополнительная базовая вспомогательная информация, могут определять восстановление конкретных компонентов базового сжатого представления звука. Вторая часть является факультативной и может быть опущена. В этом случае можно сказать, что сжатое представление звука содержит первую часть (например, базовую вспомогательную информацию).Both the first and second parts, the independent baseline side information and the additional baseline side information, can determine the recovery of specific components of the baseline compressed audio representation. The second part is optional and may be omitted. In this case, the compressed audio representation can be said to contain the first part (eg, basic ancillary information).

Первая часть (например, базовая вспомогательная информация) может содержать вспомогательную информацию, описывающую индивидуальные (взаимодополняющие) компоненты базового сжатого представления звука, независимо от других (взаимодополняющих) компонентов. В частности, первая часть (например, базовая вспомогательная информация) может определять декодирование одного или более из множества компонентов индивидуально, независимо от других компонентов. Таким образом, первая часть может упоминаться как независимая базовая вспомогательная информация.The first part (eg, basic ancillary information) may contain ancillary information describing the individual (complementary) components of the basic compressed audio representation, independent of the other (complementary) components. In particular, the first part (eg, basic side information) may determine decoding one or more of the plurality of components individually, independently of other components. Thus, the first part can be referred to as the independent basic auxiliary information.

Вторая (факультативная) часть может содержать вспомогательную информацию, также известную как дополнительная базовая вспомогательная информация, может описывать индивидуальные (взаимодополняющие) компоненты базового сжатого представления звука в зависимости от других (взаимодополняющих) компонентов. Эта вторая часть может также упоминаться как зависимая базовая вспомогательная информация. В частности, зависимость может иметь следующие свойства.The second (optional) part may contain ancillary information, also known as additional basic ancillary information, may describe the individual (complementary) components of the basic compressed audio representation depending on other (complementary) components. This second part can also be referred to as dependent basic ancillary information. In particular, a dependency can have the following properties.

Зависимая базовая вспомогательная информация для каждого индивидуального (взаимодополняющего) компонента базового сжатого представления звука может достигать своей наибольшей степени, когда другие определенные (взаимодополняющие) компоненты не содержатся в базовом сжатом представлении звука.The dependent baseline ancillary information for each individual (complementary) component of the baseline compressed audio representation can reach its greatest extent when other specific (complementary) components are not contained in the baseline compressed sound representation.

В случае если дополнительные определенные (взаимодополняющие) компоненты добавлены к базовому сжатому представлению звука, зависимая базовая вспомогательная информация для рассматриваемого индивидуального (взаимодополняющего) компонента может стать подмножеством первоначальной зависимой базовой вспомогательной информации, тем самым сокращая ее размер.In the event that additional specific (complementary) components are added to the basic compressed sound representation, the dependent basic ancillary information for the considered individual (complementary) component may become a subset of the original dependent basic ancillary information, thereby reducing its size.

Улучшающая вспомогательная информация также является факультативной. Она может использоваться для улучшения или расширения (например, параметрического улучшения или расширения) базового сжатого представления звука. Ее размер, как может также предполагаться, намного меньше, чем у базового сжатого представления звука.Enhancement support information is also optional. It can be used to enhance or enhance (eg, parametric enhancement or enhancement) of the basic compressed audio representation. Its size can also be assumed to be much smaller than that of the basic compressed audio representation.

Таким образом, в вариантах осуществления сжатое представление звука может содержать базовое сжатое представление звука, содержащее множество компонентов, базовую вспомогательную информацию для декодирования (например, восстановления) базового сжатого представления звука до базового воссозданного представления звука или звукового поля и улучшающую вспомогательную информацию,Thus, in embodiments, the compressed audio representation may comprise a basic compressed audio representation containing a plurality of components, basic ancillary information for decoding (e.g., recovering) the basic compressed audio representation to a base reconstructed audio or sound field representation, and enhancement ancillary information,

- 8 038833 включающую в себя параметры для улучшения или расширения (например, параметрического улучшения или расширения) базового воссозданного представления звука. Сжатое представление звука может также содержать дополнительную базовую вспомогательную информацию для декодирования (например, восстановления) базового сжатого представления звука до базового воссозданного представления звука, которая может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов.- 8 038833 including parameters for enhancing or expanding (eg, parametric enhancement or enhancement) of the basic reconstructed sound representation. The compressed audio representation may also contain additional basic ancillary information for decoding (eg, reconstructing) the basic compressed audio representation to the basic reconstructed audio representation, which may include information that determines decoding of one or more of the plurality of components depending on the corresponding other components.

Один пример такого типа полного сжатого представления звука задан посредством сжатого представления Higher Order Ambisonics (HOA) звукового поля (пространственного звукового поля высшего порядка), как определено посредством предварительной версии аудиостандарта MPEG-H 3D (ссылка 1), глава 12 и приложение С.5. Таким образом, сжатое представление звука может соответствовать сжатому представлению HOA звука (или звукового поля).One example of this type of full compressed audio representation is defined by the Higher Order Ambisonics (HOA) compressed sound field (higher order spatial sound field) as defined by the MPEG-H 3D Preview Audio Standard (Ref. 1), Chapter 12 and Appendix C.5 ... Thus, the compressed representation of the sound can correspond to the compressed representation of the HOA of the sound (or sound field).

Для этого примера базовое сжатое представление звукового поля (базовое сжатое представление звука) может содержать несколько компонентов (например, может быть идентифицировано с их помощью). Компоненты могут представлять собой монауральные сигналы (например, соответствовать им). Монауральные сигналы могут представлять собой квантованные монауральные сигналы. Монауральные сигналы могут представлять либо преобладающие звуковые сигналы, либо последовательности коэффициентов окружающего компонента HOA звукового поля.For this example, the basic compressed sound field representation (basic compressed audio representation) can contain multiple components (for example, can be identified by them). The components can be monaural cues (eg, correspond to them). Monaural signals can be quantized monaural signals. Monaural signals can represent either dominant sound signals or sequences of coefficients of the ambient HOA component of the sound field.

Базовая вспомогательная информация может описывать, среди прочего, для каждого из этих монауральных сигналов, каким образом он вносит пространственный вклад в звуковое поле. Например, базовая вспомогательная информация может определять преобладающий звуковой сигнал как чисто направленный сигнал, означающий общую плоскую волну с некоторым направлением падения. В качестве альтернативы базовая вспомогательная информация может определять монауральный сигнал как последовательность коэффициентов первоначального представления HOA, имеющую некоторый индекс. Базовая вспомогательная информация также может быть разделена на первую часть и вторую часть, как указано выше. Первая часть является вспомогательной информацией (например, независимой базовой вспомогательной информацией), относящейся к конкретным индивидуальным монауральным сигналам. Эта независимая базовая вспомогательная информация независима от существования других монауральных сигналов. Такая вспомогательная информация может, например, определять монауральный сигнал для представления направленного сигнала (например, означающего общую плоскую волну) с некоторым направлением падения. В качестве альтернативы монауральный сигнал может быть определен как последовательность коэффициентов первоначального представления HOA, имеющую некоторый индекс. Первая часть может упоминаться как независимая базовая вспомогательная информация. В целом первая часть (например, базовая вспомогательная информация) может определять декодирование одного или более из множества монауральных сигналов индивидуально, независимо от других монауральных сигналов.The basic ancillary information can describe, among other things, for each of these monaural signals, how it makes a spatial contribution to the sound field. For example, the basic ancillary information may define the dominant audio signal as a pure directional signal, meaning a general plane wave with some direction of incidence. Alternatively, the basic side information may define the monaural signal as a sequence of HOA initial representation coefficients having some index. The basic ancillary information can also be divided into a first part and a second part, as mentioned above. The first part is ancillary information (eg, independent basic ancillary information) related to specific individual monaural cues. This independent basic ancillary information is independent of the existence of other monaural cues. Such ancillary information may, for example, define a monaural signal to represent a directional signal (eg, meaning a common plane wave) with some direction of incidence. Alternatively, a monaural signal can be defined as a sequence of coefficients of the original HOA representation having some index. The first part can be referred to as an independent background supporting information. In general, the first part (eg, basic ancillary information) may determine decoding one or more of the plurality of monaural signals individually, independently of other monaural signals.

Вторая часть является вспомогательной информацией (например, дополнительной базовой вспомогательной информацией), относящейся к конкретным индивидуальным монауральным сигналам. Эта вспомогательная информация зависит от существования других монауральных сигналов. Такая вспомогательная информация может быть использована, например, если монауральные сигналы определены как основанные на векторах сигналы (см., например, ссылку 1, раздел 12.4.2.4.4). Эти сигналы распределены по направлениям в звуковом поле, причем распределение по направлениям может быть определено посредством вектора. В некотором режиме (см., например, CodedVVecLength=1) отдельные компоненты этого вектора неявно установлены равными нулю и не являются частью сжатого векторного представления. Этими компонентами являются компоненты с индексами, равными индексам последовательностей коэффициентов первоначального представления HOA и части базового сжатого представления звука. Это означает, что если индивидуальные компоненты вектора закодированы, их общее количество может зависеть от базового сжатого представления звука. В частности, общее количество может зависеть от того, какие последовательности коэффициентов содержит первоначальное представление HOA.The second part is ancillary information (eg, additional basic ancillary information) related to specific individual monaural cues. This ancillary information depends on the existence of other monaural signals. Such ancillary information can be used, for example, if monaural signals are defined as vector-based signals (see, for example, ref. 1, section 12.4.2.4.4). These signals are distributed in directions in the sound field, and the distribution in directions can be determined by means of a vector. In some mode (see, for example, CodedVVecLength = 1) the individual components of this vector are implicitly set to zero and are not part of the compressed vector representation. These components are the components with indices equal to the sequence indices of the coefficients of the original HOA representation and part of the base compressed audio representation. This means that if the individual vector components are encoded, their total may depend on the underlying compressed sound representation. In particular, the total may depend on which coefficient sequences the original HOA representation contains.

Если последовательности коэффициентов первоначального представления HOA не содержатся в базовом сжатом представлении звука, зависимая базовая вспомогательная информация для каждого основанного на векторе сигнала состоит из всех векторных компонентов и имеет свой наибольший размер. В случае если последовательности коэффициентов первоначального представления HOA с некоторыми индексами добавляются к базовому сжатому представлению звука, векторные компоненты с этими индексами удаляются из вспомогательной информации для каждого основанного на векторе сигнала, тем самым сокращая размер зависимой базовой вспомогательной информации для основанных на векторах сигналов.If the initial HOA coefficient sequences are not contained in the basic compressed audio representation, the dependent basic ancillary information for each vector-based signal consists of all vector components and has its largest size. In the event that sequences of coefficients of the original HOA representation with some indices are added to the basic compressed audio representation, the vector components with these indices are removed from the ancillary information for each vector-based signal, thereby reducing the size of the dependent basic ancillary information for the vector-based signals.

Улучшающая вспомогательная информация (например, улучшающая вспомогательная информация) может содержать параметры, относящиеся к (широкополосному) пространственному предсказанию (см. ссылку 1, раздел 12.4.2.4.3), и/или параметры, относящиеся к синтезу направленных подполосных сигналов и параметрическому дублированию звукового окружения.Enhancement ancillary information (e.g., enhancement ancillary information) may contain parameters related to (wideband) spatial prediction (see ref. 1, section 12.4.2.4.3) and / or parameters related to directional subband synthesis and parametric audio duplication. surroundings.

Параметры, относящиеся к (широкополосному) пространственному предсказанию, может использоваться для (линейного) предсказания недостающих частей звукового поля из направленных сигналов.Parameters related to (wideband) spatial prediction can be used to (linearly) predict missing parts of the sound field from directional signals.

Синтез направленных подполосных сигналов и параметрическое дублирование звукового окружеSynthesis of directional subband signals and parametric duplication of the sound environment

- 9 038833 ния являются инструментами сжатия, которые были недавно введены в аудиостандарт MPEG-H 3D с помощью поправки [см. ссылку 2, раздел 1]. Эти два инструмента позволяют зависимому от частоты параметрическому предсказанию дополнительных монауральных сигналов быть пространственно распределенным, чтобы дополнять пространственно неполное или несовершенным образом сжатое представление HOA. Предсказание может быть основано на последовательностях коэффициентов базового сжатого представления звука.- 9 038833 are compression tools that have been recently introduced into the MPEG-H 3D audio standard with the amendment [ref. link 2, section 1]. These two tools allow frequency dependent parametric prediction of additional monaural signals to be spatially distributed to complement the spatially incomplete or imperfectly compressed HOA representation. The prediction can be based on sequences of coefficients of the underlying compressed audio representation.

Важно отметить, что упомянутый выше взаимодополняющий вклад в звуковое поле представлен в сжатом представлении HOA не посредством дополнительных квантованных сигналов, а посредством дополнительной вспомогательной информации сравнительно намного меньшего размера. Следовательно, два упомянутых инструмента кодирования особенно подходят для сжатия представлений HOA на низких скоростях передачи данных.It is important to note that the aforementioned complementary contribution to the sound field is represented in the compressed HOA not by additional quantized signals, but by comparatively much smaller additional ancillary information. Therefore, the two coding tools mentioned are especially suited for compressing HOA representations at low data rates.

Второй пример сжатого представления одного или более монауральных сигналов с упомянутой выше структурой может содержать закодированную спектральную информацию для несвязных частотных полос вплоть до некоторой верхней частоты, что может рассматриваться как базовое сжатое представление; базовую вспомогательную информацию, определяющую закодированную спектральную информацию (например, посредством количества и ширины закодированных частотных полос); и улучшающую вспомогательную информацию содержащую параметры копирования спектральной полосы (SBR) (например, состоящую из них), которые описывают, как параметрически воссоздать из базового сжатого представления спектральную информацию для полос более высокой частоты, которые не рассматриваются в базовом сжатом представлении.A second example of a compressed representation of one or more monaural signals with the above structure may contain encoded spectral information for disjoint frequency bands up to some upper frequency, which can be considered a basic compressed representation; basic ancillary information defining the encoded spectral information (eg, by the number and width of the encoded frequency bands); and enhancement ancillary information containing spectral band copy (SBR) parameters (eg, composed of them) that describe how to parametrically recreate spectral information from the baseline compressed representation for higher frequency bands that are not considered in the baseline compressed representation.

Настоящее раскрытие предлагает способ многоуровневого кодирования полного сжатого представления звука (или звукового поля), имеющего упомянутую выше структуру.The present disclosure provides a method for multi-level encoding of a complete compressed audio (or sound field) representation having the above structure.

Сжатие может быть основано на кадрах в том смысле, что оно обеспечивает сжатые представления (в форме пакетов данных, или эквивалентно полезной нагрузки кадров) для последовательных временных интервалов. Временные интервалы могут иметь равные или разные размеры. Эти пакеты данных, как может предполагаться, содержат флаг корректности, значение, указывающее их размер, а также фактические данные сжатого представления. Далее без намеренного ограничения будет предполагаться, что сжатие является основанным на кадрах. Кроме того, если не указано иначе, и без намеренного ограничения будет сделан фокус на обработке одного кадра, и поэтому индекс кадра будет опущен. Каждая полезная нагрузка кадра рассматриваемого полного сжатого представления звука (или звукового поля), как предполагается, содержит/пакетов данных (или полезных нагрузок кадра), каждый для одного компонента базового сжатого представления звука, которые обозначены как BSRCj, j=1, ..., J. Кроме того, предполагается, что пакет содержит независимую базовую вспомогательную информацию (базовую вспомогательную информацию), обозначенную как BSI_I, определяющую отдельные компоненты BSRCj базового сжатого представления звука, независимо от других компонентов. Факультативно может дополнительно предполагаться, что пакет содержит зависимую базовую вспомогательную информацию (дополнительную базовую вспомогательную информацию), обозначенную как BSII, определяющую отдельные компоненты BSRCj базового сжатого представления звука в зависимости от других компонентов.Compression can be frame-based in the sense that it provides compressed representations (in the form of data packets, or the equivalent of a frame payload) for consecutive time slots. Time slots can be of equal or different sizes. These data packets can be expected to contain a valid flag, a value indicating their size, and the actual compressed representation data. In the following, without intentional limitation, it will be assumed that the compression is frame-based. In addition, unless otherwise noted, and without intentional limitation, focus will be placed on processing one frame, and therefore the frame index will be omitted. Each frame payload of the considered full compressed audio representation (or sound field) is assumed to contain / of data packets (or frame payloads), each for one component of the underlying compressed audio representation, which are denoted as BSRCj, j = 1, ... , J. In addition, it is assumed that the package contains an independent basic ancillary information (basic ancillary information), denoted BSI _I , defining the individual components BSRCj of the basic compressed audio representation, independent of other components. Optionally, the package may be further assumed to contain dependent baseline ancillary information (additional baseline information), denoted BSII, defining the individual components of the baseline compressed audio representation BSRCj in dependence on other components.

Информация, содержащаяся в двух пакетах данных BSII и BSRCj, может быть факультативно сгруппирована в единственный пакет данных BSI базовой вспомогательной информации. Можно сказать, что единственный пакет данных BSI содержит, среди прочего, I частей, каждая из которых определяет один отдельный компонент BSRCj базового сжатого представления звука. Можно сказать, что каждая из этих частей, в свою очередь, содержит часть независимой вспомогательной информации и факультативно часть зависимой вспомогательной информации.The information contained in the two data packets BSII and BSRCj can optionally be grouped into a single BSI data packet of basic ancillary information. It can be said that a single BSI data packet contains, inter alia, I parts, each of which defines one separate component BSRCj of the basic compressed audio representation. It can be said that each of these parts, in turn, contains a part of the independent auxiliary information and optionally a part of the dependent auxiliary information.

В конечном счете, она может включать в себя полезную нагрузку улучшающей вспомогательной информации (улучшающей вспомогательной информации), обозначенную как ESI, с описанием того, как улучшить или расширить воссозданный звук (или звуковое поле) на основе полного базового сжатого представления звука.Ultimately, it may include an enhancement side information (enhancement side information) payload, referred to as ESI, with a description of how to enhance or enhance the reconstructed sound (or sound field) based on the complete baseline compressed audio representation.

Предлагаемое решение для многоуровневого кодирования направлено на этапы, требующиеся для обеспечения возможности как для части сжатия, включающей в себя упаковку пакетов данных для передачи, а также для части приема и восстановления. Каждая часть будет подробно описана далее.The proposed layered coding solution addresses the steps required to enable both the compression part, including the packing of data packets for transmission, as well as the receive and recover part. Each part will be described in detail below.

Сначала будут описаны сжатие и упаковка (например, для передачи). В частности, будут описаны компоненты и элементы полного сжатого представления звука (или звукового поля) в случае многоуровневого кодирования.Compression and packaging (eg, for transmission) will be described first. In particular, the components and elements of a complete compressed audio (or sound field) representation in the case of multi-level coding will be described.

Фиг. 1 схематично иллюстрирует блок-схему последовательности этапов примера способа сжатия и упаковки (например, способа кодирования или способа многоуровневого кодирования сжатого представления звука или звукового поля). Присвоение (например, распределение) индивидуальных полезных нагрузок базовому уровню и (M-1) улучшающим уровням может быть достигнуто посредством упаковщика транспортных уровней. Фиг. 2 схематично иллюстрирует блок-схему примера присвоения/распределения индивидуальных полезных нагрузок.FIG. 1 schematically illustrates a flow diagram of an example of a compression and packaging method (eg, a coding method or a layered coding method for a compressed audio or sound field representation). The assignment (eg, allocation) of individual payloads to the base layer and (M-1) enhancement layers can be achieved through a transport layer wrapper. FIG. 2 schematically illustrates a block diagram of an example of assignment / allocation of individual payloads.

Как указано выше, полное сжатое представление 2100 звука может относиться, например, к сжатому представлению HOA, содержащему базовое сжатое представление звука. Полное сжатое представлеAs noted above, the complete compressed audio representation 2100 may refer, for example, to a compressed HOA representation containing a basic compressed audio representation. Full compressed representation

- 10 038833 ние 2100 звука может содержать множество компонентов (например, монауральные сигналы) 2110-1, ..., 2110-J, независимую базовую вспомогательную информацию (базовую вспомогательную информацию) 2120, факультативную улучшающую вспомогательную информацию (улучшающую вспомогательную информацию) 2140 и факультативную зависимую базовую вспомогательную информацию (дополнительную базовую вспомогательную информацию) 2130. Базовая вспомогательная информация 2120 может являться информацией для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Базовая вспомогательная информация 2120 может включать в себя информацию, которая определяет декодирование одного или более компонентов (например, монауральных сигналов) индивидуально, независимо от других компонентов. Улучшающая вспомогательная информация 2140 может включать в себя параметры для улучшения (например, расширения) базового воссозданного представления звука. Дополнительная базовая вспомогательная информация 2130 может являться (дополнительной) информацией для декодирования базового сжатого представления звука в базовое воссозданное представление звука и может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов.- 10 038833 audio 2100 may contain multiple components (e.g. monaural signals) 2110-1, ..., 2110-J, independent basic ancillary information (basic ancillary information) 2120, optional enhancement ancillary information (enhancement ancillary information) 2140, and an optional dependent baseline side information (additional baseline side information) 2130. The baseline side information 2120 may be information for decoding the baseline compressed audio representation into a basic reconstructed sound or sound field representation. Basic side information 2120 can include information that determines decoding of one or more components (eg, monaural signals) individually, independently of other components. Enhancement side information 2140 may include parameters for enhancing (eg, expanding) the underlying reconstructed audio presentation. The additional basic ancillary information 2130 may be (additional) information for decoding the basic compressed audio representation into the basic reconstructed audio representation, and may include information that determines decoding of one or more of the plurality of components depending on the corresponding other components.

Фиг. 2 иллюстрирует основополагающее допущение, в котором существует множество иерархических уровней, включающих в себя один базовый уровень (основной уровень) и один или более (иерархических) улучшающих уровней. Например, может иметься всего M уровней, т.е. один базовый уровень и M-1 улучшающих уровней. Множество иерархических уровней имеет последовательно увеличивающийся индекс уровня. Самое низкое значение индекса уровня (например, индекс 1 уровня) соответствует базовому уровню. Далее подразумевается, что уровни упорядочены от базового уровня, через улучшающие уровни, вплоть до полного наиболее высокого улучшающего уровня (т.е. полного наиболее высокого уровня).FIG. 2 illustrates the underlying assumption that there are multiple hierarchical levels, including one base level (base level) and one or more (hierarchical) enhancement levels. For example, there may be a total of M levels, i.e. one basic level and M-1 enhancement levels. Many hierarchical levels have a sequentially increasing level index. The lowest level index value (for example, a level 1 index) corresponds to the base level. It is further implied that the levels are ordered from the base level, through the enhancement levels, up to the complete highest enhancement level (i.e., the complete highest level).

Предложенный способ может быть выполнен на основе кадра (т.е. покадрово). В частности, сжатое представление 2100 звука может быть сжато для последовательных временных интервалов, например временных интервалов равного размера. Каждый временной интервал может соответствовать кадру. Описанные ниже этапы могут быть выполнены для каждого последовательного временного интервала (например, кадра).The proposed method can be performed on a frame basis (ie, frame by frame). In particular, the compressed audio representation 2100 can be compressed for consecutive time slots, eg, time slots of equal size. Each time slot can correspond to a frame. The steps described below may be performed for each consecutive time slot (eg, frame).

На этапе S1010 на фиг. 1 множество компонентов 2110 подразделяется на множество групп компонентов. Каждая из множества групп затем присваивается (например, добавляется или распределяется) соответствующему одному из множества иерархических уровней. При этом количество групп соответствует количеству уровней. Например, количество групп может быть равно количеству уровней, чтобы имелась одна группа компонентов для каждого уровня. Как указано выше, множество уровней может включать в себя базовый уровень и один или более (например, M-1) иерархических улучшающих уровней.In step S1010 in FIG. 1, a plurality of components 2110 is subdivided into a plurality of component groups. Each of the plurality of groups is then assigned (eg, added or allocated) to a corresponding one of the plurality of hierarchical levels. Moreover, the number of groups corresponds to the number of levels. For example, the number of groups can be equal to the number of levels so that there is one group of components for each level. As indicated above, the plurality of levels may include a base level and one or more (eg, M-1) hierarchical enhancement levels.

Другими словами, базовое сжатое представление звука подразделено на части, которые будут присвоены отдельным уровням. Без потери общности группировка может быть описана посредством M+1 чисел Jm, m=0, ..., М, где J₀=1 и J_M=J+1, в результате чего компоненты BSRCj присваиваются m-му уровню для Jm-1<j<Jm.In other words, the basic compressed sound representation is subdivided into parts that will be assigned to separate levels. Without loss of generality, the grouping can be described by M + 1 numbers Jm, m = 0, ..., M, where J ₀ = 1 and J _M = J + 1, as a result of which the BSRCj components are assigned to the mth level for Jm- 1 <j <Jm.

На этапе S1020 группы компонентов присваиваются своим соответствующим уровням. На этапе S1030 базовая вспомогательная информация 2120 добавляется (например, распределяется) к базовому уровню (т.е. к наиболее низкому из множества иерархических уровней).In step S1020, the component groups are assigned to their respective levels. In step S1030, the basic side information 2120 is added (eg, allocated) to the basic level (ie, the lowest of the plurality of hierarchical levels).

Таким образом, вследствие ее небольшого размера предложено включать полную базовую вспомогательную информацию (базовую вспомогательную информацию и факультативную дополнительную базовую вспомогательную информацию) в базовый уровень, чтобы избежать ее ненужной фрагментации.Thus, due to its small size, it has been proposed to include the complete basic ancillary information (basic ancillary information and optional additional basic ancillary information) in the base layer in order to avoid unnecessary fragmentation thereof.

Если рассматриваемое сжатое представление звука содержит зависимую базовую вспомогательную информацию (дополнительную базовую вспомогательную информацию), способ дополнительно может содержать (не показано на фиг. 1) декомпозицию дополнительной базовой вспомогательной информации на множество частей 2130-1, ..., 2130-M дополнительной базовой вспомогательной информации. Части дополнительной базовой вспомогательной информации затем могут быть добавлены (например, распределены) к базовому уровню. Другими словами, части дополнительной базовой вспомогательной информации могут быть включены в базовый уровень. Каждая часть дополнительной базовой вспомогательной информации может быть связана с соответствующим уровнем и может включать в себя информацию, которая определяет декодирование одного или более компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня.If the contemplated compressed audio representation contains dependent basic side information (additional basic side information), the method may further comprise (not shown in FIG. 1) decomposing the additional basic side information into a plurality of portions 2130-1, ..., 2130-M additional basic information supporting information. Pieces of additional basic ancillary information can then be added (eg, distributed) to the basic layer. In other words, pieces of additional basic ancillary information may be included in the basic layer. Each piece of additional basic ancillary information may be associated with a corresponding layer and may include information that determines the decoding of one or more components assigned to the corresponding layer, depending on other components assigned to the corresponding layer and any layers below the corresponding layer.

Таким образом, в то время как независимая базовая вспомогательная информация BSI[ (базовая вспомогательная информация) 2120 оставляется без изменений для присвоения, зависимая базовая вспомогательная информация должна быть обработана специально для многоуровневого кодирования, чтобы позволить правильное декодирование на стороне приемника, с одной стороны, и сократить размер зависимой базовой вспомогательной информации для передачи, с другой стороны. Предложено выполнить декомпозицию зависимой базовой вспомогательной информации на M частей, обозначенных как BSI_D,_m, m=1, ..., М, где m-я часть содержит зависимую базовую вспомогательную информацию для каждого изThus, while the independent basic ancillary information BSI [(basic ancillary information) 2120 is left unchanged for assignment, the dependent basic ancillary information must be processed specifically for layered coding to allow correct decoding at the receiver side on the one hand, and reduce the size of the dependent basic ancillary information for transmission, on the other hand. It is proposed to perform the decomposition of the dependent basic auxiliary information into M parts, designated as BSI _D , _m , m = 1, ..., M, where the mth part contains the dependent basic auxiliary information for each of

- 11 038833 компонентов BSRCj, J_m-1<j<Jm базового сжатого представления звука, присвоенного m-му уровню, в предположении, что факультативная зависимая базовая вспомогательная информация существует для рассматриваемого сжатого представления звука. В случае если соответствующая зависимая вспомогательная информация не существует, для сжатого представления звука частей BSID,_m может предполагаться пустой.- 11,038833 components BSRCj, J _m-1 <j <Jm of the basic compressed audio representation assigned to the m-th layer, assuming that optional dependent basic ancillary information exists for the compressed audio representation in question. In case the corresponding dependent ancillary information does not exist, for the compressed sound representation of the BSID parts, _m may be assumed to be empty.

Каждая часть зависимой базовой вспомогательной информации BSID,_m может зависеть от всех компонентов BSRCj, 1 <j<J_m, содержащихся на всех уровнях вплоть до m-го (т.е. содержащихся на всех уровнях j=1, ... m).Each piece of dependent basic ancillary information BSID, _m may depend on all components BSRCj, 1 <j <J _m , contained at all levels up to the mth (i.e., contained at all levels j = 1, ... m) ...

Если пакет BSII независимой базовой вспомогательной информации имеет пренебрежительно небольшой размер, разумно удерживать его как целое и добавлять (присваивать) его к базовому уровню. Факультативно подобная декомпозиция, как для зависимой базовой вспомогательной информации, также может быть выполнена для независимой базовой вспомогательной информации, обеспечивая пакеты BSII,_m, m=1, ..., M. Это полезно для сокращения размера базового уровня посредством добавления (присвоения) частей независимой базовой вспомогательной информации к уровням с соответствующими компонентами базового сжатого представления звука.If the BSII packet of independent baseline ancillary information is negligible, it is prudent to hold it as a whole and add (assign) it to the baseline. Optionally, a similar decomposition as for dependent basic ancillary information can also be performed for independent basic ancillary information, providing BSII packets, _m , m = 1, ..., M. This is useful for reducing the size of the base layer by adding (assigning) parts independent basic ancillary information to the levels with the corresponding components of the basic compressed audio representation.

На этапе S1040 может быть определено множество частей 2140-1, ..., 2140-M улучшающей вспомогательной информации. Каждая часть улучшающей вспомогательной информации может включать в себя параметры для улучшения (например, расширения) воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня.In step S1040, a plurality of enhancement auxiliary information portions 2140-1, ..., 2140-M may be determined. Each piece of enhancing ancillary information may include parameters for enhancing (eg, enhancing) the reconstructed audio presentation available from data included in the corresponding layer and any levels below the corresponding layer.

Причина выполнения этого этапа состоит в том, что в случае многоуровневого кодирования важно реализовать, чтобы улучшающая вспомогательная информация должна была вычисляться для каждого дополнительного уровня, поскольку предполагается улучшить предварительный восстановленный звук (или звуковое поле), что, однако, зависит от доступных уровней для восстановления. В частности, предварительный восстановленный звук (или звуковое поле) для данного наиболее высокого декодируемого уровня (наиболее высокого применимого уровня) зависит от компонентов, включенных в наиболее высокий декодируемый уровень и любые уровни ниже наиболее высокого декодируемого уровня.The reason for performing this step is that in the case of multilevel coding, it is important to realize that the enhancement ancillary information should be calculated for each additional layer, since it is supposed to improve the preliminary reconstructed sound (or sound field), which, however, depends on the levels available for reconstruction ... In particular, the pre-reconstructed sound (or sound field) for a given highest decoded level (highest applicable level) depends on the components included in the highest decoded level and any levels below the highest decoded level.

Следовательно, сжатие должно обеспечить M индивидуальных пакетов данных улучшающей вспомогательной информации (частей улучшающей вспомогательной информации), обозначенных как ESI_m, m=1, ..., M, где улучшающая вспомогательная информация в m-м пакете данных ESIm вычисляется, чтобы улучшить представление звука (или звукового поля), полученное из всех данных, содержащихся на базовом уровне и улучшающих уровнях с индексами ниже m (например, всех данных, содержащихся на m-м уровне и любых уровнях ниже m-го уровня).Therefore, the compression should provide M individual enhancement ancillary data packets (portions of enhancement ancillary information) denoted by ESI _m , m = 1, ..., M, where the enhancement ancillary information in the mth data packet ESIm is computed to improve performance sound (or sound field), obtained from all data contained in the base layer and enhancement levels with indices below m (for example, all data contained at the m-th level and any levels below the m-th level).

На этапе S1050 множество частей 2140-1, ..., 2140-M улучшающей вспомогательной информации присваивается (например, добавлено или распределяется) множеству уровней. Каждая из множества частей улучшающей вспомогательной информации присваивается соответствующему одному из множества уровней. Например, каждый из множества уровней включает в себя соответствующую часть улучшающей вспомогательной информации.In step S1050, a plurality of enhancement auxiliary information portions 2140-1, ..., 2140-M are assigned (eg, added or allocated) to a plurality of levels. Each of the plurality of pieces of enhancing auxiliary information is assigned to a corresponding one of the plurality of levels. For example, each of the plurality of layers includes a corresponding piece of enhancement auxiliary information.

Присвоение базовой и/или улучшающей вспомогательной информации соответствующим уровням может быть указано в информации конфигурации, которая формируется посредством способа кодирования. Другими словами, соответствие между базовой и/или улучшающей вспомогательной информацией и соответствующими уровнями может быть указано в информации конфигурации. Кроме того, информация конфигурации может указывать для каждого уровня компоненты базового сжатого представления звука, которые присвоены (например, включены) этому уровню. Части дополнительной базовой вспомогательной информации, включенные в базовый уровень, все же могут соответствовать уровням, отличающимся от базового уровня.The assignment of the base and / or enhancement side information to the respective layers may be indicated in the configuration information that is generated by the encoding method. In other words, the correspondence between the basic and / or enhancing auxiliary information and the respective levels can be indicated in the configuration information. In addition, the configuration information may indicate, for each layer, the components of the underlying compressed audio representation that are assigned (eg, enabled) to that layer. Portions of additional basic ancillary information included in the basic layer may still correspond to levels other than the basic layer.

Подводя итог, на стадии сжатия обеспечивается пакет данных кадра, обозначенный как FRAME, который имеет следующий состав:To summarize, the compression stage provides a frame data packet designated as FRAME, which has the following composition:

FRAME = [BSRQ ... BSRC_; BSIj BSI_D1 ... BSI_DM ESI_t ... ESI_M] ₍₁₎ FRAME = [BSRQ ... BSRC _; BSIj BSI _D1 ... BSI _DM ESI _t ... ESI _M ] ₍₁₎

Кроме того, пакеты BSII и BSI_D,_m для m=1, ..., M могут быть объединены в единственный пакет BSI, в этом случае пакет данных кадра, обозначенный как FRAME, будет иметь следующий состав:In addition, BSII and BSI packets _D , _m for m = 1, ..., M can be combined into a single BSI packet, in which case the frame data packet, designated as FRAME, will have the following composition:

FRAME = [BSRCi BSRC₂ ... BSRC_; BSI ESIj ESI₂ ... ESI_M] \ ^ )FRAME = [BSRCi BSRC ₂ ... BSRC _; BSI ESIj ESI ₂ ... ESI _M ] \ ^)

Порядок следования индивидуальных полезных нагрузок с пакетом данных кадра в общем случае может быть произвольным.The order of individual payloads with a frame data packet can generally be arbitrary.

Индивидуальные пакеты данных затем могут быть сгруппированы в полезных нагрузках, которые определены как специальные пакеты данных, которые содержат флаг корректности, значение, указывающее их размер, а также фактические сжатые данные представления. Использование полезных нагрузок позволяет простое демультиплексирование на стороне приемника, предлагая преимущество возможности отбрасывать неактуальные полезные нагрузки без необходимости их анализа. Одна возможная группировка задана как присвоение (например, распределение) каждого BSRCj пакета j=1, ..., J индивидуальной полезной нагрузке, обозначенной как ^врг Присвоение (например, распределение) m-го пакетаThe individual data packets can then be grouped into payloads, which are defined as special data packets that contain a valid flag, a value indicating their size, and the actual compressed presentation data. The use of payloads allows simple demultiplexing at the receiver side, offering the advantage of being able to discard irrelevant payloads without having to analyze them. One possible grouping is defined as the assignment (e.g. allocation) of each BSRCj packet j = 1, ..., J to an individual payload, denoted ^vr g Assignment (e.g., allocation) of the mth packet

- 12 038833 данных улучшающей вспомогательной информации ESIm и m-го пакета данных BSID,_m зависимой вспоЕР могательной информации одной улучшающей полезной нагрузке, обозначенной как ^m, m=1, ..., M. Присвоение пакета независимой базовой вспомогательной информации BSI_I отдельной полезной нагрузке вспомогательной информации, обозначенной как ^BS!P-.- 12 038833 ESIm enhancement ancillary information data and m-th BSID data packet, _m dependent ancillary information to one enhancement payload denoted as ^m , m = 1, ..., M. Assigning independent BSI base ancillary information packet _{I to a} separate payload load of auxiliary information, designated as ^{BS! P} -.

Факультативно, если размер независимой базовой вспомогательной информации большой, каждый m-й из ее компонентов, BSII,_m, m=1, ..., M, может быть присвоен (например, распределен) улучшающей полезной нагрузке ·Optionally, if the size of the independent basic ancillary information is large, each mth of its components, BSII, _m , m = 1, ..., M, can be assigned (e.g., allocated) to the enhancement payload

В этом случае полезная нагрузка ^BSlp вспомогательной информации является пустой и может быть проигнорирована.In this case, the ^{ancillary information payload BSlp} is empty and can be ignored.

Другая факультативная возможность состоит в том, чтобы присвоить все зависимые пакеты данных BSI_D,_m базовой вспомогательной информации полезной нагрузке вспомогательной информации, что является разумным, если размер зависимой базовой вспомогательной информации является небольшим.Another option is to assign all dependent BSI data packets _D , _{m of the} basic ancillary information to the ancillary information payload, which is reasonable if the size of the dependent basic ancillary information is small.

В конечном счете может быть обеспечен пакет данных кадра, обозначенный как FRAME, имеющий следующий составUltimately, a frame data packet designated as FRAME can be provided having the following composition

FRAME = [В?! ...BP_]BSIPEP₁ ...ЕР_М]FRAME = [In ?! ... BP _] BSIPEP ₁ ... EP _M ]

Способ может дополнительно содержать (не показано на фиг. 1) формирование для каждого из множества уровней пакета транспортного уровня (например, пакета 2200 базового уровня и M-1 пакетов 2300-1,...,2300-(M-1)) улучшающего уровня, включающих в себя данные соответствующего уровня (например, компоненты, базовую вспомогательную информацию и улучшающую вспомогательную информацию для базового уровня, или компоненты и улучшающую вспомогательную информацию для одного или более улучшающих уровней).The method may further comprise (not shown in FIG. 1) generating, for each of the plurality of layers, a transport layer packet (e.g., base layer packet 2200 and M-1 packets 2300-1, ..., 2300- (M-1)) enhancing layer, including data of the corresponding layer (eg, components, base side information and enhancement ancillary information for the base layer, or components and enhancement side information for one or more enhancement layers).

Пакеты транспортного уровня для разных уровней могут иметь разные приоритеты передачи. Таким образом, способ может дополнительно содержать (не показано на фиг. 1) формирование транспортного потока для передачи данных множества уровней, причем базовый уровень имеет наиболее высокий приоритет передачи, и иерархические улучшающие уровни имеют убывающие приоритеты передачи. При этом более высокий приоритет передачи может соответствовать большей степени защиты от ошибок, и наоборот.Transport layer packets for different layers can have different transmission priorities. Thus, the method may further comprise (not shown in FIG. 1) generating a transport stream for data transmission of multiple layers, with the base layer having the highest transmission priority and the hierarchical enhancement layers having descending transmission priorities. In this case, a higher transmission priority may correspond to a higher degree of error protection, and vice versa.

Если этапы не требуют некоторых других этапов в качестве предварительных условий, упомянутые выше этапы могут выполняться в любом порядке, и предполагается, что иллюстративный порядок, показанный на фиг. 1, не имеет ограничительного характера.If the steps do not require some other steps as a prerequisite, the above steps can be performed in any order, and it is assumed that the illustrative order shown in FIG. 1 is not restrictive.

Фиг. 3 иллюстрирует способ декодирования сжатого представления звука или звукового поля для декодирования или восстановления. Примеры соответствующей стадии приема и восстановления схематично проиллюстрированы на блок-схемах на фиг. 4 А и 4В.FIG. 3 illustrates a method for decoding a compressed representation of an audio or sound field for decoding or reconstruction. Examples of the corresponding receiving and recovering step are schematically illustrated in the flowcharts in FIGS. 4 A and 4B.

Как следует из предыдущего описания, сжатое представление звука может быть закодировано в множестве иерархических уровней. Множество уровней может иметь присвоенные им (например, может включать в себя) компоненты базового сжатого представления звука, компоненты присваиваются соответствующим уровням в соответствующих группах компонентов. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Каждый уровень может включать в себя одну из упомянутых выше частей улучшающей вспомогательной информации, включающей в себя параметры для улучшения базового воссозданного представления звука, доступных из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня.As follows from the previous description, the compressed audio representation can be encoded at many hierarchical levels. Multiple levels may have (eg, may include) basic compressed audio components assigned to them, the components being assigned to corresponding levels in the corresponding component groups. The base layer may include base side information for decoding the base compressed audio representation. Each layer may include one of the aforementioned portions of enhancing ancillary information including parameters for enhancing the basic reconstructed audio presentation available from data included in the corresponding layer and any levels below the corresponding layer.

Предложенный способ может быть выполнен на основе кадров (т.е. покадрово). В частности, восстановленное представление звука или звукового поля может быть сформировано для последовательных временных интервалов, например временных интервалов равного размера. Временные интервалы могут являться, например, кадрами. Описанные ниже этапы могут быть выполнены для каждых последовательных временных интервалов (например, кадров).The proposed method can be performed on a frame basis (i.e., frame by frame). In particular, the reconstructed sound or sound field representation can be generated for consecutive time slots, eg time slots of equal size. Time slots can be frames, for example. The steps described below may be performed for each successive time slots (eg, frames).

На этапе S3010 принимаются полезные нагрузки данных (например, пакеты транспортного уровня), соответствующие множеству уровней. Полезные нагрузки данных могут быть приняты как часть битового потока, который содержит сжатое представление HOA звука или звукового поля, представление соответствует множеству иерархических уровней. Иерархические уровни включают в себя базовый уровень и один или более иерархических улучшающих уровней. Множество уровней имеет присвоенные им компоненты базового сжатого представления звука или звукового поля. Компоненты присвоены соответствующим уровням в соответствующих группах компонентов.In step S3010, data payloads (eg, transport layer packets) corresponding to a plurality of layers are received. The data payloads can be received as part of a bitstream that contains a compressed HOA representation of a sound or sound field, the representation corresponding to multiple hierarchical levels. Hierarchical levels include a base level and one or more hierarchical enhancement levels. A plurality of levels have the components of the basic compressed sound representation or sound field assigned to them. The components are assigned to the respective levels in the respective component groups.

Пакеты индивидуальных уровней могут быть мультиплексированы для обеспечения принятого пакета кадра полного сжатого представления звука. Принятый пакет кадра может быть обозначен какThe individual layer packets can be multiplexed to provide a full compressed audio representation of a received frame packet. The received frame packet can be denoted as

FBSIj BSI_Dд ... BSI_{D м} Е51д BSRC^ ... BSRC^ ... ESI_M FBSIj BSI _D d ... BSI _{D m} E51d BSRC ^ ... BSRC ^ ... ESI _M

- 13 038833- 13 038833

В альтернативном случае пакеты BSI_I и BSID,m для m=1, ..., M объединены в единственный пакетAlternatively, BSI packets _I and BSID, m for m = 1, ..., M are combined into a single packet

BSI, пакеты индивидуальных уровней могут быть мультиплексированы для обеспечения принятого пакета кадра полного сжатого представления звука, обозначенного какBSI, packets of individual layers may be multiplexed to provide a received full compressed audio frame packet, denoted as

[BSI ES^ BSRq ... BSRC^.j ... ESI_M BSRC^ ... BSRC_;][BSI ES ^ BSRq ... BSRC ^ .j ... ESI _M BSRC ^ ... BSRC _; ]

В терминах полезных нагрузок принятый пакет кадра может быть задан какIn terms of payloads, the received frame packet can be specified as

FRAME = [ВР₁ ... BP_]BSIPEP₁ ...ЁР_М] ₍₆₎ FRAME = [BP ₁ ... BP _] BSIPEP ₁ ... EP _M ] ₍₆₎

Принятый пакет кадра затем может быть передан на декомпрессор или декодер 4100. Если передача индивидуального уровня была безошибочной, флаг корректности по меньшей мере части содержащейся ΈΡ полезной нагрузки ^т улучшающей вспомогательной информации (например, соответствующей части улучшающей вспомогательной информации) установлен равным истинному. В случае ошибки вследствие передачи индивидуального уровня флаг корректности, по меньшей мере, в полезной нагрузке улучшающей вспомогательной информации на этом уровне установлен равным ложному. Следовательно, корректность пакета уровня может быть определена на основе корректности содержащейся полезной нагрузки улучшающей вспомогательной информации (например, на основе ее флага корректности).The received frame packet may then be forwarded to a decompressor or decoder 4100. If the individual layer transmission was error-free, the valid flag of at least a portion of the contained ΈΡ payload ^{m of} enhancement ancillary information (eg, a corresponding portion of the enhancement ancillary information) is set to true. In the event of an error due to the transmission of an individual layer, the correct flag is set to false at least in the enhancement ancillary information payload at this layer. Therefore, the correctness of the layer packet can be determined based on the correctness of the contained enhancement ancillary information payload (eg, based on its correctness flag).

В декомпрессоре 4100 принятый пакет кадра может быть демультиплексирован. С этой целью может использоваться информация размера каждой полезной нагрузки, чтобы избежать ненужного анализа данных индивидуальных полезных нагрузок.In decompressor 4100, the received frame packet may be demultiplexed. For this purpose, the size information of each payload can be used to avoid unnecessary analysis of the individual payload data.

На этапе S3020 первый индекс уровня, указывающий наиболее высокий уровень (например, наиболее высокий применимый уровень или наиболее высокий декодируемый уровень), определяется из множества уровней для использования для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля.In step S3020, a first layer index indicating the highest level (eg, the highest applicable level or the highest decoded level) is determined from a plurality of layers to be used for decoding the basic compressed audio representation into a basic reconstructed audio or sound field representation.

Кроме того, на этапе S3020 может быть выбрано значение (например, индекс уровня) N_B наиболее высокого уровня (наиболее высокого применимого уровня), который будет использоваться для восстановления базового представления звука. Наиболее высокий улучшающий уровень, который будет фактически использоваться для восстановления базового представления звука, задан как N_B-1 Поскольку каждый уровень содержит точно одну полезную нагрузку улучшающей вспомогательной информации (часть улучшающей вспомогательной информации), можно определить на основе полезной нагрузки улучшающей вспомогательной информации, является ли корректным содержащий уровень (например, был корректно принят). Следовательно, выбор может быть достигнут с использованием всех полезных нагру-In addition, in step S3020, a value (eg, level index) of the N _B highest level (highest applicable level) may be selected to be used to reconstruct the basic sound representation. The highest enhancement level that will actually be used to reconstruct the base audio representation is set as N _B -1 Since each layer contains exactly one enhancement ancillary payload (a portion of the enhancement ancillary information), it can be determined based on the enhancement ancillary payload, is whether the containing layer is correct (for example, it was received correctly). Therefore, the choice can be achieved using all useful loads.

- - ж ист _ 1 М/ ^ЕР™, т=1,...,М_} зок улучшающей вспомогательной информации ESIm, ш=1,...,М (или, соответственно, ' ¹ ·- - w ist _ 1 M / ^EP ™, m = 1, ..., M _} sok of improving auxiliary information ESIm, w = 1, ..., M (or, respectively, ' ¹

На этапе S3030 получается базовое воссозданное представление звука. Базовое воссозданное представление звука может быть получено из компонентов, присвоенных наиболее высокому применимому уровню, указанному первым индексом уровня, и любым уровням ниже этого наиболее высокого применимого уровня с использованием базовой вспомогательной информации (или в целом с использованием базовой вспомогательной информации).In step S3030, a basic reconstructed sound representation is obtained. The basic reconstructed sound representation can be obtained from the components assigned to the highest applicable level indicated by the first level index and any levels below this highest applicable level using basic ancillary information (or more generally using basic ancillary information).

Полезные нагрузки компонентов BSRC1, ..., BSRCJ базового сжатого представления звука могут быть обеспечены наряду с (всеми) полезными нагрузками базовой вспомогательной информации (например, BSI или BSII и BSI_D,_m, m=1, ..., M) и значением N_B процессору 4200 восстановления базового представления. Процессор 4200 восстановления базового представления (проиллюстрированный на фиг. 4А и 4В) воссоздает базовое представление звука (или звукового поля) с использованием только тех компонентов базового сжатого представления звука, которые содержатся на наиболее низких N_B уровнях, которые представляют собой базовый уровень и NB-1 улучшающих уровней (т.е. уровни вплоть до уровня, указанного первым индексом уровня). В качестве альтернативы процессору 4200 восстановления базового представления могут быть обеспечены только полезные нагрузки компонентов базового сжатого представления звука, содержащиеся на наиболее низких N_B уровнях вместе с соответствующими полезными нагрузками базовой вспомогательной информации.The payloads of the BSRC1, ..., BSRCJ components of the basic compressed audio representation may be provided along with (all) the basic ancillary information payloads (e.g. BSI or BSII and BSI _D , _m , m = 1, ..., M) and value N _{B to} the base representation recovery processor 4200. A baseline reconstruction processor 4200 (illustrated in FIGS. 4A and 4B) recreates the baseline sound (or sound field) representation using only those baseline compressed audio representations contained in the lowest N _B levels that represent the baseline and NB- 1 enhancing levels (i.e. levels up to the level indicated by the first level index). As an alternative to the base representation processor 4200, only the baseline compressed audio component payloads contained in the lowest N _B levels may be provided along with corresponding base side ancillary information payloads.

Требуемая информация о том, какие компоненты базового сжатого представления звука (или звукового поля) содержатся на индивидуальных уровнях, предполагается известной декомпрессору 4100 из пакета данных с информацией конфигурации, которая предполагается отправленной и принятой перед пакетами данных кадра.The required information about which components of the underlying compressed audio representation (or sound field) are contained in the individual layers is assumed to be known to the decompressor 4100 from the data packet with configuration information that is assumed to be sent and received before the frame data packets.

Чтобы обеспечить пакеты данных BSI_D,_m, m=1, ..., N_B зависимой вспомогательной информации и пакет данных ESI_ne улучшающей вспомогательной информации, все улучшающие полезные нагрузки могут быть введены частичный анализатор 4400 (см. фиг. 4В) декомпрессора 4100 вместе со значением NE и значением N_B. Анализатор может отбросить все полезные нагрузки и пакеты данных, которые не будут использоваться для фактической восстановления. Если значение NE равно нулю, то может предполагаться, что все пакеты данных улучшающей вспомогательной информации являются пустыми.To provide BSI data packets _D , _m , m = 1, ..., N _B dependent ancillary information and ESI _ne data packet of enhancement ancillary information, all enhancement payloads can be introduced by a partial analyzer 4400 (see FIG.4B) of decompressor 4100 together with the NE value and the N _B value. The analyzer can discard all payloads and data packets that will not be used for the actual recovery. If the NE value is zero, then all the enhancement ancillary information data packets can be assumed to be empty.

Если базовый уровень включает в себя по меньшей мере одну зависимую полезную нагрузку базовой вспомогательной информации (часть дополнительной базовой вспомогательной информации), соответствующей соответствующему уровню, декодирование каждой индивидуальной полезной нагрузкиIf the base layer includes at least one dependent payload of base side information (part of the side base side information) corresponding to the corresponding layer, decoding of each individual payload

- 14 038833 зависимой базовой вспомогательной информации (например, BSID,m, m=1, ..., NB (часть дополнительной базовой вспомогательной информации)) может включать в себя (i) декодирование части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня (предварительное декодирование), и (ii) коррекцию части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому уровню и любым уровням между наиболее высоким применимым уровнем и соответствующим уровнем (коррекция). При этом дополнительная базовая вспомогательная информация, соответствующая соответствующему уровню, включает в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня.- 14,038833 dependent basic side information (eg BSID, m, m = 1, ..., NB (part of additional basic side information)) may include (i) decoding a part of additional basic side information by referencing the components assigned its corresponding level and any levels below the corresponding level (pre-decoding), and (ii) correcting part of the additional basic ancillary information by reference to the components assigned to the highest applicable level and any levels between the highest applicable level and the corresponding level (correction). In this case, the additional basic auxiliary information corresponding to the corresponding layer includes information that determines the decoding of one or more components among the components assigned to the corresponding layer depending on other components assigned to the corresponding layer and any levels below the corresponding layer.

Затем базовое воссозданное представление звука может быть получено (например, сформировано) из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации и скорректированных частей дополнительной базовой вспомогательной информации, полученных из частей дополнительной базовой вспомогательной информации, соответствующей уровням вплоть до наиболее высокого применимого уровня.The basic reconstructed audio representation can then be obtained (e.g., generated) from the components assigned to the highest applicable level and any levels below the highest applicable level using the basic ancillary information and corrected pieces of additional basic ancillary information derived from the pieces of additional basic ancillary information. corresponding to the levels up to the highest applicable level.

В частности, предварительное декодирование каждой полезной нагрузки BSIDm, m=1,...,N_B, может BSRCx^.^BSRCy )-1 включать в себя использование ее зависимость от первых J_m-1 компонентов ^т базового сжатого представления звука, содержащихся на первых m уровнях, что предполагалось на стадии кодирования.In particular, pre-decoding each BSIDm payload, m = 1, ..., N _B , may BSRCx ^. ^ BSRCy) -1 involve using its dependence on the first J _m -1 components ^{t of the} underlying compressed audio representation contained at the first m levels, which was assumed at the coding stage.

Последовательная коррекция каждой полезной нагрузки BSID,_m, m=1,...,N_B, может включать в себя принятие во внимание, что базовый компонент звука наконец воссоздан из первых JNB-1 компонентов BSRC_1? ..^BSRCy )-1 ^в базового сжатого представления звука, содержащихся на первых NB>m уровнях, что является большим количеством компонентов, чем предполагалось для предварительного декодирования. Следовательно, коррекция может быть достигнута посредством отбрасывания неадекватной информации, что возможно вследствие первоначально принятого свойства зависимой базовой вспомогательной информации, состоящего в том, что, если некоторые взаимодополняющие компоненты добавляются к базовому сжатому представлению звука, зависимая базовая вспомогательная информация для каждого индивидуального (взаимодополняющего) компонента становится подмножеством первоначальной.Sequential equalization of each BSID payload, _m , m = 1, ..., N _B , may involve taking into account that the basic audio component is finally recreated from the first JNB-1 BSRC components _1? .. ^ BSRCy) -1 ^{in the} basic compressed audio representation contained in the first NB> m layers, which is more components than anticipated for pre-decoding. Therefore, the correction can be achieved by discarding inadequate information, which is possible due to the originally adopted property of dependent baseline information, which is that if some complementary components are added to the baseline compressed sound representation, the dependent baseline information for each individual (complementary) component is becomes a subset of the original.

На этапе S3040 может быть определен второй индекс уровня. Второй индекс уровня может указывать часть (части) улучшающей вспомогательной информации, которая должна использоваться для улучшения (например, расширения) базового воссозданного представления звука.In step S3040, the second level index may be determined. The second layer index may indicate a piece (s) of enhancement ancillary information that is to be used to enhance (eg, enhance) the base reconstructed audio presentation.

В дополнение к первому индексу уровня может быть определен индекс NE (второй индекс уровня) полезной нагрузки улучшающей вспомогательной информации (части второй улучшающей информации) для использования для восстановления. Второй индекс NE уровня может всегда либо быть равен первому индексу NB уровня, либо быть равен нулю. Улучшение может быть достигнуто либо всегда в соответствии с базовым представлением звука, полученным из наиболее высокого применимого уровня, либо никогда.In addition to the first level index, an NE (second level index) of the payload of the enhancement auxiliary information (part of the second enhancement information) may be determined to be used for reconstruction. The second NE level index can always either be equal to the first NB level index or be zero. Improvement can be achieved either always in accordance with the basic sound representation obtained from the highest applicable level, or never.

На этапе S3050 воссозданное представление звука или звукового поля получается (например, формируется) из базового воссозданного представления звука со ссылкой на второй индекс уровня.In step S3050, the reconstructed sound or sound field representation is obtained (eg, generated) from the base reconstructed sound representation with reference to the second level index.

Таким образом, воссозданное представление звука получается посредством (параметрического) улучшения или расширения базового воссозданного представления звука, например, посредством использования улучшающей вспомогательной информации (части улучшающей вспомогательной информации), указанной вторым индексом уровня. Как указано далее, второй индекс уровня может указывать на то, чтобы вообще не использовать какую-либо улучшающую вспомогательную информацию на данной стадии. Тогда воссозданное представление звука будет соответствовать базовому воссозданному представлению звука.Thus, the reconstructed audio representation is obtained by (parametrically) enhancing or enhancing the basic reconstructed audio representation, for example by using enhancement subinformation (a portion of enhancement subinformation) indicated by the second level index. As noted below, the second level index may indicate that no enhancement ancillary information is used at all at this stage. Then the recreated sound representation will match the base recreated sound representation.

С этой целью воссозданное базовое представление звука вместе со всеми полезными нагрузками ESI1, ..., ESIM улучшающей вспомогательной информации, полезными нагрузками базовой вспомогательной информации (например, BSI или BSII, и BSID,_m, m=1, ..., M), и значением NE обеспечиваются процессору 4300 восстановления расширенного представления (проиллюстрированному на фиг. 4А и 4В), который вычисляет окончательное расширенное представление 2100' звука (или звукового поля) с использо. . ____~ ESH . ~ _ .... .For this purpose, the reconstructed basic audio representation together with all ESI1, ..., ESIM enhancement ancillary information payloads, basic ancillary information payloads (e.g. BSI or BSII, and BSID, _m , m = 1, ..., M) and the NE value is provided to an extended representation reconstruction processor 4300 (illustrated in FIGS. 4A and 4B), which calculates the final extended representation 2100 'of the sound (or sound field) using. ... ____ ~ ESH. ~ _ .....

ванием только полезной нагрузки ^Е улучшающей вспомогательной информации, и отбрасывая все другие полезные нагрузки улучшающей вспомогательной информации. В качестве альтернативы процессору 4300 восстановления улучшающего представления может быть обеспечена только полезная нагрузка е улучшающей вспомогательной информации вместо всех полезных нагрузок улучшающей вспомогательной информации. Если значение NE равно нулю, все полезные нагрузки улучшающей вспомогательной информации отбрасываются (или в качестве альтернативы полезная нагрузка улучшающейby omitting only the ^{enhancement ancillary information payload E} , and discarding all other enhancement ancillary information payloads. As an alternative to the enhancement presentation reconstruction processor 4300, only the enhancement ancillary information payloads may be provided instead of all the enhancement ancillary information payloads. If the NE value is zero, all enhancement ancillary payloads are discarded (or alternatively, the enhancement ancillary payload

- 15 038833 вспомогательной информации не обеспечивается), и воссозданное финальное расширенное представлеESU ние 2100' звука равно воссозданному основному представлению звука. Полезная нагрузка ^F улучшающей вспомогательной информации может быть получена посредством частичного анализатора 4400.- 15 038833 no ancillary information is provided), and the reconstructed final ESU 2100 'audio representation is equal to the reconstructed main audio representation. The ^{enhancement ancillary information payload F} can be obtained by a partial analyzer 4400.

Фиг. 3 также в целом иллюстрирует декодирование сжатого представления HOA на основе базовой вспомогательной информации, которая связана с базовым уровнем, и на основе улучшающей вспомогательной информации, которая связана с одним или более иерархическими улучшающими уровнями.FIG. 3 also generally illustrates decoding of a compressed HOA representation based on basic side information that is associated with the base layer and based on enhancement side information that is associated with one or more hierarchical enhancement layers.

Если этапы не требуют некоторых других этапов в качестве предварительных условий, упомянутые выше этапы могут выполняться в любом порядке, и предполагается, что иллюстративный порядок, показанный на фиг. 3, не имеет ограничительного характера.If the steps do not require some of the other steps as a prerequisite, the above steps may be performed in any order, and it is assumed that the illustrative order shown in FIG. 3 is not restrictive.

Далее будут описаны подробности выбора уровней для восстановления (выбор первого и второго индексов уровней) на этапах S3020 и S3040.Next, details of the selection of levels to be restored (selection of the first and second level indices) in steps S3020 and S3040 will be described.

Определение первого индекса уровня может включать в себя определение для каждого уровня, был ли соответствующий уровень принят корректно. Определение первого индекса уровня может дополнительно включать в себя определение первого индекса уровня как индекса того уровня, который находится непосредственно ниже наиболее низкого уровня, который не был корректно принят. Был ли уровень принят корректно, может быть определено посредством оценки, была ли корректно принята полезная нагрузка улучшающей вспомогательной информации этого уровня. Это, в свою очередь, может быть сделано посредством оценки флагов корректности в полезных нагрузках улучшающей вспомогательной информации.Determining the first level index may include determining, for each level, whether the corresponding level was received correctly. Determining the first level index may further include determining the first level index as an index of that level immediately below the lowest level that has not been correctly received. Whether a layer was received correctly can be determined by judging whether the enhancement ancillary payload of that layer was correctly received. This, in turn, can be done by evaluating the correctness flags in the enhancement ancillary information payloads.

Определение второго индекса уровня в общем случае может включать в себя либо определение второго индекса уровня как равного первому индексу уровня, либо определение значения индекса в качестве второго индекса уровня (например, значение 0 индекса), которое указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука.Determining the second level index generally may include either defining the second level index as equal to the first level index, or defining the index value as the second level index (e.g., index value 0), which indicates that no enhancement should be used. auxiliary information when obtaining the reconstructed sound representation.

В случае если все пакеты данных кадра могут быть восстановлены независимо друг от друга, и номер NB наиболее высокого уровня (наиболее высокого применимого уровня) для фактического использования для восстановления базового представления звука, и индекс NE полезной нагрузки улучшающей вспомогательной информации для использования для восстановления могут быть установлены равными наибольшему номеру корректной полезной нагрузки улучшающей вспомогательной информации, который сам может быть определен посредством оценки флагов корректности в полезных нагрузках улучшающей вспомогательной информации. Используя знание размера каждой полезной нагрузки улучшающей вспомогательной информации, можно избежать сложного анализа фактических данных полезных нагрузок для определения их корректности.In case all data packets of a frame can be recovered independently of each other, both the NB number of the highest layer (highest applicable layer) for actual use to recover the base audio representation, and the NE payload index of the enhancement ancillary information to be used for recovery can be set equal to the largest correct enhancement ancillary payload number, which itself can be determined by evaluating the correctness flags in the enhancement ancillary payloads. By knowing the size of each enhancement ancillary payload, complex analysis of the actual payload data to determine its correctness can be avoided.

Таким образом, второй индекс уровня может быть определен как равный первому индексу уровня, если сжатые представления звука для последовательных временных интервалов могут быть декодированы независимо. В этом случае воссозданное базовое представление звука может быть расширено на основе полезной нагрузки улучшающей вспомогательной информации наиболее высокого применимого уровня.Thus, the second layer index can be determined to be equal to the first layer index if the compressed audio representations for successive time slots can be decoded independently. In this case, the reconstructed basic audio representation can be expanded based on the enhancement ancillary payload of the highest applicable level.

В случае если используется это дифференциальное восстановление с межкадровыми зависимостями, в дополнение следует рассматривать решение от предыдущего кадра. Следует отметить, что с дифференциальным восстановлением обычно независимые пакеты данных кадра передаются с регулярными временными интервалами, чтобы позволить начинать восстановление с тех моментов времени, когда определение значении N_B и N_E становятся независимыми от кадров, и она выполняется, как описано выше.In case this differential recovery with inter-frame dependencies is used, in addition, the solution from the previous frame should be considered. It should be noted that with differential recovery, typically independent frame data packets are transmitted at regular time intervals to allow recovery to begin at the point in time when the determination of the value of N _B and N _E becomes frame independent and is performed as described above.

Для подробного разъяснения предложенного зависимого от кадров решения самый большой номер (например, индекс уровня) корректной полезной нагрузки улучшающей вспомогательной информации для k-го кадра обозначен как L(k), номер наиболее высокого уровня (например, индекс уровня) для выбора и использования для восстановления базового представления звука обозначен как N_B(k), и номер (например, индекс уровня) полезной нагрузки улучшающей вспомогательной информации для использования для восстановления обозначен как NE(k).To further clarify the proposed frame-dependent solution, the largest number (e.g., layer index) of the correct enhancement ancillary payload for the kth frame is denoted L (k), the highest layer number (e.g., layer index) to select and use for sound baseline recovery is denoted as N _B (k), and the number (eg, layer index) of the enhancement ancillary information payload to be used for reconstruction is denoted NE (k).

Используя эти обозначения, номер наиболее высокого уровня для использования для восстановления базового представления звука NB(k) может быть вычислен в соответствии сUsing this notation, the highest level number to be used to reconstruct the basic sound representation NB (k) can be computed according to

N_B(k) = min(N_B(k - l),L(k)). ₍₇₎ N _B (k) = min (N _B (k - l), L (k)). ₍₇₎

Посредством выбора NB(k) не больше, чем NB(k-1) и L(k), обеспечивается, что вся информация, требуемая для дифференциального восстановления базового представления звука, является доступной.By choosing NB (k) not greater than NB (k-1) and L (k), it is ensured that all information required for differential reconstruction of the base audio representation is available.

Таким образом, если сжатые представления звука для последовательных временных интервалов (например, кадров) не могут быть декодированы независимо друг от друга, определение первого индекса уровня может содержать определение для каждого уровня, был ли соответствующий уровень принят корректно, и определение первого индекса уровня для данного временного интервала как меньшего индекса из первого индекса уровня временного интервала, предшествующего данному временному интер- 16 038833 валу, и индекса уровня, который находится непосредственно ниже наиболее низкого уровня, который не был корректно принят.Thus, if compressed audio representations for successive time slots (e.g., frames) cannot be decoded independently of each other, determining the first layer index may contain a determination for each layer whether the corresponding layer has been received correctly, and the determination of the first layer index for the given time interval as the smaller index from the first index of the level of the time interval preceding the given time interval - 16 038833 shaft, and the index of the level that is immediately below the lowest level that was not correctly received.

Номер NE(k) полезной нагрузки улучшающей вспомогательной информации для использования для восстановления может быть определен в соответствии с r7V_B(fc) ifN_B(fc) = N_B(fc-l) (fc) = ^и 1 ¹¹ 0 е seThe enhancement ancillary payload number NE (k) to be used for recovery can be determined according to r7V _B (fc) ifN _B (fc) = N _B (fc-l) (fc) = ^and 1 ¹¹ 0 e se

I ^{υ е1ье} (₈)I ^{υ e1ie} ( ₈ )

При этом выбор 0 для N_E(k) указывает, что воссозданное базовое представление звука не должно улучшаться или расширяться с использованием улучшающей вспомогательной информации.In this case, the choice of 0 for N _E (k) indicates that the reconstructed basic sound representation should not be improved or expanded using the enhancement side information.

Это означает, в частности, что при условии, что номер N_B(k) наиболее высокого уровня для использования для восстановления базового представления звука не изменяется, выбирается тот же самый соответствующий номер улучшающего уровня. Однако в случае изменения N_B(k) улучшение запрещается посредством установки N_E(k) равным нуль. Вследствие предполагаемого дифференциального восстановления улучшающей вспомогательной информации ее изменение в соответствии с N_B(k) невозможно, поскольку это потребовало бы восстановления соответствующего уровня улучшающей вспомогательной информации в предыдущем кадре, которая, как предполагается, не была выполнена.This means, in particular, that provided that the number N _B (k) of the highest layer to be used for reconstructing the basic sound representation does not change, the same corresponding enhancement layer number is selected. However, in the case of changing N _B (k), improvement is inhibited by setting N _E (k) to zero. Due to the assumed differential recovery of the enhancement side information, its change in accordance with N _B (k) is not possible, since this would require the restoration of the corresponding level of the enhancement side information in the previous frame, which, as expected, was not performed.

Таким образом, если сжатые представления звука для последовательных временных интервалов (например, кадров) не могут быть декодированы независимо друг от друга, определение второго индекса уровня может содержать определение, равен ли первый индекс уровня для данного временного интервала первому индексу уровня для предыдущего временного интервала. Если первый индекс уровня для данного временного интервала равен первому индексу уровня для предыдущего временного интервала, второй индекс уровня для данного временного интервала может быть определен (например, выбран) как равный первому индексу уровня для данного временного интервала. С другой стороны, если первый индекс уровня для данного временного интервала не равен первому индексу уровня для предыдущего временного интервала, значение индекса может быть определено (например, выбрано) как второй индекс уровня, который указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука.Thus, if compressed audio representations for successive time slots (eg, frames) cannot be decoded independently of each other, determining the second layer index may comprise determining whether the first layer index for a given time slot is equal to the first layer index for a previous time slot. If the first level index for a given slot is equal to the first level index for a previous slot, the second level index for a given slot may be determined (eg, selected) to be equal to the first level index for a given slot. On the other hand, if the first level index for a given slot is not equal to the first level index for a previous slot, the index value may be determined (e.g., selected) as the second level index, which indicates that no enhancement ancillary information should be used. when getting a recreated sound representation.

В качестве альтернативы, если при восстановлении все полезные нагрузки улучшающей вспомогательной информации с номером вплоть до N_E(k) восстановлены параллельно, правило выбора в уравнении (4) может быть замененоAlternatively, if all the enhancement ancillary payloads up to N _E (k) are reconstructed in parallel upon recovery, the selection rule in equation (4) may be replaced by

A_E(fc)=A_B(fc).A _E (fc) = A _B (fc).

Наконец, следует отметить, что для дифференциального восстановления номер наиболее высокого используемого уровня N_B может только увеличиваться в независимых пакетах данных кадра, тогда как уменьшение возможно в каждом кадре.Finally, it should be noted that for differential recovery, the number of the highest used layer N _B can only increase in independent data packets of a frame, while a decrease is possible in every frame.

Подразумевается, что предложенный способ многоуровневого кодирования сжатого представления звука может быть реализован кодером для многоуровневого кодирования сжатого представления звука. Такой кодер может содержать соответствующие блоки, выполненные с возможностью выполнять соответствующие описанные выше этапы. Пример такого кодера 5000 схематично проиллюстрирован на фиг. 5. Например, такой кодер 5000 может содержать блок 5010 подразделения компонентов, выполненный с возможностью выполнять упомянутый выше этап S1010, блок 5020 присвоения компонентов, выполненный с возможностью выполнять упомянутый выше этап S1020, блок 5030 присвоения базовой вспомогательной информации, выполненный с возможностью выполнять упомянутый выше этап S1030, блок 5040 разбиения улучшающей вспомогательной информации, выполненный с возможностью выполнять упомянутый выше этап S1040, и блок 5050 присвоения улучшающей вспомогательной информации, выполненный с возможностью, выполнять упомянутый выше этап S1050. Далее подразумевается, что соответствующие блоки такого кодера могут быть воплощены посредством процессора 5100 вычислительного устройства, которое выполнено с возможностью выполнять обработку, выполняемую каждым из упомянутых соответствующих блоков, т.е. он выполнен с возможностью выполнять некоторые или все упомянутые выше этапы, а также любые дополнительные этапы предложенного метода кодирования. Кодер или вычислительное устройство могут дополнительно содержать память 5200, к которой процессор 5100 может осуществлять доступ.It is understood that the proposed method for multi-level encoding of a compressed audio representation can be implemented by an encoder for multi-level encoding of a compressed audio representation. Such an encoder may comprise corresponding blocks configured to perform the corresponding steps described above. An example of such an encoder 5000 is schematically illustrated in FIG. 5. For example, such an encoder 5000 may comprise a component subdividing unit 5010 configured to perform the above step S1010, a component assignment unit 5020 configured to perform the above step S1020, a basic auxiliary information assignment unit 5030 configured to perform the above step S1030, an enhancement subinformation splitting unit 5040 configured to perform the above step S1040, and an enhancement subinformation assignment unit 5050 configured to perform the above step S1050. It is further understood that the respective blocks of such an encoder may be implemented by a processor 5100 of a computing device that is configured to perform processing performed by each of said respective blocks, i. E. it is configured to perform some or all of the above steps as well as any additional steps of the proposed encoding method. The encoder or computing device can further comprise a memory 5200 that can be accessed by the processor 5100.

Далее подразумевается, что предложенный способ декодирования сжатого представления звука, которое закодировано в множестве иерархических уровней, может быть реализован декодером для декодирования сжатого представления звука, которое закодировано в множестве иерархических уровней. Такой декодер может содержать соответствующие блоки, выполненные с возможностью выполнять соответствующие описанные выше этапы. Пример такого декодера 6000 схематично проиллюстрирован на фиг. 6. Например, такой декодер 6000 может содержать блок 6010 приема, выполненный с возможностью выполнять упомянутый выше этап S3010, блок 6020 определения первого индекса уровня, выполненный с возможностью выполнять упомянутый выше этап S3020, блок 6030 базового воссоздания, выполненный с возможностью выполнять упомянутый выше этап S3030, блок 6040 определения второго индекса уровня, выполненный с возможностью выполнять упомянутый выше этап S3040, и блок 6050, выполненный сIt is further understood that the proposed method for decoding a compressed audio representation that is encoded in a plurality of hierarchical levels can be implemented by a decoder to decode a compressed audio representation that is encoded in a plurality of hierarchical levels. Such a decoder may comprise corresponding blocks configured to perform the corresponding steps described above. An example of such a decoder 6000 is schematically illustrated in FIG. 6. For example, such a decoder 6000 may comprise a receiving unit 6010 configured to perform the above step S3010, a first level index determining unit 6020 configured to perform the above step S3020, a basic reconstruction unit 6030 configured to perform the above step S3030, a second level index determining unit 6040 configured to perform the above step S3040, and a unit 6050 performed with

- 17 038833 возможностью выполнять упомянутый выше этап S3050. Далее подразумевается, что соответствующие блоки такого кодера могут быть воплощены посредством процессора 6100 вычислительного устройства, который выполнен с возможностью выполнять обработку, выполняемую каждым из упомянутых соответствующих блоков, т.е. он выполнен с возможностью выполнять некоторые или все упомянутые выше этапы, а также любые дополнительные этапы предложенного метода кодирования. Кодер или вычислительное устройство могут дополнительно содержать память 6200, к которой процессор 6100 может осуществлять доступ.- 17 038833 the ability to perform the above step S3050. It is further understood that the respective blocks of such an encoder may be embodied by a computing device processor 6100 that is configured to perform processing performed by each of said respective blocks, i. E. it is configured to perform some or all of the above steps as well as any additional steps of the proposed encoding method. The encoder or computing device may further comprise a memory 6200 that the processor 6100 can access.

Следует отметить, что описание и чертежи лишь иллюстрируют принципы предложенных способов и устройств. Таким образом, будет очевидно, что специалисты в области техники смогут создавать различные структуры, которые, хотя явно не описаны и не показаны в настоящем документе, воплощают принципы изобретения и включены в пределы его сущности и объема. Кроме того, все примеры, приведенные в настоящем документе, преимущественно явно предназначены лишь для обучения, чтобы помочь читателю в понимании принципов предложенных способов и устройств, и концепций, внесенных изобретателями в развитие области техники, и должны быть истолкованы как не являющиеся ограничениями для таких специальным образом приведенных примеров и условий. Кроме того, предполагается, что все утверждения в настоящем документе, излагающие принципы, аспекты и варианты осуществления изобретения, а также их конкретные примеры, охватывают его эквиваленты.It should be noted that the description and drawings only illustrate the principles of the proposed methods and devices. Thus, it will be apparent that those skilled in the art will be able to create various structures that, although not explicitly described or shown herein, embody the principles of the invention and are included within its spirit and scope. In addition, all the examples provided in this document are mainly explicitly intended for educational purposes only, to help the reader in understanding the principles of the proposed methods and devices, and the concepts introduced by the inventors in the development of the technical field, and should be construed as not limiting such special in the manner of the given examples and conditions. In addition, all statements in this document setting forth the principles, aspects and embodiments of the invention, as well as their specific examples, are intended to cover their equivalents.

Способы и устройство, описанные в настоящем документе, могут быть реализованы как программное обеспечение, программно-аппаратное обеспечение и/или аппаратные средства. Некоторые компоненты, например, могут быть реализованы как программное обеспечение, работающее на процессоре цифровой обработки сигналов или микропроцессоре. Другие компоненты, например, могут быть реализованы как аппаратные средства и/или как специализированные интегральные схемы. Сигналы, встречающиеся в описанных способах и устройстве, могут быть сохранены на носителях, таких как оперативное запоминающее устройство или оптические запоминающие носители. Они могут быть перенесены через сети, такие как радиосети, спутниковые сети, беспроводные сети или проводные сети, например, Интернет.The methods and apparatus described herein can be implemented as software, firmware, and / or hardware. Some components, for example, can be implemented as software running on a digital signal processor or microprocessor. Other components, for example, can be implemented as hardware and / or as ASICs. The signals encountered in the described methods and apparatus can be stored on media such as random access memory or optical storage media. They can be carried over networks such as radio networks, satellite networks, wireless networks, or wired networks such as the Internet.

Цитированная литература 1.Literature Cited 1.

ISO/IEC JTC1/SC29/WG11 230083:2015(E) . Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, February 2015.ISO / IEC JTC1 / SC29 / WG11 230083: 2015 (E). Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, February 2015.

Цитированная литература 2.Literature Cited 2.

ISO/IEC JTC1/SC29/WG11 230083:2015/PDAM3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2, July 2015.ISO / IEC JTC1 / SC29 / WG11 230083: 2015 / PDAM3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2, July 2015.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯCLAIM

1. Способ декодирования сжатого представления звука или звукового поля системы Амбисоник высшего порядка (HOA), прием способ содержит этапы, на которых принимают битовый поток, содержащий сжатое представление HOA, соответствующее множеству иерархических уровней, которые включают в себя базовый уровень и два или более иерархических улучшающих уровней, и содержит базовую вспомогательную информацию, которая связана с базовым уровнем, и улучшающую вспомогательную информацию, которая связана с двумя или более иерархическими улучшающими уровнями, при этом множество уровней имеет присвоенные им компоненты базового сжатого представления звука или звукового поля, причем компоненты присваиваются соответствующим уровням в соответствующих группах компонентов, при этом компоненты базового сжатого представления звука соответствуют монауральным сигналам и монауральные сигналы представляют собой либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления HOA, при этом два или более иерархических улучшающих уровня содержат наиболее высокий применимый иерархический улучшающий уровень, и причем каждый из двух или более иерархических улучшающих уровней включает в себя часть улучшающей вспомогательной информации, включающей в себя параметры для улучшения базового воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня; и декодируют сжатое представление HOA на основе базовой вспомогательной информации, которая связана с базовым уровнем, на основе части улучшающей вспомогательной информации, которая связана с наиболее высоким применимым иерархическим улучшающим уровнем, и не на основе части улучшающей вспомогательной информации, которая связана с любым другим уровнем из двух или более ие- 18 038833 рархических улучшающих уровней.1. A method of decoding a compressed representation of a sound or a sound field of a higher order Ambisonic system (HOA), the method comprises the steps of receiving a bitstream containing a compressed HOA representation corresponding to a plurality of hierarchical levels, which include a base level and two or more hierarchical enhancement levels, and contains basic ancillary information that is associated with the base level, and enhancement ancillary information that is associated with two or more hierarchical enhancement levels, while the plurality of levels have components of the basic compressed sound or sound field representation assigned to them, and the components are assigned to the corresponding levels in the respective groups of components, while the components of the basic compressed sound representation correspond to monaural signals and monaural signals represent either dominant sound signals or sequences of HOA representation coefficients, with two or more hierarchical enhancement levels comprise the highest applicable hierarchical enhancement level, and wherein each of the two or more hierarchical enhancement levels includes a portion of enhancement ancillary information including parameters for enhancing the basic reconstructed audio presentation available from data included in the corresponding level and any levels below the corresponding level; and decode the compressed HOA representation based on the basic ancillary information that is associated with the base layer, based on a portion of the enhancement ancillary information that is associated with the highest applicable hierarchical enhancement layer, and not based on a portion of the enhancement ancillary information that is associated with any other layer of two or more and - 18,038833 hierarchical enhancement levels.

2. Способ по п.1, в котором улучшающая вспомогательная информация включает в себя параметры, относящиеся по меньшей мере к одному из перечисленного: пространственное предсказание, синтез направленных подполосных сигналов и параметрическое дублирование звукового окружения.2. The method of claim 1, wherein the enhancement side information includes parameters related to at least one of the following: spatial prediction, directional subband synthesis, and parametric ambience duplication.

3. Способ по п.1, в котором улучшающая вспомогательная информация включает в себя информацию, которая обеспечивает возможность предсказания недостающих частей звука или звукового поля из направленных сигналов.3. The method of claim 1, wherein the enhancement side information includes information that enables the prediction of missing portions of a sound or sound field from directional signals.

4. Способ по п.1, содержащий также этапы, на которых определяют для каждого уровня, был ли соответствующий уровень принят корректно; и определяют индекс уровня, находящегося непосредственно ниже наиболее низкого уровня, который не был принят корректно.4. The method according to claim 1, further comprising the steps of determining for each level whether the corresponding level was received correctly; and determining the index of the level immediately below the lowest level that has not been received correctly.

5. Способ по п.4, содержащий также этап, на котором определяют дополнительный индекс уровня, который либо равен индексу уровня, либо указывает исключение улучшающей вспомогательной информации во время декодирования.5. The method of claim 4, further comprising determining an additional layer index that is either equal to the layer index or indicates exclusion of enhancement side information during decoding.

6. Способ по п.1, в котором базовый уровень включает в себя по меньшей мере одну часть дополнительной базовой вспомогательной информации, связанной с соответствующим уровнем, и включает в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня, причем способ для каждой части дополнительной базовой вспомогательной информации содержит этапы, на которых декодируют часть дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня; и корректируют часть дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому иерархическому улучающему уровню и любым уровням между наиболее высоким применимым иерархическим улучающим уровнем и соответствующим уровнем, при этом базовое воссозданное представление звука получается из компонентов, присвоенных наиболее высокому применимому иерархическому улучающему уровню и любым уровням ниже наиболее высокого применимого иерархического улучшающего уровня, с использованием базовой вспомогательной информации и скорректированных частей дополнительной базовой вспомогательной информации, полученной из частей дополнительной базовой вспомогательной информации, соответствующих уровням вплоть до наиболее высокого применимого иерархического улучшающего уровня.6. The method of claim 1, wherein the base layer includes at least one piece of additional base side information associated with the corresponding layer and includes information that determines decoding of one or more components among the components assigned to the corresponding layer, depending on the other components assigned to the corresponding level and any levels below the corresponding level, and the method for each piece of additional basic ancillary information comprises the steps at which a part of the additional basic ancillary information is decoded by reference to the components assigned to its corresponding level and any levels below the corresponding level; and adjusting some of the additional basic ancillary information by referencing the components assigned to the highest applicable hierarchical enhancement level and any levels between the highest applicable hierarchical enhancement level and the corresponding level, wherein the basic reconstructed sound representation is derived from the components assigned to the highest applicable hierarchical enhancement level and any levels below the highest applicable hierarchical enhancement level using the base side information and corrected portions of the additional base side information derived from the portions of the additional base side information corresponding to the levels up to the highest applicable hierarchical enhancement level.

7. Постоянный машиночитаемый носитель, содержащий инструкции, под управлением которых процессор выполняет операции способа по п.1.7. A permanent computer-readable medium containing instructions under the control of which the processor performs the operations of the method according to claim 1.

8. Устройство для декодирования сжатого представления звука или звукового поля системы Амбисоник высшего порядка (HOA), причем устройство содержит приемник для приема битового потока, содержащего сжатое представление HOA, соответствующее множеству иерархических уровней, которые включают в себя базовый уровень и один или более иерархических улучшающих уровней, и содержащего базовую вспомогательную информацию, которая связана с базовым уровнем, и улучшающую вспомогательную информацию, которая связана с двумя или более иерархическими улучшающими уровнями, при этом множество уровней имеют присвоенные им компоненты базового сжатого представления звука или звукового поля, причем компоненты присваиваются соответствующим уровням в соответствующих группах компонентов, при этом компоненты базового сжатого представления звука соответствуют монауральным сигналам и монауральные сигналы представляют собой либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления HOA, при этом два или более иерархических улучшающих уровня содержат наиболее высокий применимый иерархический улучшающий уровень, при этом каждый из двух или более иерархических улучшающих уровней включает в себя часть улучшающей вспомогательной информации, включающей в себя параметры для улучшения базового воссозданного представления звука, доступные из данных, включенных в соответствующие уровни и любые уровни ниже соответствующего уровня; и декодер для декодирования сжатого представления HOA на основе базовой вспомогательной информации, которая связана с базовым уровнем, на основе части улучшающей вспомогательной информации, которая связана с наиболее высоким применимым иерархическим улучшающим уровнем, и не на основе части улучшающей вспомогательной информации, которая связана с любым другим уровнем из двух или более иерархических улучшающих уровней.8. An apparatus for decoding a compressed representation of a higher order Ambisonic (HOA) sound or sound field, the apparatus comprising a receiver for receiving a bitstream containing a compressed HOA representation corresponding to a plurality of hierarchical levels that include a base layer and one or more hierarchical enhancements. levels, and containing basic ancillary information that is associated with a baseline, and enhancement ancillary information that is associated with two or more hierarchical enhancement levels, while the plurality of levels have components of the basic compressed sound representation or sound field assigned to them, and the components are assigned to the corresponding levels in the respective groups of components, wherein the components of the basic compressed sound representation correspond to monaural signals and monaural signals represent either dominant sound signals or sequences of HOA representation coefficients, n wherein the two or more hierarchical enhancement levels comprise the highest applicable hierarchical enhancement level, wherein each of the two or more hierarchical enhancement levels includes a portion of enhancement ancillary information including parameters for enhancing the basic reconstructed sound presentation available from the data included to the appropriate levels and any levels below the corresponding level; and a decoder for decoding the compressed HOA representation based on the base side information that is associated with the base layer, based on the part of the enhancement side information that is associated with the highest applicable hierarchical enhancement layer, and not based on the part of the enhancement side information that is associated with any other a level of two or more hierarchical enhancement levels.

9. Устройство по п.8, в котором улучшающая вспомогательная информация включает в себя параметры, относящиеся по меньшей мере к одному из перечисленного: пространственное предсказание, синтез направленных подполосных сигналов и параметрическое дублирование звукового окружения.9. The apparatus of claim 8, wherein the enhancement side information includes parameters related to at least one of the following: spatial prediction, directional subband synthesis, and parametric ambience duplication.

- 19 038833- 19 038833

10. Устройство по п.8, в котором улучшающая вспомогательная информация включает в себя информацию, которая делает возможным предсказание недостающих частей звука или звукового поля из направленных сигналов.10. The apparatus of claim 8, wherein the enhancement side information includes information that makes it possible to predict missing portions of a sound or sound field from directional signals.

11. Устройство по п.8, выполненное с возможностью определять для каждого уровня, был ли соответствующий уровень принят корректно; и определять индекс уровня, находящегося непосредственно ниже наиболее низкого уровня, который не был принят корректно.11. The device according to claim 8, made with the ability to determine for each level, whether the corresponding level was received correctly; and determine the index of the level immediately below the lowest level that was not received correctly.

12. Устройство по п.11, выполненное также с возможностью определять дополнительный индекс уровня, который либо равен индексу уровня, либо указывает исключение улучшающей вспомогательной информации во время декодирования.12. The apparatus of claim 11, further configured to determine a supplemental layer index that is either equal to the layer index or indicates exclusion of enhancement ancillary information during decoding.

13. Устройство по п.8, в котором базовый уровень включает в себя по меньшей мере одну часть дополнительной базовой вспомогательной информации, связанной с соответствующим уровнем, и включает в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня, и при этом для каждой части дополнительной базовой вспомогательной информации устройство выполнено с возможностью декодировать часть дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня; и корректировать часть дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому иерархическому улучшающему уровню и любым уровням между наиболее высоким применимым иерархическим улучшающим уровнем и соответствующим уровнем, при этом базовое воссозданное представление звука получается из компонентов, присвоенных наиболее высокому применимому иерархическому улучшающему уровню и любым уровням ниже наиболее высокого применимого иерархического улучшающего уровня, с использованием базовой вспомогательной информации и скорректированных частей дополнительной базовой вспомогательной информации, полученной из частей дополнительной базовой вспомогательной информации, соответствующих уровням вплоть до наиболее высокого применимого иерархического улучшающего уровня.13. The apparatus of claim 8, wherein the base layer includes at least one piece of additional base side information associated with the corresponding layer and includes information that determines decoding of one or more components among the components assigned to the corresponding layer, depending on other components assigned to the corresponding level and any levels below the corresponding level, and in this case, for each piece of additional basic auxiliary information, the device is configured to decode a part of the additional basic auxiliary information by referring to the components assigned to its corresponding level and any levels below the corresponding level; and adjusting some of the additional basic ancillary information by referencing the components assigned to the highest applicable hierarchical enhancement level and any levels between the highest applicable hierarchical enhancement level and the corresponding level, wherein the basic reconstructed audio representation is derived from the components assigned to the highest applicable hierarchical enhancement level and any levels below the highest applicable hierarchical enhancement level using the base side information and corrected portions of the additional base side information derived from the portions of the additional base side information corresponding to the levels up to the highest applicable hierarchical enhancement level.