RU2782344C2 - Methods, device, and systems for generation of 6dof sound, and representation of data and structure of bit streams for generation of 6dof sound - Google Patents

Methods, device, and systems for generation of 6dof sound, and representation of data and structure of bit streams for generation of 6dof sound Download PDF

Info

Publication number
RU2782344C2
RU2782344C2 RU2020127372A RU2020127372A RU2782344C2 RU 2782344 C2 RU2782344 C2 RU 2782344C2 RU 2020127372 A RU2020127372 A RU 2020127372A RU 2020127372 A RU2020127372 A RU 2020127372A RU 2782344 C2 RU2782344 C2 RU 2782344C2
Authority
RU
Russia
Prior art keywords
audio
3dof
bitstream
6dof
generation
Prior art date
Application number
RU2020127372A
Other languages
Russian (ru)
Other versions
RU2020127372A (en
Inventor
Леон ТЕРЕНТИВ
Кристоф ФЕРШ
Дэниел ФИШЕР
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Priority claimed from PCT/EP2019/058955 external-priority patent/WO2019197404A1/en
Publication of RU2020127372A publication Critical patent/RU2020127372A/en
Application granted granted Critical
Publication of RU2782344C2 publication Critical patent/RU2782344C2/en

Links

Images

Abstract

FIELD: acoustics.
SUBSTANCE: group of inventions relates to provision of a device, a system, and a method for the generation of a sound with six degrees of freedom (hereinafter – 6DoF), in particular in connection with representation of data and structures of bit streams for the generation of 6DoF sound. The claimed method for encoding of a sound signal to a bit stream, in particular by an encoding device, includes encoding or inclusion of sound signal data related to the generation of 3DoF sound into one or more first parts of the bit stream, and encoding or inclusion of metadata related to the generation of 6DoF sound into one or more second parts of the bit stream. The present invention additionally relates to methods, a device, and systems for decoding of a sound signal and generation of a sound based on a bit stream.
EFFECT: provision of a possibility of representation of data and/or structures of bit streams for encoding of 3D sound and/or generation of 3D sound, which allows for effective encoding and/or formation of 6DoF sound, preferably with backward compatibility for the generation of 3DoF sound, for example, according to MPEG-H 3DA standard.
29 cl, 14 dwg

Description

РОДСТВЕННЫЕ ЗАЯВКИRELATED APPLICATIONS

Данная заявка испрашивает приоритет предварительной заявки на патент США с порядковым номером 62/655990, поданной 11 апреля 2018 г., которая включена в настоящий документ посредством ссылки во всей своей полноте.This application claims priority of U.S. provisional application serial number 62/655990, filed April 11, 2018, which is incorporated herein by reference in its entirety.

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к предоставлению устройства, системы и способа формирования звука с шестью степенями свободы (6DoF), в частности в связи с представлением данных и структурами битовых потоков для формирования звука 6DoF.The present invention relates to the provision of a device, system and method for generating six degrees of freedom (6DoF) audio, particularly in connection with data representation and bitstream structures for generating 6DoF audio.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

В настоящее время отсутствует надлежащее решение для формирования звука в сочетании с перемещением пользователя с шестью степенями свободы (6DoF). Хотя имеются решения для формирования сигналов канала, объекта и амбиофонии первого/высшего порядка (HOA) в сочетании с перемещением с тремя степенями свободы (3DoF) (движение рыскания, тангажа, крена), отсутствует поддержка обработки таких сигналов в сочетании с перемещением пользователя с шестью степенями свободы (6DoF) (движение рыскания, тангажа, крена и поступательное движение). Currently, there is no proper solution for sound shaping in combination with six degrees of freedom (6DoF) user movement. While solutions are available for channel, object, and first/higher order ambiphony (HOA) signal generation in combination with three degrees of freedom (3DoF) motion (yaw, pitch, roll motion), there is no support for processing such signals in combination with user motion with six degrees of freedom (6DoF) (yaw, pitch, roll and translational motion).

В общем, формирование звука 3DoF предоставляет звуковое поле, в котором один или более источников звука формируют в угловых положениях, окружающих заданное положение слушателя, называемое положением 3DoF. Один пример формирования звука 3DoF включен в стандарт MPEG-H 3D Audio (сокращенно обозначенный как MPEG-H 3DA).In general, 3DoF sound generation provides a sound field in which one or more sound sources are formed at angular positions surrounding a predetermined listener position, referred to as a 3DoF position. One example of 3DoF audio generation is included in the MPEG-H 3D Audio standard (abbreviated as MPEG-H 3DA).

Хотя MPEG-H 3DA был разработан для поддержки сигналов канала, объекта и HOA для 3DoF, он пока не может обрабатывать настоящий звук 6DoF. Желательно, чтобы предусмотренная реализация звука 3D в MPEG-I расширяла функциональность 3DoF (и 3DoF+) до применений звука 3D 6DoF эффективным образом (предпочтительно включая эффективное генерирование, кодирование, декодирование и/или формирование сигнала), при этом предпочтительно обеспечивая обратную совместимость с формированием 3DoF. While MPEG-H 3DA was designed to support 3DoF channel, object, and HOA signals, it cannot yet handle true 6DoF audio. It is desirable that the envisaged implementation of 3D audio in MPEG-I extend 3DoF (and 3DoF+) functionality to 3D 6DoF audio applications in an efficient manner (preferably including efficient signal generation, encoding, decoding and/or shaping), while preferably providing backward compatibility with 3DoF shaping. .

Учитывая вышеуказанное, цель настоящего изобретения заключается в предоставлении способов, устройства и представления данных и/или структур битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA. In view of the above, it is an object of the present invention to provide methods, apparatus, and data representation and/or bitstream structures for 3D audio encoding and/or 3D audio generation that can efficiently perform 6DoF audio encoding and/or generation, preferably with backwards compatibility for generating 3DoF audio, such as MPEG-H 3DA.

Другой целью настоящего изобретения может быть предоставление представления данных и/или структур битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью с формированием звука 3DoF, например согласно стандарту MPEG-H 3DA, и устройства кодирования и/или формирования, предназначенного для эффективного кодирования и/или формирования звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA.Another object of the present invention may be to provide a representation of data and/or bitstream structures for 3D audio coding and/or 3D audio generation that allows efficient 6DoF audio encoding and/or generation, preferably backwards compatible with 3DoF audio generation, such as according to the standard MPEG-H 3DA, and an encoding and/or shaping device for efficient coding and/or shaping of 6DoF audio, preferably backward compatible for shaping 3DoF audio, such as according to the MPEG-H 3DA standard.

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION

Согласно иллюстративным аспектам может быть предоставлен способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, причем способ включает: кодирование и/или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; и/или кодирование и/или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока.According to illustrative aspects, a method of encoding an audio signal into a bitstream, in particular by an encoder, can be provided, the method comprising: encoding and/or including audio data associated with generating 3DoF audio in one or more first portions of the bitstream; and/or encoding and/or including metadata associated with 6DoF audio generation in one or more second parts of the bitstream.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов. According to exemplary aspects, audio signal data associated with 3DoF audio generation includes audio signal data of one or more audio objects.

Согласно иллюстративным аспектам один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.According to illustrative aspects, one or more audio objects are located on one or more spheres surrounding the default 3DoF listener position.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов. According to exemplary aspects, audio signal data associated with 3DoF audio generation includes direction data of one or more audio objects and/or distance data of one or more audio objects.

Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя 3DoF по умолчанию. According to exemplary aspects, the metadata associated with 6DoF sound generation indicates one or more default 3DoF listener positions.

Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего: описание пространства 6DoF, необязательно включая координаты объектов; направления звуковых объектов одного или более звуковых объектов; среду виртуальной реальности (VR); и/или параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям. According to exemplary aspects, the metadata associated with 6DoF sound generation includes or indicates at least one of the following: a description of the 6DoF space, optionally including object coordinates; directions of sound objects of one or more sound objects; virtual reality (VR) environment; and/or parameters related to range attenuation, absorption and/or reverberations.

Согласно иллюстративным аспектам способ может дополнительно включать: прием звуковых сигналов от одного или более источников звука; и/или генерирование данных звукового сигнала, связанных с формированием звука 3DoF, на основании звуковых сигналов от одного или более источников звука и функции преобразования. According to illustrative aspects, the method may further include: receiving audio signals from one or more audio sources; and/or generating audio signal data associated with 3DoF audio generation based on audio signals from one or more audio sources and a transform function.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, генерируют путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию преобразования. According to exemplary aspects, audio signal data associated with 3DoF audio generation is generated by converting audio signals from one or more audio sources into 3DoF audio signals using a transform function.

Согласно иллюстративным аспектам функция преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию. According to exemplary aspects, the transform function maps or projects audio signals from one or more audio sources onto corresponding audio objects located on one or more spheres surrounding a default 3DoF listener position.

Согласно иллюстративным аспектам способ может дополнительно включать: определение параметризации функции преобразования на основании характеристик среды и/или параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям. According to exemplary aspects, the method may further comprise: determining a parameterization of the transform function based on the environment characteristics and/or parameters related to range attenuation, absorption, and/or reverberations.

Согласно иллюстративным аспектам битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio. In exemplary aspects, the bitstream is an MPEG-H 3D Audio bitstream or a bitstream using MPEG-H 3D Audio syntax.

Согласно иллюстративным аспектам одна или более первых частей битового потока представляют полезные данные битового потока, и/или одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока. According to illustrative aspects, one or more first bitstream parts represent bitstream payload data, and/or one or more second bitstream parts represent one or more bitstream extension containers.

Согласно еще одному иллюстративному аспекту может быть предоставлен способ декодирования и/или формирования звука, в частности декодирующим устройством или модулем формирования звука, причем способ включает: прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и/или выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока. According to another illustrative aspect, a method for decoding and/or generating audio can be provided, in particular by a decoder or an audio generating module, the method including: receiving a bitstream containing audio signal data associated with generating 3DoF audio in one or more first parts bitstream and further comprising metadata related to 6DoF audio generation in one or more second parts of the bitstream, and/or performing at least one of 3DoF audio generation and 6DoF audio generation based on the received bitstream.

Согласно иллюстративным аспектам при выполнении формирования звука 3DoF формирование звука 3DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока. According to exemplary aspects, when performing 3DoF sound generation, 3DoF sound generation is performed based on audio signal data associated with 3DoF sound generation in one or more first portions of the bitstream while excluding metadata associated with 6DoF sound generation in one or more second portions. bitstream.

Согласно иллюстративным аспектам при выполнении формирования звука 6DoF формирование звука 6DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока. According to exemplary aspects, when performing 6DoF sound generation, 6DoF sound generation is performed based on audio signal data associated with 3DoF sound generation in one or more first portions of the bitstream and metadata associated with 6DoF sound generation in one or more second portions of the bitstream.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов. According to exemplary aspects, audio signal data associated with 3DoF audio generation includes audio signal data of one or more audio objects.

Согласно иллюстративным аспектам один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию. According to illustrative aspects, one or more audio objects are located on one or more spheres surrounding the default 3DoF listener position.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов. According to exemplary aspects, audio signal data associated with 3DoF audio generation includes direction data of one or more audio objects and/or distance data of one or more audio objects.

Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя слушателя 3DoF по умолчанию. According to exemplary aspects, the metadata associated with 6DoF sound generation indicates one or more default 3DoF listener listener positions.

Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего: описание пространства 6DoF, необязательно включая координаты объектов; направления звуковых объектов одного или более звуковых объектов; среда виртуальной реальности (VR); и/или параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям. According to exemplary aspects, the metadata associated with 6DoF sound generation includes or indicates at least one of the following: a description of the 6DoF space, optionally including object coordinates; directions of sound objects of one or more sound objects; virtual reality (VR) environment; and/or parameters related to range attenuation, absorption and/or reverberations.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, генерируют на основании звуковых сигналов от одного или более источников звука и функции преобразования. According to exemplary aspects, audio signal data associated with 3DoF audio generation is generated based on audio signals from one or more audio sources and a transform function.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, генерируют путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию преобразования. According to exemplary aspects, audio signal data associated with 3DoF audio generation is generated by converting audio signals from one or more audio sources into 3DoF audio signals using a transform function.

Согласно иллюстративным аспектам функция преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию. According to exemplary aspects, the transform function maps or projects audio signals from one or more audio sources onto corresponding audio objects located on one or more spheres surrounding a default 3DoF listener position.

Согласно иллюстративным аспектам битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio. In exemplary aspects, the bitstream is an MPEG-H 3D Audio bitstream or a bitstream using MPEG-H 3D Audio syntax.

Согласно иллюстративным аспектам одна или более первых частей битового потока представляют полезные данные битового потока, и/или одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока. According to illustrative aspects, one or more first bitstream parts represent bitstream payload data, and/or one or more second bitstream parts represent one or more bitstream extension containers.

Согласно иллюстративным аспектам выполнение формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включает генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования. According to exemplary aspects, performing 6DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first parts of the bitstream and metadata associated with 6DoF audio generation in one or more second parts of the bitstream includes generating audio signal data 6DoF sound generation-related audio signal data and an inverse transform function.

Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 6DoF, генерируют путем преобразования данных звукового сигнала, связанных с формированием звука 3DoF, используя функцию обратного преобразования и метаданные, связанные с формированием звука 6DoF. According to exemplary aspects, audio signal data associated with 6DoF audio generation is generated by converting audio signal data associated with 3DoF audio generation using an inverse transform function and metadata associated with 6DoF audio generation.

Согласно иллюстративным аспектам функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию. In exemplary aspects, the inverse transform function is an inverse transform function that maps or projects audio signals from one or more sound sources onto corresponding audio objects located on one or more spheres surrounding a default 3DoF listener position.

Согласно иллюстративным аспектам выполнение формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока приводит к генерированию такого же звукового поля, как и выполнение формирования звука 6DoF в положении слушателя 3DoF по умолчанию на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.According to illustrative aspects, performing 3DoF sound generation based on audio signal data associated with 3DoF sound generation in one or more first portions of the bitstream results in the same sound field being generated as performing 6DoF sound generation at the default 3DoF listener position based on data an audio signal associated with 3DoF audio generation in one or more first parts of the bitstream; and metadata associated with 6DoF audio generation in one or more second parts of the bitstream.

Согласно еще одному иллюстративному аспекту может быть предоставлен битовый поток для формирования звука, причем битовый поток содержит данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержит метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов. According to yet another exemplary aspect, a bitstream for audio generation may be provided, wherein the bitstream contains audio data associated with 3DoF audio generation in one or more first portions of the bitstream, and further comprises metadata associated with 6DoF audio generation in one or more over second parts of the bitstream. This aspect can be combined with any or any of the above illustrative aspects.

Согласно еще одному иллюстративному аспекту может быть предоставлено устройство, в частности кодирующее устройство, содержащее процессор, выполненный с возможностью: кодирования и/или включения данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; кодирования и/или включения метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока; и/или вывода закодированного битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов. According to yet another illustrative aspect, an apparatus, in particular an encoder, may be provided, comprising a processor configured to: encode and/or include audio signal data associated with generating 3DoF audio in one or more first portions of a bitstream; encoding and/or including metadata associated with shaping 6DoF audio in one or more second portions of the bitstream; and/or outputting the encoded bitstream. This aspect can be combined with any or any of the above illustrative aspects.

Согласно еще одному иллюстративному аспекту может быть предоставлено устройство, в частности декодирующее устройство или модуль формирования звука, содержащее процессор, выполненный с возможностью: приема битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и/или выполнения по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов. According to yet another illustrative aspect, an apparatus may be provided, in particular a decoder or an audio generation module, comprising a processor configured to: receive a bitstream containing audio signal data associated with 3DoF audio generation in one or more first parts of the bitstream, and further comprising metadata related to 6DoF audio generation in one or more second portions of the bitstream, and/or performing at least one of 3DoF audio generation and 6DoF audio generation based on the received bitstream. This aspect can be combined with any or any of the above illustrative aspects.

Согласно иллюстративным аспектам при выполнении формирования звука 3DoF процессор выполнен с возможностью выполнения формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.According to exemplary aspects, when performing 3DoF audio generation, the processor is configured to perform 3DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream while excluding metadata associated with 6DoF audio generation in one or more second parts of the bitstream.

Согласно иллюстративным аспектам при выполнении формирования звука 6DoF процессор выполнен с возможностью выполнения формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока. According to exemplary aspects, when performing 6DoF audio generation, the processor is configured to perform 6DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream and metadata associated with 6DoF audio generation in one or more second parts of the bitstream.

Согласно еще одному иллюстративному аспекту может быть предоставлен постоянный компьютерный программный продукт, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, причем способ включает: кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; и/или кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов. According to yet another illustrative aspect, a persistent computer program product may be provided comprising instructions that, when executed by a processor, causes the processor to perform a method for encoding an audio signal into a bitstream, in particular with an encoder, the method comprising: encoding or including audio signal data associated with generating 3DoF audio, to one or more first parts of the bitstream; and/or encoding or including metadata associated with 6DoF audio generation in one or more second parts of the bitstream. This aspect can be combined with any or any of the above illustrative aspects.

Согласно еще одному иллюстративному аспекту может быть предоставлен постоянный компьютерный программный продукт, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ декодирования и/или формирования звука, в частности декодирующим устройством или модулем формирования звука, причем способ включает: прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и/или выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов.According to yet another illustrative aspect, a persistent computer program product may be provided that contains instructions that, when executed by a processor, causes the processor to perform a sound decoding and/or sound generation method, in particular by a decoder or sound generation module, the method comprising: receiving a bitstream containing data an audio signal associated with generating 3DoF sound in one or more first parts of the bitstream and further comprising metadata related to generating 6DoF audio in one or more second parts of the bitstream, and/or performing at least one of generating 3DoF audio and generating 6DoF audio based on the received bitstream. This aspect can be combined with any or any of the above illustrative aspects.

Дальнейшие аспекты настоящего изобретения относятся к соответствующим компьютерным программам и машиночитаемым носителям данных. Further aspects of the present invention relate to related computer programs and computer-readable storage media.

Следует понимать, что этапы способа и характерные признаки устройства можно взаимно заменять различными способами. В частности, детали раскрытого способа могут быть реализованы в виде устройства, приспособленного для выполнения некоторых или всех этапов способа, и наоборот, как будет понятно специалисту. В частности, следует понимать, что соответствующие утверждения, сделанные в отношении способов, подобным образом применимы к соответствующему устройству и наоборот.It should be understood that the method steps and device features can be interchanged in various ways. In particular, the details of the disclosed method may be implemented in the form of a device adapted to perform some or all of the steps of the method, and vice versa, as will be understood by a person skilled in the art. In particular, it should be understood that the corresponding statements made in relation to the methods are similarly applicable to the corresponding device and vice versa.

КРАТКОЕ ОПИСАНИЕ ФИГУРBRIEF DESCRIPTION OF THE FIGURES

Иллюстративные варианты осуществления настоящего изобретения описаны ниже со ссылкой на сопроводительные графические материалы, на которых одинаковые ссылочные номера могут обозначать одинаковые или подобные элементы, и на которых:Exemplary embodiments of the present invention are described below with reference to the accompanying drawings, in which like reference numerals may refer to the same or like elements, and in which:

На фиг. 1 схематически изображена иллюстративная система, включающая интерфейсы декодирующего устройства/кодирующего устройства MPEG-H 3D Audio согласно иллюстративным аспектам настоящего изобретения.In FIG. 1 schematically depicts an exemplary system including MPEG-H 3D Audio decoder/encoder interfaces according to exemplary aspects of the present invention.

На фиг. 2 схематически изображен иллюстративный вид сверху обстановки 6DoF комнаты (пространства 6DoF).In FIG. 2 is a schematic illustrative plan view of a 6DoF room (6DoF space) environment.

На фиг. 3 схематически изображены иллюстративный вид сверху обстановки 6DoF по фиг. 2, а также звуковые данные 3DoF и метаданные расширения 6DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 3 schematically depicts an illustrative plan view of the 6DoF environment of FIG. 2 as well as 3DoF audio data and 6DoF extension metadata according to illustrative aspects of the present invention.

На фиг. 4A схематически изображена иллюстративная система обработки 3DoF, 6DoF и звуковых данных согласно иллюстративным аспектам настоящего изобретения.In FIG. 4A schematically depicts an exemplary 3DoF, 6DoF, and audio data processing system in accordance with exemplary aspects of the present invention.

На фиг. 4B схематически изображены иллюстративные способы декодирования и формирования для формирования звука 6DoF и формирования звука 3DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 4B schematically depicts exemplary decoding and generation methods for generating 6DoF audio and generating 3DoF audio according to exemplary aspects of the present invention.

На фиг. 5 схематически изображено иллюстративное условие согласования формирования звука 6DoF и формирования звука 3DoF в положении 3DoF в системе согласно одной или более из фиг. 2–4B.In FIG. 5 schematically depicts an exemplary 6DoF audio generation and 3DoF audio generation matching condition at the 3DoF position in the system according to one or more of FIGS. 2–4B.

На фиг. 6A схематически изображены иллюстративное представление данных и/или структура битового потока согласно иллюстративным аспектам настоящего изобретения.In FIG. 6A schematically depicts an exemplary data representation and/or bitstream structure in accordance with exemplary aspects of the present invention.

На фиг. 6B схематически изображено иллюстративное формирование звука 3DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения.In FIG. 6B schematically depicts an exemplary 3DoF audio generation based on the data representation and/or bitstream structure of FIG. 6A according to illustrative aspects of the present invention.

На фиг. 6C схематически изображено иллюстративное формирование звука 6DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения.In FIG. 6C schematically depicts an exemplary 6DoF audio generation based on the data representation and/or bitstream structure of FIG. 6A according to illustrative aspects of the present invention.

На фиг. 7A схематически изображено кодирующее преобразование А звука 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 7A is a schematic diagram of 6DoF audio coding transform A based on 3DoF audio signal data according to illustrative aspects of the present invention.

На фиг. 7B схематически изображено кодирующее преобразование A-1 звука 6DoF для аппроксимации/восстановления данных звукового сигнала 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 7B is a schematic representation of a 6DoF audio encoding transform A -1 for approximating/recovering 6DoF audio data based on 3DoF audio data, in accordance with illustrative aspects of the present invention.

На фиг. 7C схематически изображено иллюстративное формирование звука 6DoF на основании аппроксимированных/восстановленных данных звукового сигнала 6DoF по фиг. 7B согласно иллюстративным аспектам настоящего изобретения.In FIG. 7C schematically depicts an exemplary 6DoF audio generation based on the approximated/reconstructed 6DoF audio signal data of FIG. 7B according to illustrative aspects of the present invention.

На фиг. 8 схематически изображена иллюстративная блок-схема способа кодирования битового потока 3DoF/6DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 8 is a schematic diagram of an illustrative flowchart of a 3DoF/6DoF bitstream encoding method according to illustrative aspects of the present invention.

На фиг. 9 схематически изображена иллюстративная блок-схема способов формирования звука 3DoF и/или 6DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 9 is a schematic diagram of an illustrative flowchart of methods for generating 3DoF and/or 6DoF audio in accordance with illustrative aspects of the present invention.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

Далее предпочтительные иллюстративные аспекты будут описаны более подробно со ссылкой на сопроводительные фигуры. Одинаковые или подобные признаки на разных графических материалах и в разных вариантах осуществления могут быть обозначены подобными ссылочными номерами. Следует понимать, что подробное описание, представленное ниже и относящееся к различным предпочтительным иллюстративным аспектам, не должно восприниматься как ограничивающее объем настоящего изобретения.In the following, preferred illustrative aspects will be described in more detail with reference to the accompanying figures. The same or similar features in different drawings and in different embodiments may be denoted by like reference numerals. It should be understood that the detailed description provided below and relating to various preferred illustrative aspects should not be taken as limiting the scope of the present invention.

В контексте настоящего документа термин «MPEG-H 3D Audio» относится к техническому описанию, указанному в стандарте ISO/IEC 23008-3 и/или в любых прошлых и/или будущих редакциях, изданиях или других версиях стандарта ISO/IEC 23008-3.In the context of this document, the term "MPEG-H 3D Audio" refers to the technical specification specified in ISO/IEC 23008-3 and/or any past and/or future revisions, editions or other versions of ISO/IEC 23008-3.

В контексте настоящего документа желательно, чтобы реализация звука 3D MPEG-I расширяла функциональность 3DoF (и 3DoF+) до звука 3D 6DoF, при этом предпочтительно обеспечивая обратную совместимость с формированием 3DoF. In the context of this document, it is desirable that an implementation of 3D MPEG-I audio extend 3DoF (and 3DoF+) functionality to 3D 6DoF audio while preferably being backwards compatible with 3DoF shaping.

В контексте настоящего документа 3DoF обычно является системой, которая может правильно обрабатывать движение головы пользователя, в частности поворот головы, характеризующийся тремя параметрами (например, движение рыскания, тангажа, крена). Такие системы часто доступны в различных игровых системах, таких как системы виртуальной реальности (VR)/дополненной реальности (AR)/смешанной реальности (MR) или другие акустические среды такого типа.In the context of this document, 3DoF is typically a system that can correctly handle the movement of the user's head, in particular head rotation, characterized by three parameters (eg, yaw, pitch, roll). Such systems are often available in various gaming systems such as virtual reality (VR)/augmented reality (AR)/mixed reality (MR) systems or other acoustic environments of this type.

В контексте настоящего документа 6DoF обычно является системой, которая может правильно обрабатывать 3DoF и поступательное движение.In the context of this document, 6DoF is typically a system that can handle 3DoF and translation correctly.

Иллюстративные аспекты настоящего изобретения относятся к звуковой системе (например, звуковой системе, совместимой со стандартом MPEG-I Аudio), где модуль формирования звука расширяет функциональность до 6DoF путем преобразования соответствующих метаданных в формат 3DoF, такой как входной формат модуля формирования звука, совместимый со стандартом MPEG (например, стандартом MPEG-H 3DA).Exemplary aspects of the present invention relate to a sound system (e.g., an MPEG-I Audio compliant sound system) where an audio renderer extends functionality to 6DoF by converting the corresponding metadata to a 3DoF format, such as an audio renderer input format compliant with the MPEG-I Audio standard. MPEG (eg MPEG-H 3DA).

На фиг. 1 показана иллюстративная система 100, выполненная с возможностью использования расширений метаданных и/или расширений модуля формирования звука в дополнение к существующим системам 3DoF, чтобы обеспечить возможность опыта применения 6DoF. Система 100 включает исходную среду 101 (которая в качестве примера может включать один или более источников 101a звука), формат 102 контента (например битовый поток, содержащий звуковые данные 3D), кодирующее устройство 103 и предложенное расширение 106 кодирующего устройства метаданных. Система 100 также может включать модуль 105 формирования звука 3D (например модуль формирования 3DoF), и предложенные расширения 107 модуля формирования (например, расширения модуля формирования 6DoF для воспроизведенной среды 108).In FIG. 1 shows an exemplary system 100 configured to use metadata extensions and/or sound engine extensions in addition to existing 3DoF systems to enable a 6DoF application experience. System 100 includes a source environment 101 (which may include one or more audio sources 101a by way of example), a content format 102 (eg, a bitstream containing 3D audio data), an encoder 103, and a proposed metadata encoder extension 106. System 100 may also include a 3D audio renderer 105 (eg, 3DoF renderer), and proposed renderer extensions 107 (eg, 6DoF renderer extensions for rendered environment 108).

В способе формирования звука 3D с 3DoF только углы (например угол y движения рыскания, угол p движения тангажа, угол r движения крена) угловой ориентации пользователя в заданном положении 3DoF могут быть введены в модуль 105 формирования звука 3DoF. С расширенной до 6DoF функциональностью координаты местоположения пользователя (например x, y и z) могут быть дополнительно введены в модуль формирования звука 6DoF (модуль формирования расширений). In the 3DoF 3D sound generation method, only the angles (eg, yaw motion angle y, pitch motion angle p, roll motion angle r) of the user's angular orientation at the 3DoF predetermined position may be input to the 3DoF sound generating unit 105. With the functionality extended to 6DoF, user location coordinates (eg, x, y, and z) can be further input into the 6DoF sound generation module (extension generation module).

Преимущество настоящего изобретения заключается в улучшениях скорости передачи битов битового потока, передаваемого между кодирующим устройством и декодирующим устройством. Битовый поток может быть закодирован и/или декодирован в соответствии со стандартом, например стандартом MPEG-I Audio и/или стандартом MPEG-H 3D Audio, или по меньшей мере обратно совместимым со стандартом, таким как стандарт MPEG-H 3D Audio. An advantage of the present invention lies in the improvements in the bit rate of a bitstream transmitted between an encoder and a decoder. The bitstream may be encoded and/or decoded according to a standard, such as the MPEG-I Audio standard and/or the MPEG-H 3D Audio standard, or at least backward compatible with a standard, such as the MPEG-H 3D Audio standard.

В некоторых примерах иллюстративные аспекты настоящего изобретения относятся к обработке одного битового потока (например, битового потока (BS) MPEG-H 3D Audio (3DA) или битового потока, использующего синтаксис MPEG-H 3DA BS), совместимого со множеством систем. In some examples, illustrative aspects of the present invention relate to the processing of a single bitstream (eg, an MPEG-H 3D Audio (3DA) bitstream (BS) or a bitstream using MPEG-H 3DA BS syntax) compatible with multiple systems.

Например, в некоторых иллюстративных аспектах звуковой битовый поток может быть совместимым с двумя или более разными модулями формирования, например, модулем формирования звука 3DoF, который может быть совместимым с одним стандартом (например, стандартом MPEG-H 3D Audio), и недавно определенным модулем формирования звука 6DoF или расширением модуля формирования, который может быть совместимым со вторым, отличающимся стандартом (например, стандартом MPEG-I Audio). For example, in some exemplary aspects, an audio bitstream may be compatible with two or more different renderers, e.g., a 3DoF audio renderer, which may be compatible with one standard (e.g., the MPEG-H 3D Audio standard), and a newly defined renderer. 6DoF audio or an extension of the rendering module, which may be compatible with a second, different standard (for example, the MPEG-I Audio standard).

Иллюстративные аспекты настоящего изобретения относятся к разным декодирующим устройствам, выполненным с возможностью выполнения декодирования и формирования одинакового звукового битового потока, предпочтительно для создания одинакового вывода звука. Exemplary aspects of the present invention relate to various decoders capable of performing decoding and generating the same audio bitstream, preferably to produce the same audio output.

Например, иллюстративные аспекты настоящего изобретения относятся к декодирующему устройству 3DoF и/или модулю формирования 3DoF и/или декодирующему устройству 6DoF и/или модулю формирования 6DoF, выполненным с возможностью создания одинакового вывода для одинакового битового потока (например, 3DA BS или битового потока, использующего 3DA BS). В качестве примера битовый поток может содержать информацию, относящуюся к определенным положения слушается в пространстве VR/AR/MR (виртуальной реальности/дополненной реальности/смешанной реальности), например как часть метаданных 6DoF.For example, exemplary aspects of the present invention relate to a 3DoF decoder and/or a 3DoF generator and/or a 6DoF decoder and/or a 6DoF generator capable of generating the same output for the same bitstream (e.g., a 3DA BS or a bitstream using 3DABS). As an example, a bitstream may contain information related to certain positions being listened to in VR/AR/MR (Virtual Reality/Augmented Reality/Mixed Reality) space, for example as part of 6DoF metadata.

В качестве примера настоящее изобретение дополнительно относится к кодирующим устройствам и/или декодирующим устройствам, выполненным с возможностью кодирования и/или декодирования, соответственно, информации 6DoF (например, совместимой со средой MPEG-I Audio), при этом такие кодирующие устройства и/или декодирующие устройства согласно настоящему изобретению обеспечивают одно или более из следующих преимуществ:By way of example, the present invention further relates to encoders and/or decoders capable of encoding and/or decoding, respectively, 6DoF information (e.g. compatible with the MPEG-I Audio environment), such encoders and/or decoders devices according to the present invention provide one or more of the following advantages:

• представления с эффективным качеством и скоростью передачи битов звуковых данных, связанных с VR/AR/MR, и его заключение в синтаксис звукового битового потока (например, MPEG-H 3D Audio BS);• a quality and bit rate efficient representation of the audio data associated with VR/AR/MR and wrapping it into an audio bitstream syntax (eg, MPEG-H 3D Audio BS);

• обратная совместимость между различными системами (например, стандартом MPEG-H 3DA и предусмотренным стандартом MPEG-I Audio).• Backward compatibility between different systems (eg MPEG-H 3DA standard and provided by MPEG-I Audio standard).

Предпочтительно для того, чтобы избежать конкуренции между решениями 3DoF и 6DoF, и для обеспечения плавного перехода между настоящими и будущими технологиями обратная совместимость имеет много преимуществ. Preferably in order to avoid competition between 3DoF and 6DoF solutions, and to ensure a smooth transition between present and future technologies, backward compatibility has many advantages.

Например, обратная совместимость между звуковой системой 3DoF и звуковой системой 6DoF может иметь много преимуществ, например предоставление в звуковой системе 6DoF, такой как MPEG-I Audio, обратной совместимости со звуковой системой 3DoF, такой как MPEG-H 3D Audio. For example, backward compatibility between a 3DoF sound system and a 6DoF sound system can have many advantages, such as allowing a 6DoF sound system such as MPEG-I Audio to be backward compatible with a 3DoF sound system such as MPEG-H 3D Audio.

Согласно иллюстративным аспектам настоящего изобретения это может быть реализовано путем обеспечения обратной совместимости, например на уровне битового потока для систем, относящихся к 6DoF и состоящих из: According to illustrative aspects of the present invention, this can be implemented by providing backward compatibility, for example, at the bitstream level for systems related to 6DoF and consisting of:

• закодированных данных и соответствующих метаданных звукового материала 3DoF; и • encoded data and associated metadata of the 3DoF audio material; and

• метаданных, относящихся к 6DoF.• metadata related to 6DoF.

Иллюстративные аспекты настоящего изобретения относятся к стандартному синтаксису битового потока 3DoF, такого как первый тип синтаксиса звукового битового потока (например, MPEG-H 3DA BS), который заключает элементы битового потока 6DoF, такие как элементы битового потока MPEG-I Audio, например, в один или более контейнеров расширения первого типа звукового битового потока (например, MPEG-H 3DA BS). Exemplary aspects of the present invention relate to a standard 3DoF bitstream syntax, such as the first type of audio bitstream syntax (e.g., MPEG-H 3DA BS), which encloses 6DoF bitstream elements, such as MPEG-I Audio bitstream elements, for example, in one or more extension containers of the first audio bitstream type (eg, MPEG-H 3DA BS).

Для предоставления системы, которая обеспечивает обратную совместимость на уровне производительности, следующие системы и/или структуры могут быть применимыми и могут использоваться:To provide a system that provides backward compatibility at the performance level, the following systems and/or frameworks may be applicable and may be used:

1a. Система 3DoF (например, системы, совместимые со стандартами MPEG-H 3DA) должны быть способны игнорировать все элементы синтаксиса, относящиеся к 6DoF (например, игнорировать элементы синтаксиса битового потока MPEG-I Audio, основанные на функциональности «mpegh3daExtElementConfig()» или «mpegh3daExtElement()» синтаксиса битового потока MPEG-H 3D Audio), т.е. система (декодирующее устройство/модуль формирования) 3DoF предпочтительно может быть выполнена таким образом, чтобы не учитывать дополнительные данные и/или метаданные, относящиеся к 6DoF (например, не считывая данные и/или метаданные, относящиеся к 6DoF); и1a. A 3DoF system (e.g. systems compliant with MPEG-H 3DA standards) should be able to ignore all 6DoF related syntax elements (e.g. ignore MPEG-I Audio bitstream syntax elements based on the "mpegh3daExtElementConfig()" or "mpegh3daExtElement ()" MPEG-H 3D Audio bitstream syntax), i.e. the 3DoF system (decoder/generator) can preferably be configured to ignore additional data and/or metadata related to 6DoF (for example, not reading data and/or metadata related to 6DoF); and

2a. Остальная часть полезных данных битового потока (например, полезные данные битового потока MPEG-I Audio, содержащие данные и/или метаданные, совместимые с синтаксическим анализатором битового потока MPEG-H 3DA) должна быть декодируемой системой 3DoF (например, унаследованной системой MPEG-H 3DA) для создания желаемого звукового вывода, т.е. система (декодирующее устройство/модуль формирования) 3DoF предпочтительно может быть выполнена с возможностью декодирования части BS, относящейся к 3DoF; и2a. The rest of the bitstream payload (e.g., MPEG-I Audio bitstream payload containing data and/or metadata compatible with the MPEG-H 3DA bitstream parser) shall be a 3DoF decodable system (e.g., legacy MPEG-H 3DA system ) to produce the desired audio output, i.e. the 3DoF system (decoder/generator) can preferably be configured to decode the 3DoF part of the BS; and

3a. Система 6DoF (например, система MPEG-I Audio) должна быть способна обрабатывать как части, относящиеся к 3DoF, так и части, относящиеся к 6DoF, звукового битового потока и создавать звуковой вывод, соответствующий звуковому выводу системы 3DoF (например, систем MPEG-H 3DA) в заданном обратно совместимом положении (положениях) 3DoF в пространстве VR/AR/MR, т.е. система (декодирующее устройство/модуль формирования) 6DoF предпочтительно может быть выполнена с возможностью формирования в положении (положениях) 3DoF по умолчанию звукового поля/звукового вывода, соответствующего сформированному звуковому полю/звуковому выводу 3DoF; и3a. A 6DoF system (e.g., an MPEG-I Audio system) must be able to process both the 3DoF-related parts and the 6DoF-related parts of an audio bitstream and produce audio output corresponding to the audio output of a 3DoF system (e.g., MPEG-H systems). 3DA) at a given backward compatible 3DoF position(s) in VR/AR/MR space, i.e. the 6DoF system (decoder/generation unit) can preferably be configured to generate, at the default 3DoF position(s), the sound field/sound output corresponding to the generated 3DoF sound field/sound output; and

4a. Система 6DoF (например, система MPEG-I Audio) должна обеспечивать плавное изменение (переход) звукового вывода вокруг заданного обратно совместимого положения (положений) 3DoF, (т.е., обеспечение непрерывного звукового поля в пространстве 6DoF), т.е. система (декодирующее устройство/модуль формирования) 6DoF предпочтительно может быть выполнена с возможностью формирования в окружениях положения (положений) 3DoF по умолчанию звукового поля/звукового вывода, который плавно переходит в положении (положениях) 3DoF по умолчанию в звуковое поле/звуковой вывод, сформированные 3DoF.4a. A 6DoF system (e.g., an MPEG-I Audio system) must provide a smooth change (transition) of the audio output around a given backward compatible 3DoF position(s), (i.e., providing a continuous sound field in 6DoF space), i.e. the 6DoF system (decoder/producer) can preferably be configured to generate in the environments the default 3DoF position(s) of the sound field/sound output that smoothly transitions in the default 3DoF position(s) to the sound field/sound output generated 3DoF.

В некоторых примерах настоящее изобретение относится к предоставлению модуля формирования звука 6DoF (например, к модулю формирования MPEG-I Audio), который создает такой же звуковой вывод, что и модуль формирования звука 3DoF (например, модуль формирования MPEG-H 3D Audio) в одном или более или в некотором положении (положениях) 3DoF. In some examples, the present invention relates to providing a 6DoF audio rendering module (e.g., an MPEG-I Audio rendering module) that produces the same audio output as a 3DoF audio rendering module (e.g., an MPEG-H 3D Audio rendering module) in one or more or at some 3DoF position(s).

В настоящее время существуют недостатки при непосредственной передаче звуковых сигналов и метаданных, относящихся к 3DoF, непосредственно в звуковую систему 6DoF, которые включают:There are currently disadvantages in directly transmitting 3DoF-related audio signals and metadata directly to a 6DoF audio system, which include:

1. Увеличение скорости передачи битов (т.е. звуковые сигналы и метаданные, относящиеся к 3DoF, отправляют в дополнение к звуковым сигналам и метаданным, относящимся к 6DoF); и1. Increasing the bit rate (ie, audio signals and metadata related to 3DoF are sent in addition to audio signals and metadata related to 6DoF); and

2. Ограниченная достоверность (т.е. звуковой сигнал (сигналы) и метаданные, относящиеся к 3DoF, достоверны только для положения (положений) 3DoF).2. Limited validity (i.e. the audio signal(s) and metadata related to 3DoF are only valid for the 3DoF position(s).

Иллюстративные аспекты настоящего изобретения относятся к преодолению вышеуказанных недостатков. Illustrative aspects of the present invention relate to overcoming the above disadvantages.

В некоторых примерах настоящее изобретение относится к:In some examples, the present invention relates to:

1. использованию звукового сигнала (сигналов) и метаданных, совместимых с 3DoF (например, сигналов и метаданных, совместимых с MPEG-H 3D Audio) вместо (или в качестве дополнения к) исходных сигналов и метаданных источников звука; и/или1. using 3DoF compatible audio signal(s) and metadata (such as MPEG-H 3D Audio compatible signals and metadata) instead of (or in addition to) the original audio source signals and metadata; and/or

2. увеличению диапазона применимости (использования для формирования 6DoF) от положения (положений) 3DoF до пространства 6DoF (определенного автором контента), при этом сохраняя высокий уровень аппроксимации звукового поля.2. increase the range of applicability (use for shaping 6DoF) from 3DoF position(s) to 6DoF space (defined by the content author), while maintaining a high sound field approximation level.

Иллюстративные аспекты настоящего изобретения относятся к эффективному созданию, кодированию, декодированию и формированию такого сигнала (сигналов) для достижения этих целей и для обеспечения функциональности формирования 6DoF.Exemplary aspects of the present invention relate to the efficient creation, encoding, decoding and generation of such signal(s) to achieve these goals and to provide 6DoF generation functionality.

На фиг. 2 изображен иллюстративный вид 202 сверху иллюстративной комнаты 201. Как показано на фиг. 2, иллюстративный слушатель стоит посередине комнаты с несколькими источниками звука и нетривиальными геометрическими формами стен. В приспособлениях 6DoF (например, системах, обеспечивающих возможности 6DoF), иллюстративный слушатель может перемещаться, но в некоторых примерах предполагается, что положение 206 3DoF по умолчанию может соответствовать предполагаемой области наилучшего восприятия звука VR/AR/MR (например, согласно настройке или намерению автора контента). In FIG. 2 shows an exemplary top view 202 of an exemplary room 201. As shown in FIG. 2, an exemplary listener stands in the middle of a room with multiple sound sources and non-trivial wall geometries. In 6DoF fixtures (e.g., systems providing 6DoF capabilities), the exemplary listener may move, but some examples suggest that the default 3DoF position 206 may correspond to the intended VR/AR/MR sweet spot (e.g., as per setup or author's intent). content).

В частности, на фиг. 2 изображены иллюстративные стены 203, пространство 204 6DoF, иллюстративные (необязательные) векторы 205 направленного действия (например, если один или более источников звука направленно испускает (испускают) звук), положение 206 слушателя 3DoF (положение 206 3DoF по умолчанию) и источники 207 звука, изображенные в качестве примера в форме звезды на фиг. 2.In particular, in FIG. 2 depicts exemplary walls 203, 6DoF space 204, exemplary (optional) directional vectors 205 (e.g., if one or more sound sources directionally emit(s) sound), 3DoF listener position 206 (default 3DoF position 206), and sound sources 207 , depicted as an example in the form of a star in FIG. 2.

На фиг. 3 изображена иллюстративная обстановка VR/AR/MR 6DoF, например, как на фиг. 2, а также звуковые объекты (звуковые данные + метаданные) 320, содержащиеся в битовом потоке 302 звука 3DoF (например, таком как битовый поток MPEG-H 3D Audio) и контейнере 303 расширения. Битовый поток 302 звука и контейнер 303 расширения могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).In FIG. 3 depicts an exemplary VR/AR/MR 6DoF environment, such as in FIG. 2 as well as audio objects (audio data+metadata) 320 contained in a 3DoF audio bitstream 302 (such as an MPEG-H 3D Audio bitstream, for example) and an extension container 303. The audio bitstream 302 and extension container 303 may be encoded with a device or system (eg, software, hardware, or cloud solution) compatible with the MPEG standard (eg, MPEG-H or MPEG-I).

Иллюстративные аспекты настоящего изобретения относятся к воссозданию звукового поля при использовании модуля формирования звука 6DoF (например, модуля формирования MPEG-I Audio) в «положении 3DoF» таким образом, чтобы соответствовать выходному сигналу (который может соответствовать или не соответствовать распространению звука согласно законам физики) модуля формирования звука 3DoF (например, модуля формирования MPEG-H Audio). Это звуковое поле предпочтительно должно быть основано на исходных «источниках звука» и отражают влияние сложных геометрических форм соответствующей среды VR/AR/MR (например, эффект «стен», структур, отражений звука, ревербераций и/или поглощений и т.д.). Exemplary aspects of the present invention relate to recreating a sound field using a 6DoF sound shaping module (e.g., an MPEG-I Audio shaping module) at the "3DoF position" in such a way as to match the output signal (which may or may not match sound propagation according to the laws of physics) a 3DoF audio rendering module (for example, an MPEG-H Audio rendering module). This sound field should preferably be based on the original "sound sources" and reflect the influence of the complex geometries of the respective VR/AR/MR environment (e.g. the effect of "walls", structures, sound reflections, reverberations and/or absorptions, etc.) .

Иллюстративные аспекты настоящего изобретения относятся к параметризации кодирующим устройством всей соответствующей информации, описывающей этот сценарий таким образом, чтобы обеспечить выполнение одного или более, или предпочтительно всех соответствующих требований (1a)–(4a), описанных выше.Illustrative aspects of the present invention relate to the encoder's parameterization of all relevant information describing this scenario in such a way as to ensure that one or more, or preferably all of the relevant requirements (1a)-(4a) described above, are met.

Если два режима формирования звука выполняются (т.е. 3DoF и 6DoF) параллельно и алгоритм интерполирования применяют к соответствующим выходным данным в пространстве 6DoF, такой подход будет приближенно оптимальным, поскольку он будет требовать: If two sound shaping modes (i.e. 3DoF and 6DoF) are performed in parallel and an interpolation algorithm is applied to the respective output data in 6DoF space, this approach will be approximately optimal since it will require:

• параллельного выполнения двух неодинаковых алгоритмов формирования (т.е. одного для конкретного положения 3DoF и одного для пространства 6DoF);• parallel execution of two different shaping algorithms (ie one for a specific 3DoF position and one for a 6DoF space);

• большого количества звуковых данных (для передачи дополнительных звуковых данных для модуля формирования звука 3DoF).• a large amount of audio data (for transmitting additional audio data for the 3DoF sound generation module).

Иллюстративные аспекты настоящего изобретения избегают вышеуказанных недостатков в том отношении, что предпочтительно выполняют только один режим формирования звука (например, вместо параллельного выполнения двух режимов формирования звука), и/или звуковые данные 3DoF предпочтительно используют для формирования звука 6DoF с дополнительными метаданными для восстановления и/или аппроксимации исходного сигнала (сигналов) источника (источников) звука (например, вместо передачи звуковых данных 3DoF и исходных данных источника (источников) звука). Exemplary aspects of the present invention avoid the above disadvantages in that only one sound generation mode is preferably performed (for example, instead of two sound generation modes being executed in parallel), and/or 3DoF audio data is preferably used to generate 6DoF audio with additional metadata for restoration and/ or an approximation of the original signal(s) of the audio source(s) (eg, instead of transmitting 3DoF audio data and original audio source(s) data).

Иллюстративные аспекты настоящего изобретения относятся к (1) одному алгоритму формирования звука 6DoF (например, совместимому с MPEG-I Audio), который предпочтительно создает точно такой же вывод, что и алгоритм формирования звука 3DoF (например, совместимый с MPEG-H 3DA) в конкретном положении (положениях), и/или (2) представлению звука (например звуковых данных 3DoF) и метаданных звука, относящихся к 6DoF, для сведения к минимуму избыточности в частях, относящихся к 3DoF и к VR/AR/MR, данных битового потока звука 6DoF (например, данных битового потока MPEG-I Audio).Illustrative aspects of the present invention relate to (1) one 6DoF audio generation algorithm (e.g., MPEG-I Audio compatible) that preferably produces exactly the same output as a 3DoF audio generation algorithm (e.g., MPEG-H 3DA compatible) in specific position(s), and/or (2) representation of audio (e.g., 3DoF audio data) and 6DoF-related audio metadata to minimize redundancy in the 3DoF and VR/AR/MR-related parts of the bitstream data 6DoF audio (for example, MPEG-I Audio bitstream data).

Иллюстративные аспекты настоящего изобретения относятся к использованию синтаксиса первого битового потока стандартизированного формата (например, MPEG-H 3DA BS) для заключения второго битового потока стандартизированного формата (например, будущих стандартов, таких как MPEG-I) или их частей и метаданных, относящихся к 6DoF, для: Illustrative aspects of the present invention relate to the use of the syntax of a first standardized format bitstream (e.g., MPEG-H 3DA BS) to enclose a second standardized format bitstream (e.g., future standards such as MPEG-I) or parts thereof and 6DoF related metadata. , for:

• передачи (например, в центральной части синтаксиса битового потока звука 3DoF) сигналов и метаданных источника звука, которые предпочтительно декодирует звуковая система 3DoF, и которые предпочтительно достаточно хорошо аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF (по умолчанию); и• conveying (eg, in the central part of the 3DoF audio bitstream syntax) audio source signals and metadata that the 3DoF audio system preferentially decodes, and that preferably approximates the desired sound field reasonably well at the 3DoF (default) position(s); and

• передачи (например, в части расширения синтаксиса битового потока звука 3DoF) метаданных, относящихся к 6DoF, и/или дополнительных данных (например, параметрические данные или/и данные сигналов), которые используются для аппроксимации (восстановления) исходных сигналов источника звука для формирования звука 6DoF.• transmission (eg, in terms of 3DoF audio bitstream syntax extension) of 6DoF-related metadata and/or additional data (eg, parametric data and/or signal data) that are used to approximate (restore) the original audio source signals to form 6DoF sound.

Один аспект настоящего изобретения относится к определению желаемого «положения (положений) 3DoF» и сигналов, совместимых со звуковой системой 3DoF (например, системой MPEG-H 3DA), на стороне кодирующего устройства.One aspect of the present invention relates to determining the desired "3DoF position(s)" and signals compatible with a 3DoF audio system (eg, MPEG-H 3DA system) at the encoder side.

Например, как показано относительно фиг. 3, сигналы виртуального объекта 3DA для 3DA могут создавать одинаковое звуковое поле в конкретном положении 3DoF (на основании сигналов x3DA), что предпочтительно должно содержать эффекты среды VR для конкретного положения (положений) 3DoF («обработанные» сигналы), поскольку некоторые системы 3DoF (такие как система MPEG-H 3DA) не могут учитывать эффекты среды VR/AR/MR (например, поглощение, реверберация и т.д.). Способы и процессы, изображенные на фиг. 3, могут быть выполнены с помощью различных систем и/или продуктов.For example, as shown with respect to FIG. 3, 3DA virtual object signals for 3DA may produce the same sound field at a specific 3DoF position (based on x 3DA signals), which should preferably contain VR environment effects for the specific 3DoF position(s) ("processed" signals), since some 3DoF systems (such as the MPEG-H 3DA system) cannot take into account the effects of the VR/AR/MR environment (eg absorption, reverb, etc.). The methods and processes depicted in FIG. 3 can be implemented with various systems and/or products.

В некоторых иллюстративных аспектах обратная функция А-1, которая предпочтительно «приводит в необработанное состояние» (т.е. удаляет эффекты среды VR) эти сигналы, будет полезной, поскольку это необходимо для аппроксимации исходных «необработанных» сигналов x (которые не содержат эффектов среды VR). In some exemplary aspects, the inverse function A -1 , which preferably "raws" (i.e., removes VR environment effects) these signals, will be useful as it is necessary to approximate the original "raw" signals x (which do not contain effects VR environments).

Звуковой сигнал (сигналы) для формирования 3DoF ((x3DA)) может быть предпочтительно определен для обеспечения одинакового/похожего вывода как для формирования звука 3DoF, так и для формирования звука 6DoF, например на основании следующего:The audio signal(s) for generating 3DoF ((x 3DA )) can preferably be defined to provide the same/similar output for both 3DoF audio and 6DoF audio, for example based on the following:

Figure 00000001
Уравнение № (1)
Figure 00000001
Equation No. (1)

Звуковые объекты могут содержаться в стандартизованном битовом потоке. Этот битовый поток может быть закодирован в соответствии с различными стандартами, такими как MPEG-H 3DA и/или MPEG-I. Audio objects may be contained in a standardized bitstream. This bitstream may be encoded according to various standards such as MPEG-H 3DA and/or MPEG-I.

BS может содержать информацию о сигналах объекта, направлениях объектов и расстояниях до объектов.The BS may contain information about object signals, object directions, and object distances.

На фиг. 3 дополнительно изображен пример контейнера 303 расширения, который может содержать метаданные расширения, например в BS. Контейнер 303 расширения BS может содержать по меньшей мере одно из следующих метаданных: (i) параметры положения 3DoF (по умолчанию); (ii) параметры описания пространства 6DoF (координаты объектов); (iii) (необязательные) параметры направленности объекта; (iv) (необязательные) параметры среды VR/AR/MR; и/или (v) (необязательные) параметры ослабления с увеличением дальности, параметры поглощения и/или параметры реверберации и т.д. In FIG. 3 further shows an example of an extension container 303 that may contain extension metadata, such as in a BS. The BS extension container 303 may contain at least one of the following metadata: (i) 3DoF position parameters (default); (ii) 6DoF space description parameters (object coordinates); (iii) (optional) object directivity parameters; (iv) (optional) VR/AR/MR environment parameters; and/or (v) (optional) range attenuation parameters, absorption parameters and/or reverberation parameters, etc.

Может осуществляться аппроксимация желаемого формирования звука на основании следующего:The desired sound shaping can be approximated based on the following:

Figure 00000002
Уравнение № (2)
Figure 00000002
Equation No. (2)

Аппроксимация может быть основана на среде VR, при этом характеристики среды могут быть включены в метаданные контейнера расширения.The approximation may be based on the VR environment, and the characteristics of the environment may be included in the metadata of the extension container.

Дополнительно или по выбору может быть предусмотрена плавность вывода модуля формирования звука 6DoF (например, модуля формирования MPEG-I Audio) предпочтительно на основании следующего: Additionally or optionally, the smoothness of the output of a 6DoF audio rendering module (for example, an MPEG-I Audio rendering module) may be provided, preferably based on the following:

Figure 00000003
- класс геометрической непрерывности Уравнение № (3)
Figure 00000003
- class of geometric continuity Equation No. (3)

Иллюстративные аспекты настоящего изобретения относятся к определению объектов звука 3DoF (например, объектов MPEG-H 3DA) на стороне кодирующего устройства предпочтительно на основании следующего:Exemplary aspects of the present invention relate to the definition of 3DoF audio objects (eg, MPEG-H 3DA objects) at the encoder side, preferably based on the following:

Figure 00000004
Уравнение № (4)
Figure 00000004
Equation No. (4)

Один аспект настоящего изобретения относится к восстановлению исходных объектов на декодирующем устройстве на основании следующего: One aspect of the present invention relates to the restoration of the original objects on the decoder based on the following:

Figure 00000005
Уравнение № (5)
Figure 00000005
Equation No. (5)

при этом

Figure 00000006
относится к сигналам источника звука/объекта,
Figure 00000007
относится к аппроксимации сигналов источника звука/объекта, F(x) для 3DoF / для 6DoF относится к функции формирования звука для положения (положений) слушателя 3DoF / 6DoF, 3DoF относится к заданному положению (положениям) с эталонной совместимостью ∈ пространство 6DoF; 6DoF относятся к произвольному разрешенному положению (положениям) ∈ обстановки VR; wherein
Figure 00000006
refers to sound source/object signals,
Figure 00000007
refers to sound source/object signal approximation, F(x) for 3DoF / for 6DoF refers to sound shaping function for 3DoF / 6DoF listener position(s), 3DoF refers to target position(s) with reference compatibility ∈ 6DoF space; 6DoF refer to arbitrary allowed position(s) ∈ VR environment;

• F6DoF(x) относится к обусловленному декодирующим устройством формированию звука 6DoF (например, формированию MPEG-I Audio);• F 6DoF (x) refers to decoder-conditioned 6DoF audio shaping (eg, MPEG-I Audio shaping);

• F3DoF(x3DA) относится к обусловленному декодирующим устройством формированию 3DoF (например, формированию MPEG-H 3DA); и • F 3DoF (x 3DA ) refers to decoder-conditioned 3DoF shaping (eg, MPEG-H 3DA shaping); and

• A, A-1 относятся к функции (A), аппроксимирующей сигналы x3DA на основании сигналов x, и функции (A-1), обратной ей. • A, A -1 refers to a function (A) approximating the x 3DA signals based on the x signals and a function (A -1 ) inverse to it.

Аппроксимированные сигналы источников звука/объекта предпочтительно воспроизводят, используя модуль формирования звука 6DoF, в «положении 3DoF» таким образом, который соответствует выходному сигналу модуля формирования звука 3DoF. Approximate sound source/object signals are preferably reproduced using the 6DoF sound generator at the "3DoF position" in a manner that corresponds to the output of the 3DoF sound generator.

Сигналы источников звука/объекта предпочтительно аппроксимируют на основании звукового поля, которое основано на исходных «источниках звука» и отражает влияние сложных геометрических форм соответствующей среды VR/AR/MR (например, «стен», структур, ревербераций, поглощений и т.д.).Sound source/object signals are preferably approximated based on a sound field that is based on the original "sound sources" and reflects the influence of the complex geometries of the associated VR/AR/MR environment (e.g., "walls", structures, reverberations, absorptions, etc.). ).

Другими словами, сигналы виртуального объекта 3DA для 3DA предпочтительно создают одинаковое звуковое поле в конкретном положении 3DoF (на основании сигналов x3DA), которое содержит эффекты среды VR для конкретного положения (положений) 3DoF.In other words, the 3DA virtual object signals for 3DA preferably produce the same sound field at a specific 3DoF position (based on the x 3DA signals) that contains the VR environment effects for the specific 3DoF position(s).

Следующее может быть доступно на стороне формирования (например, декодирующему устройству, соответствующему стандарту, такому как стандарты MPEG-H или MPEG-I): The following may be available on the generation side (for example, to a decoder conforming to a standard such as the MPEG-H or MPEG-I standards):

• звуковой сигнал (сигналы) для формирования звука 3DoF: x3DA • sound signal(s) for 3DoF sound generation: x 3DA

• функциональность формирования звука 3DoF или формирования звука 6DoF:• 3DoF sound shaping or 6DoF sound shaping functionality:

Figure 00000008
Уравнение № (6)
Figure 00000008
Equation No. (6)

Для формирования звука 6DoF дополнительно могут присутствовать метаданные 6DoF, доступные на стороне формирования для функциональности формирования звука 6DoF (например, для аппроксимации/восстановления звуковых сигналов x одного или более источников звука, например на основании звуковых сигналов x3DA 3DoF и метаданных 6DoF.For 6DoF audio generation, there may additionally be 6DoF metadata available on the generation side for 6DoF audio generation functionality (e.g., to approximate/restore audio signals x of one or more sound sources, e.g. based on 3DA 3DoF audio signals x and 6DoF metadata.

Иллюстративные аспекты настоящего изобретения относятся к (i) определению звуковых объектов 3DoF (например, объектов MPEG-H 3DA) и/или (ii) восстановлению (аппроксимации) исходных звуковых объектов. Exemplary aspects of the present invention relate to (i) defining 3DoF audio objects (eg, 3DA MPEG-H objects) and/or (ii) restoring (approximating) the original audio objects.

В качестве примера звуковые объекты могут содержаться в битовом потоке звука 3DoF (таком как MPEG-H 3DA BS). As an example, audio objects may be contained in a 3DoF audio bitstream (such as MPEG-H 3DA BS).

Битовый поток может содержать информацию о звуковых сигналах объектов, направлениях объектов и/или расстояниях до объектов. The bitstream may contain information about object sounds, object directions, and/or object distances.

Контейнер расширения (например, битового потока, такого как MPEG-H 3DA BS) может содержать по меньшей мере одно из следующих метаданных: (i) параметры положения 3DoF (по умолчанию); (ii) параметры описания пространства 6DoF (координаты объектов); (iii) (необязательные) параметры направленности объекта; (iv) (необязательные) параметры среды VR/AR/MR; и/или (v) (необязательные) параметры ослабления с увеличением дальности, параметры поглощения, параметры реверберации и т.д. An extension container (eg, a bitstream such as MPEG-H 3DA BS) may contain at least one of the following metadata: (i) 3DoF position parameters (default); (ii) 6DoF space description parameters (object coordinates); (iii) (optional) object directivity parameters; (iv) (optional) VR/AR/MR environment parameters; and/or (v) (optional) range attenuation parameters, absorption parameters, reverberation parameters, etc.

Настоящее изобретение может обеспечивать следующие преимущества: The present invention can provide the following benefits:

• Обратная совместимость с декодированием и формированием звука 3DoF (например, с декодированием и формированием MPEG-H 3DA): вывод модуля формирования звука 6DoF (например, модуля формирования MPEG-I Audio) соответствует выводу формирования 3DoF движка формирования 3DoF (например, движка формирования MPEG-H 3DA) для заданного положения (положений) 3DoF. • Backward compatible with 3DoF audio decoding and shaping (such as MPEG-H 3DA decoding and shaping): the output of a 6DoF audio shaping module (such as an MPEG-I Audio shaping module) corresponds to the 3DoF shaping output of a 3DoF shaping engine (such as an MPEG shaping engine). -H 3DA) for the given 3DoF position(s).

• Эффективность кодирования: для этого подхода можно с эффективностью повторно использовать унаследованную структуру синтаксиса битового потока звука 3DoF (например, синтаксиса битового потока MPEG-H 3DA). • Encoding efficiency: For this approach, the legacy structure of the 3DoF audio bitstream syntax (eg MPEG-H 3DA bitstream syntax) can be efficiently reused.

• Управление качеством звука в заданном положении (положениях) (3DoF): наилучшее качество воспринимаемого звука может в явной форме обеспечить кодирующее устройство для любого произвольного положения (положений) и соответствующего пространства 6DoF. • Sound quality control at specified position(s) (3DoF): The best perceived sound quality can be explicitly provided by an encoder for any arbitrary position(s) and corresponding 6DoF space.

Иллюстративные аспекты настоящего изобретения могут относиться к следующей передаче сигналов в формате, совместимом с битовым потоком стандарта MPEG (например, стандарта MPEG-I):Exemplary aspects of the present invention may relate to the following signaling in a format compatible with an MPEG bitstream (eg, MPEG-I):

• Предполагается, что звуковая система 3DoF (например, MPEG-H 3DA) обеспечивает совместимость передачи сигналов посредством механизма контейнера расширения (например, MPEG-H 3DA BS), что позволяет алгоритму обработки звука 6DoF (например, совместимому с MPEG-I Audio) восстанавливать исходные сигналы звукового объекта.• A 3DoF sound system (eg MPEG-H 3DA) is assumed to provide signaling compatibility through an extension container mechanism (eg MPEG-H 3DA BS), which allows a 6DoF audio processing algorithm (eg MPEG-I Audio compatible) to recover the original signals of the sound object.

• Параметризация описывает данные для аппроксимации исходных сигналов звукового объекта.• Parameterization describes data for approximating the original audio object signals.

Модуль формирования звука 6DoF может уточнять, как восстановить исходные сигналы звукового объекта, например, в системе, совместимой с MPEG (например, системе MPEG-I Audio). The 6DoF audio generation module may specify how to restore the original audio object signals, for example, in an MPEG-compatible system (eg, an MPEG-I Audio system).

Эта предложенная концепция:This proposed concept:

• является общей в отношении определения функции аппроксимации (т.е. A(x)); • is generic with respect to the definition of the approximation function (ie A(x));

• может быть произвольно сложной, но на стороне декодирующего устройства должна присутствовать соответствующая аппроксимация (т.е.

Figure 00000009
); • can be arbitrarily complex, but on the side of the decoder there must be an appropriate approximation (i.e.
Figure 00000009
);

• приблизительно является «однозначно определенной» математически (например, алгоритмически устойчивой и т.д.);• is approximately “uniquely defined” mathematically (eg, algorithmically stable, etc.);

• является общей применительно к типам функции аппроксимации (т.е. A(x)); • is general in relation to the types of the approximation function (ie A(x));

• функция аппроксимации может быть основана на следующих типах аппроксимации или на любом сочетании этих подходов (перечисленных в порядке увеличения расхода скорости передачи битов):• The fit function can be based on the following types of fit, or any combination of these approaches (listed in order of increasing bit rate overhead):

- параметризованный звуковой эффект (эффекты), применяемые для сигнала x3DA (например, параметрически управляемый уровень, реверберация, отражение, поглощение и т.д.);- parameterized sound effect(s) applied to the x 3DA signal (eg parametrically controlled level, reverb, reflection, absorption, etc.);

- параметрически закодированная модификация (модификации) (например, переменные во времени/частоте усиления модификации для переданного сигнала x3DA);- parametrically encoded modification(s) (eg time/frequency variable amplification modifications for the transmitted signal x 3DA );

- сигнально закодированная модификация (модификации) (например, закодированные сигналы, аппроксимирующие остаточную форму колебаний (x - x3DA)); и- signal-coded modification(s) (for example, coded signals approximating the residual waveform (x - x 3DA )); and

• является расширяемой и применимой к общим представлениям звукового поля и источников звука (и их сочетаниям): объектам, каналам, FOA, HOA.• is extensible and applicable to general representations of the sound field and sound sources (and their combinations): objects, channels, FOA, HOA.

На фиг. 6A схематически изображены иллюстративное представление данных и/или структура битового потока согласно иллюстративным аспектам настоящего изобретения. Представление данных и/или структура битового потока могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).In FIG. 6A schematically depicts an exemplary data representation and/or bitstream structure in accordance with exemplary aspects of the present invention. The data representation and/or bitstream structure may be encoded with a device or system (eg, software, hardware, or through a cloud solution) compatible with the MPEG standard (eg, MPEG-H or MPEG-I).

В качестве примера битовый поток BS содержит первую часть 302 битового потока, содержащую закодированные звуковые данные 3DoF (например, в основной части или центральной части битового потока). Предпочтительно синтаксис битового потока BS является совместимым или соответствующим синтаксису BS формирования звука 3DoF, такому как, например, синтаксис битового потока MPEG-H 3DA. Закодированные звуковые данные 3DoF могут быть включены в качестве полезных данных в один или более пакетов битового потока BS. As an example, the BS bitstream contains a first bitstream part 302 containing 3DoF encoded audio data (eg, in the main part or center part of the bitstream). Preferably, the syntax of the BS bitstream is compatible with or corresponding to the syntax of the 3DoF audio generation BS, such as, for example, the syntax of the MPEG-H 3DA bitstream. The encoded 3DoF audio data may be included as payload data in one or more BS bitstream packets.

Как было описано ранее, например в связи с фиг. 3 выше, закодированные звуковые данные 3DoF могут включать сигналы одного или более звуковых объектов (например, на сфере вокруг положения 3DoF по умолчанию). Для направленных звуковых объектов закодированные звуковые данные 3DoF дополнительно могут необязательно включать направления объектов и/или дополнительно могут необязательно указывать на расстояния до объектов (например, путем использования усиления и/или одного или более параметров ослабления).As previously described, for example in connection with FIG. 3 above, the encoded 3DoF audio data may include signals from one or more audio objects (eg, on a sphere around the default 3DoF position). For directional audio objects, the encoded 3DoF audio data may additionally optionally include object directions and/or may additionally optionally indicate distances to objects (eg, by using gain and/or one or more attenuation parameters).

В качестве примера BS содержит вторую часть 303 битового потока, содержащую метаданные 6DoF, для кодирования звука 6DoF (например, в части метаданных или части расширения битового потока). Предпочтительно синтаксис битового потока BS является совместимым или соответствующим синтаксису BS формирования звука 3DoF, такому как, например, синтаксис битового потока MPEG-H 3DA. Метаданные 6DoF могут быть включены в качестве метаданных расширения в один или более пакетов битового потока BS (например, в один или более контейнеров расширения, которые, например, уже предоставлены посредством структуры битового потока MPEG-H 3DA). As an example, the BS contains a second bitstream part 303 containing 6DoF metadata for encoding 6DoF audio (eg, in a metadata part or a bitstream extension part). Preferably, the syntax of the BS bitstream is compatible with or corresponding to the syntax of the 3DoF audio generation BS, such as, for example, the syntax of the MPEG-H 3DA bitstream. The 6DoF metadata may be included as extension metadata in one or more BS bitstream packets (eg, in one or more extension containers, which, for example, are already provided via the MPEG-H 3DA bitstream structure).

Как было описано ранее, например в связи с фиг. 3 выше, метаданные 6DoF могут включать данные положения (например, координату (координаты)) одного или более положений 3DoF (по умолчанию), дополнительно необязательно описание пространства 6DoF (например, координаты объектов), дополнительно необязательно направленности объектов, дополнительно необязательно метаданные, описывающие и/или параметризующие среду VR и/или дополнительно необязательно включать информацию о параметризации и/или параметры, относящиеся к ослаблению, поглощениям и/или реверберациям и т.д. As previously described, for example in connection with FIG. 3 above, the 6DoF metadata may include position data (e.g., coordinate(s)) of one or more 3DoF positions (default), optionally a description of the 6DoF space (e.g., object coordinates), optionally the directionality of objects, optionally metadata describing and /or parametrizing the VR environment and/or optionally include parameterization information and/or parameters related to attenuation, absorptions and/or reverberations, etc.

На фиг. 6B схематически изображено иллюстративное формирование звука 3DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения. Как и на фиг. 6a, представление данных и/или структура битового потока могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).In FIG. 6B schematically depicts an exemplary 3DoF audio generation based on the data representation and/or bitstream structure of FIG. 6A according to illustrative aspects of the present invention. As in FIG. 6a, the data representation and/or bitstream structure may be encoded with a device or system (eg, software, hardware, or via a cloud solution) compatible with the MPEG standard (eg, MPEG-H or MPEG-I).

В частности, на фиг. 6B иллюстративно изображено, что формирования звука 3DoF можно достичь с помощью модуля формирования звука 3DoF, который может исключать метаданные 6DoF для того, чтобы выполнять формирование звука 3DoF на основании только закодированных звуковых данных 3DoF, полученных из первой части 302 битового потока. То есть, например, в случае обратной совместимости с MPEG-H 3DA модуль формирования MPEG-H 3DA может эффективно и надежно игнорировать/исключать метаданные 6DoF в части расширения (например, контейнере (контейнерах) расширения) битового потока для того, чтобы выполнять эффективное обычное формирование звука MPEG-H 3DA 3DoF (или 3DoF+) на основании только закодированных звуковых данных 3DoF, полученных из первой части 302 битового потока. In particular, in FIG. 6B exemplarily shows that 3DoF audio generation can be achieved with a 3DoF audio generation module that can eliminate 6DoF metadata in order to perform 3DoF audio generation based on only encoded 3DoF audio data obtained from the first bitstream portion 302. That is, for example, in the case of backward compatibility with MPEG-H 3DA, the MPEG-H 3DA generation module can effectively and reliably ignore/eliminate 6DoF metadata in an extension part (e.g., extension container(s)) of a bitstream in order to perform an efficient conventional generating an MPEG-H 3DA 3DoF (or 3DoF+) audio based only on the encoded 3DoF audio data obtained from the first part 302 of the bitstream.

На фиг. 6C схематически изображено иллюстративное формирование звука 6DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения. Как и на фиг. 6a, представление данных и/или структура битового потока могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).In FIG. 6C schematically depicts an exemplary 6DoF audio generation based on the data representation and/or bitstream structure of FIG. 6A according to illustrative aspects of the present invention. As in FIG. 6a, the data representation and/or bitstream structure may be encoded with a device or system (eg, software, hardware, or via a cloud solution) compatible with the MPEG standard (eg, MPEG-H or MPEG-I).

В частности, на фиг. 6C иллюстративно изображено, что формирования звука 6DoF можно достичь с помощью нового модуля формирования звука 6DoF (например, согласно MPEG-I или более поздним стандартам), который использует закодированные звуковые данные 3DoF, полученные из первой части 302 битового потока, вместе с метаданными 6DoF, полученными из второй части 303 битового потока, для выполнения формирования звука 6DoF на основании закодированных звуковых данных 3DoF, полученных из первой части 302 битового потока, и метаданных 6DoF, полученных из второй части 303 битового потока.In particular, in FIG. 6C exemplarily depicts that 6DoF audio generation can be achieved with a new 6DoF audio generation module (e.g., according to MPEG-I or later standards) that uses encoded 3DoF audio data obtained from the first bitstream part 302, along with 6DoF metadata, obtained from the second bitstream part 303 to perform 6DoF audio generation based on the encoded 3DoF audio data obtained from the first bitstream part 302 and the 6DoF metadata obtained from the second bitstream part 303.

Соответственно, с отсутствующей или по меньшей мере со сниженной избыточностью в битовом потоке один и тот же битовый поток может быть использован унаследованными модулями формирования звука 3DoF, что обеспечивает простую и полезную обратную совместимость, для формирования звука 3DoF и новыми модулями формирования звука 6DoF для формирования звука 6DoF. Accordingly, with no or at least reduced redundancy in the bitstream, the same bitstream can be used by legacy 3DoF audio generators, providing simple and useful backwards compatibility, for 3DoF audio generation, and new 6DoF audio generators for sound generation. 6DoF.

На фиг. 7A схематически изображено кодирующее преобразование A звука 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения. Преобразование (и любые обратные преобразования) могут быть выполнены согласно способам, процессам, устройству или системам (например, программному обеспечению, аппаратному обеспечению или посредством облачного решения), совместимым со стандартом MPEG (например, MPEG-H или MPEG-I).In FIG. 7A is a schematic diagram of a 6DoF audio encoding transform A based on 3DoF audio signal data, according to exemplary aspects of the present invention. The transformation (and any inverse transformations) may be performed according to methods, processes, apparatus or systems (eg, software, hardware, or via a cloud solution) compatible with the MPEG standard (eg, MPEG-H or MPEG-I).

В качестве примера, подобно фиг. 2 и фиг. 3 выше, на фиг. 7A показан иллюстративный вид 202 сверху комнаты, включающий в качестве примера множество источников 207 звука (которые могут быть расположены за стенами 203 или их звуковым сигналам могут препятствовать другие структуры, что может привести к эффектам ослабления, реверберации и/или поглощения). As an example, similar to FIG. 2 and FIG. 3 above, in FIG. 7A shows an exemplary room top view 202 including, by way of example, a plurality of sound sources 207 (which may be located behind walls 203 or may be obstructed by other structures, which may result in attenuation, reverberation, and/or absorption effects).

В целях формирования звука 3DoF звуковые сигналы x множества источников 207 звука преобразуют таким образом, чтобы получить звуковые сигналы (звуковые объекты) 3DoF на сфере S вокруг положения 206 3DoF по умолчанию (например, положения слушателя в звуковом поле 3DoF). Как указано выше, звуковые сигналы 3DoF обозначены как x3DA и могут быть получены с использованием функции A преобразования, так что:For the purpose of generating 3DoF sound, the audio signals x of the plurality of sound sources 207 are converted so as to obtain 3DoF audio signals (sound objects) on the sphere S around the default 3DoF position 206 (eg, the listener's position in the 3DoF sound field). As stated above, 3DoF audio signals are denoted x 3DA and can be obtained using the transform function A, so that:

x3DA = A(x) Уравнение № (6)x 3DA = A(x) Equation no. (6)

В вышеуказанном выражении x обозначает источник(и) звука/сигнал(ы) объекта, x3DA обозначает соответствующие сигналы виртуального объекта 3DA для 3DA, создающие одинаковое звуковое поле в положении 206 3DoF по умолчанию, и A обозначает функцию преобразования, которая аппроксимирует звуковые сигналы x3DA на основании звуковых сигналов x. Функция A-1 обратного преобразования может быть использована для восстановления/аппроксимации сигналов источника звука для формирования звука 6DoF, как рассмотрено выше и будет рассмотрено ниже. Следует отметить, что AA-1=1 и A-1A=1 или по меньшей мере AA-1≈1 и A-1A≈1.In the above expression, x denotes the sound source(s)/object signal(s), x 3DA denotes the respective 3DA virtual object signals of 3DA producing the same sound field at the default 3DoF position 206, and A denotes a transformation function that approximates the audio signals x 3DA based on sound signals x. The inverse transform function A -1 can be used to reconstruct/approximate audio source signals to generate 6DoF audio, as discussed above and will be discussed below. Note that AA -1 =1 and A -1 A=1 or at least AA -1 ≈1 and A -1 A≈1.

В общем, функцию A преобразования можно расценивать как функцию отображения/проецирования, которая проецирует или по меньшей мере отображает звуковые сигналы x на сфере S, окружающей положение 206 3DoF по умолчанию в некоторых иллюстративных аспектах настоящего изобретения. In general, the transform function A can be regarded as a mapping/projection function that projects or at least displays audio signals x on a sphere S surrounding the default 3DoF position 206 in some illustrative aspects of the present invention.

Следует также отметить, что формирование звука 3DoF не знает о среде VR (такой как существующие стены 203 или тому подобное, или другие структуры, которые могут привести к ослаблению, реверберациям, эффектам поглощения или тому подобному). Соответственно, функция A преобразования предпочтительно может включать эффекты на основании таких характеристик среды VR. It should also be noted that 3DoF sound generation is not aware of the VR environment (such as existing walls 203 or the like, or other structures that may lead to attenuation, reverberations, absorption effects, or the like). Accordingly, the transformation function A may preferably include effects based on such characteristics of the VR environment.

На фиг. 7B схематически изображено декодирующее преобразование A-1 звука 6DoF для аппроксимации/восстановления данных звукового сигнала 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения.In FIG. 7B is a schematic diagram of a 6DoF audio A- 1 decoding transform for approximating/recovering 6DoF audio data based on 3DoF audio data, in accordance with illustrative aspects of the present invention.

Путем использования функции A-1 обратного преобразования и аппроксимированных звуковых сигналов x3DA 3DoF, полученных как изображено выше на фиг. 7A, исходные звуковые сигналы x* исходных источников 207 звука можно восстановить/аппроксимировать в виде: By using the inverse transform function A -1 and the approximate x 3DA 3DoF audio signals obtained as shown above in FIG. 7A, the original audio signals x* of the original audio sources 207 can be reconstructed/approximated as:

x* = A-1(x3DA). Уравнение № (7)x* = A -1 (x 3DA ). Equation No. (7)

Соответственно, звуковые сигналы x* звуковых объектов 320 на фиг. 7B можно восстановить подобным или таким же образом, что и звуковые сигналы x исходных источников 207, в частности в тех же местах, что и исходные источники 207. Accordingly, audio signals x* of audio objects 320 in FIG. 7B can be restored in a similar or the same way as the audio signals x of the original sources 207, in particular at the same locations as the original sources 207.

На фиг. 7C схематически изображено иллюстративное формирование звука 6DoF на основании аппроксимированных/восстановленных данных звукового сигнала 6DoF по фиг. 7B согласно иллюстративным аспектам настоящего изобретения. In FIG. 7C schematically depicts an exemplary 6DoF audio generation based on the approximated/reconstructed 6DoF audio signal data of FIG. 7B according to illustrative aspects of the present invention.

Звуковые сигналы x* звуковых объектов 320 на фиг. 7B в этом случае могут быть использованы для формирования звука 6DoF, в котором положение слушателя также становится переменным. Audio signals x* audio objects 320 in FIG. 7B in this case can be used to generate a 6DoF sound, in which the position of the listener also becomes variable.

Когда предполагается, что положение слушателя является положением 206 (тем же положением, что и положение 3DoF по умолчанию), формирование звука 6DoF формирует такое же звуковое поле, что и формирование звука 3DoF на основании звуковых сигналов x3DA.When the listener position is assumed to be position 206 (the same position as the default 3DoF position), 6DoF sound generation generates the same sound field as 3DoF sound generation based on x 3DA audio signals.

Соответственно, формирование 6DoF F6DoF(x*) в положении 3DoF по умолчанию, являющемся предполагаемым положением слушателя, равно (или по меньшей мере приблизительно равно) формированию 3DoF F3DoF(x3DA).Accordingly, the 6DoF F 6DoF (x*) generation at the default 3DoF position, which is the intended listener position, is equal to (or at least approximately equal to) the 3DoF F 3DoF (x 3DA ) generation.

Кроме того, если положение слушателя сдвигается, например в положение 206’ на фиг. 7C, звуковое поле, генерируемое в формировании звука 6DoF, изменяется, но предпочтительно это может происходить плавно.Also, if the listener's position shifts, for example to position 206' in FIG. 7C, the sound field generated in the 6DoF sound generation changes, but preferably it can be done smoothly.

В качестве другого примера, может предполагаться третье положение 206’’ слушателя, и звуковое поле, генерируемое в формировании звука 6DoF, изменяется конкретно для верхнего левого звукового сигнала, который не загражден стеной 203 в третьем положении 206’’ слушателя. Предпочтительно это становится возможным благодаря тому, что обратная функция A-1 восстанавливает исходный источник звука (без эффектов среды, таких как характеристики среды VR).As another example, a third listener position 206'' may be assumed, and the sound field generated in the 6DoF sound generation changes specifically for the top left audio signal that is not obstructed by the wall 203 at the third listener position 206''. Preferably, this is made possible by the fact that the inverse function A -1 restores the original audio source (without environment effects such as VR environment characteristics).

На фиг. 8 схематически изображена иллюстративная блок-схема способа кодирования битового потока 3DoF/6DoF согласно иллюстративным аспектам настоящего изобретения. Следует отметить, что порядок этапов не является ограничивающим и может быть изменен согласно обстоятельствам. Также следует отметить, что некоторые этапы способа являются необязательными. Например, способ может выполняться декодирующим устройством, декодирующим устройством звука, декодирующим устройством звука/видео или декодирующей системой. In FIG. 8 is a schematic diagram of an illustrative flowchart of a 3DoF/6DoF bitstream encoding method according to illustrative aspects of the present invention. It should be noted that the order of the steps is not limiting and may be changed according to the circumstances. It should also be noted that some steps of the method are optional. For example, the method may be performed by a decoder, an audio decoder, an audio/video decoder, or a decoder system.

На этапе S801 способ (например, на стороне декодирующего устройства) предусматривает прием исходного звукового сигнала (сигналов) x одного или более источников звука.In step S801, the method (for example, at the decoder side) receives the original audio signal(s) x of one or more audio sources.

На этапе S802 способ предусматривает (необязательно) определение характеристик среды (таких как форма комнаты, стены, характеристики отражения звука стенами, объекты, препятствия и т.д.) и/или определение параметров (эффектов параметризации, таких как ослабление, усиление, поглощение, реверберации и т.д.). At step S802, the method includes (optionally) determining the characteristics of the environment (such as the shape of the room, the walls, the characteristics of the sound reflection of the walls, objects, obstacles, etc.) and / or determining the parameters (the effects of parameterization, such as attenuation, amplification, absorption, reverb, etc.).

На этапе S803 способ предусматривает (необязательно) определение параметризации функции A преобразования, например на основании результатов этапа S802. Предпочтительно на этапе S803 предусмотрено предоставление параметризованной или предварительно заданной функции A преобразования. In step S803, the method includes (optionally) determining a parameterization of the transformation function A, for example, based on the results of step S802. Preferably, step S803 provides for providing a parameterized or predefined conversion function A.

На этапе S804 способ предусматривает преобразование исходного звукового сигнала (сигналов) x одного или более источников звука в соответствующий один или более аппроксимированный звуковой сигнал (сигналы) x3DA 3DoF на основании функции A преобразования.In step S804, the method involves converting the original audio signal(s) x of the one or more audio sources to the corresponding one or more approximated audio signal(s) x 3DA 3DoF based on the transform function A.

На этапе S805 способ предусматривает определение метаданных 6DoF (которые могут включать одно или более положений 3DoF, информацию о среде VR и/или параметры и параметризацию эффектов среды, таких как ослабление, усиление, поглощение, реверберации и т.д.). In step S805, the method includes determining 6DoF metadata (which may include one or more 3DoF positions, VR environment information, and/or parameters and parameterization of environmental effects such as attenuation, amplification, absorption, reverbs, etc.).

На этапе S806 способ предусматривает включение (внедрение) звукового сигнала (сигналов) x3DA 3DoF в первую часть битового потока (или несколько первых частей битового потока).In step S806, the method includes including (embedding) x 3DA 3DoF audio signal(s) in the first part of the bitstream (or the first few parts of the bitstream).

На этапе S807 способ предусматривает включение (внедрение) метаданных 6DoF во вторую часть битового потока (или несколько вторых частей битового потока).In step S807, the method includes including (embedding) 6DoF metadata in the second part of the bitstream (or multiple second parts of the bitstream).

Затем на этапе S808 способ предусматривает продолжение кодирования битового потока на основании первой и второй частей битового потока для предоставления закодированного битового потока, который содержит звуковой сигнал (сигналы) x3DA 3DoF в первой части битового потока (или нескольких первых частях битового потока) и метаданные 6DoF во второй части битового потока (или нескольких вторых частях битового потока).Then, in step S808, the method continues encoding the bitstream based on the first and second parts of the bitstream to provide an encoded bitstream that contains audio signal(s) x 3DA 3DoF in the first part of the bitstream (or the first few parts of the bitstream) and 6DoF metadata in the second part of the bitstream (or several second parts of the bitstream).

Закодированный битовый поток затем можно подавать в декодирующее устройство/модуль формирования 3DoF для формирования звука 3DoF на основании звукового сигнала (сигналов) x3DA 3DoF только в первой части битового потока (или нескольких первых частях битового потока) или в декодирующее устройство/модуль формирования 6DoF для формирования звука 6DoF на основании звукового сигнала (сигналов) x3DA 3DoF в первой части битового потока (или нескольких первых частях битового потока) и метаданных 6DoF во второй части битового потока (или нескольких вторых частях битового потока).The encoded bitstream may then be fed to a 3DoF decoder/generator to generate 3DoF audio based on the x 3DA 3DoF audio signal(s) in only the first part of the bitstream (or the first few parts of the bitstream) or to the 6DoF decoder/generator to generating 6DoF audio based on the x 3DA 3DoF audio signal(s) in the first part of the bitstream (or the first few parts of the bitstream) and the 6DoF metadata in the second part of the bitstream (or the few second parts of the bitstream).

На фиг. 9 схематически изображена иллюстративная блок-схема способов формирования звука 3DoF и/или 6DoF согласно иллюстративным аспектам настоящего изобретения. Следует отметить, что порядок этапов не является ограничивающим и может быть изменен согласно обстоятельствам. Также следует отметить, что некоторые этапы способов являются необязательными. Например, способ может выполняться кодирующим устройством, модулем формирования, кодирующим устройством звука, модулем формирования звука, кодирующим устройством звука/видео или кодирующей системой или системой модулей формирования. In FIG. 9 is a schematic diagram of an illustrative flowchart of methods for generating 3DoF and/or 6DoF audio in accordance with illustrative aspects of the present invention. It should be noted that the order of the steps is not limiting and may be changed according to the circumstances. It should also be noted that some steps of the methods are optional. For example, the method may be performed by an encoder, a renderer, an audio encoder, an audio renderer, an audio/video encoder, or an encoder or renderer system.

На этапе S901 принимают закодированный битовый поток, который содержит звуковой сигнал (сигналы) x3DA 3DoF в первой части битового потока (или нескольких первых частях битового потока) и метаданные 6DoF во второй части битового потока (или нескольких вторых частях битового потока).In step S901, an encoded bitstream is received that contains the audio signal(s) x 3DA 3DoF in the first part of the bitstream (or several first parts of the bitstream) and 6DoF metadata in the second part of the bitstream (or several second parts of the bitstream).

На этапе S902 звуковой сигнал (сигналы) x3DA 3DoF получают из первой части битового потока (или нескольких первых частей битового потока). Это можно выполнить с помощью декодирующего устройства/модуля формирования 3DoF, а также с помощью декодирующего устройства/модуля формирования 6DoF.In step S902, the audio signal(s) x 3DA 3DoF are obtained from the first part of the bitstream (or the first few parts of the bitstream). This can be done with a 3DoF decoder/generator and also with a 6DoF decoder/generator.

Затем, если декодирующее устройство/модуль формирования представляют собой унаследованное устройство для целей формирования звука 3DoF (или новые декодирующее устройство/модуль формирования 3DoF/6DoF, переведенные в режим формирования звука 3DoF), то способ предусматривает переход к этапу S903, на котором метаданные 6DoF исключают/игнорируют, и затем переход к операции формирования звука 3DoF, чтобы формировать звук 3DoF на основании звукового сигнала (сигналов) x3DA 3DoF, полученных из первой части битового потока (или нескольких первых частей битового потока).Then, if the decoder/generator is a legacy device for 3DoF audio generation purposes (or a new 3DoF/6DoF decoder/generator set to a 3DoF audio generation mode), the method proceeds to step S903 where the 6DoF metadata excludes /ignore, and then proceed to a 3DoF sound generating operation to generate a 3DoF sound based on the x 3DA 3DoF sound signal(s) obtained from the first part of the bitstream (or the first few parts of the bitstream).

Другими словами, преимущественным образом гарантируется обратная совместимость. In other words, backward compatibility is advantageously guaranteed.

С другой стороны, если декодирующее устройство/модуль формирования предназначены для целей формирования звука 6DoF (такие как новое декодирующее устройство/модуль формирования 6DoF или декодирующее устройство/модуль формирования 3DoF/6DoF, переведенные в режим формирования звука 6DoF), то способ предусматривает переход к этапу S905 для получения метаданных 6DoF из второй части (частей) битового потока. On the other hand, if the decoder/generator is for 6DoF audio generation purposes (such as a new 6DoF decoder/generator or a 3DoF/6DoF decoder/generator put into a 6DoF audio generation mode), then the method proceeds to step S905 to obtain 6DoF metadata from the second part(s) of the bitstream.

На этапе S906 способ предусматривает аппроксимацию/восстановление звуковых сигналов x* звуковых объектов/источников из звукового сигнала (сигналов) x3DA 3DoF, полученных из первой части битового потока (или нескольких первых частей битового потока), на основании метаданных 6DoF, полученных из второй части битового потока (или нескольких вторых частей битового потока), и функции A-1 обратного преобразования. In step S906, the method approximates/reconstructs audio signals x* of audio objects/sources from the 3DA 3DoF audio signal(s) obtained from the first part of the bitstream (or the first few parts of the bitstream) based on the 6DoF metadata obtained from the second part bitstream (or several second parts of the bitstream), and functions A -1 inverse transformation.

Затем на этапе S907 способ предусматривает переход к выполнению формирования звука 6DoF на основании аппроксимированных/восстановленных звуковых сигналов x* звуковых объектов/источников и на основании положения слушателя (которое может быть переменным в среде VR). Next, in step S907, the method proceeds to perform 6DoF sound generation based on the approximated/restored audio signals x* of sound objects/sources and based on the listener's position (which may be variable in a VR environment).

В иллюстративных аспектах, представленных выше, могут быть предоставлены эффективные и надежные способы, устройство и представление данных и/или структуры битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA. В частности, возможно обеспечить представление данных и/или структуры битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA, и соответствующего устройства кодирования и/или формирования для эффективного кодирования и/или формирования звука 6DoF с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA. In the exemplary aspects presented above, efficient and reliable methods, apparatus, and data representation and/or bitstream structures for 3D audio coding and/or 3D audio generation can be provided, allowing efficient 6DoF audio coding and/or generation, preferably with backwards compatible for 3DoF audio generation, such as MPEG-H 3DA. In particular, it is possible to provide a data representation and/or bitstream structure for 3D audio coding and/or 3D audio generation, which allows 6DoF audio encoding and/or audio generation to be efficiently performed, preferably with backward compatibility for 3DoF audio production, for example according to the MPEG- H 3DA, and a corresponding encoding and/or generation device for efficient encoding and/or generation of 6DoF audio with backward compatibility for generation of 3DoF audio, for example according to the MPEG-H 3DA standard.

Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, аппаратно-программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут быть реализованы в виде программного обеспечения, выполняемого процессором цифровой обработки сигналов или микропроцессором. Другие компоненты могут быть реализованы в виде аппаратного обеспечения или в виде специализированных интегральных микросхем. Сигналы, которые встречаются в описанных способах и системах, можно хранить на носителях, таких как оперативное запоминающее устройство или оптические носители информации. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или формирования звуковых сигналов.The methods and systems described herein may be implemented as software, firmware, and/or hardware. Some components may be implemented as software executable by a digital signal processor or microprocessor. Other components may be implemented in hardware or as ASICs. The signals encountered in the described methods and systems may be stored on media such as random access memory or optical storage media. They may be transmitted over networks such as radio networks, satellite networks, wireless networks, or wired networks such as the Internet. Typical devices using the methods and systems described herein are portable electronic devices or other consumer equipment that is used to store and/or generate audio signals.

Примеры реализации способов и устройства согласно настоящему изобретению станут очевидными на основе следующих пронумерованных примеров вариантов осуществления (EEE), которые не являются пунктами формулы изобретения.Examples of the methods and apparatus of the present invention will become apparent from the following numbered example embodiments (EEEs), which are not claims.

EEE1 иллюстративно относится к способу кодирования звука, содержащего сигналы источника звука, данные, относящиеся к 3DoF, и данные, относящиеся к 6DoF, включающему: кодирование, например устройством в виде источника звука, таким как, например, кодирующее устройство, сигналов источника звука, которые аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF для определения данных 3DoF; и/или кодирование, например устройством в виде источника звука, таким как, например, кодирующее устройство, данных, относящихся к 6DoF, для определения метаданных 6DoF, при этом метаданные могут быть использованы для аппроксимации исходных сигналов источника звука для формирования 6DoF.EEE1 exemplarily refers to a method for encoding an audio comprising audio source signals, 3DoF-related data, and 6DoF-related data, including: encoding, for example, by an audio source device such as, for example, an encoder, audio source signals that approximating the desired sound field at the 3DoF position(s) to determine the 3DoF data; and/or encoding, for example by an audio source device such as, for example, an encoder, 6DoF related data to determine 6DoF metadata, the metadata can be used to approximate the original audio source signals to generate 6DoF.

EEE2 иллюстративно относится к способу из EEE1, при этом данные 3DoF относятся к по меньшей мере одному из звуковых сигналов объектов, направлений объектов и расстояний до объектов.EEE2 illustratively refers to the method of EEE1, wherein the 3DoF data refers to at least one of object sounds, object directions, and object distances.

EEE3 иллюстративно относится к способу из EEE1 или EEE2, при этом данные 6DoF относятся к по меньшей мере одному из следующего: параметры положения 3DoF (по умолчанию), параметры описания (координаты объектов) пространства 6DoF, параметры направленности объекта, параметры среды VR, параметры ослабления с увеличением дальности, параметры поглощения и параметры реверберации.EEE3 exemplarily refers to a method from EEE1 or EEE2, wherein the 6DoF data refers to at least one of the following: 3DoF position parameters (default), 6DoF space description parameters (object coordinates), object directivity parameters, VR environment parameters, attenuation parameters with increasing range, absorption parameters and reverberation parameters.

EEE4 иллюстративно относится к способу передачи данных, в частности звуковых данных, используемых для формирования 3DoF и 6DoF, причем способ включает: передачу, например в синтаксисе битового потока звука, сигналов источника звука, которые могут предпочтительно аппроксимировать желаемое звуковое поле в положении (положениях) 3DoF, например при декодировании звуковой системой 3DoF; и/или передачу, например в части расширения синтаксиса битового потока звука, метаданных, относящихся 6DoF, для аппроксимации и/или восстановления исходных сигналов источника звука для формирования 6DoF; при этом метаданные, относящиеся к 6DoF, могут представлять собой параметрические данные и/или данные сигналов.EEE4 illustratively refers to a method for transmitting data, in particular audio data, used to generate 3DoF and 6DoF, the method including: transmitting, for example in audio bitstream syntax, audio source signals that can preferably approximate the desired sound field at the 3DoF position(s). , for example, when decoding with a 3DoF sound system; and/or transmitting, for example in terms of audio bitstream syntax extension, 6DoF-related metadata to approximate and/or restore the original audio source signals to generate 6DoF; wherein the metadata related to 6DoF may be parameter data and/or signal data.

EEE5 иллюстративно относится к способу из EEE4, при этом синтаксис битового потока звука, например, включающий метаданные 3DoF и/или метаданные 6DoF, соответствует по меньшей мере версии стандарта MPEG-H Audio.EEE5 illustratively refers to the method from EEE4, wherein the syntax of the audio bitstream, for example, including 3DoF metadata and/or 6DoF metadata, conforms to at least a version of the MPEG-H Audio standard.

EEE6 иллюстративно относится к способу генерирования битового потока, причем способ включает: определение метаданных 3DoF, которые основаны на сигналах источника звука, которые аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF; определение метаданных, относящихся к 6DoF, при этом метаданные могут быть использованы для аппроксимации исходных сигналов источника звука для формирования 6DoF; и/или введение сигнала источника звука и метаданных, относящихся к 6DoF, в битовый поток.EEE6 illustratively relates to a method for generating a bitstream, the method including: determining 3DoF metadata that is based on audio source signals that approximate the desired sound field at 3DoF position(s); determining metadata related to 6DoF, wherein the metadata can be used to approximate the original audio source signals to generate 6DoF; and/or inserting the audio source signal and 6DoF related metadata into the bitstream.

EEE7 иллюстративно относится к способу формирования звука, причем указанный способ включает: EEE7 illustratively refers to a sound generation method, said method including:

предварительную обработку метаданных 6DoF аппроксимированных звуковых сигналов x* исходных звуковых сигналов x в положении (положениях) 3DoF, при этом формирование 6DoF может обеспечивать такой же вывод, что и формирование 3DoF передаваемых сигналов источника звука x3DA для формирования 3DoF, которые аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF.preprocessing the 6DoF metadata of the approximated audio signals x * of the original audio signals x at the 3DoF position(s), wherein the 6DoF shaping can provide the same output as the 3DoF shaping of the transmitted audio source x 3DA signals to generate 3DoF that approximate the desired sound field at the position(s) 3DoF.

EEE8 иллюстративно относится к способу из EEE7, при этом формирование звука определяют на основании следующего:EEE8 illustratively refers to the method of EEE7, wherein sound generation is determined based on the following:

Figure 00000010
Figure 00000010

где

Figure 00000011
относится к функции формирования звука для положения (положений) слушателя 6DoF,
Figure 00000012
относится к функциям формирования звука для положения (положений) слушателя 3DoF,
Figure 00000013
представляют собой звуковые сигналы, содержащие эффекты среды VR для конкретного положения (положений) 3DoF, и x* относится к аппроксимированным звуковым сигналам.where
Figure 00000011
refers to the sound shaping function for 6DoF listener position(s),
Figure 00000012
refers to sound shaping functions for 3DoF listener position(s),
Figure 00000013
are audio signals containing VR environment effects for specific 3DoF position(s), and x* refers to approximated audio signals.

EEE9 иллюстративно относится к способу из EEE8, при этом аппроксимированные звуковые сигналы x* исходных звуковых сигналов x основаны на следующем: EEE9 illustratively refers to the method of EEE8, wherein the approximate audio signals x* of the original audio signals x are based on the following:

Figure 00000014
Figure 00000014

при этом A-1 относится к функции, обратной функции A аппроксимации.whereby A -1 refers to the inverse function of the approximation function A.

EEE10 иллюстративно относится к способу из EEE8 или EEE9, при этом метаданные, используемые для получения аппроксимированных звуковых сигналов x* исходных сигналов источника звука x, используя способ аппроксимации А, определяют на основании следующего: EEE10 illustratively refers to a method from EEE8 or EEE9, wherein the metadata used to obtain approximate audio signals x* of original audio source signals x using approximation method A is determined based on the following:

Figure 00000015
Figure 00000015

при этом количество метаданных меньше количества звуковых данных, необходимых для передачи исходных сигналов источника звука x,while the amount of metadata is less than the amount of audio data required to transmit the original signals of the audio source x,

при этом формирование звука определяют на основании следующего:wherein the sound generation is determined based on the following:

Figure 00000016
Figure 00000016

где

Figure 00000017
относится к функции формирования звука для положения (положений) слушателя 6DoF,
Figure 00000018
относится к функциям формирования звука для положения (положений) слушателя 3DoF,
Figure 00000019
представляют собой звуковые сигналы, содержащие эффекты среды VR для конкретного положения (положений) 3DoF, и x* относится к аппроксимированным звуковым сигналам.where
Figure 00000017
refers to the sound shaping function for 6DoF listener position(s),
Figure 00000018
refers to sound shaping functions for 3DoF listener position(s),
Figure 00000019
are audio signals containing VR environment effects for specific 3DoF position(s), and x* refers to approximated audio signals.

Иллюстративные аспекты и варианты осуществления настоящего изобретения могут быть реализованы в аппаратном обеспечении, программно-аппаратном обеспечении или программном обеспечении, или их сочетании (например, в виде программируемой логической матрицы). Если не указано иное, алгоритмы или процессы, включенные в качестве части изобретения, по своей природе не относятся к какому-либо конкретному компьютеру или другому устройству. В частности, различные машины общего назначения могут быть использованы вместе с программами, написанными в соответствии с идеями в данном документе, или может быть удобнее сконструировать более специализированное устройство (например, интегральные микросхемы) для выполнения необходимых этапов способа. Таким образом, изобретение может быть реализовано в одной или нескольких компьютерных программах, исполняющихся на одной или нескольких программируемых компьютерных системах (например, реализация любого из элементов на фигурах), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (включая энергозависимое и энергонезависимое запоминающие устройства и/или элементы хранения), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Программный код применяется к входным данным для выполнения функций, описанных в данном документе, и генерирования выходной информации. Выходная информация известным способом применяется к одному или более устройствам вывода. Illustrative aspects and embodiments of the present invention may be implemented in hardware, firmware, or software, or a combination of the two (eg, as a programmable logic array). Unless otherwise noted, the algorithms or processes included as part of the invention are not inherently specific to any particular computer or other device. In particular, various general purpose machines may be used in conjunction with programs written in accordance with the teachings herein, or it may be more convenient to construct more specialized apparatus (eg, integrated circuits) to perform the required method steps. Thus, the invention can be implemented in one or more computer programs executing on one or more programmable computer systems (for example, an implementation of any of the elements in the figures), each of which contains at least one processor, at least one data storage system (including volatile and nonvolatile storage devices and/or storage elements), at least one input device or port, and at least one output device or port. Program code is applied to input data to perform the functions described in this document and generate output information. The output information is applied to one or more output devices in a known manner.

Каждая такая программа может быть реализована на любом желаемом компьютерном языке (включая машинный язык, язык ассемблера, высокоуровневый процедурный язык, логический язык или объектно-ориентированный язык программирования) для поддерживания связи с компьютерной системой. В любом случае язык может быть компилируемым или интерпретируемым языком. Each such program may be implemented in any desired computer language (including machine language, assembly language, high-level procedural language, logic language, or object-oriented programming language) to communicate with a computer system. In either case, the language may be a compiled language or an interpreted language.

Например, при реализации посредством последовательностей компьютерных программных команд различные функции и этапы вариантов осуществления изобретения могут быть реализованы многопоточными последовательностями программных команд, запущенными на подходящем аппаратном обеспечении цифровой обработки сигналов, в случае чего различные устройства, этапы и функции вариантов осуществления могут соответствовать частям программных команд. For example, when implemented by computer program instruction sequences, the various functions and steps of the embodiments of the invention may be implemented by multi-threaded program instruction sequences running on suitable digital signal processing hardware, in which case the various devices, steps, and functions of the embodiments may correspond to portions of the program instructions.

Каждую такую компьютерную программу предпочтительно сохраняют или загружают на носители информации или устройство хранения (например, твердотельное запоминающее устройство или носители, или магнитные или оптические носители), считываемые программируемым компьютером общего или специального назначения, для конфигурирования и работы компьютера, когда носители информации или устройство хранения считываются компьютерной системой для выполнения процедур, описанных в данном документе. Система изобретения также может быть реализована в виде машиночитаемого носителя информации, оснащенного (т.е. хранящего) компьютерной программой, при этом оснащенный таким образом носитель информации заставляет компьютерную систему работать указанным и предопределенным образом для выполнения функций, описанных в данном документе. Each such computer program is preferably stored on or loaded onto a storage medium or storage device (e.g., solid state memory or media, or magnetic or optical media) readable by a general purpose or special purpose programmable computer for configuring and operating the computer when the storage media or storage device is are read by a computer system to perform the procedures described in this document. The system of the invention may also be implemented as a computer-readable storage medium equipped with (i.e., storing) a computer program, wherein the storage medium so equipped causes the computer system to operate in a specified and predetermined manner to perform the functions described herein.

Выше описаны ряд иллюстративных аспектов и иллюстративных вариантов осуществления настоящего изобретения. Тем не менее следует понимать, что различные модификации могут быть осуществлены без отступления от сущности и объема настоящего изобретения. В свете вышеизложенных идей возможны многочисленные модификации и изменения настоящего изобретения. Следует понимать, что в рамках объема прилагаемой формулы изобретения настоящее изобретение может быть применено на практике иным образом, отличным от конкретно описанного в данном документе.A number of illustrative aspects and illustrative embodiments of the present invention have been described above. However, it should be understood that various modifications can be made without departing from the spirit and scope of the present invention. In light of the above ideas, numerous modifications and variations of the present invention are possible. It should be understood that within the scope of the appended claims, the present invention may be practiced otherwise than as specifically described herein.

Claims (91)

1. Способ кодирования звукового сигнала в битовый поток, причем способ включает:1. A method for encoding an audio signal into a bitstream, the method comprising: кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; иencoding or including audio signal data associated with generating 3DoF audio in one or more first portions of the bitstream; and кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока, при этом способ дополнительно включает:encoding or including metadata associated with 6DoF audio generation in one or more second parts of the bitstream, the method further comprising: прием звуковых сигналов от одного или более источников звука;receiving audio signals from one or more audio sources; определение характеристик среды и параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям;determining the characteristics of the environment and parameters related to attenuation with increasing range, absorption and/or reverberations; определение параметризации функции A преобразования на основании указанных характеристик среды и указанных параметров и предоставления параметризованной функции A преобразования, при этом AA-1≈1 и A-1A≈1; иdetermining a parameterization of the transformation function A based on said environment characteristics and said parameters, and providing a parameterized transformation function A, wherein AA -1 ≈1 and A -1 A≈1; and генерирование данных звукового сигнала, связанных с формированием звука 3DoF, путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию A преобразования, при этомgenerating audio signal data associated with 3DoF audio generation by converting audio signals from one or more audio sources into 3DoF audio signals using conversion function A, wherein функция A преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.the transform function A maps or projects the audio signals of one or more audio sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position. 2. Способ по п.1, отличающийся тем, что 2. The method according to claim 1, characterized in that данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов.audio signal data associated with 3DoF audio generation includes audio signal data of one or more audio objects. 3. Способ по п.2, отличающийся тем, что3. The method according to claim 2, characterized in that один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.one or more audio objects are located on one or more spheres surrounding the default 3DoF listener position. 4. Способ по любому из пп.1-3, отличающийся тем, что4. The method according to any one of claims 1 to 3, characterized in that данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов.the audio signal data associated with 3DoF audio generation includes direction data of one or more audio objects and/or distance data of one or more audio objects. 5. Способ по любому из пп.1-4, отличающийся тем, что5. The method according to any one of claims 1 to 4, characterized in that метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя 3DoF по умолчанию.the metadata associated with 6DoF sound generation points to one or more default 3DoF listener positions. 6. Способ по любому из пп.1-5, отличающийся тем, что6. The method according to any one of claims 1 to 5, characterized in that метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего:the metadata associated with 6DoF sound generation includes or indicates at least one of the following: описание пространства 6DoF, необязательно включая координаты объектов;a description of the 6DoF space, optionally including object coordinates; направления звуковых объектов одного или более звуковых объектов;directions of sound objects of one or more sound objects; среда виртуальной реальности (VR); иvirtual reality (VR) environment; and параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям.parameters related to range attenuation, absorption and/or reverberations. 7. Способ по любому из пп.1-6, отличающийся тем, что7. The method according to any one of claims 1 to 6, characterized in that битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio.the bitstream is an MPEG-H 3D Audio bitstream or a bitstream using MPEG-H 3D Audio syntax. 8. Способ по п.7, отличающийся тем, что8. The method according to claim 7, characterized in that одна или более первых частей битового потока представляют полезные данные битового потока, иone or more first parts of the bitstream represent payload data of the bitstream, and одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока.one or more second bitstream parts represent one or more bitstream extension containers. 9. Способ декодирования звука, причем способ включает:9. An audio decoding method, the method comprising: прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, иreceiving a bitstream containing audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream and further comprising metadata associated with 6DoF audio generation in one or more second portions of the bitstream, and выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока, при этом выполнение формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включает генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования, при этом функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.performing at least one of 3DoF audio generation and 6DoF audio generation based on the received bitstream, wherein performing 6DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first parts of the bitstream and metadata associated with 6DoF audio generation, in one or more second parts of the bitstream, includes generating audio signal data associated with 6DoF audio generation based on audio signal data associated with 3DoF audio generation and an inverse transform function, wherein the inverse transform function is a function , the inverse of a transform function that maps or projects the audio signals of one or more sound sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position. 10. Способ по п.9, отличающийся тем, что10. The method according to claim 9, characterized in that при выполнении формирования звука 3DoF формирование звука 3DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.when performing 3DoF sound generation, 3DoF sound generation is performed based on audio signal data associated with 3DoF sound generation in one or more first parts of the bitstream, while excluding metadata associated with 6DoF sound generation in one or more second parts of the bitstream. 11. Способ по п.9 или 10, отличающийся тем, что11. The method according to claim 9 or 10, characterized in that при выполнении формирования звука 6DoF формирование звука 6DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.when performing 6DoF sound generation, 6DoF sound generation is performed based on audio signal data related to 3DoF sound generation in one or more first parts of the bitstream and metadata related to 6DoF sound generation in one or more second parts of the bitstream. 12. Способ по любому из пп.9-11, отличающийся тем, что12. The method according to any one of claims 9-11, characterized in that данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов.audio signal data associated with 3DoF audio generation includes audio signal data of one or more audio objects. 13. Способ по п.12, отличающийся тем, что13. The method according to claim 12, characterized in that один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.one or more audio objects are located on one or more spheres surrounding the default 3DoF listener position. 14. Способ по любому из пп.9-13, отличающийся тем, что14. The method according to any one of claims 9-13, characterized in that данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов.the audio signal data associated with 3DoF audio generation includes direction data of one or more audio objects and/or distance data of one or more audio objects. 15. Способ по любому из пп.9-14, отличающийся тем, что15. The method according to any one of claims 9-14, characterized in that метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя 3DoF по умолчанию.the metadata associated with 6DoF sound generation points to one or more default 3DoF listener positions. 16. Способ по любому из пп.9-15, отличающийся тем, что16. The method according to any one of claims 9-15, characterized in that метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего:the metadata associated with 6DoF sound generation includes or indicates at least one of the following: описание пространства 6DoF, необязательно включая координаты объектов;a description of the 6DoF space, optionally including object coordinates; направления звуковых объектов одного или более звуковых объектов;directions of sound objects of one or more sound objects; среда виртуальной реальности (VR); иvirtual reality (VR) environment; and параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям.parameters related to range attenuation, absorption and/or reverberations. 17. Способ по любому из пп.9-16, отличающийся тем, что17. The method according to any one of claims 9-16, characterized in that данные звукового сигнала, связанные с формированием звука 3DoF, генерируют на основании звуковых сигналов от одного или более источников звука и функции преобразования.audio signal data related to 3DoF audio generation is generated based on audio signals from one or more audio sources and a conversion function. 18. Способ по п.17, отличающийся тем, что18. The method according to claim 17, characterized in that данные звукового сигнала, связанные с формированием звука 3DoF, генерируют путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию преобразования.audio signal data related to shaping 3DoF audio is generated by converting audio signals from one or more audio sources into 3DoF audio signals using a conversion function. 19. Способ по п.17 или 18, отличающийся тем, что19. The method according to claim 17 or 18, characterized in that функция преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.the transform function maps or projects the audio signals of one or more audio sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position. 20. Способ по любому из пп.9-19, отличающийся тем, что20. The method according to any one of claims 9-19, characterized in that битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio.the bitstream is an MPEG-H 3D Audio bitstream or a bitstream using MPEG-H 3D Audio syntax. 21. Способ по п.20, отличающийся тем, что21. The method according to claim 20, characterized in that одна или более первых частей битового потока представляют полезные данные битового потока, иone or more first parts of the bitstream represent payload data of the bitstream, and одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока.one or more second bitstream parts represent one or more bitstream extension containers. 22. Способ по любому из пп.9-21, отличающийся тем, что22. The method according to any one of claims 9-21, characterized in that данные звукового сигнала, связанные с формированием звука 6DoF, генерируют путем преобразования данных звукового сигнала, связанных с формированием звука 3DoF, используя функцию обратного преобразования и метаданные, связанные с формированием звука 6DoF.audio signal data associated with 6DoF audio generation is generated by converting the audio signal data associated with 3DoF audio generation using an inverse transform function and metadata associated with 6DoF audio generation. 23. Способ по любому из пп.9-22, отличающийся тем, что23. The method according to any one of claims 9-22, characterized in that выполнение формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока приводит к генерированию такого же звукового поля, как и выполнение формирования звука 6DoF в положении слушателя 3DoF по умолчанию на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.performing 3DoF sound generation based on the audio signal data associated with the 3DoF sound generation in one or more first parts of the bitstream results in the same sound field being generated as performing 6DoF sound generation at the default 3DoF listener position based on the audio signal data, associated with the formation of sound 3DoF, in one or more first parts of the bitstream and metadata associated with the formation of sound 6DoF, in one or more second parts of the bitstream. 24. Устройство для декодирования звука, содержащее процессор, выполненный с возможностью:24. An audio decoding device, comprising a processor configured to: кодирования или включения данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока;encoding or including audio signal data associated with generating 3DoF audio in one or more first portions of the bitstream; кодирования или включения метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока; иencoding or including metadata associated with the formation of sound 6DoF, in one or more second parts of the bitstream; and вывода закодированного битового потока, при этом процессор дополнительно выполнен с возможностью:output of the encoded bit stream, wherein the processor is additionally configured to: приема звуковых сигналов от одного или более источников звука;receiving audio signals from one or more audio sources; определения характеристик среды и параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям;determining environmental characteristics and parameters related to range attenuation, absorption, and/or reverberations; определения параметризации функции A преобразования на основании указанных характеристик среды и указанных параметров и предоставления параметризованной функции A преобразования, при этом AA-1≈1 и A-1A≈1; иdetermining a parameterization of the transformation function A based on said environment characteristics and said parameters, and providing a parameterized transformation function A, wherein AA -1 ≈1 and A -1 A≈1; and генерирования данных звукового сигнала, связанных с формированием звука 3DoF, путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию A преобразования, при этомgenerating audio signal data related to generating 3DoF audio by converting audio signals from one or more audio sources into 3DoF audio signals using conversion function A, wherein функция A преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.the transform function A maps or projects the audio signals of one or more audio sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position. 25. Устройство для декодирования звука, содержащее процессор, выполненный с возможностью:25. An audio decoding device, comprising a processor configured to: приема битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, иreceiving a bitstream containing audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream and further comprising metadata associated with 6DoF audio generation in one or more second portions of the bitstream, and выполнения по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока, при этом процессор дополнительно выполнен с возможностью выполнения формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включая генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования, при этом функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.performing at least one of 3DoF audio generation and 6DoF audio generation based on the received bitstream, wherein the processor is further configured to perform 6DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream and 6DoF audio generation-related metadata in one or more second parts of the bitstream, including generating 6DoF audio generation-related audio signal data based on the 3DoF audio generation-related audio signal data and an inverse transform function, wherein the function The inverse transform is a function inverse of the transform function that maps or projects audio signals from one or more sound sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position. 26. Устройство по п.25, отличающееся тем, что26. The device according to claim 25, characterized in that при выполнении формирования звука 3DoF процессор выполнен с возможностью выполнения формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.when performing 3DoF audio generation, the processor is configured to perform 3DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream while excluding metadata associated with 6DoF audio generation in one or more second parts of the bitstream. 27. Устройство по п.25 или 26, отличающееся тем, что27. The device according to claim 25 or 26, characterized in that при выполнении формирования звука 6DoF процессор выполнен с возможностью выполнения формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.when performing 6DoF audio generation, the processor is configured to perform 6DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first parts of the bitstream and metadata associated with 6DoF audio generation in one or more second parts of the bitstream . 28. Машиночитаемый носитель, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, причем способ включает:28. A computer-readable medium containing instructions that, when executed by the processor, cause the processor to perform a method for encoding an audio signal into a bitstream, in particular with an encoder, the method comprising: кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; иencoding or including audio signal data associated with generating 3DoF audio in one or more first portions of the bitstream; and кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока, при этом способ дополнительно включает:encoding or including metadata associated with 6DoF audio generation in one or more second parts of the bitstream, the method further comprising: прием звуковых сигналов от одного или более источников звука;receiving audio signals from one or more audio sources; определение характеристик среды и параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям;determining the characteristics of the environment and parameters related to attenuation with increasing range, absorption and/or reverberations; определение параметризации функции A преобразования на основании указанных характеристик среды и указанных параметров иdetermining a parameterization of the transformation function A based on the specified characteristics of the medium and the specified parameters, and предоставление параметризованной функции A преобразования, при этом AA-1≈1 и A-1A≈1; иproviding a parameterized transformation function A, wherein AA -1 ≈1 and A -1 A≈1; and генерирование данных звукового сигнала, связанных с формированием звука 3DoF, путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию A преобразования, при этомgenerating audio signal data related to generating 3DoF audio by converting audio signals from one or more audio sources into 3DoF audio signals using conversion function A, wherein функция A преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.the transform function A maps or projects the audio signals of one or more audio sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position. 29. Машиночитаемый носитель, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ декодирования и/или формирования звука, в частности декодирующим устройством или модулем формирования звука, причем способ включает:29. A computer-readable medium containing instructions that, when executed by the processor, cause the processor to perform a method for decoding and / or generating sound, in particular by a decoding device or a sound generating module, and the method includes: прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, иreceiving a bitstream containing audio signal data associated with 3DoF audio generation in one or more first portions of the bitstream, and further comprising metadata associated with 6DoF audio generation in one or more second portions of the bitstream, and выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока, при этом выполнение формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включает генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования, при этом функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.performing at least one of 3DoF audio generation and 6DoF audio generation based on the received bitstream, wherein performing 6DoF audio generation based on audio signal data associated with 3DoF audio generation in one or more first parts of the bitstream and metadata associated with 6DoF audio generation, in one or more second parts of the bitstream, includes generating audio signal data associated with 6DoF audio generation based on audio signal data associated with 3DoF audio generation and an inverse transform function, wherein the inverse transform function is a function , the inverse of a transform function that maps or projects the audio signals of one or more sound sources onto corresponding audio objects located on one or more spheres surrounding the default 3DoF listener position.
RU2020127372A 2018-04-11 2019-04-09 Methods, device, and systems for generation of 6dof sound, and representation of data and structure of bit streams for generation of 6dof sound RU2782344C2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862655990P 2018-04-11 2018-04-11
US62/655,990 2018-04-11
PCT/EP2019/058955 WO2019197404A1 (en) 2018-04-11 2019-04-09 Methods, apparatus and systems for 6dof audio rendering and data representations and bitstream structures for 6dof audio rendering

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2022126351A Division RU2022126351A (en) 2018-04-11 2019-04-09 METHODS, DEVICE AND SYSTEMS FOR FORMING SOUND 6DoF AND DATA REPRESENTATION AND STRUCTURES OF BIT STREAMS FOR FORMING SOUND 6DoF

Publications (2)

Publication Number Publication Date
RU2020127372A RU2020127372A (en) 2022-02-17
RU2782344C2 true RU2782344C2 (en) 2022-10-26

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007096808A1 (en) * 2006-02-21 2007-08-30 Koninklijke Philips Electronics N.V. Audio encoding and decoding
WO2014184706A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio apparatus and method therefor
US9477307B2 (en) * 2013-01-24 2016-10-25 The University Of Washington Methods and systems for six degree-of-freedom haptic interaction with streaming point data
RU2604337C2 (en) * 2012-08-03 2016-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Decoder and method of multi-instance spatial encoding of audio objects using parametric concept for cases of the multichannel downmixing/upmixing
RU2015151021A (en) * 2013-05-29 2017-07-04 Квэлкомм Инкорпорейтед COMPRESSING SOUND FIELD REPRESENTATIONS
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007096808A1 (en) * 2006-02-21 2007-08-30 Koninklijke Philips Electronics N.V. Audio encoding and decoding
RU2604337C2 (en) * 2012-08-03 2016-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Decoder and method of multi-instance spatial encoding of audio objects using parametric concept for cases of the multichannel downmixing/upmixing
US9477307B2 (en) * 2013-01-24 2016-10-25 The University Of Washington Methods and systems for six degree-of-freedom haptic interaction with streaming point data
WO2014184706A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio apparatus and method therefor
RU2015151021A (en) * 2013-05-29 2017-07-04 Квэлкомм Инкорпорейтед COMPRESSING SOUND FIELD REPRESENTATIONS
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BLEIDT R.L. et al., Development of the MPEG-H TV Audio System for ATSC 3.0 // IEEE TRANSACTIONS ON BROADCASTING, 01.03.2017, Vol. 63, N 1, pp. 202-236. *

Similar Documents

Publication Publication Date Title
JP7418500B2 (en) Methods, apparatus and systems for 6DOF audio rendering and data representation and bitstream structure for 6DOF audio rendering
TWI595785B (en) Apparatus and method for screen related audio object remapping
US11823691B2 (en) System and method for processing audio data into a plurality of frequency components
CN111955020B (en) Method, apparatus and system for pre-rendering signals for audio rendering
TWI713017B (en) Device and method for processing media data, and non-transitory computer-readable storage medium thereof
US11843932B2 (en) Six degrees of freedom and three degrees of freedom backward compatibility
WO2021065277A1 (en) Information processing device, reproduction processing device, and information processing method
RU2782344C2 (en) Methods, device, and systems for generation of 6dof sound, and representation of data and structure of bit streams for generation of 6dof sound
WO2019069710A1 (en) Encoding device and method, decoding device and method, and program
JPWO2019197404A5 (en)
CN115733576A (en) Method and device for encapsulating and decapsulating point cloud media file and storage medium
CN116325809A (en) Information processing apparatus, method, and program