RU2793625C1

RU2793625C1 - Device, method or computer program for processing sound field representation in spatial transformation area

Info

Publication number: RU2793625C1
Application number: RU2022104955A
Authority: RU
Inventors: Оливер ТИРГАРТ; Александер НИДЕРЛЯЙТНЕР; Эмануэль ХАБЕТС; Мориц ВИЛЬД; Аксель ПЛИНГЕ; Ахим КУНТЦ; Александр БУТЕОН; Дирк МАНЕ; Фабиан КЮХ
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2019-07-29
Filing date: 2020-07-27
Publication date: 2023-04-04

Abstract

FIELD: recording and reproduction of spatial sound.

SUBSTANCE: device for processing a sound field presentation associated with a predetermined reference point or a predetermined listening orientation for the sound field presentation comprises a sound field processor for processing the sound field presentation using the deviation of the target listening position from the given reference point or the target listening orientation from the given listening orientation, when this produces a description of the processed sound field that, when rendered, provides the impression of representing the sound field at a target listening position that is different from the given reference point, or for a target listening orientation that is different from the specified listening orientation. By processing the sound field representation using a spatial filter, a processed sound field description is obtained which, when rendered, provides the impression of a spatially filtered sound field description. At the same time, the sound field processor (1000) is configured to process the sound field representation in such a way that a deviation or a spatial filter (1030) is applied in the spatial transformation area having an associated direct transformation rule (1021) and an inverse transform rule (1051).

EFFECT: creation of an improved concept of processing the representation of the sound field associated with a given reference point or a given listening orientation for the presentation of the sound field.

32 cl, 28 dwg

Description

Настоящее изобретение относится к области записи и воспроизведения пространственного звука.The present invention relates to the field of recording and reproducing spatial sound.

В общем, запись пространственного звука направлена на захват звукового поля с множеством микрофонов, так что на стороне воспроизведения слушатель воспринимает звуковое изображение как оно есть в местоположении записи. В предусмотренном случае, пространственный звук захватывается в одном физическом местоположении на стороне записи (называемом «опорным местоположением»), тогда как на стороне воспроизведения, пространственный звук может подготавливаться посредством рендеринга из произвольных различных перспектив относительно исходного опорного местоположения. Различные перспективы включают в себя различные положения прослушивания (называемые «виртуальными положениями прослушивания») и ориентации прослушивания (называемые «виртуальными ориентациями прослушивания»).In general, spatial sound recording aims to capture a sound field with multiple microphones so that on the playback side, the listener perceives the sound image as it is at the location of the recording. In the provided case, spatial audio is captured at one physical location on the recording side (referred to as a "reference location"), while on the playback side, spatial audio can be rendered from arbitrary different perspectives relative to the original reference location. The different perspectives include different listening positions (referred to as "virtual listening positions") and listening orientations (referred to as "virtual listening orientations").

Рендеринг пространственного звука из произвольных различных перспектив относительно исходного местоположения записи обеспечивает возможность различных вариантов применения. Например, в рендеринге с 6 степенями свободы (6DoF), слушатель на стороне воспроизведения может перемещаться свободно в виртуальном пространстве (обычно с ношением наголовного дисплея и наушников) и воспринимать аудио/видеосцену из различных перспектив. В вариантах применения с 3 степенями свободы (3DoF), в которых, например, видео на 360° вместе с пространственным звуком записывается в конкретном местоположении, видеоизображение может вращаться на стороне воспроизведения, и проекция видео может регулироваться (например, из стереографической проекции [WolframProj1] к гномонической проекции [WolframProj2], называемой «проекцией малой планеты»). Безусловно, при изменении видеоперспективы в вариантах применения 3DoF или 6DoF воспроизведенная пространственная аудиоперспектива должна регулироваться соответствующим образом для обеспечения согласованного производства аудио/видео.Rendering spatial audio from arbitrary different perspectives relative to the original location of the recording allows for a variety of applications. For example, in 6 degrees of freedom (6DoF) rendering, a listener on the playback side can move freely in the virtual space (typically wearing a head-mounted display and headphones) and perceive the audio/video scene from different perspectives. In 3 DoF (3DoF) applications, in which, for example, 360° video along with spatial audio is recorded at a specific location, the video image can be rotated on the playback side, and the projection of the video can be adjusted (for example, from stereographic projection [WolframProj1] to the gnomonic projection [WolframProj2], called the “minor planet projection”). Of course, as the video perspective changes in 3DoF or 6DoF applications, the reproduced spatial audio perspective must be adjusted accordingly to ensure consistent audio/video production.

Существуют различные подходы из уровня техники, которые обеспечивают запись и воспроизведение пространственного звука из различных перспектив. Один способ заключается в физической записи пространственного звука во всех возможных положениях прослушивания и, на стороне воспроизведения, использовании записи для воспроизведения пространственного звука, которая является ближайшей к виртуальной положения прослушивания. Тем не менее, этот подход для записи является очень тщательным и требует невыполнимо значительных усилий для измерений. Чтобы сокращать число требуемых положений для физического измерения при одновременном достижении воспроизведения пространственного звука из произвольных перспектив, могут использоваться нелинейные параметрические технологии записи и воспроизведения пространственного звука. Пример представляет собой обработку виртуальных микрофонов на основе направленного кодирования аудио (DirAC), предложенную в [VirtualMic]. Здесь, пространственный звук записывается с помощью массивов микрофонов, расположенных только в небольшом числе (3-4) физических местоположений. Впоследствии, параметры звукового поля, такие как направление поступления и рассеянность звука, могут оцениваться в каждом местоположении массива микрофонов, и эта информация затем может использоваться для синтеза пространственного звука в произвольных пространственных положениях. Хотя этот подход предлагает высокую гибкость со значительно сокращенным числом местоположений измерения, он по-прежнему требует множества местоположений измерения. Кроме того, параметрическая обработка сигналов и нарушения предполагаемой параметрической модели прохождения сигналов могут вводить артефакты обработки, которые могут быть неприятными, в частности, в вариантах применения для высококачественного воспроизведения звука.There are various approaches in the prior art that enable the recording and playback of spatial audio from various perspectives. One way is to physically record the spatial sound at all possible listening positions and, on the playback side, use the recording to reproduce the spatial sound that is closest to the virtual listening position. However, this recording approach is very thorough and requires an unfeasibly large amount of effort to measure. To reduce the number of physical measurement positions required while still achieving spatial audio reproduction from arbitrary perspectives, non-linear parametric spatial audio recording and playback technologies can be used. An example is the processing of virtual microphones based on Directional Audio Coding (DirAC) proposed in [VirtualMic]. Here, spatial audio is recorded using microphone arrays located in only a small number (3-4) of physical locations. Subsequently, sound field parameters such as direction of arrival and dispersion of sound can be estimated at each microphone array location, and this information can then be used to synthesize spatial sound at arbitrary spatial locations. While this approach offers high flexibility with a greatly reduced number of measurement locations, it still requires multiple measurement locations. In addition, parametric signal processing and violations of the intended parametric signal flow pattern can introduce processing artifacts that can be troublesome, particularly in high fidelity audio applications.

Задача настоящего изобретения состоит в создании усовершенствованной концепции обработки представления звукового поля, связанного с заданной опорной точкой или заданной ориентацией прослушивания для представления звукового поля.An object of the present invention is to provide an improved concept for processing a sound field presentation associated with a given reference point or a given listening orientation for a sound field presentation.

Данная задача решается устройством для обработки представления звукового поля по пункту 1 формулы, способом обработки представления звукового поля по пункту 31 формулы, или компьютерной программой по пункту 32 формулы.This task is solved by the sound field presentation processing device according to claim 1, the sound field presentation processing method according to claim 31, or the computer program according to claim 32.

В устройстве или способе обработки представления звукового поля, обработка звукового поля осуществляется с использованием отклонения целевого положения прослушивания от заданной опорной точки или отклонения целевой ориентации прослушивания от заданной ориентации прослушивания, так что получается описание обработанного звукового поля, при этом описание обработанного звукового поля, при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки. В качестве альтернативы или дополнения, обработка звукового поля выполняется таким образом, что описание обработанного звукового поля, при рендеринге обеспечивает впечатление представления звукового поля для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания. В качестве альтернативы или дополнения, обработка звукового поля осуществляется с использованием пространственного фильтра, в котором получается описание обработанного звукового поля, причем описание обработанного звукового поля при рендеринге обеспечивает впечатление пространственно фильтрованного описания звукового поля. В частности, обработка звукового поля выполняется относительно области пространственного преобразования. В частности, представление звукового поля содержит множество аудиосигналов в области аудиосигналов, причем эти аудиосигналы могут представлять собой сигналы громкоговорителей, сигналы микрофонов, амбиофонические сигналы либо другие множественные представления аудиосигналов, такие как сигналы аудиообъектов или кодированные сигналы аудиообъектов. Процессор звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение между заданной опорной точкой или заданной ориентацией прослушивания и целевым положением прослушивания или целевой ориентацией прослушивания применяется в области пространственного преобразования, имеющей ассоциированное правило прямого преобразования и правило обратного преобразования. Кроме того, процессор звукового поля выполнен с возможностью формирования описания обработанного звукового поля снова в области аудиосигналов, причем область аудиосигналов также представляет собой временную область или частотно-временную область, и описание обработанного звукового поля может содержать амбиофонические сигналы, сигналы громкоговорителей, бинауральные сигналы и/или сигналы аудиообъектов или кодированные сигналы аудиообъектов в зависимости от обстоятельств.In the sound field presentation processing device or method, the sound field processing is performed using the deviation of the target listening position from the specified reference point or the deviation of the target listening orientation from the specified listening orientation, so that a description of the processed sound field is obtained, wherein the description of the processed sound field, when rendering provides the impression of a sound field representation at a target listening position that is different from the specified reference point. Alternatively or in addition, the sound field processing is performed such that the description of the processed sound field, when rendered, provides the impression of a sound field representation for a listening target orientation different from the target listening orientation. Alternatively or in addition, the sound field processing is performed using a spatial filter in which a description of the processed sound field is obtained, wherein the processed sound field description when rendered provides the impression of a spatially filtered sound field description. In particular, the sound field processing is performed with respect to the spatial transform region. In particular, the sound field representation comprises a plurality of audio signals in the audio signal domain, which audio signals may be speaker signals, microphone signals, ambiophonic signals, or other multiple audio signal representations such as audio object signals or encoded audio object signals. The sound field processor is configured to process the sound field representation such that a deviation between a given reference point or a given listening orientation and a target listening position or target listening orientation is applied in a spatial transform region having an associated forward transform rule and an inverse transform rule. In addition, the sound field processor is configured to generate a description of the processed sound field again in the area of audio signals, wherein the area of audio signals also represents the time domain or frequency-time domain, and the description of the processed sound field may contain ambiophonic signals, loudspeaker signals, binaural signals and/ or audio object signals or encoded audio object signals, as the case may be.

В зависимости от реализации, обработка, выполняемая посредством процессора звукового поля, может содержать прямое преобразование в область пространственного преобразования и сигналы в области пространственного преобразования, т.е. виртуальные аудиосигналы для виртуальных громкоговорителей в виртуальных положениях фактически вычисляются и, в зависимости от варианта применения, пространственно фильтруются с использованием пространственного фильтра в области преобразования либо, без факультативной пространственной фильтрации, преобразуются обратно в область аудиосигналов с использованием правила обратного преобразования. Таким образом, в этой реализации, сигналы виртуальных громкоговорителей фактически вычисляются в выводе обработки прямого преобразования, и аудиосигналы, представляющие представление обработанного звукового поля, фактически вычисляются в качестве вывода обратного пространственного преобразования с использованием правила обратного преобразования.Depending on the implementation, the processing performed by the sound field processor may comprise a direct transform to the spatial transform region and signals in the spatial transform region, i. e. virtual audio signals for virtual speakers at virtual positions are actually computed and, depending on the application, spatially filtered using a spatial filter in the transform domain or, without optional spatial filtering, converted back to the audio domain using an inverse transform rule. Thus, in this implementation, the virtual speaker signals are actually computed at the output of the forward transform processing, and the audio signals representing the processed sound field representation are actually computed as the output of the inverse spatial transform using the inverse transform rule.

Тем не менее, в другой реализации, сигналы виртуальных громкоговорителей фактически не вычисляются. Вместо этого, только правило прямого преобразования, факультативный пространственный фильтр и правило обратного преобразования вычисляются и комбинируются для получения определения преобразования, и это определение преобразования применяется, предпочтительно в форме матрицы, к представлению входного звукового поля для получения представления обработанного звукового поля, т.е. отдельных аудиосигналов в области аудиосигналов. Следовательно, такая обработка с использованием правила прямого преобразования, факультативного пространственного фильтра и правила обратного преобразования приводит к такому же представлению обработанного звукового поля, как если фактически вычисляются сигналы виртуальных громкоговорителей. Тем не менее, при таком использовании определения преобразования, сигналы виртуальных громкоговорителей не должны фактически вычисляться, а только комбинация отдельных правил преобразования/фильтрации, такая как матрица, сформированная посредством комбинирования отдельных правил, вычисляется и применяется к аудиосигналам в области аудиосигналов.However, in another implementation, the virtual speaker signals are not actually calculated. Instead, only the forward transform rule, the optional spatial filter, and the inverse transform rule are computed and combined to obtain a transform definition, and this transform definition is applied, preferably in matrix form, to the input sound field representation to obtain the processed sound field representation, i.e. individual audio signals in the audio domain. Therefore, such processing using a forward transform rule, an optional spatial filter, and an inverse transform rule results in the same representation of the processed sound field as if the virtual loudspeaker signals were actually computed. However, with this use of the transform definition, the virtual speaker signals need not actually be calculated, but only a combination of individual transform/filter rules, such as a matrix formed by combining the individual rules, is calculated and applied to audio signals in the audio domain.

Кроме того, другой вариант осуществления относится к использованию запоминающего устройства, имеющего предварительно вычисленные определения преобразования для различных целевых положений прослушивания и/или целевых ориентаций, например, для дискретной сетки положений и ориентаций. В зависимости от фактического целевого положения или целевой ориентации, наилучшее совпадающее предварительно вычисленное и сохраненное определение преобразования должно идентифицироваться в запоминающем устройстве, извлекаться из запоминающего устройства и применяться к аудиосигналам в области аудиосигналов.In addition, another embodiment relates to the use of a memory device having precomputed transform definitions for various target listening positions and/or target orientations, for example, for a discrete grid of positions and orientations. Depending on the actual target position or target orientation, the best matching precomputed and stored transform definition must be identified in the memory, retrieved from the memory, and applied to the audio signals in the audio domain.

Использование таких предварительно вычисленных правил или использование определения преобразования (независимо от того, представляет оно собой полное определение преобразования или только частичное определение преобразования) является полезным, поскольку правило прямого пространственного преобразования, пространственная фильтрация и правило обратного пространственного преобразования представляют собой линейные операции и могут комбинироваться между собой и применяться в «однократной» операции без явного вычисления сигналов виртуальных громкоговорителей.The use of such pre-computed rules or the use of a transform definition (whether it is a complete transform definition or only a partial transform definition) is useful because the forward spatial transform rule, spatial filtering, and inverse spatial transform rule are linear operations and can be combined between itself and be applied in a “one-shot” operation without explicit calculation of the virtual loudspeaker signals.

В зависимости от реализации, частичное определение преобразования, полученное посредством комбинирования правила прямого преобразования и пространственной фильтрации, с одной стороны, либо полученное посредством комбинирования пространственной фильтрации и правила обратного преобразования, может применяться таким образом, что только прямое преобразование или обратное преобразование явно вычисляется с использованием сигналов виртуальных громкоговорителей. Таким образом, пространственная фильтрация может комбинироваться с правилом прямого преобразования или правилом обратного преобразования, и в силу этого число операций обработки может снижаться в зависимости от обстоятельств.Depending on the implementation, a partial definition of a transform, obtained by combining the forward transform rule and spatial filtering on the one hand, or obtained by combining spatial filtering and the inverse transform rule, may be applied such that only the forward transform or the inverse transform is explicitly computed using virtual speaker signals. Thus, spatial filtering can be combined with a forward transform rule or an inverse transform rule, and thus the number of processing operations can be reduced depending on the circumstances.

Варианты осуществления являются преимущественными в этом, что модификация звуковых сцен получается в связи с областью виртуальных громкоговорителей для согласованного воспроизведения пространственного звука из различных перспектив.Embodiments are advantageous in that a modification of the sound scenes is obtained in connection with the virtual speaker area for consistent reproduction of spatial sound from different perspectives.

Предпочтительные варианты осуществления описывают практический способ, при котором пространственный звук записывается в или представляется относительно одного опорного местоположения, при одновременном обеспечении возможности изменять аудиоперспективу по желанию на стороне воспроизведения. Изменение аудиоперспективы, например, может представлять собой вращение или перемещение в пространстве, а также такие эффекты, как акустическое масштабирование, включающее в себя пространственную фильтрацию. Пространственный звук на стороне записи может записываться с использованием, например, массива микрофонов, причем положение в массиве представляет опорное положение (оно называется «одним местоположением записи», даже если массив микрофонов может состоять из множества микрофонов, расположенных в немного отличающихся положениях, тогда как протяжение массива микрофонов является пренебрежимо малым по сравнению с размером стороны записи). Пространственный звук в местоположении записи также может представляться с точки зрения амбиофонического сигнала (высшего порядка). Кроме того, варианты осуществления могут обобщаться таким образом, чтобы использовать сигналы громкоговорителей в качестве ввода, тогда как зона наилучшего восприятия конфигурации громкоговорителей представляет одно опорное местоположение. Чтобы изменять перспективу записанного пространственного аудио относительно опорного местоположения, записанный пространственный звук преобразуется в область виртуальных громкоговорителей. Посредством изменения положений виртуальных громкоговорителей и фильтрации сигналов виртуальных громкоговорителей в зависимости от виртуального положения прослушивания и ориентации относительно опорного положения, перспектива пространственного звука может регулироваться требуемым образом. В отличие от параметрической обработки сигналов из уровня техники [VirtualMic], представленный подход является абсолютно линейным, с исключением артефактов нелинейной обработки. Авторы в [AmbiTrans] описывают связанный подход, при котором пространственная звуковая сцена модифицируется в области виртуальных громкоговорителей, например, для обеспечения модификации вращения, искривления и направленной громкости. Тем не менее, этот подход не раскрывает то, каким образом пространственная звуковая сцена может модифицироваться для достижения согласованного рендеринга аудио в произвольном виртуальном положении прослушивания относительно опорного местоположения. Кроме того, подход в [AmbiTrans] описывает обработку только для амбиофонического ввода, тогда как варианты осуществления связаны с амбиофоническим вводом, микрофонным вводом и вводом из громкоговорителя.Preferred embodiments describe a practical method in which spatial audio is recorded at or presented relative to one reference location while allowing the audio perspective to be changed as desired on the playback side. Changing the audio perspective, for example, can be a rotation or movement in space, as well as effects such as acoustic scaling, which includes spatial filtering. Spatial audio on the recording side can be recorded using, for example, a microphone array, where the position in the array represents a reference position (it is called "single recording location", even though the microphone array may consist of multiple microphones arranged in slightly different positions, while the extension microphone array is negligible compared to the size of the recording side). Spatial audio at the recording location can also be represented in terms of an ambiophonic signal (higher order). Furthermore, the embodiments may be generalized to use the speaker signals as an input, while the sweet spot of the speaker configuration represents one reference location. In order to change the perspective of the recorded spatial audio relative to the reference location, the recorded spatial audio is converted into a virtual speaker region. By changing the positions of the virtual speakers and filtering the signals of the virtual speakers depending on the virtual listening position and orientation relative to the reference position, the spatial sound perspective can be adjusted as desired. In contrast to prior art parametric signal processing [VirtualMic], the approach presented is completely linear, excluding non-linear processing artifacts. The authors in [AmbiTrans] describe a related approach in which the spatial soundstage is modified in the area of virtual speakers, for example, to provide modifications to rotation, curvature, and directional loudness. However, this approach does not disclose how the spatial soundstage can be modified to achieve consistent audio rendering at an arbitrary virtual listening position relative to the reference location. Furthermore, the approach in [AmbiTrans] only describes processing for ambiophonic input, while the embodiments are related to ambiophonic input, microphone input, and loudspeaker input.

Дополнительные реализации связаны с обработкой, при которой выполняется пространственное преобразование аудиоперспективы и, при необходимости, соответствующая пространственная фильтрация для имитации различных пространственных преобразования соответствующего видеоизображения, такого как сферическое видео. Ввод и вывод обработки, в варианте осуществления, представляют собой сигналы на основе амбиофонии первого порядка (FOA) или амбиофонии высшего порядка (HOA). Как указано, вся обработка может быть реализована как одно матричное умножение.Additional implementations are associated with processing that performs a spatial transformation of the audio perspective and, if necessary, appropriate spatial filtering to simulate various spatial transformations of the corresponding video image, such as spherical video. The processing input and output, in an embodiment, are first order ambiphony (FOA) or higher order ambiphony (HOA) based signals. As indicated, the entire processing can be implemented as a single matrix multiplication.

Далее предпочтительные варианты осуществления настоящего изобретения поясняются с обращением к прилагаемым чертежам, на которых:Further preferred embodiments of the present invention are explained with reference to the accompanying drawings, in which:

Фиг. 1 иллюстрирует блок-схему общего представления процессора звукового поля;Fig. 1 illustrates a block diagram of a general representation of a sound field processor;

Фиг. 2 иллюстрирует визуализацию сферических гармоник для различных порядков и режимов;Fig. 2 illustrates the visualization of spherical harmonics for various orders and modes;

Фиг. 3 иллюстрирует примерный формирователь диаграммы направленности антенны для получения сигнала виртуального громкоговорителя;Fig. 3 illustrates an exemplary antenna beamformer for deriving a virtual speaker signal;

Фиг. 4 показывает примерное пространственное окно кодирования со взвешиванием, используемое для фильтрации сигналов виртуальных громкоговорителей;Fig. 4 shows an exemplary weighted spatial coding window used to filter virtual speaker signals;

Фиг. 5 показывает примерное опорное положение и положение прослушивания в рассматриваемой системе координат;Fig. 5 shows an exemplary reference and listening position in the considered coordinate system;

Фиг. 6 иллюстрирует стандартную проекцию видеоизображения на 360° и соответствующего положения аудиопрослушивания для согласованного рендеринга аудио или видео;Fig. 6 illustrates a standard 360° video projection and corresponding audio listening position for consistent audio or video rendering;

Фиг. 7a иллюстрирует модифицированную проекцию видеоизображения на 360° и соответствующего модифицированного положения прослушивания аудио для согласованного рендеринга аудио/видео;Fig. 7a illustrates a modified 360° projection of a video image and a corresponding modified audio listening position for consistent audio/video rendering;

Фиг. 7b иллюстрирует видеопроекцию в случае стандартной проекции;Fig. 7b illustrates a video projection in the case of a standard projection;

Фиг. 7c иллюстрирует видеопроекцию в случае проекции малой планеты;Fig. 7c illustrates a video projection in the case of a minor planet projection;

Фиг. 8 иллюстрирует вариант осуществления устройства для обработки представления звукового поля в варианте осуществления;Fig. 8 illustrates an embodiment of the sound field presentation processing apparatus in the embodiment;

Фиг. 9a иллюстрирует реализацию процессора звукового поля;Fig. 9a illustrates an implementation of a sound field processor;

Фиг. 9b иллюстрирует реализацию модификации положения и вычисления определений обратного преобразования;Fig. 9b illustrates the implementation of position modification and calculation of inverse transform definitions;

Фиг. 10a иллюстрирует реализацию с использованием полного определения преобразования;Fig. 10a illustrates an implementation using the full transform definition;

Фиг. 10b иллюстрирует реализацию процессора звукового поля с использованием частичного определения преобразования;Fig. 10b illustrates an implementation of a sound field processor using a partial transform definition;

Фиг. 10c иллюстрирует другую реализацию процессора звукового поля с использованием дополнительного частичного определения преобразования;Fig. 10c illustrates another implementation of a sound field processor using an additional partial transform definition;

Фиг. 10d иллюстрирует реализацию процессора звукового поля с использованием явного вычисления сигналов виртуальных громкоговорителей;Fig. 10d illustrates an implementation of a sound field processor using explicit computation of virtual speaker signals;

Фиг. 11a иллюстрирует вариант осуществления с использованием запоминающего устройства с предварительно вычисленными определениями или правилами преобразования;Fig. 11a illustrates an embodiment using a storage device with precomputed definitions or transformation rules;

Фиг. 11b иллюстрирует вариант осуществления с использованием процессора и модуля вычисления определений преобразования;Fig. 11b illustrates an embodiment using a processor and a transform definition calculation unit;

Фиг. 12a иллюстрирует вариант осуществления пространственного преобразования для амбиофонического ввода;Fig. 12a illustrates an embodiment of spatial transformation for ambiophonic input;

Фиг. 12b иллюстрирует реализацию пространственного преобразования для каналов громкоговорителей;Fig. 12b illustrates the implementation of spatial mapping for speaker channels;

Фиг. 12c иллюстрирует реализацию пространственного преобразования для сигналов микрофонов;Fig. 12c illustrates the implementation of spatial transformation for microphone signals;

Фиг. 12d иллюстрирует реализацию пространственного преобразования для ввода сигналов аудиообъектов;Fig. 12d illustrates the implementation of a spatial transform for inputting audio object signals;

Фиг. 13a иллюстрирует реализацию (обратного) пространственного преобразования для получения амбиофонического вывода;Fig. 13a illustrates the implementation of the (inverse) spatial transformation to obtain ambiophonic output;

Фиг. 13b иллюстрирует реализацию (обратного) пространственного преобразования для получения выходных сигналов громкоговорителей;Fig. 13b illustrates an implementation of the (inverse) spatial transform for obtaining loudspeaker output signals;

Фиг. 13c иллюстрирует реализацию (обратного) пространственного преобразования для получения бинаурального вывода;Fig. 13c illustrates the implementation of the (inverse) spatial transform to obtain binaural output;

Фиг. 13d иллюстрирует реализацию (обратного) пространственного преобразования для получения бинауральных сигналов в альтернативе к фиг. 13c;Fig. 13d illustrates an implementation of the (inverse) spatial transform for deriving binaural signals in an alternative to FIG. 13c;

Фиг. 14 иллюстрирует блок-схему для способа или устройства для обработки представления звукового поля с явным вычислением сигналов виртуальных громкоговорителей; иFig. 14 illustrates a block diagram for a method or apparatus for processing sound field representation with explicit calculation of virtual speaker signals; And

Фиг. 15 иллюстрирует блок-схему для варианта осуществления способа или устройства для обработки представления звукового поля без явного вычисления сигналов виртуальных громкоговорителей.Fig. 15 illustrates a block diagram for an embodiment of a method or apparatus for processing a sound field representation without explicitly calculating virtual speaker signals.

Фиг. 8 иллюстрирует устройство для обработки представления звукового поля, связанного с заданной опорной точкой или заданной ориентацией прослушивания для представления звукового поля. Представление звукового поля получается через входной интерфейс 900, и в выводе входного интерфейса 900, доступно представление 1001 звукового поля, связанное с заданной опорной точкой или заданной ориентацией прослушивания. Кроме того, это представление звукового поля вводится в процессор 1000 звукового поля, который работает относительно области пространственного преобразования. Другими словами, процессор 1000 звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр 1030 применяется в области пространственного преобразования, имеющей ассоциированное правило 1021 прямого преобразования и правило 1051 обратного преобразования.Fig. 8 illustrates an apparatus for processing a sound field presentation associated with a given reference point or a given listening orientation for the sound field presentation. The sound field representation is obtained via the input interface 900, and in the output of the input interface 900, the sound field representation 1001 associated with a given reference point or a given listening orientation is available. In addition, this sound field representation is input to the sound field processor 1000, which operates with respect to the spatial transform region. In other words, the sound field processor 1000 is configured to process the sound field representation such that a bias or spatial filter 1030 is applied to a spatial transform region having an associated forward transform rule 1021 and an inverse transform rule 1051.

В частности, процессор звукового поля выполнен с возможностью обработки представления звукового поля с использованием отклонения целевого положения прослушивания от заданной опорной точки или с использованием отклонения целевой ориентации прослушивания от заданной ориентации прослушивания. Отклонение получается посредством детектора 1100. В качестве альтернативы или дополнения, детектор 1100 реализован с возможностью обнаружения целевого положения прослушивания или целевой ориентации прослушивания без фактического вычисления отклонения. Целевое положение прослушивания и/или целевая ориентация прослушивания либо, в качестве альтернативы, отклонение между заданной опорной точкой и целевым положением прослушивания или отклонение между заданной ориентацией прослушивания и целевой ориентацией прослушивания перенаправляются в процессор 1000 звукового поля. Процессор звукового поля обрабатывает представление звукового поля с использованием отклонения таким образом, что получается описание обработанного звукового поля, при этом описание обработанного звукового поля при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки, или для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания. В качестве альтернативы или дополнения, процессор звукового поля выполнен с возможностью обработки представления звукового поля с использованием пространственного фильтра таким образом, что получается описание обработанного звукового поля, при этом описание обработанного звукового поля при рендеринге обеспечивает впечатление пространственно фильтрованного описания звукового поля, т.е. описание звукового поля, которое фильтровано посредством пространственного фильтра.In particular, the sound field processor is configured to process the sound field representation using a deviation of the target listening position from a predetermined reference point, or using a deviation of the target listening orientation from a predetermined listening orientation. The deflection is obtained by the detector 1100. Alternatively or in addition, the detector 1100 is configured to detect a listening target position or listening target orientation without actually calculating the deflection. The target listening position and/or target listening orientation or, alternatively, the deviation between the given reference point and the target listening position or the deviation between the given listening orientation and the target listening orientation are forwarded to the sound field processor 1000. The sound field processor processes the sound field representation using deflection in such a way that a description of the processed sound field is obtained, wherein the description of the processed sound field, when rendered, provides the impression of a sound field representation at a target listening position that is different from a given reference point, or for a target listening orientation, different from the specified listening orientation. Alternatively or in addition, the sound field processor is configured to process the sound field representation using a spatial filter such that a processed sound field description is obtained, wherein the processed sound field description when rendered provides the impression of a spatially filtered sound field description, i. a description of the sound field that has been filtered by a spatial filter.

Следовательно, независимо от того, выполняется ли пространственная фильтрация, процессор 1000 звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр 1030 применяется в области пространственного преобразования, имеющей ассоциированное правило 1021 прямого преобразования и правило 1051 обратного преобразования. Правила прямого и обратного преобразования извлекаются с использованием набора виртуальных громкоговорителей в виртуальных положениях, но не обязательно явно вычислять сигналы для виртуальных громкоговорителей.Therefore, regardless of whether spatial filtering is performed, the sound field processor 1000 is configured to process the sound field representation such that a bias or spatial filter 1030 is applied in a spatial transform region having an associated forward transform rule 1021 and an inverse transform rule 1051. The forward and backward transform rules are derived using a set of virtual speakers at virtual positions, but it is not necessary to explicitly compute the signals for the virtual speakers.

Предпочтительно, представление звукового поля содержит число компонентов звукового поля, которое больше или равно двум или трем. Кроме того и предпочтительно, детектор 1100 предусмотрен в качестве явного признака устройства для обработки. Тем не менее, в другом варианте осуществления, процессор 1000 звукового поля имеет ввод для целевого положения прослушивания или целевой ориентации прослушивания либо для соответствующего отклонения. Кроме того, процессор 1000 звукового поля выводит описание 1201 обработанного звукового поля, которое может перенаправляться в выходной интерфейс 1200 и затем выводиться для передачи или хранения описания 1201 обработанного звукового поля. Один вид передачи, например, представляет собой фактический рендеринг описания обработанного звукового поля через (реальные) громкоговорители либо через наушник относительно бинаурального вывода. В качестве альтернативы, например, как и в случае амбиофонического вывода, описание 1201 обработанного звукового поля выводится посредством выходного интерфейса 1200, может перенаправляться/вводиться в амбиофонический звуковой процессор.Preferably, the sound field representation comprises a number of sound field components greater than or equal to two or three. Additionally and preferably, the detector 1100 is provided as a prominent feature of the processing device. However, in another embodiment, the sound field processor 1000 has an input for a target listening position or target listening orientation, or a corresponding deflection. In addition, the sound field processor 1000 outputs the processed sound field description 1201, which can be forwarded to the output interface 1200 and then output to transmit or store the processed sound field description 1201. One kind of transmission, for example, is the actual rendering of the processed sound field description through (real) loudspeakers or through a headphone relative to the binaural output. Alternatively, for example, as in the case of ambiophonic output, the description 1201 of the processed sound field output via the output interface 1200 may be redirected/input into the ambiophonic sound processor.

Фиг. 9a иллюстрирует предпочтительную реализацию процессора 1000 звукового поля. В частности, представление звукового поля содержит множество аудиосигналов в области аудиосигналов. Таким образом, ввод в процессор 1001 звукового поля содержит множество аудиосигналов и, предпочтительно по меньшей мере два или три различных аудиосигнала, таких как амбиофонические сигналы, каналы громкоговорителей, данные аудиообъектов или сигналы микрофонов. Область аудиосигналов предпочтительно представляет собой временную область или частотно-временную область.Fig. 9a illustrates a preferred implementation of a sound field processor 1000. In particular, the sound field representation contains a plurality of audio signals in the audio signal domain. Thus, the input to the sound field processor 1001 comprises a plurality of audio signals, and preferably at least two or three different audio signals, such as ambiophonic signals, speaker channels, audio object data, or microphone signals. The domain of the audio signals is preferably the time domain or the time-frequency domain.

Кроме того, процессор 1000 звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр применяется в области пространственного преобразования, имеющей ассоциированное правило 1021 прямого преобразования, полученное посредством блока 1020 прямого преобразования, и имеющей ассоциированное правило 1051 обратного преобразования, полученное посредством блока 1050 обратного преобразования. Кроме того, процессор 1000 звукового поля выполнен с возможностью формирования описания обработанного звукового поля в области аудиосигналов. Таким образом, предпочтительно, вывод блока 1050, т.е. сигнал на линии 1201 находится в той же области с вводом 1001 в блок 1020 прямого преобразования.In addition, the sound field processor 1000 is configured to process the sound field representation such that a bias or a spatial filter is applied in the spatial transform region having an associated direct transform rule 1021 obtained by the direct transform block 1020 and having an associated inverse transform rule 1051, obtained by the inverse transform block 1050. In addition, the sound field processor 1000 is configured to generate a description of the processed sound field in the audio domain. Thus, preferably, the output of block 1050, i. e. the signal on line 1201 is in the same region as input 1001 to direct conversion block 1020.

В зависимости от того, выполняется ли явное вычисление сигналов виртуальных громкоговорителей, блок 1020 прямого преобразования фактически выполняет прямое преобразование, и блок 1050 обратного преобразования фактически преобразует обратное преобразование. В другой реализации, в которой только связанная с областью преобразования обработка выполняется без явного вычисления сигналов виртуальных громкоговорителей, блок 1020 прямого преобразования выводит правило 1021 прямого преобразования, и блок 1050 обратного преобразования выводит правило 1051 обратного преобразования для целей обработки звукового поля. Кроме того, с учетом реализации пространственного фильтра, либо пространственный фильтр применяется в качестве блока 1030 пространственной фильтрации, либо пространственный фильтр отражается посредством применения правила 1031 пространственной фильтрации. Обе реализации, т.е. с или без явного вычисления явных сигналов виртуальных громкоговорителей, являются эквивалентными друг другу, поскольку вывод обработки звукового поля, т.е. сигнал 1201 при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки, или для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания. С этой целью, пространственный фильтр 1030 и блок 1050 обратного преобразования предпочтительно принимают целевое положение или/и целевую ориентацию.Depending on whether explicit calculation of the virtual speaker signals is performed, the forward transform block 1020 actually performs a forward transform, and the inverse transform block 1050 actually converts the inverse transform. In another implementation, in which only transform region-related processing is performed without explicitly calculating virtual speaker signals, the forward transform block 1020 outputs a direct transform rule 1021, and the inverse transform block 1050 outputs an inverse transform rule 1051 for sound field processing purposes. In addition, considering the implementation of the spatial filter, either the spatial filter is applied as the spatial filtering block 1030, or the spatial filter is reflected by applying the spatial filtering rule 1031. Both implementations, i.e. with or without explicit calculation of explicit virtual speaker signals are equivalent to each other, since the output of the sound field processing, i.e. the signal 1201, when rendered, provides the impression of presenting the sound field at a target listening position that is different from a given reference point, or for a target listening orientation that is different from a given listening orientation. To this end, the spatial filter 1030 and the inverse transform block 1050 preferably assume a target position or/and a target orientation.

Фиг. 9b иллюстрирует предпочтительную реализацию операции модификации положения. С этой целью предусмотрен модуль 1040a определения положений виртуальных громкоговорителей. Блок 1040a принимает, в качестве ввода, определение числа виртуальных громкоговорителей в положениях виртуальных громкоговорителей, которые обычно одинаково распределяются по сфере вокруг заданной опорной точки. Предпочтительно, 250 виртуальных громкоговорителей предполагаются. В общем, число в 50 виртуальных громкоговорителей или больше виртуальных громкоговорителей и/или число в 500 виртуальных громкоговорителей или меньше виртуальных громкоговорителей является достаточным для обеспечения полезной операции высококачественной обработки звукового поля.Fig. 9b illustrates a preferred implementation of the position modification operation. To this end, a virtual speaker position determination module 1040a is provided. Block 1040a takes, as input, a determination of the number of virtual speakers at virtual speaker positions, which are typically equally distributed over a sphere around a given reference point. Preferably, 250 virtual speakers are assumed. In general, the number of 50 virtual speakers or more virtual speakers and/or the number of 500 virtual speakers or less virtual speakers is sufficient to provide a useful high quality sound field processing operation.

В зависимости от данных виртуальных громкоговорителей и в зависимости от опорного положения и/или опорной ориентации, блок 1040a формирует углы азимута/подъема для каждого виртуального динамика, связанного с опорным положением или/и опорной ориентацией. Эта информация предпочтительно вводится в блок 1020 прямого преобразования таким образом, что сигналы виртуальных громкоговорителей для виртуальных громкоговорителей, заданных во вводе в блок 1040a, могут явно (или неявно) вычисляться.Depending on the virtual speaker data and depending on the reference position and/or reference orientation, block 1040a generates azimuth/elevation angles for each virtual speaker associated with the reference position and/or reference orientation. This information is preferably input to direct conversion block 1020 such that the virtual speaker signals for the virtual speakers specified in the input to block 1040a can be explicitly (or implicitly) computed.

В зависимости от реализации, могут быть предусмотрены другие определения для виртуальных громкоговорителей, отличающиеся от углов азимута/подъема, такие как декартовы координаты или информация декартовых направлений, такая как векторы, указывающие в ориентации, которая соответствует ориентации громкоговорителя, направленного в соответствующую исходную или предварительно заданное опорное положение, с одной стороны, или, относительно обратного преобразования, направленного в целевой ориентации.Depending on the implementation, other definitions for virtual speakers other than azimuth/elevation angles may be provided, such as Cartesian coordinates or Cartesian direction information, such as vectors pointing in an orientation that corresponds to the orientation of the speaker pointed to the corresponding home or preset the reference position, on the one hand, or, relative to the inverse transformation, directed to the target orientation.

Блок 1040b принимает в качестве ввода целевое положение или целевую ориентацию либо, в качестве альтернативы или дополнения, отклонение для положения/ориентации между заданной опорной точкой или заданной ориентацией прослушивания от целевого положения прослушивания или целевой ориентации прослушивания. Блок 1040b затем вычисляет, из данных, сформированных посредством блока 1040a, и данных, вводимых в блок 1040b, углы азимута/подъема для каждого виртуального громкоговорителя, связанного с целевым положением или/и целевой ориентацией, и эта информация вводится в определение 1050 обратного преобразования. Таким образом, блок 1050 либо может фактически применять правило обратного преобразования с модифицированными положениями/ориентациями виртуальных громкоговорителей, либо может выводить правило 1051 обратного преобразования, как указано на фиг. 9a, для реализации без явного использования и обработки сигналов виртуальных громкоговорителей.Block 1040b takes as input a target position or target orientation, or alternatively or in addition, a deviation for a position/orientation between a given reference point or a given listening orientation from the target listening position or target listening orientation. Block 1040b then calculates, from the data generated by block 1040a and the data input to block 1040b, the azimuth/elevation angles for each virtual speaker associated with the target position or/and target orientation, and this information is input to the inverse transform definition 1050. Thus, block 1050 may either actually apply the inverse transform rule with the modified virtual speaker positions/orientations, or may output the inverse transform rule 1051 as indicated in FIG. 9a for an implementation without the explicit use and processing of virtual loudspeaker signals.

Фиг. 10a иллюстрирует реализацию, связанную с использованием полного определения преобразования, такого как матрица преобразования, состоящая из правила 1021 прямого преобразования, пространственного фильтра 1031 и правила 1051 обратного преобразования, так что, из представления 1001 звукового поля, вычисляется представление 1201 обработанного звукового поля.Fig. 10a illustrates an implementation associated with using a full transform definition such as a transform matrix consisting of a forward transform rule 1021, a spatial filter 1031, and an inverse transform rule 1051 such that, from the sound field representation 1001, the processed sound field representation 1201 is computed.

В другой реализации, проиллюстрированной на фиг. 10b, частичное определение преобразования, такое как частичная матрица преобразования, получается посредством комбинирования правила 1021 прямого преобразования и пространственного фильтра 1031. Таким образом, в выводе частичного определения 1072 преобразования, получаются пространственно фильтрованные сигналы виртуальных громкоговорителей, которые затем обрабатываются посредством обратного преобразования 1050 для получения представления 1201 обработанного звукового поля.In another implementation illustrated in FIG. 10b, a partial transform definition, such as a partial transform matrix, is obtained by combining the direct transform rule 1021 and the spatial filter 1031. Thus, in deriving the partial transform definition 1072, spatially filtered virtual speaker signals are obtained, which are then processed through an inverse transform 1050 to obtain representations 1201 of the processed sound field.

В дополнительной реализации, проиллюстрированной на фиг. 10c, представление звукового поля вводится в прямое преобразование 1020 для получения фактических сигналов виртуальных громкоговорителей во вводе в пространственный фильтр. Другое (частичное) определение 1073 преобразования вычисляется посредством комбинации пространственного фильтра 1031 и правила 1051 обратного преобразования. Таким образом, в выводе блока 1201, представления обработанного звукового поля, например, получаются множество аудиосигналов в области аудиосигналов, например, во временной области или в частотно-временной области.In a further implementation illustrated in FIG. 10c, the sound field representation is input to direct transform 1020 to obtain the actual virtual speaker signals at the input to the spatial filter. Another (partial) transform definition 1073 is calculated by a combination of the spatial filter 1031 and the inverse transform rule 1051. Thus, in the output of block 1201, representing the processed sound field, for example, a plurality of audio signals in the audio signal domain, for example, in the time domain or in the time-frequency domain, are obtained.

Фиг. 10d иллюстрирует полностью отдельную реализацию с явными сигналами в пространственной области. В этой реализации, прямое преобразование применяется к представлению звукового поля, и в выводе блока 1020, получается набор, например, из 250 сигналов виртуальных громкоговорителей. Пространственный фильтр 1030 применяется, и в выводе блока 1030, получается набор из пространственно фильтрованных, например, 250 сигналов виртуальных громкоговорителей. Набор пространственно фильтрованных сигналов виртуальных громкоговорителей подвергается пространственному обратному преобразованию 1050 для получения в выходном сигнале представления 1201 обработанного звукового поля.Fig. 10d illustrates a completely separate implementation with explicit signals in the spatial domain. In this implementation, a direct transform is applied to the sound field representation, and at the output of block 1020, a set of, for example, 250 virtual speaker signals is obtained. A spatial filter 1030 is applied, and in the output of block 1030, a set of spatially filtered, for example, 250 virtual speaker signals is obtained. The set of spatially filtered virtual speaker signals is spatially inverse transformed 1050 to produce a processed sound field representation 1201 in the output signal.

В зависимости от реализации, пространственная фильтрация с использованием пространственного фильтра 1031 выполняется или не выполняется. В случае использования пространственного фильтра и в случае невыполнения модификации положения/ориентации, прямое преобразование 1020 и обратное преобразование 1050 основаны на одинаковых положениях виртуальных громкоговорителей. Тем не менее, пространственный фильтр 1031 применяется в области пространственного преобразования независимо от того, вычисляются ли явно сигналы виртуальных громкоговорителей.Depending on the implementation, spatial filtering using the spatial filter 1031 is performed or not performed. In the case of a spatial filter, and in the case of no position/orientation modification, forward transform 1020 and inverse transform 1050 are based on the same virtual speaker positions. However, the spatial filter 1031 is applied in the spatial transform region whether or not the virtual speaker signals are explicitly calculated.

Кроме того, в случае невыполнения пространственной фильтрации, модификация положения прослушивания или ориентации прослушивания на целевое положение прослушивания и целевую ориентацию выполняется, и в силу этого положения/ориентации виртуальных громкоговорителей должны отличаться при обратном преобразовании, с одной стороны, и прямом преобразовании, с другой стороны.In addition, in the case of not performing spatial filtering, modification of the listening position or listening orientation to the target listening position and target orientation is performed, and because of this, the positions/orientations of the virtual speakers must be different in inverse conversion on the one hand and direct conversion on the other hand. .

Фиг. 11a иллюстрирует реализацию процессора звукового поля в контексте запоминающего устройства с предварительно вычисленным множеством определений преобразования (полных или частичных) либо правил прямого преобразования, обратного преобразования или фильтрации для дискретной сетки положений и/или ориентаций, как указано на 1080.Fig. 11a illustrates an implementation of a sound field processor in a memory context with a precomputed set of transform definitions (full or partial) or forward transform, inverse transform, or filter rules for a discrete grid of positions and/or orientations, as indicated at 1080.

Детектор 1100 выполнен с возможностью обнаружения целевого положения или/и целевой ориентации и перенаправляет эту информацию в процессор 1081 для нахождения ближайшего определения преобразования или правила прямого преобразования/обратного преобразования/фильтрации в запоминающем устройстве 1080. С этой целью, процессор 1081 имеет сведения относительно дискретной сетки положений и ориентаций, в которых сохраняются соответствующие определения преобразования или предварительно вычисленные правила прямого преобразования/обратного преобразования/фильтрации. После того, как процессор 1081 идентифицировал ближайшую точку сетки, максимально близко совпадающую с целевым положением или/и с целевой ориентацией, эта информация перенаправляется в модуль 1082 извлечения из запоминающего устройства, который выполнен с возможностью извлечения соответствующего полного или частичного определения преобразования или правила прямого преобразования/обратного преобразования/фильтрации для обнаруженного целевого положения и/или ориентации. В других вариантах осуществления, не обязательно использовать ближайшую точку сетки с математической точки зрения. Вместо этого, может быть полезным определять не точку сетки, представляющую собой ближайшую точку сетки, а точку сетки, связанную с целевым положением или ориентацией. Пример может представлять собой то, что точка сетки, представляющая собой, с математической точки зрения, не ближайшую, а вторую или третью ближайшую, или четвертую ближайшую, лучше ближайшей точки сетки. Причина состоит в этом, что оптимизация имеет более одной размерности, и может быть лучше обеспечивать возможность большего отклонения для азимута, но меньшего отклонения от подъема. Эта информация вводится в соответствующий (матричный) процессор 1090, который принимает, в качестве ввода, представление звукового поля, и который выводит представление 1201 обработанного звукового поля. Предварительно вычисленное определение преобразования может представляет собой матрицу преобразования, имеющую размерность в N строк и M столбцов, при этом N и M являются целыми числами, большими 2, и представление звукового поля имеет M аудиосигналов, и представление 1201 обработанного звукового поля имеет N аудиосигналов. В математически транспонированном формулировании, ситуация может быть обратной, т.е. предварительно вычисленное определение преобразования может представлять собой матрицу преобразования, имеющую размерность в M строк и N столбцов, или представление звукового поля имеет N аудиосигналов, и представление 1201 обработанного звукового поля имеет M аудиосигналов.Detector 1100 is configured to detect a target position or/and target orientation and forwards this information to processor 1081 to find the nearest transform definition or forward transform/inverse transform/filter rule in memory 1080. To this end, processor 1081 is aware of the discrete grid positions and orientations in which the respective transform definitions or precomputed forward/inverse/filtering rules are stored. Once the processor 1081 has identified the closest grid point that matches the target position and/or target orientation as closely as possible, this information is forwarded to a memory retrieval module 1082, which is configured to retrieve the corresponding full or partial transform definition or direct transform rule. /inverse transformation/filtering for the detected target position and/or orientation. In other embodiments, it is not necessary to use the nearest grid point from a mathematical point of view. Instead, it may be useful to define not the grid point that represents the nearest grid point, but the grid point associated with the target position or orientation. An example may be that a grid point that is, mathematically speaking, not the closest, but the second or third closest, or the fourth closest, is better than the nearest grid point. The reason is that the optimization has more than one dimension, and it may be better to allow for more deviation for azimuth but less deviation for elevation. This information is input to a corresponding (matrix) processor 1090 which receives, as input, a sound field representation and which outputs a processed sound field representation 1201. The precomputed transform definition may be a transform matrix having a dimension of N rows and M columns, where N and M are integers greater than 2, and the sound field representation has M audio signals, and the processed sound field representation 1201 has N audio signals. In the mathematically transposed formulation, the situation can be reversed, i.e. the precomputed transform definition may be a transform matrix having M rows and N columns, or the sound field representation has N audio signals and the processed sound field representation 1201 has M audio signals.

Фиг. 11a иллюстрирует другую реализацию матричного процессора 1090. В этой реализации, матричный процессор снабжается данными посредством модуля 1092 матричного вычисления, который принимает, в качестве ввода, опорное положение /ориентацию и целевое положение/ориентацию либо, хотя не показано на чертеже, соответствующее отклонение. На основе этого отклонения, модуль 1092 вычисления вычисляет любое из частичных или полных определений преобразования, как пояснено относительно фиг. 10c, и перенаправляет это правило в матричный процессор 1090. В случае полного определения 1071 преобразования, матричный процессор 1090 выполняет, например, для каждой частотно-временной плитки, полученной посредством гребенки аналитических фильтров, одну матричную операцию с использованием комбинированной матрицы 1071. В случае частичного определения 1072 или 1073 преобразования, процессор 1090 выполняет фактическое прямое или обратное преобразование и, дополнительно, матричную операцию, чтобы либо получать фильтрованные сигналы виртуальных громкоговорителей для случая по фиг. 10b, либо получать, из набора сигналов виртуальных громкоговорителей, представление 1201 обработанного звукового фильтра в области аудиосигналов.Fig. 11a illustrates another implementation of a matrix processor 1090. In this implementation, the matrix processor is supplied with data by a matrix calculation module 1092 that receives, as input, a reference position/orientation and a target position/orientation, or, although not shown in the drawing, a corresponding deviation. Based on this variance, calculation module 1092 calculates any of the partial or full transform definitions, as discussed with respect to FIG. 10c and forwards this rule to the matrix processor 1090. In the case of a full transform definition 1071, the matrix processor 1090 performs, for example, for each time-frequency tile obtained by the analytic filter bank, one matrix operation using the combined matrix 1071. In the case of a partial transform determinations 1072 or 1073, processor 1090 performs the actual forward or inverse transform and optionally a matrix operation to either obtain the filtered virtual speaker signals for the case of FIG. 10b or obtain, from a set of virtual speaker signals, a representation 1201 of the processed audio filter in the audio domain.

В следующих разделах описаны варианты осуществления, и поясняется то, каким образом различные пространственные звуковые представления могут быть преобразованы в область виртуальных громкоговорителей и затем модифицированы для обеспечения согласованного производства пространственного звука в произвольном виртуальном положении прослушивания (включающем в себя произвольные ориентации прослушивания), которая определяется относительно исходного опорного местоположения.The following sections describe embodiments and explain how different spatial audio representations can be converted into a virtual speaker region and then modified to provide consistent spatial audio production at an arbitrary virtual listening position (including arbitrary listening orientations) that is defined relative to original reference location.

Фиг. 1 показывает общее представление блок-схему предложенного нового подхода. Некоторые варианты осуществления используют только поднабор блоков конфигурации, показанных на общей схеме, и исключают определенные блоки обработки в зависимости от сценария применения.Fig. 1 shows a general flow diagram of the proposed new approach. Some embodiments use only a subset of the configuration blocks shown in the general diagram and exclude certain processing blocks depending on the application scenario.

Ввод в варианты представляет собой множество (два или более) входных аудиосигналов во временной области или в частотно-временной области. Входные сигналы временной области при необходимости могут быть преобразованы в частотно-временную область с использованием гребенки (1010) аналитических фильтров. Входные сигналы, например, могут представлять собой сигналы громкоговорителей, сигналы микрофонов, сигналы аудиообъектов или амбиофонические компоненты. Входные аудиосигналы представляют пространственное звуковое поле, связанное с заданным опорным положением и ориентацией. Опорное положение и ориентация, например, может представлять собой зону наилучшего восприятия, обращенную к азимуту и подъему в 0° (для входных сигналов громкоговорителей), положение и ориентацию массива микрофонов (для входных сигналов микрофонов) или центр системы координат (для амбиофонических входных сигналов).The input to options is a plurality (two or more) of audio input signals in the time domain or in the time-frequency domain. The time domain input signals may be converted to the time-frequency domain, if necessary, using the analytical filter bank (1010). The input signals may, for example, be speaker signals, microphone signals, audio object signals, or ambiphonic components. Input audio signals represent a spatial sound field associated with a given reference position and orientation. The reference position and orientation, for example, can be the sweet spot facing azimuth and elevation at 0° (for loudspeaker inputs), the position and orientation of the microphone array (for microphone inputs), or the center of the coordinate system (for ambiophonic inputs) .

Входные сигналы преобразуются в область виртуальных громкоговорителей с использованием первого или прямого пространственного преобразования (1020). Первое пространственное преобразование (1020), например, может представлять собой формирование диаграммы направленности (при использовании входных сигналов микрофонов), повышающее микширование сигналов громкоговорителей (при использовании входных сигналов громкоговорителей) или разложение по плоским волнам (при использовании амбиофонических входных сигналов). Для входного сигнала аудиообъекта, первое пространственное преобразование может представлять собой модуль рендеринга аудиообъектов (например, модуль рендеринга VBAP [Vbap]). Первое пространственное преобразование (1020) вычисляется на основе набора положений виртуальных громкоговорителей. Нормально, положения виртуальных громкоговорителей могут задаваться равномерно распределенными по сфере и центрированными вокруг опорного положения.The input signals are converted to the virtual speaker region using the first or direct spatial transform (1020). The first spatial transform (1020), for example, may be beamforming (when using microphone inputs), upmixing loudspeaker signals (when using loudspeaker inputs), or plane wave decomposition (when using ambiophonic inputs). For an audio object input, the first spatial transform may be an audio object renderer (eg, a VBAP renderer [Vbap]). The first spatial transform (1020) is calculated based on the set of virtual speaker positions. Normally, the positions of the virtual speakers may be set uniformly distributed over the sphere and centered around the reference position.

При необходимости, сигналы виртуальных громкоговорителей могут фильтроваться с использованием пространственной фильтрации (1030). Пространственная фильтрация (1030) используется для фильтрации представления звукового поля в области виртуальных громкоговорителей в зависимости от требуемого положения прослушивания или ориентации. Это может использоваться, например, для увеличения громкости, когда положение прослушивания приближается к источникам звука. Это справедливо для конкретной пространственной области, в которой, например, может быть расположен такой звуковой объект.If necessary, the virtual speaker signals may be filtered using spatial filtering (1030). Spatial filtering (1030) is used to filter the sound field representation in the virtual speaker area depending on the desired listening position or orientation. This can be used, for example, to increase the volume when the listening position gets closer to sound sources. This is true for a specific spatial region in which, for example, such a sound object may be located.

Положения виртуальных громкоговорителей модифицируются в блоке (1040) модификации положения в зависимости от требуемого положения и ориентации прослушивания. На основе модифицированных положений виртуальных громкоговорителей, (фильтрованные) сигналы виртуальных громкоговорителей преобразуются обратно из области виртуальных громкоговорителей с использованием второго или обратного пространственного преобразования (1050) для получения двух или более требуемых выходных аудиосигналов. Второе пространственное преобразование (1050), например, может представлять собой сферическое гармоническое разложение (когда сигналы выводов должны получаться в амбиофонической области), сигналы микрофонов (когда выходные сигналы должны получаться в области сигналов микрофонов), или сигналы громкоговорителей (когда выходные сигналы должны получаться в области громкоговорителей). Второе пространственное преобразование (1050) является независимым от первого пространственного преобразования (1020). Выходные сигналы в частотно-временной области при необходимости могут быть преобразованы во временную область с использованием гребенки (1060) синтезирующих фильтров.The positions of the virtual speakers are modified in the position modification block (1040) depending on the desired listening position and orientation. Based on the modified virtual speaker positions, the (filtered) virtual speaker signals are converted back from the virtual speaker region using a second or inverse spatial transform (1050) to produce two or more desired audio output signals. The second spatial transformation (1050), for example, can be a spherical harmonic decomposition (when the output signals are to be obtained in the ambiophonic region), microphone signals (when the output signals are to be obtained in the microphone signal region), or loudspeaker signals (when the output signals are to be obtained in the speaker area). The second spatial transform (1050) is independent of the first spatial transform (1020). The output signals in the time-frequency domain, if necessary, can be converted to the time domain using the synthesis filter bank (1060).

Вследствие модификации (1040) положения виртуальных положений прослушивания, которые затем используются во втором пространственном преобразовании (1050), выходные сигналы представляют пространственный звук в требуемой положения прослушивания с требуемым направлением взгляда, которое может отличаться от опорного положения и ориентации.Due to the modification (1040) of the position of the virtual listening positions, which are then used in the second spatial transformation (1050), the output signals represent the spatial sound at the desired listening position with the desired viewing direction, which may be different from the reference position and orientation.

В некоторых вариантах применения, варианты осуществления используются вместе с видеоприложением для согласованного воспроизведения аудио/видео, например, при рендеринге видео камеры на 360° из различных, определяемых пользователем перспектив. В этом случае, опорное положение и ориентация обычно соответствуют начальному положению и ориентации видеокамеры на 360°. Требуемое положение и ориентация прослушивания, которая используется для вычисления модифицированных положений виртуальных громкоговорителей в блоке (1040), затем соответствует определяемому пользователем положению и ориентации просмотра в видео на 360°. За счет этого, выходные сигналы, вычисленные в блоке (1050), представляют пространственный звук из перспективы определяемому пользователем положению и ориентации в видео на 360°. Безусловно, тот же принцип может применяться к вариантам применения, которые не полностью покрывают полное (на 360°) поле зрения, а только его части, например, к вариантам применения, которые обеспечивают возможность определяемому пользователем положению и ориентации просмотра, например, в вариантах применения для поля зрения на 180°.In some applications, the embodiments are used in conjunction with a video application for consistent audio/video playback, such as rendering a 360° camera video from various user-defined perspectives. In this case, the reference position and orientation usually correspond to the initial position and orientation of the 360° video camera. The desired listening position and orientation, which is used to calculate the modified positions of the virtual speakers in the block (1040), then corresponds to the user-defined viewing position and orientation in the 360° video. Due to this, the output signals calculated in block (1050) represent the spatial sound from the perspective of the user-defined position and orientation in the 360° video. Of course, the same principle can apply to applications that do not completely cover the entire (360°) field of view, but only parts of it, for example, applications that allow user-defined viewing position and orientation, for example, in applications for a 180° field of view.

В варианте осуществления, представление звукового поля ассоциировано с трехмерным видео или сферическим видео, и заданная опорная точка представляет собой центр трехмерного видео или сферического видео. Детектор 110 выполнен с возможностью обнаружения пользовательского ввода, указывающего фактическую точку обзора, отличающуюся от центра, причем фактическая точка обзора является той же, что и целевое положение прослушивания и детектор, выполнена с возможностью извлечения обнаруженного отклонения из пользовательского ввода, или детектор 110 выполнен с возможностью обнаружения пользовательского ввода, указывающего фактическую ориентацию просмотра, отличающуюся от заданной ориентации прослушивания, направленной в центр, причем фактическая ориентация просмотра является той же, что и целевая ориентация прослушивания, и детектор выполнен с возможностью извлечения обнаруженного отклонения из пользовательского ввода. Сферическое видео может представлять собой видео с обзором в 360 градусов, но также могут использоваться другие (частичные) сферические видео, такие как сферические видео, покрывающие 180 градусов или больше.In an embodiment, the sound field representation is associated with a 3D video or spherical video and the given reference point is the center of the 3D video or spherical video. The detector 110 is configured to detect a user input indicating an actual off-center viewpoint, the actual viewpoint being the same as the target listening position, and the detector is configured to extract the detected deviation from the user input, or the detector 110 is configured to detecting a user input indicating an actual viewing orientation that is different from a predetermined listening orientation directed towards the center, wherein the actual viewing orientation is the same as the target listening orientation, and the detector is configured to extract the detected deviation from the user input. The spherical video may be a 360 degree video, but other (partial) spherical videos may also be used, such as spherical videos covering 180 degrees or more.

В дополнительном варианте осуществления, процессор звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что представление обработанного звукового поля представляет стандартную проекцию или проекцию малой планеты либо переход между стандартной проекцией или проекцией малой планеты по меньшей мере одного звукового объекта, включенного в описание звукового поля относительно области отображения для трехмерного видео или сферического видео, причем область отображения определяется пользовательским вводом и заданным направлением просмотра. Такой переход осуществляется, например, когда абсолютная величина h на фиг. 7b составляет от нуля до полной длины, протягивающейся от центральной точки до точки S.In a further embodiment, the sound field processor is configured to process the sound field representation such that the processed sound field representation represents a standard projection or a minor planet projection, or a transition between a standard projection or a minor planet projection of at least one sound object included in the sound object description. margins relative to the display area for 3D video or spherical video, the display area being determined by user input and a given viewing direction. Such a transition occurs, for example, when the absolute value of h in FIG. 7b is from zero to full length extending from the center point to point S.

Варианты осуществления могут применяться для обеспечения акустического масштабирования, которое имитирует визуальное масштабирование. В визуальном масштабировании, при увеличении масштаба в конкретной области, интересующая область (в центре изображения) визуально кажется расположенной ближе, тогда как нежелательные видеообъекты на стороне изображений перемещаются наружу и в конечном счете исчезают из изображения. Акустически, согласованный рендеринг аудио должен означать, что при увеличении масштаба аудиоисточники в направлении масштабирования становятся громче, тогда как аудиоисточники на стороне перемещаются наружу и в конечном счете становятся тихими. Безусловно, такой эффект соответствует перемещению виртуального положения прослушивания ближе к виртуальному громкоговорителю, который расположен в направлении масштабирования (дополнительную информацию см. в варианте 3 осуществления). Кроме того, пространственное окно кодирования со взвешиванием в пространственной фильтрации (1030) может задаваться таким образом, что сигналы виртуальных громкоговорителей затухают, когда соответствующие виртуальные громкоговорители находятся за пределами интересующей области согласно масштабированному видеоизображению (дополнительную информацию см. в варианте 2 осуществления).Embodiments may be used to provide acoustic zoom that mimics visual zoom. In visual zoom, when zooming in on a particular area, the area of interest (at the center of the image) visually appears closer, while the unwanted video objects on the side of the images move outwards and eventually disappear from the image. Acoustically, consistent audio rendering should mean that as you zoom in, the audio sources in the zoom direction become louder, while the audio sources on the side move outward and eventually become quiet. Of course, such an effect corresponds to moving the virtual listening position closer to the virtual speaker, which is located in the zoom direction (see Embodiment 3 for more information). In addition, the spatial filtering (1030) weighted coding window can be set such that the virtual speaker signals are attenuated when the respective virtual speakers are outside the region of interest according to the scaled video image (see Embodiment 2 for more information).

Во многих вариантах применения входные сигналы, используемые в блоке (1020), и выходные сигналы, вычисленные в блоке (1050), представляются в одинаковой пространственной области с одинаковым числом сигналов. Это означает, например, что, если амбиофонические компоненты конкретного амбиофонического порядка используются в качестве входных сигналов, выходные сигналы соответствуют амбиофоническим компонентам того же порядка. Тем не менее, возможно, что выходные сигналы, вычисленные в блоке (1050), могут представляться в другой пространственной области и с другим числом сигналов по сравнению с входными сигналами. Например, можно использовать амбиофонические компоненты конкретного порядка в качестве входных сигналов при вычислении выходных сигналов в области громкоговорителей с конкретным числом каналов.In many applications, the input signals used in block (1020) and the output signals calculated in block (1050) are represented in the same spatial region with the same number of signals. This means, for example, that if the ambiophonic components of a particular ambiophonic order are used as input signals, the output signals correspond to ambiophonic components of the same order. However, it is possible that the output signals calculated in block (1050) may be represented in a different spatial region and with a different number of signals compared to the input signals. For example, it is possible to use ambiophonic components of a particular order as inputs when calculating output signals in a loudspeaker region with a particular number of channels.

Ниже по тексту поясняются конкретные варианты осуществления блоков обработки на фиг. 1. Для гребенки (1010) аналитических фильтров и гребенки (1060) синтезирующих фильтров, соответственно, можно использовать гребенку фильтров или частотно-временное преобразование, например, кратковременное преобразование Фурье (STFT) из уровня техники. Как правило, можно использовать STFT с длиной преобразования в 1024 выборки и с размером перескока в 512 выборок на частоте дискретизации в 48000 Гц. Нормально, обработка выполняется отдельно для каждого времени и частоты. Без потери общности, обработка в частотно-временной области проиллюстрирована ниже по тексту. Тем не менее, обработка также может выполняться эквивалентным способом во временной области.Below, specific embodiments of the processing units in FIG. 1. For the analytical filter bank (1010) and the synthesis filter bank (1060), respectively, a filter bank or a time-frequency transform such as the short-time Fourier transform (STFT) of the prior art can be used. Typically, you can use an STFT with a transform length of 1024 samples and a hop size of 512 samples at a sample rate of 48000 Hz. Normally, processing is performed separately for each time and frequency. Without loss of generality, time-frequency domain processing is illustrated below. However, the processing may also be performed in an equivalent manner in the time domain.

Вариант осуществления 1a. Первое пространственное преобразование (1020) для амбиофонического ввода (фиг. 12a)Embodiment 1a. First spatial transform (1020) for ambiophonic input (FIG. 12a)

В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой амбиофонический сигнал L-ого порядка в частотно-временной области. Амбиофонический сигнал представляет многоканальный сигнал, в котором каждый канал (называемый «амбиофоническим компонентом или коэффициентом») является эквивалентным коэффициенту так называемой пространственной базисной функции. Существуют различные типы пространственных базисных функций, например, сферические гармоники [FourierAcoust] или цилиндрические гармоники [FourierAcoust]. Цилиндрические гармоники могут использоваться при описании звукового поля в двумерном пространстве (например, для воспроизведения двумерного звука), тогда как сферические гармоники могут использоваться для описания звукового поля в двумерном и трехмерном пространстве (например, для воспроизведения двумерного и трехмерного звука). Без потери общности, второй случай со сферическими гармониками рассматривается ниже по тексту. В этом случае, амбиофонический сигнал состоит из (L+1)₂ отдельных сигналов (компонентов) и обозначается посредством вектора:In this embodiment, the input to the first spatial transform (1020) is an L-order ambiophonic signal in the time-frequency domain. An ambiophonic signal is a multi-channel signal in which each channel (referred to as an "ambiophonic component or coefficient") is equivalent to a coefficient of a so-called spatial basis function. There are different types of spatial basis functions, such as spherical harmonics [FourierAcoust] or cylindrical harmonics [FourierAcoust]. Cylindrical harmonics can be used to describe a sound field in two-dimensional space (for example, to reproduce two-dimensional sound), while spherical harmonics can be used to describe a sound field in two-dimensional and three-dimensional space (for example, to reproduce two-dimensional and three-dimensional sound). Without loss of generality, the second case with spherical harmonics is considered below. In this case, the ambiophonic signal consists of (L+1) ₂ separate signals (components) and is denoted by a vector:

,

где k и n являются частотным индексом и временным индексом, соответственно, 0≤l≤L является уровнем (порядком), и-l≤m≤l является режимом амбиофонического коэффициента (компонента) A_{l, m}(k, n). Амбиофонические сигналы первого порядка (L=1) могут измеряться, например, с использованием SoundField-микрофона. Амбиофонические сигналы высшего порядка могут измеряться, например, с использованием EigenMike. Местоположение записи представляет центр системы координат и опорное положение, соответственно.where k and n are the frequency index and the time index, respectively, 0≤l≤L is the level (order), and -l≤m≤l is the mode of the ambiophonic coefficient (component) A _{l, m} (k, n). Ambiophonic signals of the first order (L=1) can be measured, for example, using a SoundField microphone. Higher order ambiophonic signals can be measured, for example, using the EigenMike. The record location represents the center of the coordinate system and the reference position, respectively.

Для преобразования амбиофонического сигнала a(k, n) в область виртуальных громкоговорителей предпочтительно применять разложение 1022 по плоским волнам (PWD) из уровня техники, т.е. обратное сферическое гармоническое разложение, для a(k, n), которое может вычисляться следующим образом [FourierAcoust]:To convert the ambiophonic signal a(k, n) into the virtual loudspeaker region, it is preferable to apply the prior art plane wave decomposition (PWD) 1022, i. e. inverse spherical harmonic expansion, for a(k, n), which can be computed as follows [FourierAcoust]:

.

Член Y_{l, m}(φj,υj) является сферической гармоникой [FourierAcoust] порядка l и режима m, оцененной для угла φj азимута и для угла υj подъема. Углы (φj,υj) представляют положение j-ого виртуального громкоговорителя. Сигнал S(φj,υj) может интерпретироваться в качестве сигнала j-ого виртуального громкоговорителя.The term Y _{l, m} (φj,υj) is the spherical harmonic [FourierAcoust] of order l and mode m estimated for the azimuth angle φj and for the elevation angle υj. The angles (φj,υj) represent the position of the jth virtual speaker. The signal S(φj,υj) can be interpreted as the signal of the j-th virtual loudspeaker.

На фиг. 2 показан пример сферических гармоник, который показывает сферические гармонические функции для различных уровней (порядков) l и режимов m. Порядок l иногда упоминается «уровнями», и что режимы m также могут называться «градусами». Как можно видеть на фиг. 2, сферическая гармоника нулевого порядка (нулевого уровня) l=0 представляет всенаправленное звуковое давление, тогда как сферические гармоники первого порядка (первого уровня) l=1 представляют дипольные компоненты вдоль размерностей декартовой системы координат.In FIG. 2 shows an example of spherical harmonics, which shows the spherical harmonic functions for various levels (orders) l and modes m. The l order is sometimes referred to as "levels", and that m modes may also be referred to as "degrees". As can be seen in FIG. 2, the zero order (zero level) spherical harmonic l=0 represents the omnidirectional sound pressure, while the first order (first level) spherical harmonic l=1 represents the dipole components along the dimensions of the Cartesian coordinate system.

Предпочтительно задавать направления (φj,υj) виртуальных громкоговорителей таким образом, что они равномерно распределяются по сфере. Тем не менее, в зависимости от варианта применения, направления могут выбираться по-разному. Общее число положений виртуальных громкоговорителей обозначается посредством J. Следует отметить, что более высокое число J приводит к большей точности пространственной обработки за счет более высокой вычислительной сложности. На практике, обоснованное число виртуальных громкоговорителей определяется, например, посредством J=250.It is preferable to set the directions (φj,υj) of the virtual loudspeakers in such a way that they are evenly distributed over the sphere. However, depending on the application, the directions can be chosen differently. The total number of virtual speaker positions is denoted by J. It should be noted that a higher J number results in greater spatial processing accuracy at the expense of higher computational complexity. In practice, a reasonable number of virtual speakers is determined, for example, by J=250.

J сигналов виртуальных громкоговорителей собираются в векторе, заданном следующим образом:The J virtual speaker signals are collected in a vector defined as follows:

,

который представляет входные аудиосигналы в области виртуальных громкоговорителей.which represents the input audio signals in the virtual speaker area.

Безусловно, J сигналов s(k, n) виртуальных громкоговорителей в этом варианте осуществления могут вычисляться посредством применения одного матричного умножения к входным аудиосигналам, т.е.:Of course, the J virtual speaker signals s(k, n) in this embodiment can be calculated by applying a single matrix multiplication to the input audio signals, i.e.:

,

где матрица JxL

содержит сферические гармоники для различных уровней (порядков), режимов и положений виртуальных громкоговорителей, т.е.:where is the matrix JxL

contains spherical harmonics for various levels (orders), modes and positions of virtual loudspeakers, i.e.:

Вариант осуществления 1b. Первое пространственное преобразование (1020) для ввода из громкоговорителя (фиг. 12b)Embodiment 1b. First Spatial Transform (1020) for Speaker Input (FIG. 12b)

В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой M сигналов громкоговорителей. Соответствующая конфигурация громкоговорителей может быть произвольной, например, представлять собой общую конфигурацию громкоговорителей 5.1, 7.1, 11.1 или 22.2. Зона наилучшего восприятия конфигурации громкоговорителей представляет опорное положение . M-ое положение громкоговорителей (m≤M) представляется посредством угла

азимута и угла

подъема.In this embodiment, the input to the first spatial transform (1020) is M speaker signals. The corresponding loudspeaker configuration can be arbitrary, for example a general 5.1, 7.1, 11.1 or 22.2 loudspeaker configuration. The sweet spot of the speaker configuration represents the reference position. The mth position of the loudspeakers (m≤M) is represented by the angle

azimuth and angle

lift.

В этом варианте осуществления, M входных сигналов громкоговорителей могут быть преобразованы в J сигналов виртуальных громкоговорителей, при этом виртуальные громкоговорители расположены под углами (φj,υj). Если число M громкоговорителей меньше числа J виртуальных громкоговорителей, это представляет проблему повышающего микширования для громкоговорителей. Если число M громкоговорителей превышает число J виртуальных громкоговорителей, это представляет проблему 1023 понижающего микширования. В общем, преобразование формата громкоговорителей может достигаться, например, посредством использования алгоритма статического (независимого от сигнала) преобразования формата громкоговорителей из уровня техники, такого как виртуальное или пассивное повышающее микширование, поясняемое в [FormatConv]. В этом подходе, сигналы виртуальных громкоговорителей вычисляются следующим образом:In this embodiment, the M speaker input signals can be converted to J virtual speaker signals, with the virtual speakers at angles (φj,υj). If the number M of speakers is less than the number J of virtual speakers, this presents an upmixing problem for the speakers. If the number M of speakers exceeds the number J of virtual speakers, this presents a downmix problem 1023 . In general, speaker format conversion can be achieved, for example, by using a prior art static (signal-independent) speaker format conversion algorithm such as virtual or passive upmixing explained in [FormatConv]. In this approach, virtual loudspeaker signals are computed as follows:

,

где вектор:where vector:

содержит M входных сигналов громкоговорителей в частотно-временной области, и k и n являются частотным индексом и временным индексом, соответственно. Кроме того:contains M speaker inputs in the time-frequency domain, and k and n are the frequency index and the time index, respectively. Besides:

представляют собой J сигналов виртуальных громкоговорителей. Матрица C представляет собой матрицу статического преобразования формата, которая может вычисляться, как пояснено в [FormatConv] посредством использования, например, схемы панорамирования VBAP [Vbap]. Матрица преобразования формата зависит от M положений входных громкоговорителей и J положений виртуальных громкоговорителей.are J virtual speaker signals. Matrix C is a static format conversion matrix that can be computed as explained in [FormatConv] by using, for example, the VBAP panning scheme [Vbap]. The format conversion matrix depends on the M input speaker positions and the J virtual speaker positions.

Предпочтительно, углы (φj,υj) виртуальных громкоговорителей равномерно распределяются по сфере. На практике, число J виртуальных громкоговорителей может выбираться произвольно, тогда как более высокое число приводит к большей точности пространственной обработки за счет более высокой вычислительной сложности. На практике, обоснованное число виртуальных громкоговорителей определяется, например, посредством J=250.Preferably, the corners (φj,υj) of the virtual speakers are uniformly distributed over the sphere. In practice, the number J of virtual speakers can be chosen arbitrarily, while a higher number results in greater spatial processing accuracy at the expense of higher computational complexity. In practice, a reasonable number of virtual speakers is determined, for example, by J=250.

Вариант осуществления 1c. Первое пространственное преобразование (1020) для микрофонного ввода (фиг. 12c)Embodiment 1c. First spatial transform (1020) for microphone input (FIG. 12c)

В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой сигналы массива микрофонов с M микрофонов. Микрофоны могут иметь различные направленности, например, всенаправленные, кардиоидные или дипольные характеристики. Микрофоны могут размещаться в различных конфигурациях, например, как совпадающие массивы микрофонов (при использовании направленных микрофонов), линейные массивы микрофонов, круговые массивы микрофонов, неравномерные плоские массивы или сферические массивы микрофонов. Во многих вариантах применения, плоские или сферические массивы микрофонов являются предпочтительными. Примерный массив микрофонов на практике определяется, например, посредством кругового массива микрофонов с M=8 всенаправленных микрофонов с радиусом массива в 3 см.In this embodiment, the input to the first spatial transform (1020) is microphone array signals from M microphones. Microphones can have different directivity, such as omnidirectional, cardioid or dipole characteristics. Microphones can be placed in various configurations, such as matched microphone arrays (when using directional microphones), line microphone arrays, circular microphone arrays, non-uniform planar arrays, or spherical microphone arrays. In many applications, flat or spherical microphone arrays are preferred. An exemplary microphone array is in practice defined by, for example, a circular microphone array with M=8 omnidirectional microphones with an array radius of 3 cm.

M микрофонов расположены в положениях d1...M. Центр массива представляет опорное положение. M сигналов микрофонов в частотно-временной области задаются следующим образом:M microphones are located in positions d1...M. The center of the array represents the reference position. M microphone signals in the time-frequency domain are given as follows:

,

где k и n являются частотным индексом и временным индексом, соответственно, и A1...M(k, n) являются сигналами M микрофонов, расположенных в d1...M.where k and n are the frequency index and the time index, respectively, and A1...M(k, n) are the signals of the M microphones located in d1...M.

Чтобы вычислять сигналы виртуальных громкоговорителей, предпочтительно применять формирование диаграммы направленности 1024 к входным сигналам a(k, n) и направлять модули формирования диаграммы направленности к положениям виртуальных громкоговорителей. В общем, формирование диаграммы направленности вычисляется следующим образом:In order to compute virtual speaker signals, it is preferable to apply beamforming 1024 to the input signals a(k, n) and direct the beamformers to the positions of the virtual loudspeakers. In general, beamforming is calculated as follows:

.

Здесь, b_j(k, n) являются весовыми коэффициентами модуля формирования диаграммы направленности для вычисления сигнала j-ого виртуального громкоговорителя, который обозначается как S(φj,υj). В общем, весовые коэффициенты модуля формирования диаграммы направленности могут быть время- и частотно-зависимыми. Аналогично предыдущим вариантам осуществления, углы (φj,υj) представляют положение j-ого виртуального громкоговорителя. Предпочтительно, направления (φj,υj) равномерно распределяются по сфере. Общее число положений виртуальных громкоговорителей обозначается посредством J. На практике, это число может выбираться произвольно, тогда как более высокое число приводит к большей точности пространственной обработки за счет более высокой вычислительной сложности. На практике, обоснованное число виртуальных громкоговорителей определяется, например, посредством J=250.Here, b _j (k, n) are beamformer weights for computing the signal of the j-th virtual speaker, which is denoted as S(φj,υj). In general, the beamformer weights may be time and frequency dependent. Similar to the previous embodiments, the angles (φj,υj) represent the position of the j-th virtual speaker. Preferably, the directions (φj, υj) are uniformly distributed over the sphere. The total number of virtual speaker positions is denoted by J. In practice, this number can be chosen arbitrarily, while a higher number results in better spatial processing accuracy at the expense of higher computational complexity. In practice, a reasonable number of virtual speakers is determined, for example, by J=250.

Пример формирования диаграммы направленности проиллюстрирован на фиг. 3. Здесь, O представляет собой центр системы координат, в которой расположен массив микрофонов (обозначается посредством белого круга). Это положение представляет опорное положение. Положение виртуальных громкоговорителей обозначаются посредством черных точек. Луч j-ого модуля формирования диаграммы направленности обозначается посредством серой зоны. Модуль формирования диаграммы направленности направлен к j-ому громкоговорителю (в этом случае, j=2), чтобы создавать сигнал j-ого виртуального громкоговорителя.An example of beamforming is illustrated in FIG. 3. Here, O represents the center of the coordinate system in which the array of microphones is located (denoted by the white circle). This position represents the reference position. The positions of the virtual speakers are indicated by black dots. The beam of the j-th beamformer is indicated by a gray area. The beamformer is directed towards the j-th speaker (in this case, j=2) to generate the signal of the j-th virtual speaker.

Подход к формированию диаграммы направленности для получения весовых коэффициентов b_j(k, n), заключается в этом, чтобы вычислять так называемый согласованный модуль формирования диаграммы направленности, для которого весовые коэффициенты b_j(k) задаются следующим образом:The beamforming approach for obtaining weights b _j (k, n) is to calculate the so-called matched beamforming modulus, for which the weights b _j (k) are given as follows:

.

Вектор h(k,φj,υj) содержит относительные передаточные функции (RTF) между массивными микрофонами для рассматриваемой полосы k частот и для требуемого направления (φj,υj) положения j-ого виртуального громкоговорителя. RTF h(k,φj,υj), например, могут измеряться с использованием калибровочного измерения или могут моделироваться с использованием моделей звукового поля, таких как модель плоской волны [FourierAcoust].The vector h(k,φj,υj) contains the relative transfer functions (RTF) between array microphones for the considered frequency band k and for the required direction (φj,υj) of the position of the j-th virtual loudspeaker. RTF h(k,φj,υj), for example, may be measured using a calibration measurement, or may be modeled using sound field models such as a plane wave model [FourierAcoust].

Помимо использования согласованного модуля формирования диаграммы направленности, могут применяться другие технологии формирования диаграммы направленности, такие как MVDR, LCMV, многоканальный фильтр Винера.In addition to using a matched beamformer, other beamforming technologies such as MVDR, LCMV, multi-channel Wiener filter can be used.

,

где матрица C(k) JxM содержит весовые коэффициенты модуля формирования диаграммы направленности для J виртуальных громкоговорителей, т.е.:where the matrix C(k) JxM contains the beamformer weights for the J virtual loudspeakers, i.e.:

.

Вариант осуществления 1d. Первое пространственное преобразование (1020) для ввода сигналов аудиообъектов (фиг. 12d)Embodiment 1d. First Spatial Transform (1020) for Inputting Audio Object Signals (FIG. 12d)

В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой M сигналов аудиообъектов вместе с их прилагаемыми метаданными положения. Аналогично варианту осуществления 1b, J сигналов виртуальных громкоговорителей могут вычисляться, например, с использованием схемы панорамирования VBAP [Vbap]. Схема 1025 панорамирования VBAP подготавливает посредством рендеринга J сигналов виртуальных громкоговорителей в зависимости от M положений входных сигналов аудиообъектов и J положений виртуальных громкоговорителей. Очевидно, что вместо этого могут использоваться схемы рендеринга, отличные от схемы панорамирования VBAP. Метаданные положения аудиообъекта могут указывать положения статических объектов или положения варьирующихся во времени объектов.In this embodiment, the input to the first spatial transform (1020) is M audio object signals along with their attached position metadata. Similar to embodiment 1b, J virtual speaker signals may be calculated using, for example, a VBAP [Vbap] panning scheme. The VBAP panning circuit 1025 prepares by rendering J virtual speaker signals depending on M audio object input signal positions and J virtual speaker positions. Obviously, rendering schemes other than the VBAP panning scheme may be used instead. Audio object position metadata may indicate the positions of static objects or the positions of objects that vary over time.

Вариант 2 осуществления. Пространственная фильтрация (1030)Option 2 implementation. Spatial filtering (1030)

Пространственная фильтрация (1030) применяется посредством умножения сигналов виртуальных громкоговорителей на s(k, n) на пространственное окно W(φj,υj, p,l) кодирования со взвешиванием, т.е.:Spatial filtering (1030) is applied by multiplying the virtual speaker signals by s(k, n) by the weighted coding spatial window W(φj,υj, p,l), i.e.:

,

где S'(φj,υj) обозначает фильтрованные сигналы виртуальных громкоговорителей. Пространственная фильтрация (1030) может применяться, например, для акцентирования пространственного звука к направлению взгляда для требуемого положения прослушивания, либо когда местоположение требуемого положения прослушивания приближается к источникам звука или положениям виртуальных громкоговорителей. Это означает, что пространственное окно W(φj,υj, p,l) кодирования со взвешиванием обычно соответствует неотрицательным действительнозначным значениям усиления, которые обычно вычисляются на основе требуемого положения прослушивания (обозначается посредством вектора p) и требуемой ориентации прослушивания или направления взгляда (обозначается посредством вектора l).where S'(φj,υj) denotes the filtered virtual loudspeaker signals. Spatial filtering (1030) may be applied, for example, to accentuate spatial sound towards the direction of view for the desired listening position, or when the location of the desired listening position is close to sound sources or virtual speaker positions. This means that the weighted coding spatial window W(φj,υj, p,l) usually corresponds to non-negative real-valued gain values, which are usually computed based on the desired listening position (denoted by the vector p) and the desired listening orientation or gaze direction (denoted by vector l).

В качестве примера, пространственное окно W(φj,υj, p,l) кодирования со взвешиванием может вычисляться в качестве общего пространственного окна кодирования со взвешиванием первого порядка, направленного к требуемому направлению взгляда, которое дополнительно ослабляется или усиливается согласно расстоянию между требуемым положением прослушивания и положениями виртуальных громкоговорителей, т.е.:As an example, the weighted coding spatial window W(φj, υj, p,l) may be computed as the overall first-order weighted coding spatial window directed towards the desired viewing direction, which is further attenuated or boosted according to the distance between the desired listening position and virtual speaker positions, i.e.:

.

Здесь,

является вектором направления, соответствующим положению j-ого виртуального громкоговорителя, и

является вектором направления, соответствующим требуемой ориентации прослушивания, при этом ϕ является углом азимута, и θ является углом подъема требуемой ориентации прослушивания. Кроме того, α является параметром первого порядка, который определяет форму пространственного окна кодирования со взвешиванием. Например, пространственное окно кодирования со взвешиванием с кардиоидной формой для α=0,5 получается. Соответствующее примерное пространственное окно кодирования со взвешиванием с кардиоидной формой и направлением взгляда ϕ=45° проиллюстрировано на фиг. 4. Для α=1, пространственное окно кодирования со взвешиванием не должно применяться, и только взвешивание Gj(p) расстояния должно быть эффективным. Взвешивание Gj(p) расстояния акцентирует пространственный звук в зависимости от расстояния между требуемым положением прослушивания и j-м виртуальным громкоговорителем. Взвешивание Gj(p) может вычисляться, например, следующим образом:Here,

is the direction vector corresponding to the position of the jth virtual speaker, and

is a direction vector corresponding to the desired listening orientation, where ϕ is the azimuth angle and θ is the elevation angle of the desired listening orientation. In addition, α is a first order parameter that determines the shape of the weighted spatial coding window. For example, a weighted spatial coding window with a cardioid shape for α=0.5 is obtained. A corresponding exemplary cardioid weighted spatial coding window with a ϕ=45° gaze direction is illustrated in FIG. 4. For α=1, no weighted spatial coding window shall be applied and only distance weighting Gj(p) shall be effective. The distance weighting Gj(p) accentuates the spatial sound depending on the distance between the desired listening position and the jth virtual speaker. The weighting Gj(p) can be calculated, for example, as follows:

,

где

является требуемым положением прослушивания в декартовых координатах. Чертеж рассматриваемой системы координат проиллюстрирован на фиг. 5, где O является опорным положением, и L является требуемым положением прослушивания, при этом p является соответствующим вектором положения прослушивания. Виртуальные громкоговорители расположены в заштрихованном круге, и черная точка представляет примерный виртуальный громкоговоритель. Член в круглых скобках в вышеприведенном уравнении представляет собой расстояние между требуемым положением прослушивания и положением j-ого виртуального громкоговорителя. Коэффициент β представляет собой коэффициент ослабления расстояния. Например, для β=0,5, следует усиливать мощность, соответствующую j-ому виртуальному громкоговорителю, обратно расстоянию между требуемым положением прослушивания и положением виртуального громкоговорителя. Это имитирует эффект увеличения громкости при приближении к источникам звука или пространственным областям, которые представляются посредством виртуальных громкоговорителей.Where

is the desired listening position in Cartesian coordinates. A drawing of the considered coordinate system is illustrated in Fig. 5, where O is the reference position and L is the desired listening position, p being the corresponding listening position vector. The virtual speakers are located in the shaded circle, and the black dot represents an exemplary virtual speaker. The term in parentheses in the above equation is the distance between the desired listening position and the position of the jth virtual speaker. The factor β is the distance attenuation factor. For example, for β=0.5, the power corresponding to the jth virtual speaker should be amplified inversely to the distance between the desired listening position and the position of the virtual speaker. This simulates the effect of increasing the volume when approaching sound sources or spatial areas that are represented by virtual speakers.

В общем, пространственное окно W(φj,υj, p,l) кодирования со взвешиванием может задаваться произвольно. В таких вариантах применения, как акустическое масштабирование, пространственное окно кодирования со взвешиванием может задаваться как прямоугольное окно кодирования со взвешиванием, центрированное к направлению масштабирования, которое становится более узким при увеличении масштаба и более широким при уменьшении масштаба. Ширина окна кодирования со взвешиванием может задаваться согласованно с масштабированным видеоизображением таким образом, что окно кодирования со взвешиванием обеспечивает затухание источников звука на стороне, когда соответствующий аудиообъект исчезает из масштабированного видеоизображения.In general, the spatial window W(φj,υj, p,l) of the weighted coding may be set arbitrarily. In applications such as acoustic scaling, the spatial weighted coding window may be defined as a rectangular weighted coding window centered on the scaling direction that becomes narrower as you zoom in and wider as you zoom out. The width of the weighted coding window may be set consistent with the scaled video image such that the weighted coding window ensures that the audio sources on the side are attenuated when the corresponding audio object disappears from the scaled video image.

Безусловно, фильтрованные сигналы виртуальных громкоговорителей в этом варианте осуществления могут вычисляться из сигналов виртуальных громкоговорителей с одним поэлементным векторным умножением, т.е.:Of course, the filtered virtual speaker signals in this embodiment can be computed from the virtual speaker signals with one element-wise vector multiplication, i.e.:

,

где o является поэлементным произведением (произведением Шура), и:where o is the element-wise product (Schur product), and:

являются весовыми коэффициентами окна кодирования со взвешиванием для J виртуальных громкоговорителей, с учетом требуемого положения и ориентации прослушивания. J фильтрованных сигналов виртуальных микрофонов собираются в векторе:are weighted coding window weights for the J virtual speakers, given the desired listening position and orientation. J filtered virtual microphone signals are collected in a vector:

.

Вариант 3 осуществления. Модификация (1040) положенияOption 3 implementation. Modification (1040) position

Цель модификации (1040) положения состоит в вычислении положения виртуальных громкоговорителей из точки обзора (POV) требуемого положения прослушивания с требуемой ориентацией прослушивания.The purpose of the position modification (1040) is to calculate the position of the virtual speakers from the point of view (POV) of the desired listening position with the desired listening orientation.

На фиг. 6 визуализируется пример, который показывает вид сверху пространственной сцены. Без потери общности, предполагается, что опорное положение соответствует центру системы координат, который указывается посредством O. Кроме того, опорная ориентация определяется к передней части, т.е. к азимуту в нуль градусов и к подъему в нуль градусов (φ=0 и υ=0). Заштрихованный круг вокруг O представляет сферу, в которой расположены виртуальные громкоговорители. В качестве примера, данные показывают возможный вектор n_j положения j-ого виртуального громкоговорителя.In FIG. 6, an example is rendered that shows a top view of a spatial scene. Without loss of generality, it is assumed that the reference position corresponds to the center of the coordinate system, which is indicated by O. In addition, the reference orientation is defined towards the front, i.e. to an azimuth of zero degrees and to an elevation of zero degrees (φ=0 and υ=0). The shaded circle around the O represents the sphere in which the virtual speakers are located. As an example, the data shows a possible position vector n _j of the j-th virtual speaker.

На фиг. 7, требуемое положение прослушивания указывается посредством L. Вектор между опорным положением O и требуемым положением прослушивания L определяется посредством p (см. также вариант осуществления 2a). Как можно видеть, положение j-ого виртуального громкоговорителя из POV требуемого положения прослушивания может представляться посредством вектора:In FIG. 7, the desired listening position is indicated by L. The vector between the reference position O and the desired listening position L is determined by p (see also Embodiment 2a). As can be seen, the position of the j-th virtual speaker from the POV of the desired listening position can be represented by a vector:

.

Если требуемое вращение при прослушивании отличается от опорного вращения, дополнительная матрица вращения может применяться при вычислении модифицированных положений виртуальных громкоговорителей, т.е.:If the required listening rotation differs from the reference rotation, an additional rotation matrix can be applied in computing modified virtual speaker positions, i.e.:

.

Например, если требуемая ориентация прослушивания (относительно опорной ориентации) соответствует углу ϕ азимута, матрица вращения может вычисляться следующим образом [RotMat]:For example, if the desired listening orientation (relative to the reference orientation) corresponds to the azimuth angle ϕ, the rotation matrix can be calculated as [RotMat]:

.

Модифицированные положения

виртуальных громкоговорителей затем используются во втором пространственном преобразовании (1050). Модифицированные положения виртуальных громкоговорителей также могут выражаться с точки зрения модифицированных углов

азимута и модифицированных углов

подъема, т.е.:Modified Provisions

the virtual speakers are then used in the second spatial transform (1050). Modified virtual speaker positions can also be expressed in terms of modified angles

azimuth and modified angles

lifting, i.e.:

.

В качестве примера, модификация положения, описанная в этом варианте осуществления, может использоваться для достижения согласованного воспроизведения аудио/видео при использовании различных проекций изображения сферического видео. Например, различные проекции или положения просмотра для сферического видео могут выбираться пользователем через пользовательский интерфейс видеопроигрывателя. В таком варианте применения, фиг. 6 представляет вид сверху стандартной проекции сферического видео. В этом случае, круг указывает пиксельные положения сферического видео, и горизонтальная линия указывает двумерный видеодисплей (проекционную поверхность). Проецируемое видеоизображение (отображаемое изображение) обнаруживается посредством проецирования сферического видео из точки проекции, что приводит к пунктирной стрелке для примерного пиксела изображения. Здесь, точка проекции соответствует центру O сферы. При использовании стандартной проекции, соответствующее согласованное пространственное аудиоизображение может создаваться посредством размещения требуемого (виртуального) положения прослушивания в O, т.е. в центре круга, проиллюстрированного на фиг. 6. Кроме того, виртуальные громкоговорители расположены на поверхности сферы, т.е. вдоль проиллюстрированного круга, как пояснено выше. Это соответствует стандартному воспроизведению пространственного звука, при котором требуемое положение прослушивания расположено в зоне наилучшего восприятия виртуальных громкоговорителей.As an example, the position modification described in this embodiment can be used to achieve consistent audio/video playback using different spherical video image projections. For example, different projections or viewing positions for spherical video may be selected by the user through the user interface of the video player. In such an application, FIG. 6 is a top view of a standard spherical video projection. In this case, the circle indicates the pixel positions of the spherical video and the horizontal line indicates the 2D video display (projection surface). A projected video image (display image) is detected by projecting a spherical video from a projection point, resulting in a dotted arrow for an exemplary image pixel. Here, the projection point corresponds to the center O of the sphere. When using the standard projection, an appropriate coherent spatial audio image can be created by placing the desired (virtual) listening position at O, i.e. in the center of the circle illustrated in Fig. 6. In addition, virtual loudspeakers are located on the surface of the sphere, i.e. along the illustrated circle as explained above. This corresponds to standard surround sound reproduction where the desired listening position is located in the sweet spot of the virtual speakers.

Фиг. 7a представляет вид сверху при рассмотрении так называемой проекции малой планеты, которая представляет общую проекцию для рендеринга видео на 360°. В этом случае, точка проекции, из которой проецируется сферическое видео, расположена в положении L позади сферы вместо начала координат. Как можно видеть, это приводит к сдвинутому пиксельному положению на проекционной поверхности. При использовании проекции малой планеты, корректное (согласованное) аудиоизображение создается посредством размещения положения прослушивания в положении L позади сферы, в то время как положения виртуальных громкоговорителей остаются на поверхности сферы. Это означает, что модифицированные положения виртуальных громкоговорителей вычисляются относительно положения прослушивания L, как описано выше. Плавный переход между различными проекциями (в видео и аудио) может достигаться посредством изменения длины вектора p на фиг. 7a.Fig. 7a is a top view of the so-called minor planet projection, which is a general projection for 360° video rendering. In this case, the projection point from which the spherical video is projected is located at the L position behind the sphere instead of the origin. As can be seen, this results in a shifted pixel position on the projection surface. When using a minor planet projection, a correct (consistent) audio image is created by placing the listening position at the L position behind the sphere while the virtual speaker positions remain on the surface of the sphere. This means that the modified positions of the virtual speakers are calculated with respect to the listening position L, as described above. A smooth transition between different projections (in video and audio) can be achieved by changing the length of the vector p in FIG. 7a.

В качестве другого примера, модификация положения в этом варианте осуществления также может использоваться для создания эффекта акустического масштабирования, который имитирует визуальное масштабирование. Чтобы имитировать визуальное масштабирование, можно перемещать положение виртуального громкоговорителя к направлению масштабирования. В этом случае, виртуальный громкоговоритель в направлении масштабирования должен приближаться, тогда как виртуальные громкоговорители на стороне (относительно направления масштабирования) должны перемещаться наружу, аналогично по мере того, как видеообъекты должны перемещаться в масштабированном видеоизображении.As another example, position modification in this embodiment can also be used to create an acoustic zoom effect that mimics visual zoom. To simulate visual scaling, you can move the position of the virtual speaker towards the scaling direction. In this case, the virtual speaker in the zoom direction should move closer, while the virtual speakers on the side (relative to the zoom direction) should move outward, similarly as video objects should move in the zoomed video image.

Далее следует обратиться к фиг. 7b и фиг. 7c. В общем, пространственное преобразование применяется, например, чтобы совмещать пространственное аудиоизображение с различными проекциями соответствующего видеоизображения, например, на 360°. Фиг. 7b иллюстрирует вид сверху стандартной проекции сферического видео. Круг указывает сферическое видео, и горизонтальная линия указывает видеодисплей или проекционную поверхность. Вращение сферического изображения относительно видеодисплея представляет собой ориентацию проекции (не проиллюстрирована), которая может задаваться произвольно для сферического видео. Отображаемое изображение обнаруживается посредством проецирования сферического видео из точки S проекции, как указано посредством сплошной стрелки. Здесь, точка S проекции соответствует центру сферы. При использовании стандартной проекции, соответствующее пространственное аудиоизображение может создаваться посредством размещения (виртуального) опорного положения прослушивания в S, т.е. в центре круга, проиллюстрированного на фиг. 7b. Кроме того, виртуальные громкоговорители расположены на поверхности сферы, т.е. вдоль проиллюстрированного круга. Это соответствует стандартному воспроизведению пространственного звука, при котором опорное положение прослушивания расположено в зоне наилучшего восприятия, например, в центре сферы по фиг. 7b.Next, refer to FIG. 7b and fig. 7c. In general, a spatial transformation is applied, for example, to combine a spatial audio image with different projections of the corresponding video image, for example, 360°. Fig. 7b illustrates a top view of a standard spherical video projection. A circle indicates a spherical video, and a horizontal line indicates a video display or projection surface. The rotation of the spherical image relative to the video display is a projection orientation (not illustrated) that can be set arbitrarily for the spherical video. The displayed image is detected by projecting a spherical video from the projection point S as indicated by a solid arrow. Here, the point S of the projection corresponds to the center of the sphere. When using a standard projection, an appropriate spatial audio image can be created by placing a (virtual) reference listening position at S, i.e. in the center of the circle illustrated in Fig. 7b. In addition, the virtual loudspeakers are located on the surface of the sphere, i.e. along the illustrated circle. This corresponds to standard surround sound reproduction in which the reference listening position is located in the sweet spot, such as the center of the sphere of FIG. 7b.

Фиг. 7c иллюстрирует вид сверху проекции малой планеты. В этом случае, точка S проекции, из которой проецируется сферическое видео, расположена позади сферы вместо начала координат. При использовании проекции малой планеты, корректное аудиоизображение создается посредством размещения опорного положения прослушивания в положении S позади сферы, в то время как положения виртуальных громкоговорителей остаются на поверхности сферы. Это означает, что модифицированные положения виртуальных громкоговорителей вычисляются относительно опорного положения S прослушивания, которая зависит от проекции. Плавный переход между различными проекциями может достигаться посредством изменения высоты h на фиг. 7c, т.е. посредством перемещения точки S проекции (или опорного положения прослушивания, соответственно) вдоль вертикальной сплошной линии. Таким образом, положение S прослушивания, которое отличается от центра круга на фиг. 7c, представляет собой целевое положение прослушивания, и направление взгляда, отличающееся от направления взгляда на дисплей на фиг. 7c, представляет собой целевую ориентацию прослушивания. Чтобы создавать пространственно преобразованные аудиоданные, сферические гармоники, например, вычисляются для модифицированных положений виртуальных громкоговорителей вместо исходных положений виртуальных громкоговорителей. Модифицированные положения виртуальных громкоговорителей обнаруживаются посредством перемещения опорного положения S прослушивания, как проиллюстрировано, например, на фиг. 7c или, согласно видеопроекции.Fig. 7c illustrates a top view projection of a minor planet. In this case, the projection point S from which the spherical video is projected is located behind the sphere instead of the origin. When using a minor planet projection, a correct audio image is created by placing the reference listening position at position S behind the sphere while the virtual speaker positions remain on the surface of the sphere. This means that the modified positions of the virtual speakers are calculated with respect to the reference listening position S, which depends on the projection. A smooth transition between different projections can be achieved by changing the height h in FIG. 7c, i.e. by moving the projection point S (or reference listening position, respectively) along the vertical solid line. Thus, the listening position S, which is different from the center of the circle in FIG. 7c is the target listening position, and the viewing direction is different from the viewing direction of the display in FIG. 7c represents the listening target orientation. To create spatially transformed audio data, spherical harmonics are, for example, computed for modified virtual speaker positions instead of the original virtual speaker positions. Modified virtual speaker positions are detected by moving the listening position reference S, as illustrated, for example, in FIG. 7c or according to the video projection.

Вариант осуществления 4a. Второе пространственное преобразование (1050) для амбиофонического вывода (фиг. 13a)Embodiment 4a. Second spatial transform (1050) for ambiophonic output (FIG. 13a)

Этот вариант осуществления описывает реализацию второго пространственного преобразования (1050) для вычисления выходных аудиосигналов в амбиофонической области.This embodiment describes the implementation of the second spatial transform (1050) for computing output audio signals in the ambiophonic domain.

Для вычисления требуемых выходных сигналов можно преобразовать (фильтрованные) сигналы S'(φj,υj) виртуальных громкоговорителей с использованием сферического гармонического разложения 1052 (SHD), которое вычисляется в качестве взвешенной суммы по всем J сигналов виртуальных громкоговорителей согласно [FourierAcoust]:To calculate the required output signals, the (filtered) virtual loudspeaker signals S'(φj,υj) can be converted using spherical harmonic decomposition 1052 (SHD), which is calculated as a weighted sum over all J virtual loudspeaker signals according to [FourierAcoust]:

.

Здесь,

являются сопряженно-комплексными сферическими гармониками уровня (порядка) l и режима m. Сферические гармоники оцениваются в модифицированных положениях

виртуальных громкоговорителей вместо исходных положений виртуальных громкоговорителей. Это гарантирует, что выходные аудиосигналы создаются из перспективы требуемого положения прослушивания с требуемой ориентацией прослушивания. Безусловно, выходные сигналы

могут вычисляться вплоть до произвольного определяемого пользователем уровня (порядка) L'.Here,

are conjugate-complex spherical harmonics of level (order) l and mode m. Spherical harmonics are evaluated in modified positions

virtual speakers instead of the original virtual speaker positions. This ensures that the audio output signals are created from the perspective of the desired listening position with the desired listening orientation. Certainly the outputs

can be calculated up to an arbitrary user-defined level (order) L'.

Выходные сигналы в этом варианте осуществления также могут вычисляться в качестве одного матричного умножения из (фильтрованных) сигналов виртуальных громкоговорителей, т.е.:The output signals in this embodiment can also be calculated as a single matrix multiplication of the (filtered) virtual speaker signals, i.e.:

,

где:Where:

содержит сферические гармоники, оцененные в модифицированных положениях виртуальных громкоговорителей, и:contains spherical harmonics estimated at modified virtual loudspeaker positions, and:

содержит выходные сигналы вплоть до требуемого амбиофонического уровня (порядка) L'.contains output signals up to the required ambiophonic level (order) L'.

Вариант осуществления 4b. Второе пространственное преобразование (1050) для вывода громкоговорителя (фиг. 13b)Embodiment 4b. Second Spatial Transform (1050) for Speaker Output (FIG. 13b)

Этот вариант осуществления описывает реализацию второго пространственного преобразования (1050) для вычисления выходных аудиосигналов в области громкоговорителей. В этом случае предпочтительно преобразовать J (фильтрованных) сигналов S'(φj,υj) виртуальных громкоговорителей в сигналы громкоговорителей требуемой выходной конфигурации громкоговорителей с учетом модифицированных положений

виртуальных громкоговорителей. В общем, требуемая выходная конфигурация громкоговорителей может задаваться произвольно. Широко используемые выходные конфигурации громкоговорителей, например, представляют собой 2.0 (стерео), 5.1, 7.1, 11.1 или 22.2. Ниже по тексту, число выходных громкоговорителей обозначается посредством L, и положения выходных громкоговорителей задаются посредством углов

.This embodiment describes the implementation of the second spatial transform (1050) for computing output audio signals in the loudspeaker region. In this case, it is preferable to convert J (filtered) virtual speaker signals S'(φj,υj) into speaker signals of the required speaker output configuration, taking into account the modified positions

virtual speakers. In general, the desired speaker output configuration can be set arbitrarily. Commonly used speaker output configurations are, for example, 2.0 (stereo), 5.1, 7.1, 11.1, or 22.2. Below, the number of output speakers is denoted by L, and the positions of the output speakers are given by the angles

.

Для преобразования 1053 (фильтрованных) сигналов виртуальных громкоговорителей в требуемый формат громкоговорителей, предпочтительно использовать тот же подход, что и в варианте осуществления 1b, т.е. следует применять матрицу статического преобразования для громкоговорителей. В этом случае, сигналы громкоговорителей требуемого вывода вычисляются с помощью:To convert 1053 (filtered) virtual speaker signals to the desired speaker format, it is preferable to use the same approach as in Embodiment 1b, ie. a static transformation matrix for loudspeakers should be applied. In this case, the speaker signals of the desired output are calculated using:

,

где s'(k, n) содержит (фильтрованные) сигналы виртуальных громкоговорителей, a'(k, n) содержит L выходных сигналов громкоговорителей, и C представляет собой матрицу преобразования формата. Матрица преобразования формата вычисляется с использованием углов

выходной конфигурации громкоговорителей, а также модифицированных положений

виртуальных громкоговорителей. Это гарантирует, что выходные аудиосигналы создаются из перспективы требуемого положения прослушивания с требуемой ориентацией прослушивания. Матрица C преобразования может вычисляться так, как пояснено в [FormatConv], посредством использования, например, схемы панорамирования VBAP [Vbap].where s'(k, n) contains the (filtered) virtual speaker signals, a'(k, n) contains the L speaker outputs, and C is the format transformation matrix. The format conversion matrix is calculated using angles

loudspeaker output configuration as well as modified positions

virtual speakers. This ensures that the audio output signals are created from the perspective of the desired listening position with the desired listening orientation. The transformation matrix C may be calculated as explained in [FormatConv] by using, for example, the VBAP panning scheme [Vbap].

Вариант осуществления 4c. Второе пространственное преобразование (1050) для бинаурального вывода (фиг. 13c или фиг. 13d)Embodiment 4c. Second Spatial Transform (1050) for binaural output (FIG. 13c or FIG. 13d)

Второе пространственное преобразование (1050) может создавать выходные сигналы в бинауральной области для бинаурального воспроизведения звука. Один способ состоит в умножении 1054 J (фильтрованных) сигналов S'(φj,υj) виртуальных громкоговорителей на соответствующую передаточную функцию восприятия звука человеком (HRTF) и суммировании результирующих сигналов, т.е.:The second spatial transform (1050) may generate output signals in the binaural region for binaural sound reproduction. One way is to multiply 1054 J (filtered) virtual speaker signals S'(φj,υj) by the corresponding human audio perception transfer function (HRTF) and sum the resulting signals, i.e.:

,

где

и

являются бинауральными выходными сигналами для левого и правого уха, соответственно, и

и

являются соответствующими HRTF для j-ого виртуального громкоговорителя. Следует отметить, что используются HRTF для модифицированных направлений

виртуальных громкоговорителей. Это гарантирует, что бинауральные выходные сигналы создаются из перспективы требуемого положения прослушивания с требуемой ориентацией прослушивания.Where

And

are the binaural outputs for the left and right ear, respectively, and

And

are the corresponding HRTFs for the jth virtual speaker. It should be noted that HRTFs are used for modified directions

virtual speakers. This ensures that the binaural output signals are created from the perspective of the desired listening position with the desired listening orientation.

Альтернативный способ создавать бинауральные выходные сигналы состоит в этом, чтобы выполнять первое или прямое преобразование 1055 сигналов виртуальных громкоговорителей в область громкоговорителей, как описано в варианте осуществления 4b, например, в промежуточный формат громкоговорителей. Впоследствии, выходные сигналы громкоговорителей из промежуточного формата громкоговорителей могут бинаурализироваться посредством применения 1056 HRTFT для левого и правого уха, согласно положениям выходной конфигурации громкоговорителей.An alternative way to create binaural output signals is to perform a first or direct conversion 1055 of the virtual speaker signals to the speaker region as described in Embodiment 4b, eg to an intermediate speaker format. Subsequently, the speaker outputs from the intermediate speaker format can be binauralized by applying 1056 HRTFT to the left and right ear, according to the provisions of the speaker output configuration.

Бинауральные выходные сигналы также могут вычисляться с применением матричного умножения к (фильтрованным) сигналам виртуальных громкоговорителей, т.е.:Binaural output signals can also be computed by applying matrix multiplication to (filtered) virtual speaker signals, i.e.:

,

где:Where:

содержит HRTF для модифицированных положений виртуальных громкоговорителей J для левого и правого уха, соответственно, и вектор:contains the HRTF for the modified J virtual speaker positions for the left and right ear, respectively, and the vector:

содержит два бинауральных аудиосигнала.contains two binaural audio signals.

Вариант 5 осуществления. Варианты осуществления с использованием матричного умноженияOption 5 implementation. Embodiments Using Matrix Multiplication

Из предыдущих вариантов осуществления очевидно, что выходные сигналы a'(k, n) могут вычисляться из входных сигналов a(k, n) посредством применения одного матричного умножения, т.е.:It is clear from the previous embodiments that the outputs a'(k, n) can be computed from the inputs a(k, n) by applying a single matrix multiplication, i.e.:

,

где матрица T(φ'_1...J,υ'_1...J) преобразования может вычисляться следующим образом:where the transformation matrix T(φ' _1...J ,υ' _1...J ) can be calculated as follows:

.

Здесь, C(φ_1...J,υ_1...J) является матрицей для первого пространственного преобразования, которая может вычисляться так, как описано в вариантах 1(a-d) осуществления, w(p, l) является факультативным пространственным фильтром, описанным в варианте 2 осуществления,

обозначает оператор, который преобразует вектор в диагональную матрицу, причем вектор представляет собой главную диагональ, и D(φ'_1...J,υ'_{1... J}) является матрицей для второго пространственного преобразования в зависимости от требуемого положению и ориентации прослушивания, которая может вычисляться так, как описано в вариантах 4(a-c) осуществления. В варианте осуществления, можно предварительно вычислять матрицу T(φ'_1...J,υ'_1...J) для требуемых положений и ориентаций прослушивания (например, для дискретной сетки положений и ориентаций), чтобы снижать вычислительную сложность. В случае аудиообъекта с введенными варьирующимися во времени положениями, только время-независимые части вышеприведенного вычисления T(φ'_1...J,υ'_1...J) могут предварительно вычисляться, чтобы снижать вычислительную сложность.Here, C(φ _1...J ,υ _1...J ) is the matrix for the first spatial transform, which can be computed as described in embodiments 1(ad), w(p, l) is an optional spatial filter described in Embodiment 2,

denotes an operator that transforms a vector into a diagonal matrix, where the vector is the main diagonal, and D(φ' _1...J ,υ' _{1... J} ) is the matrix for the second spatial transformation depending on the desired listening position and orientation , which can be calculated as described in options 4(ac) implementation. In an embodiment, the matrix T(φ' _1...J ,υ' _1...J ) for desired listening positions and orientations (eg, for a discrete grid of positions and orientations) may be precomputed to reduce computational complexity. In the case of an audio object with time-varying positions introduced, only the time-independent parts of the above calculation T(φ' _1...J ,υ' _1...J ) can be precomputed to reduce computational complexity.

Далее проиллюстрирована предпочтительная реализация обработки звукового поля, выполняемой посредством процессора 1000 звукового поля. На этапе 901 или 1010, два или более входных аудиосигналов принимаются во временной области или в частотно-временной области, при этом, в случае приема сигнала в частотно-временной области, гребенка аналитических фильтров использована для получения частотно-временного представления.The following illustrates a preferred implementation of the sound field processing performed by the sound field processor 1000 . At step 901 or 1010, two or more input audio signals are received in the time domain or in the time-frequency domain, wherein, in the case of receiving a signal in the time-frequency domain, an analytic filterbank is used to obtain a time-frequency representation.

На этапе 1020, первое пространственное преобразование выполняется для получения набора сигналов виртуальных громкоговорителей. На этапе 1030, факультативная пространственная фильтрация выполняется посредством применения пространственного фильтра к сигналам виртуальных громкоговорителей. В случае неприменения этапа 1030 на фиг. 14, пространственная фильтрация вообще не выполняется, и модификация положений виртуальных громкоговорителей в зависимости от положения и ориентации прослушивания, т.е. в зависимости от целевого положения прослушивания и/или целевой ориентации выполняется так, как указано, например, на 1040b. На этапе 1050, второе пространственное преобразование выполняется в зависимости от модифицированных положений виртуальных громкоговорителей для получения выходных аудиосигналов. На этапе 1060, факультативный вариант применения гребенки синтезирующих фильтров выполняется для получения выходных сигналов во временной области.At 1020, a first spatial transformation is performed to obtain a set of virtual speaker signals. At 1030, optional spatial filtering is performed by applying a spatial filter to the virtual speaker signals. If step 1030 in FIG. 14, no spatial filtering is performed at all, and the modification of the positions of the virtual speakers depending on the listening position and orientation, i.e. depending on the target listening position and/or target orientation is performed as indicated, for example, at 1040b. At 1050, a second spatial transformation is performed depending on the modified virtual speaker positions to obtain audio output signals. At 1060, an optional application of a synthesis filter bank is performed to obtain time domain outputs.

Таким образом, фиг. 14 иллюстрирует явное вычисление сигналов виртуальных громкоговорителей, факультативную явную фильтрацию сигналов виртуальных громкоговорителей и факультативную обработку сигналов виртуальных громкоговорителей или фильтрованных сигналов виртуальных громкоговорителей для вычисления выходных аудиосигналов представления обработанного звукового поля.Thus, FIG. 14 illustrates the explicit calculation of virtual speaker signals, optional explicit filtering of virtual speaker signals, and optional processing of virtual speaker signals or filtered virtual speaker signals to compute output audio signals of the processed sound field representation.

Фиг. 15 иллюстрирует другой вариант осуществления, в котором правило первого пространственного преобразования, такое как матрица первого пространственного преобразования, вычисляется в зависимости от требуемого формата входного аудиосигнала, в котором предполагается набор положений виртуальных громкоговорителей, проиллюстрированный на 1021. На этапе 1031, учитывается факультативный вариант применения пространственного фильтра, который зависит от требуемого положения и/или ориентации прослушивания, и пространственный фильтр, например, применяется к матрице первого пространственного преобразования посредством поэлементного умножения вообще без явного вычисления и обработки сигналов виртуальных громкоговорителей. На этапе 1040b, положения виртуальных громкоговорителей модифицируются в зависимости от положения и/или ориентации прослушивания, т.е. в зависимости от целевого положения и/или ориентации. На этапе 1051, матрица второго пространственного преобразования или, в общем, правило второго или обратного пространственного преобразования вычисляется в зависимости от модифицированных положений виртуальных громкоговорителей и требуемого формата выходного аудиосигнала. На этапе 1090, вычисленные матрицы в блоках 1031, 1021 и 1051 могут комбинироваться между собой и затем умножаются на входные аудиосигналы в форме одной матрицы. В качестве альтернативы, отдельные матрицы могут отдельно применяться к соответствующим данным, либо по меньшей мере две матрицы могут комбинироваться между собой для получения комбинированного определения преобразования, как поясняется относительно отдельных четырех случаев, проиллюстрированных относительно фиг. 10a-10d.Fig. 15 illustrates another embodiment in which a first spatial transform rule, such as a first spatial transform matrix, is computed depending on the desired input audio signal format, in which the virtual speaker position set illustrated at 1021 is assumed. At step 1031, an optional spatial a filter that depends on the desired listening position and/or orientation, and a spatial filter, for example, is applied to the first spatial transformation matrix by element-wise multiplication without any explicit computation and processing of the virtual loudspeaker signals at all. In step 1040b, the positions of the virtual speakers are modified depending on the listening position and/or orientation, ie. depending on the target position and/or orientation. At 1051, a second spatial transform matrix, or more generally a second or inverse spatial transform rule, is computed depending on the modified virtual speaker positions and the desired audio output format. At 1090, the computed matrices in blocks 1031, 1021, and 1051 may be combined with each other and then multiplied by the input audio signals in the form of a single matrix. Alternatively, separate matrices may be separately applied to the respective data, or at least two matrices may be combined with each other to obtain a combined transform definition, as explained with respect to the separate four cases illustrated with respect to FIG. 10a-10d.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.Although some aspects are described in the context of a device, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, the aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having stored electronically readable control signals that interact (or are capable of interacting) with a programmable computer system. so that the corresponding method is carried out.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is carried out.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может сохраняться, например, на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is executed on the computer. The program code may be stored, for example, on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на постоянном носителе хранения данных.Other embodiments comprise a computer program for carrying out one of the methods described herein stored on a computer-readable medium or on a permanent storage medium.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is running on a computer.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a stream of data or a sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional embodiment includes processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably carried out by any hardware device.

Вышеописанные варианты осуществления являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в качестве описания и пояснения вариантов осуществления в данном документе.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the configurations and details described herein should be apparent to those skilled in the art. Therefore, it is intended to be limited only by the scope of the following claims, and not by the specific details provided as a description and explanation of the embodiments herein.

Список источниковList of sources

[AmbiTrans] Kronlachner и Zotter "Spatial transformations for the enhancement of Ambisonics recordings", ICSA, 2014 год.[AmbiTrans] Kronlachner and Zotter "Spatial transformations for the enhancement of Ambisonics recordings", ICSA, 2014.

[FormatConv] M. M. Goodwin и J.-M. Jot "Multichannel surround format conversion and generalized upmix", AES 30^th International Conference, 2007 год.[FormatConv] MM Goodwin and J.-M. Jot "Multichannel surround format conversion and generalized upmix", AES ^30th International Conference, 2007.

[FourierAcoust] E.G. Williams "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", Academic Press, 1999 год.[FourierAcoust] E.G. Williams "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", Academic Press, 1999.

[WolframProj1] http://mathworld.wolfram.com/StereographicProjection.html.[WolframProj1] http://mathworld.wolfram.com/StereographicProjection.html.

[WolframProj2] http://mathworld.wolfram.com/GnomonicProjection.html.[WolframProj2] http://mathworld.wolfram.com/GnomonicProjection.html.

[RotMat] http://mathworld.wolfram.com/RotationMatrix.html.[RotMat] http://mathworld.wolfram.com/RotationMatrix.html.

[Vbap] V. Pulkki "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, этом 45 (6), 1997 год.[Vbap] V. Pulkki "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, this 45 (6), 1997.

[VirtualMic] O. Thiergart, G. Del Galdo, M. Taseska, E.A.P. Habets, Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays", Audio, Speech and Language Processing, IEEE Transactions on, этом 21 (12), 2013 год.[VirtualMic] O. Thiergart, G. Del Galdo, M. Taseska, E.A.P. Habets, Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays", Audio, Speech and Language Processing, IEEE Transactions on, this 21(12), 2013.

Claims

1. Устройство для обработки представления (1001) звукового поля, связанного с заданной опорной точкой или заданной ориентацией прослушивания для представления звукового поля, содержащее1. A device for processing the presentation (1001) of a sound field associated with a given reference point or a given listening orientation for the presentation of the sound field, comprising

процессор (1000) звукового поля для обработки представления звукового поля с использованием отклонения целевого положения прослушивания от заданной опорной точки или целевой ориентации прослушивания от заданной ориентации прослушивания для получения описания (1201) обработанного звукового поля, при этом описание (1201) обработанного звукового поля при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки, или для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания, либо для обработки представления звукового поля с использованием пространственного фильтра (1030) для получения описания (1201) обработанного звукового поля, при этом описание (1201) обработанного звукового поля при рендеринге обеспечивает впечатление пространственно фильтрованного описания звукового поля,a sound field processor (1000) for processing the sound field representation using the deviation of the target listening position from a given reference point or the target listening orientation from a given listening orientation to obtain a description (1201) of the processed sound field, wherein the description (1201) of the processed sound field when rendering provides the impression of a sound field representation at a target listening position different from a given reference point, or for a listening target orientation different from a given listening orientation, or for processing a sound field representation using a spatial filter (1030) to obtain a description (1201) of the processed sound field , while the description (1201) of the processed sound field during rendering provides the impression of a spatially filtered description of the sound field,

при этом процессор (1000) звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр (1030) применяется к представлению звукового поля относительно области пространственного преобразования, имеющей ассоциированное правило (1021) прямого преобразования и правило (1051) обратного преобразования,wherein the sound field processor (1000) is configured to process the sound field representation such that a bias or spatial filter (1030) is applied to the sound field representation with respect to the spatial transform region having an associated forward transform rule (1021) and a reverse transform rule (1051). transformation,

причём процессор (1000) звукового поля выполнен с возможностью обработки представления звукового поля с использованием правила (1021) прямого преобразования для пространственного преобразования, причем правило (1021) прямого преобразования связано с набором виртуальных громкоговорителей в наборе положений виртуальных громкоговорителей с использованием пространственного фильтра (1030) в области преобразования и с использованием правила (1051) обратного преобразования для пространственного преобразования с использованием набора положений виртуальных громкоговорителей, илиwherein the sound field processor (1000) is configured to process the sound field representation using a direct transform rule (1021) for spatial transform, wherein the direct transform rule (1021) is associated with a set of virtual speakers in a set of virtual speaker positions using a spatial filter (1030) in the transform domain and using the inverse transform rule (1051) for a spatial transform using a set of virtual speaker positions, or

при этом процессор (1000) звукового поля выполнен с возможностью обработки представления звукового поля с использованием правила (1021) прямого преобразования для пространственного преобразования, причем правило (1021) прямого преобразования связано с набором виртуальных громкоговорителей в наборе положений виртуальных громкоговорителей и с использованием правила (1051) обратного преобразования для пространственного преобразования с использованием набора модифицированных положений виртуальных громкоговорителей, извлекаемых из набора положений виртуальных громкоговорителей с использованием отклонения, илиwherein the sound field processor (1000) is configured to process the sound field representation using the direct transform rule (1021) for spatial transform, the direct transform rule (1021) being associated with the virtual speaker set in the virtual speaker position set and using the rule (1051) ) inverse transform to spatial transform using a set of modified virtual speaker positions derived from a set of virtual speaker positions using deflection, or

при этом процессор (1000) звукового поля выполнен с возможностью обработки представления звукового поля с использованием правила (1021) прямого преобразования для пространственного преобразования, причем правило (1021) прямого преобразования связано с набором виртуальных громкоговорителей в наборе положений виртуальных громкоговорителей с использованием пространственного фильтра (1030) в области преобразования и с использованием правила (1051) обратного преобразования для пространственного преобразования с использованием набора модифицированных положений виртуальных громкоговорителей, извлекаемых из набора положений виртуальных громкоговорителей с использованием отклонения.wherein the sound field processor (1000) is configured to process the sound field representation using a direct transform rule (1021) for spatial transform, wherein the direct transform rule (1021) is associated with a set of virtual speakers in a set of virtual speaker positions using a spatial filter (1030 ) in the transform domain and using the inverse transform rule (1051) for a spatial transform using a set of modified virtual speaker positions derived from a set of virtual speaker positions using deflection.

2. Устройство по п.1, дополнительно содержащее детектор (1100) для обнаружения отклонения целевого положения прослушивания от заданной опорной точки, или для обнаружения отклонения целевой ориентации прослушивания от заданной ориентации прослушивания, или для обнаружения целевого положения прослушивания и для определения отклонения целевого положения прослушивания от заданной опорной точки, или для обнаружения целевой ориентации прослушивания и для определения отклонения целевой ориентации прослушивания от заданной ориентации прослушивания.2. The apparatus of claim 1, further comprising a detector (1100) for detecting a deviation of the target listening position from a predetermined reference point, or for detecting a deviation of the target listening orientation from a predetermined listening orientation, or for detecting a target listening position and for determining a deviation of the target listening position from a predetermined reference point, or to detect the target listening orientation and to determine the deviation of the target listening orientation from the predetermined listening orientation.

3. Устройство по п.1 или 2,3. The device according to claim 1 or 2,

в котором представление (1001) звукового поля содержит множество аудиосигналов в области аудиосигналов, отличающейся от области пространственного преобразования, и при этом процессор (1000) звукового поля выполнен с возможностью формирования описания (1201) обработанного звукового поля в области аудиосигналов, отличающейся от области пространственного преобразования.wherein the sound field representation (1001) contains a plurality of audio signals in an audio signal region other than the spatial transform region, and wherein the sound field processor (1000) is configured to generate a description (1201) of the processed sound field in the audio signal region different from the spatial transform region .

4. Устройство по одному из пп.1-3,4. The device according to one of claims 1-3,

в котором процессор (1000) звукового поля выполнен с возможностью сохранения (1080) для каждой точки сетки из сетки целевых положений прослушивания или целевых ориентаций прослушивания предварительно вычисленного определения (1071, 1072, 1073) преобразования или правила (1021, 1051) преобразования, при этом предварительно вычисленное определение преобразования представляет по меньшей мере два из правила (1021) прямого преобразования, пространственного фильтра (1030) и правила (1051) обратного преобразования, иwherein the sound field processor (1000) is configured to store (1080) for each grid point from the grid of listening target positions or listening target orientations a pre-computed transform definition (1071, 1072, 1073) or transform rule (1021, 1051), wherein the precomputed transform definition represents at least two of the forward transform rule (1021), the spatial filter (1030), and the inverse transform rule (1051), and

при этом процессор (1000) звукового поля выполнен с возможностью выбора (1081, 1082) определения преобразования или правила преобразования для точки сетки, связанной с целевым положением прослушивания или целевой ориентацией прослушивания, и применения (1090) выбранного определения преобразования или правила преобразования.wherein the sound field processor (1000) is configured to select (1081, 1082) a transform definition or transform rule for a grid point associated with a listening target position or listening target orientation and apply (1090) the selected transform definition or transform rule.

5. Устройство по п.4, в котором предварительно вычисленное определение преобразования представляет собой матрицу преобразования, имеющую размерность в N строк и M столбцов, при этом N и M являются целыми числами больше 2, и5. The apparatus of claim 4, wherein the precomputed transform definition is a transform matrix having N rows and M columns, N and M being integers greater than 2, and

при этом представление звукового поля имеет M аудиосигналов, и при этом представление (1201) обработанного звукового поля имеет N аудиосигналов, или наоборот.wherein the sound field representation has M audio signals and the processed sound field representation (1201) has N audio signals, or vice versa.

6. Устройство по одному из пп.1-3,6. The device according to one of claims 1-3,

в котором процессор (1000) звукового поля выполнен с возможностью применения (1090) определения (1071) преобразования к представлению (1001) звукового поля,wherein the sound field processor (1000) is configured to apply (1090) the transform definition (1071) to the sound field representation (1001),

при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1021) прямого преобразования с использованием положений виртуальных громкоговорителей для виртуальных громкоговорителей, связанных с заданной опорной точкой или заданной ориентацией прослушивания, и правила (1051) обратного преобразования с использованием модифицированного положения виртуального громкоговорителя для виртуальных громкоговорителей, связанных с целевым положением прослушивания или целевой ориентацией прослушивания, иwherein the sound field processor (1000) is configured to compute a forward transform rule (1021) using virtual speaker positions for virtual speakers associated with a given reference point or a given listening orientation, and an inverse transform rule (1051) using a modified virtual speaker position for virtual speakers associated with a target listening position or target listening orientation, and

комбинирования (1092) правила (1021) прямого преобразования и правила (1051) обратного преобразования для получения определения (1071) преобразования.combining (1092) the forward transform rule (1021) and the inverse transform rule (1051) to obtain a transform definition (1071).

7. Устройство по одному из пп.1-3,7. The device according to one of claims 1-3,

при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1021) прямого преобразования с использованием положений виртуальных громкоговорителей для виртуальных громкоговорителей, связанных с заданной опорной точкой или заданной ориентацией прослушивания, и вычисления пространственного фильтра (1030) и вычисления правила (1051) обратного преобразования с использованием одинаковых или модифицированных положений виртуальных громкоговорителей, и комбинирования (1092) правила (1021) прямого преобразования, пространственного фильтра (1030) и правила (1051) обратного преобразования для получения определения (1071) преобразования.wherein the sound field processor (1000) is configured to compute a direct transform rule (1021) using virtual speaker positions for virtual speakers associated with a given reference point or a given listening orientation, and compute a spatial filter (1030) and compute a rule (1051) inverse transform using the same or modified virtual speaker positions; and combining (1092) the direct transform rule (1021), the spatial filter (1030), and the inverse transform rule (1051) to obtain a transform definition (1071).

8. Устройство по одному из пп.1, 2,8. The device according to one of claims 1, 2,

в котором процессор (1000) звукового поля выполнен с возможностью прямого преобразования (1020) представления (1001) звукового поля из области аудиосигналов в пространственную область с использованием правила (1021) прямого преобразования для получения сигналов виртуальных громкоговорителей для виртуальных громкоговорителей в предварительно заданных положениях виртуальных громкоговорителей, связанных с заданной опорной точкой или заданной ориентацией прослушивания, иwherein the sound field processor (1000) is configured to directly transform (1020) the sound field representation (1001) from the audio domain to the spatial domain using a direct transform rule (1021) to obtain virtual speaker signals for virtual speakers at predefined virtual speaker positions associated with a given reference point or a given listening orientation, and

обратного преобразования (1050) сигналов виртуальных громкоговорителей в область аудиосигналов с использованием правила (1051) обратного преобразования на основе модифицированных положений виртуальных громкоговорителей, связанных с целевым положением прослушивания или целевой ориентацией прослушивания, илиdemapping (1050) the virtual speaker signals to the audio domain using the demapping rule (1051) based on the modified virtual speaker positions associated with the target listening position or target listening orientation, or

применения пространственного фильтра (1030) к сигналам виртуальных громкоговорителей для получения фильтрованных сигналов виртуальных громкоговорителей и обратного преобразования (1050) фильтрованных сигналов виртуальных громкоговорителей с использованием правила (1051) обратного преобразования на основе модифицированного положения виртуального громкоговорителя, связанного с целевыми положениями прослушивания или целевой ориентацией прослушивания, либо положений виртуальных громкоговорителей, связанных с заданным опорным положением или ориентацией прослушивания.applying a spatial filter (1030) to the virtual speaker signals to obtain the filtered virtual speaker signals and inverse transforming (1050) the filtered virtual speaker signals using an inverse transform rule (1051) based on the modified virtual speaker position associated with the target listening positions or target listening orientation , or virtual speaker positions associated with a given reference position or listening orientation.

9. Устройство по одному из пп.1-3,9. The device according to one of claims 1-3,

в котором процессор (1000) звукового поля выполнен с возможностью:wherein the sound field processor (1000) is configured to:

- вычисления правила (1021) прямого преобразования и пространственного фильтра (1030) и комбинирования правила (1021) прямого преобразования и пространственного фильтра (1030) для получения частичного определения (1072) преобразования,- calculating the direct transform rule (1021) and the spatial filter (1030) and combining the direct transform rule (1021) and the spatial filter (1030) to obtain a partial definition (1072) of the transform,

- применения (1090) частичного определения (1072) преобразования к представлению (1001) звукового поля для получения фильтрованных сигналов виртуальных громкоговорителей иapplying (1090) the partial definition (1072) of the transform to the representation (1001) of the sound field to obtain filtered virtual speaker signals, and

- обратного преобразования (1050) фильтрованных сигналов виртуальных громкоговорителей с использованием правила (1051) обратного преобразования на основе модифицированных положений виртуальных громкоговорителей, связанных с целевым положением прослушивания или целевой ориентацией прослушивания, либо на основе положений виртуальных громкоговорителей, связанных с заданной опорной точкой или заданной ориентацией прослушивания.- demapping (1050) the filtered virtual speaker signals using an inverse transform rule (1051) based on modified virtual speaker positions associated with a target listening position or target listening orientation, or based on virtual speaker positions associated with a given reference point or given orientation listening.

10. Устройство по одному из пп. 1-3,10. The device according to one of paragraphs. 1-3,

- вычисления пространственного фильтра (1030) и правила (1051) обратного преобразования на основе модифицированных положений виртуальных громкоговорителей, связанных с целевым положением или целевой ориентацией прослушивания, либо на основе положений виртуальных громкоговорителей, связанных с заданной опорной точкой или ориентацией прослушивания,- spatial filter (1030) and inverse transform rule (1051) calculations based on modified virtual speaker positions associated with a target listening position or target orientation, or based on virtual speaker positions associated with a given reference point or listening orientation,

- комбинирования (1092) пространственного фильтра (1030) и правила (1051) обратного преобразования для получения частичного определения (1073) преобразования,- combining (1092) a spatial filter (1030) and an inverse transform rule (1051) to obtain a partial definition (1073) of the transform,

- прямого преобразования (1020) представления звукового поля из области аудиосигналов в пространственную область для получения сигналов виртуальных громкоговорителей для виртуальных громкоговорителей в предварительно заданных положениях виртуальных громкоговорителей и- direct transformation (1020) of the sound field representation from the audio domain to the spatial domain to obtain virtual loudspeaker signals for the virtual loudspeakers at predefined virtual loudspeaker positions, and

- применения (1090) частичного определения (1073) преобразования к сигналам виртуальных громкоговорителей.- applying (1090) a partial definition (1073) of the transform to the virtual loudspeaker signals.

11. Устройство по одному из предшествующих пунктов,11. Device according to one of the preceding paragraphs,

в котором по меньшей мере одно из правила (1021) прямого преобразования, пространственного фильтра (1030), правила (1051) обратного преобразования, определения преобразования или частичного определения преобразования либо предварительно вычисленного определения преобразования содержит матрицу или при этом область аудиосигналов представляет собой временную область или частотно-временную область.wherein at least one of a direct transform rule (1021), a spatial filter (1030), an inverse transform rule (1051), a transform definition or a partial transform definition, or a precomputed transform definition comprises a matrix, or wherein the domain of the audio signals is a time domain, or frequency-time domain.

12. Устройство по одному из предшествующих пунктов,12. Device according to one of the preceding paragraphs,

в котором представление (1001) звукового поля содержит множество амбиофонических сигналов, и при этом процессор (1000) звукового поля выполнен с возможностью вычисления (1022) правила (1021) прямого преобразования с использованием разложения (1022) по плоским волнам и положений виртуальных громкоговорителей для виртуальных громкоговорителей, связанных с заданным положением прослушивания или заданной ориентацией прослушивания, илиwherein the sound field representation (1001) contains a plurality of ambiophonic signals, and wherein the sound field processor (1000) is configured to compute (1022) a direct transform rule (1021) using a plane wave decomposition (1022) and virtual speaker positions for the virtual speakers associated with a given listening position or a given listening orientation, or

при этом представление звукового поля содержит множество каналов громкоговорителей для заданной конфигурации громкоговорителей, имеющей зону наилучшего восприятия, при этом зона наилучшего восприятия представляет заданное опорное положение, и при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1021) прямого преобразования с использованием правила повышающего микширования или правила (1023) понижающего микширования каналов громкоговорителей в конфигурацию виртуальных громкоговорителей, имеющую виртуальные громкоговорители в положениях виртуальных громкоговорителей, связанных с зоной наилучшего восприятия, илиwherein the sound field representation comprises a plurality of speaker channels for a given loudspeaker configuration having a sweet spot, wherein the sweet spot represents a given reference position, and the sound field processor (1000) is configured to compute a direct transform rule (1021) using upmix rules or loudspeaker channel downmix rules (1023) into a virtual loudspeaker configuration having virtual loudspeakers at virtual loudspeaker positions associated with the sweet spot, or

при этом представление звукового поля содержит множество реальных или виртуальных сигналов микрофонов, связанных с центром массива в качестве заданного опорного положения, и при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1021) прямого преобразования в качестве весовых коэффициентов формирования диаграммы направленности, представляющих операцию (1024) формирования диаграммы направленности для каждого положения виртуального громкоговорителя для виртуального громкоговорителя из виртуальных громкоговорителей для множества сигналов микрофонов, илиwherein the sound field representation contains a plurality of real or virtual microphone signals associated with the center of the array as a given reference position, and wherein the sound field processor (1000) is configured to calculate a direct transform rule (1021) as beamforming weights, representing an operation (1024) of beamforming for each virtual speaker position for a virtual speaker from virtual speakers for a plurality of microphone signals, or

при этом представление звукового поля содержит представление аудиообъекта, включающее в себя множество аудиообъектов, имеющих ассоциированную информацию положения, и при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1021) прямого преобразования, представляющего операцию (1025) панорамирования для панорамирования аудиообъектов в виртуальные громкоговорители в положениях виртуальных громкоговорителей, связанных с заданным опорным положением, с использованием информации положения для аудиообъектов.wherein the sound field representation comprises an audio object representation including a plurality of audio objects having associated position information, and wherein the sound field processor (1000) is configured to compute a direct transform rule (1021) representing a panning operation (1025) for panning the audio objects in the virtual speakers at the virtual speaker positions associated with the given reference position using the position information for the audio objects.

13. Устройство по одному из предшествующих пунктов,13. Device according to one of the preceding paragraphs,

в котором процессор (1000) звукового поля выполнен с возможностью вычисления пространственного фильтра (1030) в качестве набора коэффициентов окна кодирования со взвешиванием в зависимости от положений виртуальных громкоговорителей для виртуальных громкоговорителей, используемых в правиле (1021) прямого преобразования, и дополнительно в зависимости по меньшей мере от одного из заданного опорного положения, заданной ориентации прослушивания, целевого положения прослушивания и целевой ориентации прослушивания.wherein the sound field processor (1000) is configured to compute a spatial filter (1030) as a set of weighted coding window coefficients depending on the virtual speaker positions for the virtual speakers used in the direct transform rule (1021) and further depending on the least a measure from one of the predetermined reference position, the predetermined listening orientation, the target listening position, and the target listening orientation.

14. Устройство по одному из предшествующих пунктов,14. Device according to one of the preceding paragraphs,

в котором процессор (1000) звукового поля выполнен с возможностью вычисления пространственного фильтра (1030) в качестве набора неотрицательных действительнозначных значений усиления, так что пространственный звук акцентируется к направлению взгляда, указываемому целевой ориентацией прослушивания, или при этом процессор (1000) звукового поля выполнен с возможностью вычисления пространственного фильтра (1030) в качестве пространственного окна кодирования со взвешиванием.wherein the sound field processor (1000) is configured to compute the spatial filter (1030) as a set of non-negative real-valued gain values such that the spatial sound is accentuated towards the gaze direction indicated by the target listening orientation, or wherein the sound field processor (1000) is configured to the ability to calculate a spatial filter (1030) as a weighted spatial coding window.

15. Устройство по одному из предшествующих пунктов, в котором процессор (1000) звукового поля выполнен с возможностью вычисления пространственного фильтра (1030):15. An apparatus according to one of the preceding claims, wherein the sound field processor (1000) is configured to compute a spatial filter (1030):

- в виде общего пространственного окна кодирования со взвешиванием первого порядка, направленного к целевому направлению взгляда, либо в виде общего пространственного окна кодирования со взвешиванием первого порядка, ослабляющегося или усиливающегося согласно расстоянию между целевым положением прослушивания и соответствующим положением виртуального громкоговорителя, или- as a common spatial first-order weighted coding window directed towards the target direction of view, or as a common spatial first-order weighted coding window, attenuated or enhanced according to the distance between the target listening position and the corresponding position of the virtual loudspeaker, or

- в виде прямоугольного пространственного окна кодирования со взвешиванием, становящегося более узким в случае операции увеличения масштаба или становящегося более широким в случае операции уменьшения масштаба, или- in the form of a rectangular spatial weighted coding window becoming narrower in the case of an upscaling operation or becoming wider in the case of a downscaling operation, or

- в виде окна кодирования со взвешиванием, которое обеспечивает затухание источников звука на стороне, когда соответствующий аудиообъект исчезает из масштабированного видеоизображения.- in the form of a weighted coding window, which provides for the attenuation of audio sources on the side when the corresponding audio object disappears from the scaled video image.

16. Устройство по одному из предшествующих пунктов,16. Device according to one of the preceding paragraphs,

в котором процессор (1000) звукового поля выполнен с возможностью вычисления правила (1051) обратного преобразования с использованием модифицированных положений виртуальных громкоговорителей, при этом процессор (1000) звукового поля выполнен с возможностью вычисления (1040b) модифицированных положений виртуальных громкоговорителей для каждого виртуального громкоговорителя с использованием:wherein the sound field processor (1000) is configured to compute an inverse transform rule (1051) using the modified virtual speaker positions, wherein the sound field processor (1000) is configured to compute (1040b) the modified virtual speaker positions for each virtual speaker using :

- исходного вектора положения от заданной опорной точки до положения виртуального громкоговорителя,- the initial position vector from the given reference point to the position of the virtual loudspeaker,

- вектора отклонения, извлеченного из целевого положения прослушивания или целевой ориентации прослушивания, и/или- a deflection vector extracted from the listening target position or listening target orientation, and/or

- матрицы вращения, указывающей целевое вращение, отличающееся от предварительно заданного вращения,- a rotation matrix indicating a target rotation different from the predetermined rotation,

получения обновленного вектора положения, при этом обновленный вектор положения используется для правила (1050) обратного преобразования для ассоциированного виртуального громкоговорителя.obtaining an updated position vector, wherein the updated position vector is used for the inverse transform rule (1050) for the associated virtual speaker.

17. Устройство по одному из предшествующих пунктов,17. Device according to one of the preceding paragraphs,

в котором описание (1201) обработанного звукового поля содержит множество амбиофонических сигналов, и при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1052) обратного преобразования с использованием гармонического разложения, представляющего взвешенную сумму по всем сигналам виртуальных громкоговорителей, оцененным в модифицированных положениях громкоговорителей или связанным с целевой ориентацией, илиwherein the description (1201) of the processed sound field contains a plurality of ambiophonic signals, and wherein the sound field processor (1000) is configured to compute an inverse transform rule (1052) using a harmonic decomposition representing a weighted sum over all virtual speaker signals evaluated in modified speaker positions or related to target orientation, or

при этом описание (1201) обработанного звукового поля содержит множество каналов громкоговорителей для заданной выходной конфигурации громкоговорителей, при этом процессор (1000) звукового поля выполнен с возможностью вычисления правила (1053) обратного преобразования с использованием матрицы преобразования формата громкоговорителей, извлекаемой из модифицированных положений виртуальных громкоговорителей или связанной с целевой ориентацией, с использованием положения виртуальных громкоговорителей в заданной выходной конфигурации громкоговорителей, илиwherein the description (1201) of the processed sound field contains a plurality of speaker channels for a given output speaker configuration, wherein the sound field processor (1000) is configured to calculate the inverse transform rule (1053) using the speaker format transformation matrix extracted from the modified positions of the virtual speakers or related to the target orientation, using the position of the virtual speakers in the given speaker output configuration, or

при этом описание (1201) обработанного звукового поля содержит бинауральный вывод, при этом процессор (1000) звукового поля выполнен с возможностью вычисления бинауральных выходных сигналов с использованием передаточных функций восприятия звука человеком, ассоциированных с модифицированными положениями виртуальных громкоговорителей или с использованием правила (1055) преобразования формата громкоговорителей, связанного с заданной промежуточной выходной конфигурацией громкоговорителей, и передаточных функций (1056) восприятия звука человеком, связанных с заданной выходной конфигурацией громкоговорителей.wherein the description (1201) of the processed sound field contains a binaural output, wherein the processor (1000) of the sound field is configured to calculate the binaural output signals using the transfer functions of human sound perception associated with the modified positions of the virtual speakers or using the transformation rule (1055) a speaker format associated with a predetermined intermediate speaker output configuration and human audio perception transfer functions (1056) associated with a predetermined speaker output configuration.

18. Устройство по одному из пп.1-3,18. The device according to one of claims 1-3,

при этом устройство содержит запоминающее устройство (1080), имеющее сохраненные наборы предварительно вычисленных коэффициентов, ассоциированных с различными предварительно заданными отклонениями, иwherein the device comprises a storage device (1080) having stored sets of pre-computed coefficients associated with various predetermined deviations, and

- выполнения поиска из различных предварительно заданных отклонений на предмет предварительно заданного отклонения, ближайшего к обнаруженному отклонению,- performing a search from various predefined deviations for the predefined deviation closest to the detected deviation,

- извлечения из запоминающего устройства предварительно вычисленного набора коэффициентов, ассоциированных с ближайшим заданным отклонением, и- retrieving from the storage device a pre-computed set of coefficients associated with the nearest given deviation, and

- перенаправления извлеченного предварительно вычисленного набора коэффициентов в процессор (1000) звукового поля.- forwarding the extracted pre-computed coefficient set to the sound field processor (1000).

19. Устройство по одному из пп.2-18,19. The device according to one of claims 2-18,

в котором представление (1001) звукового поля ассоциировано с трехмерным видео или сферическим видео и заданная опорная точка представляет собой центр трехмерного видео или сферического видео,wherein the sound field representation (1001) is associated with a 3D video or spherical video and the given reference point is the center of the 3D video or spherical video,

при этом детектор (110) выполнен с возможностью обнаружения пользовательского ввода, указывающего фактическую точку обзора, отличающуюся от центра, причем фактическая точка обзора является одинаковой с целевым положением прослушивания, и при этом детектор выполнен с возможностью извлечения обнаруженного отклонения из пользовательского ввода, или при этом детектор (110) выполнен с возможностью обнаружения пользовательского ввода, указывающего фактическую ориентацию просмотра, отличающуюся от заданной ориентации прослушивания, направленной в центр, причем фактическая ориентация просмотра является одинаковой с целевой ориентацией прослушивания, и при этом детектор выполнен с возможностью извлечения обнаруженного отклонения из пользовательского ввода.wherein the detector (110) is configured to detect a user input indicating an actual viewpoint that is different from the center, wherein the actual viewpoint is the same as the target listening position, and wherein the detector is configured to extract the detected deviation from the user input, or wherein the detector (110) is configured to detect a user input indicating an actual viewing orientation that is different from a predetermined listening orientation directed to the center, wherein the actual viewing orientation is the same as the target listening orientation, and wherein the detector is configured to extract the detected deviation from the user input .

20. Устройство по одному из предшествующих пунктов,20. Device according to one of the preceding paragraphs,

при этом процессор (1000) звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что представление обработанного звукового поля представляет стандартную проекцию или проекцию малой планеты либо переход между стандартной проекцией или проекцией малой планеты по меньшей мере одного звукового объекта, включенного в описание звукового поля относительно области отображения для трехмерного видео или сферического видео, причем область отображения определяется пользовательским вводом и заданным направлением просмотра.wherein the sound field processor (1000) is configured to process the sound field representation such that the processed sound field representation represents a standard projection or a minor planet projection or a transition between a standard projection or a minor planet projection of at least one sound object included in the description of the sound margins relative to the display area for 3D video or spherical video, the display area being determined by user input and a given viewing direction.

21. Устройство по одному из предшествующих пунктов,21. Device according to one of the preceding paragraphs,

- преобразования описания звукового поля в связанное с виртуальными громкоговорителями представление, ассоциированное с первым набором положений виртуальных громкоговорителей, при этом первый набор положений виртуальных громкоговорителей ассоциирован с заданной опорной точкой,- converting the sound field description into a virtual speaker-related representation associated with a first set of virtual speaker positions, wherein the first set of virtual speaker positions is associated with a given reference point,

- преобразования первого набора положений виртуальных громкоговорителей в модифицированный набор положений виртуальных громкоговорителей, при этом модифицированный набор положений виртуальных громкоговорителей ассоциирован с целевым положением прослушивания, и- converting the first set of virtual speaker positions into a modified set of virtual speaker positions, wherein the modified set of virtual speaker positions is associated with the target listening position, and

- преобразования связанного с виртуальными громкоговорителями представления в описание (1201) обработанного звукового поля, ассоциированное с модифицированным набором положений виртуальных громкоговорителей,- converting the representation associated with the virtual speakers into a description (1201) of the processed sound field associated with the modified set of virtual speaker positions,

при этом процессор (1000) звукового поля выполнен с возможностью вычисления модифицированного набора положений виртуальных громкоговорителей с использованием обнаруженного отклонения.wherein the sound field processor (1000) is configured to calculate a modified set of virtual speaker positions using the detected deflection.

22. Устройство по одному из пп.1-21,22. The device according to one of claims 1-21,

в котором набор положений виртуальных громкоговорителей ассоциирован с заданной ориентацией прослушивания, и при этом модифицированный набор положений виртуальных громкоговорителей ассоциирован с целевой ориентацией прослушивания, иwherein the set of virtual speaker positions is associated with a given listening orientation, and wherein the modified set of virtual speaker positions is associated with the target listening orientation, and

при этом целевая ориентация прослушивания вычисляется из обнаруженного отклонения и заданной ориентации прослушивания.wherein the target listening orientation is calculated from the detected deviation and the target listening orientation.

23. Устройство по одному из пп.1-22,23. The device according to one of claims 1-22,

в котором набор положений виртуальных громкоговорителей ассоциирован с заданным положением прослушивания и заданной ориентацией прослушивания,wherein the set of virtual speaker positions is associated with a given listening position and a given listening orientation,

при этом заданное положение прослушивания соответствует первой точке проекции и ориентации проекции ассоциированного видео, приводящей к первой проекции ассоциированного видео в области отображения, представляющей проекционную поверхность, иwherein the predetermined listening position corresponds to a first projection point and an associated video projection orientation resulting in a first projection of the associated video in a display area representing the projection surface, and

при этом модифицированный набор положений виртуальных громкоговорителей ассоциирован со второй точкой проекции и второй ориентацией проекции ассоциированного видео, приводящей ко второй проекции ассоциированного видео в области отображения, соответствующей проекционной поверхности.wherein the modified set of virtual speaker positions is associated with a second projection point and a second projection orientation of the associated video resulting in a second projection of the associated video in a display area corresponding to the projection surface.

24. Устройство по одному из предшествующих пунктов, в котором процессор (1000) звукового поля содержит24. An apparatus according to one of the preceding claims, wherein the sound field processor (1000) comprises

временно-спектральный преобразователь (1010) для преобразования представления звукового поля в представление (1001) в частотно-временной области.a time-spectral converter (1010) for converting the sound field representation into a time-frequency domain representation (1001).

25. Устройство по одному из предшествующих пунктов,25. Device according to one of the preceding paragraphs,

в котором процессор (1000) звукового поля выполнен с возможностью обработки представления (1001) звукового поля с использованием отклонения и пространственного фильтра (1030).wherein the sound field processor (1000) is configured to process the sound field representation (1001) using deflection and a spatial filter (1030).

26. Устройство по одному из предшествующих пунктов,26. Device according to one of the preceding paragraphs,

в котором представление (1001) звукового поля представляет собой амбиофонический сигнал, имеющий порядок ввода,wherein the sound field representation (1001) is an ambiophonic signal having an input order,

при этом описание (1201) обработанного звукового поля представляет собой амбиофонический сигнал, имеющий порядок вывода, иwherein the description (1201) of the processed sound field is an ambiophonic signal having an output order, and

при этом процессор (1000) звукового поля выполнен с возможностью вычисления описания (1201) обработанного звукового поля таким образом, что порядок вывода равен порядку ввода.wherein the sound field processor (1000) is configured to calculate the processed sound field description (1201) such that the output order is equal to the input order.

27. Устройство по одному из предшествующих пунктов,27. Device according to one of the preceding paragraphs,

в котором процессор (1000) звукового поля выполнен с возможностью получения матрицы обработки, ассоциированной с отклонением, и применения матрицы обработки к представлению (1001) звукового поля, иwherein the sound field processor (1000) is configured to obtain a processing matrix associated with the deviation and apply the processing matrix to the sound field representation (1001), and

при этом представление звукового поля имеет по меньшей мере два компонента звукового поля, и при этом матрица обработки представляет собой матрицу NxN, где N равно двум или больше двух.wherein the sound field representation has at least two sound field components, and wherein the processing matrix is an NxN matrix where N is two or greater than two.

28. Устройство по одному из пп.2-18,28. The device according to one of claims 2-18,

в котором детектор (1100) выполнен с возможностью обнаружения отклонения в качестве вектора, имеющего направление и длину, иwherein the detector (1100) is configured to detect the deviation as a vector having direction and length, and

при этом вектор представляет линейный переход из заданной опорной точки в целевое положение прослушивания.wherein the vector represents a linear transition from the given reference point to the target listening position.

29. Устройство по одному из предшествующих пунктов,29. Device according to one of the preceding paragraphs,

в котором процессор (1000) звукового поля выполнен с возможностью обработки представления (1001) звукового поля таким образом, что громкость звукового объекта или пространственной области, представленной посредством описания (1201) обработанного звукового поля, больше громкости звукового объекта или пространственной области, представленной посредством представления звукового поля, когда целевое положение прослушивания находится ближе к звуковому объекту или пространственной области, чем заданная опорная точка.wherein the sound field processor (1000) is configured to process the sound field representation (1001) such that the loudness of the sound object or spatial region represented by the processed sound field description (1201) is greater than the loudness of the sound object or spatial region represented by the representation sound field when the target listening position is closer to the sound object or spatial area than the specified reference point.

30. Устройство по одному из предшествующих пунктов, в котором процессор (1000) звукового поля выполнен с возможностью:30. An apparatus according to one of the preceding claims, wherein the sound field processor (1000) is configured to:

- определения для каждого виртуального громкоговорителя отдельного направления относительно заданной опорной точки;- determining for each virtual loudspeaker a separate direction relative to a given reference point;

- выполнения обратного сферического гармонического разложения с представлением (1001) звукового поля посредством оценки сферических гармонических функций в определенных направлениях;- performing an inverse spherical harmonic decomposition with the representation (1001) of the sound field by evaluating the spherical harmonic functions in certain directions;

- определения модифицированных направлений из положений виртуальных громкоговорителей в целевое положение прослушивания; и- determining modified directions from the positions of the virtual loudspeakers to the target listening position; And

- выполнения сферического гармонического разложения с использованием сферических гармонических функций, оцененных в модифицированных положениях виртуальных громкоговорителей.- performing spherical harmonic decomposition using spherical harmonic functions estimated in modified positions of virtual loudspeakers.

31. Способ обработки представления (1001) звукового поля, связанного с заданной опорной точкой или заданной ориентацией прослушивания для представления звукового поля, содержащий этапы, на которых:31. A method for processing a sound field representation (1001) associated with a given reference point or a given listening orientation for a sound field representation, comprising:

- обнаруживают отклонение целевого положения прослушивания от заданной опорной точки или целевой ориентации прослушивания от заданной ориентации прослушивания; иdetecting a deviation of the target listening position from a predetermined reference point or a target listening orientation from a predetermined listening orientation; And

- обрабатывают (1000) представление звукового поля с использованием отклонения для получения описания (1201) обработанного звукового поля, при этом описание (1201) обработанного звукового поля при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки, или для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания, либо для обработки представления звукового поля с использованием пространственного фильтра (1030) для получения описания (1201) обработанного звукового поля, при этом описание обработанного звукового поля при рендеринге обеспечивает впечатление пространственно фильтрованного описания звукового поля,- processing (1000) the representation of the sound field using the deviation to obtain a description (1201) of the processed sound field, while the description (1201) of the processed sound field when rendering provides the impression of a representation of the sound field at the target listening position that differs from the given reference point, or for a target listening orientation that differs from the specified listening orientation, or to process the sound field representation using a spatial filter (1030) to obtain a description (1201) of the processed sound field, while the description of the processed sound field when rendering provides the impression of a spatially filtered sound field description,

при этом отклонение или пространственный фильтр (1030) применяется к представлению звукового поля относительно области пространственного преобразования, имеющей ассоциированное правило (1021) прямого преобразования и правило (1051) обратного преобразования,wherein the deviation or spatial filter (1030) is applied to the sound field representation with respect to the spatial transform region having an associated direct transform rule (1021) and an inverse transform rule (1051),

причём обработка (1000) содержит этапы, на которых используют правило (1021) прямого преобразования для пространственного преобразования, причем правило (1021) прямого преобразования связано с набором виртуальных громкоговорителей в наборе положений виртуальных громкоговорителей, используют пространственный фильтр (1030) в области преобразования и используют правило (1051) обратного преобразования для пространственного преобразования с использованием набора положений виртуальных громкоговорителей, илиwherein the processing (1000) comprises the steps of using a direct transform rule (1021) for spatial transform, wherein the direct transform rule (1021) is associated with a set of virtual speakers in a set of virtual speaker positions, using a spatial filter (1030) in the transform region, and using an inverse transform rule (1051) for spatial transform using a set of virtual speaker positions, or

при этом обработка (1000) содержит этапы, на которых используют правило (1021) прямого преобразования для пространственного преобразования, причем правило (1021) прямого преобразования связано с набором виртуальных громкоговорителей в наборе положений виртуальных громкоговорителей, и используют правило (1051) обратного преобразования для пространственного преобразования с использованием набора модифицированных положений виртуальных громкоговорителей, извлекаемых из набора положений виртуальных громкоговорителей с использованием отклонения, илиwherein the processing (1000) comprises the steps of using a direct transform rule (1021) for spatial transform, wherein the direct transform rule (1021) is associated with a set of virtual speakers in a set of virtual speaker positions, and using an inverse transform rule (1051) for spatial transforms using a set of modified virtual speaker positions derived from a set of virtual speaker positions using deflection, or

при этом обработка (1000) содержит этапы, на которых используют правило (1021) прямого преобразования для пространственного преобразования, причем правило (1021) прямого преобразования связано с набором виртуальных громкоговорителей в наборе положений виртуальных громкоговорителей, используют пространственный фильтр (1030) в области преобразования и используют правило (1051) обратного преобразования для пространственного преобразования с использованием набора модифицированных положений виртуальных громкоговорителей, извлекаемых из набора положений виртуальных громкоговорителей с использованием отклонения.wherein the processing (1000) comprises the steps of using a direct transform rule (1021) for spatial transform, wherein the direct transform rule (1021) is associated with a set of virtual speakers in the set of virtual speaker positions, using a spatial filter (1030) in the transform region, and using an inverse transform rule (1051) to spatially transform using a set of modified virtual speaker positions derived from a set of virtual speaker positions using deflection.

32. Физический носитель данных, на котором сохранена компьютерная программа для осуществления способа обработки представления звукового поля по п.31 при её выполнении на компьютере или в процессоре.32. A physical storage medium on which a computer program is stored for implementing the sound field representation processing method of claim 31 when it is executed on a computer or processor.