RU2793625C1 - Device, method or computer program for processing sound field representation in spatial transformation area - Google Patents
Device, method or computer program for processing sound field representation in spatial transformation area Download PDFInfo
- Publication number
- RU2793625C1 RU2793625C1 RU2022104955A RU2022104955A RU2793625C1 RU 2793625 C1 RU2793625 C1 RU 2793625C1 RU 2022104955 A RU2022104955 A RU 2022104955A RU 2022104955 A RU2022104955 A RU 2022104955A RU 2793625 C1 RU2793625 C1 RU 2793625C1
- Authority
- RU
- Russia
- Prior art keywords
- sound field
- transform
- virtual
- spatial
- listening
- Prior art date
Links
Images
Abstract
Description
Настоящее изобретение относится к области записи и воспроизведения пространственного звука.The present invention relates to the field of recording and reproducing spatial sound.
В общем, запись пространственного звука направлена на захват звукового поля с множеством микрофонов, так что на стороне воспроизведения слушатель воспринимает звуковое изображение как оно есть в местоположении записи. В предусмотренном случае, пространственный звук захватывается в одном физическом местоположении на стороне записи (называемом «опорным местоположением»), тогда как на стороне воспроизведения, пространственный звук может подготавливаться посредством рендеринга из произвольных различных перспектив относительно исходного опорного местоположения. Различные перспективы включают в себя различные положения прослушивания (называемые «виртуальными положениями прослушивания») и ориентации прослушивания (называемые «виртуальными ориентациями прослушивания»).In general, spatial sound recording aims to capture a sound field with multiple microphones so that on the playback side, the listener perceives the sound image as it is at the location of the recording. In the provided case, spatial audio is captured at one physical location on the recording side (referred to as a "reference location"), while on the playback side, spatial audio can be rendered from arbitrary different perspectives relative to the original reference location. The different perspectives include different listening positions (referred to as "virtual listening positions") and listening orientations (referred to as "virtual listening orientations").
Рендеринг пространственного звука из произвольных различных перспектив относительно исходного местоположения записи обеспечивает возможность различных вариантов применения. Например, в рендеринге с 6 степенями свободы (6DoF), слушатель на стороне воспроизведения может перемещаться свободно в виртуальном пространстве (обычно с ношением наголовного дисплея и наушников) и воспринимать аудио/видеосцену из различных перспектив. В вариантах применения с 3 степенями свободы (3DoF), в которых, например, видео на 360° вместе с пространственным звуком записывается в конкретном местоположении, видеоизображение может вращаться на стороне воспроизведения, и проекция видео может регулироваться (например, из стереографической проекции [WolframProj1] к гномонической проекции [WolframProj2], называемой «проекцией малой планеты»). Безусловно, при изменении видеоперспективы в вариантах применения 3DoF или 6DoF воспроизведенная пространственная аудиоперспектива должна регулироваться соответствующим образом для обеспечения согласованного производства аудио/видео.Rendering spatial audio from arbitrary different perspectives relative to the original location of the recording allows for a variety of applications. For example, in 6 degrees of freedom (6DoF) rendering, a listener on the playback side can move freely in the virtual space (typically wearing a head-mounted display and headphones) and perceive the audio/video scene from different perspectives. In 3 DoF (3DoF) applications, in which, for example, 360° video along with spatial audio is recorded at a specific location, the video image can be rotated on the playback side, and the projection of the video can be adjusted (for example, from stereographic projection [WolframProj1] to the gnomonic projection [WolframProj2], called the “minor planet projection”). Of course, as the video perspective changes in 3DoF or 6DoF applications, the reproduced spatial audio perspective must be adjusted accordingly to ensure consistent audio/video production.
Существуют различные подходы из уровня техники, которые обеспечивают запись и воспроизведение пространственного звука из различных перспектив. Один способ заключается в физической записи пространственного звука во всех возможных положениях прослушивания и, на стороне воспроизведения, использовании записи для воспроизведения пространственного звука, которая является ближайшей к виртуальной положения прослушивания. Тем не менее, этот подход для записи является очень тщательным и требует невыполнимо значительных усилий для измерений. Чтобы сокращать число требуемых положений для физического измерения при одновременном достижении воспроизведения пространственного звука из произвольных перспектив, могут использоваться нелинейные параметрические технологии записи и воспроизведения пространственного звука. Пример представляет собой обработку виртуальных микрофонов на основе направленного кодирования аудио (DirAC), предложенную в [VirtualMic]. Здесь, пространственный звук записывается с помощью массивов микрофонов, расположенных только в небольшом числе (3-4) физических местоположений. Впоследствии, параметры звукового поля, такие как направление поступления и рассеянность звука, могут оцениваться в каждом местоположении массива микрофонов, и эта информация затем может использоваться для синтеза пространственного звука в произвольных пространственных положениях. Хотя этот подход предлагает высокую гибкость со значительно сокращенным числом местоположений измерения, он по-прежнему требует множества местоположений измерения. Кроме того, параметрическая обработка сигналов и нарушения предполагаемой параметрической модели прохождения сигналов могут вводить артефакты обработки, которые могут быть неприятными, в частности, в вариантах применения для высококачественного воспроизведения звука.There are various approaches in the prior art that enable the recording and playback of spatial audio from various perspectives. One way is to physically record the spatial sound at all possible listening positions and, on the playback side, use the recording to reproduce the spatial sound that is closest to the virtual listening position. However, this recording approach is very thorough and requires an unfeasibly large amount of effort to measure. To reduce the number of physical measurement positions required while still achieving spatial audio reproduction from arbitrary perspectives, non-linear parametric spatial audio recording and playback technologies can be used. An example is the processing of virtual microphones based on Directional Audio Coding (DirAC) proposed in [VirtualMic]. Here, spatial audio is recorded using microphone arrays located in only a small number (3-4) of physical locations. Subsequently, sound field parameters such as direction of arrival and dispersion of sound can be estimated at each microphone array location, and this information can then be used to synthesize spatial sound at arbitrary spatial locations. While this approach offers high flexibility with a greatly reduced number of measurement locations, it still requires multiple measurement locations. In addition, parametric signal processing and violations of the intended parametric signal flow pattern can introduce processing artifacts that can be troublesome, particularly in high fidelity audio applications.
Задача настоящего изобретения состоит в создании усовершенствованной концепции обработки представления звукового поля, связанного с заданной опорной точкой или заданной ориентацией прослушивания для представления звукового поля.An object of the present invention is to provide an improved concept for processing a sound field presentation associated with a given reference point or a given listening orientation for a sound field presentation.
Данная задача решается устройством для обработки представления звукового поля по пункту 1 формулы, способом обработки представления звукового поля по пункту 31 формулы, или компьютерной программой по пункту 32 формулы.This task is solved by the sound field presentation processing device according to
В устройстве или способе обработки представления звукового поля, обработка звукового поля осуществляется с использованием отклонения целевого положения прослушивания от заданной опорной точки или отклонения целевой ориентации прослушивания от заданной ориентации прослушивания, так что получается описание обработанного звукового поля, при этом описание обработанного звукового поля, при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки. В качестве альтернативы или дополнения, обработка звукового поля выполняется таким образом, что описание обработанного звукового поля, при рендеринге обеспечивает впечатление представления звукового поля для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания. В качестве альтернативы или дополнения, обработка звукового поля осуществляется с использованием пространственного фильтра, в котором получается описание обработанного звукового поля, причем описание обработанного звукового поля при рендеринге обеспечивает впечатление пространственно фильтрованного описания звукового поля. В частности, обработка звукового поля выполняется относительно области пространственного преобразования. В частности, представление звукового поля содержит множество аудиосигналов в области аудиосигналов, причем эти аудиосигналы могут представлять собой сигналы громкоговорителей, сигналы микрофонов, амбиофонические сигналы либо другие множественные представления аудиосигналов, такие как сигналы аудиообъектов или кодированные сигналы аудиообъектов. Процессор звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение между заданной опорной точкой или заданной ориентацией прослушивания и целевым положением прослушивания или целевой ориентацией прослушивания применяется в области пространственного преобразования, имеющей ассоциированное правило прямого преобразования и правило обратного преобразования. Кроме того, процессор звукового поля выполнен с возможностью формирования описания обработанного звукового поля снова в области аудиосигналов, причем область аудиосигналов также представляет собой временную область или частотно-временную область, и описание обработанного звукового поля может содержать амбиофонические сигналы, сигналы громкоговорителей, бинауральные сигналы и/или сигналы аудиообъектов или кодированные сигналы аудиообъектов в зависимости от обстоятельств.In the sound field presentation processing device or method, the sound field processing is performed using the deviation of the target listening position from the specified reference point or the deviation of the target listening orientation from the specified listening orientation, so that a description of the processed sound field is obtained, wherein the description of the processed sound field, when rendering provides the impression of a sound field representation at a target listening position that is different from the specified reference point. Alternatively or in addition, the sound field processing is performed such that the description of the processed sound field, when rendered, provides the impression of a sound field representation for a listening target orientation different from the target listening orientation. Alternatively or in addition, the sound field processing is performed using a spatial filter in which a description of the processed sound field is obtained, wherein the processed sound field description when rendered provides the impression of a spatially filtered sound field description. In particular, the sound field processing is performed with respect to the spatial transform region. In particular, the sound field representation comprises a plurality of audio signals in the audio signal domain, which audio signals may be speaker signals, microphone signals, ambiophonic signals, or other multiple audio signal representations such as audio object signals or encoded audio object signals. The sound field processor is configured to process the sound field representation such that a deviation between a given reference point or a given listening orientation and a target listening position or target listening orientation is applied in a spatial transform region having an associated forward transform rule and an inverse transform rule. In addition, the sound field processor is configured to generate a description of the processed sound field again in the area of audio signals, wherein the area of audio signals also represents the time domain or frequency-time domain, and the description of the processed sound field may contain ambiophonic signals, loudspeaker signals, binaural signals and/ or audio object signals or encoded audio object signals, as the case may be.
В зависимости от реализации, обработка, выполняемая посредством процессора звукового поля, может содержать прямое преобразование в область пространственного преобразования и сигналы в области пространственного преобразования, т.е. виртуальные аудиосигналы для виртуальных громкоговорителей в виртуальных положениях фактически вычисляются и, в зависимости от варианта применения, пространственно фильтруются с использованием пространственного фильтра в области преобразования либо, без факультативной пространственной фильтрации, преобразуются обратно в область аудиосигналов с использованием правила обратного преобразования. Таким образом, в этой реализации, сигналы виртуальных громкоговорителей фактически вычисляются в выводе обработки прямого преобразования, и аудиосигналы, представляющие представление обработанного звукового поля, фактически вычисляются в качестве вывода обратного пространственного преобразования с использованием правила обратного преобразования.Depending on the implementation, the processing performed by the sound field processor may comprise a direct transform to the spatial transform region and signals in the spatial transform region, i. e. virtual audio signals for virtual speakers at virtual positions are actually computed and, depending on the application, spatially filtered using a spatial filter in the transform domain or, without optional spatial filtering, converted back to the audio domain using an inverse transform rule. Thus, in this implementation, the virtual speaker signals are actually computed at the output of the forward transform processing, and the audio signals representing the processed sound field representation are actually computed as the output of the inverse spatial transform using the inverse transform rule.
Тем не менее, в другой реализации, сигналы виртуальных громкоговорителей фактически не вычисляются. Вместо этого, только правило прямого преобразования, факультативный пространственный фильтр и правило обратного преобразования вычисляются и комбинируются для получения определения преобразования, и это определение преобразования применяется, предпочтительно в форме матрицы, к представлению входного звукового поля для получения представления обработанного звукового поля, т.е. отдельных аудиосигналов в области аудиосигналов. Следовательно, такая обработка с использованием правила прямого преобразования, факультативного пространственного фильтра и правила обратного преобразования приводит к такому же представлению обработанного звукового поля, как если фактически вычисляются сигналы виртуальных громкоговорителей. Тем не менее, при таком использовании определения преобразования, сигналы виртуальных громкоговорителей не должны фактически вычисляться, а только комбинация отдельных правил преобразования/фильтрации, такая как матрица, сформированная посредством комбинирования отдельных правил, вычисляется и применяется к аудиосигналам в области аудиосигналов.However, in another implementation, the virtual speaker signals are not actually calculated. Instead, only the forward transform rule, the optional spatial filter, and the inverse transform rule are computed and combined to obtain a transform definition, and this transform definition is applied, preferably in matrix form, to the input sound field representation to obtain the processed sound field representation, i.e. individual audio signals in the audio domain. Therefore, such processing using a forward transform rule, an optional spatial filter, and an inverse transform rule results in the same representation of the processed sound field as if the virtual loudspeaker signals were actually computed. However, with this use of the transform definition, the virtual speaker signals need not actually be calculated, but only a combination of individual transform/filter rules, such as a matrix formed by combining the individual rules, is calculated and applied to audio signals in the audio domain.
Кроме того, другой вариант осуществления относится к использованию запоминающего устройства, имеющего предварительно вычисленные определения преобразования для различных целевых положений прослушивания и/или целевых ориентаций, например, для дискретной сетки положений и ориентаций. В зависимости от фактического целевого положения или целевой ориентации, наилучшее совпадающее предварительно вычисленное и сохраненное определение преобразования должно идентифицироваться в запоминающем устройстве, извлекаться из запоминающего устройства и применяться к аудиосигналам в области аудиосигналов.In addition, another embodiment relates to the use of a memory device having precomputed transform definitions for various target listening positions and/or target orientations, for example, for a discrete grid of positions and orientations. Depending on the actual target position or target orientation, the best matching precomputed and stored transform definition must be identified in the memory, retrieved from the memory, and applied to the audio signals in the audio domain.
Использование таких предварительно вычисленных правил или использование определения преобразования (независимо от того, представляет оно собой полное определение преобразования или только частичное определение преобразования) является полезным, поскольку правило прямого пространственного преобразования, пространственная фильтрация и правило обратного пространственного преобразования представляют собой линейные операции и могут комбинироваться между собой и применяться в «однократной» операции без явного вычисления сигналов виртуальных громкоговорителей.The use of such pre-computed rules or the use of a transform definition (whether it is a complete transform definition or only a partial transform definition) is useful because the forward spatial transform rule, spatial filtering, and inverse spatial transform rule are linear operations and can be combined between itself and be applied in a “one-shot” operation without explicit calculation of the virtual loudspeaker signals.
В зависимости от реализации, частичное определение преобразования, полученное посредством комбинирования правила прямого преобразования и пространственной фильтрации, с одной стороны, либо полученное посредством комбинирования пространственной фильтрации и правила обратного преобразования, может применяться таким образом, что только прямое преобразование или обратное преобразование явно вычисляется с использованием сигналов виртуальных громкоговорителей. Таким образом, пространственная фильтрация может комбинироваться с правилом прямого преобразования или правилом обратного преобразования, и в силу этого число операций обработки может снижаться в зависимости от обстоятельств.Depending on the implementation, a partial definition of a transform, obtained by combining the forward transform rule and spatial filtering on the one hand, or obtained by combining spatial filtering and the inverse transform rule, may be applied such that only the forward transform or the inverse transform is explicitly computed using virtual speaker signals. Thus, spatial filtering can be combined with a forward transform rule or an inverse transform rule, and thus the number of processing operations can be reduced depending on the circumstances.
Варианты осуществления являются преимущественными в этом, что модификация звуковых сцен получается в связи с областью виртуальных громкоговорителей для согласованного воспроизведения пространственного звука из различных перспектив.Embodiments are advantageous in that a modification of the sound scenes is obtained in connection with the virtual speaker area for consistent reproduction of spatial sound from different perspectives.
Предпочтительные варианты осуществления описывают практический способ, при котором пространственный звук записывается в или представляется относительно одного опорного местоположения, при одновременном обеспечении возможности изменять аудиоперспективу по желанию на стороне воспроизведения. Изменение аудиоперспективы, например, может представлять собой вращение или перемещение в пространстве, а также такие эффекты, как акустическое масштабирование, включающее в себя пространственную фильтрацию. Пространственный звук на стороне записи может записываться с использованием, например, массива микрофонов, причем положение в массиве представляет опорное положение (оно называется «одним местоположением записи», даже если массив микрофонов может состоять из множества микрофонов, расположенных в немного отличающихся положениях, тогда как протяжение массива микрофонов является пренебрежимо малым по сравнению с размером стороны записи). Пространственный звук в местоположении записи также может представляться с точки зрения амбиофонического сигнала (высшего порядка). Кроме того, варианты осуществления могут обобщаться таким образом, чтобы использовать сигналы громкоговорителей в качестве ввода, тогда как зона наилучшего восприятия конфигурации громкоговорителей представляет одно опорное местоположение. Чтобы изменять перспективу записанного пространственного аудио относительно опорного местоположения, записанный пространственный звук преобразуется в область виртуальных громкоговорителей. Посредством изменения положений виртуальных громкоговорителей и фильтрации сигналов виртуальных громкоговорителей в зависимости от виртуального положения прослушивания и ориентации относительно опорного положения, перспектива пространственного звука может регулироваться требуемым образом. В отличие от параметрической обработки сигналов из уровня техники [VirtualMic], представленный подход является абсолютно линейным, с исключением артефактов нелинейной обработки. Авторы в [AmbiTrans] описывают связанный подход, при котором пространственная звуковая сцена модифицируется в области виртуальных громкоговорителей, например, для обеспечения модификации вращения, искривления и направленной громкости. Тем не менее, этот подход не раскрывает то, каким образом пространственная звуковая сцена может модифицироваться для достижения согласованного рендеринга аудио в произвольном виртуальном положении прослушивания относительно опорного местоположения. Кроме того, подход в [AmbiTrans] описывает обработку только для амбиофонического ввода, тогда как варианты осуществления связаны с амбиофоническим вводом, микрофонным вводом и вводом из громкоговорителя.Preferred embodiments describe a practical method in which spatial audio is recorded at or presented relative to one reference location while allowing the audio perspective to be changed as desired on the playback side. Changing the audio perspective, for example, can be a rotation or movement in space, as well as effects such as acoustic scaling, which includes spatial filtering. Spatial audio on the recording side can be recorded using, for example, a microphone array, where the position in the array represents a reference position (it is called "single recording location", even though the microphone array may consist of multiple microphones arranged in slightly different positions, while the extension microphone array is negligible compared to the size of the recording side). Spatial audio at the recording location can also be represented in terms of an ambiophonic signal (higher order). Furthermore, the embodiments may be generalized to use the speaker signals as an input, while the sweet spot of the speaker configuration represents one reference location. In order to change the perspective of the recorded spatial audio relative to the reference location, the recorded spatial audio is converted into a virtual speaker region. By changing the positions of the virtual speakers and filtering the signals of the virtual speakers depending on the virtual listening position and orientation relative to the reference position, the spatial sound perspective can be adjusted as desired. In contrast to prior art parametric signal processing [VirtualMic], the approach presented is completely linear, excluding non-linear processing artifacts. The authors in [AmbiTrans] describe a related approach in which the spatial soundstage is modified in the area of virtual speakers, for example, to provide modifications to rotation, curvature, and directional loudness. However, this approach does not disclose how the spatial soundstage can be modified to achieve consistent audio rendering at an arbitrary virtual listening position relative to the reference location. Furthermore, the approach in [AmbiTrans] only describes processing for ambiophonic input, while the embodiments are related to ambiophonic input, microphone input, and loudspeaker input.
Дополнительные реализации связаны с обработкой, при которой выполняется пространственное преобразование аудиоперспективы и, при необходимости, соответствующая пространственная фильтрация для имитации различных пространственных преобразования соответствующего видеоизображения, такого как сферическое видео. Ввод и вывод обработки, в варианте осуществления, представляют собой сигналы на основе амбиофонии первого порядка (FOA) или амбиофонии высшего порядка (HOA). Как указано, вся обработка может быть реализована как одно матричное умножение.Additional implementations are associated with processing that performs a spatial transformation of the audio perspective and, if necessary, appropriate spatial filtering to simulate various spatial transformations of the corresponding video image, such as spherical video. The processing input and output, in an embodiment, are first order ambiphony (FOA) or higher order ambiphony (HOA) based signals. As indicated, the entire processing can be implemented as a single matrix multiplication.
Далее предпочтительные варианты осуществления настоящего изобретения поясняются с обращением к прилагаемым чертежам, на которых:Further preferred embodiments of the present invention are explained with reference to the accompanying drawings, in which:
Фиг. 1 иллюстрирует блок-схему общего представления процессора звукового поля;Fig. 1 illustrates a block diagram of a general representation of a sound field processor;
Фиг. 2 иллюстрирует визуализацию сферических гармоник для различных порядков и режимов;Fig. 2 illustrates the visualization of spherical harmonics for various orders and modes;
Фиг. 3 иллюстрирует примерный формирователь диаграммы направленности антенны для получения сигнала виртуального громкоговорителя;Fig. 3 illustrates an exemplary antenna beamformer for deriving a virtual speaker signal;
Фиг. 4 показывает примерное пространственное окно кодирования со взвешиванием, используемое для фильтрации сигналов виртуальных громкоговорителей;Fig. 4 shows an exemplary weighted spatial coding window used to filter virtual speaker signals;
Фиг. 5 показывает примерное опорное положение и положение прослушивания в рассматриваемой системе координат;Fig. 5 shows an exemplary reference and listening position in the considered coordinate system;
Фиг. 6 иллюстрирует стандартную проекцию видеоизображения на 360° и соответствующего положения аудиопрослушивания для согласованного рендеринга аудио или видео;Fig. 6 illustrates a standard 360° video projection and corresponding audio listening position for consistent audio or video rendering;
Фиг. 7a иллюстрирует модифицированную проекцию видеоизображения на 360° и соответствующего модифицированного положения прослушивания аудио для согласованного рендеринга аудио/видео;Fig. 7a illustrates a modified 360° projection of a video image and a corresponding modified audio listening position for consistent audio/video rendering;
Фиг. 7b иллюстрирует видеопроекцию в случае стандартной проекции;Fig. 7b illustrates a video projection in the case of a standard projection;
Фиг. 7c иллюстрирует видеопроекцию в случае проекции малой планеты;Fig. 7c illustrates a video projection in the case of a minor planet projection;
Фиг. 8 иллюстрирует вариант осуществления устройства для обработки представления звукового поля в варианте осуществления;Fig. 8 illustrates an embodiment of the sound field presentation processing apparatus in the embodiment;
Фиг. 9a иллюстрирует реализацию процессора звукового поля;Fig. 9a illustrates an implementation of a sound field processor;
Фиг. 9b иллюстрирует реализацию модификации положения и вычисления определений обратного преобразования;Fig. 9b illustrates the implementation of position modification and calculation of inverse transform definitions;
Фиг. 10a иллюстрирует реализацию с использованием полного определения преобразования;Fig. 10a illustrates an implementation using the full transform definition;
Фиг. 10b иллюстрирует реализацию процессора звукового поля с использованием частичного определения преобразования;Fig. 10b illustrates an implementation of a sound field processor using a partial transform definition;
Фиг. 10c иллюстрирует другую реализацию процессора звукового поля с использованием дополнительного частичного определения преобразования;Fig. 10c illustrates another implementation of a sound field processor using an additional partial transform definition;
Фиг. 10d иллюстрирует реализацию процессора звукового поля с использованием явного вычисления сигналов виртуальных громкоговорителей;Fig. 10d illustrates an implementation of a sound field processor using explicit computation of virtual speaker signals;
Фиг. 11a иллюстрирует вариант осуществления с использованием запоминающего устройства с предварительно вычисленными определениями или правилами преобразования;Fig. 11a illustrates an embodiment using a storage device with precomputed definitions or transformation rules;
Фиг. 11b иллюстрирует вариант осуществления с использованием процессора и модуля вычисления определений преобразования;Fig. 11b illustrates an embodiment using a processor and a transform definition calculation unit;
Фиг. 12a иллюстрирует вариант осуществления пространственного преобразования для амбиофонического ввода;Fig. 12a illustrates an embodiment of spatial transformation for ambiophonic input;
Фиг. 12b иллюстрирует реализацию пространственного преобразования для каналов громкоговорителей;Fig. 12b illustrates the implementation of spatial mapping for speaker channels;
Фиг. 12c иллюстрирует реализацию пространственного преобразования для сигналов микрофонов;Fig. 12c illustrates the implementation of spatial transformation for microphone signals;
Фиг. 12d иллюстрирует реализацию пространственного преобразования для ввода сигналов аудиообъектов;Fig. 12d illustrates the implementation of a spatial transform for inputting audio object signals;
Фиг. 13a иллюстрирует реализацию (обратного) пространственного преобразования для получения амбиофонического вывода;Fig. 13a illustrates the implementation of the (inverse) spatial transformation to obtain ambiophonic output;
Фиг. 13b иллюстрирует реализацию (обратного) пространственного преобразования для получения выходных сигналов громкоговорителей;Fig. 13b illustrates an implementation of the (inverse) spatial transform for obtaining loudspeaker output signals;
Фиг. 13c иллюстрирует реализацию (обратного) пространственного преобразования для получения бинаурального вывода;Fig. 13c illustrates the implementation of the (inverse) spatial transform to obtain binaural output;
Фиг. 13d иллюстрирует реализацию (обратного) пространственного преобразования для получения бинауральных сигналов в альтернативе к фиг. 13c;Fig. 13d illustrates an implementation of the (inverse) spatial transform for deriving binaural signals in an alternative to FIG. 13c;
Фиг. 14 иллюстрирует блок-схему для способа или устройства для обработки представления звукового поля с явным вычислением сигналов виртуальных громкоговорителей; иFig. 14 illustrates a block diagram for a method or apparatus for processing sound field representation with explicit calculation of virtual speaker signals; And
Фиг. 15 иллюстрирует блок-схему для варианта осуществления способа или устройства для обработки представления звукового поля без явного вычисления сигналов виртуальных громкоговорителей.Fig. 15 illustrates a block diagram for an embodiment of a method or apparatus for processing a sound field representation without explicitly calculating virtual speaker signals.
Фиг. 8 иллюстрирует устройство для обработки представления звукового поля, связанного с заданной опорной точкой или заданной ориентацией прослушивания для представления звукового поля. Представление звукового поля получается через входной интерфейс 900, и в выводе входного интерфейса 900, доступно представление 1001 звукового поля, связанное с заданной опорной точкой или заданной ориентацией прослушивания. Кроме того, это представление звукового поля вводится в процессор 1000 звукового поля, который работает относительно области пространственного преобразования. Другими словами, процессор 1000 звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр 1030 применяется в области пространственного преобразования, имеющей ассоциированное правило 1021 прямого преобразования и правило 1051 обратного преобразования.Fig. 8 illustrates an apparatus for processing a sound field presentation associated with a given reference point or a given listening orientation for the sound field presentation. The sound field representation is obtained via the
В частности, процессор звукового поля выполнен с возможностью обработки представления звукового поля с использованием отклонения целевого положения прослушивания от заданной опорной точки или с использованием отклонения целевой ориентации прослушивания от заданной ориентации прослушивания. Отклонение получается посредством детектора 1100. В качестве альтернативы или дополнения, детектор 1100 реализован с возможностью обнаружения целевого положения прослушивания или целевой ориентации прослушивания без фактического вычисления отклонения. Целевое положение прослушивания и/или целевая ориентация прослушивания либо, в качестве альтернативы, отклонение между заданной опорной точкой и целевым положением прослушивания или отклонение между заданной ориентацией прослушивания и целевой ориентацией прослушивания перенаправляются в процессор 1000 звукового поля. Процессор звукового поля обрабатывает представление звукового поля с использованием отклонения таким образом, что получается описание обработанного звукового поля, при этом описание обработанного звукового поля при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки, или для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания. В качестве альтернативы или дополнения, процессор звукового поля выполнен с возможностью обработки представления звукового поля с использованием пространственного фильтра таким образом, что получается описание обработанного звукового поля, при этом описание обработанного звукового поля при рендеринге обеспечивает впечатление пространственно фильтрованного описания звукового поля, т.е. описание звукового поля, которое фильтровано посредством пространственного фильтра.In particular, the sound field processor is configured to process the sound field representation using a deviation of the target listening position from a predetermined reference point, or using a deviation of the target listening orientation from a predetermined listening orientation. The deflection is obtained by the
Следовательно, независимо от того, выполняется ли пространственная фильтрация, процессор 1000 звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр 1030 применяется в области пространственного преобразования, имеющей ассоциированное правило 1021 прямого преобразования и правило 1051 обратного преобразования. Правила прямого и обратного преобразования извлекаются с использованием набора виртуальных громкоговорителей в виртуальных положениях, но не обязательно явно вычислять сигналы для виртуальных громкоговорителей.Therefore, regardless of whether spatial filtering is performed, the
Предпочтительно, представление звукового поля содержит число компонентов звукового поля, которое больше или равно двум или трем. Кроме того и предпочтительно, детектор 1100 предусмотрен в качестве явного признака устройства для обработки. Тем не менее, в другом варианте осуществления, процессор 1000 звукового поля имеет ввод для целевого положения прослушивания или целевой ориентации прослушивания либо для соответствующего отклонения. Кроме того, процессор 1000 звукового поля выводит описание 1201 обработанного звукового поля, которое может перенаправляться в выходной интерфейс 1200 и затем выводиться для передачи или хранения описания 1201 обработанного звукового поля. Один вид передачи, например, представляет собой фактический рендеринг описания обработанного звукового поля через (реальные) громкоговорители либо через наушник относительно бинаурального вывода. В качестве альтернативы, например, как и в случае амбиофонического вывода, описание 1201 обработанного звукового поля выводится посредством выходного интерфейса 1200, может перенаправляться/вводиться в амбиофонический звуковой процессор.Preferably, the sound field representation comprises a number of sound field components greater than or equal to two or three. Additionally and preferably, the
Фиг. 9a иллюстрирует предпочтительную реализацию процессора 1000 звукового поля. В частности, представление звукового поля содержит множество аудиосигналов в области аудиосигналов. Таким образом, ввод в процессор 1001 звукового поля содержит множество аудиосигналов и, предпочтительно по меньшей мере два или три различных аудиосигнала, таких как амбиофонические сигналы, каналы громкоговорителей, данные аудиообъектов или сигналы микрофонов. Область аудиосигналов предпочтительно представляет собой временную область или частотно-временную область.Fig. 9a illustrates a preferred implementation of a
Кроме того, процессор 1000 звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что отклонение или пространственный фильтр применяется в области пространственного преобразования, имеющей ассоциированное правило 1021 прямого преобразования, полученное посредством блока 1020 прямого преобразования, и имеющей ассоциированное правило 1051 обратного преобразования, полученное посредством блока 1050 обратного преобразования. Кроме того, процессор 1000 звукового поля выполнен с возможностью формирования описания обработанного звукового поля в области аудиосигналов. Таким образом, предпочтительно, вывод блока 1050, т.е. сигнал на линии 1201 находится в той же области с вводом 1001 в блок 1020 прямого преобразования.In addition, the
В зависимости от того, выполняется ли явное вычисление сигналов виртуальных громкоговорителей, блок 1020 прямого преобразования фактически выполняет прямое преобразование, и блок 1050 обратного преобразования фактически преобразует обратное преобразование. В другой реализации, в которой только связанная с областью преобразования обработка выполняется без явного вычисления сигналов виртуальных громкоговорителей, блок 1020 прямого преобразования выводит правило 1021 прямого преобразования, и блок 1050 обратного преобразования выводит правило 1051 обратного преобразования для целей обработки звукового поля. Кроме того, с учетом реализации пространственного фильтра, либо пространственный фильтр применяется в качестве блока 1030 пространственной фильтрации, либо пространственный фильтр отражается посредством применения правила 1031 пространственной фильтрации. Обе реализации, т.е. с или без явного вычисления явных сигналов виртуальных громкоговорителей, являются эквивалентными друг другу, поскольку вывод обработки звукового поля, т.е. сигнал 1201 при рендеринге обеспечивает впечатление представления звукового поля в целевом положении прослушивания, отличающемся от заданной опорной точки, или для целевой ориентации прослушивания, отличающейся от заданной ориентации прослушивания. С этой целью, пространственный фильтр 1030 и блок 1050 обратного преобразования предпочтительно принимают целевое положение или/и целевую ориентацию.Depending on whether explicit calculation of the virtual speaker signals is performed, the
Фиг. 9b иллюстрирует предпочтительную реализацию операции модификации положения. С этой целью предусмотрен модуль 1040a определения положений виртуальных громкоговорителей. Блок 1040a принимает, в качестве ввода, определение числа виртуальных громкоговорителей в положениях виртуальных громкоговорителей, которые обычно одинаково распределяются по сфере вокруг заданной опорной точки. Предпочтительно, 250 виртуальных громкоговорителей предполагаются. В общем, число в 50 виртуальных громкоговорителей или больше виртуальных громкоговорителей и/или число в 500 виртуальных громкоговорителей или меньше виртуальных громкоговорителей является достаточным для обеспечения полезной операции высококачественной обработки звукового поля.Fig. 9b illustrates a preferred implementation of the position modification operation. To this end, a virtual speaker
В зависимости от данных виртуальных громкоговорителей и в зависимости от опорного положения и/или опорной ориентации, блок 1040a формирует углы азимута/подъема для каждого виртуального динамика, связанного с опорным положением или/и опорной ориентацией. Эта информация предпочтительно вводится в блок 1020 прямого преобразования таким образом, что сигналы виртуальных громкоговорителей для виртуальных громкоговорителей, заданных во вводе в блок 1040a, могут явно (или неявно) вычисляться.Depending on the virtual speaker data and depending on the reference position and/or reference orientation,
В зависимости от реализации, могут быть предусмотрены другие определения для виртуальных громкоговорителей, отличающиеся от углов азимута/подъема, такие как декартовы координаты или информация декартовых направлений, такая как векторы, указывающие в ориентации, которая соответствует ориентации громкоговорителя, направленного в соответствующую исходную или предварительно заданное опорное положение, с одной стороны, или, относительно обратного преобразования, направленного в целевой ориентации.Depending on the implementation, other definitions for virtual speakers other than azimuth/elevation angles may be provided, such as Cartesian coordinates or Cartesian direction information, such as vectors pointing in an orientation that corresponds to the orientation of the speaker pointed to the corresponding home or preset the reference position, on the one hand, or, relative to the inverse transformation, directed to the target orientation.
Блок 1040b принимает в качестве ввода целевое положение или целевую ориентацию либо, в качестве альтернативы или дополнения, отклонение для положения/ориентации между заданной опорной точкой или заданной ориентацией прослушивания от целевого положения прослушивания или целевой ориентации прослушивания. Блок 1040b затем вычисляет, из данных, сформированных посредством блока 1040a, и данных, вводимых в блок 1040b, углы азимута/подъема для каждого виртуального громкоговорителя, связанного с целевым положением или/и целевой ориентацией, и эта информация вводится в определение 1050 обратного преобразования. Таким образом, блок 1050 либо может фактически применять правило обратного преобразования с модифицированными положениями/ориентациями виртуальных громкоговорителей, либо может выводить правило 1051 обратного преобразования, как указано на фиг. 9a, для реализации без явного использования и обработки сигналов виртуальных громкоговорителей.
Фиг. 10a иллюстрирует реализацию, связанную с использованием полного определения преобразования, такого как матрица преобразования, состоящая из правила 1021 прямого преобразования, пространственного фильтра 1031 и правила 1051 обратного преобразования, так что, из представления 1001 звукового поля, вычисляется представление 1201 обработанного звукового поля.Fig. 10a illustrates an implementation associated with using a full transform definition such as a transform matrix consisting of a
В другой реализации, проиллюстрированной на фиг. 10b, частичное определение преобразования, такое как частичная матрица преобразования, получается посредством комбинирования правила 1021 прямого преобразования и пространственного фильтра 1031. Таким образом, в выводе частичного определения 1072 преобразования, получаются пространственно фильтрованные сигналы виртуальных громкоговорителей, которые затем обрабатываются посредством обратного преобразования 1050 для получения представления 1201 обработанного звукового поля.In another implementation illustrated in FIG. 10b, a partial transform definition, such as a partial transform matrix, is obtained by combining the
В дополнительной реализации, проиллюстрированной на фиг. 10c, представление звукового поля вводится в прямое преобразование 1020 для получения фактических сигналов виртуальных громкоговорителей во вводе в пространственный фильтр. Другое (частичное) определение 1073 преобразования вычисляется посредством комбинации пространственного фильтра 1031 и правила 1051 обратного преобразования. Таким образом, в выводе блока 1201, представления обработанного звукового поля, например, получаются множество аудиосигналов в области аудиосигналов, например, во временной области или в частотно-временной области.In a further implementation illustrated in FIG. 10c, the sound field representation is input to direct
Фиг. 10d иллюстрирует полностью отдельную реализацию с явными сигналами в пространственной области. В этой реализации, прямое преобразование применяется к представлению звукового поля, и в выводе блока 1020, получается набор, например, из 250 сигналов виртуальных громкоговорителей. Пространственный фильтр 1030 применяется, и в выводе блока 1030, получается набор из пространственно фильтрованных, например, 250 сигналов виртуальных громкоговорителей. Набор пространственно фильтрованных сигналов виртуальных громкоговорителей подвергается пространственному обратному преобразованию 1050 для получения в выходном сигнале представления 1201 обработанного звукового поля.Fig. 10d illustrates a completely separate implementation with explicit signals in the spatial domain. In this implementation, a direct transform is applied to the sound field representation, and at the output of
В зависимости от реализации, пространственная фильтрация с использованием пространственного фильтра 1031 выполняется или не выполняется. В случае использования пространственного фильтра и в случае невыполнения модификации положения/ориентации, прямое преобразование 1020 и обратное преобразование 1050 основаны на одинаковых положениях виртуальных громкоговорителей. Тем не менее, пространственный фильтр 1031 применяется в области пространственного преобразования независимо от того, вычисляются ли явно сигналы виртуальных громкоговорителей.Depending on the implementation, spatial filtering using the
Кроме того, в случае невыполнения пространственной фильтрации, модификация положения прослушивания или ориентации прослушивания на целевое положение прослушивания и целевую ориентацию выполняется, и в силу этого положения/ориентации виртуальных громкоговорителей должны отличаться при обратном преобразовании, с одной стороны, и прямом преобразовании, с другой стороны.In addition, in the case of not performing spatial filtering, modification of the listening position or listening orientation to the target listening position and target orientation is performed, and because of this, the positions/orientations of the virtual speakers must be different in inverse conversion on the one hand and direct conversion on the other hand. .
Фиг. 11a иллюстрирует реализацию процессора звукового поля в контексте запоминающего устройства с предварительно вычисленным множеством определений преобразования (полных или частичных) либо правил прямого преобразования, обратного преобразования или фильтрации для дискретной сетки положений и/или ориентаций, как указано на 1080.Fig. 11a illustrates an implementation of a sound field processor in a memory context with a precomputed set of transform definitions (full or partial) or forward transform, inverse transform, or filter rules for a discrete grid of positions and/or orientations, as indicated at 1080.
Детектор 1100 выполнен с возможностью обнаружения целевого положения или/и целевой ориентации и перенаправляет эту информацию в процессор 1081 для нахождения ближайшего определения преобразования или правила прямого преобразования/обратного преобразования/фильтрации в запоминающем устройстве 1080. С этой целью, процессор 1081 имеет сведения относительно дискретной сетки положений и ориентаций, в которых сохраняются соответствующие определения преобразования или предварительно вычисленные правила прямого преобразования/обратного преобразования/фильтрации. После того, как процессор 1081 идентифицировал ближайшую точку сетки, максимально близко совпадающую с целевым положением или/и с целевой ориентацией, эта информация перенаправляется в модуль 1082 извлечения из запоминающего устройства, который выполнен с возможностью извлечения соответствующего полного или частичного определения преобразования или правила прямого преобразования/обратного преобразования/фильтрации для обнаруженного целевого положения и/или ориентации. В других вариантах осуществления, не обязательно использовать ближайшую точку сетки с математической точки зрения. Вместо этого, может быть полезным определять не точку сетки, представляющую собой ближайшую точку сетки, а точку сетки, связанную с целевым положением или ориентацией. Пример может представлять собой то, что точка сетки, представляющая собой, с математической точки зрения, не ближайшую, а вторую или третью ближайшую, или четвертую ближайшую, лучше ближайшей точки сетки. Причина состоит в этом, что оптимизация имеет более одной размерности, и может быть лучше обеспечивать возможность большего отклонения для азимута, но меньшего отклонения от подъема. Эта информация вводится в соответствующий (матричный) процессор 1090, который принимает, в качестве ввода, представление звукового поля, и который выводит представление 1201 обработанного звукового поля. Предварительно вычисленное определение преобразования может представляет собой матрицу преобразования, имеющую размерность в N строк и M столбцов, при этом N и M являются целыми числами, большими 2, и представление звукового поля имеет M аудиосигналов, и представление 1201 обработанного звукового поля имеет N аудиосигналов. В математически транспонированном формулировании, ситуация может быть обратной, т.е. предварительно вычисленное определение преобразования может представлять собой матрицу преобразования, имеющую размерность в M строк и N столбцов, или представление звукового поля имеет N аудиосигналов, и представление 1201 обработанного звукового поля имеет M аудиосигналов.
Фиг. 11a иллюстрирует другую реализацию матричного процессора 1090. В этой реализации, матричный процессор снабжается данными посредством модуля 1092 матричного вычисления, который принимает, в качестве ввода, опорное положение /ориентацию и целевое положение/ориентацию либо, хотя не показано на чертеже, соответствующее отклонение. На основе этого отклонения, модуль 1092 вычисления вычисляет любое из частичных или полных определений преобразования, как пояснено относительно фиг. 10c, и перенаправляет это правило в матричный процессор 1090. В случае полного определения 1071 преобразования, матричный процессор 1090 выполняет, например, для каждой частотно-временной плитки, полученной посредством гребенки аналитических фильтров, одну матричную операцию с использованием комбинированной матрицы 1071. В случае частичного определения 1072 или 1073 преобразования, процессор 1090 выполняет фактическое прямое или обратное преобразование и, дополнительно, матричную операцию, чтобы либо получать фильтрованные сигналы виртуальных громкоговорителей для случая по фиг. 10b, либо получать, из набора сигналов виртуальных громкоговорителей, представление 1201 обработанного звукового фильтра в области аудиосигналов.Fig. 11a illustrates another implementation of a
В следующих разделах описаны варианты осуществления, и поясняется то, каким образом различные пространственные звуковые представления могут быть преобразованы в область виртуальных громкоговорителей и затем модифицированы для обеспечения согласованного производства пространственного звука в произвольном виртуальном положении прослушивания (включающем в себя произвольные ориентации прослушивания), которая определяется относительно исходного опорного местоположения.The following sections describe embodiments and explain how different spatial audio representations can be converted into a virtual speaker region and then modified to provide consistent spatial audio production at an arbitrary virtual listening position (including arbitrary listening orientations) that is defined relative to original reference location.
Фиг. 1 показывает общее представление блок-схему предложенного нового подхода. Некоторые варианты осуществления используют только поднабор блоков конфигурации, показанных на общей схеме, и исключают определенные блоки обработки в зависимости от сценария применения.Fig. 1 shows a general flow diagram of the proposed new approach. Some embodiments use only a subset of the configuration blocks shown in the general diagram and exclude certain processing blocks depending on the application scenario.
Ввод в варианты представляет собой множество (два или более) входных аудиосигналов во временной области или в частотно-временной области. Входные сигналы временной области при необходимости могут быть преобразованы в частотно-временную область с использованием гребенки (1010) аналитических фильтров. Входные сигналы, например, могут представлять собой сигналы громкоговорителей, сигналы микрофонов, сигналы аудиообъектов или амбиофонические компоненты. Входные аудиосигналы представляют пространственное звуковое поле, связанное с заданным опорным положением и ориентацией. Опорное положение и ориентация, например, может представлять собой зону наилучшего восприятия, обращенную к азимуту и подъему в 0° (для входных сигналов громкоговорителей), положение и ориентацию массива микрофонов (для входных сигналов микрофонов) или центр системы координат (для амбиофонических входных сигналов).The input to options is a plurality (two or more) of audio input signals in the time domain or in the time-frequency domain. The time domain input signals may be converted to the time-frequency domain, if necessary, using the analytical filter bank (1010). The input signals may, for example, be speaker signals, microphone signals, audio object signals, or ambiphonic components. Input audio signals represent a spatial sound field associated with a given reference position and orientation. The reference position and orientation, for example, can be the sweet spot facing azimuth and elevation at 0° (for loudspeaker inputs), the position and orientation of the microphone array (for microphone inputs), or the center of the coordinate system (for ambiophonic inputs) .
Входные сигналы преобразуются в область виртуальных громкоговорителей с использованием первого или прямого пространственного преобразования (1020). Первое пространственное преобразование (1020), например, может представлять собой формирование диаграммы направленности (при использовании входных сигналов микрофонов), повышающее микширование сигналов громкоговорителей (при использовании входных сигналов громкоговорителей) или разложение по плоским волнам (при использовании амбиофонических входных сигналов). Для входного сигнала аудиообъекта, первое пространственное преобразование может представлять собой модуль рендеринга аудиообъектов (например, модуль рендеринга VBAP [Vbap]). Первое пространственное преобразование (1020) вычисляется на основе набора положений виртуальных громкоговорителей. Нормально, положения виртуальных громкоговорителей могут задаваться равномерно распределенными по сфере и центрированными вокруг опорного положения.The input signals are converted to the virtual speaker region using the first or direct spatial transform (1020). The first spatial transform (1020), for example, may be beamforming (when using microphone inputs), upmixing loudspeaker signals (when using loudspeaker inputs), or plane wave decomposition (when using ambiophonic inputs). For an audio object input, the first spatial transform may be an audio object renderer (eg, a VBAP renderer [Vbap]). The first spatial transform (1020) is calculated based on the set of virtual speaker positions. Normally, the positions of the virtual speakers may be set uniformly distributed over the sphere and centered around the reference position.
При необходимости, сигналы виртуальных громкоговорителей могут фильтроваться с использованием пространственной фильтрации (1030). Пространственная фильтрация (1030) используется для фильтрации представления звукового поля в области виртуальных громкоговорителей в зависимости от требуемого положения прослушивания или ориентации. Это может использоваться, например, для увеличения громкости, когда положение прослушивания приближается к источникам звука. Это справедливо для конкретной пространственной области, в которой, например, может быть расположен такой звуковой объект.If necessary, the virtual speaker signals may be filtered using spatial filtering (1030). Spatial filtering (1030) is used to filter the sound field representation in the virtual speaker area depending on the desired listening position or orientation. This can be used, for example, to increase the volume when the listening position gets closer to sound sources. This is true for a specific spatial region in which, for example, such a sound object may be located.
Положения виртуальных громкоговорителей модифицируются в блоке (1040) модификации положения в зависимости от требуемого положения и ориентации прослушивания. На основе модифицированных положений виртуальных громкоговорителей, (фильтрованные) сигналы виртуальных громкоговорителей преобразуются обратно из области виртуальных громкоговорителей с использованием второго или обратного пространственного преобразования (1050) для получения двух или более требуемых выходных аудиосигналов. Второе пространственное преобразование (1050), например, может представлять собой сферическое гармоническое разложение (когда сигналы выводов должны получаться в амбиофонической области), сигналы микрофонов (когда выходные сигналы должны получаться в области сигналов микрофонов), или сигналы громкоговорителей (когда выходные сигналы должны получаться в области громкоговорителей). Второе пространственное преобразование (1050) является независимым от первого пространственного преобразования (1020). Выходные сигналы в частотно-временной области при необходимости могут быть преобразованы во временную область с использованием гребенки (1060) синтезирующих фильтров.The positions of the virtual speakers are modified in the position modification block (1040) depending on the desired listening position and orientation. Based on the modified virtual speaker positions, the (filtered) virtual speaker signals are converted back from the virtual speaker region using a second or inverse spatial transform (1050) to produce two or more desired audio output signals. The second spatial transformation (1050), for example, can be a spherical harmonic decomposition (when the output signals are to be obtained in the ambiophonic region), microphone signals (when the output signals are to be obtained in the microphone signal region), or loudspeaker signals (when the output signals are to be obtained in the speaker area). The second spatial transform (1050) is independent of the first spatial transform (1020). The output signals in the time-frequency domain, if necessary, can be converted to the time domain using the synthesis filter bank (1060).
Вследствие модификации (1040) положения виртуальных положений прослушивания, которые затем используются во втором пространственном преобразовании (1050), выходные сигналы представляют пространственный звук в требуемой положения прослушивания с требуемым направлением взгляда, которое может отличаться от опорного положения и ориентации.Due to the modification (1040) of the position of the virtual listening positions, which are then used in the second spatial transformation (1050), the output signals represent the spatial sound at the desired listening position with the desired viewing direction, which may be different from the reference position and orientation.
В некоторых вариантах применения, варианты осуществления используются вместе с видеоприложением для согласованного воспроизведения аудио/видео, например, при рендеринге видео камеры на 360° из различных, определяемых пользователем перспектив. В этом случае, опорное положение и ориентация обычно соответствуют начальному положению и ориентации видеокамеры на 360°. Требуемое положение и ориентация прослушивания, которая используется для вычисления модифицированных положений виртуальных громкоговорителей в блоке (1040), затем соответствует определяемому пользователем положению и ориентации просмотра в видео на 360°. За счет этого, выходные сигналы, вычисленные в блоке (1050), представляют пространственный звук из перспективы определяемому пользователем положению и ориентации в видео на 360°. Безусловно, тот же принцип может применяться к вариантам применения, которые не полностью покрывают полное (на 360°) поле зрения, а только его части, например, к вариантам применения, которые обеспечивают возможность определяемому пользователем положению и ориентации просмотра, например, в вариантах применения для поля зрения на 180°.In some applications, the embodiments are used in conjunction with a video application for consistent audio/video playback, such as rendering a 360° camera video from various user-defined perspectives. In this case, the reference position and orientation usually correspond to the initial position and orientation of the 360° video camera. The desired listening position and orientation, which is used to calculate the modified positions of the virtual speakers in the block (1040), then corresponds to the user-defined viewing position and orientation in the 360° video. Due to this, the output signals calculated in block (1050) represent the spatial sound from the perspective of the user-defined position and orientation in the 360° video. Of course, the same principle can apply to applications that do not completely cover the entire (360°) field of view, but only parts of it, for example, applications that allow user-defined viewing position and orientation, for example, in applications for a 180° field of view.
В варианте осуществления, представление звукового поля ассоциировано с трехмерным видео или сферическим видео, и заданная опорная точка представляет собой центр трехмерного видео или сферического видео. Детектор 110 выполнен с возможностью обнаружения пользовательского ввода, указывающего фактическую точку обзора, отличающуюся от центра, причем фактическая точка обзора является той же, что и целевое положение прослушивания и детектор, выполнена с возможностью извлечения обнаруженного отклонения из пользовательского ввода, или детектор 110 выполнен с возможностью обнаружения пользовательского ввода, указывающего фактическую ориентацию просмотра, отличающуюся от заданной ориентации прослушивания, направленной в центр, причем фактическая ориентация просмотра является той же, что и целевая ориентация прослушивания, и детектор выполнен с возможностью извлечения обнаруженного отклонения из пользовательского ввода. Сферическое видео может представлять собой видео с обзором в 360 градусов, но также могут использоваться другие (частичные) сферические видео, такие как сферические видео, покрывающие 180 градусов или больше.In an embodiment, the sound field representation is associated with a 3D video or spherical video and the given reference point is the center of the 3D video or spherical video. The detector 110 is configured to detect a user input indicating an actual off-center viewpoint, the actual viewpoint being the same as the target listening position, and the detector is configured to extract the detected deviation from the user input, or the detector 110 is configured to detecting a user input indicating an actual viewing orientation that is different from a predetermined listening orientation directed towards the center, wherein the actual viewing orientation is the same as the target listening orientation, and the detector is configured to extract the detected deviation from the user input. The spherical video may be a 360 degree video, but other (partial) spherical videos may also be used, such as spherical videos covering 180 degrees or more.
В дополнительном варианте осуществления, процессор звукового поля выполнен с возможностью обработки представления звукового поля таким образом, что представление обработанного звукового поля представляет стандартную проекцию или проекцию малой планеты либо переход между стандартной проекцией или проекцией малой планеты по меньшей мере одного звукового объекта, включенного в описание звукового поля относительно области отображения для трехмерного видео или сферического видео, причем область отображения определяется пользовательским вводом и заданным направлением просмотра. Такой переход осуществляется, например, когда абсолютная величина h на фиг. 7b составляет от нуля до полной длины, протягивающейся от центральной точки до точки S.In a further embodiment, the sound field processor is configured to process the sound field representation such that the processed sound field representation represents a standard projection or a minor planet projection, or a transition between a standard projection or a minor planet projection of at least one sound object included in the sound object description. margins relative to the display area for 3D video or spherical video, the display area being determined by user input and a given viewing direction. Such a transition occurs, for example, when the absolute value of h in FIG. 7b is from zero to full length extending from the center point to point S.
Варианты осуществления могут применяться для обеспечения акустического масштабирования, которое имитирует визуальное масштабирование. В визуальном масштабировании, при увеличении масштаба в конкретной области, интересующая область (в центре изображения) визуально кажется расположенной ближе, тогда как нежелательные видеообъекты на стороне изображений перемещаются наружу и в конечном счете исчезают из изображения. Акустически, согласованный рендеринг аудио должен означать, что при увеличении масштаба аудиоисточники в направлении масштабирования становятся громче, тогда как аудиоисточники на стороне перемещаются наружу и в конечном счете становятся тихими. Безусловно, такой эффект соответствует перемещению виртуального положения прослушивания ближе к виртуальному громкоговорителю, который расположен в направлении масштабирования (дополнительную информацию см. в варианте 3 осуществления). Кроме того, пространственное окно кодирования со взвешиванием в пространственной фильтрации (1030) может задаваться таким образом, что сигналы виртуальных громкоговорителей затухают, когда соответствующие виртуальные громкоговорители находятся за пределами интересующей области согласно масштабированному видеоизображению (дополнительную информацию см. в варианте 2 осуществления).Embodiments may be used to provide acoustic zoom that mimics visual zoom. In visual zoom, when zooming in on a particular area, the area of interest (at the center of the image) visually appears closer, while the unwanted video objects on the side of the images move outwards and eventually disappear from the image. Acoustically, consistent audio rendering should mean that as you zoom in, the audio sources in the zoom direction become louder, while the audio sources on the side move outward and eventually become quiet. Of course, such an effect corresponds to moving the virtual listening position closer to the virtual speaker, which is located in the zoom direction (see
Во многих вариантах применения входные сигналы, используемые в блоке (1020), и выходные сигналы, вычисленные в блоке (1050), представляются в одинаковой пространственной области с одинаковым числом сигналов. Это означает, например, что, если амбиофонические компоненты конкретного амбиофонического порядка используются в качестве входных сигналов, выходные сигналы соответствуют амбиофоническим компонентам того же порядка. Тем не менее, возможно, что выходные сигналы, вычисленные в блоке (1050), могут представляться в другой пространственной области и с другим числом сигналов по сравнению с входными сигналами. Например, можно использовать амбиофонические компоненты конкретного порядка в качестве входных сигналов при вычислении выходных сигналов в области громкоговорителей с конкретным числом каналов.In many applications, the input signals used in block (1020) and the output signals calculated in block (1050) are represented in the same spatial region with the same number of signals. This means, for example, that if the ambiophonic components of a particular ambiophonic order are used as input signals, the output signals correspond to ambiophonic components of the same order. However, it is possible that the output signals calculated in block (1050) may be represented in a different spatial region and with a different number of signals compared to the input signals. For example, it is possible to use ambiophonic components of a particular order as inputs when calculating output signals in a loudspeaker region with a particular number of channels.
Ниже по тексту поясняются конкретные варианты осуществления блоков обработки на фиг. 1. Для гребенки (1010) аналитических фильтров и гребенки (1060) синтезирующих фильтров, соответственно, можно использовать гребенку фильтров или частотно-временное преобразование, например, кратковременное преобразование Фурье (STFT) из уровня техники. Как правило, можно использовать STFT с длиной преобразования в 1024 выборки и с размером перескока в 512 выборок на частоте дискретизации в 48000 Гц. Нормально, обработка выполняется отдельно для каждого времени и частоты. Без потери общности, обработка в частотно-временной области проиллюстрирована ниже по тексту. Тем не менее, обработка также может выполняться эквивалентным способом во временной области.Below, specific embodiments of the processing units in FIG. 1. For the analytical filter bank (1010) and the synthesis filter bank (1060), respectively, a filter bank or a time-frequency transform such as the short-time Fourier transform (STFT) of the prior art can be used. Typically, you can use an STFT with a transform length of 1024 samples and a hop size of 512 samples at a sample rate of 48000 Hz. Normally, processing is performed separately for each time and frequency. Without loss of generality, time-frequency domain processing is illustrated below. However, the processing may also be performed in an equivalent manner in the time domain.
Вариант осуществления 1a. Первое пространственное преобразование (1020) для амбиофонического ввода (фиг. 12a)Embodiment 1a. First spatial transform (1020) for ambiophonic input (FIG. 12a)
В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой амбиофонический сигнал L-ого порядка в частотно-временной области. Амбиофонический сигнал представляет многоканальный сигнал, в котором каждый канал (называемый «амбиофоническим компонентом или коэффициентом») является эквивалентным коэффициенту так называемой пространственной базисной функции. Существуют различные типы пространственных базисных функций, например, сферические гармоники [FourierAcoust] или цилиндрические гармоники [FourierAcoust]. Цилиндрические гармоники могут использоваться при описании звукового поля в двумерном пространстве (например, для воспроизведения двумерного звука), тогда как сферические гармоники могут использоваться для описания звукового поля в двумерном и трехмерном пространстве (например, для воспроизведения двумерного и трехмерного звука). Без потери общности, второй случай со сферическими гармониками рассматривается ниже по тексту. В этом случае, амбиофонический сигнал состоит из (L+1)2 отдельных сигналов (компонентов) и обозначается посредством вектора:In this embodiment, the input to the first spatial transform (1020) is an L-order ambiophonic signal in the time-frequency domain. An ambiophonic signal is a multi-channel signal in which each channel (referred to as an "ambiophonic component or coefficient") is equivalent to a coefficient of a so-called spatial basis function. There are different types of spatial basis functions, such as spherical harmonics [FourierAcoust] or cylindrical harmonics [FourierAcoust]. Cylindrical harmonics can be used to describe a sound field in two-dimensional space (for example, to reproduce two-dimensional sound), while spherical harmonics can be used to describe a sound field in two-dimensional and three-dimensional space (for example, to reproduce two-dimensional and three-dimensional sound). Without loss of generality, the second case with spherical harmonics is considered below. In this case, the ambiophonic signal consists of (L+1) 2 separate signals (components) and is denoted by a vector:
, ,
где k и n являются частотным индексом и временным индексом, соответственно, 0≤l≤L является уровнем (порядком), и-l≤m≤l является режимом амбиофонического коэффициента (компонента) Al, m(k, n). Амбиофонические сигналы первого порядка (L=1) могут измеряться, например, с использованием SoundField-микрофона. Амбиофонические сигналы высшего порядка могут измеряться, например, с использованием EigenMike. Местоположение записи представляет центр системы координат и опорное положение, соответственно.where k and n are the frequency index and the time index, respectively, 0≤l≤L is the level (order), and -l≤m≤l is the mode of the ambiophonic coefficient (component) A l, m (k, n). Ambiophonic signals of the first order (L=1) can be measured, for example, using a SoundField microphone. Higher order ambiophonic signals can be measured, for example, using the EigenMike. The record location represents the center of the coordinate system and the reference position, respectively.
Для преобразования амбиофонического сигнала a(k, n) в область виртуальных громкоговорителей предпочтительно применять разложение 1022 по плоским волнам (PWD) из уровня техники, т.е. обратное сферическое гармоническое разложение, для a(k, n), которое может вычисляться следующим образом [FourierAcoust]:To convert the ambiophonic signal a(k, n) into the virtual loudspeaker region, it is preferable to apply the prior art plane wave decomposition (PWD) 1022, i. e. inverse spherical harmonic expansion, for a(k, n), which can be computed as follows [FourierAcoust]:
. .
Член Yl, m(φj,υj) является сферической гармоникой [FourierAcoust] порядка l и режима m, оцененной для угла φj азимута и для угла υj подъема. Углы (φj,υj) представляют положение j-ого виртуального громкоговорителя. Сигнал S(φj,υj) может интерпретироваться в качестве сигнала j-ого виртуального громкоговорителя.The term Y l, m (φj,υj) is the spherical harmonic [FourierAcoust] of order l and mode m estimated for the azimuth angle φj and for the elevation angle υj. The angles (φj,υj) represent the position of the jth virtual speaker. The signal S(φj,υj) can be interpreted as the signal of the j-th virtual loudspeaker.
На фиг. 2 показан пример сферических гармоник, который показывает сферические гармонические функции для различных уровней (порядков) l и режимов m. Порядок l иногда упоминается «уровнями», и что режимы m также могут называться «градусами». Как можно видеть на фиг. 2, сферическая гармоника нулевого порядка (нулевого уровня) l=0 представляет всенаправленное звуковое давление, тогда как сферические гармоники первого порядка (первого уровня) l=1 представляют дипольные компоненты вдоль размерностей декартовой системы координат.In FIG. 2 shows an example of spherical harmonics, which shows the spherical harmonic functions for various levels (orders) l and modes m. The l order is sometimes referred to as "levels", and that m modes may also be referred to as "degrees". As can be seen in FIG. 2, the zero order (zero level) spherical harmonic l=0 represents the omnidirectional sound pressure, while the first order (first level) spherical harmonic l=1 represents the dipole components along the dimensions of the Cartesian coordinate system.
Предпочтительно задавать направления (φj,υj) виртуальных громкоговорителей таким образом, что они равномерно распределяются по сфере. Тем не менее, в зависимости от варианта применения, направления могут выбираться по-разному. Общее число положений виртуальных громкоговорителей обозначается посредством J. Следует отметить, что более высокое число J приводит к большей точности пространственной обработки за счет более высокой вычислительной сложности. На практике, обоснованное число виртуальных громкоговорителей определяется, например, посредством J=250.It is preferable to set the directions (φj,υj) of the virtual loudspeakers in such a way that they are evenly distributed over the sphere. However, depending on the application, the directions can be chosen differently. The total number of virtual speaker positions is denoted by J. It should be noted that a higher J number results in greater spatial processing accuracy at the expense of higher computational complexity. In practice, a reasonable number of virtual speakers is determined, for example, by J=250.
J сигналов виртуальных громкоговорителей собираются в векторе, заданном следующим образом:The J virtual speaker signals are collected in a vector defined as follows:
, ,
который представляет входные аудиосигналы в области виртуальных громкоговорителей.which represents the input audio signals in the virtual speaker area.
Безусловно, J сигналов s(k, n) виртуальных громкоговорителей в этом варианте осуществления могут вычисляться посредством применения одного матричного умножения к входным аудиосигналам, т.е.:Of course, the J virtual speaker signals s(k, n) in this embodiment can be calculated by applying a single matrix multiplication to the input audio signals, i.e.:
, ,
где матрица JxL содержит сферические гармоники для различных уровней (порядков), режимов и положений виртуальных громкоговорителей, т.е.:where is the matrix JxL contains spherical harmonics for various levels (orders), modes and positions of virtual loudspeakers, i.e.:
Вариант осуществления 1b. Первое пространственное преобразование (1020) для ввода из громкоговорителя (фиг. 12b)Embodiment 1b. First Spatial Transform (1020) for Speaker Input (FIG. 12b)
В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой M сигналов громкоговорителей. Соответствующая конфигурация громкоговорителей может быть произвольной, например, представлять собой общую конфигурацию громкоговорителей 5.1, 7.1, 11.1 или 22.2. Зона наилучшего восприятия конфигурации громкоговорителей представляет опорное положение . M-ое положение громкоговорителей (m≤M) представляется посредством угла азимута и угла подъема.In this embodiment, the input to the first spatial transform (1020) is M speaker signals. The corresponding loudspeaker configuration can be arbitrary, for example a general 5.1, 7.1, 11.1 or 22.2 loudspeaker configuration. The sweet spot of the speaker configuration represents the reference position. The mth position of the loudspeakers (m≤M) is represented by the angle azimuth and angle lift.
В этом варианте осуществления, M входных сигналов громкоговорителей могут быть преобразованы в J сигналов виртуальных громкоговорителей, при этом виртуальные громкоговорители расположены под углами (φj,υj). Если число M громкоговорителей меньше числа J виртуальных громкоговорителей, это представляет проблему повышающего микширования для громкоговорителей. Если число M громкоговорителей превышает число J виртуальных громкоговорителей, это представляет проблему 1023 понижающего микширования. В общем, преобразование формата громкоговорителей может достигаться, например, посредством использования алгоритма статического (независимого от сигнала) преобразования формата громкоговорителей из уровня техники, такого как виртуальное или пассивное повышающее микширование, поясняемое в [FormatConv]. В этом подходе, сигналы виртуальных громкоговорителей вычисляются следующим образом:In this embodiment, the M speaker input signals can be converted to J virtual speaker signals, with the virtual speakers at angles (φj,υj). If the number M of speakers is less than the number J of virtual speakers, this presents an upmixing problem for the speakers. If the number M of speakers exceeds the number J of virtual speakers, this presents a
, ,
где вектор:where vector:
содержит M входных сигналов громкоговорителей в частотно-временной области, и k и n являются частотным индексом и временным индексом, соответственно. Кроме того:contains M speaker inputs in the time-frequency domain, and k and n are the frequency index and the time index, respectively. Besides:
представляют собой J сигналов виртуальных громкоговорителей. Матрица C представляет собой матрицу статического преобразования формата, которая может вычисляться, как пояснено в [FormatConv] посредством использования, например, схемы панорамирования VBAP [Vbap]. Матрица преобразования формата зависит от M положений входных громкоговорителей и J положений виртуальных громкоговорителей.are J virtual speaker signals. Matrix C is a static format conversion matrix that can be computed as explained in [FormatConv] by using, for example, the VBAP panning scheme [Vbap]. The format conversion matrix depends on the M input speaker positions and the J virtual speaker positions.
Предпочтительно, углы (φj,υj) виртуальных громкоговорителей равномерно распределяются по сфере. На практике, число J виртуальных громкоговорителей может выбираться произвольно, тогда как более высокое число приводит к большей точности пространственной обработки за счет более высокой вычислительной сложности. На практике, обоснованное число виртуальных громкоговорителей определяется, например, посредством J=250.Preferably, the corners (φj,υj) of the virtual speakers are uniformly distributed over the sphere. In practice, the number J of virtual speakers can be chosen arbitrarily, while a higher number results in greater spatial processing accuracy at the expense of higher computational complexity. In practice, a reasonable number of virtual speakers is determined, for example, by J=250.
Вариант осуществления 1c. Первое пространственное преобразование (1020) для микрофонного ввода (фиг. 12c)Embodiment 1c. First spatial transform (1020) for microphone input (FIG. 12c)
В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой сигналы массива микрофонов с M микрофонов. Микрофоны могут иметь различные направленности, например, всенаправленные, кардиоидные или дипольные характеристики. Микрофоны могут размещаться в различных конфигурациях, например, как совпадающие массивы микрофонов (при использовании направленных микрофонов), линейные массивы микрофонов, круговые массивы микрофонов, неравномерные плоские массивы или сферические массивы микрофонов. Во многих вариантах применения, плоские или сферические массивы микрофонов являются предпочтительными. Примерный массив микрофонов на практике определяется, например, посредством кругового массива микрофонов с M=8 всенаправленных микрофонов с радиусом массива в 3 см.In this embodiment, the input to the first spatial transform (1020) is microphone array signals from M microphones. Microphones can have different directivity, such as omnidirectional, cardioid or dipole characteristics. Microphones can be placed in various configurations, such as matched microphone arrays (when using directional microphones), line microphone arrays, circular microphone arrays, non-uniform planar arrays, or spherical microphone arrays. In many applications, flat or spherical microphone arrays are preferred. An exemplary microphone array is in practice defined by, for example, a circular microphone array with M=8 omnidirectional microphones with an array radius of 3 cm.
M микрофонов расположены в положениях d1...M. Центр массива представляет опорное положение. M сигналов микрофонов в частотно-временной области задаются следующим образом:M microphones are located in positions d1...M. The center of the array represents the reference position. M microphone signals in the time-frequency domain are given as follows:
, ,
где k и n являются частотным индексом и временным индексом, соответственно, и A1...M(k, n) являются сигналами M микрофонов, расположенных в d1...M.where k and n are the frequency index and the time index, respectively, and A1...M(k, n) are the signals of the M microphones located in d1...M.
Чтобы вычислять сигналы виртуальных громкоговорителей, предпочтительно применять формирование диаграммы направленности 1024 к входным сигналам a(k, n) и направлять модули формирования диаграммы направленности к положениям виртуальных громкоговорителей. В общем, формирование диаграммы направленности вычисляется следующим образом:In order to compute virtual speaker signals, it is preferable to apply
. .
Здесь, bj(k, n) являются весовыми коэффициентами модуля формирования диаграммы направленности для вычисления сигнала j-ого виртуального громкоговорителя, который обозначается как S(φj,υj). В общем, весовые коэффициенты модуля формирования диаграммы направленности могут быть время- и частотно-зависимыми. Аналогично предыдущим вариантам осуществления, углы (φj,υj) представляют положение j-ого виртуального громкоговорителя. Предпочтительно, направления (φj,υj) равномерно распределяются по сфере. Общее число положений виртуальных громкоговорителей обозначается посредством J. На практике, это число может выбираться произвольно, тогда как более высокое число приводит к большей точности пространственной обработки за счет более высокой вычислительной сложности. На практике, обоснованное число виртуальных громкоговорителей определяется, например, посредством J=250.Here, b j (k, n) are beamformer weights for computing the signal of the j-th virtual speaker, which is denoted as S(φj,υj). In general, the beamformer weights may be time and frequency dependent. Similar to the previous embodiments, the angles (φj,υj) represent the position of the j-th virtual speaker. Preferably, the directions (φj, υj) are uniformly distributed over the sphere. The total number of virtual speaker positions is denoted by J. In practice, this number can be chosen arbitrarily, while a higher number results in better spatial processing accuracy at the expense of higher computational complexity. In practice, a reasonable number of virtual speakers is determined, for example, by J=250.
Пример формирования диаграммы направленности проиллюстрирован на фиг. 3. Здесь, O представляет собой центр системы координат, в которой расположен массив микрофонов (обозначается посредством белого круга). Это положение представляет опорное положение. Положение виртуальных громкоговорителей обозначаются посредством черных точек. Луч j-ого модуля формирования диаграммы направленности обозначается посредством серой зоны. Модуль формирования диаграммы направленности направлен к j-ому громкоговорителю (в этом случае, j=2), чтобы создавать сигнал j-ого виртуального громкоговорителя.An example of beamforming is illustrated in FIG. 3. Here, O represents the center of the coordinate system in which the array of microphones is located (denoted by the white circle). This position represents the reference position. The positions of the virtual speakers are indicated by black dots. The beam of the j-th beamformer is indicated by a gray area. The beamformer is directed towards the j-th speaker (in this case, j=2) to generate the signal of the j-th virtual speaker.
Подход к формированию диаграммы направленности для получения весовых коэффициентов bj(k, n), заключается в этом, чтобы вычислять так называемый согласованный модуль формирования диаграммы направленности, для которого весовые коэффициенты bj(k) задаются следующим образом:The beamforming approach for obtaining weights b j (k, n) is to calculate the so-called matched beamforming modulus, for which the weights b j (k) are given as follows:
. .
Вектор h(k,φj,υj) содержит относительные передаточные функции (RTF) между массивными микрофонами для рассматриваемой полосы k частот и для требуемого направления (φj,υj) положения j-ого виртуального громкоговорителя. RTF h(k,φj,υj), например, могут измеряться с использованием калибровочного измерения или могут моделироваться с использованием моделей звукового поля, таких как модель плоской волны [FourierAcoust].The vector h(k,φj,υj) contains the relative transfer functions (RTF) between array microphones for the considered frequency band k and for the required direction (φj,υj) of the position of the j-th virtual loudspeaker. RTF h(k,φj,υj), for example, may be measured using a calibration measurement, or may be modeled using sound field models such as a plane wave model [FourierAcoust].
Помимо использования согласованного модуля формирования диаграммы направленности, могут применяться другие технологии формирования диаграммы направленности, такие как MVDR, LCMV, многоканальный фильтр Винера.In addition to using a matched beamformer, other beamforming technologies such as MVDR, LCMV, multi-channel Wiener filter can be used.
J сигналов виртуальных громкоговорителей собираются в векторе, заданном следующим образом:The J virtual speaker signals are collected in a vector defined as follows:
, ,
который представляет входные аудиосигналы в области виртуальных громкоговорителей.which represents the input audio signals in the virtual speaker area.
Безусловно, J сигналов s(k, n) виртуальных громкоговорителей в этом варианте осуществления могут вычисляться посредством применения одного матричного умножения к входным аудиосигналам, т.е.:Of course, the J virtual speaker signals s(k, n) in this embodiment can be calculated by applying a single matrix multiplication to the input audio signals, i.e.:
, ,
где матрица C(k) JxM содержит весовые коэффициенты модуля формирования диаграммы направленности для J виртуальных громкоговорителей, т.е.:where the matrix C(k) JxM contains the beamformer weights for the J virtual loudspeakers, i.e.:
. .
Вариант осуществления 1d. Первое пространственное преобразование (1020) для ввода сигналов аудиообъектов (фиг. 12d)Embodiment 1d. First Spatial Transform (1020) for Inputting Audio Object Signals (FIG. 12d)
В этом варианте осуществления, ввод в первое пространственное преобразование (1020) представляет собой M сигналов аудиообъектов вместе с их прилагаемыми метаданными положения. Аналогично варианту осуществления 1b, J сигналов виртуальных громкоговорителей могут вычисляться, например, с использованием схемы панорамирования VBAP [Vbap]. Схема 1025 панорамирования VBAP подготавливает посредством рендеринга J сигналов виртуальных громкоговорителей в зависимости от M положений входных сигналов аудиообъектов и J положений виртуальных громкоговорителей. Очевидно, что вместо этого могут использоваться схемы рендеринга, отличные от схемы панорамирования VBAP. Метаданные положения аудиообъекта могут указывать положения статических объектов или положения варьирующихся во времени объектов.In this embodiment, the input to the first spatial transform (1020) is M audio object signals along with their attached position metadata. Similar to embodiment 1b, J virtual speaker signals may be calculated using, for example, a VBAP [Vbap] panning scheme. The
Вариант 2 осуществления. Пространственная фильтрация (1030)
Пространственная фильтрация (1030) применяется посредством умножения сигналов виртуальных громкоговорителей на s(k, n) на пространственное окно W(φj,υj, p,l) кодирования со взвешиванием, т.е.:Spatial filtering (1030) is applied by multiplying the virtual speaker signals by s(k, n) by the weighted coding spatial window W(φj,υj, p,l), i.e.:
, ,
где S'(φj,υj) обозначает фильтрованные сигналы виртуальных громкоговорителей. Пространственная фильтрация (1030) может применяться, например, для акцентирования пространственного звука к направлению взгляда для требуемого положения прослушивания, либо когда местоположение требуемого положения прослушивания приближается к источникам звука или положениям виртуальных громкоговорителей. Это означает, что пространственное окно W(φj,υj, p,l) кодирования со взвешиванием обычно соответствует неотрицательным действительнозначным значениям усиления, которые обычно вычисляются на основе требуемого положения прослушивания (обозначается посредством вектора p) и требуемой ориентации прослушивания или направления взгляда (обозначается посредством вектора l).where S'(φj,υj) denotes the filtered virtual loudspeaker signals. Spatial filtering (1030) may be applied, for example, to accentuate spatial sound towards the direction of view for the desired listening position, or when the location of the desired listening position is close to sound sources or virtual speaker positions. This means that the weighted coding spatial window W(φj,υj, p,l) usually corresponds to non-negative real-valued gain values, which are usually computed based on the desired listening position (denoted by the vector p) and the desired listening orientation or gaze direction (denoted by vector l).
В качестве примера, пространственное окно W(φj,υj, p,l) кодирования со взвешиванием может вычисляться в качестве общего пространственного окна кодирования со взвешиванием первого порядка, направленного к требуемому направлению взгляда, которое дополнительно ослабляется или усиливается согласно расстоянию между требуемым положением прослушивания и положениями виртуальных громкоговорителей, т.е.:As an example, the weighted coding spatial window W(φj, υj, p,l) may be computed as the overall first-order weighted coding spatial window directed towards the desired viewing direction, which is further attenuated or boosted according to the distance between the desired listening position and virtual speaker positions, i.e.:
. .
Здесь, является вектором направления, соответствующим положению j-ого виртуального громкоговорителя, и является вектором направления, соответствующим требуемой ориентации прослушивания, при этом ϕ является углом азимута, и θ является углом подъема требуемой ориентации прослушивания. Кроме того, α является параметром первого порядка, который определяет форму пространственного окна кодирования со взвешиванием. Например, пространственное окно кодирования со взвешиванием с кардиоидной формой для α=0,5 получается. Соответствующее примерное пространственное окно кодирования со взвешиванием с кардиоидной формой и направлением взгляда ϕ=45° проиллюстрировано на фиг. 4. Для α=1, пространственное окно кодирования со взвешиванием не должно применяться, и только взвешивание Gj(p) расстояния должно быть эффективным. Взвешивание Gj(p) расстояния акцентирует пространственный звук в зависимости от расстояния между требуемым положением прослушивания и j-м виртуальным громкоговорителем. Взвешивание Gj(p) может вычисляться, например, следующим образом:Here, is the direction vector corresponding to the position of the jth virtual speaker, and is a direction vector corresponding to the desired listening orientation, where ϕ is the azimuth angle and θ is the elevation angle of the desired listening orientation. In addition, α is a first order parameter that determines the shape of the weighted spatial coding window. For example, a weighted spatial coding window with a cardioid shape for α=0.5 is obtained. A corresponding exemplary cardioid weighted spatial coding window with a ϕ=45° gaze direction is illustrated in FIG. 4. For α=1, no weighted spatial coding window shall be applied and only distance weighting Gj(p) shall be effective. The distance weighting Gj(p) accentuates the spatial sound depending on the distance between the desired listening position and the jth virtual speaker. The weighting Gj(p) can be calculated, for example, as follows:
, ,
где является требуемым положением прослушивания в декартовых координатах. Чертеж рассматриваемой системы координат проиллюстрирован на фиг. 5, где O является опорным положением, и L является требуемым положением прослушивания, при этом p является соответствующим вектором положения прослушивания. Виртуальные громкоговорители расположены в заштрихованном круге, и черная точка представляет примерный виртуальный громкоговоритель. Член в круглых скобках в вышеприведенном уравнении представляет собой расстояние между требуемым положением прослушивания и положением j-ого виртуального громкоговорителя. Коэффициент β представляет собой коэффициент ослабления расстояния. Например, для β=0,5, следует усиливать мощность, соответствующую j-ому виртуальному громкоговорителю, обратно расстоянию между требуемым положением прослушивания и положением виртуального громкоговорителя. Это имитирует эффект увеличения громкости при приближении к источникам звука или пространственным областям, которые представляются посредством виртуальных громкоговорителей.Where is the desired listening position in Cartesian coordinates. A drawing of the considered coordinate system is illustrated in Fig. 5, where O is the reference position and L is the desired listening position, p being the corresponding listening position vector. The virtual speakers are located in the shaded circle, and the black dot represents an exemplary virtual speaker. The term in parentheses in the above equation is the distance between the desired listening position and the position of the jth virtual speaker. The factor β is the distance attenuation factor. For example, for β=0.5, the power corresponding to the jth virtual speaker should be amplified inversely to the distance between the desired listening position and the position of the virtual speaker. This simulates the effect of increasing the volume when approaching sound sources or spatial areas that are represented by virtual speakers.
В общем, пространственное окно W(φj,υj, p,l) кодирования со взвешиванием может задаваться произвольно. В таких вариантах применения, как акустическое масштабирование, пространственное окно кодирования со взвешиванием может задаваться как прямоугольное окно кодирования со взвешиванием, центрированное к направлению масштабирования, которое становится более узким при увеличении масштаба и более широким при уменьшении масштаба. Ширина окна кодирования со взвешиванием может задаваться согласованно с масштабированным видеоизображением таким образом, что окно кодирования со взвешиванием обеспечивает затухание источников звука на стороне, когда соответствующий аудиообъект исчезает из масштабированного видеоизображения.In general, the spatial window W(φj,υj, p,l) of the weighted coding may be set arbitrarily. In applications such as acoustic scaling, the spatial weighted coding window may be defined as a rectangular weighted coding window centered on the scaling direction that becomes narrower as you zoom in and wider as you zoom out. The width of the weighted coding window may be set consistent with the scaled video image such that the weighted coding window ensures that the audio sources on the side are attenuated when the corresponding audio object disappears from the scaled video image.
Безусловно, фильтрованные сигналы виртуальных громкоговорителей в этом варианте осуществления могут вычисляться из сигналов виртуальных громкоговорителей с одним поэлементным векторным умножением, т.е.:Of course, the filtered virtual speaker signals in this embodiment can be computed from the virtual speaker signals with one element-wise vector multiplication, i.e.:
, ,
где o является поэлементным произведением (произведением Шура), и:where o is the element-wise product (Schur product), and:
являются весовыми коэффициентами окна кодирования со взвешиванием для J виртуальных громкоговорителей, с учетом требуемого положения и ориентации прослушивания. J фильтрованных сигналов виртуальных микрофонов собираются в векторе:are weighted coding window weights for the J virtual speakers, given the desired listening position and orientation. J filtered virtual microphone signals are collected in a vector:
. .
Вариант 3 осуществления. Модификация (1040) положения
Цель модификации (1040) положения состоит в вычислении положения виртуальных громкоговорителей из точки обзора (POV) требуемого положения прослушивания с требуемой ориентацией прослушивания.The purpose of the position modification (1040) is to calculate the position of the virtual speakers from the point of view (POV) of the desired listening position with the desired listening orientation.
На фиг. 6 визуализируется пример, который показывает вид сверху пространственной сцены. Без потери общности, предполагается, что опорное положение соответствует центру системы координат, который указывается посредством O. Кроме того, опорная ориентация определяется к передней части, т.е. к азимуту в нуль градусов и к подъему в нуль градусов (φ=0 и υ=0). Заштрихованный круг вокруг O представляет сферу, в которой расположены виртуальные громкоговорители. В качестве примера, данные показывают возможный вектор nj положения j-ого виртуального громкоговорителя.In FIG. 6, an example is rendered that shows a top view of a spatial scene. Without loss of generality, it is assumed that the reference position corresponds to the center of the coordinate system, which is indicated by O. In addition, the reference orientation is defined towards the front, i.e. to an azimuth of zero degrees and to an elevation of zero degrees (φ=0 and υ=0). The shaded circle around the O represents the sphere in which the virtual speakers are located. As an example, the data shows a possible position vector n j of the j-th virtual speaker.
На фиг. 7, требуемое положение прослушивания указывается посредством L. Вектор между опорным положением O и требуемым положением прослушивания L определяется посредством p (см. также вариант осуществления 2a). Как можно видеть, положение j-ого виртуального громкоговорителя из POV требуемого положения прослушивания может представляться посредством вектора:In FIG. 7, the desired listening position is indicated by L. The vector between the reference position O and the desired listening position L is determined by p (see also Embodiment 2a). As can be seen, the position of the j-th virtual speaker from the POV of the desired listening position can be represented by a vector:
. .
Если требуемое вращение при прослушивании отличается от опорного вращения, дополнительная матрица вращения может применяться при вычислении модифицированных положений виртуальных громкоговорителей, т.е.:If the required listening rotation differs from the reference rotation, an additional rotation matrix can be applied in computing modified virtual speaker positions, i.e.:
. .
Например, если требуемая ориентация прослушивания (относительно опорной ориентации) соответствует углу ϕ азимута, матрица вращения может вычисляться следующим образом [RotMat]:For example, if the desired listening orientation (relative to the reference orientation) corresponds to the azimuth angle ϕ, the rotation matrix can be calculated as [RotMat]:
. .
Модифицированные положения виртуальных громкоговорителей затем используются во втором пространственном преобразовании (1050). Модифицированные положения виртуальных громкоговорителей также могут выражаться с точки зрения модифицированных углов азимута и модифицированных углов подъема, т.е.:Modified Provisions the virtual speakers are then used in the second spatial transform (1050). Modified virtual speaker positions can also be expressed in terms of modified angles azimuth and modified angles lifting, i.e.:
. .
В качестве примера, модификация положения, описанная в этом варианте осуществления, может использоваться для достижения согласованного воспроизведения аудио/видео при использовании различных проекций изображения сферического видео. Например, различные проекции или положения просмотра для сферического видео могут выбираться пользователем через пользовательский интерфейс видеопроигрывателя. В таком варианте применения, фиг. 6 представляет вид сверху стандартной проекции сферического видео. В этом случае, круг указывает пиксельные положения сферического видео, и горизонтальная линия указывает двумерный видеодисплей (проекционную поверхность). Проецируемое видеоизображение (отображаемое изображение) обнаруживается посредством проецирования сферического видео из точки проекции, что приводит к пунктирной стрелке для примерного пиксела изображения. Здесь, точка проекции соответствует центру O сферы. При использовании стандартной проекции, соответствующее согласованное пространственное аудиоизображение может создаваться посредством размещения требуемого (виртуального) положения прослушивания в O, т.е. в центре круга, проиллюстрированного на фиг. 6. Кроме того, виртуальные громкоговорители расположены на поверхности сферы, т.е. вдоль проиллюстрированного круга, как пояснено выше. Это соответствует стандартному воспроизведению пространственного звука, при котором требуемое положение прослушивания расположено в зоне наилучшего восприятия виртуальных громкоговорителей.As an example, the position modification described in this embodiment can be used to achieve consistent audio/video playback using different spherical video image projections. For example, different projections or viewing positions for spherical video may be selected by the user through the user interface of the video player. In such an application, FIG. 6 is a top view of a standard spherical video projection. In this case, the circle indicates the pixel positions of the spherical video and the horizontal line indicates the 2D video display (projection surface). A projected video image (display image) is detected by projecting a spherical video from a projection point, resulting in a dotted arrow for an exemplary image pixel. Here, the projection point corresponds to the center O of the sphere. When using the standard projection, an appropriate coherent spatial audio image can be created by placing the desired (virtual) listening position at O, i.e. in the center of the circle illustrated in Fig. 6. In addition, virtual loudspeakers are located on the surface of the sphere, i.e. along the illustrated circle as explained above. This corresponds to standard surround sound reproduction where the desired listening position is located in the sweet spot of the virtual speakers.
Фиг. 7a представляет вид сверху при рассмотрении так называемой проекции малой планеты, которая представляет общую проекцию для рендеринга видео на 360°. В этом случае, точка проекции, из которой проецируется сферическое видео, расположена в положении L позади сферы вместо начала координат. Как можно видеть, это приводит к сдвинутому пиксельному положению на проекционной поверхности. При использовании проекции малой планеты, корректное (согласованное) аудиоизображение создается посредством размещения положения прослушивания в положении L позади сферы, в то время как положения виртуальных громкоговорителей остаются на поверхности сферы. Это означает, что модифицированные положения виртуальных громкоговорителей вычисляются относительно положения прослушивания L, как описано выше. Плавный переход между различными проекциями (в видео и аудио) может достигаться посредством изменения длины вектора p на фиг. 7a.Fig. 7a is a top view of the so-called minor planet projection, which is a general projection for 360° video rendering. In this case, the projection point from which the spherical video is projected is located at the L position behind the sphere instead of the origin. As can be seen, this results in a shifted pixel position on the projection surface. When using a minor planet projection, a correct (consistent) audio image is created by placing the listening position at the L position behind the sphere while the virtual speaker positions remain on the surface of the sphere. This means that the modified positions of the virtual speakers are calculated with respect to the listening position L, as described above. A smooth transition between different projections (in video and audio) can be achieved by changing the length of the vector p in FIG. 7a.
В качестве другого примера, модификация положения в этом варианте осуществления также может использоваться для создания эффекта акустического масштабирования, который имитирует визуальное масштабирование. Чтобы имитировать визуальное масштабирование, можно перемещать положение виртуального громкоговорителя к направлению масштабирования. В этом случае, виртуальный громкоговоритель в направлении масштабирования должен приближаться, тогда как виртуальные громкоговорители на стороне (относительно направления масштабирования) должны перемещаться наружу, аналогично по мере того, как видеообъекты должны перемещаться в масштабированном видеоизображении.As another example, position modification in this embodiment can also be used to create an acoustic zoom effect that mimics visual zoom. To simulate visual scaling, you can move the position of the virtual speaker towards the scaling direction. In this case, the virtual speaker in the zoom direction should move closer, while the virtual speakers on the side (relative to the zoom direction) should move outward, similarly as video objects should move in the zoomed video image.
Далее следует обратиться к фиг. 7b и фиг. 7c. В общем, пространственное преобразование применяется, например, чтобы совмещать пространственное аудиоизображение с различными проекциями соответствующего видеоизображения, например, на 360°. Фиг. 7b иллюстрирует вид сверху стандартной проекции сферического видео. Круг указывает сферическое видео, и горизонтальная линия указывает видеодисплей или проекционную поверхность. Вращение сферического изображения относительно видеодисплея представляет собой ориентацию проекции (не проиллюстрирована), которая может задаваться произвольно для сферического видео. Отображаемое изображение обнаруживается посредством проецирования сферического видео из точки S проекции, как указано посредством сплошной стрелки. Здесь, точка S проекции соответствует центру сферы. При использовании стандартной проекции, соответствующее пространственное аудиоизображение может создаваться посредством размещения (виртуального) опорного положения прослушивания в S, т.е. в центре круга, проиллюстрированного на фиг. 7b. Кроме того, виртуальные громкоговорители расположены на поверхности сферы, т.е. вдоль проиллюстрированного круга. Это соответствует стандартному воспроизведению пространственного звука, при котором опорное положение прослушивания расположено в зоне наилучшего восприятия, например, в центре сферы по фиг. 7b.Next, refer to FIG. 7b and fig. 7c. In general, a spatial transformation is applied, for example, to combine a spatial audio image with different projections of the corresponding video image, for example, 360°. Fig. 7b illustrates a top view of a standard spherical video projection. A circle indicates a spherical video, and a horizontal line indicates a video display or projection surface. The rotation of the spherical image relative to the video display is a projection orientation (not illustrated) that can be set arbitrarily for the spherical video. The displayed image is detected by projecting a spherical video from the projection point S as indicated by a solid arrow. Here, the point S of the projection corresponds to the center of the sphere. When using a standard projection, an appropriate spatial audio image can be created by placing a (virtual) reference listening position at S, i.e. in the center of the circle illustrated in Fig. 7b. In addition, the virtual loudspeakers are located on the surface of the sphere, i.e. along the illustrated circle. This corresponds to standard surround sound reproduction in which the reference listening position is located in the sweet spot, such as the center of the sphere of FIG. 7b.
Фиг. 7c иллюстрирует вид сверху проекции малой планеты. В этом случае, точка S проекции, из которой проецируется сферическое видео, расположена позади сферы вместо начала координат. При использовании проекции малой планеты, корректное аудиоизображение создается посредством размещения опорного положения прослушивания в положении S позади сферы, в то время как положения виртуальных громкоговорителей остаются на поверхности сферы. Это означает, что модифицированные положения виртуальных громкоговорителей вычисляются относительно опорного положения S прослушивания, которая зависит от проекции. Плавный переход между различными проекциями может достигаться посредством изменения высоты h на фиг. 7c, т.е. посредством перемещения точки S проекции (или опорного положения прослушивания, соответственно) вдоль вертикальной сплошной линии. Таким образом, положение S прослушивания, которое отличается от центра круга на фиг. 7c, представляет собой целевое положение прослушивания, и направление взгляда, отличающееся от направления взгляда на дисплей на фиг. 7c, представляет собой целевую ориентацию прослушивания. Чтобы создавать пространственно преобразованные аудиоданные, сферические гармоники, например, вычисляются для модифицированных положений виртуальных громкоговорителей вместо исходных положений виртуальных громкоговорителей. Модифицированные положения виртуальных громкоговорителей обнаруживаются посредством перемещения опорного положения S прослушивания, как проиллюстрировано, например, на фиг. 7c или, согласно видеопроекции.Fig. 7c illustrates a top view projection of a minor planet. In this case, the projection point S from which the spherical video is projected is located behind the sphere instead of the origin. When using a minor planet projection, a correct audio image is created by placing the reference listening position at position S behind the sphere while the virtual speaker positions remain on the surface of the sphere. This means that the modified positions of the virtual speakers are calculated with respect to the reference listening position S, which depends on the projection. A smooth transition between different projections can be achieved by changing the height h in FIG. 7c, i.e. by moving the projection point S (or reference listening position, respectively) along the vertical solid line. Thus, the listening position S, which is different from the center of the circle in FIG. 7c is the target listening position, and the viewing direction is different from the viewing direction of the display in FIG. 7c represents the listening target orientation. To create spatially transformed audio data, spherical harmonics are, for example, computed for modified virtual speaker positions instead of the original virtual speaker positions. Modified virtual speaker positions are detected by moving the listening position reference S, as illustrated, for example, in FIG. 7c or according to the video projection.
Вариант осуществления 4a. Второе пространственное преобразование (1050) для амбиофонического вывода (фиг. 13a)Embodiment 4a. Second spatial transform (1050) for ambiophonic output (FIG. 13a)
Этот вариант осуществления описывает реализацию второго пространственного преобразования (1050) для вычисления выходных аудиосигналов в амбиофонической области.This embodiment describes the implementation of the second spatial transform (1050) for computing output audio signals in the ambiophonic domain.
Для вычисления требуемых выходных сигналов можно преобразовать (фильтрованные) сигналы S'(φj,υj) виртуальных громкоговорителей с использованием сферического гармонического разложения 1052 (SHD), которое вычисляется в качестве взвешенной суммы по всем J сигналов виртуальных громкоговорителей согласно [FourierAcoust]:To calculate the required output signals, the (filtered) virtual loudspeaker signals S'(φj,υj) can be converted using spherical harmonic decomposition 1052 (SHD), which is calculated as a weighted sum over all J virtual loudspeaker signals according to [FourierAcoust]:
. .
Здесь, являются сопряженно-комплексными сферическими гармониками уровня (порядка) l и режима m. Сферические гармоники оцениваются в модифицированных положениях виртуальных громкоговорителей вместо исходных положений виртуальных громкоговорителей. Это гарантирует, что выходные аудиосигналы создаются из перспективы требуемого положения прослушивания с требуемой ориентацией прослушивания. Безусловно, выходные сигналы могут вычисляться вплоть до произвольного определяемого пользователем уровня (порядка) L'.Here, are conjugate-complex spherical harmonics of level (order) l and mode m. Spherical harmonics are evaluated in modified positions virtual speakers instead of the original virtual speaker positions. This ensures that the audio output signals are created from the perspective of the desired listening position with the desired listening orientation. Certainly the outputs can be calculated up to an arbitrary user-defined level (order) L'.
Выходные сигналы в этом варианте осуществления также могут вычисляться в качестве одного матричного умножения из (фильтрованных) сигналов виртуальных громкоговорителей, т.е.:The output signals in this embodiment can also be calculated as a single matrix multiplication of the (filtered) virtual speaker signals, i.e.:
, ,
где:Where:
содержит сферические гармоники, оцененные в модифицированных положениях виртуальных громкоговорителей, и:contains spherical harmonics estimated at modified virtual loudspeaker positions, and:
содержит выходные сигналы вплоть до требуемого амбиофонического уровня (порядка) L'.contains output signals up to the required ambiophonic level (order) L'.
Вариант осуществления 4b. Второе пространственное преобразование (1050) для вывода громкоговорителя (фиг. 13b)Embodiment 4b. Second Spatial Transform (1050) for Speaker Output (FIG. 13b)
Этот вариант осуществления описывает реализацию второго пространственного преобразования (1050) для вычисления выходных аудиосигналов в области громкоговорителей. В этом случае предпочтительно преобразовать J (фильтрованных) сигналов S'(φj,υj) виртуальных громкоговорителей в сигналы громкоговорителей требуемой выходной конфигурации громкоговорителей с учетом модифицированных положений виртуальных громкоговорителей. В общем, требуемая выходная конфигурация громкоговорителей может задаваться произвольно. Широко используемые выходные конфигурации громкоговорителей, например, представляют собой 2.0 (стерео), 5.1, 7.1, 11.1 или 22.2. Ниже по тексту, число выходных громкоговорителей обозначается посредством L, и положения выходных громкоговорителей задаются посредством углов .This embodiment describes the implementation of the second spatial transform (1050) for computing output audio signals in the loudspeaker region. In this case, it is preferable to convert J (filtered) virtual speaker signals S'(φj,υj) into speaker signals of the required speaker output configuration, taking into account the modified positions virtual speakers. In general, the desired speaker output configuration can be set arbitrarily. Commonly used speaker output configurations are, for example, 2.0 (stereo), 5.1, 7.1, 11.1, or 22.2. Below, the number of output speakers is denoted by L, and the positions of the output speakers are given by the angles .
Для преобразования 1053 (фильтрованных) сигналов виртуальных громкоговорителей в требуемый формат громкоговорителей, предпочтительно использовать тот же подход, что и в варианте осуществления 1b, т.е. следует применять матрицу статического преобразования для громкоговорителей. В этом случае, сигналы громкоговорителей требуемого вывода вычисляются с помощью:To convert 1053 (filtered) virtual speaker signals to the desired speaker format, it is preferable to use the same approach as in Embodiment 1b, ie. a static transformation matrix for loudspeakers should be applied. In this case, the speaker signals of the desired output are calculated using:
, ,
где s'(k, n) содержит (фильтрованные) сигналы виртуальных громкоговорителей, a'(k, n) содержит L выходных сигналов громкоговорителей, и C представляет собой матрицу преобразования формата. Матрица преобразования формата вычисляется с использованием углов выходной конфигурации громкоговорителей, а также модифицированных положений виртуальных громкоговорителей. Это гарантирует, что выходные аудиосигналы создаются из перспективы требуемого положения прослушивания с требуемой ориентацией прослушивания. Матрица C преобразования может вычисляться так, как пояснено в [FormatConv], посредством использования, например, схемы панорамирования VBAP [Vbap].where s'(k, n) contains the (filtered) virtual speaker signals, a'(k, n) contains the L speaker outputs, and C is the format transformation matrix. The format conversion matrix is calculated using angles loudspeaker output configuration as well as modified positions virtual speakers. This ensures that the audio output signals are created from the perspective of the desired listening position with the desired listening orientation. The transformation matrix C may be calculated as explained in [FormatConv] by using, for example, the VBAP panning scheme [Vbap].
Вариант осуществления 4c. Второе пространственное преобразование (1050) для бинаурального вывода (фиг. 13c или фиг. 13d)Embodiment 4c. Second Spatial Transform (1050) for binaural output (FIG. 13c or FIG. 13d)
Второе пространственное преобразование (1050) может создавать выходные сигналы в бинауральной области для бинаурального воспроизведения звука. Один способ состоит в умножении 1054 J (фильтрованных) сигналов S'(φj,υj) виртуальных громкоговорителей на соответствующую передаточную функцию восприятия звука человеком (HRTF) и суммировании результирующих сигналов, т.е.:The second spatial transform (1050) may generate output signals in the binaural region for binaural sound reproduction. One way is to multiply 1054 J (filtered) virtual speaker signals S'(φj,υj) by the corresponding human audio perception transfer function (HRTF) and sum the resulting signals, i.e.:
, ,
, ,
где и являются бинауральными выходными сигналами для левого и правого уха, соответственно, и и являются соответствующими HRTF для j-ого виртуального громкоговорителя. Следует отметить, что используются HRTF для модифицированных направлений виртуальных громкоговорителей. Это гарантирует, что бинауральные выходные сигналы создаются из перспективы требуемого положения прослушивания с требуемой ориентацией прослушивания.Where And are the binaural outputs for the left and right ear, respectively, and And are the corresponding HRTFs for the jth virtual speaker. It should be noted that HRTFs are used for modified directions virtual speakers. This ensures that the binaural output signals are created from the perspective of the desired listening position with the desired listening orientation.
Альтернативный способ создавать бинауральные выходные сигналы состоит в этом, чтобы выполнять первое или прямое преобразование 1055 сигналов виртуальных громкоговорителей в область громкоговорителей, как описано в варианте осуществления 4b, например, в промежуточный формат громкоговорителей. Впоследствии, выходные сигналы громкоговорителей из промежуточного формата громкоговорителей могут бинаурализироваться посредством применения 1056 HRTFT для левого и правого уха, согласно положениям выходной конфигурации громкоговорителей.An alternative way to create binaural output signals is to perform a first or
Бинауральные выходные сигналы также могут вычисляться с применением матричного умножения к (фильтрованным) сигналам виртуальных громкоговорителей, т.е.:Binaural output signals can also be computed by applying matrix multiplication to (filtered) virtual speaker signals, i.e.:
, ,
где:Where:
содержит HRTF для модифицированных положений виртуальных громкоговорителей J для левого и правого уха, соответственно, и вектор:contains the HRTF for the modified J virtual speaker positions for the left and right ear, respectively, and the vector:
содержит два бинауральных аудиосигнала.contains two binaural audio signals.
Вариант 5 осуществления. Варианты осуществления с использованием матричного умноженияOption 5 implementation. Embodiments Using Matrix Multiplication
Из предыдущих вариантов осуществления очевидно, что выходные сигналы a'(k, n) могут вычисляться из входных сигналов a(k, n) посредством применения одного матричного умножения, т.е.:It is clear from the previous embodiments that the outputs a'(k, n) can be computed from the inputs a(k, n) by applying a single matrix multiplication, i.e.:
, ,
где матрица T(φ'1...J,υ'1...J) преобразования может вычисляться следующим образом:where the transformation matrix T(φ' 1...J ,υ' 1...J ) can be calculated as follows:
. .
Здесь, C(φ1...J,υ1...J) является матрицей для первого пространственного преобразования, которая может вычисляться так, как описано в вариантах 1(a-d) осуществления, w(p, l) является факультативным пространственным фильтром, описанным в варианте 2 осуществления, обозначает оператор, который преобразует вектор в диагональную матрицу, причем вектор представляет собой главную диагональ, и D(φ'1...J,υ'1... J) является матрицей для второго пространственного преобразования в зависимости от требуемого положению и ориентации прослушивания, которая может вычисляться так, как описано в вариантах 4(a-c) осуществления. В варианте осуществления, можно предварительно вычислять матрицу T(φ'1...J,υ'1...J) для требуемых положений и ориентаций прослушивания (например, для дискретной сетки положений и ориентаций), чтобы снижать вычислительную сложность. В случае аудиообъекта с введенными варьирующимися во времени положениями, только время-независимые части вышеприведенного вычисления T(φ'1...J,υ'1...J) могут предварительно вычисляться, чтобы снижать вычислительную сложность.Here, C(φ 1...J ,υ 1...J ) is the matrix for the first spatial transform, which can be computed as described in embodiments 1(ad), w(p, l) is an optional spatial filter described in
Далее проиллюстрирована предпочтительная реализация обработки звукового поля, выполняемой посредством процессора 1000 звукового поля. На этапе 901 или 1010, два или более входных аудиосигналов принимаются во временной области или в частотно-временной области, при этом, в случае приема сигнала в частотно-временной области, гребенка аналитических фильтров использована для получения частотно-временного представления.The following illustrates a preferred implementation of the sound field processing performed by the
На этапе 1020, первое пространственное преобразование выполняется для получения набора сигналов виртуальных громкоговорителей. На этапе 1030, факультативная пространственная фильтрация выполняется посредством применения пространственного фильтра к сигналам виртуальных громкоговорителей. В случае неприменения этапа 1030 на фиг. 14, пространственная фильтрация вообще не выполняется, и модификация положений виртуальных громкоговорителей в зависимости от положения и ориентации прослушивания, т.е. в зависимости от целевого положения прослушивания и/или целевой ориентации выполняется так, как указано, например, на 1040b. На этапе 1050, второе пространственное преобразование выполняется в зависимости от модифицированных положений виртуальных громкоговорителей для получения выходных аудиосигналов. На этапе 1060, факультативный вариант применения гребенки синтезирующих фильтров выполняется для получения выходных сигналов во временной области.At 1020, a first spatial transformation is performed to obtain a set of virtual speaker signals. At 1030, optional spatial filtering is performed by applying a spatial filter to the virtual speaker signals. If
Таким образом, фиг. 14 иллюстрирует явное вычисление сигналов виртуальных громкоговорителей, факультативную явную фильтрацию сигналов виртуальных громкоговорителей и факультативную обработку сигналов виртуальных громкоговорителей или фильтрованных сигналов виртуальных громкоговорителей для вычисления выходных аудиосигналов представления обработанного звукового поля.Thus, FIG. 14 illustrates the explicit calculation of virtual speaker signals, optional explicit filtering of virtual speaker signals, and optional processing of virtual speaker signals or filtered virtual speaker signals to compute output audio signals of the processed sound field representation.
Фиг. 15 иллюстрирует другой вариант осуществления, в котором правило первого пространственного преобразования, такое как матрица первого пространственного преобразования, вычисляется в зависимости от требуемого формата входного аудиосигнала, в котором предполагается набор положений виртуальных громкоговорителей, проиллюстрированный на 1021. На этапе 1031, учитывается факультативный вариант применения пространственного фильтра, который зависит от требуемого положения и/или ориентации прослушивания, и пространственный фильтр, например, применяется к матрице первого пространственного преобразования посредством поэлементного умножения вообще без явного вычисления и обработки сигналов виртуальных громкоговорителей. На этапе 1040b, положения виртуальных громкоговорителей модифицируются в зависимости от положения и/или ориентации прослушивания, т.е. в зависимости от целевого положения и/или ориентации. На этапе 1051, матрица второго пространственного преобразования или, в общем, правило второго или обратного пространственного преобразования вычисляется в зависимости от модифицированных положений виртуальных громкоговорителей и требуемого формата выходного аудиосигнала. На этапе 1090, вычисленные матрицы в блоках 1031, 1021 и 1051 могут комбинироваться между собой и затем умножаются на входные аудиосигналы в форме одной матрицы. В качестве альтернативы, отдельные матрицы могут отдельно применяться к соответствующим данным, либо по меньшей мере две матрицы могут комбинироваться между собой для получения комбинированного определения преобразования, как поясняется относительно отдельных четырех случаев, проиллюстрированных относительно фиг. 10a-10d.Fig. 15 illustrates another embodiment in which a first spatial transform rule, such as a first spatial transform matrix, is computed depending on the desired input audio signal format, in which the virtual speaker position set illustrated at 1021 is assumed. At
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.Although some aspects are described in the context of a device, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, the aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having stored electronically readable control signals that interact (or are capable of interacting) with a programmable computer system. so that the corresponding method is carried out.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is carried out.
В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может сохраняться, например, на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is executed on the computer. The program code may be stored, for example, on a computer-readable medium.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на постоянном носителе хранения данных.Other embodiments comprise a computer program for carrying out one of the methods described herein stored on a computer-readable medium or on a permanent storage medium.
Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is running on a computer.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a stream of data or a sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional embodiment includes processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably carried out by any hardware device.
Вышеописанные варианты осуществления являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в качестве описания и пояснения вариантов осуществления в данном документе.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the configurations and details described herein should be apparent to those skilled in the art. Therefore, it is intended to be limited only by the scope of the following claims, and not by the specific details provided as a description and explanation of the embodiments herein.
Список источниковList of sources
[AmbiTrans] Kronlachner и Zotter "Spatial transformations for the enhancement of Ambisonics recordings", ICSA, 2014 год.[AmbiTrans] Kronlachner and Zotter "Spatial transformations for the enhancement of Ambisonics recordings", ICSA, 2014.
[FormatConv] M. M. Goodwin и J.-M. Jot "Multichannel surround format conversion and generalized upmix", AES 30th International Conference, 2007 год.[FormatConv] MM Goodwin and J.-M. Jot "Multichannel surround format conversion and generalized upmix", AES 30th International Conference, 2007.
[FourierAcoust] E.G. Williams "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", Academic Press, 1999 год.[FourierAcoust] E.G. Williams "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", Academic Press, 1999.
[WolframProj1] http://mathworld.wolfram.com/StereographicProjection.html.[WolframProj1] http://mathworld.wolfram.com/StereographicProjection.html.
[WolframProj2] http://mathworld.wolfram.com/GnomonicProjection.html.[WolframProj2] http://mathworld.wolfram.com/GnomonicProjection.html.
[RotMat] http://mathworld.wolfram.com/RotationMatrix.html.[RotMat] http://mathworld.wolfram.com/RotationMatrix.html.
[Vbap] V. Pulkki "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, этом 45 (6), 1997 год.[Vbap] V. Pulkki "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, this 45 (6), 1997.
[VirtualMic] O. Thiergart, G. Del Galdo, M. Taseska, E.A.P. Habets, Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays", Audio, Speech and Language Processing, IEEE Transactions on, этом 21 (12), 2013 год.[VirtualMic] O. Thiergart, G. Del Galdo, M. Taseska, E.A.P. Habets, Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays", Audio, Speech and Language Processing, IEEE Transactions on, this 21(12), 2013.
Claims (115)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EPPCT/EP2019/070373 | 2019-07-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2793625C1 true RU2793625C1 (en) | 2023-04-04 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2586842C2 (en) * | 2009-12-17 | 2016-06-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Device and method for converting first parametric spatial audio into second parametric spatial audio signal |
RU2602346C2 (en) * | 2012-08-31 | 2016-11-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Rendering of reflected sound for object-oriented audio information |
RU2609102C2 (en) * | 2011-12-02 | 2017-01-30 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method of spatial audio encoding streams combining based on geometry |
WO2018199942A1 (en) * | 2017-04-26 | 2018-11-01 | Hewlett-Packard Development Company, L.P. | Matrix decomposition of audio signal processing filters for spatial rendering |
WO2019012131A1 (en) * | 2017-07-14 | 2019-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2586842C2 (en) * | 2009-12-17 | 2016-06-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Device and method for converting first parametric spatial audio into second parametric spatial audio signal |
RU2609102C2 (en) * | 2011-12-02 | 2017-01-30 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method of spatial audio encoding streams combining based on geometry |
RU2602346C2 (en) * | 2012-08-31 | 2016-11-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Rendering of reflected sound for object-oriented audio information |
WO2018199942A1 (en) * | 2017-04-26 | 2018-11-01 | Hewlett-Packard Development Company, L.P. | Matrix decomposition of audio signal processing filters for spatial rendering |
WO2019012131A1 (en) * | 2017-07-14 | 2019-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description |
Non-Patent Citations (1)
Title |
---|
POLITIS A.S, PIHLAJAMAKI T., PULKKI V. Parametric spatial audio effects // Proc. of the 15th Int. Conference on Digital Audio Effects (DAFx-12), York, * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7220749B2 (en) | Method and Apparatus for Decoding Audio Soundfield Representation for Audio Playback | |
US11463834B2 (en) | Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
CN106664501B (en) | The systems, devices and methods of consistent acoustics scene reproduction based on the space filtering notified | |
EP2502228B1 (en) | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal | |
JP7378575B2 (en) | Apparatus, method, or computer program for processing sound field representation in a spatial transformation domain | |
KR101715541B1 (en) | Apparatus and Method for Generating a Plurality of Parametric Audio Streams and Apparatus and Method for Generating a Plurality of Loudspeaker Signals | |
US11863962B2 (en) | Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description | |
EP3338462A1 (en) | Apparatus, method or computer program for generating a sound field description | |
RU2793625C1 (en) | Device, method or computer program for processing sound field representation in spatial transformation area | |
US12022276B2 (en) | Apparatus, method or computer program for processing a sound field representation in a spatial transform domain |