RU2783150C1 - Dynamic processing in devices with different playback functionalities - Google Patents

Dynamic processing in devices with different playback functionalities Download PDF

Info

Publication number
RU2783150C1
RU2783150C1 RU2022101775A RU2022101775A RU2783150C1 RU 2783150 C1 RU2783150 C1 RU 2783150C1 RU 2022101775 A RU2022101775 A RU 2022101775A RU 2022101775 A RU2022101775 A RU 2022101775A RU 2783150 C1 RU2783150 C1 RU 2783150C1
Authority
RU
Russia
Prior art keywords
speaker
speakers
data
spatial
processing
Prior art date
Application number
RU2022101775A
Other languages
Russian (ru)
Inventor
Алан Дж. СИФЕЛДТ
Джошуа Б. ЛАНДО
Даниэль АРТЕАГА
Original Assignee
Долби Лабораторис Лайсэнзин Корпорейшн
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лабораторис Лайсэнзин Корпорейшн, Долби Интернешнл Аб filed Critical Долби Лабораторис Лайсэнзин Корпорейшн
Application granted granted Critical
Publication of RU2783150C1 publication Critical patent/RU2783150C1/en

Links

Images

Abstract

FIELD: acoustics.
SUBSTANCE: invention relates to acoustics. The audio data processing method consists in obtaining by the control system and through the system of interfaces the configuration data of dynamic processing of individual speakers for each of the plurality of speakers of the listening environment. The configuration data contains a set of playback limit threshold values ​​for each speaker of the plurality of speakers. The control system determines the listening environment dynamics processing configuration data for a plurality of speakers, wherein the determination of the listening environment dynamics processing configuration data includes averaging the playback limitation thresholds over the plurality of speakers. Audio data is received by the control system through the system of interfaces, containing one or more audio signals and associated spatial data, the spatial data containing at least one of the channel data or spatial metadata. Performed by the dynamics processing control system on the audio data based on the configuration data of the dynamics processing of the listening environment to generate the processed audio data. The processed audio data is rendered by the control system for playback through a set of loudspeakers containing at least some of the plurality of loudspeakers. The rendered audio signals are transmitted through the interface system to a set of loudspeakers.
EFFECT: reducing unwanted shift in the spatial balance of the mix.
16 cl, 33 dwg

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS

Данная заявка заявляет приоритет по заявке на патент Испании №P201930702, поданной 30 июля 2019 г., предварительной заявке на патент США № 62/971421, поданной 7 февраля 2020 г., предварительной заявке на патент США № 62/705410, поданной 25 июня 2020 г., предварительной заявке на патент США № 62/880115, поданной 30 июля 2019 г., и предварительной заявке на патент США № 62/705143, поданной 12 июня 2020 г., каждая из которых полностью включена в данный документ посредством ссылки.This application claims priority over Spanish Patent Application No. P201930702 filed July 30, 2019, US Provisional Application No. 62/971421 filed February 7, 2020, US Provisional Application No. 62/705410 filed June 25, 2020 U.S. Provisional Application No. 62/880115, filed July 30, 2019, and U.S. Provisional Application No. 62/705143, filed June 12, 2020, each of which is hereby incorporated by reference in its entirety.

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к системам и способам воспроизведения, и рендеринга для воспроизведения, аудиоданных с помощью некоторых или всех динамиков набора динамиков.The present invention relates to systems and methods for reproducing, and rendering for playback, audio data using some or all of the speakers in a set of speakers.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Звуковые устройства, включающие, но без ограничения, интеллектуальные звуковые устройства, широко распространены и становятся распространенными особенностями многих домов. Хотя существующие системы и способы для управления звуковыми устройствами обеспечивают преимущества, были бы целесообразными усовершенствованные системы и способы.Audio devices, including but not limited to smart audio devices, are widespread and are becoming common features in many homes. While existing systems and methods for controlling audio devices provide advantages, improved systems and methods would be desirable.

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ И ТЕРМИНОЛОГИЯSYMBOLS AND TERMINOLOGY

По всему данному описанию, включая формулу изобретения, термины «динамик» и «громкоговоритель» используются как синонимы для обозначения любого издающего звук преобразователя (или набора преобразователей), приводимого в действие одним сигналом, подаваемым на динамик. Обычный набор наушников содержит два динамика. Throughout this specification, including the claims, the terms "speaker" and "loudspeaker" are used interchangeably to refer to any sound-producing transducer (or set of transducers) driven by a single signal applied to a speaker. A typical set of headphones contains two speakers.

По всему данному описанию, включая формулу изобретения, выражение выполнения операции «над» сигналом или данными (например, фильтрация, масштабирование, преобразование или применение коэффициента усиления к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно над сигналом или данными или над обработанной версией сигнала или данных (например, над версией сигнала, который был подвергнут предварительной фильтрации или предварительной обработке перед выполнением над ним указанной операции). Throughout this specification, including the claims, the expression performing an operation "on" a signal or data (e.g., filtering, scaling, transforming, or applying a gain to a signal or data) is used broadly to mean performing an operation directly on the signal or data, or on processed version of the signal or data (for example, on the version of the signal that was subjected to pre-filtering or pre-processing before performing a specified operation on it).

По всему данному описанию, включая формулу изобретения, выражение «система» используется в широком смысле для обозначения устройства, системы или подсистемы. Например, подсистема, которая реализует декодер, может называться системой декодера, и система, содержащая такую подсистему (например, система, которая генерирует Х выходных сигналов в ответ на ряд входных сигналов, в которой подсистема генерирует М входных сигналов, а остальные Х−М входных сигналов принимаются из внешнего источника), также может называться системой декодера.Throughout this specification, including the claims, the term "system" is used in a broad sense to refer to a device, system, or subsystem. For example, a subsystem that implements a decoder may be called a decoder system, and a system containing such a subsystem (e.g., a system that generates X outputs in response to a number of inputs, in which the subsystem generates M inputs and the remaining X−M inputs signals are received from an external source), may also be referred to as a decoder system.

По всему данному описанию, включая формулу изобретения, термин «процессор» используется в широком смысле для обозначения системы или устройства, запрограммированного или иным образом выполненного (например, с использованием программного обеспечения или программно-аппаратного обеспечения) с возможностью выполнения операций в отношении данных (например, аудио или видео или других данных изображений). Примеры процессоров включают программируемую пользователем вентильную матрицу (или другую настраиваемую интегральную схему или набор микросхем), процессор цифровой обработки сигналов, запрограммированный и/или иным образом выполненный с возможностью выполнения конвейерной обработки в отношении аудио или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемую микропроцессорную интегральную схему или набор микросхем. Throughout this specification, including the claims, the term "processor" is used broadly to refer to a system or device programmed or otherwise made (for example, using software or firmware) capable of performing operations on data (for example, , audio or video or other image data). Example processors include a field programmable gate array (or other configurable integrated circuit or chipset), a digital signal processor programmed and/or otherwise configured to perform pipelining on audio or other audio data, a general purpose programmable processor, or a computer, and programmable microprocessor integrated circuit or chipset.

По всему данному описанию, включая формулу изобретения, термин «соединяет» или «соединенный» используется для обозначения либо непосредственного, либо косвенного соединения. Таким образом, если первое устройство соединено со вторым устройством, данное соединение может быть осуществлено через непосредственное соединение или через опосредованное соединения посредством других устройств или соединений.Throughout this specification, including the claims, the term "connects" or "connected" is used to mean either direct or indirect connection. Thus, if a first device is connected to a second device, the connection may be through a direct connection or through an indirect connection through other devices or connections.

В контексте данного документа выражение «интеллектуальное звуковое устройство» используется для обозначения интеллектуального устройства, представляющего собой или звуковое устройство специального назначения, или виртуального цифрового помощника (например, подключенный виртуальный цифровой помощник). Звуковое устройство специального назначения представляет собой устройство (например, телевизор или мобильный телефон), содержащее или соединенное с по меньшей мере одним микрофоном (а также, необязательно, содержащее или соединенное с по меньшей мере одним динамиком и/или по меньшей мере одной камерой), и/или по меньшей мере одним динамиком (также, необязательно, содержащим или соединенным с по меньшей мере одним микрофоном), и выполненное в значительной степени или в первую очередь для достижения одной цели. Хотя телевизор обычно может воспроизводить (или рассматривается как способный воспроизводить) звук из материала программы, в большинстве случаев современный телевизор запускает какую-либо операционную систему, в которой локально запускаются приложения, в том числе приложение для просмотра телевизионных передач. Аналогично, входные и выходные звуковые данные в мобильном телефоне могут осуществлять многое, но они обслуживаются приложениями, запущенными на телефоне. В этом смысле звуковое устройство специального назначения, содержащее динамик (динамики) и микрофон (микрофоны), часто выполнено с возможностью запуска локального приложения и/или службы для непосредственного использования динамика (динамиков) и микрофона (микрофонов). Некоторые звуковые устройства специального назначения могут быть выполнены с возможностью группировки друг с другом с целью выполнения воспроизведения аудиоданных в некоторой зоне или настраиваемой пользователем области.In the context of this document, the term "smart audio device" is used to refer to an intelligent device that is either a dedicated audio device or a virtual digital assistant (eg, a connected virtual digital assistant). A special purpose audio device is a device (for example, a television or mobile phone) containing or connected to at least one microphone (and optionally containing or connected to at least one speaker and/or at least one camera), and/or at least one speaker (also optionally containing or connected to at least one microphone), and performed largely or primarily to achieve one purpose. While a TV can usually play (or be considered capable of playing) audio from program material, in most cases a modern TV will run some kind of operating system that runs applications locally, including an application for watching TV. Likewise, audio input and output on a mobile phone can do a lot, but it is serviced by applications running on the phone. In this sense, a special purpose audio device comprising speaker(s) and microphone(s) is often configured to run a local application and/or service to directly use the speaker(s) and microphone(s). Some special purpose audio devices may be configured to group with each other in order to perform playback of audio data in a certain zone or user configurable area.

Виртуальный цифровой помощник (например, подключенный виртуальный цифровой помощник) представляет собой устройство (например, интеллектуальный динамик или встроенное устройство голосового помощника), содержащее или соединенное с по меньшей мере одним микрофоном (а также, необязательно, содержащее или соединенное с по меньшей мере одним динамиком и/или по меньшей мере одной камерой) и которое может обеспечивать возможность использования множества устройств (отличных от виртуального цифрового помощника) для приложений, которые в известном смысле доступны в облаке или иначе не реализованы в самом виртуальном цифровом помощнике или на нем. Виртуальные цифровые помощники могут иногда действовать совместно, например, весьма обособленным и условно заданным образом. Например, два или более виртуальных цифровых помощников могут действовать совместно в том смысле, что один из них, т. е. тот, который наиболее уверен в том, что услышал пробуждающее слово, откликается на это слово. Подключенные устройства могут образовывать некоторого рода группу, которой может управлять одно главное приложение, которое может представлять собой (или реализовывать) виртуального цифрового помощника.A virtual digital assistant (for example, a connected virtual digital assistant) is a device (for example, a smart speaker or an embedded voice assistant device) containing or connected to at least one microphone (and optionally containing or connected to at least one speaker and/or at least one camera) and which may enable the use of multiple devices (other than the virtual digital assistant) for applications that are in a sense available in the cloud or otherwise not implemented in or on the virtual digital assistant itself. Virtual digital assistants can sometimes work together, for example, in a very separate and conditional manner. For example, two or more virtual digital assistants can work together in the sense that one of them, i.e. the one who is most confident that he heard the wake-up word, responds to this word. The connected devices may form some kind of group that may be controlled by a single master application, which may be (or implement) a virtual digital assistant.

В контексте данного документа термин «пробуждающее слово» используется в широком смысле для обозначения любого звука (например, слова, произносимого человеком, или какого-либо другого звука), при этом интеллектуальное звуковое устройство выполнено с возможностью пробуждения в ответ на обнаружение («слышимости») звука (с использованием по меньшей мере одного микрофона, содержащегося в интеллектуальном звуковом устройстве или соединенного с ним, или по меньшей мере одного другого микрофона). В этом контексте «пробуждение» означает вхождение устройства в состояние, в котором оно ожидает (т. е. старается расслышать) звуковую команду. В некоторых случаях то, что может называться в данном документе «пробуждающим словом» может содержать более одного слова, например фразу.In the context of this document, the term "wake-up word" is used in a broad sense to refer to any sound (for example, a word spoken by a person, or some other sound), while the intelligent audio device is configured to wake up in response to detection ("audibility" ) sound (using at least one microphone contained in or connected to an intelligent audio device, or at least one other microphone). In this context, "waking up" means entering a state in which the device is waiting for (i.e., trying to hear) a sound command. In some cases, what may be referred to in this document as a "wake up word" may contain more than one word, such as a phrase.

В контексте данного документа термин «детектор пробуждающего слова» обозначает устройство, выполненное с возможностью (или программное обеспечение, содержащее команды для конфигурирования устройства) непрерывного поиска совпадения между признаками звука (например, речи) в реальном времени и обученной моделью. Обычно событие пробуждающего слова инициируется всякий раз, когда детектор пробуждающего слова определяет, что вероятность обнаружения пробуждающего слова превышает предварительно заданный порог. Например, этот порог может представлять собой предварительно заданный порог, настроенный на предоставление удовлетворительного компромисса между коэффициентами ложного доступа и ложного отказа. После наступления события пробуждающего слова устройство может входить в состояние (которое можно называть «пробужденным» состоянием или состоянием «концентрации внимания»), в котором оно слушает команду и при приеме команды переходит к большему средству распознавания с большим объемом вычислений.As used herein, the term "wake-up word detector" refers to a device capable of (or software containing instructions for configuring the device) continuously searching for a match between real-time audio (eg, speech) features and a trained model. Typically, a wakeup word event is triggered whenever the wakeup word detector determines that the probability of detecting a wakeup word exceeds a predetermined threshold. For example, this threshold may be a predetermined threshold tuned to provide a satisfactory trade-off between false access and false reject rates. After a wake-up word event occurs, the device may enter a state (which may be referred to as a "wake" or "attention" state) in which it listens for a command and, upon receiving the command, moves to a larger, more computationally intensive recognizer.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Некоторые варианты осуществления включают способы рендеринга (или рендеринга и воспроизведения) пространственного звукового микса (например, рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере одним (например, всеми или некоторыми) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств и/или по меньшей мере одним (например, всеми или некоторыми) из динамиков другого набора динамиков. Некоторые варианты осуществления представляют собой способы (или системы) для такого рендеринга (например, включающего генерирование сигналов, подаваемых на динамики), а также воспроизведения подвергнутых рендерингу аудиоданных (например, воспроизведения сгенерированных сигналов, подаваемых на динамики).Some embodiments include methods for rendering (or rendering and playing) a spatial audio mix (e.g., rendering an audio data stream or multiple audio data streams) for playback by at least one (e.g., all or some) of the smart audio devices of a set of smart audio devices and/or at least one (eg, all or some) of the speakers of the other set of speakers. Some embodiments are methods (or systems) for such rendering (eg, including generating signals to speakers) as well as playback of rendered audio data (eg, playback of generated signals to speakers).

Один класс вариантов осуществления включает способы рендеринга (или рендеринга и воспроизведения) аудиоданных по меньшей мере одним (например, всеми или некоторыми) из множества скоординированных (организованных) интеллектуальных звуковых устройств. Например, набор интеллектуальных звуковых устройств, присутствующих (в системе) в доме пользователя, можно организовать для одновременной обработки множества вариантов использования, включая гибкий рендеринг аудиоданных для воспроизведения всеми или некоторыми (т. е. динамиком (динамиками), заключенным в или соединенным с некоторыми или всеми) из интеллектуальных звуковых устройств.One class of embodiments includes methods for rendering (or rendering and playing) audio data by at least one (eg, all or some) of a plurality of coordinated (organized) smart audio devices. For example, a set of smart audio devices present (on the system) in a user's home can be arranged to handle multiple use cases simultaneously, including flexible rendering of audio data for playback by all or some (i.e., speaker(s) enclosed in or connected to some or all) from smart audio devices.

Некоторые варианты осуществления настоящего изобретения представляют собой системы и способы для обработки аудиоданных, которая включает рендеринг аудиоданных (например, рендеринг пространственного звукового микса, например, путем рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере двумя динамиками (например, всеми или некоторыми из динамиков набора динамиков), и которая включает:Some embodiments of the present invention are systems and methods for processing audio data, which includes rendering audio data (e.g., rendering a spatial audio mix, e.g., by rendering an audio data stream or multiple audio data streams) for playback by at least two speakers (e.g., all or some from the speakers of the speaker set), and which includes:

(a) комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (таких как пороги ограничения (пороги ограничения воспроизведения) отдельных громкоговорителей, посредством чего определяются конфигурационные данные динамической обработки среды прослушивания для множества громкоговорителей (такие как комбинированные пороги); (a) combining individual speaker dynamics processing configuration data (such as clipping thresholds (playback limitation thresholds) of individual speakers, whereby listening environment dynamics processing configuration data for a plurality of speakers (such as combined thresholds) is determined);

(b) выполнение динамической обработки в отношении аудиоданных (например, потока (потоков) аудиоданных, отражающих пространственный звуковой микс) с применением конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей (например, комбинированных порогов) с целью генерирования обработанных аудиоданных; и (b) performing dynamics processing on audio data (eg, audio data stream(s) reflecting a spatial audio mix) using listening environment dynamics configuration data for a plurality of speakers (eg, combined thresholds) to generate processed audio data; and

(c) рендеринг обработанных аудиоданных в сигналы, подаваемые на динамики.(c) rendering the processed audio data into signals fed to speakers.

В некоторых вариантах осуществления обработка аудиоданных включает:In some embodiments, the processing of audio data includes:

(d) выполнение динамической обработки в отношении повергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя (например, ограничение сигналов, подаваемых на динамики, в соответствии с порогами ограничения воспроизведения, связанными с соответствующими динамиками, посредством чего генерируются ограниченные сигналы, подаваемые на динамики).(d) performing dynamics processing on rendered audio signals according to individual speaker dynamics configuration data for each speaker (e.g., clipping signals applied to speakers according to playback clipping thresholds associated with the respective speakers, whereby clipped signals to the speakers).

Динамики могут представлять собой динамики по меньшей мере одного (например, всех или некоторых) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств (или могут быть соединены по меньшей мере с одним из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств). В некоторых реализациях для генерирования ограниченных сигналов, подаваемых на динамики, на этапе (d) сигналы, подаваемые на динамики, сгенерированные на этапе (с), могут подвергаться обработке с помощью второго этапа динамической обработки (например, связанной с каждым динамиком системы динамической обработки), например, с целью генерирования ограниченных (т. е. динамически ограниченных) сигналов, подаваемых на динамики, перед их окончательным воспроизведением через динамики. Например, сигналы, подаваемые на динамики (или их подмножество, или их часть), могут доставляться в систему динамической обработки каждого отдельного из динамиков (например, в подсистему динамической обработки интеллектуального звукового устройства, при этом интеллектуальное звуковое устройство содержит соответствующий один из динамиков или соединено с ним), и обработанные выходные аудиоданные из каждой указанной системы динамической обработки можно использовать для генерирования ограниченного сигнала, подаваемого на динамик (например, динамически ограниченного сигнала, подаваемого на динамик), для соответствующего одного из динамиков. После динамической обработки для конкретных динамиков (иначе говоря, динамической обработки, выполненной независимо для каждого из динамиков) обработанные (например, динамически ограниченные) сигналы, подаваемые на динамики, можно использовать для приведения в действие динамиков с целью воспроизведения звука. The speakers may be the speakers of at least one (eg, all or some) of the smart sound devices in the smart sound device set (or may be connected to at least one of the smart sound devices in the smart sound device set). In some implementations, to generate limited speaker signals in step (d), the speaker signals generated in step (c) may be processed by a second dynamic processing step (e.g., a dynamics processing system associated with each speaker) , for example, to generate clipped (i.e., dynamically clipped) signals to the speakers before they are finally played back through the speakers. For example, signals applied to the speakers (or a subset or portion thereof) may be delivered to the dynamics processing system of each individual speaker (e.g., to the dynamics processing subsystem of an intelligent audio device, wherein the intelligent audio device comprises a corresponding one of the speakers or is connected with it), and the processed audio output from each of said dynamics processing systems can be used to generate a clipped speaker signal (eg, a dynamic clipped speaker signal) for a corresponding one of the speakers. After speaker-specific dynamics processing (in other words, dynamics processing performed independently for each of the speakers), the processed (eg, dynamically clipped) signals applied to the speakers can be used to drive the speakers for sound reproduction.

Первый этап динамической обработки (на этапе (b)) может быть выполнен с возможностью уменьшения отвлекающего восприятие сдвига в пространственном балансе, который иначе возникал бы при пропуске этапов (а) и (b) и генерировании динамически обработанных (например, ограниченных) сигналов, подаваемых на громкоговоритель, которые возникают из этапа (d) в ответ на исходные аудиоданные (а не в ответ на обработанные аудиоданные, генерируемые на этапе (b)). Это может предотвратить нежелательный сдвиг в пространственном балансе микширования. Второй этап динамической обработки на этапе (d), действующий в отношении подвергнутых рендерингу сигналов, подаваемых на динамики, из этапа (с), может быть выполнен с возможностью обеспечения отсутствия искажений динамиков, так как динамическая обработка на этапе (b) необязательно может обеспечивать уменьшение уровней сигналов ниже порогов для всех громкоговорителей. Комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (например, комбинирование порогов на первом этапе (этап (а)) в некоторых примерах может задействовать (например, включать) этап усреднения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах) или взятие минимального значения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах).The first stage of dynamics processing (in step (b)) can be configured to reduce the distracting shift in spatial balance that would otherwise occur if steps (a) and (b) were skipped and dynamically processed (e.g., clipped) signals generated to the loudspeaker that arise from step (d) in response to the original audio data (rather than in response to the processed audio data generated in step (b)). This can prevent unwanted shifts in the spatial balance of the mix. The second dynamics processing step in step (d) operating on the rendered speaker signals from step (c) may be configured to ensure that there is no speaker distortion since the dynamics processing in step (b) may optionally reduce signal levels below the thresholds for all loudspeakers. Combining the individual speaker dynamics configuration data (e.g., combining the thresholds in the first step (step (a)) in some examples may involve (e.g., include) an averaging step of the individual speaker dynamics processing configuration data (e.g., clipping thresholds) in the speakers (e.g., in smart audio devices) or taking the minimum value of individual speaker dynamics processing configuration data (eg clipping thresholds) in speakers (eg in smart audio devices).

В некоторых реализациях, когда первый этап динамической обработки (на этапе (b)) действует в отношении аудиоданных, указывающих на пространственное микширование (например, аудиоданные звуковой программы на основе объектов, содержащей по меньшей мире один канал объектов, а также, необязательно, по меньшей мере один канал динамика), этот первый этап можно реализовать в соответствии с техническим решением для обработки звуковых объектов путем использования пространственных зон. В этом случае комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, комбинированные пороги ограничения), связанные с каждой из зон, можно получить с помощью (или в виде) взвешенного среднего конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения отдельных динамиков), и эта весовая обработка может быть предоставлена или определена по меньшей мере частично посредством пространственной близости каждого динамика к зоне и/или положения в зоне.In some implementations, when the first stage of dynamics processing (in step (b)) operates on audio data indicative of spatial mixing (e.g., audio data of an object-based audio program containing at least one object channel in the world, and optionally at least at least one speaker channel), this first step can be implemented in accordance with the technical solution for processing audio objects by using spatial zones. In this case, the combined individual speaker dynamics configuration data (e.g., combined clipping thresholds) associated with each of the zones can be obtained using (or as) a weighted average of the individual speaker dynamics configuration data (e.g., individual speaker clipping thresholds), and this weighting may be provided or determined at least in part by each speaker's spatial proximity to the zone and/or position within the zone.

В одном классе вариантов осуществления система рендеринга аудиоданных может выполнять рендеринг по меньшей мере одного аудиопотока (например, множества аудиопотоков для одновременного воспроизведения) и/или воспроизводить подвергнутый рендерингу поток (потоки) через множество произвольно размещенных громкоговорителей, при этом по меньшей мере один (например, два или более) из указанных потоков программы представляет собой (или определяет) пространственное микширование. In one class of embodiments, an audio rendering system may render at least one audio stream (e.g., a plurality of audio streams for simultaneous playback) and/or play the rendered stream(s) through a plurality of randomly placed speakers, wherein at least one (e.g., two or more) of the specified program streams represent (or define) a spatial mix.

Аспекты настоящего изобретения могут включать систему, выполненную (например, запрограммированную) с возможностью выполнения одного или более раскрытых способов или их этапов, и материальный энергонезависимый машиночитаемый носитель данных, на котором реализовано постоянное хранение данных (например, диск или другой материальный носитель данных), и на котором хранится код для выполнения (например, исполняемый код для выполнения) одного или более раскрытых способов или их этапов. Например, некоторые варианты осуществления могут представлять собой или содержать программируемый процессор общего назначения, процессор цифровой обработки сигналов или микропроцессор, запрограммированный с использованием программного обеспечения или программно-аппаратного обеспечения и/или иным образом выполненный с возможностью выполнения любой из множества операций в отношении данных, включая один или более раскрытых способов или их этапов. Такой процессор общего назначения может представлять собой или содержать компьютерную систему, содержащую устройство ввода, запоминающее устройство и подсистему обработки, запрограммированную для (и/или иным образом выполненную с возможностью) выполнения одного или более раскрытых способов (или их этапов) в ответ на передаваемые в нее данные.Aspects of the present invention may include a system configured (eg, programmed) to perform one or more of the disclosed methods or steps thereof, and a tangible, non-volatile, computer-readable storage medium on which the data is permanently stored (eg, a disk or other tangible storage medium), and which stores code to execute (eg, executable code to execute) one or more of the disclosed methods or steps thereof. For example, some embodiments may be or comprise a general purpose programmable processor, digital signal processor, or microprocessor programmed using software or firmware and/or otherwise configured to perform any of a variety of operations on data, including one or more of the disclosed methods or steps thereof. Such a general purpose processor may be or comprise a computer system including an input device, a storage device, and a processing subsystem programmed to (and/or otherwise capable of) executing one or more of the disclosed methods (or steps thereof) in response to transmitted her data.

По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы с помощью таких способов, как способы обработки аудиоданных. В некоторых случаях эти способы могут быть по меньшей мере частично реализованы системой управления, такие как те, что описаны в данном документе. Некоторые такие способы включают получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В некоторых случаях конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Некоторые такие способы включают определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей.At least some aspects of the present invention may be implemented using techniques such as audio data processing techniques. In some cases, these methods may be at least partially implemented by the control system, such as those described herein. Some such methods include obtaining by the control system and through the interface system individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In some cases, individual speaker dynamics processing configuration data for one or more speakers from a plurality of speakers may correspond to one or more functionality of one or more speakers. In some examples, the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Some such methods include determining by the control system the configuration data of the dynamic processing of the listening environment for a plurality of speakers. In some examples, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of a plurality of speakers.

Некоторые такие способы включают прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. В некоторых примерах пространственные данные содержат данные каналов и/или пространственные метаданные. Некоторые такие способы включают выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Некоторые такие способы включают рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. Некоторые такие способы включают доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.Some such methods include receiving by the control system, via the system of interfaces, audio data containing one or more audio signals and associated spatial data. In some examples, the spatial data contains channel data and/or spatial metadata. Some such methods include performing dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data by the control system. Some such methods include rendering, by the control system, the processed audio data for playback through a loudspeaker set comprising at least some of the plurality of loudspeakers in order to obtain rendered audio signals. Some such methods involve delivering rendered audio signals via an interface system to a set of speakers.

В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. Набор данных порогов ограничения воспроизведения может, например, содержать пороги ограничения воспроизведения для каждого из множества частот.In some examples, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. The play limit threshold dataset may, for example, comprise play limit thresholds for each of the plurality of frequencies.

Согласно некоторым примерам, определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения. В некоторых таких примерах усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. Согласно некоторым реализациям взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some examples, determining the listening environment dynamic processing configuration data may include determining minimum playback limit thresholds across a plurality of speakers. In some cases, the determination of the listening environment dynamic processing configuration data may include averaging playback limit thresholds over multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the play limit thresholds to obtain average play limit thresholds across a plurality of speakers, determining minimum play limit thresholds across a plurality of speakers, and interpolating between the minimum play limit thresholds and the average play limit thresholds. In some such examples, averaging the play restriction thresholds may include determining a weighted average of the play restriction thresholds. According to some implementations, the weighted average may be based at least in part on the characteristics of the rendering process implemented by the control system.

В некоторых примерах выполнение динамической обработки в отношении аудиоданных может быть основано на пространственных зонах, при этом каждая из пространственных зон соответствует подмножеству среды прослушивания. Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых примерах взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. Согласно некоторым таким примерам, каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. В некоторых таких примерах номинальные пространственные положения соответствуют стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.In some examples, performing dynamics processing on audio data may be based on spatial zones, with each of the spatial zones corresponding to a subset of the listening environment. According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some examples, the weighted average may be based at least in part on the speaker contribution value for each speaker in each of the spatial zones. According to some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial zones. In some such examples, the nominal spatial positions correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker contribution value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.

Согласно некоторым реализациям способ также может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.In some implementations, the method may also include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered.

В некоторых примерах рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Одна или более динамически конфигурируемых функций могут быть основаны, например, на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей и/или одном или более внешних входных сигналах.In some examples, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. One or more dynamically configurable functions may be based on, for example, one or more audio signal properties, one or more speaker set properties, and/or one or more external input signals.

Согласно некоторым реализациям выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания. В некоторых таких реализациях динамическая обработка может выполняться отдельно для каждой из пространственных зон. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон.According to some implementations, performing dynamic processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment. In some such implementations, dynamic processing may be performed separately for each of the spatial regions. In some cases, the determination of the configuration data of the dynamic processing of the listening environment may be performed separately for each of the spatial zones.

В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым таким примерам, набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба.In some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. According to some such examples, a dynamic range compression data set may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data.

Согласно некоторым реализациям определение конфигурационных данных динамической обработки среды прослушивания может являться по меньшей мере частично основанным на комбинировании наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some implementations, the determination of the listening environment dynamics processing configuration data may be based at least in part on a combination of dynamics processing configuration data sets across a plurality of speakers. In some examples, the combination of dynamic processing configuration data sets across multiple speakers may be based at least in part on the characteristics of the rendering process implemented by the control system.

В некоторых таких примерах выполнение динамической обработки в отношении аудиоданных может основываться на одной или более пространственных зонах. Каждая из одной или более пространственных зон может соответствовать всей среде прослушивания или ее подмножеству. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может выполняться отдельно для каждой из одной или более пространственных зон. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.In some such examples, performing dynamics processing on audio data may be based on one or more spatial regions. Each of the one or more spatial zones may correspond to the entire listening environment or a subset thereof. In some such examples, the combination of dynamic processing configuration data sets across multiple speakers may be performed separately for each of one or more spatial regions. In some such examples, combining sets of dynamic processing configuration data across multiple speakers separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones. .

Согласно некоторым таким примерам, комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. В некоторых таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых таких примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.According to some such examples, combining dynamic configuration data sets across multiple speakers separately for each of one or more spatial zones may be based at least in part on a speaker contribution value for each speaker in each of the one or more spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some such examples, the nominal spatial positions may correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker participation value may be at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the one or more spatial zones.

Некоторые или все из операций, функций и/или способов, описанных в данном документе, могут быть выполнены посредством одного или более устройств в соответствии с командами (например, программным обеспечением), хранящимися в одном или более постоянных носителях данных. Такие постоянные носители данных могут содержать запоминающие устройства, такие как те, что описаны в данном документе, включая, но без ограничения, оперативные запоминающие устройства (random access memory, RAM), постоянные запоминающие устройства (read-only memory, ROM) и т. д. Соответственно, некоторые изобретательские особенности объекта, описанные в настоящем изобретении, могут быть реализованы в постоянном носителе данных, содержащем хранящееся в нем программное обеспечение.Some or all of the operations, functions, and/or methods described herein may be performed by one or more devices in accordance with instructions (eg, software) stored in one or more persistent storage media. Such persistent storage media may include storage devices such as those described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. e. Accordingly, some of the inventive features of the subject matter described in the present invention may be implemented in a persistent storage medium containing software stored therein.

Например, программное обеспечение может содержать команды для управления одним или более устройствами с целью выполнения способа, включающего получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В некоторых случаях конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Некоторые такие способы включают определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей.For example, the software may contain instructions for controlling one or more devices to perform a method including obtaining by the control system and through the interface system individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In some cases, individual speaker dynamics processing configuration data for one or more speakers from a plurality of speakers may correspond to one or more functionality of one or more speakers. In some examples, the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Some such methods include determining by the control system the configuration data of the dynamic processing of the listening environment for a plurality of speakers. In some examples, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of a plurality of speakers.

Некоторые такие способы включают прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. В некоторых примерах пространственные данные содержат данные каналов и/или пространственные метаданные. Некоторые такие способы включают выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Некоторые такие способы включают рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. Некоторые такие способы включают доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.Some such methods include receiving by the control system, via the system of interfaces, audio data containing one or more audio signals and associated spatial data. In some examples, the spatial data contains channel data and/or spatial metadata. Some such methods include performing dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data by the control system. Some such methods include rendering, by the control system, the processed audio data for playback through a loudspeaker set comprising at least some of the plurality of loudspeakers in order to obtain rendered audio signals. Some such methods involve delivering rendered audio signals via an interface system to a set of speakers.

В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. Набор данных порогов ограничения воспроизведения может, например, содержать пороги ограничения воспроизведения для каждого из множества частот.In some examples, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. The play limit threshold dataset may, for example, comprise play limit thresholds for each of the plurality of frequencies.

Согласно некоторым примерам, определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения. В некоторых таких примерах усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. Согласно некоторым реализациям взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some examples, determining the listening environment dynamic processing configuration data may include determining minimum playback limit thresholds across a plurality of speakers. In some cases, the determination of the listening environment dynamic processing configuration data may include averaging playback limit thresholds over multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the play limit thresholds to obtain average play limit thresholds across a plurality of speakers, determining minimum play limit thresholds across a plurality of speakers, and interpolating between the minimum play limit thresholds and the average play limit thresholds. In some such examples, averaging the play restriction thresholds may include determining a weighted average of the play restriction thresholds. According to some implementations, the weighted average may be based at least in part on the characteristics of the rendering process implemented by the control system.

В некоторых примерах выполнение динамической обработки в отношении аудиоданных может быть основано на пространственных зонах, при этом каждая из пространственных зон соответствует подмножеству среды прослушивания. Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых примерах взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. Согласно некоторым таким примерам, каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. В некоторых таких примерах номинальные пространственные положения соответствуют стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.In some examples, performing dynamics processing on audio data may be based on spatial zones, with each of the spatial zones corresponding to a subset of the listening environment. According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some examples, the weighted average may be based at least in part on the speaker contribution value for each speaker in each of the spatial zones. According to some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial zones. In some such examples, the nominal spatial positions correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker contribution value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.

Согласно некоторым реализациям способ также может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.In some implementations, the method may also include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered.

В некоторых примерах рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Одна или более динамически конфигурируемых функций могут быть основаны, например, на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей и/или одном или более внешних входных сигналах.In some examples, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. One or more dynamically configurable functions may be based on, for example, one or more audio signal properties, one or more speaker set properties, and/or one or more external input signals.

Согласно некоторым реализациям выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания. В некоторых таких реализациях динамическая обработка может выполняться отдельно для каждой из пространственных зон. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон.According to some implementations, performing dynamics processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment. In some such implementations, dynamic processing may be performed separately for each of the spatial zones. In some cases, the determination of the configuration data of the dynamic processing of the listening environment may be performed separately for each of the spatial zones.

В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым таким примерам, набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба.In some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. According to some such examples, a dynamic range compression data set may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data.

Согласно некоторым реализациям определение конфигурационных данных динамической обработки среды прослушивания может являться по меньшей мере частично основанным на комбинировании наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some implementations, the determination of the listening environment dynamics processing configuration data may be based at least in part on a combination of dynamics processing configuration data sets over a plurality of speakers. In some examples, the combination of dynamic processing configuration data sets across multiple speakers may be based at least in part on the characteristics of the rendering process implemented by the control system.

В некоторых таких примерах выполнение динамической обработки в отношении аудиоданных может основываться на одной или более пространственных зонах. Каждая из одной или более пространственных зон может соответствовать всей среде прослушивания или ее подмножеству. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может выполняться отдельно для каждой из одной или более пространственных зон. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.In some such examples, performing dynamics processing on audio data may be based on one or more spatial regions. Each of the one or more spatial zones may correspond to the entire listening environment or a subset thereof. In some such examples, the combination of dynamic processing configuration data sets across multiple speakers may be performed separately for each of one or more spatial regions. In some such examples, combining sets of dynamic processing configuration data across multiple speakers separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones. .

Согласно некоторым таким примерам, комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. В некоторых таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых таких примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.According to some such examples, combining dynamic configuration data sets across multiple speakers separately for each of one or more spatial zones may be based at least in part on a speaker contribution value for each speaker in each of the one or more spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some such examples, the nominal spatial positions may correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker participation value may be at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the one or more spatial zones.

В некоторых реализациях аппарат может содержать интерфейсную систему и систему управления. Система управления может содержать один или более одно- или многокристальных процессоров общего назначения, процессоров цифровой обработки сигналов (digital signal processors, DSP), специализированных интегральных схем (application specific integrated circuits, ASIC), программируемых пользователем вентильных матриц (field programmable gate arrays, FPGA) или других программируемых логических устройств, схем на дискретных компонентах или транзисторных логических схем, компонентов дискретного аппаратного обеспечения и/или их комбинации.In some implementations, the apparatus may include an interface system and a control system. The control system may contain one or more single- or multi-chip general purpose processors, digital signal processors (DSPs), application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs). ) or other programmable logic devices, discrete or transistorized logic circuits, discrete hardware components, and/or combinations thereof.

В некоторых реализациях система управления может быть выполнена с возможностью выполнения одного или более способов, раскрытых в данном документе. Некоторые такие способы могут включать получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В некоторых случаях конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Некоторые такие способы включают определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей.In some implementations, the control system may be configured to perform one or more of the methods disclosed herein. Some such methods may include obtaining, by the control system and through the system interfaces, individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In some cases, individual speaker dynamics processing configuration data for one or more speakers from a plurality of speakers may correspond to one or more functionality of one or more speakers. In some examples, the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Some such methods include determining by the control system the configuration data of the dynamic processing of the listening environment for a plurality of speakers. In some examples, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of a plurality of speakers.

Некоторые такие способы включают прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. В некоторых примерах пространственные данные содержат данные каналов и/или пространственные метаданные. Некоторые такие способы включают выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Некоторые такие способы включают рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. Некоторые такие способы включают доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.Some such methods include receiving by the control system, via the system of interfaces, audio data containing one or more audio signals and associated spatial data. In some examples, the spatial data contains channel data and/or spatial metadata. Some such methods include performing dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data by the control system. Some such methods include rendering, by the control system, the processed audio data for playback through a loudspeaker set comprising at least some of the plurality of loudspeakers in order to obtain rendered audio signals. Some such methods involve delivering rendered audio signals via an interface system to a set of speakers.

В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. Набор данных порогов ограничения воспроизведения может, например, содержать пороги ограничения воспроизведения для каждого из множества частот.In some examples, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. The play limit threshold dataset may, for example, comprise play limit thresholds for each of the plurality of frequencies.

Согласно некоторым примерам, определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения. В некоторых таких примерах усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. Согласно некоторым реализациям взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some examples, determining the listening environment dynamic processing configuration data may include determining minimum playback limit thresholds across a plurality of speakers. In some cases, the determination of the listening environment dynamic processing configuration data may include averaging playback limit thresholds over multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the play limit thresholds to obtain average play limit thresholds across a plurality of speakers, determining minimum play limit thresholds across a plurality of speakers, and interpolating between the minimum play limit thresholds and the average play limit thresholds. In some such examples, averaging the play restriction thresholds may include determining a weighted average of the play restriction thresholds. According to some implementations, the weighted average may be based at least in part on the characteristics of the rendering process implemented by the control system.

В некоторых примерах выполнение динамической обработки в отношении аудиоданных может быть основано на пространственных зонах, при этом каждая из пространственных зон соответствует подмножеству среды прослушивания. Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых примерах взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. Согласно некоторым таким примерам, каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. В некоторых таких примерах номинальные пространственные положения соответствуют стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.In some examples, performing dynamics processing on audio data may be based on spatial zones, with each of the spatial zones corresponding to a subset of the listening environment. According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some examples, the weighted average may be based at least in part on the speaker contribution value for each speaker in each of the spatial zones. According to some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial zones. In some such examples, the nominal spatial positions correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker contribution value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.

Согласно некоторым реализациям способ также может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.In some implementations, the method may also include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered.

В некоторых примерах рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Одна или более динамически конфигурируемых функций могут быть основаны, например, на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей и/или одном или более внешних входных сигналах.In some examples, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. One or more dynamically configurable functions may be based on, for example, one or more audio signal properties, one or more speaker set properties, and/or one or more external input signals.

Согласно некоторым реализациям выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания. В некоторых таких реализациях динамическая обработка может выполняться отдельно для каждой из пространственных зон. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон.According to some implementations, performing dynamic processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment. In some such implementations, dynamic processing may be performed separately for each of the spatial regions. In some cases, the determination of the configuration data of the dynamic processing of the listening environment may be performed separately for each of the spatial zones.

В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым таким примерам, набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба.In some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. According to some such examples, a dynamic range compression data set may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data.

Согласно некоторым реализациям определение конфигурационных данных динамической обработки среды прослушивания может являться по меньшей мере частично основанным на комбинировании наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some implementations, the determination of the listening environment dynamics processing configuration data may be based at least in part on a combination of dynamics processing configuration data sets over a plurality of speakers. In some examples, the combination of dynamic processing configuration data sets across multiple speakers may be based at least in part on the characteristics of the rendering process implemented by the control system.

В некоторых таких примерах выполнение динамической обработки в отношении аудиоданных может основываться на одной или более пространственных зонах. Каждая из одной или более пространственных зон может соответствовать всей среде прослушивания или ее подмножеству. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может выполняться отдельно для каждой из одной или более пространственных зон. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.In some such examples, performing dynamics processing on audio data may be based on one or more spatial regions. Each of the one or more spatial zones may correspond to the entire listening environment or a subset thereof. In some such examples, the combination of dynamic processing configuration data sets across multiple speakers may be performed separately for each of one or more spatial regions. In some such examples, combining sets of dynamic processing configuration data across multiple speakers separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones. .

Согласно некоторым таким примерам, комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. В некоторых таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых таких примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.According to some such examples, combining dynamic configuration data sets across multiple speakers separately for each of one or more spatial zones may be based at least in part on a speaker contribution value for each speaker in each of the one or more spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some such examples, the nominal spatial positions may correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker participation value may be at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the one or more spatial zones.

Подробности одной или более реализаций объекта изобретения, описываемого в данном описании, изложены в сопроводительных графических материалах и в приведенном ниже описании. Другие признаки, аспекты и преимущества будут очевидны из описания, графических материалов и формулы изобретения. Следует отметить, что относительные размеры на нижеследующих фигурах могут быть приведены не в масштабе.Details of one or more implementations of the subject matter described herein are set forth in the accompanying drawings and in the description below. Other features, aspects and advantages will be apparent from the description, drawings and claims. It should be noted that the relative dimensions in the following figures may not be drawn to scale.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHICS

На фиг. 1 представлена блок-схема, на которой показаны примеры компонентов устройства, способного реализовывать различные аспекты настоящего изобретения.In FIG. 1 is a block diagram showing examples of components of a device capable of implementing various aspects of the present invention.

На фиг. 2 изображен вид сверху среды прослушивания, которая в данном примере представляет собой жилую площадь.In FIG. 2 is a plan view of a listening environment, which in this example is a living area.

На фиг. 3 представлена блок-схема, на которой показаны примеры компонентов системы, способной реализовывать различные аспекты настоящего изобретения.In FIG. 3 is a block diagram showing examples of system components capable of implementing various aspects of the present invention.

На фиг. 4A, 4B и 4C представлены примеры порогов ограничения воспроизведения и соответствующие частоты.In FIG. 4A, 4B and 4C show examples of playback clipping thresholds and corresponding frequencies.

На фиг. 5А и 5В представлены графики, на которых показаны примеры данных сжатия динамического диапазона.In FIG. 5A and 5B are graphs showing examples of dynamic range compression data.

На фиг. 6 представлен пример пространственных зон среды прослушивания.In FIG. 6 shows an example of the spatial zones of the listening environment.

На фиг. 7 представлены примеры громкоговорителей в пространственных зонах по фиг. 6.In FIG. 7 shows examples of loudspeakers in the spatial zones of FIG. 6.

На фиг. 8 представлен пример номинальных пространственных положений, наложенных на пространственные зоны и динамики по фиг. 7.In FIG. 8 shows an example of nominal spatial positions superimposed on the spatial zones and dynamics of FIG. 7.

На фиг. 9 представлена блок-схема, на которой описан один пример способа, который может выполняться таким устройством или системой, как те, что раскрыты в данном документе.In FIG. 9 is a flow diagram that describes one example of a method that can be performed by such a device or system as those disclosed herein.

На фиг. 10 и 11 представлены схемы, на которых изображен иллюстративный набор значений активации динамиков и положений рендеринга объектов.In FIG. 10 and 11 are diagrams depicting an exemplary set of speaker activation values and object rendering positions.

На фиг. 12A, 12B и 12C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 10 и 11.In FIG. 12A, 12B and 12C show examples of speaker contribution values corresponding to the examples of FIG. 10 and 11.

На фиг. 13 представлен график значений активации динамиков в иллюстративном варианте осуществления.In FIG. 13 is a graph of speaker activation values in an exemplary embodiment.

На фиг. 14 представлен график положений рендеринга объектов в иллюстративном варианте осуществления.In FIG. 14 is a graph of object rendering positions in an exemplary embodiment.

На фиг. 15A, 15B и 15C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 13 и 14.In FIG. 15A, 15B and 15C show examples of speaker participation values corresponding to the examples of FIG. 13 and 14.

На фиг. 16 представлен график значений активации динамиков в иллюстративном варианте осуществления.In FIG. 16 is a graph of speaker activation values in an exemplary embodiment.

На фиг. 17 представлен график положений рендеринга объектов в иллюстративном варианте осуществления.In FIG. 17 is a graph of object rendering positions in an exemplary embodiment.

На фиг. 18A, 18B и 18C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 16 и 17.In FIG. 18A, 18B and 18C show examples of speaker contribution values corresponding to the examples of FIG. 16 and 17.

На фиг. 19 представлен график значений активации динамиков в иллюстративном варианте осуществления.In FIG. 19 is a graph of speaker activation values in an exemplary embodiment.

На фиг. 20 представлен график положений рендеринга объектов в иллюстративном варианте осуществления.In FIG. 20 is a graph of object rendering positions in an exemplary embodiment.

На фиг. 21A, 21B и 21C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 19 и 20.In FIG. 21A, 21B and 21C show examples of speaker contribution values corresponding to the examples of FIG. 19 and 20.

На фиг. 22 изображена схема среды, которая в данном примере представляет собой жилую площадь.In FIG. 22 is a diagram of an environment, which in this example is a living area.

Подобные ссылочные позиции и обозначения в разных графических материалах указывают подобные элементы.Like reference numerals and symbols in the various drawings indicate like elements.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯDETAILED DESCRIPTION OF EMBODIMENTS

На фиг. 1 представлена блок-схема, на которой показаны примеры компонентов устройства, способного реализовывать различные аспекты настоящего изобретения. Как и на других фигурах, представленных в данном документе, типы и количества элементов, показанных на фиг. 1, представлены лишь в качестве примера. Другие реализации могут содержать большее, меньшее количество элементов, и/или разные типы и количества элементов. Согласно некоторым примерам, устройство 100 может представлять собой или содержать интеллектуальное звуковое устройство, выполненное с возможностью выполнения по меньшей мере некоторых способов, раскрытых в данном документе. В некоторых реализациях устройство 100 может представлять собой или может содержать другое устройство, выполненное с возможностью выполнения по меньшей мере некоторых из способов, раскрытых в данном документе, такое как ноутбук, сотовый телефон, планшетное устройство, концентратор умного дома и т. д. В некоторых таких реализациях устройство 100 может представлять собой или содержать сервер.In FIG. 1 is a block diagram showing examples of components of a device capable of implementing various aspects of the present invention. As with other figures presented herein, the types and numbers of elements shown in FIG. 1 are presented by way of example only. Other implementations may contain more, fewer elements, and/or different types and numbers of elements. According to some examples, device 100 may be or include an intelligent audio device configured to perform at least some of the methods disclosed herein. In some implementations, device 100 may be or may include another device capable of performing at least some of the methods disclosed herein, such as a laptop, cell phone, tablet device, smart home hub, etc. In some in such implementations, device 100 may be or include a server.

В этом примере устройство 100 содержит систему 105 интерфейсов и систему 110 управления. В некоторых реализациях система 105 интерфейсов может быть выполнена с возможностью приема аудиоданных. Аудиоданные могут содержать звуковые сигналы, запланированные для воспроизведения по меньшей мере некоторыми динамиками среды. Аудиоданные могут содержать один или более звуковых сигналов и связанные пространственные данные. Пространственные данные могут содержать, например, данные каналов и/или пространственные метаданные. Система 105 интерфейсов может быть выполнена с возможностью доставки подвергнутых рендерингу звуковых сигналов в по меньшей мере некоторые громкоговорители набора громкоговорителей среды. В некоторых реализациях система 105 интерфейсов может быть выполнена с возможностью приема входных данных из одного или более микрофонов среды.In this example, device 100 includes an interface system 105 and a control system 110. In some implementations, interface system 105 may be configured to receive audio data. The audio data may comprise audio signals scheduled for playback by at least some of the speakers in the environment. The audio data may comprise one or more audio signals and associated spatial data. The spatial data may include, for example, channel data and/or spatial metadata. The interface system 105 may be configured to deliver rendered audio signals to at least some of the speakers in the environment speaker set. In some implementations, interface system 105 may be configured to receive input from one or more environment microphones.

Система 105 интерфейсов может содержать один или более сетевых интерфейсов и/или один или более интерфейсов для внешних устройств (таких как один или более интерфейсов универсальной последовательной шины (universal serial bus, USB)). Согласно некоторым реализациям система 105 интерфейсов может содержать один или более беспроводных интерфейсов. Система 105 интерфейсов может содержать одно или более устройств для реализации пользовательского интерфейса, таких как один или более микрофонов, один или более динамиков, систему дисплеев, систему сенсорных датчиков и/или систему датчиков жестов. В некоторых примерах система 105 интерфейсов может содержать один или более интерфейсов между системой 110 управления и системой памяти, такой как необязательная система 115 памяти, представленная на фиг. 1. Однако в некоторых случаях система 110 управления может содержать систему памяти.Interface system 105 may include one or more network interfaces and/or one or more interfaces for external devices (such as one or more universal serial bus (USB) interfaces). In some implementations, interface system 105 may include one or more wireless interfaces. The interface system 105 may include one or more devices for implementing a user interface, such as one or more microphones, one or more speakers, a display system, a touch sensor system, and/or a gesture sensor system. In some examples, interface system 105 may include one or more interfaces between control system 110 and a memory system, such as the optional memory system 115 shown in FIG. 1. However, in some cases, the control system 110 may include a memory system.

Например, система 110 управления может содержать одно- или многокристальный процессор общего назначения, процессор цифровой обработки сигналов (DSP), интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, и/или компоненты дискретного аппаратного обеспечения.For example, control system 110 may include a single or multi-chip general purpose processor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), or other programmable logic device, a discrete circuit, or a transistor logic circuitry, and/or discrete hardware components.

В некоторых реализациях система 110 управления может находиться в более чем одном устройстве. Например, одна часть системы 110 управления может находиться в устройстве в одной из сред, изображенных в данном документе, а другая часть системы 110 управления может находиться в устройстве, находящемся за пределами этой среды, таком как сервер, мобильное устройство (например, смартфон или планшетный компьютер) и т. д. В других примерах одна часть системы 110 управления может находиться в устройстве в одной из сред, изображенных в данном документе, а другая часть системы 110 управления может находиться в одном или более других устройствах этой среды. Например, функциональные возможности системы управления могут быть распределены по нескольким интеллектуальным звуковым устройствам среды или могут быть разделены между организующим устройством (таким, что в данном документе может называться концентратором умного дома) и одним или более устройствами этой среды. В некоторых таких примерах в более чем одном устройстве также может находиться система 105 интерфейсов.In some implementations, control system 110 may reside in more than one device. For example, one part of the control system 110 may reside in a device in one of the environments depicted herein, and another portion of the control system 110 may reside in a device outside of that environment, such as a server, a mobile device (e.g., a smartphone or tablet computer), etc. In other examples, one part of the control system 110 may reside in a device in one of the environments depicted herein, and another portion of the control system 110 may reside in one or more other devices in that environment. For example, the functionality of the control system may be distributed across multiple smart audio devices in an environment, or may be split between an organizing device (such as what may be referred to herein as a smart home hub) and one or more devices in that environment. In some such examples, interface system 105 may also reside in more than one device.

В некоторых реализациях система 110 управления может быть выполнена с возможностью выполнения по меньшей мере частично способов, раскрытых в данном документе. Согласно некоторым примерам, система 110 управления может быть выполнена с возможностью реализации способов управления воспроизведением множества потоков аудиоданных через множество динамиков.In some implementations, control system 110 may be configured to perform at least in part the methods disclosed herein. According to some examples, control system 110 may be configured to implement methods for controlling playback of multiple audio data streams through multiple speakers.

Некоторые или все способы, описанные в данном документе, могут быть выполнены с помощью одного или более устройств в соответствии с командами (например, программным обеспечением), хранящимися на одном или более постоянных носителях данных. Такие постоянные носители данных могут включать запоминающие устройства, такие как те, что описаны в данном документе, включая, но без ограничения, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т. д. Один или более постоянных носителей данных могут находиться, например, в необязательной системе 115 памяти, представленной на фиг. 1, и/или в системе 110 управления. Соответственно, различные новаторские аспекты предмета изобретения, описанного в настоящем изобретении, могут быть реализованы в одном или более постоянных носителях данных, содержащих хранящееся на них программное обеспечение. Например, программное обеспечение может содержать команды для управления по меньшей мере одним устройством с целью обработки аудиоданных. Например, программное обеспечение может быть выполнено с возможностью исполнения одним или более компонентами системы управления, такой как система 110 управления по фиг. 1.Some or all of the methods described herein may be performed by one or more devices in accordance with instructions (eg, software) stored on one or more permanent storage media. Such read-only storage media may include storage media such as those described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. One or more persistent storage media may reside, for example, in the optional memory system 115 shown in FIG. 1 and/or in the control system 110. Accordingly, various innovative aspects of the subject matter of the present invention may be implemented in one or more persistent storage media containing software stored thereon. For example, the software may contain instructions for controlling at least one device in order to process audio data. For example, the software may be executable by one or more components of a control system, such as control system 110 of FIG. one.

В некоторых примерах устройство 100 может содержать необязательную систему 120 микрофонов, представленную на фиг. 1. Необязательная система 120 микрофонов может содержать один или более микрофонов. В некоторых реализациях один или более микрофонов могут являться частью или быть связанными с другим устройством, таким как динамик системы динамиков, интеллектуальное звуковое устройство и т. д.In some examples, device 100 may include the optional microphone array 120 shown in FIG. 1. The optional microphone system 120 may include one or more microphones. In some implementations, one or more microphones may be part of or associated with another device such as a speaker in a speaker system, smart audio device, etc.

Согласно некоторым реализациям устройство 100 может содержать необязательную систему 125 громкоговорителей, представленную на фиг. 1. Необязательная система 125 громкоговорителей может содержать один или более громкоговорителей. В данном документе громкоговорители иногда могут называться «динамиками». В некоторых примерах по меньшей мере некоторые громкоговорители необязательной системы 125 громкоговорителей могут быть расположены произвольно. Например, по меньшей мере некоторые динамики необязательной системы 125 громкоговорителей могут быть размещены в местоположениях, не соответствующих какой-либо предписанной стандартом схеме размещения динамиков, такой как Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, Dolby 9.1, Hamasaki 22.2 и т. д. В некоторых таких примерах по меньшей мере некоторые громкоговорители необязательной системы 125 громкоговорителей могут быть размещены в местоположениях, удобных для данного пространства (например, в тех местоположениях, где имеется пространство для размещения громкоговорителей), а не по какой-либо предписанной стандартом схеме размещения громкоговорителей.In some implementations, device 100 may include an optional speaker system 125 shown in FIG. 1. Optional speaker system 125 may include one or more speakers. Loudspeakers may sometimes be referred to as "speakers" in this document. In some examples, at least some of the speakers of the optional speaker system 125 may be randomly positioned. For example, at least some of the speakers of the optional speaker system 125 may be placed in locations that do not conform to any standard prescribed speaker layout, such as Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, Dolby 9.1, Hamasaki 22.2, etc. In some such examples, at least some of the speakers of the optional speaker system 125 may be placed in locations that are convenient for a given space (e.g., locations where there is space for speaker placement) rather than in any speaker layout prescribed by the standard.

В некоторых реализациях устройство 100 может содержать необязательную систему 130 датчиков, представленную на фиг. 1. Необязательная система 130 датчиков может содержать одну или более камер, сенсорных датчиков, датчиков жестов, датчиков движения и т. д. Согласно некоторым реализациям необязательная система 130 датчиков может содержать одну или более камер. В некоторых реализациях камеры могут представлять собой автономные камеры. В некоторых примерах одна или более камер необязательной системы 130 датчиков могут находиться в интеллектуальном звуковом устройстве, которое может представлять собой звуковое устройство специального назначения или виртуального цифрового помощника. В некоторых таких примерах одна или более камер необязательной системы 130 датчиков могут находиться в телевизоре, мобильном телефоне или интеллектуальном динамике.In some implementations, device 100 may include the optional sensor system 130 shown in FIG. 1. Optional sensor system 130 may include one or more cameras, touch sensors, gesture sensors, motion sensors, etc. In some implementations, optional sensor system 130 may include one or more cameras. In some implementations, the cameras may be stand-alone cameras. In some examples, one or more cameras of the optional sensor system 130 may reside in an intelligent audio device, which may be a special purpose audio device or virtual digital assistant. In some such examples, one or more cameras of the optional sensor system 130 may reside in a television, mobile phone, or smart speaker.

В некоторых реализациях устройство 100 может содержать необязательную систему 135 дисплеев, представленную на фиг. 1. Необязательная система 135 дисплеев может содержать один или более дисплеев, таких как один или более светодиодных (light-emitting diode, LED) дисплеев. В некоторых случаях необязательная система 135 дисплеев может содержать один или более дисплеев на органических светодиодах (organic light-emitting diode, OLED). В некоторых примерах, в которых устройство 100 содержит систему 135 дисплеев, система 130 датчиков может содержать систему сенсорных датчиков и/или систему датчиков жестов поблизости от одного или более дисплеев системы 135 дисплеев. Согласно некоторым таким реализациям, система 110 управления может быть выполнена с возможностью управления системой 135 дисплеев с целью предоставления графического пользовательского интерфейса (graphical user interface, GUI), такого как один из GUI, раскрытых в данном документе.In some implementations, device 100 may include an optional display system 135 shown in FIG. 1. The optional display system 135 may comprise one or more displays, such as one or more light-emitting diode (LED) displays. In some cases, the optional display system 135 may include one or more organic light-emitting diode (OLED) displays. In some examples where device 100 includes display system 135, sensor system 130 may include a touch sensor system and/or gesture sensor system in the vicinity of one or more displays of display system 135. According to some such implementations, control system 110 may be configured to control display system 135 to provide a graphical user interface (GUI), such as one of the GUIs disclosed herein.

Согласно некоторым примерам, устройство 100 может представлять собой или может содержать интеллектуальное звуковое устройство. В некоторых таких реализациях устройство 100 может представлять собой или может содержать детектор пробуждающего слова. Например, устройство 100 может представлять собой или может содержать виртуального цифрового помощника.According to some examples, device 100 may be or may include an intelligent audio device. In some such implementations, device 100 may be or may include a wake-up word detector. For example, device 100 may be or may include a virtual digital assistant.

На фиг. 2 изображен вид сверху среды прослушивания, которая в данном примере представляет собой жилую площадь. Как и на других фигурах, представленных в данном документе, типы и количества элементов, показанных на фиг. 2, представлены лишь в качестве примера. Другие реализации могут содержать большее, меньшее количество элементов, и/или разные типы и количества элементов. Согласно данному примеру, среда 200 содержит жилую комнату 210 вверху слева, кухню 215 внизу в центре и спальню 222 внизу справа. Прямоугольники и круги, распределенные по жилой площади, представляют набор громкоговорителей 205a–205h, по меньшей мере некоторые из которых в некоторых реализациях могут представлять собой интеллектуальные динамики, размещенные в местоположениях, удобных для этого пространства, но не привязывающиеся к какой-либо предписанной стандартом схеме размещения (размещены произвольно). В некоторых примерах громкоговорители 205a–205h могут являться скоординированными для реализации одного или более раскрытых вариантов осуществления.In FIG. 2 is a plan view of a listening environment, which in this example is a living area. As with other figures presented herein, the types and numbers of elements shown in FIG. 2 are presented by way of example only. Other implementations may contain more, fewer elements, and/or different types and numbers of elements. In this example, environment 200 includes a living room 210 at the top left, a kitchen 215 at the bottom center, and a bedroom 222 at the bottom right. The rectangles and circles distributed throughout the living area represent a set of speakers 205a-205h, at least some of which, in some implementations, may be smart speakers placed in locations convenient to that space, but not bound to any prescribed circuitry by the standard. placement (arbitrarily placed). In some examples, speakers 205a-205h may be coordinated to implement one or more of the disclosed embodiments.

Согласно некоторым примерам, среда 200 может содержать концентратор умного дома для реализации по меньшей мере некоторых из раскрытых способов. Согласно некоторым таким реализациям, концентратор умного дома может содержать по меньшей мере часть вышеописанной системы 110 управления. В некоторых примерах концентратор умного дома может быть реализован интеллектуальным устройством (таким как интеллектуальный динамик, мобильный телефон, интеллектуальный телевизор, устройство, используемое для реализации виртуального цифрового помощника, и т. д.).According to some examples, environment 200 may include a smart home hub for implementing at least some of the disclosed methods. According to some such implementations, a smart home hub may include at least a portion of the control system 110 described above. In some examples, the smart home hub may be implemented by a smart device (such as a smart speaker, mobile phone, smart TV, a device used to implement a virtual digital assistant, etc.).

В этом примере среда 200 содержит камеры 211a–211e, которые распределены по всей среде. В некоторых реализациях одно или более интеллектуальных звуковых устройств в среде 200 также могут содержать одну или более камер. Одно или более интеллектуальных звуковых устройств могут представлять собой звуковые устройства специального назначения или виртуальных цифровых помощников. В некоторых таких примерах одна или более камер необязательной системы 130 датчиков могут находиться в телевизоре 230 или на нем, в мобильном телефоне или в интеллектуальном динамике, таком как один или более громкоговорителей 205b, 205d, 205e и 205h. Хотя камеры 211a–211e не показаны на каждом изображении среды 200, представленной в данном описании, каждая из сред 200 может, тем не менее, содержать одну или более камер в некоторых реализациях.In this example, environment 200 contains cameras 211a-211e that are distributed throughout the environment. In some implementations, one or more smart audio devices in environment 200 may also include one or more cameras. One or more intelligent audio devices may be special purpose audio devices or virtual digital assistants. In some such examples, one or more cameras of the optional sensor system 130 may reside in or on the television 230, in a mobile phone, or in a smart speaker such as one or more speakers 205b, 205d, 205e, and 205h. Although cameras 211a-211e are not shown in every image of environment 200 presented herein, each of environments 200 may nonetheless contain one or more cameras in some implementations.

При гибком рендеринге рендеринг пространственных аудиоданных может выполняться для произвольного количества произвольно размещенных динамиков. При условии широкого распространения в доме интеллектуальных звуковых устройств (например, интеллектуальных динамиков), существует потребность в реализации технологии гибкого рендеринга, позволяющей потребителям выполнять гибкий рендеринг аудиоданных и воспроизводить подвергнутые этому рендерингу аудиоданные с использованием интеллектуальных звуковых устройств.With flexible rendering, rendering of spatial audio data can be performed for an arbitrary number of randomly placed speakers. Given the widespread use of smart audio devices (eg, smart speakers) in the home, there is a need to implement a flexible rendering technology that allows consumers to perform flexible rendering of audio data and play the rendered audio data using smart audio devices.

Для реализации гибкого рендеринга было разработано несколько технологий, в том числе: «Амплитудное панорамирование центра масс» (Center of Mass Amplitude Panning, CMAP) и «Гибкая виртуализация» (Flexible Virtualization, FV).Several technologies have been developed to implement flexible rendering, including: Center of Mass Amplitude Panning (CMAP) and Flexible Virtualization (FV).

В контексте выполнения рендеринга (или рендеринга и воспроизведения) пространственного звукового микса (например, рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения интеллектуальными звуковыми устройствами из набора интеллектуальных звуковых устройств (или другим набором динамиков), типы динамиков (например, в интеллектуальных звуковых устройствах или соединенных с интеллектуальными звуковыми устройствами) могут варьироваться, и поэтому могут весьма значительно варьироваться соответствующие акустические функциональные возможности динамиков. В примере, представленном на фиг. 2, громкоговорители 205d, 205f и 205h представляют собой интеллектуальные динамики с одним динамиком диаметром 0,6 дюйма. В этом примере громкоговорители 205b, 205c, 205e и 205f представляют собой интеллектуальные динамики, содержащие низкочастотный динамик диаметром 2,5 дюйма и высокочастотный динамик диаметром 0,8 дюйма. Согласно данному примеру громкоговоритель 205g представляет собой интеллектуальный динамик, с низкочастотным динамиком диаметром 5,25 дюймов, тремя среднечастотными динамиками диаметром 2 дюйма и высокочастотным динамиком диаметром 1,0 дюйма. Здесь громкоговоритель 205а представляет собой звуковую панель, содержащую шестнадцать излучающих головок диаметром 1,1 дюйма и два низкочастотных динамика диаметром 4 дюйма. Соответственно, низкочастотные функциональные возможности интеллектуальных динамиков 205d и 205f являются значительно меньшими, чем у других громкоговорителей в среде 200, в частности, у громкоговорителей, содержащих низкочастотные динамики диаметром 4 дюйма или 5,25 дюймов.In the context of rendering (or rendering and playing) a spatial audio mix (e.g., rendering an audio data stream or multiple audio data streams) for playback by smart sound devices in a smart sound device set (or other set of speakers), speaker types (e.g., in smart sound devices or connected to intelligent audio devices) can vary and therefore the corresponding acoustic functionality of the speakers can vary quite significantly. In the example shown in FIG. 2, the speakers 205d, 205f and 205h are smart speakers with a single 0.6 inch driver. In this example, the speakers 205b, 205c, 205e, and 205f are smart speakers comprising a 2.5" woofer and a 0.8" tweeter. In this example, the speaker 205g is a smart speaker, with a 5.25" woofer, three 2" midrange drivers, and a 1.0" tweeter. Here, loudspeaker 205a is a soundbar containing sixteen 1.1" diameter drivers and two 4" diameter woofers. Accordingly, the low frequency functionality of the smart speakers 205d and 205f is significantly less than other speakers in the environment 200, in particular, speakers containing 4" or 5.25" woofers.

На фиг. 3 представлена блок-схема, на которой показаны примеры компонентов системы, способной реализовывать различные аспекты настоящего изобретения. Как и на других фигурах, представленных в данном документе, типы и количества элементов, показанных на фиг. 1, представлены лишь в качестве примера. Другие реализации могут содержать большее, меньшее количество элементов, и/или разные типы и количества элементов.In FIG. 3 is a block diagram showing examples of system components capable of implementing various aspects of the present invention. As with other figures presented herein, the types and numbers of elements shown in FIG. 1 are presented by way of example only. Other implementations may contain more, fewer elements, and/or different types and numbers of elements.

Согласно данному примеру, система 300 содержит концентратор 305 умного дома и громкоговорители 205а–205m. В этом примере концентратор 305 умного дома содержит пример системы 110 управления, представленной на фиг. 1 и описанной выше. Согласно данной реализации, система 110 управления содержит модуль 310 конфигурационных данных динамической обработки среды прослушивания, модуль 315 динамической обработки среды прослушивания и модуль 320 рендеринга. Ниже описаны некоторые примеры модуля 310 конфигурационных данных динамической обработки среды прослушивания, модуля 315 динамической обработки среды прослушивания и модуля 320 рендеринга. В некоторых примерах модуль 320’ рендеринга может быть выполнен с возможностью как рендеринга, так и динамической обработки среды прослушивания.In this example, system 300 includes a smart home hub 305 and speakers 205a-205m. In this example, the smart home hub 305 contains an example of the control system 110 shown in FIG. 1 and described above. According to this implementation, the control system 110 includes a listening environment dynamic configuration data module 310, a listening environment dynamic processing module 315, and a rendering module 320 . Some examples of listening environment dynamic processing module 310, listening environment dynamic processing module 315, and rendering module 320 are described below. In some examples, renderer 320' may be configured to both render and dynamically process the listening environment.

Как показано стрелками между концентратором 305 умного дома и громкоговорителями 205а–205m, концентратор 305 умного дома также содержит пример системы 105 интерфейсов, представленной на фиг. 1 и описанной выше. Согласно некоторым примерам, концентратор 305 умного дома может являться частью среды 200, представленной на фиг. 2. В некоторых случаях концентратор 305 умного дома может быть реализован с помощью интеллектуального динамика, интеллектуального телевизора, сотового телефона, ноутбука и т. д. В некоторых реализациях концентратор 305 умного дома может быть реализован с помощью программного обеспечения, например, с помощью программного обеспечения из загружаемого программного приложения, или «app». В некоторых случаях концентратор 305 умного дома может быть реализован в каждом из громкоговорителей 205а–m, которые функционируют параллельно с целью генерирования одинаковых обработанных звуковых сигналов из модуля 320. Согласно некоторым таким примерам, в каждом из громкоговорителей модуль 320 рендеринга затем может генерировать один или более сигналов, подаваемых на динамики, которые соответствуют каждому громкоговорителю или группе громкоговорителей, и может доставлять эти сигналы, подаваемые на динамики, в модуль динамической обработки каждого динамика.As shown by the arrows between the smart home hub 305 and the speakers 205a-205m, the smart home hub 305 also contains an example of the interface system 105 shown in FIG. 1 and described above. In some examples, smart home hub 305 may be part of the environment 200 shown in FIG. 2. In some cases, the smart home hub 305 may be implemented with a smart speaker, smart TV, cell phone, laptop, etc. In some implementations, the smart home hub 305 may be implemented with software, such as software. from a downloadable software application, or "app". In some cases, smart home hub 305 may be implemented in each of the speakers 205a-m, which operate in parallel to generate the same processed audio signals from module 320. According to some such examples, in each of the speakers, renderer 320 may then generate one or more signals applied to the speakers that correspond to each speaker or group of speakers, and can deliver these signals applied to the speakers to the dynamics processing module of each speaker.

В некоторых случаях громкоговорители 205a–205m могут содержать громкоговорители 205a–205h по фиг. 2, тогда как в других примерах громкоговорители 205a–205m могут представлять собой или содержать другие громкоговорители. Соответственно, в этом примере система 300 содержит M громкоговорителей, где M представляет собой целое число больше 2.In some cases, speakers 205a-205m may include speakers 205a-205h of FIG. 2, while in other examples the speakers 205a-205m may be or include other speakers. Accordingly, in this example, system 300 contains M speakers, where M is an integer greater than 2.

В интеллектуальных динамиках, а также во многих других активных динамиках для предотвращения искажения динамиков обычно используется внутренняя динамическая обработка некоторого типа. С такой динамической обработкой часто связаны пороги ограничения сигналов (например, пороги ограничения, являющиеся переменными по частоте), ниже которых уровень сигнала поддерживается динамически. Например, такую обработку предоставляет Audio Regulator от Dolby, один из нескольких алгоритмов программного пакета постобработки аудиоданных Dolby Audio Processing (DAP). В некоторых случаях, но обычно не в случае модуля динамической обработки интеллектуального динамика, динамическая обработка также может включать применение одного или более компрессоров, вентилей, расширителей, дакеров и т. д.Smart speakers, as well as many other active speakers, typically use some type of internal dynamics processing to prevent speaker distortion. Associated with such dynamic processing are often signal clipping thresholds (eg, clipping thresholds that are frequency-variable), below which the signal level is maintained dynamically. For example, Dolby's Audio Regulator, one of several Dolby Audio Processing (DAP) audio post-processing software algorithms, provides such processing. In some cases, but not usually in the case of a smart speaker dynamics module, dynamics processing may also involve the use of one or more compressors, valves, expanders, duckers, etc.

Соответственно, в этом примере каждый из громкоговорителей 205а–205m содержит соответствующие модули А–М динамической обработки (dynamics processing, DP) динамика. Эти модули динамической обработки динамика выполнены с возможностью применения конфигурационных данных динамической обработки отдельных громкоговорителей для каждого отдельного громкоговорителя среды прослушивания. Модуль A DP динамика, например, выполнен с возможностью применения конфигурационных данных динамической обработки отдельных громкоговорителей, соответствующих громкоговорителю 205а. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут соответствовать одной или более функциональным возможностям отдельного громкоговорителя, таким как способность громкоговорителя воспроизводить аудиоданные в определенном диапазоне частот и на определенном уровне без значительного искажения.Accordingly, in this example, each of the speakers 205a-205m contains respective speaker dynamics processing (DP) modules A-M. These speaker dynamics modules are configured to apply individual speaker dynamics processing configuration data to each individual speaker of the listening environment. The speaker DP module A, for example, is configured to apply the dynamics processing configuration data of the individual speakers corresponding to the speaker 205a. In some examples, individual speaker dynamics processing configuration data may correspond to one or more individual speaker functionality, such as the speaker's ability to reproduce audio data at a particular frequency range and at a particular level without significant distortion.

При выполнении рендеринга пространственных аудиоданных через набор разнородных динамиков (например, динамиков интеллектуальных звуковых устройств или динамиков, соединенных с интеллектуальными звуковыми устройствами), каждый из которых потенциально характеризуется разными ограничениями воспроизведения, необходимо тщательно следить за выполнением динамической обработки в отношении всего микширования. Простым решением является рендеринг пространственного микширования в сигналы, подаваемые на динамики для каждого из участвующих динамиков, а затем обеспечение возможности независимого функционирования модуля динамической обработки, связанного с каждым динамиком, в отношении соответствующего ему сигнала, подаваемого на динамик, в соответствии с ограничениями этого динамика.When rendering spatial audio data across a set of heterogeneous speakers (e.g., speakers of smart audio devices or speakers connected to smart audio devices), each with potentially different playback limitations, care must be taken to perform dynamics processing on the entire mix. A simple solution is to render the spatial mix into speaker signals for each of the participating speakers, and then allow the dynamics module associated with each speaker to operate independently with respect to its corresponding speaker signal, according to that speaker's constraints.

Несмотря на то, что данный подход будет предотвращать искажение каждого динамика, он может динамически сдвигать пространственный баланс микширования отвлекающим восприятие образом. Например, со ссылкой на фиг. 2 предположим, что телевизионная программа демонстрируется на телевизоре 230, и что соответствующие аудиоданные воспроизводятся громкоговорителями среды 200. Предположим, что в ходе телевизионной программы намечен рендеринг аудиоданных, связанных с неподвижным объектом (таким как единица тяжелой техники на заводе), в положение 244. Дополнительно предположим, что модуль динамической обработки, связанный с громкоговорителем 205d, понижает уровень аудиоданных в низкочастотном диапазоне в значительно большей степени, чем модуль динамической обработки, связанный с громкоговорителем 205b, вследствие существенно больших функциональных возможностей воспроизведения громкоговорителем 205b звуков в низкочастотном диапазоне. Если громкость сигнала, связанного с неподвижным объектом, колеблется, то, когда эта громкость становится выше, модуль динамической обработки, связанный с громкоговорителем 205d, будет вызывать понижение уровня аудиоданных в низкочастотном диапазоне в значительно большей степени, чем при понижении уровня тех же аудиоданных модулем динамической обработки, связанным с громкоговорителем 205b. Эта разность в уровнях будет вызывать изменение явного местоположения неподвижного объекта. Поэтому требуется усовершенствованное решение.While this approach will prevent distortion of each speaker, it can dynamically shift the spatial balance of the mix in a distracting way. For example, with reference to FIG. 2, suppose a television program is shown on television 230, and that the corresponding audio data is played back by the speakers of environment 200. Assume that the television program is scheduled to render audio data associated with a stationary object (such as a piece of heavy equipment in a factory) at position 244. Additionally Assume that the dynamics module associated with speaker 205d reduces the level of audio data in the low frequency range to a much greater extent than the dynamics module associated with speaker 205b due to the significantly greater functionality of the speaker 205b to reproduce sounds in the low frequency range. If the volume of the signal associated with a stationary object fluctuates, then when the volume becomes higher, the dynamics module associated with the loudspeaker 205d will cause the audio data in the low frequency range to be lowered to a much greater extent than when the same audio data is lowered by the dynamics module. processing associated with speaker 205b. This difference in levels will cause a change in the apparent location of a stationary object. Therefore, an improved solution is required.

Некоторые варианты осуществления настоящего изобретения представляют собой системы и способы рендеринга (или рендеринга и воспроизведения) пространственного звукового микса (например, рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере одним (например, всеми или некоторыми) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств (например, набора скоординированных интеллектуальных звуковых устройств) и/или по меньшей мере одним (например, всеми или некоторыми) из динамиков другого набора динамиков. Некоторые варианты осуществления представляют собой способы (или системы) для такого рендеринга (например, включающего генерирование сигналов, подаваемых на динамики), а также воспроизведения подвергнутых рендерингу аудиоданных (например, воспроизведения сгенерированных сигналов, подаваемых на динамики). Примеры таких вариантов осуществления включают следующие. Some embodiments of the present invention are systems and methods for rendering (or rendering and playing) a spatial audio mix (e.g., rendering an audio data stream or multiple audio data streams) for playback by at least one (e.g., all or some) of the smart audio devices in a set of smart audio devices. audio devices (eg, a set of coordinated smart audio devices) and/or at least one (eg, all or some) of the speakers of another set of speakers. Some embodiments are methods (or systems) for such rendering (eg, including generating signals to speakers) as well as playback of rendered audio data (eg, playback of generated signals to speakers). Examples of such embodiments include the following.

Системы и способы для обработки аудиоданных могут включать рендеринг аудиоданных (например, рендеринг пространственного звукового микса, например, путем рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере двумя динамиками (например, всеми или некоторыми из динамиков набора динамиков), что включает:Systems and methods for processing audio data may include rendering audio data (e.g., rendering a spatial audio mix, e.g., by rendering an audio data stream or multiple audio data streams) for playback by at least two speakers (e.g., all or some of the speakers in a set of speakers), which includes :

(a) комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей, (таких как пороги ограничения (пороги ограничения воспроизведения) отдельных громкоговорителей, посредством чего определяются конфигурационные данные динамической обработки среды прослушивания для множества громкоговорителей (такие как комбинированные пороги); (a) combining individual speaker dynamics processing configuration data (such as clipping thresholds (playback limiting thresholds) of individual speakers, whereby listening environment dynamics processing configuration data for a plurality of speakers (such as combined thresholds) is determined);

(b) выполнение динамической обработки в отношении аудиоданных (например, потока (потоков) аудиоданных, отражающих пространственный звуковой микс) с применением конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей (например, комбинированных порогов) с целью генерирования обработанных аудиоданных; и (b) performing dynamics processing on audio data (eg, audio data stream(s) reflecting a spatial audio mix) using listening environment dynamics configuration data for a plurality of speakers (eg, combined thresholds) to generate processed audio data; and

(c) рендеринг обработанных аудиоданных в сигналы, подаваемые на динамики.(c) rendering the processed audio data into signals fed to speakers.

Согласно некоторым реализациям этап (а) может выполняться таким модулем, как модуль 310 конфигурационных данных динамической обработки среды прослушивания, представленный на фиг. 3. Концентратор 305 умного дома может быть выполнен с возможностью получения через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из M громкоговорителей. В этой реализации конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым примерам, конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В этом примере каждый из наборов конфигурационных данных динамической обработки отдельных громкоговорителей содержит по меньшей мере один тип конфигурационных данных динамической обработки. В некоторых примерах концентратор 305 умного дома может быть выполнен с возможностью получения наборов конфигурационных данных динамической обработки отдельных громкоговорителей путем запроса каждого из громкоговорителей 205a–205m. В других реализациях концентратор 305 умного дома может быть выполнен с возможностью получения наборов конфигурационных данных динамической обработки отдельных громкоговорителей путем запроса структуры данных из ранее полученных наборов конфигурационных данных динамической обработки отдельных громкоговорителей, хранящихся в запоминающем устройстве.In some implementations, step (a) may be performed by a module such as the listening environment dynamic configuration data processing module 310 shown in FIG. 3. The smart home hub 305 may be configured to receive individual speaker dynamic processing configuration data for each of the M speakers via the interface system. In this implementation, the individual speaker dynamics configuration data comprises a set of individual speaker dynamics configuration data for each speaker of the plurality of speakers. According to some examples, individual speaker dynamics processing configuration data for one or more speakers may correspond to one or more functionality of one or more speakers. In this example, each of the individual speaker dynamics configuration data sets contains at least one type of dynamics configuration data. In some examples, smart home hub 305 may be configured to obtain individual speaker dynamics configuration data sets by querying each of the speakers 205a-205m. In other implementations, smart home hub 305 may be configured to obtain individual speaker dynamics configuration data sets by querying a data structure from previously obtained individual speaker dynamics configuration data sets stored in a storage device.

В некоторых примерах этап (b) может выполняться таким модулем, как модуль 315 динамической обработки среды прослушивания по фиг. 3. Ниже описаны некоторые подробные примеры этапов (а) и (b).In some examples, step (b) may be performed by a module such as the listening environment dynamics module 315 of FIG. 3. Some detailed examples of steps (a) and (b) are described below.

В некоторых примерах рендеринг в соответствии с этапом (с) может выполняться таким модулем, как модуль 320 рендеринга или модуль 320’ рендеринга по фиг. 3. В некоторых вариантах осуществления обработка аудиоданных может включать:In some examples, rendering in accordance with step (c) may be performed by a module such as renderer 320 or renderer 320' of FIG. 3. In some embodiments, the processing of audio data may include:

(d) выполнение динамической обработки в отношении повергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя (например, ограничение сигналов, подаваемых на динамики, в соответствии с порогами ограничения воспроизведения, связанными с соответствующими динамиками, посредством чего генерируются ограниченные сигналы, подаваемые на динамики). Этап (d) может выполняться, например, модулями А–М динамической обработки, представленными на фиг. 3.(d) performing dynamics processing on rendered audio signals according to individual speaker dynamics configuration data for each speaker (e.g., clipping signals applied to speakers according to playback clipping thresholds associated with the respective speakers, whereby clipped signals to the speakers). Step (d) may be performed, for example, by the dynamics modules A-M shown in FIG. 3.

Динамики могут включать динамики по меньшей мере одного (например, всех или некоторых) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств (или могут быть соединены по меньшей мере с одним из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств). В некоторых реализациях для генерирования ограниченных сигналов, подаваемых на динамики, на этапе (d) сигналы, подаваемые на динамики, сгенерированные на этапе (с), могут подвергаться обработке с помощью второго этапа динамической обработки (например, связанной с каждым динамиком системы динамической обработки), например, с целью генерирования сигналов, подаваемых на динамики, перед их окончательным воспроизведением через динамики. Например, сигналы, подаваемые на динамики (или их подмножество, или их часть), могут доставляться в систему динамической обработки каждого отдельного из динамиков (например, в подсистему динамической обработки интеллектуального звукового устройства, при этом интеллектуальное звуковое устройство содержит соответствующий один из динамиков или соединено с ним), и обработанные выходные аудиоданные из каждой указанной системы динамической обработки можно использовать для генерирования сигнала, подаваемого на динамик, для соответствующего одного из динамиков. После динамической обработки для конкретных динамиков (иначе говоря, динамической обработки, выполненной независимо для каждого из динамиков) обработанные (например, динамически ограниченные) сигналы, подаваемые на динамики, можно использовать для приведения в действие динамиков с целью воспроизведения звука. The speakers may include speakers from at least one (eg, all or some) of the smart sound devices in the smart sound device set (or may be connected to at least one of the smart sound devices in the smart sound device set). In some implementations, to generate limited speaker signals in step (d), the speaker signals generated in step (c) may be processed by a second dynamic processing step (e.g., a dynamics processing system associated with each speaker) , for example, to generate signals to the speakers before they are finally played back through the speakers. For example, signals applied to the speakers (or a subset or portion thereof) may be delivered to the dynamics processing system of each individual speaker (e.g., to the dynamics processing subsystem of an intelligent audio device, wherein the intelligent audio device comprises a corresponding one of the speakers or is connected with it), and the processed audio output from each of said dynamics processing systems can be used to generate a speaker signal for a corresponding one of the speakers. After speaker-specific dynamics processing (in other words, dynamics processing performed independently for each of the speakers), the processed (eg, dynamically clipped) signals applied to the speakers can be used to drive the speakers for sound reproduction.

Первый этап динамической обработки (на этапе (b)) может быть выполнен с возможностью уменьшения отвлекающего восприятие сдвига в пространственном балансе, который иначе возникал бы при пропуске этапов (а) и (b) и генерировании динамически обработанных (например, ограниченных) сигналов, подаваемых на громкоговоритель, которые возникают из этапа (d) в ответ на исходные аудиоданные (а не в ответ на обработанные аудиоданные, генерируемые на этапе (b)). Это может предотвратить нежелательный сдвиг в пространственном балансе микширования. Второй этап динамической обработки, действующий в отношении подвергнутых рендерингу сигналов, подаваемых на динамики, из этапа (с), может быть выполнен с возможностью обеспечения отсутствия искажений динамиков, так как динамическая обработка на этапе (b) необязательно может обеспечивать уменьшение уровней сигналов ниже порогов для всех громкоговорителей. Комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (например, комбинирование порогов на первом этапе (этап (а)) в некоторых примерах может задействовать (например, включать) этап усреднения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах) или взятие минимального значения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах).The first stage of dynamics processing (in step (b)) can be configured to reduce the distracting shift in spatial balance that would otherwise occur if steps (a) and (b) were skipped and dynamically processed (e.g., clipped) signals generated to the loudspeaker that arise from step (d) in response to the original audio data (rather than in response to the processed audio data generated in step (b)). This can prevent unwanted shifts in the spatial balance of the mix. The second dynamics processing step, operating on the rendered speaker signals from step (c), may be configured to ensure no speaker distortion, since the dynamics processing in step (b) may optionally reduce signal levels below thresholds for all speakers. Combining the individual speaker dynamics configuration data (e.g., combining the thresholds in the first step (step (a)) in some examples may involve (e.g., include) an averaging step of the individual speaker dynamics processing configuration data (e.g., clipping thresholds) in the speakers (e.g., in smart audio devices) or taking the minimum value of individual speaker dynamics processing configuration data (eg clipping thresholds) in speakers (eg in smart audio devices).

В некоторых реализациях, когда первый этап динамической обработки (на этапе (b)) действует в отношении аудиоданных, указывающих на пространственное микширование (например, аудиоданные звуковой программы на основе объектов, содержащей по меньшей мире один канал объектов, а также, необязательно, по меньшей мере один канал динамика), этот первый этап можно реализовать в соответствии с техническим решением для обработки звуковых объектов путем использования пространственных зон. В этом случае комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, комбинированные пороги ограничения), связанные с каждой из зон, можно получить с помощью (или в виде) взвешенного среднего конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения отдельных динамиков), и эта весовая обработка может быть предоставлена или определена по меньшей мере частично посредством пространственной близости каждого динамика к зоне и/или положения в зоне.In some implementations, when the first stage of dynamics processing (in step (b)) operates on audio data indicative of spatial mixing (e.g., audio data of an object-based audio program containing at least one object channel in the world, and optionally at least at least one speaker channel), this first step can be implemented in accordance with the technical solution for processing audio objects by using spatial zones. In this case, the combined individual speaker dynamics configuration data (e.g., combined clipping thresholds) associated with each of the zones can be obtained using (or as) a weighted average of the individual speaker dynamics configuration data (e.g., individual speaker clipping thresholds), and this weighting may be provided or determined at least in part by each speaker's spatial proximity to the zone and/or position within the zone.

В иллюстративном варианте осуществления предполагается множество из M динамиков (

Figure 00000001
), в котором каждый динамик индексирован с помощью переменной i. С каждым динамиком i связан набор переменных по частоте порогов ограничения воспроизведения,
Figure 00000002
, где переменная f отображает индекс в конечное множество частот, при которых определены эти пороги. (Следует отметить, что если размер множества частот равен единице, то соответствующий единственный порог можно считать широкополосным, применимым по всему диапазону частот). Эти пороги используются каждым динамиком в его собственной, независимой функции динамической обработки для ограничения звукового сигнала ниже порогов
Figure 00000002
для конкретной цели, такой как предотвращение искажения динамика или воспроизведения динамиком за пределами некоторого уровня, который считается недопустимым вблизи него.In an exemplary embodiment, a set of M speakers is assumed (
Figure 00000001
) in which each speaker is indexed by the variable i . Each speaker i is associated with a set of variables for the frequency of playback limitation thresholds,
Figure 00000002
, where the variable f maps the index to a finite set of frequencies at which these thresholds are defined. (It should be noted that if the size of the set of frequencies is equal to one, then the corresponding single threshold can be considered wideband, applicable over the entire frequency range). These thresholds are used by each speaker in its own independent dynamics processing function to limit the audio signal below the thresholds.
Figure 00000002
for a specific purpose, such as preventing speaker distortion or speaker playback beyond some level that is considered unacceptable in its vicinity.

На фиг. 4A, 4B и 4C представлены примеры порогов ограничения воспроизведения и соответствующие частоты. Например, представленный диапазон частот может охватывать диапазон частот, слышимых обычным человеком (например, от 20 Гц до 20 кГц). В этих примерах пороги ограничения воспроизведения указаны вертикальными осями графиков 400a, 400b и 400c, которые в этих примерах обозначены как «Порог уровня». Пороги ограничения/уровня воспроизведения увеличиваются в направлении стрелок на вертикальных осях. Пороги ограничения/уровня воспроизведения могут быть выражены, например, в децибелах. В этих примерах горизонтальные оси графиков 400a, 400b и 400c указывают частоты, которые увеличиваются в направлении стрелок на горизонтальных осях. Пороги ограничения воспроизведения, указанные кривыми 400a, 400b и 400c, могут быть реализованы, например, модулями динамической обработки отдельных громкоговорителей.In FIG. 4A, 4B and 4C show examples of playback clipping thresholds and corresponding frequencies. For example, the presented frequency range may cover the range of frequencies audible to the average person (eg, 20 Hz to 20 kHz). In these examples, playback limit thresholds are indicated by the vertical axes of graphs 400a, 400b, and 400c, which are labeled "Level Threshold" in these examples. The playback limit/level thresholds increase in the direction of the arrows on the vertical axes. Reproduction limit/level thresholds may be expressed in decibels, for example. In these examples, the horizontal axes of the plots 400a, 400b, and 400c indicate frequencies that increase in the direction of the arrows on the horizontal axes. The playback limit thresholds indicated by curves 400a, 400b and 400c may be implemented, for example, by individual loudspeaker dynamics modules.

На графике 400a по фиг. 4А представлен первый пример порога ограничения воспроизведения в зависимости от частоты. Кривая 405a указывает порог ограничения воспроизведения для каждого соответствующего значения частоты. В этом примере при низкой частоте fb входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на выходном уровне To. Например, низкая частота fb может находиться в диапазоне от 60 до 250 Гц. Однако в этом примере на высокой частоте fb входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на том же уровне, входном уровне Ti. Например, высокая частота fb может находиться в диапазоне выше 1280 Гц. Соответственно, в этом примере кривая 405а соответствует модулю динамической обработки, который применяет для низких частот значительно более низкий порог, чем для верхних частот. Такой модуль динамической обработки может подходить для громкоговорителя, не содержащего низкочастотный динамик (например, для громкоговорителя 205d по фиг. 2).In graph 400a of FIG. 4A shows a first example of a playback limitation threshold depending on frequency. Curve 405a indicates the playback limitation threshold for each respective frequency value. In this example, at a low frequency f b , the input audio data received at the input level T i will be output by the dynamics module at the output level T o . For example, the low frequency f b may be in the range of 60 to 250 Hz. However, in this example, at a high frequency f b , the input audio data received at the input level T i will be output by the dynamics module at the same level, the input level T i . For example, the high frequency f b may be in the range above 1280 Hz. Accordingly, in this example, curve 405a corresponds to a dynamics module that applies a significantly lower threshold for low frequencies than for high frequencies. Such a dynamics processing module may be suitable for a speaker that does not include a subwoofer (eg, speaker 205d of FIG. 2).

На графике 400b по фиг. 4В представлен второй пример порога ограничения воспроизведения в зависимости от частоты. Кривая 405b указывает, что на такой же низкой частоте fb, представленной на фиг. 4А, входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на более высоком выходном уровне To. Соответственно, в этом примере кривая 405b соответствует модулю динамической обработки, который не применяет для низких частот такой же низкий порог, как кривая 405a. Такой модуль динамической обработки может подходить для громкоговорителя, содержащего по меньшей мере небольшой низкочастотный динамик (например, для громкоговорителя 205b по фиг. 2).In graph 400b of FIG. 4B shows a second example of a playback limitation threshold versus frequency. Curve 405b indicates that at the same low frequency f b shown in FIG. 4A, input audio data received at an input level T i will be output by the dynamics module at a higher output level T o . Accordingly, in this example, curve 405b corresponds to a dynamics module that does not apply the same low threshold for low frequencies as curve 405a. Such a dynamics processing module may be suitable for a loudspeaker containing at least a small subwoofer (eg, loudspeaker 205b of FIG. 2).

На графике 400c по фиг. 4С представлен второй пример порога ограничения воспроизведения в зависимости от частоты. Кривая 405c (которая в этом примере представляет собой прямую линию) указывает, что на такой же низкой частоте fb, представленной на фиг. 4А, входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на том же уровне. Соответственно, в этом примере кривая 405c соответствует модулю динамической обработки, который может подходить для громкоговорителя, способного воспроизводить широкий диапазон частот, в том числе низких частот. Можно наблюдать, что для простоты модуль динамической обработки может аппроксимировать кривую 405с путем реализации кривой 405d, которая применяет одинаковый порог для всех указанных частот.In graph 400c of FIG. 4C shows a second example of a playback limiting threshold versus frequency. Curve 405c (which is a straight line in this example) indicates that at the same low frequency f b shown in FIG. 4A, the input audio data received at the input level T i will be output by the dynamics processing unit at the same level. Accordingly, in this example, curve 405c corresponds to a dynamic processing unit that may be suitable for a loudspeaker capable of reproducing a wide range of frequencies, including low frequencies. It can be observed that, for simplicity, the dynamics module may approximate curve 405c by implementing curve 405d that applies the same threshold for all specified frequencies.

Пространственный звуковой микс может подвергаться рендерингу для множества динамиков с использованием известной системы рендеринга, такой как «Амплитудное панорамирование центра масс» (CMAP) или «Гибкая виртуализация» (FV). Для составных частей пространственного звукового микса система рендеринга генерирует сигналы, подаваемые на динамики, по одному для каждого из множества динамиков. В некоторых предыдущих примерах сигналы, подаваемые на динамики, затем независимо обрабатывались связанной с каждым динамиком функцией динамической обработки с использованием порогов

Figure 00000002
. В отсутствие преимуществ настоящего изобретения, этот описанный сценарий рендеринга может приводить к отвлекающим сдвигам в воспринимаемом пространственном балансе подвергнутого рендерингу пространственного звукового микса. Например, один из M динамиков, предположим на правой стороне области прослушивания, может быть менее функциональным, чем другие (например, при рендеринге аудиоданных в низкочастотном диапазоне), и поэтому пороги
Figure 00000002
для этого динамика могут быть значительно более низкими, чем те, что для других динамиков, по меньшей мере в конкретном диапазоне частот. В ходе воспроизведения модуль динамической обработки этого динамика будут понижать уровень составляющих пространственного микширования на правой стороне в значительно большей степени, чем составляющих на левой стороне. Слушатели являются чрезвычайно чувствительными к таким динамическим сдвигам между левым/правым балансом пространственного микширования и могут находить результаты весьма отвлекающими.The spatial audio mix can be rendered for multiple speakers using a known rendering system such as Center of Mass Amplitude Panning (CMAP) or Flexible Virtualization (FV). For the component parts of the spatial audio mix, the rendering system generates signals to the speakers, one for each of the multiple speakers. In some of the previous examples, the signals applied to the speakers were then independently processed by the dynamics processing function associated with each speaker using thresholds.
Figure 00000002
. In the absence of the benefits of the present invention, this described rendering scenario can lead to distracting shifts in the perceived spatial balance of the rendered spatial audio mix. For example, one of the M speakers, let's say on the right side of the listening area, may be less functional than the others (for example, when rendering audio data in the low frequency range), and therefore the thresholds
Figure 00000002
for this, the speakers can be significantly lower than those for other speakers, at least in a particular frequency range. During playback, the dynamics processing module of this speaker will lower the level of the spatial mixing components on the right side to a much greater extent than the components on the left side. Listeners are extremely sensitive to such dynamic shifts between left/right spatial mixing balance and may find the results quite distracting.

Для решения этой проблемы, в некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) для отдельных динамиков среды прослушивания комбинируются с целью создания конфигурационных данных динамической обработки среды прослушивания для всех громкоговорителей среды прослушивания. Конфигурационные данные динамической обработки среды прослушивания можно затем использовать для выполнения начальной динамической обработки в контексте всего пространственного звукового микса перед его рендерингом в сигналы, подаваемые на динамики. Так как этот первый этап динамической обработки имеет доступ ко всему пространственному микшированию, в отличие от одного независимого сигнала, подаваемого на динамик, обработка может выполняться способами, которые не придают отвлекающие сдвиги воспринимаемому пространственному балансу микширования. Конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) могут комбинироваться способом, который исключает или уменьшает объем динамической обработки, выполняемой с помощью любой из независимых функций динамической обработки отдельных динамиков.To solve this problem, in some examples, individual speaker dynamics configuration data (eg, play limit thresholds) for individual listening environment speakers are combined to create listening environment dynamics configuration data for all listening environment speakers. The listening environment dynamics processing configuration data can then be used to perform initial dynamics processing in the context of the entire spatial audio mix before it is rendered into signals fed to the speakers. Since this first stage of dynamics processing has access to the entire spatial mix, as opposed to a single independent signal fed to the speaker, the processing can be performed in ways that do not impart distracting shifts to the perceived spatial balance of the mix. Individual speaker dynamics processing configuration data (eg, playback clipping thresholds) may be combined in a manner that eliminates or reduces the amount of dynamics processing performed by any of the independent individual speaker dynamics processing functions.

В одном примере определения конфигурационных данных динамической обработки среды прослушивания конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) для отдельных динамиков могут комбинироваться в единый набор конфигурационных данных динамической обработки среды прослушивания (например, переменных по частоте порогов ограничения воспроизведения

Figure 00000003
), которые применяются ко всем составляющим пространственного микширования на первом этапе динамической обработки. Согласно некоторым таким примерам, так как ограничение является одинаковым в отношении всех составляющих, пространственный баланс микширования может сохраняться. Одним способом комбинирования конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения воспроизведения) является взятие минимального значения по всем динамикам i:In one example of defining listening environment dynamics configuration data, individual speaker dynamics configuration data (e.g., playback clipping thresholds) for individual speakers can be combined into a single listening environment dynamics configuration data set (e.g., frequency-variable playback clipping thresholds).
Figure 00000003
) that are applied to all spatial mixing components in the first stage of dynamics processing. According to some such examples, since the constraint is the same for all components, the spatial balance of the mix can be maintained. One way to combine individual speaker dynamics processing configuration data (for example, playback clipping thresholds) is to take the minimum value across all speakers i :

Figure 00000004
Figure 00000004

Такое комбинирование по существу исключает операцию динамической обработки каждого отдельного динамика, так как пространственное микширование сначала ограничивается ниже порога наименее функционального динамика на каждой частоте. Однако такая стратегия может являться излишне агрессивной. Многие динамики могут выполнять воспроизведение на уровне ниже их функциональных возможностей, и комбинированный уровень воспроизведения всех динамиков может являться недопустимо низким. Например, при применении порогов в низкочастотном диапазоне, представленном на фиг. 4А, к громкоговорителю, соответствующему порогам для фиг. 4С, уровень воспроизведения последнего динамика в низкочастотном диапазоне будет излишне низким. Альтернативным комбинированием определения конфигурационных данных динамической обработки среды прослушивания является взятие среднего (усреднение) конфигурационных данных динамической обработки отдельных громкоговорителей по всем динамикам среды прослушивания. Например, в контексте порогов ограничения воспроизведения это среднее можно определить следующим образом:Such a combination essentially eliminates the operation of dynamic processing of each individual speaker, since the spatial mixing is first limited below the threshold of the least functional speaker at each frequency. However, this strategy may be overly aggressive. Many speakers may play at a level below their capability, and the combined playback level of all speakers may be unacceptably low. For example, when applying thresholds in the low frequency range shown in FIG. 4A to a loudspeaker corresponding to the thresholds for FIG. 4C, the reproduction level of the last speaker in the low frequency range will be unnecessarily low. An alternative combination of determining the listening environment dynamic processing configuration data is to take an average (averaging) of the individual speaker dynamics processing configuration data over all the listening environment speakers. For example, in the context of playback restriction thresholds, this average can be defined as follows:

Figure 00000005
Figure 00000005

При таком комбинировании общий уровень воспроизведения может повышаться по сравнению с взятием минимального значения, так как первый этап динамической обработки выполняет ограничение до более высокого уровня и, таким образом, обеспечивает возможность более громкого воспроизведения динамиками с большими функциональными возможностями. Для динамиков, индивидуальные пороги ограничения которых находятся ниже среднего, их независимые функции динамической обработки при необходимости могут по-прежнему ограничивать связанный с ними сигнал, подаваемый на динамик. Однако первый этап динамической обработки, вероятно, будет снижать потребности в этом ограничении, так как некоторое начальное ограничение было выполнено в отношении пространственного микширования.With this combination, the overall playback level can be increased compared to taking the minimum value, since the first stage of dynamics processing clips to a higher level and thus allows louder playback by speakers with more functionality. For speakers whose individual clipping thresholds are below average, their independent dynamics processing functions may still clip their associated signal delivered to the speaker if necessary. However, the first stage of dynamic processing is likely to reduce the need for this constraint, since some initial constraint has been made on the spatial mixing.

Согласно некоторым примерам определения конфигурационных данных динамической обработки среды прослушивания, можно создать перестраиваемую комбинацию, с интерполяцией между минимальным и средним значениями конфигурационных данных динамической обработки отдельных громкоговорителей с помощью параметра настройки

Figure 00000006
. Например, в контексте порогов ограничения воспроизведения эту интерполяцию можно определить следующим образом:According to some examples of determining the dynamics processing configuration data of the listening environment, it is possible to create a tunable combination, with interpolation between the minimum and average values of the dynamics processing configuration data of individual speakers using the tuning parameter
Figure 00000006
. For example, in the context of playback limit thresholds, this interpolation can be defined as follows:

Figure 00000007
Figure 00000007

Возможны и другие комбинации конфигурационных данных динамической обработки отдельных громкоговорителей, и подразумевается, что настоящее изобретение охватывает все такие комбинации.Other combinations of individual speaker dynamics configuration data are possible, and the present invention is intended to cover all such combinations.

На фиг. 5А и 5В представлены графики, на которых показаны примеры данных сжатия динамического диапазона. На графиках 500a и 500b уровни входного сигнала в децибелах представлены на горизонтальных осях, и уровни выходного сигнала в децибелах представлены на вертикальных осях. Как и в других раскрытых примерах, конкретные пороги, коэффициенты и другие величины представлены лишь в качестве примера и не являются ограничивающими.In FIG. 5A and 5B are graphs showing examples of dynamic range compression data. In plots 500a and 500b, input decibel levels are presented on the horizontal axes, and output decibel levels are presented on the vertical axes. As with other disclosed examples, specific thresholds, ratios, and other values are provided by way of example only and are not limiting.

В примере, представленном на фиг. 5А, уровень выходного сигнала равен уровню входного сигнала ниже порога, который в данном примере равен -10 дБ. Другие примеры могут включать разные пороги, например, -20 дБ, -18 дБ, -16 дБ, -14 дБ, -12 дБ, -8 дБ, -6 дБ, -4 дБ, -2 дБ, 0 дБ, 2 дБ, 4 дБ, 6 дБ и т. д. Выше порога представлены различные примеры коэффициентов сжатия. Коэффициент N:1 означает, что выше порога уровень выходного сигнала будет повышаться на 1 дБ для каждого повышения на N дБ во входном сигнале. Например, коэффициент сжатия 10:1 (линия 505е) означает, что выше порога уровень выходного сигнала будет повышаться лишь на 1 дБ для каждого повышения на 10 дБ во входном сигнале. Коэффициент сжатия 1:1 (линия 505a) означает, что уровень выходного сигнала по-прежнему равен уровню входного сигнала даже выше порога. Линии 505b, 505c и 505d соответствуют коэффициентам сжатия 3:2, 2:1 и 5:1. В других реализациях могут быть предусмотрены другие коэффициенты сжатия, такие как 2.5:1, 3:1, 3.5:1, 4:3, 4:1 и т. д.In the example shown in FIG. 5A, the output signal level is equal to the input signal level below the threshold, which in this example is -10 dB. Other examples may include different thresholds, e.g. -20 dB, -18 dB, -16 dB, -14 dB, -12 dB, -8 dB, -6 dB, -4 dB, -2 dB, 0 dB, 2 dB , 4 dB, 6 dB, etc. Above the threshold, various examples of compression ratios are presented. A factor of N :1 means that above the threshold, the output level will rise by 1 dB for every N dB increase in the input signal. For example, a compression ratio of 10:1 (line 505e) means that above the threshold, the output signal level will increase by only 1 dB for every 10 dB increase in the input signal. A compression ratio of 1:1 (line 505a) means that the output signal level is still equal to the input signal level even above the threshold. Lines 505b, 505c, and 505d correspond to aspect ratios of 3:2, 2:1, and 5:1. Other implementations may provide other aspect ratios such as 2.5:1, 3:1, 3.5:1, 4:3, 4:1, etc.

На фиг. 5В представлены примеры «загибов», которые управляют изменением коэффициента сжатия при или вблизи порога, который в данном примере равен 0 дБ. Согласно данному примеру, кривая сжатия, содержащая «жесткий» загиб, состоит из двух прямолинейных сегментов, линейного сегмента 510а до порога и линейного сегмента 510b выше порога. Жесткий загиб можно проще реализовать, однако он может вызывать артефакты.In FIG. 5B shows examples of "knees" that control the change in compression ratio at or near a threshold, which in this example is 0 dB. According to this example, the compression curve containing a "hard" bend consists of two straight segments, a linear segment 510a before the threshold and a linear segment 510b above the threshold. A hard fold may be easier to implement, but it can introduce artifacts.

На фиг. 5В также представлен один пример «мягкого» загиба. В этом примере мягкий загиб охватывает 10 дБ. Согласно данной реализации, выше и ниже охвата в 10 дБ коэффициенты сжатия кривой сжатия, содержащей мягкий загиб, являются такими же, как те, что у кривой сжатия, содержащей жесткий загиб. В других реализациях могут предоставляться различные другие формы «мягких» загибов, которые могут охватывать большее или меньшее количество децибел, что может указывать на другой коэффициент сжатия выше охвата, и т. д.In FIG. 5B also shows one example of a "soft" fold. In this example, the soft bend spans 10 dB. According to this implementation, above and below 10 dB coverage, the compression ratios of a compression curve containing a soft kink are the same as those of a compression curve containing a hard kink. In other implementations, various other forms of "soft" bends may be provided, which may span more or less decibels, which may indicate a different compression ratio above coverage, etc.

Другие типы данных сжатия динамического диапазона могут включать данные «нарастания » и данные «ослабления». «Нарастание» представляет собой период, в течение которого компрессор уменьшает коэффициент усиления, например, в ответ на повышенный уровень на входе с целью достижения коэффициента усиления, определяемого коэффициентом сжатия. Время нарастания для компрессоров обычно находится в диапазоне от 25 миллисекунд до 500 миллисекунд, хотя возможно и другое время нарастания. «Ослабление» представляет собой период, в течение которого компрессор увеличивает коэффициент усиления, например, в ответ на пониженный уровень на входе с целью достижения выходного коэффициента усиления, определяемого коэффициентом сжатия (или входного уровня, если входной уровень упал ниже порога). Например, время ослабления может находиться в диапазоне от 25 миллисекунд до 2 секунд.Other types of dynamic range compression data may include rise-up data and fade-out data. "Rise" is the period during which the compressor reduces the gain, for example in response to an increased input level, in order to achieve the gain determined by the compression ratio. The rise time for compressors typically ranges from 25 milliseconds to 500 milliseconds, although other rise times are possible. "Cutoff" is the period during which the compressor increases the gain, for example, in response to a reduced input level, in order to reach the output gain determined by the compression ratio (or the input level if the input level falls below a threshold). For example, the decay time may be in the range of 25 milliseconds to 2 seconds.

Соответственно, в некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба. Один или более из этих типов конфигурационных данных динамической обработки отдельных громкоговорителей можно комбинировать для определения конфигурационных данных динамической обработки среды прослушивания. Как отмечено выше в отношении комбинирования порогов ограничения воспроизведения, в некоторых примерах для определения конфигурационных данных динамической обработки среды прослушивания данные сжатия динамического диапазона можно усреднить. В некоторых случаях для определения конфигурационных данных динамической обработки среды прослушивания можно использовать минимальное или максимальное значение данных сжатия динамического диапазона (например, максимальный коэффициент сжатия). В других реализациях можно создать перестраиваемую комбинацию с интерполяцией между минимальным и средним значениями данных сжатия динамического диапазона для динамической обработки отдельных громкоговорителей, например, с помощью такого параметра настройки, как параметр, описанный выше со ссылкой на уравнение (3).Accordingly, in some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. The dynamic range compression dataset may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data. One or more of these types of individual speaker dynamics processing configuration data can be combined to define the listening environment dynamics processing configuration data. As noted above with respect to combining playback clipping thresholds, in some examples, dynamic range compression data may be averaged to determine the listening environment dynamic processing configuration data. In some cases, the minimum or maximum value of the dynamic range compression data (eg, maximum compression ratio) can be used to determine the dynamic processing configuration data of the listening environment. In other implementations, it is possible to create a tunable combination with interpolation between the minimum and average values of the dynamic range compression data for dynamic processing of individual speakers, for example, using a tuning parameter such as the parameter described above with reference to equation (3).

В некоторых вышеописанных примерах на первом этапе динамической обработки ко всем составляющим пространственного микширования применяется один набор конфигурационных данных динамической обработки среды прослушивания (например, один набор комбинированных порогов,

Figure 00000003
). Такие реализации могут сохранять пространственный баланс микширования, но вызывать другие нежелательные артефакты. Например, когда очень громкая часть пространственного микширования в выделенной области пространства вызывает снижение уровня всего микширования, может возникать «пространственное приглушение». Другие, более мягкие составляющие микширования, отдаленные в пространстве от этой громкой составляющей, могут восприниматься как становящиеся неестественно мягкими. Например, мягкая фоновая музыка может воспроизводиться в окружающем поле пространственного микширования на уровне ниже комбинированных порогов,
Figure 00000003
, и поэтому на первом этапе динамической обработки не выполняется никакое ограничение пространственного микширования. Затем спереди пространственного микширования (например, на экране в случае звуковой дорожки фильма) мгновенно вводится громкий выстрел, и общий уровень микширования превышает комбинированные пороги. В этот момент первый этап динамической обработки понижает уровень всего микширования ниже порогов
Figure 00000008
Так как музыка пространственно отделена от выстрела, она может восприниматься в непрерывном потоке музыки как неестественно приглушенная.In some of the above examples, in the first stage of dynamics processing, one set of listening environment dynamics processing configuration data is applied to all spatial mixing components (e.g., one set of combined thresholds,
Figure 00000003
). Such implementations may maintain the spatial balance of the mix, but introduce other undesirable artifacts. For example, when a very loud portion of a spatial mix in a selected region of space causes the overall mix to be lowered, "spatial muting" may occur. Other softer parts of the mix that are spaced apart from this loud part can be perceived as becoming unnaturally soft. For example, soft background music may be played in an ambient spatial mixing field at a level below the combined thresholds,
Figure 00000003
, and therefore no spatial mixing constraint is performed in the first stage of dynamics processing. Then, in front of the spatial mix (for example, on the screen in the case of a movie soundtrack), a loud shot is instantly introduced, and the overall mix level exceeds the combined thresholds. At this point, the first stage of dynamics processing lowers the level of the entire mix below the thresholds.
Figure 00000008
Since the music is spatially separated from the shot, it can be perceived as unnaturally muffled in a continuous stream of music.

Для решения этих проблем в некоторых реализациях обеспечивается возможность независимой или частично независимой динамической обработки в отношении разных «пространственных зон» пространственного микширования. Пространственную зону можно считать подмножеством области пространства, в отношении которой выполняется рендеринг всего пространственного микширования. И хотя в большей части следующего обсуждения предоставлены примеры динамической обработки на основе порогов ограничения воспроизведения, эта концепция в равной мере применима к конфигурационным данным динамической обработки отдельных громкоговорителей и конфигурационным данным динамической обработки среды прослушивания других типов.To address these issues, some implementations allow independent or partially independent dynamics processing with respect to different "spatial zones" of the spatial mixing. A spatial region can be thought of as a subset of the region of space against which the entire spatial mixing is rendered. While much of the following discussion provides examples of dynamics based on playback clipping thresholds, the concept is equally applicable to individual speaker dynamics configuration data and other types of listening environment dynamics configuration data.

На фиг. 6 представлен пример пространственных зон среды прослушивания. На фиг. 6 изображен пример области пространственного микширования (представленного целым квадратом), подразделенным на три пространственные зоны: Переднюю, Центральную и Окружающую.In FIG. 6 shows an example of the spatial zones of the listening environment. In FIG. 6 shows an example of a spatial mixing area (represented by a whole square) subdivided into three spatial zones: Front, Center and Surround.

Несмотря на то, что зоны на фиг. 6 изображены с жесткими границами, на практике преимущественной является интерпретация перехода от одной пространственной зоны к другой как непрерывного. Например, составляющая пространственного микширования, расположенная в середине левой границы квадрата, может содержать половину ее уровня, отнесенную к передней зоне, и половину — к окружающей зоне. Таким непрерывным образом можно отнести и накопить уровень сигнала от каждой составляющей пространственного микширования в каждой из пространственных зон. Тогда функция динамической обработки может функционировать независимо для каждой пространственной зоны в отношении общего уровня сигнала, отнесенного к ней из микширования. Тогда для каждой составляющей пространственного микширования можно комбинировать и применять к этой составляющей результаты динамической обработки на основе каждой пространственной зоны (например, переменные во времени коэффициенты усиления по частоте). В некоторых примерах результаты такого комбинирования пространственных зон отличаются для каждой составляющей и зависят от отнесения данной конкретной составляющей к каждой зоне. Конечным результатом является то, что составляющие пространственного микширования с подобными отнесениями к пространственным зонам получают подобную динамическую обработку, однако допускается независимость между пространственными зонами. Пространственные зоны можно преимущественно выбрать так, чтобы предотвратить нежелательные пространственные сдвиги, такие как нарушение баланса слева/справа, и, в то же время, обеспечить возможность некоторой пространственно независимой обработки (например, подавления других артефактов, таких как описанное пространственное приглушение). Although the zones in FIG. 6 are depicted with rigid boundaries, in practice it is preferable to interpret the transition from one spatial zone to another as continuous. For example, a spatial mixing component located in the middle of the left border of a square may contain half of its level related to the front zone and half to the surrounding zone. In this way, the signal level from each component of the spatial mixing in each of the spatial zones can be attributed and accumulated in a continuous manner. The dynamics processing function can then operate independently for each spatial region with respect to the overall signal level assigned to it from the mix. Then, for each spatial mixing component, the results of dynamic processing based on each spatial zone (eg, time-varying frequency gains) can be combined and applied to that component. In some examples, the results of such a combination of spatial zones are different for each component and depend on the assignment of this particular component to each zone. The end result is that spatial mixing components with similar spatial zone assignments receive similar dynamic processing, but independence between spatial zones is allowed. The spatial zones can advantageously be chosen to prevent unwanted spatial shifts, such as left/right imbalance, while at the same time allowing for some spatially independent processing (eg, suppression of other artifacts such as the described spatial muting).

Технические решения для обработки пространственного микширования с помощью пространственных зон можно преимущественно использовать на первом этапе динамической обработки согласно настоящему изобретению. Например, для каждой пространственной зоны можно вычислить различную комбинацию конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения воспроизведения) в динамиках i. Набор комбинированных порогов зон можно представить в виде

Figure 00000009
, где индекс j относится к одной из множества пространственных зон. Модуль динамической обработки может действовать независимо в отношении каждой пространственной зоны со связанными с ней порогами
Figure 00000009
, и результаты можно обратно применить в отношении составных частей пространственного микширования согласно вышеописанному техническому решению.The technical solutions for spatial mixing processing using spatial zones can advantageously be used in the first stage of dynamic processing according to the present invention. For example, for each spatial zone, a different combination of individual speaker dynamics processing configuration data (eg, play limit thresholds) in speakers i can be computed. The set of combined zone thresholds can be represented as
Figure 00000009
, where the index j refers to one of the many spatial zones. The dynamic processing module can act independently on each spatial zone with its associated thresholds
Figure 00000009
, and the results can be applied back to the components of the spatial mixing according to the above technical solution.

Рассмотрим подвергаемый рендерингу пространственный сигнал как состоящий из К отдельных составляющих сигналов

Figure 00000010
, каждый из которых связан с требуемым пространственным положением (возможно, переменным во времени). Одним конкретным способом реализации обработки зон является вычисление переменных во времени коэффициентов усиления при панорамировании,
Figure 00000011
, которые описывают, какая доля каждого звукового сигнала
Figure 00000010
вносит вклад в зону j в зависимости от требуемого пространственного положения звукового сигнала относительно положения зоны. Эти коэффициенты усиления при панорамировании преимущественно могут быть предназначены для следования закону сохранения энергии при панорамировании, который требует, чтобы сумма квадратов этих коэффициентов усиления была равна единице. На основе этих коэффициентов усиления при панорамировании сигналы зоны,
Figure 00000012
, можно вычислить как сумму составляющих сигналов, подвергнутых весовой обработке с помощью их коэффициента усиления при панорамировании для данной зоны:Consider the rendered spatial signal as consisting of K separate component signals
Figure 00000010
, each of which is associated with a desired spatial position (possibly variable in time). One particular way to implement zone processing is to compute time-varying pan gains,
Figure 00000011
, which describe how much of each audio signal
Figure 00000010
contributes to the zone j depending on the desired spatial position of the audio signal relative to the position of the zone. These panning gains can advantageously be designed to follow the law of conservation of energy in panning, which requires that the sum of the squares of these panning gains be equal to one. Based on these pan gains, zone signals,
Figure 00000012
, can be computed as the sum of the signal components weighted by their pan gain for a given zone:

Figure 00000013
Figure 00000013

Сигнал каждой зоны

Figure 00000014
может затем обрабатываться независимо функцией DP динамической обработки, параметризованной порогами зон,
Figure 00000009
, для получения переменных по частоте и во времени модифицированных коэффициентов усиления зон, G j :Signal of each zone
Figure 00000014
can then be processed independently by the dynamic processing DP function parameterized by the zone thresholds,
Figure 00000009
, to obtain frequency and time variables of the modified zone gains, G j :

Figure 00000015
Figure 00000015

Затем путем комбинирования модифицированных коэффициентов усиления зон пропорционально коэффициентам усиления при панорамировании этого сигнала для зон,

Figure 00000010
, можно вычислить переменные по частоте и во времени модифицированные коэффициенты усиления для каждого отдельного составляющего сигнала:Then, by combining the modified zone gains in proportion to the panning gains of that signal for the zones,
Figure 00000010
, you can calculate the frequency and time-varying modified gains for each individual component signal:

Figure 00000016
Figure 00000016

Эти модифицированные коэффициенты усиления сигнала, G k , можно затем применить к каждому составляющему сигналу, например, с использованием банка фильтров, с целью получения подвергнутых динамической обработке составляющих сигналов,

Figure 00000017
, которые могут затем подвергаться рендерингу в сигналы динамиков. These modified signal gains, G k , can then be applied to each component signal, for example using a filter bank, to obtain dynamically processed component signals,
Figure 00000017
, which can then be rendered into speaker signals.

Комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (таких, как пороги ограничения воспроизведения динамиков) для каждой пространственной зоны можно выполнить множеством способов. В качестве одного примера пороги ограничения воспроизведения пространственных зон

Figure 00000009
можно вычислить как взвешенную сумму порогов ограничения воспроизведения динамиков
Figure 00000002
с использованием зависящей от пространственных зон и динамиков весовой обработки
Figure 00000018
: Combining individual speaker dynamics processing configuration data (such as speaker clipping thresholds) for each spatial zone can be done in a variety of ways. As one example, spatial zone reproduction limitation thresholds
Figure 00000009
can be computed as the weighted sum of speaker playback limit thresholds
Figure 00000002
using space- and speaker-dependent weighting
Figure 00000018
:

Figure 00000019
Figure 00000019

Аналогичные функции весовой обработки можно применять к другим типам конфигурационных данных динамической обработки отдельных громкоговорителей. Преимущественно комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) пространственной зоны можно сместить к конфигурационным данным динамической обработки отдельных громкоговорителей (например, порогам ограничения воспроизведения) для динамиков, наиболее ответственных за воспроизведение компонентов пространственного микширования, связанных с этой пространственной зоной. Этого можно достичь путем задания весовых коэффициентов

Figure 00000018
в зависимости от ответственности каждого динамика за рендеринг составляющих пространственного микширования, связанных с этой зоной, для частоты f.Similar weighting functions can be applied to other types of individual speaker dynamics processing configuration data. Advantageously, the combined individual speaker dynamics configuration data (e.g., playback clipping thresholds) of a spatial area can be shifted to the individual speaker dynamics configuration data (e.g., playback clipping thresholds) for the speakers most responsible for reproducing the spatial mixing components associated with that spatial zone. This can be achieved by setting the weighting factors
Figure 00000018
depending on the responsibility of each speaker for rendering the spatial mixing components associated with that zone, for frequency f .

На фиг. 7 представлены примеры громкоговорителей в пространственных зонах по фиг. 6. На фиг. 7 изображены такие же зоны, как на фиг. 6, но с наложенными на них местоположениями пяти иллюстративных громкоговорителей (динамиков 1, 2, 3, 4 и 5), ответственных за рендеринг пространственного микширования. В этом примере громкоговорители 1, 2, 3, 4 и 5 представлены ромбами. В данном конкретном примере динамик 1 в наибольшей степени отвечает за рендеринг центральной зоны, динамики 2 и 5 за рендеринг передней зоны и динамики 3 и 4 за рендеринг окружающей зоны. Можно создать весовые коэффициенты

Figure 00000018
на основе этого условного однозначного отображения динамиков в пространственные зоны, но, как и в случае обработки пространственного микширования на основе пространственных зон, предпочтительным может являться более непрерывное отображение. Например, динамик 4 находится весьма близко к передней зоне, и составляющая звукового микса, расположенная между динамиками 4 и 5 (хотя и в условно передней зоне), вероятно, в наибольшей степени будет воспроизводиться комбинацией динамиков 4 и 5. Поэтому имеет смысл внесение вклада конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения воспроизведения) динамика 4 в комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) передней зоны, а также окружающей зоны. In FIG. 7 shows examples of loudspeakers in the spatial zones of FIG. 6. In FIG. 7 shows the same zones as in Fig. 6, but superimposed with the locations of five exemplary speakers (speakers 1, 2, 3, 4, and 5) responsible for rendering the spatial mix. In this example, speakers 1, 2, 3, 4, and 5 are represented by diamonds. In this particular example, speaker 1 is most responsible for rendering the center zone, speakers 2 and 5 for rendering the front zone, and speakers 3 and 4 for rendering the surrounding zone. You can create weights
Figure 00000018
based on this conditional one-to-one mapping of speakers to spatial zones, but as in the case of spatial mixing processing based on spatial zones, a more continuous mapping may be preferable. For example, speaker 4 is very close to the front zone, and the component of the sound mix located between speakers 4 and 5 (albeit in the conventionally front zone) is likely to be reproduced to the greatest extent by the combination of speakers 4 and 5. Therefore, it makes sense to contribute configuration individual speaker dynamics data (eg, playback limit thresholds) of the speaker 4 into combined individual speaker dynamics configuration data (eg, playback limit thresholds) of the front zone as well as the surround zone.

Одним способом достижения этого непрерывного отображения является приравнивание весовых коэффициентов

Figure 00000018
значению участия динамика, описывающему относительный вклад каждого динамика i в рендеринг составляющих, связанных с пространственной зоной j. Эти значения можно получить непосредственно из системы рендеринга, ответственной за рендеринг в динамиках (например, из вышеописанного этапа (с)), и набора из одного или более номинальных пространственных положений, связанных с каждой пространственной зоной. Этот набор номинальных пространственных положений может включать набор положений в каждой пространственной зоне.One way to achieve this continuous mapping is to equate the weights
Figure 00000018
a speaker contribution value describing the relative contribution of each speaker i to the rendering of the components associated with the spatial area j . These values can be obtained directly from the rendering system responsible for rendering in dynamics (eg, from step (c) above) and a set of one or more nominal spatial positions associated with each spatial region. This set of nominal spatial positions may include a set of positions in each spatial zone.

На фиг. 8 представлен пример номинальных пространственных положений, наложенных на пространственные зоны и динамики по фиг. 7. Номинальные положения указаны с помощью пронумерованных кругов: с передней зоной связаны два положения, расположенные в верхних углах квадрата, с центральной зоной связано единственное положение в верхней средней части квадрата, и с окружающей зоной связаны два положения в нижних углах квадрата.In FIG. 8 shows an example of nominal spatial positions superimposed on the spatial zones and dynamics of FIG. 7. Nominal positions are indicated using numbered circles: the front zone has two positions associated at the top corners of the square, the central zone has a single position associated at the top middle of the square, and the surrounding zone has two positions associated at the bottom corners of the square.

С целью вычисления значения участия динамика для пространственной зоны, каждое из номинальный положений, связанных с этой зоной, может быть подвергнуто рендерингу с помощью средства рендеринга с целью генерирования значений активации динамиков, связанных с этим положением. Эти значения активации могут представлять собой, например, коэффициент усиления для каждого динамика в случае CMAP или комплексное значение на заданной частоте для каждого динамика в случае FV. Затем для каждого динамика и зоны эти значения активации можно накопить для каждого из номинальных положений, связанных с пространственной зоной для получения значения

Figure 00000020
. Это значение представляет общее значение активации динамика i для рендеринга всего набора номинальных положений, связанных с пространственной зоной j. Наконец, значение участия динамика в пространственной зоне можно вычислить как накопленное значение активации,
Figure 00000020
, нормализованное на сумму всех этих накопленных значений активации для динамиков. Затем весовые коэффициенты можно приблизить к этому значению участия динамика:In order to compute a speaker engagement value for a spatial area, each of the nominal positions associated with that area may be rendered by a renderer to generate speaker activation values associated with that location. These activation values may be, for example, the gain for each speaker in the case of CMAP, or the complex value at a given frequency for each speaker in the case of FV. Then, for each speaker and zone, these activation values can be accumulated for each of the nominal positions associated with the spatial zone to obtain a value
Figure 00000020
. This value represents the total activation value of speaker i for rendering the entire set of nominal positions associated with spatial region j . Finally, the contribution value of the speaker in the spatial zone can be calculated as the accumulated activation value,
Figure 00000020
, normalized to the sum of all these accumulated activation values for the speakers. The weights can then be approximated to this speaker participation value:

Figure 00000021
Figure 00000021

Описанная нормализация обеспечивает то, что сумма

Figure 00000018
по всем динамикам i равна единице, что является требуемым свойством для весовых коэффициентов в уравнении 8.The described normalization ensures that the sum
Figure 00000018
over all speakers, i is equal to one, which is the required property for the weighting factors in Equation 8.

Согласно некоторым реализациям вышеописанный способ вычисления значений участия динамиков и комбинирования порогов в зависимости от этих значений можно выполнять как статический способ, в котором результирующие комбинированные пороги вычисляются один раз в ходе процедуры установки, при которой определяется схема размещения и функциональные возможности динамиков в среде. Можно предположить, что в такой системе после установки остаются статичными как конфигурационные данные динамической обработки отдельных громкоговорителей, так и способ, которым алгоритм рендеринга активирует громкоговорители в зависимости от требуемого местоположения звукового сигнала. В некоторых системах, однако, оба эти аспекта могут изменяться с течением времени, например, в ответ на изменение условий в среде воспроизведения, и поэтому для учета этих изменений может потребоваться обновление комбинированных порогов в соответствии с вышеописанным способом или непрерывно, или способом инициирования при наступлении события.According to some implementations, the above method of calculating speaker participation values and combining thresholds depending on these values can be performed as a static method, in which the resulting combined thresholds are calculated once during the installation procedure, which determines the layout and functionality of the speakers in the environment. It can be assumed that in such a system, once installed, both the configuration data for the dynamics processing of the individual loudspeakers and the way in which the rendering algorithm activates the loudspeakers, depending on the desired location of the audio signal, remain static. In some systems, however, both of these aspects may change over time, for example, in response to changing conditions in the playback environment, and therefore, to account for these changes, it may be necessary to update the combined thresholds in accordance with the above method, either continuously, or in a triggering method on the occurrence of developments.

В ответ на изменения в среде прослушивания, оба алгоритма рендеринга, CMAP и FV, можно дополнить для адаптации к одной или более динамически конфигурируемым функциям. Например, со ссылкой на фиг. 7, человек, находящийся вблизи динамика 3, может произносить пробуждающее слово виртуального цифрового помощника, связанного с динамиками, таким образом переводя систему в состояние, в котором она готова услышать следующую команду от этого человека. После произнесения пробуждающего слова, система может определять местоположение человека с использованием микрофонов, связанных с громкоговорителями. С помощью этой информации система затем может выбирать перенаправление энергии аудиоданных, воспроизводимых из динамика 3, в другие динамики так, чтобы микрофоны на динамике 3 могли лучше слышать человека. В таком сценарии динамик 2 на фиг. 7 может в течение некоторого промежутка времени по существу «брать на себя» обязательства динамика 3, и, как следствие, значения участия динамиков для окружающей зоны значительно изменяются; значение участия динамика 3 уменьшается, а значение участия динамика 2 увеличивается. Затем пороги зон можно вычислить повторно, так как они зависят от изменившихся значений участия динамиков. Альтернативно или в дополнение к этим изменениям в алгоритме рендеринга, пороги ограничения динамика 3 могут быть уменьшены ниже их номинальных значений, установленных для предотвращения искажения динамика. Этим можно обеспечить то, что остаточное воспроизведение аудиоданных из динамика 3 не выходит за пределы некоторого порога, определенного как такого, что создает помехи в микрофонах, слушающих человека. Так как пороги зон также зависят от порогов отдельных динамиков, их в этом случае также можно обновить.In response to changes in the listening environment, both CMAP and FV rendering algorithms can be extended to adapt to one or more dynamically configurable features. For example, with reference to FIG. 7, a person near the speaker 3 can speak the wake-up word of the virtual digital assistant associated with the speakers, thus putting the system in a state where it is ready to hear the next command from that person. After saying the wake-up word, the system can determine the person's location using the microphones associated with the speakers. With this information, the system can then choose to redirect the energy of the audio data played from speaker 3 to other speakers so that the microphones on speaker 3 can better hear the person. In such a scenario, speaker 2 in FIG. 7 may for some period of time essentially "take over" the obligations of the speaker 3, and as a result, the values of the participation of the speakers for the surrounding area change significantly; the participation value of speaker 3 decreases and the participation value of speaker 2 increases. The zone thresholds can then be recalculated as they depend on the changed speaker contribution values. Alternatively, or in addition to these changes to the rendering algorithm, the clipping thresholds of speaker 3 can be reduced below their nominal values set to prevent speaker distortion. This can ensure that the residual reproduction of the audio data from the speaker 3 does not go beyond a certain threshold, defined as such that interferes with microphones listening to a person. Since the zone thresholds are also dependent on the individual speaker thresholds, they can also be updated in this case.

На фиг. 9 представлена блок-схема, на которой описан один пример способа, который может выполняться таким устройством или системой, как те, что раскрыты в данном документе. Этапы способа 900, как и других способов, описанных в данном документе, необязательно выполняются в указанном порядке. В некоторых реализациях один или более этапов способа 900 могут выполняться одновременно. Более того, некоторые реализации способа 900 могут включать больше или меньше этапов, чем представлено и/или описано. Этапы способа 900 могут выполняться одним или более устройствами, которые могут представлять собой (или могут содержать) систему управления, такую как система 110 управления, которая представлена на фиг. 1 и описанная выше, или один из других примеров раскрытых систем управления.In FIG. 9 is a flow diagram that describes one example of a method that can be performed by such a device or system as those disclosed herein. The steps of method 900, like other methods described herein, are not necessarily performed in the order listed. In some implementations, one or more steps of method 900 may be performed concurrently. Moreover, some implementations of the method 900 may include more or fewer steps than are shown and/or described. The steps of method 900 may be performed by one or more devices, which may be (or may include) a control system, such as control system 110 as shown in FIG. 1 and described above, or one of the other examples of disclosed control systems.

Согласно этому примеру, этап 905 включает получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В этой реализации конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым примерам, конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В этом примере каждый из наборов конфигурационных данных динамической обработки отдельных громкоговорителей содержит по меньшей мере один тип конфигурационных данных динамической обработки.According to this example, step 905 includes obtaining by the control system and through the interface system individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In this implementation, the individual speaker dynamics configuration data comprises a set of individual speaker dynamics configuration data for each speaker of the plurality of speakers. According to some examples, individual speaker dynamics processing configuration data for one or more speakers may correspond to one or more functionality of one or more speakers. In this example, each of the individual speaker dynamics configuration data sets contains at least one type of dynamics configuration data.

В некоторых случаях этап 905 может включать получение наборов конфигурационных данных динамической обработки отдельных громкоговорителей из каждого из множества громкоговорителей среды прослушивания. В других примерах этап 905 может включать получение наборов конфигурационных данных динамической обработки отдельных громкоговорителей из структуры данных, хранящейся в запоминающем устройстве. Например, наборы конфигурационных данных динамической обработки отдельных громкоговорителей могли быть получены ранее, например, как часть процедуры установки для каждого из громкоговорителей, и сохранены в структуре данных.In some cases, step 905 may include obtaining sets of individual speaker dynamics processing configuration data from each of the plurality of speakers in the listening environment. In other examples, step 905 may include obtaining individual speaker dynamics configuration data sets from a data structure stored in a storage device. For example, individual speaker dynamics configuration data sets may have been obtained previously, for example, as part of a setup procedure for each of the speakers, and stored in a data structure.

Согласно некоторым примерам, наборы конфигурационных данных динамической обработки отдельных громкоговорителей могут являться специализированными. В некоторых таких примерах наборы конфигурационных данных динамической обработки отдельных громкоговорителей могли быть оценены ранее на основе конфигурационных данных динамической обработки отдельных громкоговорителей для динамиков, имеющих аналогичные характеристики. Например, этап 905 может включать процесс подбора динамиков для определения наиболее похожего динамика из структуры данных, указывающей на множество динамиков, и соответствующего набора конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из этого множества динамиков. Этап сравнения динамиков может основываться, например, на сравнении размера одного или более из низкочастотных динамиков, высокочастотных динамиков и/или среднечастотных динамиков.According to some examples, individual loudspeaker dynamics processing configuration data sets may be specialized. In some such examples, sets of individual speaker dynamics configuration data may have been estimated previously based on individual speaker dynamics configuration data for speakers having similar characteristics. For example, step 905 may include a speaker matching process to determine the most similar speaker from a data structure pointing to a plurality of speakers and a corresponding set of individual speaker dynamics processing configuration data for each of the plurality of speakers. The speaker comparison step may be based, for example, on comparing the size of one or more of the woofers, tweeters and/or midrange speakers.

В этом примере этап 910 включает определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. Согласно этой реализации, определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Определение конфигурационных данных динамической обработки среды прослушивания может включать комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей из набора конфигурационных данных динамической обработки, например, путем взятия среднего конфигурационных данных динамической обработки отдельных громкоговорителей одного или более типов. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимального или максимального значений конфигурационных данных динамической обработки отдельных громкоговорителей одного или более типов. Согласно некоторым таким реализациям, определение конфигурационных данных динамической обработки среды прослушивания может включать интерполяцию между минимальным или максимальным значением и средним значением конфигурационных данных динамической обработки отдельных громкоговорителей одного или более типов.In this example, step 910 includes determining by the control system the listening environment dynamics processing configuration data for the plurality of speakers. According to this implementation, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Determining the dynamics processing configuration data of the listening environment may include combining the dynamics configuration data of individual speakers from a set of dynamics configuration data, for example, by taking an average of the dynamics configuration data of individual speakers of one or more types. In some cases, determining the dynamics processing configuration data of the listening environment may include determining the minimum or maximum values of the dynamics processing configuration data of individual speakers of one or more types. According to some such implementations, determining the dynamics processing configuration data of the listening environment may include interpolation between a minimum or maximum value and an average value of the dynamics processing configuration data of individual speakers of one or more types.

В этой реализации этап 915 включает прием системой управления и через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. Например, пространственные данные могут указывать намеченное воспринимаемое пространственное положение, соответствующее звуковому сигналу. В этом примере пространственные данные содержат данные каналов и/или пространственные метаданные.In this implementation, step 915 includes receiving by the control system and through the system of interfaces audio data containing one or more audio signals and associated spatial data. For example, the spatial data may indicate an intended perceived spatial position corresponding to an audio signal. In this example, the spatial data contains channel data and/or spatial metadata.

В этом примере этап 920 включает выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Динамическая обработка этапа 920 может включать любой из раскрытых в данном документе способов динамической обработки, которые включают, но без ограничения, применение одного или более порогов ограничения воспроизведения, данных сжатия и т. д.In this example, step 920 includes a control system performing dynamics processing on the audio data based on the listening environment dynamics configuration data to generate processed audio data. The dynamic processing of step 920 may include any of the dynamic processing methods disclosed herein, which include, but are not limited to, applying one or more playback limit thresholds, compression data, etc.

В данном случае этап 925 включает рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. В некоторых примерах этап 925 может включать применение процесса рендеринга CMAP, процесса рендеринга FV или комбинации двух этих способов. В этом примере этап 920 выполняется перед этапом 925. Однако, как отмечено выше, этап 920 и/или этап 910 могут являться по меньшей мере частично основанными на процессе рендеринга согласно этапу 925. Этапы 920 и 925 могут включать выполнение таких способов, как те, что описаны выше со ссылкой на модуль динамической обработки среды прослушивания и модуль 320 рендеринга по фиг. 3.Here, step 925 includes rendering, by the control system, the processed audio data for playback through a speaker set comprising at least some of the plurality of speakers to obtain rendered audio signals. In some examples, step 925 may include applying a CMAP rendering process, an FV rendering process, or a combination of the two. In this example, step 920 is performed before step 925. However, as noted above, step 920 and/or step 910 may be based at least in part on the rendering process of step 925. Steps 920 and 925 may include performing methods such as those as described above with reference to the listening environment dynamics module and the rendering module 320 of FIG. 3.

Согласно этому примеру, этап 930 включает доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей. В одном примере этап 930 может включать доставку подвергнутых рендерингу звуковых сигналов в громкоговорители 205а–205m через концентратор 305 умного дома и его систему интерфейсов.According to this example, step 930 includes delivering the rendered audio signals through the interface system to the set of speakers. In one example, step 930 may include delivering rendered audio signals to speakers 205a-205m via smart home hub 305 and its interface system.

В некоторых примерах способ 900 может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы. Например, снова со ссылкой на фиг. 3, модули А–М динамической обработки могут выполнять динамическую обработку в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для громкоговорителей 205а–205m.In some examples, method 900 may include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered. For example, again with reference to FIG. 3, dynamics processing modules A-M may perform dynamics processing on rendered audio signals in accordance with individual speaker dynamics configuration data for speakers 205a-205m.

В некоторых реализациях конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. В некоторых таких примерах набор данных порогов ограничения воспроизведения может содержать пороги ограничения воспроизведения для каждой из множества частот.In some implementations, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. In some such examples, the play limit threshold dataset may comprise play limit thresholds for each of the plurality of frequencies.

В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых таких примерах определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения.In some cases, determining the configuration data of the dynamic processing of the listening environment may include determining the minimum thresholds for limiting playback across multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the playback limit thresholds to obtain average playback limit thresholds over a plurality of speakers. In some such examples, determining the listening environment dynamics processing configuration data may include determining the minimum playback restriction thresholds across a plurality of speakers and interpolating between the minimum playback restriction thresholds and the average playback restriction thresholds.

Согласно некоторым реализациям усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. В некоторых таких примерах взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления, например, характеристиках процесса рендеринга согласно этапу 925.According to some implementations, averaging the playback restriction thresholds may include determining a weighted average of the playback restriction thresholds. In some such examples, the weighted average may be at least partially based on the characteristics of the rendering process implemented by the control system, for example, the characteristics of the rendering process according to block 925.

В некоторых реализациях выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания.In some implementations, performing dynamics processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment.

Согласно некоторым таким реализациям динамическая обработка может выполняться отдельно для каждой из пространственных зон. Например, определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон. Например, отдельно для каждой из одной или более пространственных зон может выполняться комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.According to some such implementations, dynamic processing may be performed separately for each of the spatial zones. For example, the determination of the listening environment dynamics processing configuration data may be performed separately for each of the spatial regions. For example, separately for each of the one or more spatial zones, a combination of dynamic processing configuration data sets across a plurality of speakers may be performed. In some examples, combining multiple speaker dynamics configuration data sets separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones.

В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. Каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых таких реализациях каждое значение участия громкоговорителя является по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.In some examples, combining the multiple speaker dynamics configuration data sets separately for each of the one or more spatial zones may be at least in part based on the speaker contribution value for each speaker in each of the one or more spatial zones. Each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some examples, the nominal spatial positions may correspond to standard channel locations in a Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mix. In some such implementations, each speaker contribution value is at least in part based on the activation value of each speaker corresponding to the rendering of audio data at each of one or more nominal spatial positions in each of the one or more spatial zones.

Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых случаях взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. В некоторым таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. Например, номинальные пространственные положения могут соответствовать стандартным местоположениям каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых реализациях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some cases, the weighted average may be based at least in part on the loudspeaker participation value for each loudspeaker in each of the spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial regions. For example, nominal spatial positions may correspond to standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some implementations, each speaker participation value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.

Согласно некоторым реализациям рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Некоторые примеры описаны ниже со ссылкой на фиг. 10 и следующие. Одна или более динамически конфигурируемых функций могут основываться на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей, или одном или более внешних входных сигналах. Например, одна или более динамически конфигурируемых функций могут основываться на близости громкоговорителей к одному или более слушателям; близости громкоговорителей к положению силы притяжения, при этом сила притяжения представляет собой фактор, благоприятствующий относительно большему значению активации громкоговорителя, расположенного ближе к положению силы притяжения; близости громкоговорителей к положению силы отталкивания, при этом сила отталкивания представляет собой фактор, благоприятствующий относительно меньшему значению активации громкоговорителя, расположенного ближе к положению силы отталкивания; функциональных возможностях каждого громкоговорителя относительно других громкоговорителей в среде; синхронизации громкоговорителей относительно других громкоговорителей; выполнении пробуждающего слова; или выполнении эхоподавителя.In some implementations, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. Some examples are described below with reference to FIG. 10 and following. One or more dynamically configurable functions may be based on one or more audio signal properties, one or more speaker set properties, or one or more external input signals. For example, one or more dynamically configurable functions may be based on the proximity of the speakers to one or more listeners; the proximity of the loudspeakers to the position of the attractive force, wherein the attractive force is a factor favoring a relatively larger activation value of the loudspeaker located closer to the position of the attractive force; the proximity of the loudspeakers to the position of the repulsive force, with the repulsive force being a factor favoring a relatively smaller activation value of the loudspeaker closer to the position of the repulsive force; the functionality of each loudspeaker relative to other loudspeakers in the environment; synchronization of loudspeakers relative to other loudspeakers; fulfillment of the awakening word; or performing an echo canceller.

Относительное значение активации динамиков в некоторых примерах может основываться на функции стоимости модели воспринимаемого пространственного положения звуковых сигналов при воспроизведении динамиками, критерии близости намеченного воспринимаемого пространственного положения звуковых сигналов к положениям динамиков и одной или более из динамически конфигурируемых функций.The relative speaker activation value in some examples may be based on a cost function of the perceived spatial position of the audio signals when played by the speakers, a criterion for the proximity of the intended perceived spatial position of the audio signals to the speaker positions, and one or more dynamically configurable functions.

В некоторых примерах минимизация функции стоимости (содержащей по меньшей мере один показатель динамической активации динамика) может приводить к деактивации по меньшей мере одного из динамиков (в том смысле, что каждый такой динамик не воспроизводит соответствующее звуковое содержимое) и активации по меньшей мере одного из динамиков (в том смысле, что каждый такой динамик воспроизводит по меньшей мере некоторую часть подвергнутого рендерингу звукового содержимого). Показатель (показатели) динамической активации динамика может делать возможным по меньшей мере один из множества вариантов поведения, в том числе деформации пространственного представления аудиоданных в сторону от конкретного интеллектуального звукового устройства, для того чтобы его микрофон мог лучше слышать говорящего, или чтобы вторичный аудиопоток можно было лучше слышать из динамика (динамиков) интеллектуального звукового устройства.In some examples, minimizing the cost function (comprising at least one dynamic speaker activation metric) may result in at least one of the speakers being deactivated (in the sense that each such speaker does not play the corresponding audio content) and at least one of the speakers being activated. (in the sense that each such speaker reproduces at least some part of the rendered audio content). The dynamic speaker activation metric(s) can enable at least one of a variety of behaviors, including warping the spatial representation of audio data away from a particular smart audio device so that its microphone can better hear a speaker, or so that a secondary audio stream can be hear better from the speaker(s) of the smart audio device.

Согласно некоторым реализациям конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. В некоторых случаях набор данных сжатия динамического диапазона может содержать одно или более из данных порогов, данных отношения уровней входного и выходного сигналов, данных нарастания, данных ослабления или данных загиба.In some implementations, the individual speaker dynamics configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. In some cases, the dynamic range compression data set may contain one or more of threshold data, input-to-output level ratio data, rise data, attenuation data, or knee data.

Как отмечено выше, в некоторых реализациях по меньшей мере некоторые этапы способа 900, которые представлены на фиг. 9, могут быть опущены. Например, в некоторых реализациях этапы 905 и 910 выполняются в ходе процесса установки. В некоторых реализациях после определения конфигурационных данных динамической обработки среды прослушивания этапы 905–910 не выполняются заново в ходе операций «рабочего цикла» до тех пор, пока не изменится тип и/или расположение динамиков среды прослушивания. Например, в некоторых реализациях может происходить исходная проверка с целью определения, были ли добавлены или отключены какие-либо громкоговорители, изменились ли положения каких-либо громкоговорителей, и т. д. Если да, то этапы 905 и 910 могут быть реализованы. Если нет, то этапы 905 и 910 могут не выполняться заново перед операциями «рабочего цикла», которые могут включать этапы 915–930.As noted above, in some implementations, at least some of the steps of the method 900 that are represented in FIG. 9 may be omitted. For example, in some implementations, steps 905 and 910 are performed during the installation process. In some implementations, once the listening environment dynamic processing configuration data has been determined, steps 905-910 are not re-executed during "runtime" operations until the type and/or location of the listening environment speakers is changed. For example, in some implementations, an initial check may occur to determine if any speakers have been added or removed, if any speaker positions have changed, etc. If yes, then steps 905 and 910 may be implemented. If not, then steps 905 and 910 may not be re-executed before the "duty cycle" operations, which may include steps 915-930.

Как отмечено выше, существующие гибкие технические решения рендеринга включают «Амплитудное панорамирование центра масс» (CMAP) и «Гибкую виртуализацию» (FV). С профессиональной точки зрения, оба этих технических решения выполняют рендеринг набора из одного или более звуковых сигналов, каждый из которых имеет связанное требуемое воспринимаемое пространственное положение, для воспроизведения через набор из двух или более динамиков, при этом относительное значение активации динамиков из набора зависит от модели воспринимаемого пространственного положения указанных звуковых сигналов, воспроизводимых через эти динамики, и близости требуемого воспринимаемого пространственного положения звуковых сигналов к положениям динамиков. Эта модель обеспечивает слышимость для слушателя звукового сигнала рядом с его намеченным пространственным положением, а показатель близости управляет тем, какие динамики используются для достижения этого пространственного впечатления. В частности показатель близости благоприятствует активации динамиков, находящихся рядом с требуемым воспринимаемым пространственным положением звукового сигнала. И для CMAP, и для FV эту функциональную взаимосвязь удобно получить из функции стоимости, записанной в виде суммы двух показателей, одного для пространственного аспекта, и одного для близости:As noted above, existing flexible rendering solutions include "Center of Mass Amplitude Panning" (CMAP) and "Flexible Virtualization" (FV). From a professional point of view, both of these technical solutions render a set of one or more audio signals, each with an associated desired perceived spatial position, for playback through a set of two or more speakers, with the relative activation value of the speakers from the set depending on the model. the perceived spatial position of the specified audio signals reproduced through these speakers, and the proximity of the desired perceived spatial position of the audio signals to the positions of the speakers. This model ensures that the listener of the audio signal is audible near their intended spatial position, and the Proximity score controls which speakers are used to achieve that spatial impression. In particular, the proximity indicator favors the activation of speakers that are close to the desired perceived spatial position of the audio signal. For both CMAP and FV, this functional relationship is conveniently derived from a cost function written as the sum of two scores, one for spatial aspect and one for proximity:

Figure 00000022
Figure 00000022

В данном случае множество

Figure 00000023
обозначает положения множества M громкоговорителей,
Figure 00000024
обозначает требуемое воспринимаемое пространственное положение звукового сигнала, и g обозначает M-мерный вектор значений активации динамиков. Для CMAP каждое значение активации в этом векторе представляет коэффициент усиления для динамика, тогда как для FV каждое значение активации представляет фильтр (в этом, втором случае g можно эквивалентно рассматривать как вектор комплексных значений на определенной частоте, и для образования фильтра на множестве частот вычисляется другое g). Оптимальный вектор значений активации находят путем минимизации функции стоимости по значениям активации:In this case, the set
Figure 00000023
denotes the positions of the set M of loudspeakers,
Figure 00000024
denotes the desired perceived spatial position of the audio signal, and g denotes an M -dimensional vector of speaker activation values. For CMAP, each activation value in this vector represents a gain for the speaker, while for FV, each activation value represents a filter (in this second case, g can equivalently be viewed as a vector of complex values at a specific frequency, and another is computed to form a filter over a set of frequencies. g ). The optimal vector of activation values is found by minimizing the cost function over the activation values:

Figure 00000025
Figure 00000025

С помощью известных определений функции стоимости трудно управлять абсолютным уровнем оптимальных значений активации, являющихся результатом вышеописанной минимизации, хотя относительный уровень между составляющими

Figure 00000026
является подходящим. Для решения этой проблемы последующую нормализацию
Figure 00000026
можно выполнить так, чтобы абсолютный уровень значений активации стал управляемым. Например, может требоваться нормализация вектора на единичную длину, что согласовывается с обычно используемыми правилами панорамирования с постоянной энергией: Known cost function definitions make it difficult to control the absolute level of optimal activation values resulting from the minimization described above, although the relative level between the components
Figure 00000026
is suitable. To solve this problem, the subsequent normalization
Figure 00000026
can be done so that the absolute level of activation values becomes manageable. For example, a vector may need to be normalized to one length, which is consistent with the commonly used constant energy panning rules:

Figure 00000027
Figure 00000027

Точное поведение алгоритма гибкого рендеринга определяется конкретной структурой двух показателей функции стоимости,

Figure 00000028
и
Figure 00000029
. Для CMAP
Figure 00000028
получают из модели, которая размещает воспринимаемое пространственное положение звукового сигнала, воспроизводимого из набора громкоговорителей, в центре массы положений этих громкоговорителей, подвергнутых весовой обработке с помощью связанных с ними активирующих коэффициентов усиления,
Figure 00000030
(элементов вектора g):The exact behavior of the flexible rendering algorithm is determined by the particular structure of the two cost function measures,
Figure 00000028
and
Figure 00000029
. For CMAP
Figure 00000028
derived from a model that places the perceived spatial position of an audio signal reproduced from a set of loudspeakers at the center of the mass of those loudspeaker positions weighted by their associated activation gains,
Figure 00000030
(elements of vector g ):

Figure 00000031
Figure 00000031

Уравнение 3 затем преобразуется в пространственную стоимость, представляющую квадратичную ошибку между требуемым положением аудиоданных и аудиоданными, полученными активированными громкоговорителями:Equation 3 is then converted to a space cost representing the squared error between the desired position of the audio data and the audio data received by the activated speakers:

Figure 00000032
Figure 00000032

Для FV пространственный показатель функции стоимости определяют иначе. Целью является получение бинауральной характеристики b, соответствующей положению звукового объекта,

Figure 00000033
, в левом и правом ушах слушателя. Теоретически b представляет собой вектор фильтров (по одному фильтру для каждого уха) размера 2x1, однако с ним более удобно обращаться как с вектором комплексных значений размера 2x1 на определенной частоте. Совершая дальнейшие действия с помощью этого представления на определенной частоте, требуемую бинауральную характеристику можно получить из набора индексов HRTF с помощью положения объекта:For FV, the spatial exponent of the cost function is defined differently. The goal is to obtain a binaural characteristic b corresponding to the position of the sound object,
Figure 00000033
, in the listener's left and right ears. Theoretically, b is a vector of filters (one filter for each ear) of size 2x1, but it is more convenient to treat it as a vector of complex values of size 2x1 at a certain frequency. Working further with this representation at a specific frequency, the required binaural response can be obtained from the set of HRTF indices using the position of the object:

Figure 00000034
Figure 00000034

В то же время, бинауральная характеристика e размера 2x1, получаемая в ушах слушателя с помощью громкоговорителей, моделируется в виде матрицы звукопередачи, H, размера 2xM, умноженной на вектор комплексных значений активации динамиков, g, размера Mx1:At the same time, a 2x1 binaural response e , obtained in the listener's ears with loudspeakers, is modeled as a 2xM sound transmission matrix, H , multiplied by a vector of complex speaker activation values, g , of size M x1:

Figure 00000035
Figure 00000035

Матрица звукопередачи, H, моделируется на основе набора положений громкоговорителей,

Figure 00000023
, относительно положения слушателя. Наконец, пространственная составляющая функции стоимости задана как квадратичная ошибка между требуемой бинауральной характеристикой (уравнение 14) и бинауральной характеристикой, полученной с помощью громкоговорителей (уравнение 15):The sound transmission matrix, H , is modeled based on a set of speaker positions,
Figure 00000023
, relative to the position of the listener. Finally, the spatial component of the cost function is given as the squared error between the desired binaural response (Equation 14) and the binaural response obtained from the loudspeakers (Equation 15):

Figure 00000036
Figure 00000036

Для удобства пространственный показатель функции стоимости для CMAP и FV, заданный в уравнениях 13 и 16, можно в обоих случаях преобразовать в квадратную матрицу, зависящую от значений активации динамиков, g:For convenience, the spatial cost function exponent for CMAP and FV given in Equations 13 and 16 can in both cases be converted into a square matrix dependent on speaker activation values, g :

Figure 00000037
Figure 00000037

где A представляет собой квадратную матрицу размера M x M, B представляет собой вектор размера 1xM, и C представляет собой скалярную величину. Матрица A имеет ранг 2, поэтому, когда M > 2, существует бесконечное количество значений активации динамиков, g, для которых показатель пространственного отклонения равен нулю. Введение второго показателя функции стоимости,

Figure 00000029
, исключает эту неопределенность и приводит к частному решению со свойствами восприятия, преимущественными по сравнению с другими возможными решениями. Как для CMAP, так и для FV,
Figure 00000029
построен так, что значения активации динамиков, положение
Figure 00000038
которых отдалено от требуемого положения звукового сигнала,
Figure 00000033
, исключаются в большей степени, чем значения активации динамиков, положение которых близко к требуемому положению. Такое построение приводит к оптимальному набору значений активации динамиков, которые являются рассеянными, при этом в значительной степени активируются только динамики в непосредственной близости от требуемого положения звукового сигнала, и на практике это приводит к пространственному воспроизведению звукового сигнала, которое является для восприятия более устойчивым к перемещению слушателя рядом с набором динамиков.where A is a square matrix of size M x M , B is a vector of size 1x M , and C is a scalar. Matrix A has rank 2, so when M > 2, there are an infinite number of speaker activation values, g , for which the spatial deflection exponent is zero. Introduction of the second indicator of the cost function,
Figure 00000029
, eliminates this uncertainty and leads to a particular solution with perceptual properties that are superior to other possible solutions. For both CMAP and FV,
Figure 00000029
built so that the activation values of the speakers, the position
Figure 00000038
which are far from the required position of the sound signal,
Figure 00000033
, are excluded to a greater extent than the activation values of the speakers, the position of which is close to the desired position. This arrangement results in an optimal set of speaker activation values that are diffuse, with only speakers in close proximity to the desired audio signal position being significantly activated, and in practice this results in a spatial audio signal that is perceptually more resistant to movement. listener next to a set of speakers.

Для этого второй показатель функции стоимости,

Figure 00000029
, можно задать как взвешенную по расстояниям сумму квадратов абсолютных значений активаций динамиков. Компактно это представлено в матричной форме в виде: For this, the second indicator of the cost function,
Figure 00000029
, can be specified as the distance-weighted sum of the squares of the absolute values of the speaker activations. This is compactly represented in matrix form as:

Figure 00000039
Figure 00000039

где D представляет собой диагональную матрицу ухудшений расстояния между требуемым положением аудиоданных и каждым динамиком:where D is a diagonal degradation matrix of the distance between the desired audio data position and each speaker:

Figure 00000040
Figure 00000040

Функция ухудшения расстояния может принимать множество форм, но полезной параметризацией является следующая:The distance degradation function can take many forms, but a useful parameterization is:

Figure 00000041
Figure 00000041

где

Figure 00000042
представляет собой евклидово расстояние между требуемым положением аудиоданных и положением динамика, и
Figure 00000006
и
Figure 00000043
представляют собой перестраиваемые параметры. Параметр
Figure 00000006
указывает глобальную силу ухудшения;
Figure 00000044
соответствует пространственной степени ухудшения расстояния (будут исключены громкоговорители на расстоянии приблизительно
Figure 00000044
или далее) и
Figure 00000043
учитывает внезапность наступления ухудшения на расстоянии
Figure 00000044
.where
Figure 00000042
is the Euclidean distance between the desired audio data position and the speaker position, and
Figure 00000006
and
Figure 00000043
are adjustable parameters. Parameter
Figure 00000006
indicates the global degradation strength;
Figure 00000044
corresponds to the spatial degree of distance degradation (speakers at a distance of approx.
Figure 00000044
or more) and
Figure 00000043
takes into account the suddenness of the deterioration at a distance
Figure 00000044
.

Комбинирование двух показателей функции стоимости, заданных в уравнениях 17 и 18а, приводит к общей функции стоимости.Combining the two measures of the cost function given in Equations 17 and 18a results in a total cost function.

Figure 00000045
Figure 00000045

Приравнивание к нулю производной этой функции стоимости по g и решение для g дает оптимальное решение для значений активации динамиков:Setting the derivative of this cost function with respect to g to zero and solving for g gives the optimal solution for the speaker activation values:

Figure 00000046
Figure 00000046

В целом оптимальное решение в уравнении 20 может приводить к значениям активации динамиков, отрицательным по величине. Для построения с помощью CMAP гибкого средства рендеринга эти отрицательные значения активации могут являться нежелательными, поэтому уравнение (20) можно минимизировать при условии, что все значения активации остаются положительными.In general, the optimal solution in Equation 20 may result in speaker activation values that are negative in magnitude. For building a flexible renderer with CMAP, these negative activation values may be undesirable, so Equation (20) can be minimized as long as all activation values remain positive.

На фиг. 10 и 11 представлены схемы, на которых изображен иллюстративный набор значений активации динамиков и положений рендеринга объектов. В этих примерах значения активации динамиков и положения рендеринга объектов соответствуют положениям динамиков 4, 64, 165, -87 и -4 градусов. В других реализациях может иметься больше или меньше динамиков и/или динамики в разных положениях. На фиг. 10 представлены значения активации динамиков, 1005a, 1010a, 1015a, 1020a и 1025a, которые содержат оптимальное решение уравнения 20 для этих конкретных положений динамиков. На фиг. 11 положения отдельных динамиков представлены на графике в виде квадратов 1105, 1110, 1115, 1120 и 1125, которые соответствуют значениям активации динамиков, 1005a, 1010a, 1015a, 1020a и 1025a, соответственно, по фиг. 10. На фиг. 11 угол 4 соответствует положению 1120 динамика, угол 64 соответствует положению 1125 динамика, угол 165 соответствует положению 1110 динамика, угол -87 соответствует положению 1105 динамика, и угол -4 соответствует положению 1115 динамика. На фиг. 11 также представлены идеальные положения объектов (иначе говоря, положения, в которых звуковые объекты должны подвергаться рендерингу) для множества возможных углов объектов в виде точек 1130а и соответствующие фактические положения рендеринга для этих объектов в виде точек 1135а, соединенных с идеальными положениями объектов пунктирными линиями 1140а.In FIG. 10 and 11 are diagrams depicting an exemplary set of speaker activation values and object rendering positions. In these examples, the speaker activation values and object rendering positions correspond to speaker positions of 4, 64, 165, -87, and -4 degrees. Other implementations may have more or fewer speakers and/or speakers in different positions. In FIG. 10 are speaker activation values, 1005a, 1010a, 1015a, 1020a, and 1025a, which contain the optimal solution to Equation 20 for these particular speaker positions. In FIG. 11, individual speaker positions are plotted as squares 1105, 1110, 1115, 1120, and 1125, which correspond to speaker activation values, 1005a, 1010a, 1015a, 1020a, and 1025a, respectively, of FIG. 10. In FIG. 11, angle 4 corresponds to speaker position 1120, angle 64 corresponds to speaker position 1125, angle 165 corresponds to speaker position 1110, angle -87 corresponds to speaker position 1105, and angle -4 corresponds to speaker position 1115. In FIG. 11 also shows the ideal object positions (in other words, the positions at which sound objects should be rendered) for a variety of possible object angles as dots 1130a and the corresponding actual render positions for these objects as dots 1135a connected to the ideal object positions by dotted lines 1140a. .

На фиг. 12A, 12B и 12C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 10 и 11. На фиг. 12A, 12B и 12C угол -4,1 соответствует положению 1115 динамика по фиг. 11, угол 4,1 соответствует положению 1120 динамика по фиг. 11, угол -87 соответствует положению 1105 динамика по фиг. 11, угол 63,6 соответствует положению 1125 динамика по фиг. 11, и угол 165,4 соответствует положению 1110 динамика по фиг. 11. Эти значения участия громкоговорителей представляют собой примеры «весовых коэффициентов», связанных с пространственными зонами, раскрытыми в других местах данного документа. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 12A, 12B и 12C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 12A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 12В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 12С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 12A, 12B and 12C show examples of speaker participation values corresponding to the examples of FIG. 10 and 11. In FIG. 12A, 12B, and 12C, an angle of -4.1 corresponds to speaker position 1115 of FIG. 11, an angle of 4.1 corresponds to speaker position 1120 of FIG. 11, the -87 angle corresponds to speaker position 1105 of FIG. 11, an angle of 63.6 corresponds to speaker position 1125 of FIG. 11 and an angle of 165.4 corresponds to speaker position 1110 of FIG. 11. These speaker contribution values are examples of "weighting factors" associated with spatial areas disclosed elsewhere in this document. According to these examples, the speaker contribution values shown in FIG. 12A, 12B and 12C correspond to the participation of each loudspeaker in each of the spatial zones shown in FIG. 6: Loudspeaker contribution values shown in FIG. 12A corresponds to the contribution of each speaker in the center zone, the speaker contribution values shown in FIG. 12B corresponds to the contribution of each speaker in the front left and right zones, and the speaker contribution values shown in FIG. 12C corresponds to the participation of each speaker in the rear zone.

Сочетание гибких способов рендеринга (реализованных в соответствии с некоторыми вариантами осуществления) с набором беспроводных интеллектуальных динамиков (или других интеллектуальных звуковых устройств) может приводить к удобной в использовании системе рендеринга пространственного звука с чрезвычайно большими функциональными возможностями. При рассмотрении взаимодействий с такой системой становится очевидно, что с целью оптимизации для других задач, которые могут возникнуть в ходе использования этой системы, могут потребоваться динамические модификации пространственного рендеринга. Для достижения этой цели, один класс вариантов осуществления дополняет существующие гибкие алгоритмы рендеринга (в которых значение активации динамика зависит от ранее раскрытых пространственного показателя и показателя близости) одной или более дополнительными динамически конфигурируемыми функциями, зависящими от одного или более свойств подвергаемых рендерингу звуковых сигналов, набора динамиков и/или других внешних входных сигналов. Согласно некоторым вариантам осуществления, функция стоимости существующего гибкого рендеринга, приведенная в уравнении 1, дополняется одной или более этими дополнительными зависимостями в соответствии с The combination of flexible rendering techniques (implemented in accordance with some embodiments) with a set of wireless smart speakers (or other smart audio devices) can result in an easy-to-use spatial audio rendering system with extremely high functionality. When considering interactions with such a system, it becomes clear that dynamic modifications to the spatial rendering may be required to optimize for other problems that may arise during the use of this system. To achieve this goal, one class of embodiments complements existing flexible rendering algorithms (in which the speaker activation value depends on the previously disclosed spatial and proximity metrics) with one or more additional dynamically configurable functions depending on one or more properties of the rendered audio signals, a set speakers and/or other external inputs. According to some embodiments, the existing flexible rendering cost function given in Equation 1 is supplemented with one or more of these additional dependencies according to

Figure 00000047
Figure 00000047

В уравнении 21 показатели

Figure 00000048
представляют дополнительные показатели стоимости, где
Figure 00000049
представляет набор из одного или более свойств подвергаемых рендерингу звуковых сигналов (например, звуковой программы на основе объектов),
Figure 00000050
представляет набор из одного или более свойств динамиков, подвергаемых рендерингу звуковых сигналов и
Figure 00000051
представляет один или более дополнительных внешних входных сигналов. Каждый показатель
Figure 00000048
возвращает стоимость в зависимости от значений активации, g, в отношении комбинации из одного или более свойств звуковых сигналов, динамиков и/или внешних входных сигналов, обобщенно представленных множеством
Figure 00000052
. Следует понимать, что набор
Figure 00000052
содержит по меньшей мере только один элемент из
Figure 00000049
,
Figure 00000050
и
Figure 00000051
.In equation 21, indicators
Figure 00000048
represent additional indicators of value, where
Figure 00000049
represents a set of one or more properties of audio signals to be rendered (for example, an object-based audio program),
Figure 00000050
represents a set of one or more speaker properties that are subject to audio rendering, and
Figure 00000051
represents one or more additional external input signals. Each indicator
Figure 00000048
returns the cost depending on activation values, g , with respect to a combination of one or more properties of audio signals, speakers, and/or external input signals, summarized by the set
Figure 00000052
. It should be understood that the set
Figure 00000052
contains at least one element from
Figure 00000049
,
Figure 00000050
and
Figure 00000051
.

Примеры

Figure 00000049
включают, но без ограничения:Examples
Figure 00000049
include but not limited to:

• требуемое воспринимаемое пространственное положение звукового сигнала;• the required perceived spatial position of the audio signal;

• уровень (возможно, переменный во времени) звукового сигнала; и/или• level (possibly variable in time) of the audio signal; and/or

• спектр (возможно, переменный во времени) звукового сигнала.• the spectrum (possibly time-varying) of the audio signal.

Примеры

Figure 00000050
включают, но без ограничения:Examples
Figure 00000050
include but not limited to:

• местоположения громкоговорителей в пространстве прослушивания;• location of loudspeakers in the listening space;

• частотную характеристику громкоговорителей;• frequency response of loudspeakers;

• ограничения уровня воспроизведения громкоговорителей;• loudspeaker playback level restrictions;

• параметры алгоритмов динамической обработки в динамиках, такие как коэффициенты усиления ограничителей;• parameters of dynamics processing algorithms in speakers, such as limiter gains;

• результат измерения или оценку звукопередачи от одного динамика к другим;• the result of a measurement or evaluation of sound transmission from one speaker to another;

• критерий эффективности эхоподавителя в отношении динамиков; и/или• criteria for the effectiveness of the echo canceller in relation to speakers; and/or

• относительную синхронизацию динамиков относительно друг друга.• the relative timing of the speakers relative to each other.

Примеры

Figure 00000051
включают, но без ограничения:Examples
Figure 00000051
include but not limited to:

• местоположения одного или более слушателей или говорящих в пространстве воспроизведения;• the locations of one or more listeners or speakers in the playback space;

• результат измерения или оценку звукопередачи от каждого громкоговорителя к местоположению прослушивания;• the result of a measurement or an estimate of the sound transmission from each loudspeaker to the listening location;

• результат измерения или оценку звукопередачи от говорящего к набору громкоговорителей;• the result of a measurement or evaluation of the sound transmission from the speaker to the set of loudspeakers;

• местоположение какого-либо другого ориентира в пространстве воспроизведения; и/или• the location of some other landmark in the playback space; and/or

• результат измерения или оценку звукопередачи от каждого динамика к какому-либо другому ориентиру в пространстве воспроизведения. • the result of a measurement or an estimate of the sound transmission from each speaker to some other landmark in the playback space.

С помощью новой функции стоимости, заданной в уравнении 21, оптимальный набор значений активации можно найти с помощью минимизации по g и, возможно, последующей нормализации, как описано ранее в уравнениях 11a и 11b.With the new cost function given in Equation 21, the optimal set of activation values can be found by minimizing with respect to g and possibly subsequent normalization as described earlier in Equations 11a and 11b.

Аналогично стоимости близости, заданной в уравнениях 18a и 18b, также удобно выразить каждый из новых показателей функции стоимости

Figure 00000048
в виде взвешенной суммы квадратов абсолютных значений активаций динамиков:Similar to the proximity cost given in Equations 18a and 18b, it is also convenient to express each of the new cost function measures
Figure 00000048
as a weighted sum of squares of the absolute values of speaker activations:

Figure 00000053
Figure 00000053

где

Figure 00000054
представляет собой диагональную матрицу весовых коэффициентов
Figure 00000055
, описывающую стоимость, связанную со значением активации динамика i, для показателя j:where
Figure 00000054
is a diagonal matrix of weights
Figure 00000055
, which describes the cost associated with the activation value of the speaker i , for the indicator j :

Figure 00000056
Figure 00000056

Комбинирование уравнений 22a и 22b с квадратной матричной версией функций стоимости CMAP и FV, заданной в уравнении 19, обеспечивает потенциально полезную реализацию общераспространенной функции стоимости (согласно некоторым вариантам осуществления), заданной в уравнении 21:Combining Equations 22a and 22b with the square matrix version of the CMAP and FV cost functions defined in Equation 19 provides a potentially useful implementation of the commonly used cost function (according to some embodiments) defined in Equation 21:

Figure 00000057
Figure 00000057

При таком определении новых показателей функции стоимости, общая функция стоимости остается квадратной матрицей, и оптимальный набор значений активации,

Figure 00000026
, можно найти путем дифференцирования уравнения 23 для полученияWith this definition of the new cost function measures, the overall cost function remains a square matrix, and the optimal set of activation values,
Figure 00000026
, can be found by differentiating Equation 23 to obtain

Figure 00000058
Figure 00000058

Полезно рассматривать каждый из весовых показателей

Figure 00000059
в зависимости от заданного значения непрерывного ухудшения,
Figure 00000060
, для каждого из громкоговорителей. В одном иллюстративном варианте осуществления это значение ухудшения представляет собой расстояние от объекта (подлежащего рендерингу) до рассматриваемого громкоговорителя. В другом иллюстративном варианте осуществления это значение ухудшения представляет неспособность данного громкоговорителя воспроизводить некоторые частоты. На основе этого значения ухудшения весовые показатели
Figure 00000059
можно параметризовать в виде:It is useful to consider each of the weight indicators
Figure 00000059
depending on the set value of continuous degradation,
Figure 00000060
, for each speaker. In one exemplary embodiment, this degradation value is the distance from the object (to be rendered) to the speaker in question. In another exemplary embodiment, this degradation value represents the inability of a given loudspeaker to reproduce certain frequencies. Based on this degradation value, the weights
Figure 00000059
can be parameterized as:

Figure 00000061
Figure 00000061

где

Figure 00000062
представляет предварительный коэффициент (который учитывает глобальную интенсивность весового показателя), где
Figure 00000063
представляет порог ухудшения (рядом или за пределами которого весовой показатель становится значительным), и где
Figure 00000064
представляет монотонно возрастающую функцию. Например, когда
Figure 00000065
, весовой показатель имеет вид:where
Figure 00000062
represents a provisional factor (which takes into account the global weighting intensity), where
Figure 00000063
represents the impairment threshold (near or beyond which the weight becomes significant), and where
Figure 00000064
represents a monotonically increasing function. For example, when
Figure 00000065
, the weight indicator looks like:

Figure 00000066
Figure 00000066

где

Figure 00000062
,
Figure 00000067
,
Figure 00000068
представляют собой перестраиваемые параметры, которые указывают, соответственно, на глобальную силу ухудшения, внезапность наступления ухудшения и степень ухудшения. При установке этих перестраиваемых значений следует тщательно следить за тем, чтобы относительное воздействие показателя стоимости
Figure 00000069
относительно любых других дополнительных показателей стоимости, а также
Figure 00000028
и
Figure 00000029
, соответствовало достижению требуемого результата. Например, в качестве эмпирического правила, если требуется, чтобы определенное ухудшение явно доминировало над остальными, то подходящей может являться установка его интенсивности
Figure 00000062
приблизительно в десять раз больше следующей по величине интенсивности ухудшения.where
Figure 00000062
,
Figure 00000067
,
Figure 00000068
are tunable parameters that indicate, respectively, the global strength of the deterioration, the suddenness of the onset of the deterioration, and the degree of deterioration. When setting these adjustable values, care should be taken to ensure that the relative impact of the cost measure
Figure 00000069
in relation to any other additional cost indicators, as well as
Figure 00000028
and
Figure 00000029
, to achieve the desired result. For example, as a rule of thumb, if you want a certain impairment to clearly dominate the others, setting its intensity to
Figure 00000062
approximately ten times the next-highest impairment rate.

В случае исключения всех громкоговорителей часто удобно вычесть минимальное ухудшение из всех весовых показателей при последующей обработке так, чтобы не исключался по меньшей мере один из динамиков:In the case of excluding all loudspeakers, it is often convenient to subtract the minimum impairment from all post-processing weights so that at least one of the loudspeakers is not excluded:

Figure 00000070
Figure 00000070

Как указано выше, существует множество возможных вариантов использования, которые можно реализовать с использованием новых показателей функции стоимости, описанных в данном документе (и аналогичных новых показателей функции стоимости, используемых в соответствии с другими вариантами осуществления). Далее более конкретные подробности описаны с помощью трех примеров: перемещение аудиоданных в направлении слушателя или говорящего, перемещение аудиоданных в направлении от слушателя или говорящего и перемещение аудиоданных в сторону от ориентира.As noted above, there are many possible use cases that can be implemented using the new cost function measures described herein (and similar new cost function measures used in accordance with other embodiments). In the following, more specific details are described with three examples: moving audio data in the direction of the listener or speaker, moving audio data in the direction away from the listener or speaker, and moving audio data away from the landmark.

В первом примере то, что будет называться в данном документе «силой притяжения» используется для подтягивания аудиоданных к некоторому положению, которое в некоторых примерах может представлять собой положение слушателя или говорящего, положение ориентира, положение мебели и т. д. Это положение в данном документе может называться «положением силы притяжения», или «местоположением аттрактора». В контексте данного документа «сила притяжения» представляет собой фактор, который благоприятствует относительно большему значению активации громкоговорителя, расположенного ближе к положению силы притяжения. Согласно данному примеру, весовой коэффициент

Figure 00000071
принимает форму уравнения 26 со значением непрерывного ухудшения,
Figure 00000072
, заданным расстоянием i-го динамика от фиксированного местоположения аттрактора,
Figure 00000073
, и пороговым значением
Figure 00000063
, заданным максимальным из этих расстояний по всем динамикам: In the first example, what will be referred to in this document as "attractive force" is used to pull the audio data to some position, which in some examples may be the position of the listener or speaker, the position of a landmark, the position of furniture, etc. This position in this document may be called the "position of the force of attraction", or "the location of the attractor". In the context of this document, "attractive force" is a factor that favors a relatively larger activation value of a loudspeaker closer to the position of the attractive force. According to this example, the weighting factor
Figure 00000071
takes the form of Equation 26 with a continuous degradation value,
Figure 00000072
, given by the distance of the i -th speaker from the fixed location of the attractor,
Figure 00000073
, and threshold value
Figure 00000063
, given by the maximum of these distances over all speakers:

Figure 00000074
Figure 00000074

Figure 00000075
Figure 00000075

Для иллюстрации варианта использования с «подтягиванием» аудиоданных к слушателю или говорящему, в частности, приравняем

Figure 00000062
= 20,
Figure 00000067
= 3, и
Figure 00000073
вектору, соответствующему положению слушателя/говорящего под углом 180 градусов (нижняя центральная часть графика). Эти значения
Figure 00000062
,
Figure 00000067
и
Figure 00000073
являются лишь примерами. В некоторых реализациях
Figure 00000062
может находиться в диапазоне от 1 до 100, и
Figure 00000067
может находиться в диапазоне от 1 до 25.To illustrate a use case with "pulling" audio data to a listener or speaker, in particular, equate
Figure 00000062
= 20,
Figure 00000067
= 3, and
Figure 00000073
a vector corresponding to the position of the listener/speaker at an angle of 180 degrees (bottom center of the graph). These values
Figure 00000062
,
Figure 00000067
and
Figure 00000073
are just examples. In some implementations
Figure 00000062
can range from 1 to 100, and
Figure 00000067
can range from 1 to 25.

На фиг. 13 представлен график значений активации динамиков в иллюстративном варианте осуществления. В этом примере на фиг. 13 представлены значения активации динамиков, 1005b, 1010b, 1015b, 1020b и 1025b, которые содержат оптимальное решение функции стоимости для таких же положений динамиков, как на фиг. 10 и 11, с добавлением силы притяжения, представленной в виде

Figure 00000071
.In FIG. 13 is a graph of speaker activation values in an exemplary embodiment. In this example, in FIG. 13 are speaker activation values, 1005b, 1010b, 1015b, 1020b, and 1025b, which contain the optimal cost function solution for the same speaker positions as in FIG. 10 and 11, with the addition of an attractive force represented as
Figure 00000071
.

На фиг. 14 представлен график положений рендеринга объектов в иллюстративном варианте осуществления. Положения громкоговорителей на фиг. 14, 17 и 20 являются такими же, как те, что представлены на фиг. 11. В этом примере на фиг. 14 представлены соответствующие идеальные положения 1130b объектов для множества возможных углов объектов и соответствующие фактические положения 1135b рендеринга для этих объектов, которые соединены с идеальными положениями 1130b объектов пунктирными линиями 1140b. Смещенная ориентация фактических положений 1135b рендеринга к фиксированному положению

Figure 00000073
иллюстрирует влияние весовых коэффициентов аттрактора на оптимальное решение функции стоимости.In FIG. 14 is a graph of object rendering positions in an exemplary embodiment. The positions of the loudspeakers in Fig. 14, 17 and 20 are the same as those shown in FIG. 11. In this example, in FIG. 14 shows the respective ideal object positions 1130b for a plurality of possible object angles, and the corresponding actual render positions 1135b for those objects, which are connected to the ideal object positions 1130b by dashed lines 1140b. Offset Orientation of Actual Render Positions 1135b to a Fixed Position
Figure 00000073
illustrates the influence of attractor weights on the optimal solution of the cost function.

На фиг. 15A, 15B и 15C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 13 и 14. На фиг. 15A, 15B и 15C угол -4,1 соответствует положению 1115 динамика по фиг. 11, угол 4,1 соответствует положению 1120 динамика по фиг. 11, угол -87 соответствует положению 1105 динамика по фиг. 11, угол 63,6 соответствует положению 1125 динамика по фиг. 11, и угол 165,4 соответствует положению 1110 динамика по фиг. 11. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 15A, 15B и 15C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 15A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 15В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 15С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 15A, 15B and 15C show examples of speaker contribution values corresponding to the examples of FIG. 13 and 14. In Figs. 15A, 15B, and 15C, an angle of -4.1 corresponds to speaker position 1115 of FIG. 11, an angle of 4.1 corresponds to speaker position 1120 of FIG. 11, the -87 angle corresponds to speaker position 1105 of FIG. 11, an angle of 63.6 corresponds to speaker position 1125 of FIG. 11 and an angle of 165.4 corresponds to speaker position 1110 of FIG. 11. According to these examples, the speaker contribution values shown in FIG. 15A, 15B and 15C correspond to the participation of each loudspeaker in each of the spatial zones shown in FIG. 6: Loudspeaker contribution values shown in FIG. 15A corresponds to the participation of each speaker in the center zone, the speaker participation values shown in FIG. 15B corresponds to the contribution of each speaker in the front left and right zones, and the speaker contribution values shown in FIG. 15C corresponds to the participation of each speaker in the rear zone.

Для иллюстрации варианта использования с отталкиванием аудиоданных от слушателя или говорящего, в частности, приравняем

Figure 00000062
= 5,
Figure 00000067
= 2, и
Figure 00000073
вектору, соответствующему положению слушателя/говорящего под углом 180 градусов (в нижней центральной части графика). Эти значения
Figure 00000062
,
Figure 00000067
и
Figure 00000073
являются лишь примерами. Как отмечено выше, в некоторых примерах
Figure 00000062
может находиться в диапазоне от 1 до 100, и
Figure 00000067
может находиться в диапазоне от 1 до 25.To illustrate the use case of pushing audio data away from the listener or speaker, in particular, equate
Figure 00000062
= 5,
Figure 00000067
= 2, and
Figure 00000073
a vector corresponding to the position of the listener/speaker at an angle of 180 degrees (in the lower central part of the graph). These values
Figure 00000062
,
Figure 00000067
and
Figure 00000073
are just examples. As noted above, in some examples
Figure 00000062
can range from 1 to 100, and
Figure 00000067
can range from 1 to 25.

На фиг. 16 представлен график значений активации динамиков в иллюстративном варианте осуществления. Согласно этому примеру на фиг. 16 представлены значения активации динамиков, 1005c, 1010c, 1015c, 1020c и 1025c, которые содержат оптимальное решение функции стоимости для таких же положений динамиков, как на предыдущих фигурах, с добавлением силы отталкивания, представленной в виде

Figure 00000071
.In FIG. 16 is a graph of speaker activation values in an exemplary embodiment. According to this example in FIG. 16 shows the speaker activation values, 1005c, 1010c, 1015c, 1020c and 1025c, which contain the optimal solution of the cost function for the same speaker positions as in the previous figures, with the addition of the repulsive force represented as
Figure 00000071
.

На фиг. 17 представлен график положений рендеринга объектов в иллюстративном варианте осуществления. В этом примере на фиг. 17 представлены идеальные положения 1130c объектов для множества возможных углов объектов и соответствующие фактические положения 1135c рендеринга для этих объектов, которые соединены с идеальными положениями 1130c объектов пунктирными линиями 1140c. Смещенная ориентация фактических положений 1135c рендеринга в сторону от фиксированного положения

Figure 00000073
иллюстрирует влияние весовых коэффициентов репеллера на оптимальное решение функции стоимости.In FIG. 17 is a graph of object rendering positions in an exemplary embodiment. In this example, in FIG. 17 shows ideal object positions 1130c for a variety of possible object angles and corresponding actual render positions 1135c for those objects, which are connected to ideal object positions 1130c by dashed lines 1140c. Offset orientation of actual render positions 1135c away from fixed position
Figure 00000073
illustrates the effect of repeller weights on the optimal cost function solution.

На фиг. 18A, 18B и 18C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 16 и 17. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 18A, 18B и 18C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 18A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 18В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 18С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 18A, 18B and 18C show examples of speaker contribution values corresponding to the examples of FIG. 16 and 17. According to these examples, the speaker contribution values shown in FIG. 18A, 18B and 18C correspond to the participation of each loudspeaker in each of the spatial zones shown in FIG. 6: Loudspeaker contribution values shown in FIG. 18A corresponds to the contribution of each speaker in the center zone, the speaker contribution values shown in FIG. 18B corresponds to the contribution of each speaker in the front left and right zones, and the speaker contribution values shown in FIG. 18C corresponds to the participation of each speaker in the rear zone.

Еще одним иллюстративным вариантом использования является «отталкивание» аудиоданных от ориентира, являющегося чувствительным к звуку, такого как дверь в комнату, где спит ребенок. Аналогично последнему примеру приравняем

Figure 00000073
вектору, соответствующему положению двери под углом 180 градусов (нижняя центральная часть графика). Для достижения большей силы отталкивания и полного смещения звукового поля в переднюю часть первичного пространства прослушивания приравняем
Figure 00000062
= 20, и
Figure 00000067
= 5.Another exemplary use case is to "push" audio data away from a sound-sensitive landmark, such as a door to a baby's room. As in the last example, we equate
Figure 00000073
vector corresponding to the position of the door at an angle of 180 degrees (bottom center of the graph). To achieve a greater repulsive force and a complete shift of the sound field to the front of the primary listening space, we equate
Figure 00000062
= 20, and
Figure 00000067
= 5.

На фиг. 19 представлен график значений активации динамиков в иллюстративном варианте осуществления. И снова, в этом примере на фиг. 19 представлены значения активации динамиков, 1005d, 1010d, 1015d, 1020d и 1025d, которые содержат оптимальное решение для такого же набора положений динамиков с добавлением большей силы отталкивания.In FIG. 19 is a graph of speaker activation values in an exemplary embodiment. Again, in this example in FIG. 19 shows the speaker activation values, 1005d, 1010d, 1015d, 1020d, and 1025d, which provide an optimal solution for the same set of speaker positions with more repulsion added.

На фиг. 20 представлен график положений рендеринга объектов в иллюстративном варианте осуществления. И снова, в этом примере на фиг. 20 представлены идеальные положения 1130d объектов для множества возможных углов объектов и соответствующие фактические положения 1135d рендеринга для этих объектов, которые соединены с идеальными положениями 1130d объектов пунктирными линиями 1140d. Смещенная ориентация фактических положений 1135d рендеринга иллюстрирует влияние больших весовых коэффициентов репеллера на оптимальное решение функции стоимости.In FIG. 20 is a graph of object rendering positions in an exemplary embodiment. Again, in this example in FIG. 20 shows ideal object positions 1130d for a variety of possible object angles and corresponding actual render positions 1135d for those objects, which are connected to ideal object positions 1130d by dashed lines 1140d. The offset orientation of the actual rendering positions 1135d illustrates the impact of large repeller weights on the optimal cost function solution.

На фиг. 21A, 21B и 21C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 19 и 20. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 21A, 21B и 21C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 21A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 21В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 21С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 21A, 21B and 21C show examples of speaker participation values corresponding to the examples of FIG. 19 and 20. According to these examples, the speaker contribution values shown in FIGS. 21A, 21B and 21C correspond to the participation of each loudspeaker in each of the spatial zones shown in FIG. 6: Loudspeaker contribution values shown in FIG. 21A corresponds to the participation of each speaker in the center zone, the speaker participation values shown in FIG. 21B corresponds to the contribution of each speaker in the front left and right zones, and the speaker contribution values shown in FIG. 21C corresponds to the participation of each speaker in the rear zone.

На фиг. 22 изображена схема среды, которая в данном примере представляет собой жилую площадь. Среда, представленная на фиг. 22, содержит набор интеллектуальных звуковых устройств (устройства 1.1) для взаимодействия с аудиоданными, динамики (1.3) для вывода аудиоданных и управляемые осветительные приборы (1.2). В одном примере микрофоны содержат только устройства 1.1, и поэтому только они обнаруживают нахождение пользователя (1.4), выдающего голосовой фрагмент речи (например, команду в форме пробуждающего слова). С использованием различных способов информацию для обеспечения оценки положения (например, мелкозернистой оценки положения) пользователя, выдающего (например, произносящего) пробуждающее слово, можно получать из этих устройств совокупно.In FIG. 22 is a diagram of an environment, which in this example is a living area. The environment shown in Fig. 22 contains a set of intelligent audio devices (devices 1.1) for interacting with audio data, speakers (1.3) for outputting audio data, and controllable lighting fixtures (1.2). In one example, the microphones only contain devices 1.1, and therefore only they detect the presence of a user (1.4) issuing a speech fragment (eg, a command in the form of a wake-up word). Using various methods, information to provide a position estimate (eg, a fine-grained position estimate) of a user issuing (eg, speaking) a wake-up word can be obtained collectively from these devices.

На такой жилой площади имеется набор естественных зон активности, в которых человек будет выполнять задачу или действие, или пересекать порог. Эти области (зоны) действий находятся там, где может иметь место попытка оценить местоположение (например, определить неопределенное местоположение) или контекст пользователя для содействия другим аспектам интерфейса. Система рендеринга, содержащая (т. е. реализованная с помощью) по меньшей мере несколько из устройств 1.1 и динамиков 1.3 (и/или, необязательно, по меньшей мере одну другую подсистему или устройство), может функционировать с целью рендеринга аудиоданных для воспроизведения (например, некоторыми или всеми динамиками 1.3) на жилой площади или в одной или более ее зонах. Предполагается, что такая система рендеринга может быть выполнена с возможностью функционирования или в стандартном пространственном режиме, или в распределенном пространственном режиме согласно любому варианту осуществления раскрытого способа. В примере на фиг. 8 ключевыми областями действий являются:In such a living space, there is a set of natural activity zones in which a person will perform a task or action, or cross a threshold. These areas (zones) of action are where an attempt to estimate the location (eg, to determine an undefined location) or user context to facilitate other aspects of the interface can take place. A rendering system comprising (i.e., implemented with) at least some of the 1.1 devices and 1.3 speakers (and/or optionally at least one other subsystem or device) may operate to render audio data for playback (e.g. , some or all of the speakers 1.3) in the living area or in one or more areas of it. It is contemplated that such a rendering system may be configured to operate in either standard spatial mode or distributed spatial mode, according to any embodiment of the disclosed method. In the example in FIG. The 8 key action areas are:

1. Кухонная мойка и область приготовления пищи (в верхней левой области жилой площади);1. Kitchen sink and cooking area (in the upper left area of the living area);

2. Дверь холодильника (справа от мойки и области приготовления пищи);2. Refrigerator door (to the right of the sink and cooking area);

3. Обеденная зона (в нижней левой области жилой площади);3. Dining area (in the lower left area of the living area);

4. Открытая область жилой площади (справа от мойки и области приготовления пищи и обеденной зоны);4. Open area of the living area (to the right of the sink and cooking area and dining area);

5. Область дивана для просмотра телевизора (справа от открытой области); 5. Sofa area for watching TV (to the right of the open area);

6. Сам телевизор;6. TV itself;

7. Столы; и7. Tables; and

8. Область двери или прихожая (в верхней правой области жилой площади).8. Door area or hallway (in the upper right area of the living area).

Часто имеется одинаковое количество осветительных приборов с одинаковым размещением, подходящих для областей действий. Некоторые или все осветительные приборы могут по отдельности находиться под управлением сетевых средств.There are often the same number of lighting fixtures with the same placement suitable for the action areas. Some or all of the lighting fixtures may be individually controlled by network facilities.

В соответствии с некоторыми вариантами осуществления, аудиоданные подвергаются рендерингу (например, одним из устройств 1.1 или другим устройством системы по фиг. 22) с целью воспроизведения (согласно любому раскрытому варианту осуществления) одним или более из динамиков 1.3 (и/или динамиком (динамиками) одного или более устройств 1.1). In accordance with some embodiments, audio data is rendered (e.g., by one of the devices 1.1 or another device of the system of FIG. 22) for playback (according to any disclosed embodiment) by one or more of the speakers 1.3 (and/or speaker(s) one or more devices 1.1).

Один класс вариантов осуществления включает способы рендеринга аудиоданных для воспроизведения и/или воспроизведения аудиоданных по меньшей мере одним (например, всеми или некоторыми) из множества скоординированных (организованных) интеллектуальных звуковых устройств. Например, набор интеллектуальных звуковых устройств, присутствующих (в системе) в доме пользователя, можно организовать для одновременной обработки множества вариантов использования, включая гибкий рендеринг аудиоданных для воспроизведения всеми или некоторыми из (т. е. динамиком (динамиками) некоторых или всех) интеллектуальных звуковых устройств. Предполагается множество взаимодействий с системой, которые требуют динамических модификаций рендеринга и/или воспроизведения. Такие модификации могут являться, но необязательно являются, сосредоточенными на пространственной точности воспроизведения. One class of embodiments includes methods for rendering audio data for playback and/or playback of audio data by at least one (eg, all or some) of a plurality of coordinated (organized) smart audio devices. For example, a set of smart audio devices present (on the system) in a user's home can be arranged to handle multiple use cases simultaneously, including flexible rendering of audio data for playback by all or some of (i.e., speaker(s) of some or all) smart audio devices. There are many interactions with the system that require dynamic rendering and/or playback modifications. Such modifications may be, but are not necessarily, focused on spatial fidelity.

В некоторых вариантах осуществления реализован рендеринг для воспроизведения и/или воспроизведение динамиком (динамиками) множества интеллектуальных звуковых устройств, которые являются скоординированными (организованными). В других вариантах осуществления реализован рендеринг для воспроизведения и/или воспроизведение динамиком (динамиками) из другого набора динамиков.In some embodiments, rendering for playback and/or playback by speaker(s) of a plurality of smart audio devices that are coordinated (organized) is implemented. In other embodiments, rendering is implemented for playback and/or playback by a speaker(s) from another set of speakers.

Некоторые варианты осуществления (например, система или средство рендеринга, или способ рендеринга, или система или способ воспроизведения) относятся к системам и способам для рендеринга аудиоданных для воспроизведения и/или воспроизведения некоторыми или всеми динамиками (т. е. каждым активированным динамиком) из набора динамиков. В некоторых вариантах осуществления динамики представляют собой динамики скоординированного (организованного) набора интеллектуальных звуковых устройств. Примеры таких вариантов осуществления включают следующие пронумерованные иллюстративные варианты осуществления (enumerated example embodiments, EEE). Some embodiments (e.g., a system or renderer, or a rendering method, or a playback system or method) refer to systems and methods for rendering audio data for playback and/or playback by some or all speakers (i.e., each activated speaker) from a set speakers. In some embodiments, the speakers are speakers of a coordinated (organized) set of smart audio devices. Examples of such embodiments include the following enumerated example embodiments (EEE).

EEE1. Способ рендеринга аудиоданных для воспроизведения по меньшей мере двумя динамиками, который включает следующие этапы:EEE1. A method for rendering audio data for playback by at least two speakers, which includes the following steps:

(a) комбинирование порогов ограничения динамиков, определяя тем самым комбинированные пороги; (a) combining speaker clipping thresholds, thereby defining combined thresholds;

(b) выполнение динамической обработки в отношении аудиоданных с использованием комбинированных порогов для генерирования обработанных аудиоданных; и (b) performing dynamics processing on the audio data using the combined thresholds to generate processed audio data; and

(c) рендеринг обработанных аудиоданных в сигналы, подаваемые на динамики.(c) rendering the processed audio data into signals fed to speakers.

EEE2. Способ согласно EEE1, в котором пороги ограничения представляют собой множество из одного или более порогов ограничения воспроизведения, которые представляют ограничения на разных частотах.EEE2. A method according to EEE1, wherein the clipping thresholds are a plurality of one or more playback clipping thresholds that represent clipping at different frequencies.

EEE3. Способ согласно EEE1 или EEE2, в котором указанное комбинирование порога ограничения включает взятие минимального из порогов множества громкоговорителей.EEE3. The method according to EEE1 or EEE2, wherein said combination of the clipping threshold comprises taking the minimum of the thresholds of the plurality of speakers.

EEE3. Способ согласно EEE1 или EEE2, в котором указанное комбинирование порогов ограничения включает этап усреднения по порогам ограничения множества громкоговорителей.EEE3. A method according to EEE1 or EEE2, wherein said combination of clipping thresholds includes the step of averaging over the clipping thresholds of a plurality of speakers.

EEE5. Способ согласно EEE4, в котором указанный этап усреднения представляет собой взвешенное среднее.EEE5. A method according to EEE4 wherein said averaging step is a weighted average.

EEE6. Способ согласно EEE5, в котором указанная весовая обработки получается в зависимости от указанного рендеринга.EEE6. The method according to EEE5, in which the specified weight processing is obtained depending on the specified rendering.

EEE7. Способ согласно любому из EEE1–EEE6, в котором указанный рендеринг является пространственным.EEE7. A method according to any one of EEE1-EEE6, wherein said rendering is spatial.

EEE8. Способ согласно EEE7, в котором указанное ограничение потока звуковой программы включает разное ограничение в разных пространственных зонах.EEE8. A method according to EEE7, wherein said audio program flow restriction includes a different restriction in different spatial zones.

EEE9. Способ согласно EEE8, в котором пороги каждой пространственной зоны получаются с помощью уникальных комбинаций порогов ограничения воспроизведения множества громкоговорителей.EEE9. A method according to EEE8, in which the thresholds of each spatial zone are obtained using unique combinations of playback limitation thresholds of a plurality of loudspeakers.

EEE10. Способ согласно EEE9, в котором уникальные пороги каждой пространственной зоны получаются с помощью взвешенного среднего порогов ограничения множества громкоговорителей.EEE10. A method according to EEE9, in which the unique thresholds of each spatial zone are obtained using a weighted average of the clipping thresholds of a plurality of loudspeakers.

EEE11. Способ согласно EEE10, в котором весовая обработка, связанная с данным громкоговорителем для данной зоны, получается на основе коэффициента участия динамика, связанного с этой зоной.EEE11. A method according to EEE10, wherein the weighting associated with a given loudspeaker for a given zone is obtained based on the participation factor of the speaker associated with that zone.

EEE12. Способ согласно EEE11, в котором указанный коэффициент участия динамика получается на основе значений активации динамиков, соответствующих рендерингу одного или более номинальных пространственных положений, отнесенных к указанной пространственной зоне ограничителя.EEE12. A method according to EEE11, wherein said speaker participation factor is derived based on speaker activation values corresponding to rendering one or more nominal spatial positions related to said limiter spatial zone.

EEE13. Способ согласно любому из EEE 1–EEE12, который дополнительно включает ограничение сигналов, подаваемых на динамики, в соответствии с порогами ограничения, связанными с соответствующим динамиком.EEE13. The method according to any one of EEE 1-EEE12, which further includes clipping the signals applied to the speakers in accordance with clipping thresholds associated with the respective speaker.

EEE14. Система, выполненная с возможностью выполнения способа по любому из EEE 1– EEE13.EEE14. A system capable of performing a method according to any one of EEE 1-EEE13.

Технологически возможными являются многие варианты осуществления. Из настоящего раскрытия специалистам в данной области будет очевидно, как их реализовать. В данном документе описаны некоторые варианты осуществления. Many embodiments are technically feasible. It will be apparent to those skilled in the art from the present disclosure how to implement them. This document describes some embodiments.

Некоторые аспекты настоящего изобретения включают систему или устройство, выполненное с возможностью (например, запрограммированное) выполнения любого раскрытого способа, и материальный машиночитаемый носитель данных (например, диск), на котором хранится код, предназначенный для реализации любого раскрытого способа или его этапов. Например, система может представлять собой или содержать программируемый процессор общего назначения, процессор цифровой обработки сигналов или микропроцессор, запрограммированный с использованием программного обеспечения или программно-аппаратного обеспечения и/или иным образом выполненный с возможностью выполнения любой из множества операций в отношении данных, включая вариант осуществления раскрытого способа или его этапы. Такой процессор общего назначения может представлять собой или содержать компьютерную систему, содержащую устройство ввода, запоминающее устройство и подсистему обработки, запрограммированную для (и/или иным образом выполненную с возможностью) выполнения раскрытого способа (или его этапов) в ответ на передаваемые в нее данные.Some aspects of the present invention include a system or device capable of (eg, programmed) performing any disclosed method, and a tangible computer-readable storage medium (eg, a disk) that stores code for implementing any disclosed method or steps thereof. For example, the system may be or comprise a general purpose programmable processor, a digital signal processor, or a microprocessor programmed using software or firmware and/or otherwise configured to perform any of a variety of operations on data, including the embodiment disclosed method or steps thereof. Such a general purpose processor may be or comprise a computer system including an input device, a storage device, and a processing subsystem programmed to (and/or otherwise capable of) executing the disclosed method (or steps thereof) in response to data being passed thereto.

Некоторые варианты осуществления реализованы в виде конфигурируемого (например, программируемого) процессора цифровой обработки сигналов (DSP), который выполнен с возможностью (например, запрограммирован и иначе сконфигурирован) выполнения требуемой обработки в отношении звукового сигнала (сигналов), включая выполнение одного или более раскрытых способов. Альтернативно, некоторые варианты осуществления (или их элементы) реализованы в виде процессора общего назначения (например, персонального компьютера (РС), другой компьютерной системы или микропроцессора, который может содержать устройство ввода и запоминающее устройство), запрограммированного с помощью программного обеспечения или программно-аппаратного обеспечения и/или иначе выполненного с возможностью выполнения любой из множества операций одного или более раскрытых способов. Альтернативно элементы некоторых вариантов осуществления реализованы в виде процессора общего назначения или DSP, выполненного с возможностью (например, запрограммированного) выполнения одного или более раскрытых способов, и система может также содержать другие элементы (например, один или более громкоговорителей и/или один или более микрофонов). Процессор общего назначения, выполненный с возможностью выполнения одного или более раскрытых способов, может быть соединен с устройством ввода (например, мышью и/или клавиатурой), запоминающим устройством и, в некоторых примерах, устройством отображения. Some embodiments are implemented as a configurable (e.g., programmable) digital signal processor (DSP) that is configured (e.g., programmed and otherwise configured) to perform the desired processing on the audio signal(s), including performing one or more of the disclosed methods. . Alternatively, some embodiments (or elements thereof) are implemented as a general purpose processor (e.g., a personal computer (PC), other computer system, or microprocessor that may include an input device and a storage device) programmed with software or firmware. providing and/or otherwise configured to perform any of the plurality of operations of one or more of the disclosed methods. Alternatively, elements of some embodiments are implemented as a general purpose processor or DSP configured to (e.g., programmed) perform one or more of the disclosed methods, and the system may also include other elements (e.g., one or more speakers and/or one or more microphones). ). A general purpose processor configured to perform one or more of the disclosed methods may be connected to an input device (eg, a mouse and/or keyboard), a storage device, and, in some examples, a display device.

Другой аспект настоящего изобретения представляет собой машиночитаемый носитель данных (например, диск или другой материальный носитель данных), на котором хранится код для выполнения (например, исполняемый код для выполнения) одного или более раскрытых способов или их этапов.Another aspect of the present invention is a computer-readable storage medium (eg, a disk or other tangible storage medium) that stores code for executing (eg, executable code for executing) one or more of the disclosed methods or steps thereof.

Несмотря на то, что в данном документе были описаны конкретные варианты осуществления и применения настоящего изобретения, специалистам в данной области техники будет очевидно, что возможно множество изменений в отношении вариантов осуществления и применений, описанных в данном документе, без отступления от объема настоящего изобретения, описанного и заявленного в данном документе. Следует понимать, что, несмотря на то, что были показаны и описаны определенные формы настоящего изобретения, объем настоящего изобретения не следует ограничивать описанными и показанными конкретными вариантами осуществления или описанными конкретными способами.While specific embodiments and uses of the present invention have been described herein, it will be apparent to those skilled in the art that many changes are possible with respect to the embodiments and uses described herein without departing from the scope of the present invention as described. and stated in this document. It should be understood that while certain forms of the present invention have been shown and described, the scope of the present invention should not be limited to the specific embodiments described and shown or the specific methods described.

Claims (25)

1. Способ обработки аудиоданных, включающий:1. A method for processing audio data, including: получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания, причем конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей, при этом конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей;obtaining by the control system and through the system of interfaces individual speaker dynamics processing configuration data for each of the plurality of speakers of the listening environment, wherein the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each loudspeaker of the plurality of speakers, wherein the individual speaker dynamics processing configuration data the loudspeakers comprise a data set of playback limitation thresholds for each loudspeaker of the plurality of loudspeakers; определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей, при этом определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей, при этом определение конфигурационных данных динамической обработки среды прослушивания включает усреднение порогов ограничения воспроизведения по множеству громкоговорителей;determination by the control system of the listening environment dynamics processing configuration data for a plurality of speakers, wherein the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each loudspeaker of the plurality of speakers, wherein the determination of the listening environment dynamics processing configuration data includes threshold averaging playback restrictions across multiple speakers; прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные, причем пространственные данные содержат по меньшей мере одно из данных каналов или пространственных метаданных;receiving by the control system via the interface system audio data containing one or more audio signals and associated spatial data, the spatial data comprising at least one of channel data or spatial metadata; выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных;performing, by the control system, dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data; рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов; и rendering, by the control system, the processed audio data for playback through a speaker set comprising at least some of the plurality of speakers to obtain rendered audio signals; and доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.delivering, via the interface system, the rendered audio signals to the set of speakers. 2. Способ обработки аудиоданных по п. 1, отличающийся тем, что набор данных порога ограничения воспроизведения содержит пороги ограничения воспроизведения для каждой из множества частот.2. The method for processing audio data according to claim 1, wherein the playback limit threshold data set contains playback limit thresholds for each of the plurality of frequencies. 3. Способ обработки аудиоданных по п. 1 или 2, отличающийся тем, что определение конфигурационных данных динамической обработки среды прослушивания включает усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения.3. The audio data processing method according to claim 1 or 2, characterized in that determining the configuration data of the dynamic processing of the listening environment includes averaging the playback restriction thresholds in order to obtain average playback restriction thresholds over a plurality of speakers, determining the minimum playback restriction thresholds over a plurality of speakers, and interpolating between minimum playback restriction thresholds; and average reproduction restriction thresholds. 4. Способ обработки аудиоданных по п. 3, отличающийся тем, что усреднение порогов ограничения воспроизведения включает определение взвешенного среднего порога ограничения воспроизведения.4. The audio data processing method according to claim 3, wherein the averaging of the playback restriction thresholds comprises determining a weighted average playback restriction threshold. 5. Способ обработки аудиоданных по п. 4, отличающийся тем, что взвешенное среднее является по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.5. The method of processing audio data according to claim 4, wherein the weighted average is at least in part based on the characteristics of the rendering process implemented by the control system. 6. Способ обработки аудиоданных по п. 5, отличающийся тем, что выполнение динамической обработки в отношении аудиоданных основано на пространственных зонах, причем каждая из пространственных зон соответствует подмножеству среды прослушивания, при этом взвешенное среднее порогов ограничения воспроизведения является по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам.6. The method of processing audio data according to claim 5, characterized in that performing dynamics processing in relation to audio data is based on spatial zones, and each of the spatial zones corresponds to a subset of the listening environment, while the weighted average of the playback restriction thresholds is at least partially based on the values activation of loudspeakers using the rendering process, depending on the proximity of the audio signal to spatial zones. 7. Способ обработки аудиоданных по п. 5 или 6, отличающийся тем, что взвешенное среднее является по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон.7. An audio data processing method according to claim 5 or 6, wherein the weighted average is at least partially based on the loudspeaker participation value for each loudspeaker in each of the spatial zones. 8. Способ обработки аудиоданных по п. 7, отличающийся тем, что каждое значение участия громкоговорителя является по меньшей мере частично основанным на одном или более номинальных пространственных положениях в пределах каждой из пространственных зон.8. The audio data processing method of claim 7, wherein each speaker contribution value is at least in part based on one or more nominal spatial locations within each of the spatial zones. 9. Способ обработки аудиоданных по п. 8, отличающийся тем, что номинальные пространственные положения соответствуют стандартным местоположениям каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1.9. The audio data processing method of claim 8, wherein the nominal spatial positions correspond to the standard channel locations in a Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. 10. Способ обработки аудиоданных по п. 8 или 9, отличающийся тем, что каждое значение участия громкоговорителя является по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в пределах каждой из пространственных зон.10. The method of processing audio data according to claim 8 or 9, characterized in that each speaker participation value is at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of one or more nominal spatial positions within each of the spatial zones . 11. Способ обработки аудиоданных по любому из пп. 1–10, отличающийся тем, что дополнительно включает выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.11. The method of processing audio data according to any one of paragraphs. 1-10, characterized in that it further includes performing dynamics processing on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker from the set of speakers to which the rendered audio signals are delivered. 12. Способ обработки аудиоданных по любому из пп. 1–11, отличающийся тем, что конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей.12. The method of processing audio data according to any one of paragraphs. 1-11, characterized in that the individual speaker dynamics processing configuration data contains a set of dynamic range compression data for each speaker of the plurality of speakers. 13. Способ обработки аудиоданных по п. 12, отличающийся тем, что набор данных сжатия динамического диапазона содержит одно или более из данных порогов, данных отношения уровней входного и выходного сигналов, данных нарастания или данных ослабления.13. The audio data processing method of claim 12, wherein the dynamic range compression dataset comprises one or more of threshold data, input-to-output ratio data, fade-in data, or fade-out data. 14. Способ обработки аудиоданных по любому из пп. 1–13, отличающийся тем, что конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей соответствуют одной или более функциональным возможностям одного или более громкоговорителей.14. The method of processing audio data according to any one of paragraphs. 1-13, characterized in that the individual speaker dynamics processing configuration data for one or more speakers of the plurality of speakers corresponds to one or more functionality of the one or more speakers. 15. Система для обработки аудиоданных, выполненная с возможностью выполнения способа по любому из пп. 1–14, при этом система содержит:15. System for processing audio data, configured to perform the method according to any one of paragraphs. 1–14, while the system contains: - концентратор умного дома, содержащий систему управления и систему интерфейсов;- a smart home hub containing a control system and an interface system; - множество громкоговорителей,- Lots of loudspeakers при этом система управления содержит модуль конфигурационных данных динамической обработки среды прослушивания, модуль динамической обработки среды прослушивания и модуль рендеринга.wherein the control system comprises a listening environment dynamic processing configuration data module, a listening environment dynamic processing module, and a rendering module. 16. Постоянный носитель данных, содержащий хранящееся на нем программное обеспечение, причем программное обеспечение содержит команды для управления одним или более устройствами с целью выполнения способа по любому из пп. 1–14.16. A persistent storage medium containing software stored thereon, the software containing commands for controlling one or more devices in order to perform the method according to any one of paragraphs. 1–14.
RU2022101775A 2019-07-30 2020-07-27 Dynamic processing in devices with different playback functionalities RU2783150C1 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
ESP201930702 2019-07-30
US62/880,115 2019-07-30
US62/971,421 2020-02-07
US62/705,143 2020-06-12
US62/705,410 2020-06-25

Publications (1)

Publication Number Publication Date
RU2783150C1 true RU2783150C1 (en) 2022-11-09

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013009125A2 (en) * 2011-07-13 2013-01-17 주식회사 네오위즈인터넷 Method and apparatus for managing playlist
JP2015510283A (en) * 2011-11-14 2015-04-02 グーグル・インク Display of sound status on wearable computer system
US9226073B2 (en) * 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US10264355B2 (en) * 2017-06-02 2019-04-16 Apple Inc. Loudspeaker cabinet with thermal and power mitigation control effort
US10276173B2 (en) * 2015-07-31 2019-04-30 Apple Inc. Encoded audio extended metadata-based dynamic range control
WO2019246457A1 (en) * 2018-06-22 2019-12-26 Dolby Laboratories Licensing Corporation Multichannel audio enhancement, decoding, and rendering in response to feedback
JP7020892B2 (en) * 2017-12-12 2022-02-16 三菱重工業株式会社 Mine processing system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013009125A2 (en) * 2011-07-13 2013-01-17 주식회사 네오위즈인터넷 Method and apparatus for managing playlist
JP2015510283A (en) * 2011-11-14 2015-04-02 グーグル・インク Display of sound status on wearable computer system
US9226073B2 (en) * 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US10276173B2 (en) * 2015-07-31 2019-04-30 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10264355B2 (en) * 2017-06-02 2019-04-16 Apple Inc. Loudspeaker cabinet with thermal and power mitigation control effort
JP7020892B2 (en) * 2017-12-12 2022-02-16 三菱重工業株式会社 Mine processing system
WO2019246457A1 (en) * 2018-06-22 2019-12-26 Dolby Laboratories Licensing Corporation Multichannel audio enhancement, decoding, and rendering in response to feedback

Similar Documents

Publication Publication Date Title
CN114521334B (en) Audio processing system, method and medium
CN114175686B (en) Audio processing method and system and related non-transitory medium
CN114207715A (en) Acoustic echo cancellation control for distributed audio devices
KR102505773B1 (en) Multi-band limiter mode and noise compensation method
RU2783150C1 (en) Dynamic processing in devices with different playback functionalities
KR102638121B1 (en) Dynamics processing across devices with differing playback capabilities
RU2818982C2 (en) Acoustic echo cancellation control for distributed audio devices
WO2024025803A1 (en) Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds
CN116830604A (en) Progressive computation and application of rendering configuration for dynamic applications