RU2773512C2 - Clustering audio objects with preserving metadata - Google Patents

Clustering audio objects with preserving metadata Download PDF

Info

Publication number
RU2773512C2
RU2773512C2 RU2019100704A RU2019100704A RU2773512C2 RU 2773512 C2 RU2773512 C2 RU 2773512C2 RU 2019100704 A RU2019100704 A RU 2019100704A RU 2019100704 A RU2019100704 A RU 2019100704A RU 2773512 C2 RU2773512 C2 RU 2773512C2
Authority
RU
Russia
Prior art keywords
category
audio
clusters
audio object
categories
Prior art date
Application number
RU2019100704A
Other languages
Russian (ru)
Other versions
RU2019100704A (en
RU2019100704A3 (en
Inventor
Ляньву ЧЭНЬ
Ли ЛУ
Николас Р. ЦИНГОС
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201410765578.6A external-priority patent/CN105895086B/en
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2019100704A publication Critical patent/RU2019100704A/en
Publication of RU2019100704A3 publication Critical patent/RU2019100704A3/ru
Application granted granted Critical
Publication of RU2773512C2 publication Critical patent/RU2773512C2/en

Links

Images

Abstract

FIELD: audio objects clustering.
SUBSTANCE: invention relates to means for clustering audio objects. A plurality of audio objects is classified into a number of categories based on information intended to be stored in the metadata associated with the plurality of audio objects. Assign a given number of clusters to categories. The audio object is placed in each of the categories in at least one of the clusters in accordance with the mentioned purpose. Assigning a predetermined number of clusters to categories includes determining, for each category, an appropriate number of clusters to be assigned to that category such that the total number of clusters adds up to the predetermined number of clusters. Here, the information includes one or more of size information, zone mask information, anchor information, content type, or playback mode of the audio object. Classifying the audio object with no information to be stored into one category; and classifying the audio object with the various information to be stored into another category.
EFFECT: improving the efficiency of clustering audio objects.
20 cl, 4 dwg

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS

[0001] По данной заявке испрашивается приоритет на основании заявки на патент Китая №. 201410765578.6, поданной 11 декабря 2014 г., и предварительной заявки на патент США № 62/100,183, поданной 6 января 2015 г., содержимое каждой из которых включено в настоящий документ путем ссылки в полном объеме. [0001] This application claims priority based on Chinese Patent Application No. 201410765578.6, filed December 11, 2014, and U.S. Provisional Application No. 62/100,183, filed January 6, 2015, the contents of each of which are incorporated herein by reference in their entirety.

ТЕХНОЛОГИЯTECHNOLOGY

[0002] Описанные здесь примерные варианты выполнения изобретения относятся в общем к обработке аудио контента, и более конкретно к способу и системе кластеризации аудиообъектов, позволяющих сохранять метаданные. [0002] The exemplary embodiments of the invention described herein relate generally to the processing of audio content, and more specifically to a method and system for clustering audio objects capable of storing metadata.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

[0003] Появление объектно-ориентированного аудио привело к значительному росту объема аудиоданных и к усложнению интерпретации этих данных в высококачественных системах звуковоспроизведения. Например, кинематографические аудиодорожки могут содержать множество различных аудиоэлементов, соответствующих изображениям на экране, диалогам, шумам и аудио эффектам, исходящих из различных мест на экране, и эти аудиодорожки также комбинируются с фоновой музыкой и эффектами окружающей среды для создания общего аудиовпечатления. Для точного воспроизведения требуется, чтобы звуки воспроизводились таким образом, чтобы максимально соответствовать тому, что показано на экране относительно положения, интенсивности, движения и глубины источника звука. Объектно-ориентированное аудио предоставляет значительный шаг вперед по сравнению с обычными аудиосистемами на основе каналов, которые отправляют аудио контент в форме звуковых потоков отдельным динамикам в среде прослушивания и таким образом относительно ограничены при пространственном воспроизведении определенных аудиообъектов. [0003] The advent of object-oriented audio has led to a significant increase in the volume of audio data and to the complexity of interpreting this data in high-quality audio systems. For example, cinematic audio tracks can contain many different audio elements corresponding to screen images, dialogue, noise, and audio effects coming from various locations on the screen, and these audio tracks are also combined with background music and environmental effects to create an overall audio experience. Accurate reproduction requires that sounds be reproduced in a way that matches as closely as possible what is shown on the screen in terms of the position, intensity, movement, and depth of the sound source. Object-based audio provides a significant advance over conventional channel-based audio systems that send audio content in the form of audio streams to individual speakers in the listening environment and are thus relatively limited in the spatial reproduction of certain audio objects.

[0004] Появление цифрового кино и развитие трехмерного («3D») контента привело к созданию новых стандартов для звука, таких как включение многоканального звука, предоставляя больше творческих возможностей создателям контента и более охватывающее и реалистичное аудио впечатление для слушателей. Важным является расширение возможностей по отношению к традиционным звуковым потокам, направляемым динамикам, и звука на основе каналов как средств для распространения пространственного звука. Более того, существует значительный интерес к описанию звука, созданному на основе моделей, что позволяет слушателю выбирать желаемую конфигурацию воспроизведения, со звуком воспроизводимым в соответствии с выбранной конфигурацией. В случае пространственного представления звука используются аудиообъекты, являющиеся сигналами с соответствующими параметрическими описаниями источника, такими как кажущееся положение источника (например, координаты в пространстве), ширина кажущегося источника, и другие параметры. Дополнительные преимущества включают в себя следующее поколение формата пространственного звука (также упоминаемого как «адаптивное аудио»), который было разработан посредством внедрения микширования аудиообъектов и традиционных каналов питания динамиков (аудиоканалов) совместно с позиционными метаданными для аудиообъектов. [0004] The advent of digital cinema and the development of three-dimensional ("3D") content has led to the creation of new standards for audio, such as the inclusion of multi-channel audio, providing more creative options for content creators and a more inclusive and realistic audio experience for listeners. It is important to expand on traditional speaker-guided audio streams and channel-based audio as a means to distribute spatial audio. Moreover, there is considerable interest in model-based sound descriptions that allow the listener to select the desired playback configuration, with the sound reproduced according to the selected configuration. In the case of spatial representation of sound, audio objects are used, which are signals with corresponding parametric descriptions of the source, such as the apparent position of the source (for example, coordinates in space), the width of the apparent source, and other parameters. Additional benefits include the next generation of the spatial audio format (also referred to as "adaptive audio"), which has been developed through the introduction of audio object mixing and traditional speaker power paths (audio channels) along with positional metadata for audio objects.

[0005] Используемый в данном описании, термин «аудиообъект» относится к отдельному аудио элементу, который существует на протяжении определенного интервала времени в звуковом поле. Термин «аудиоканал» или «канал» относится к аудиоканалам, которые предназначены для воспроизведения в заданных и фиксированных местах расположений динамиков. [0005] Used in this description, the term "audio object" refers to a single audio element that exists for a certain period of time in the sound field. The term "audio channel" or "channel" refers to audio channels that are intended to be played at predetermined and fixed speaker locations.

[0006] В некоторых аудиодорожках может быть несколько (например,7, 9, или 11) аудиоканалов. Кроме того, в зависимости от свойств среды разработки проектов и реализации мультимедиа, могут существовать десятки или даже сотни отдельных аудиообъектов, объединяемых во время воспроизведение для создания пространственно разнообразного аудиовпечатления с эффектом присутствия. В других системах распространения и передачи звука может быть доступной достаточно большая полоса пропускания, которая обеспечивает передачу всех аудиоканалов и объектов с небольшим аудио сжатием или вообще без аудио сжатия. В некоторых случаях, однако, таких как распространение на дисках Blu-ray, посредством широковещательной передачи (кабельной, спутниковой и по наземным линиям), мобильной связи (3G и 4G) и передачи данных на приставку (OTT или по сети Интернет), могут существовать значительные ограничения по доступной полосе пропускания для цифровой передачи всей информации аудиоканалов и объектов, созданных в среде разработки проектов и реализации мультимедиа. В то время как способы кодирования звука (с потерями или без потерь) могут применяться к звуку для уменьшения требуемой полосы пропускания, кодирования звука может быть недостаточно для уменьшения полосы пропускания, требуемой для передачи звука, в частности через сети, обеспечивающие низкую скорость передачи данных, такие как мобильные сети 3G и 4G. [0006] Some audio tracks may have multiple (eg, 7, 9, or 11) audio channels. In addition, depending on the properties of the project development environment and media implementation, there may be dozens or even hundreds of individual audio objects that are combined during playback to create a spatially diverse immersive audio experience. In other audio distribution and transmission systems, sufficient bandwidth may be available to allow all audio channels and objects to be transmitted with little or no audio compression. In some cases, however, such as distribution on Blu-ray disc, broadcast (cable, satellite and terrestrial), mobile (3G and 4G) and set-top box (OTT or Internet), there may be significant limitations on the available bandwidth for the digital transmission of all information of audio channels and objects created in the project development and multimedia implementation environment. While audio coding techniques (lossy or lossless) can be applied to audio to reduce the required bandwidth, audio coding may not be sufficient to reduce the bandwidth required for audio transmission, particularly over networks providing low data rates, such as 3G and 4G mobile networks.

[0007] Некоторые известные способы, были разработаны для уменьшения количества объектов, вводимых в меньший набор выводимых объектов посредством кластеризации. В общем, в некоторых процессах кластеризации, метаданные, такие как размер, зональная маска, и привязка должны быть предварительно воспроизведены путем направления на выход внутреннего канала. Кластеризация аудиообъектов основывается исключительно на пространственном положении аудиообъектов, а выходные объекты содержат только позиционные метаданные. Этот тип выходных объектов может оказаться неподходящим для некоторых систем воспроизведения, поскольку потери метаданных могут привести к искажению творческого контента. [0007] Some well-known methods have been developed to reduce the number of objects entered into a smaller set of output objects through clustering. In general, in some clustering processes, metadata such as size, zone mask, and anchor must be pre-rendered by routing to the output of an internal channel. Clustering of audio objects is based solely on the spatial position of the audio objects, and the output objects contain only positional metadata. This type of output may not be suitable for some playback systems because loss of metadata can result in creative content being corrupted.

[0008] Сведения, рассматриваемые в разделе уровня техники, не следует относить к уровню техники только по причине того, что они рассматриваются в этом разделе. Аналогичным образом, проблему, упомянутую в разделе уровня техники, или связанную со сведениями из раздела уровня техники, не следует рассматривать как принятую ранее во внимание в уровне техники. Сведения раздела уровня техники лишь представляют различные подходы, которые сами по себе также могут быть примерными вариантами выполнения изобретения. [0008] The information discussed in the prior art section should not be attributed to the prior art only because they are discussed in this section. Likewise, a problem mentioned in the prior art section, or related to the knowledge in the prior art section, should not be considered as taken into account previously in the prior art. The information in the prior art section merely represents various approaches, which themselves may also be exemplary embodiments of the invention.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯDISCLOSURE OF THE INVENTION

[0009] С целью указания на вышеупомянутые и другие потенциальные проблемы, примеры вариантов выполнения изобретения предлагают способ и систему кластеризации аудиообъектов с сохранением метаданных. [0009] In order to point out the above and other potential problems, exemplary embodiments of the invention provide a method and system for clustering audio objects while preserving metadata.

[0010] В одном аспекте, примерные варианты выполнения изобретения предоставляют способ кластеризации аудиообъектов с сохранением метаданных. Способ содержит классификацию множества аудиообъектов в некоторое количество категорий на основании информации, которую следует сохранить в метаданных, связанных с множеством аудиообъектов. Способ дополнительно содержит назначение заданного количества кластеров категориям и расположение аудиообъекта в каждой из категорий для по меньшей мере одного из кластеров в соответствии с назначением. Варианты выполнения изобретения в этом отношении дополнительно содержат соответствующий компьютерный программный продукт. [0010] In one aspect, exemplary embodiments of the invention provide a method for clustering audio objects while preserving metadata. The method comprises classifying a plurality of audio objects into a number of categories based on information to be stored in metadata associated with the plurality of audio objects. The method further comprises assigning a given number of clusters to categories and locating an audio object in each of the categories for at least one of the clusters in accordance with the assignment. Embodiments of the invention in this respect further comprise an appropriate computer program product.

[0011] В другом аспекте, примеры вариантов выполнения изобретения предоставляют систему для кластеризации аудиообъекта с сохранением метаданных. Система содержит модуль классификации аудиообъектов, выполненный с возможностью классификации множества аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных со множеством аудиообъектов. Система дополнительно содержит модуль назначения кластеров, выполненный с возможностью назначения заданного количества кластеров категориям, и модуль размещения аудиообъекта, выполненный с возможностью размещения аудиообъекта в каждой из категорий для по меньшей мере одного из кластеров в соответствии с назначением. [0011] In another aspect, exemplary embodiments of the invention provide a system for clustering an audio object while preserving metadata. The system comprises an audio object classification module configured to classify a plurality of audio objects into a number of categories based on information to be stored in the metadata associated with the plurality of audio objects. The system further comprises a cluster assignment module, configured to assign a predetermined number of clusters to categories, and an audio object placement module, configured to place an audio object in each of the categories for at least one of the clusters in accordance with the assignment.

[0012] Из последующего описания будет очевидно, что в соответствии с описанными здесь примерами вариантов выполнения изобретения входящие аудиообъекты классифицируются в соответствующие категории в зависимости от присущей им информации, предназначенной для сохранения в метаданных так, что различные метаданные предназначаются для сохранения, или уникальная комбинация метаданных предназначается для сохранения в соответствии с различными категориями. После кластеризации, для аудиообъекта в одной категории менее вероятно, что он будет микширован с аудиообъектами, связанными с отличающимися метаданными. В связи с этим, метаданные аудиообъектов могут сохраняться после кластеризации. Другие преимущества, получаемые примерами вариантов выполнения изобретения будут очевидны из последующих описаний. [0012] From the following description, it will be apparent that, in accordance with the exemplary embodiments of the invention described herein, incoming audio objects are classified into appropriate categories depending on their inherent information intended to be stored in metadata such that different metadata is intended to be stored, or a unique combination of metadata is meant to be saved according to different categories. After clustering, an audio object in the same category is less likely to be mixed with audio objects associated with different metadata. In this regard, audio object metadata can be preserved after clustering. Other advantages obtained by exemplary embodiments of the invention will be apparent from the following descriptions.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0013] Упомянутые выше и другие объекты, особенности и преимущества вариантов выполнения изобретения будут более понятны из последующего подробного описания со ссылкой на приложенные графические материалы. В графических материалах, некоторые примеры вариантов выполнения изобретения будут проиллюстрированы в качестве примера и без ограничений, причем: [0013] The above and other objects, features and advantages of embodiments of the invention will be better understood from the following detailed description with reference to the attached drawings. In the drawings, some examples of embodiments of the invention will be illustrated by way of example and without limitation, and:

[0014] на Фиг. 1 проиллюстрирована блок-схема способа кластеризации аудиообъекта с сохранением метаданных в соответствии с примерным вариантом выполнения изобретения; [0014] in FIG. 1 illustrates a flow diagram of a method for clustering an audio object while preserving metadata, in accordance with an exemplary embodiment of the invention;

[0015] на Фиг. 2 иллюстрируется схематическое изображение процесса кластеризации аудиообъекта в соответствии с примером варианта выполнения изобретения; [0015] in FIG. 2 illustrates a schematic representation of an audio object clustering process in accordance with an exemplary embodiment of the invention;

[0016] на Фиг. 3 иллюстрируется блок-схема системы кластеризации аудиообъекта с сохранением метаданных в соответствии с примером варианта выполнения изобретения; и [0016] in FIG. 3 illustrates a block diagram of a metadata-preserving audio object clustering system in accordance with an exemplary embodiment of the invention; and

[0017] на Фиг. 4 иллюстрируется блок-схема примера компьютерной системы, подходящей для выполнения вариантов изобретения. [0017] in FIG. 4 illustrates a block diagram of an example computer system suitable for carrying out embodiments of the invention.

[0018] В графических материалах, одинаковые или соответствующие символы ссылок относятся к одинаковым или соответствующим частям. [0018] In the graphics, the same or corresponding reference symbols refer to the same or corresponding parts.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯIMPLEMENTATION OF THE INVENTION

[0019] Принципы примера варианта выполнения изобретения будут теперь описаны со ссылкой на различные примеры вариантов выполнения изобретения, проиллюстрированные в графических материалах. Следует понимать, что описание этих вариантов выполнения изобретения лишь предоставляет возможность специалисту в данной области техники лучшего понимания и дополнительно реализует примеры вариантов выполнения изобретения; это никоим образом не предназначено для ограничения объема изобретения. [0019] The principles of an exemplary embodiment of the invention will now be described with reference to various exemplary embodiments of the invention illustrated in the drawings. It should be understood that the description of these embodiments of the invention only provides an opportunity for a person skilled in the art to better understand and further implement examples of embodiments of the invention; this is in no way intended to limit the scope of the invention.

[0020] Как упоминалось выше, из-за ограничения в скорости кодирования/декодирования и полосы пропускания передачи, количество аудиообъектов, используемых для создания адаптивного аудио контента, может быть уменьшено посредством кластеризации. Кроме метаданных описывающих его пространственное положение, аудиообъект обычно имеет другие метаданные описывающие его атрибуты, такие как размер, зональные маски, привязка, тип контента, и т. д., каждый из которых описывает творческий замысел о том, как аудиообъект должен обрабатываться при его воспроизведении. Однако, в некоторых предшествующих способах, после кластеризации аудиообъектов, остаются только позиционные метаданные. Хотя другие метаданные могут предварительно направляться на выход внутреннего канала, как в 7. 1. 2 или 7. 1. 4 системах, это не работает одинаково хорошо во всех системах. Если аудиообъекты испытывают понижающее микширование, например, в 5.1 или 7.1 системах, творческий контент аудиообъектов может повреждаться при воспроизведении. [0020] As mentioned above, due to limitation in encoding/decoding rate and transmission bandwidth, the number of audio objects used to create adaptive audio content can be reduced by clustering. In addition to the metadata describing its spatial position, an audio object usually has other metadata describing its attributes, such as size, zone masks, anchor, content type, etc., each of which describes the creative intent of how the audio object should be handled when it is played. . However, in some prior methods, after clustering audio objects, only positional metadata remains. Although other metadata may be pre-routed to the internal channel output, as in 7.1.2 or 7.1.4 systems, this does not work equally well in all systems. If audio objects are downmixed, such as in 5.1 or 7.1 systems, the creative content of the audio objects may be corrupted during playback.

[0021] Например, рассмотрим метаданные «зональная маска» в качестве примера, которые имеют множество режимов, и каждый режим определяет регион, в которой аудиообъект не должен воспроизводится. Одним из режимов зональной маски является режим «без боковых», описывающий маскирование боковых динамиков должны быть маскированы при воспроизведении аудиообъекта. В случае использования традиционного способа кластеризации, если аудиообъект в пространственном положении z=1 воспроизводится в системе 5.1 с метаданными «без боковых», боковые динамики могут активироваться в воспроизведении 5.1, поскольку звук, воспроизводимый потолочными динамиками, может передаваться по сторонам. Это приводит к нарушению оригинального творческого контента. Для устранения этой проблемы метаданные «зональная маска» в процессе кластеризации должны быть сохранены так, чтобы они могли быть правильно обработаны устройством воспроизведения звука. [0021] For example, consider the "zone mask" metadata as an example, which has a plurality of modes, and each mode defines a region in which an audio object should not be played. One of the zone mask modes is the "no side" mode, which describes the masking of the side speakers to be masked when playing back an audio object. In the case of using the traditional clustering method, if an audio object at z=1 is played in a 5.1 system with "no sidebar" metadata, the side speakers may be activated in 5.1 playback because the sound played by the overhead speakers may be transmitted to the sides. This leads to the violation of the original creative content. To fix this problem, the "zone mask" metadata during the clustering process must be preserved so that it can be correctly processed by the audio playback device.

[0022] В другом примере диалоговые объекты могут быть ожидаемо отделены от других объектов после кластеризации, что может обеспечивать ряд преимуществ при последующей обработке аудиообъекта. Например, при последующей обработке аудиообъекта, такой как усиление диалога, отдельные кластеры диалогового объекта могут быть легко усилены применением простого усиления/усилений. С другой стороны, может быть сложно отделить диалоговый объект, если он микширован с другими объектами в кластере. При использовании замены диалога, в каждом из языков диалог может быть полностью отделен от любого другого. По этим причинам, диалоговые объекты должны быть сохранены и распределены в отдельные кластеры в процессе кластеризации. [0022] In another example, dialog objects can be expected to be separated from other objects after clustering, which can provide a number of advantages in post-processing of the audio object. For example, when post-processing an audio object, such as amplifying a dialogue, individual clusters of the dialogue object can easily be amplified by applying simple amplification/gains. On the other hand, it can be difficult to separate a dialog object if it is mixed with other objects in the cluster. When using dialogue substitution, in each of the languages, the dialogue can be completely separated from any other. For these reasons, dialog objects must be saved and distributed into separate clusters during the clustering process.

[0023] Кроме того, аудиообъект может быть связан с метаданными, описывающими его режим воспроизведения, например, воспроизведение как полный левый/полный правый (Lt/Rt) или как стереофонический с передаточной функцией слухового аппарата человека (HRTF) при обработке в устройстве воспроизведения наушников. Эти режимы воспроизведения также ожидаемо должны быть сохранены после кластеризации для формирования наилучших результатов воспроизведения. [0023] In addition, an audio object may be associated with metadata describing its playback mode, such as playback as full left/full right (Lt/Rt) or stereo with human hearing aid transfer function (HRTF) when processed in a headphone playback device . These playback modes are also expected to be preserved after clustering to generate the best playback results.

[0024] Таким образом, для получения лучшего аудио впечатления, желательно, чтобы метаданные сохранялись при кластеризации аудиообъекта. Примеры вариантов выполнения изобретения, описанные здесь, предлагают способ и систему для сохранения метаданных при кластеризации объекта. [0024] Thus, in order to obtain a better audio experience, it is desirable that metadata be preserved when clustering an audio object. The exemplary embodiments of the invention described herein provide a method and system for storing metadata when clustering an object.

[0025] Первая ссылка выполняется на фиг. 1, которая иллюстрирует блок-схему способа 100 кластеризации аудиообъекта с сохранением метаданных в соответствии с примерами вариантов выполнения изобретения. [0025] The first reference is made in FIG. 1, which illustrates a flowchart of a method 100 for clustering an audio object while preserving metadata, in accordance with exemplary embodiments of the invention.

[0026] В S101 множество аудиообъектов классифицируется в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, которые связаны с множеством аудиообъектов. Аудиообъекты представляются в качестве входных данных, и могут существовать десятки, сотни, или иногда тысячи входных аудиообъектов. [0026] In S101, the plurality of audio objects are classified into a number of categories based on information to be stored in the metadata that is associated with the plurality of audio objects. Audio objects are provided as input, and there may be tens, hundreds, or sometimes thousands of input audio objects.

[0027] Используемая в данном описании информация, предназначенная для сохранения в метаданных, связанных с каждым аудиообъектом может отображать цель обработки при воспроизведении аудиообъекта. Информация может описывать то, как аудиообъект должен быть обработан при его воспроизведении. В некоторых вариантах выполнения изобретений информация может включать в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типе контента, или режиме воспроизведения аудиообъекта. Информация о размере может быть использована для указания пространственной области или объема, занимаемого аудиообъектом. Информация о зональной маске указывает на режим зональной маски, определяя область, в которой аудиообъект не должен воспроизводиться. Например, информация о зональной маске может указывать на режим «без боковых», «только объемный», «только фронтальный» или другой подобный режим. Информация о привязке указывает на то, должен ли или не должен аудиообъект прямо направляться ближайшему динамику. [0027] Used in this description, information intended to be stored in the metadata associated with each audio object can display the purpose of processing when playing the audio object. The information may describe how the audio object should be processed when it is played back. In some embodiments, the information may include one or more of size information, zone mask information, anchor information, content type, or playback mode of the audio object. The size information may be used to indicate the spatial area or volume occupied by the audio object. The zone mask information indicates the mode of the zone mask, defining the area in which the audio object should not be played. For example, the area mask information may indicate a no side mode, a surround only mode, a front only mode, or another similar mode. The binding information indicates whether or not the audio object should be routed directly to the nearest speaker.

[0028] Следует отметить, что описаны некоторые примеры информации, предназначенной для сохранения в метаданных, однако другая информация, содержащаяся в метаданных (такая как не ограничивающие примеры, включающие в себя пространственное положение, пространственную ширину, и подобное) может также приниматься во внимание при классификации аудиообъекта, в соответствии с предпочтением пользователя или звукорежиссера. В некоторых вариантах выполнения изобретения может приниматься во внимание вся информация в метаданных, связанных с аудиообъектом. [0028] It should be noted that some examples of information intended to be stored in metadata have been described, however, other information contained in metadata (such as non-limiting examples including spatial position, spatial width, and the like) may also be taken into account when classification of the audio object, according to the preference of the user or sound engineer. In some embodiments of the invention, all information in the metadata associated with an audio object may be taken into account.

[0029] Количество категорий может зависеть от информации в метаданных аудиообъектов и может быть больше или эквивалентно одной. В одном варианте выполнения изобретения аудиообъект без информации, предназначенной для сохранения, может быть классифицирован в одну категорию, а аудиообъект с различной информацией, предназначенной для сохранения, может быть классифицирован в другую категорию. То есть, в зависимости от различной информации, предназначенной для сохранения, соответствующие аудиообъекты классифицируются в различные категории. Альтернативно, категория может представлять уникальную комбинацию различной информации, предназначенной для сохранения в метаданных. Все другие аудиообъекты без интересующей информации могут содержаться в одной категории или множестве категорий в некоторых случаях. Объем примеров вариантов выполнения изобретения в связи с этим не ограничивается. [0029] The number of categories may depend on the information in the metadata of the audio objects and may be greater than or equivalent to one. In one embodiment of the invention, an audio object with no information to store may be classified into one category, and an audio object with different information to be stored may be classified into another category. That is, depending on the different information to be stored, the respective audio objects are classified into different categories. Alternatively, a category may represent a unique combination of different information to be stored in the metadata. All other audio objects with no information of interest may be contained in one category or multiple categories in some cases. The scope of examples of embodiments of the invention is therefore not limited.

[0030] Категории могут быть заданы ручным назначением, автоматическим назначением, или в их комбинации. Например, пользователь или звукорежиссер могут обозначить аудиообъекты, связанные с разным типом метаданных, различными признаками, а затем эти обозначенные аудиообъекты могут быть классифицированы в различные категории в соответствии с назначенными им признаками. В другом примере, информация, предназначенная для сохранения в метаданных, может определяться автоматически. Пользователь или звукорежиссер может также предварительно настраивать собственные предпочтения или ожидаемый результат, такой как отделение диалоговых объектов, отделение различных языков диалогов, и/или отделение различных режимов зональной маски. В соответствии с предварительной настройкой аудиообъекты могут быть классифицированы в различные категории. [0030] Categories can be defined by manual assignment, automatic assignment, or a combination of both. For example, a user or sound engineer may label the audio objects associated with a different type of metadata with different attributes, and then these labeled audio objects can be classified into different categories according to the attributes assigned to them. In another example, the information to be stored in the metadata may be determined automatically. The user or sound engineer may also pre-set their own preferences or expected result, such as separating dialog objects, separating different dialog languages, and/or separating different zone mask modes. According to presetting, audio objects can be classified into different categories.

[0031] Предположим, что существуют O аудиообъектов. В процессе классификации информация, предназначенная для сохранения в метаданных аудиообъектов, может быть получена из (1) введенных вручную обозначений метаданных, предоставленных в результате ввода пользователем, такими как обозначения зональной маски или привязки или типа контента или языка, и/или (2) автоматической идентификации/обозначения метаданных, не ограничиваясь такой как идентификация типа контента. Количество N возможных категорий может быть определено в соответствии с полученной информацией, каждая из которых состоит из уникальной комбинации информации, предназначенной для сохранения. После классификации, каждый аудиообъект может иметь идентификацию соответствующей категории

Figure 00000001
. [0031] Assume that there are O audio objects. During the classification process, information to be stored in audio object metadata may be derived from (1) manually entered metadata designators provided as a result of user input, such as zone mask or anchor or content type or language designations, and/or (2) automatic metadata identification/designation, not limited to such as content type identification. The number N of possible categories can be determined according to the received information, each of which consists of a unique combination of information to be stored. After classification, each audio object can have the identification of the corresponding category
Figure 00000001
.

[0032] Ссылаясь на фиг. 2, демонстрируется схематическое изображение кластеризации аудиообъекта. Как показано на фиг. 2, на основании информации, предназначенной для сохранения в метаданных, множество входных аудиообъектов классифицируются в пять категорий - от 0 до 4. Один из примеров категорий может быть таким, как приведено ниже: [0032] Referring to FIG. 2, a schematic representation of audio object clustering is shown. As shown in FIG. 2, based on the information to be stored in the metadata, a plurality of input audio objects are classified into five categories from 0 to 4. One example of the categories may be as follows:

категория 0: все аудиообъекты без информации, предназначенной для сохранения;category 0: all audio objects without information to be stored;

категория 1: музыкальные объекты без зональной маски;category 1: musical objects without zone mask;

категория 2: объекты звуковых эффектов с зональной маской «только окружение»;category 2: sound effect objects with ambience only zone mask;

категория 3: объекты диалогов на английском языке; иcategory 3: dialogue objects in English; and

категория 4: объекты диалогов на испанском языке с зональной маской «только фронт».Category 4: Spanish dialogue objects with "front only" zone mask.

[0033] Входные аудиообъекты могут содержать один или более кадров. Кадр является единицей обработки для аудио контента, и продолжительность кадра может варьироваться, а также может зависеть от настроек системы обработки звука. Поскольку аудиообъекты, предназначенные для классификации, могут отличаться для различных кадров во времени, и их метаданные также могут отличаться, значение количества категорий также может отличаться со временем. Категории, представляющие различные типы информации, предназначенной для сохранения, могут быть заданы пользователем или по умолчанию. Затем входные аудиообъекты в одном или более кадров могут классифицироваться в заданные категории на основании имеющейся информации. Категории с классифицированными аудиообъектами могут просматриваться и те, что без аудиообъектов могут быть проигнорированы при последующей обработке. Например, если отсутствует аудиообъект без информации, предназначенной для сохранения (как проиллюстрировано на Фиг. 2), соответствующая категория 0 может быть опущена. Предполагается, что количество классифицированных аудиообъектов в каждой категории может отличаться со временем. [0033] Input audio objects may contain one or more frames. A frame is a unit of processing for audio content and the duration of a frame may vary and may also depend on the settings of the audio processing system. Since the audio objects to be classified may differ for different frames over time, and their metadata may also differ, the value of the number of categories may also differ over time. Categories representing different types of information to be stored can be user defined or default. The input audio objects in one or more frames can then be classified into predetermined categories based on the available information. Categories with classified audio objects can be viewed and those without audio objects can be ignored in post-processing. For example, if there is no audio object with no information to store (as illustrated in FIG. 2), the corresponding category 0 may be omitted. It is assumed that the number of classified audio objects in each category may vary over time.

[0034] В S102 заданное количество кластеров назначается категориям. Заданное количество может быть больше одного и может зависеть от полосы пропускания, передачи и скорости кодирования/декодирования системы обработки звука. Может допускаться компромисс между полосой пропускания передачи (и/или скорости кодирования, и/или скорости декодирования) и критерием ошибки выходных аудиообъектов. Например, заданное количество может быть 11 или 16. Также могут быть определены другие значения, такие как 5, 7, или 20, и объем примеров вариантов выполнения изобретения в этом смысле не ограничивается. [0034] In S102, a predetermined number of clusters are assigned to categories. The predetermined number may be greater than one and may depend on the bandwidth, transmission, and encoding/decoding rate of the audio processing system. A trade-off between the transmission bandwidth (and/or coding rate and/or decoding rate) and the error criterion of the output audio objects may be allowed. For example, the predetermined number may be 11 or 16. Other values such as 5, 7, or 20 may also be specified, and the scope of exemplary embodiments is not limited in this sense.

[0035] В некоторых вариантах выполнения изобретения предварительно заданное количество может не изменяться в той же системе обработки. В некоторых других вариантах выполнения изобретения заданное количество может изменяться для различных обрабатываемых аудио файлов. [0035] In some embodiments of the invention, the predetermined amount may not change in the same processing system. In some other embodiments of the invention, the specified number may vary for different processed audio files.

[0036] В описанных здесь примерах вариантов выполнения изобретения аудиообъекты вначале классифицируются в категории в соответствии с метаданными в S101, так, что каждая категория может отображать различную информацию, предназначенную для сохранения, или уникальную комбинацию различной информации, предназначенной для сохранения. Затем аудиообъекты в этих категориях могут быть кластеризованы при последующей обработке. Могут существовать различные подходы к назначению/размещению заданного общего количества кластеров в категориях. В некоторых примерах вариантов выполнения изобретения, поскольку общее количество кластеров задано и не изменяется, можно, определять количество назначаемых кластеров в каждой категория до кластеризации аудиообъектов. Теперь будут рассмотрены некоторые примеры вариантов выполнения изобретения. [0036] In the exemplary embodiments of the invention described here, the audio objects are first classified into categories according to the metadata in S101, such that each category can display different information to be stored or a unique combination of different information to be stored. Audio objects in these categories can then be clustered in post-processing. There may be different approaches to assigning/placing a given total number of clusters to categories. In some exemplary embodiments of the invention, since the total number of clusters is given and does not change, it is possible to determine the number of assigned clusters in each category prior to audio object clustering. Some examples of embodiments of the invention will now be considered.

[0037] В одном примере варианта выполнения изобретения, назначение кластера может зависеть от степени важности множества аудиообъектов. В частности, предварительно заданное количество аудиообъектов из множества аудиообъектов, во-первых, может быть идентифицировано на основании степени важности каждого аудиообъекта по отношению к другим аудиообъектам, а затем может быть определено распределение заданного количества аудиообъектов среди категорий. Заданное количество кластеров соответственно назначается категориям в соответствии с распределением. [0037] In one exemplary embodiment of the invention, the assignment of a cluster may depend on the importance of a plurality of audio objects. In particular, a predetermined number of audio objects from a plurality of audio objects can firstly be identified based on the degree of importance of each audio object with respect to other audio objects, and then the distribution of the predetermined number of audio objects among the categories can be determined. The predetermined number of clusters are respectively assigned to the categories according to the distribution.

[0038] Важность каждого аудиообъекта может быть связана с одним или более типов контента, частичным уровнем громкости или уровнем мощности аудиообъекта. Аудиообъект с высокой степенью важности может восприниматься наиболее заметно среди входных аудиообъектов, например, из-за его частичной громкости или выделяющегося уровня мощности. В некоторых случаях использования, один или большее количество типов контента может рассматриваться как важный, а затем высокая степень важности может быть назначена соответствующим аудиообъектам. Например, более высокая степень важности может быть назначена объектам диалога. Следует отметить, что существует множество других путей обнаружения или определения степени важности каждого аудиообъекта. Например, степень важности некоторых аудиообъектов может быть указан пользователями. Объем примеров вариантов выполнения изобретения в связи с этим не ограничивается. [0038] The importance of each audio object may be associated with one or more content types, a partial volume level, or a power level of the audio object. An audio object with a high degree of importance may be perceived most prominently among the input audio objects, for example, due to its partial loudness or standout power level. In some use cases, one or more content types may be considered important, and then a high degree of importance may be assigned to the corresponding audio objects. For example, a higher degree of importance can be assigned to dialog objects. It should be noted that there are many other ways to detect or determine the importance of each audio object. For example, the importance of certain audio objects can be specified by users. The scope of examples of embodiments of the invention is therefore not limited.

[0039] Предположим, что заданное общее количество кластеров равно M. На первом этапе, вплоть до M выбираются аудиообъекты, наиболее важные среди входных аудиообъектов. Поскольку все входные аудиообъекты классифицируются в соответствующие категории в S101, на втором этапе, может быть определено распределение M наиболее важных аудиообъектов внутри категорий. На основании того сколько M аудиообъектов распределяется в категории, такое же количество кластеров может быть назначено категориям. [0039] Assume that the given total number of clusters is equal to M . At the first stage, up to M , the most important audio objects among the input audio objects are selected. Since all input audio objects are classified into respective categories in S101, in the second step, the distribution of M most important audio objects within the categories can be determined. Based on how many M audio objects are allocated to the categories, the same number of clusters can be assigned to the categories.

[0040] Со ссылкой на Фиг. 2, например, одиннадцать наиболее важных аудиообъектов (проиллюстрированных как круг 201) определяются из множества входных аудиообъектов (проиллюстрировано как набор кругов 201 и 202). После классификации всех входных аудиообъектов в пять категорий, то есть категории от 0 до 4, на Фиг. 2 можно увидеть, что четыре наиболее важных аудиообъектов классифицированы в категорию 0, три наиболее важных аудиообъектов классифицированы в категорию 1, один наиболее важный аудиообъект классифицирован в категорию 2, два наиболее важных аудиообъекта классифицированы в категорию 3, и один наиболее важный аудиообъект классифицирован в категорию 4. В результате получается, что 4, 3, 1, 2, и 1 кластеры, соответственно, назначаются категориям от 0 до 4, как проиллюстрировано на Фиг. 2. [0040] With reference to FIG. 2, for example, the eleven most important audio objects (illustrated as circle 201) are determined from a plurality of input audio objects (illustrated as a set of circles 201 and 202). After classifying all input audio objects into five categories, i.e. categories 0 to 4, in FIG. 2, you can see that the four most important audio objects are classified into category 0, the three most important audio objects are classified into category 1, one most important audio object is classified into category 2, the two most important audio objects are classified into category 3, and one most important audio object is classified into category 4. As a result, 4, 3, 1, 2, and 1 clusters, respectively, are assigned to categories 0 to 4, as illustrated in FIG. 2.

[0041] Следует отметить, что описанный выше пример критерия степени важности в соответствии с примером варианта выполнения изобретения, примеров вариантов выполнения изобретения может не быть таким строгим. То есть, нет необходимости, чтобы выбирались наиболее важные аудиообъекты. В некоторых вариантах выполнения изобретения, важность порогового значения может регулироваться. Среди этих аудиообъектов, чья важность выше, чем пороговое значение, заданное количество аудиообъектов может выбираться произвольно. [0041] It should be noted that the above example of the criterion of importance in accordance with the example embodiment of the invention, examples of embodiments of the invention may not be so strict. That is, it is not necessary that the most important audio objects be selected. In some embodiments of the invention, the importance of the threshold value can be adjusted. Among these audio objects whose importance is higher than the threshold value, a predetermined number of audio objects may be arbitrarily selected.

[0042] Кроме критерия степени важности назначение кластера может выполняться на основании уменьшения степени общего пространственного искажения для категорий. То есть, заданное количество кластеров может назначаться категории на основании уменьшения или даже минимизации общего пространственного искажения для категорий. [0042] In addition to the criterion of importance, the assignment of the cluster can be performed based on the reduction in the degree of overall spatial distortion for the categories. That is, a given number of clusters may be assigned to a category based on reducing or even minimizing the overall spatial distortion for the categories.

[0043] В одном примере варианта выполнения изобретения общее пространственное искажение для категорий может включать в себя взвешенную сумму отдельных пространственных искажений категорий. Вес соответствующей категории может представлять важность категории или важность связанной с категорией информации, предназначенной для сохранения. Например, категория с большей степенью важности может иметь больший вес. В другом варианте выполнения изобретения общее пространственное искажение для категорий может включать в себя максимальное пространственное искажение среди отдельных пространственных искажений категорий. Следует учитывать, что поскольку не обязательно нужно выбирать только максимальные искажения, и в некоторых вариантах выполнения изобретения, могут рассматриваться как общее пространственное искажение другие пространственные искажения среди категорий, такие как второе наибольшее пространственное искажение, третье наибольшее пространственное искажение, или подобные искажения. [0043] In one exemplary embodiment of the invention, the total spatial distortion for the categories may include a weighted sum of the individual spatial distortions of the categories. The weight of the corresponding category may represent the importance of the category or the importance of the information associated with the category to be stored. For example, a category with a higher degree of importance may carry more weight. In another embodiment of the invention, the total spatial distortion for the categories may include the maximum spatial distortion among the individual category spatial distortions. It should be appreciated that since it is not necessary to select only the maximum distortion, and in some embodiments of the invention, other spatial distortions among the categories, such as the second largest spatial distortion, the third largest spatial distortion, or similar distortions, may be considered as total spatial distortion.

[0044] Пространственное искажение для каждой категории может представляться искажением уровня аудиообъектов, относящихся к категории, и искажение уровня каждого аудиообъекта может измеряться разницей между его исходным пространственным положением и его положением после кластеризации. В общем случае кластерное положение аудиообъекта зависит от пространственного положения кластера(ов) в котором он расположен. В этом смысле пространственное искажение каждой категории связано с исходным пространственным положением каждого аудиообъекта в категории, и пространственным положением кластера(ов). Исходное пространственное положение аудиообъекта может содержаться в метаданных аудиообъекта и может, например, состоять из 3 декартовых координат (или также, например, состоять из полярных координат или цилиндрических и сферических координат, однородных координат, координат числа строк и т. п.). В одном варианте выполнения изобретения для расчета пространственного искажения в каждой категории может быть определено реконструированное пространственное положение каждого аудиообъекта в категории на основании пространственного положения кластера(ов). Затем пространственное искажение для каждой категории может рассчитываться на основании расстояния между исходным пространственным положением каждого аудиообъекта в категории и реконструированным пространственным положением аудиообъекта. Реконструированное пространственное положение аудиообъекта является пространственным положением аудиообъекта, представленным одним или большим количеством соответствующих пространственных кластеров. Один пример подхода к определению реконструированного пространственного положения будет описан ниже. [0044] The spatial distortion for each category may be represented by the level distortion of the audio objects belonging to the category, and the level distortion of each audio object may be measured by the difference between its original spatial position and its post-clustering position. In general, the cluster position of an audio object depends on the spatial position of the cluster(s) in which it is located. In this sense, the spatial distortion of each category is related to the original spatial position of each audio object in the category, and the spatial position of the cluster(s). The original spatial position of the audio object may be contained in the audio object's metadata and may, for example, consist of 3 Cartesian coordinates (or also, for example, consist of polar coordinates or cylindrical and spherical coordinates, uniform coordinates, row number coordinates, etc.). In one embodiment of the invention, to calculate the spatial distortion in each category, the reconstructed spatial position of each audio object in the category may be determined based on the spatial position of the cluster(s). The spatial distortion for each category may then be calculated based on the distance between the original spatial position of each audio object in the category and the reconstructed spatial position of the audio object. The reconstructed spatial position of the audio object is the spatial position of the audio object represented by one or more corresponding spatial clusters. One example of an approach to determining a reconstructed spatial position will be described below.

[0045] Пространственное искажение по отношению к различному количеству кластеров может вначале рассчитываться для каждой категории для получения общего пространственного искажения. Существует множество подходов для определения пространственного искажения для категории аудиообъектов. Один из подходов приводится ниже в качестве примера. Следует отметить, что могут использоваться другие существующие способы измерения пространственных искажений аудиообъектов (и, следовательно, категорий). [0045] Spatial distortion with respect to a different number of clusters may first be calculated for each category to obtain a total spatial distortion. There are many approaches for determining spatial distortion for a category of audio objects. One approach is given below as an example. It should be noted that other existing methods for measuring the spatial distortion of audio objects (and therefore categories) can be used.

[0046] Предположим, что для категории

Figure 00000002
, существует
Figure 00000003
центроидный кластер, означающий
Figure 00000004
с пространственным положением
Figure 00000005
.
Figure 00000006
может отображать пространственное искажение аудиообъекта
Figure 00000007
при его кластеризации в
Figure 00000003
центроидный кластер (предполагая в этом случае, что аудиообъекты в одной категории располагаются только в кластерах, связанных с категорией). Пространственное искажение для категории
Figure 00000002
может быть представлено как: [0046] Assume that for the category
Figure 00000002
, exists
Figure 00000003
centroid cluster meaning
Figure 00000004
with spatial position
Figure 00000005
.
Figure 00000006
can display the spatial distortion of the audio object
Figure 00000007
when clustered into
Figure 00000003
centroid cluster (assuming in this case that audio objects in the same category are located only in the clusters associated with the category). Spatial distortion for category
Figure 00000002
can be represented as:

Figure 00000008
Figure 00000008
(1)(one)

где

Figure 00000009
представляет количество аудиообъектов в категории
Figure 00000002
, и
Figure 00000010
представляет i аудиообъект в категории
Figure 00000002
. В некоторых вариантах выполнения изобретения,
Figure 00000011
может быть пространственным положением аудиообъекта с m -ой наибольшей степенью важности в категории, и пространственным положением
Figure 00000011
может быть пространственное положение этого аудиообъекта. Пространственное искажение
Figure 00000006
может быть определено расстоянием (или квадратом расстояния) между пространственным положением
Figure 00000012
каждого аудиообъекта
Figure 00000010
и реконструированным пространственным положением
Figure 00000013
аудиообъекта при кластеризации в
Figure 00000003
кластеров.where
Figure 00000009
represents the number of audio objects in the category
Figure 00000002
, and
Figure 00000010
represents the i th audio object in the category
Figure 00000002
. In some embodiments of the invention,
Figure 00000011
can be the spatial position of the m - th most important audio object in the category, and the spatial position
Figure 00000011
may be the spatial position of this audio object. Spatial distortion
Figure 00000006
can be defined by the distance (or the square of the distance) between spatial positions
Figure 00000012
each audio object
Figure 00000010
and reconstructed spatial position
Figure 00000013
audio object when clustered in
Figure 00000003
clusters.

[0047] С полученным пространственным искажением для каждой категории, в одном варианте выполнения изобретения, общее пространственное искажение для категории может быть определено как взвешенная сумма отдельных пространственных искажений категорий, как упоминалось выше. Например, общее пространственное искажение может быть определено как: [0047] With the obtained spatial distortion for each category, in one embodiment of the invention, the total spatial distortion for the category can be determined as a weighted sum of the individual spatial distortions of the categories, as mentioned above. For example, the total spatial distortion can be defined as:

Figure 00000014
Figure 00000014
(2)(2)

где N представляет количество всех категорий. Коэффициент усиления

Figure 00000015
для каждой категории может быть задан и может отображать степень важности соответствующей категории или информации, предназначенной для сохранения в метаданных, связанных с категорией.where N represents the number of all categories. Gain
Figure 00000015
for each category may be set and may indicate the degree of importance of the corresponding category or information to be stored in the metadata associated with the category.

[0048] В другом варианте выполнения изобретения, общее пространственное искажение для категорий может быть определено как максимальное пространственное искажение среди отдельных пространственных искажений категорий. Например, общее пространственное искажение может быть определено как: [0048] In another embodiment of the invention, the total spatial distortion for categories can be defined as the maximum spatial distortion among the individual category spatial distortions. For example, the total spatial distortion can be defined as:

Figure 00000016
Figure 00000016
(3)(3)

[0049] Таким образом, количество кластеров, назначенных к каждой категории,

Figure 00000003
может быть определено на основании уменьшения или минимизации общего измерения пространственного искажения, с ограничением
Figure 00000017
. То есть, общее количество назначенных кластеров эквивалентно заданному количеству M. [0049] Thus, the number of clusters assigned to each category,
Figure 00000003
can be determined based on the reduction or minimization of the overall measurement of spatial distortion, with the constraint
Figure 00000017
. That is, the total number of assigned clusters is equivalent to the given number M .

[0050] Обычно входные аудиообъекты находятся в одном кадре аудиосигнала. Из-за типического динамического характера аудиосигнала и в связи с тем, что количество аудиообъектов изменяется в каждой категории, количество кластеров присваиваемых к каждой категории может обычно изменяться со временем. Поскольку измененное количество кластеров для каждой категории может вызывать некоторые проблемы со стабильностью, в показателе стоимости используется измененное пространственное искажение с учетом согласованности числа кластеров. Следовательно, показатель стоимости может быть определяется в зависимости от времени. В частности, пространственное искажение для каждой категории дополнительно основывается на разнице между количеством кластеров, назначенных категории в конкретном кадре, и количеством кластеров, назначенных категории в предшествующем кадре. В связи с этим, общее пространственное искажение в выражении (2) может быть изменено следующим образом: [0050] Typically, the input audio objects are in one frame of the audio signal. Due to the typical dynamic nature of an audio signal, and because the number of audio objects varies in each category, the number of clusters assigned to each category can typically change over time. Since the changed number of clusters for each category may cause some stability issues, the cost measure uses a modified spatial distortion to take into account the consistency of the number of clusters. Therefore, the value indicator can be determined as a function of time. In particular, the spatial distortion for each category is further based on the difference between the number of clusters assigned to the category in a particular frame and the number of clusters assigned to the category in the previous frame. In this regard, the total spatial distortion in expression (2) can be changed as follows:

Figure 00000018
Figure 00000018
(4)(four)

[0051] Общее пространственное искажение в выражении (3) может быть изменено как: [0051] The total spatial distortion in expression (3) can be changed as:

Figure 00000019
Figure 00000019
(5)(5)

[0052] В выражениях (4) и (5),

Figure 00000020
представляет количество кластеров категории
Figure 00000002
в текущем кадре,
Figure 00000021
представляет количество кластеров категории n в предшествующем кадре, и
Figure 00000022
представляет измененное общее пространственное искажение. [0052] In expressions (4) and (5),
Figure 00000020
represents the number of category clusters
Figure 00000002
in the current frame
Figure 00000021
represents the number of category n clusters in the previous frame, and
Figure 00000022
represents the modified overall spatial distortion.

[0053] Если количество кластеров, назначенных категории, изменяется в текущем кадре, в сравнении с предшествующим пространственным искажением, модифицированное пространственное искажение может быть усилено для предотвращения изменения количества кластеров. В одном варианте выполнения изобретения

Figure 00000022
может быть определено следующим образом: [0053] If the number of clusters assigned to a category changes in the current frame compared to the previous spatial distortion, the modified spatial distortion may be enhanced to prevent the number of clusters from changing. In one embodiment of the invention
Figure 00000022
can be defined like this:

Figure 00000023
Figure 00000023
(6)(6)

Figure 00000024
представляет параметр с положительным значением. При изменении пространственного искажения появляется потери при изменении количества кластеров для каждой категории. Таким образом, пространственная нестабильность, вносимая изменением количества кластеров, может быть смягчена.
Figure 00000024
represents a parameter with a positive value. When changing the spatial distortion, there is a loss when changing the number of clusters for each category. Thus, the spatial instability introduced by changing the number of clusters can be mitigated.

[0054] Поскольку уменьшение количества кластеров в категории скорее приводит к внесению пространственной нестабильности, чем увеличение количества кластеров, в другом варианте выполнения изобретения,

Figure 00000022
может быть определено как: [0054] Since reducing the number of clusters in a category tends to introduce spatial instability rather than increasing the number of clusters, in another embodiment of the invention,
Figure 00000022
can be defined as:

Figure 00000025
Figure 00000025
(7)(7)

где

Figure 00000026
является параметром со значением больше чем 1. В этом варианте выполнения изобретения существуют большие потери из-за уменьшения количества кластеров, особенно если пространственное искажение категории с уменьшенным количеством кластеров велико. Таким образом пространственная нестабильность, вносимая уменьшением количества кластеров, может быть уменьшена.where
Figure 00000026
is a parameter with a value greater than 1. In this embodiment, there is a large loss due to the reduction in the number of clusters, especially if the spatial distortion of the category with the reduced number of clusters is large. Thus, the spatial instability introduced by reducing the number of clusters can be reduced.

[0055] В приведенном выше описании по отношению к назначению кластера на основании уменьшения степени общего пространственного искажения, в определение оптимального количества кластеров для каждой категории может быть вовлечено большое количество вычислительных ресурсов. Для эффективного определения количества кластеров для каждой категории, в одном варианте выполнения изобретения, предлагается использовать процесс итерации. То есть, оптимальное количество кластеров каждой категории вычисляется посредством максимизации уменьшения стоимости в каждой итерации процесса назначения кластеров, так, что общее пространственное искажение для категорий может быть итерационно уменьшено или даже минимизировано. [0055] In the above description, with respect to assigning a cluster based on reducing the degree of overall spatial distortion, a large amount of computing resources may be involved in determining the optimal number of clusters for each category. To efficiently determine the number of clusters for each category, in one embodiment of the invention, it is proposed to use an iteration process. That is, the optimal number of clusters of each category is calculated by maximizing the cost reduction in each iteration of the cluster assignment process, such that the overall spatial distortion for the categories can be iteratively reduced or even minimized.

[0056] При итерации от 1 до заданного количества кластеров M, в каждой итерации, один или более кластеров назначаются категории, которая наиболее в них нуждается. Отметим

Figure 00000027
и
Figure 00000028
как общее пространственное искажение в (m-1) ой и m ой итерации. В m ой итерации, один или большее количество новых кластеров может быть назначено к категории
Figure 00000029
, что может больше всего уменьшить общее пространственное искажение. Следовательно,
Figure 00000029
может быть определен путем увеличения или максимизации степени общего пространственного искажения, которое может быть описано как: [0056] When iterating from 1 to a given number of clusters M , in each iteration, one or more clusters are assigned to the category that most needs them. Note
Figure 00000027
and
Figure 00000028
as the total spatial distortion in the (m-1) th and m th iteration. In the m th iteration, one or more new clusters can be assigned to the category
Figure 00000029
, which can most reduce the overall spatial distortion. Consequently,
Figure 00000029
can be determined by increasing or maximizing the degree of total spatial distortion, which can be described as:

Figure 00000030
Figure 00000030
(8)(eight)

[0057] Процесс итерации может основываться по меньшей мере на одной из разниц между пространственным искажением для категории в текущей итерации и в предшествующей итерации или величиной пространственного искажения для категории в предшествующей итерации. [0057] The iteration process may be based on at least one of the differences between the spatial distortion for a category in the current iteration and in the previous iteration, or the amount of spatial distortion for the category in the previous iteration.

[0058] Для общего пространственного искажения, получаемого взвешенной суммой всех пространственных искажений категорий, процесс итерации может основываться на разнице между пространственным искажением для категории в текущей итерации и в предшествующей итерации. В каждой итерации по меньшей мере один кластер может быть назначен категории, для которой ее пространственное искажение в текущей итерации стало существенно ниже (в соответствии с первым заданным уровнем), чем ее пространственное искажение в предшествующий итерации, если категории назначен по меньшей мере один кластер. В одном из вариантов выполнения изобретения, по меньшей мере один кластер может быть назначен категории имеющей наименьшее пространственное искажение, если категории назначен по меньшей мере один кластер. Например, в этом варианте выполнения изобретения,

Figure 00000029
может быть определен как: [0058] For the total spatial distortion, obtained by the weighted sum of all category spatial distortions, the iteration process may be based on the difference between the spatial distortion for the category in the current iteration and in the previous iteration. In each iteration, at least one cluster may be assigned to a category for which its spatial distortion in the current iteration has become significantly lower (according to the first given level) than its spatial distortion in the previous iteration, if at least one cluster is assigned to the category. In one embodiment of the invention, at least one cluster may be assigned to a category having the least spatial distortion if at least one cluster is assigned to the category. For example, in this embodiment of the invention,
Figure 00000029
can be defined as:

Figure 00000031
Figure 00000031
(9)(9)

где

Figure 00000032
и
Figure 00000033
являются количеством кластеров и пространственным искажением для категории
Figure 00000029
после (m-1)ой итерации.
Figure 00000034
представляя количество кластеров категории
Figure 00000029
в m ой итерации, если в этой итерации один новый кластер назначен/добавлен к категории
Figure 00000029
, и
Figure 00000035
является пространственным искажением для категории
Figure 00000029
в m ой итерации. Следует отметить, что, в каждой итерации, может быть назначен более чем один новый кластер, и категория
Figure 00000029
может быть определена подобным образом.where
Figure 00000032
and
Figure 00000033
are the number of clusters and the spatial distortion for the category
Figure 00000029
after (m-1) th iteration.
Figure 00000034
representing the number of category clusters
Figure 00000029
in the m th iteration, if in this iteration one new cluster is assigned/added to the category
Figure 00000029
, and
Figure 00000035
is the spatial distortion for the category
Figure 00000029
in the m th iteration. It should be noted that, in each iteration, more than one new cluster may be assigned, and the category
Figure 00000029
can be defined in a similar way.

[0059] Для общего пространственного искажения, определяемого как максимальное пространственное искажение среди всех категорий, процесс итерации может основываться на величине пространственного искажения для категории в предшествующих итерациях. В каждой итерации, по меньшей мере один кластер может быть назначен категории, имеющей пространственное искажение более высокое, чем второй заданный уровень в предшествующей итерации. В одном варианте выполнения изобретения, по меньшей мере один кластер может быть назначен категории, имеющей наиболее высокое пространственное искажение в предшествующей итерации. Например, в этом варианте выполнения изобретения,

Figure 00000029
может быть определен как: [0059] For total spatial distortion, defined as the maximum spatial distortion among all categories, the iteration process may be based on the amount of spatial distortion for the category in previous iterations. In each iteration, at least one cluster may be assigned to a category having a spatial distortion higher than the second given level in the previous iteration. In one embodiment of the invention, at least one cluster may be assigned to the category having the highest spatial distortion in the previous iteration. For example, in this embodiment of the invention,
Figure 00000029
can be defined as:

Figure 00000036
Figure 00000036
(10)(ten)

[0060] Поскольку категория с наиболее высоким пространственным искажением в предшествующей итерации может иметь уменьшенное пространственное искажение в текущей итерации (если ей назначен один или большее количество кластеров в текущей итерации), общее пространственное искажение, которое определяется наибольшим пространственным искажением среди всех категорий, может также уменьшаться в текущей итерации. [0060] Since the category with the highest spatial distortion in the previous iteration may have reduced spatial distortion in the current iteration (if it is assigned one or more clusters in the current iteration), the overall spatial distortion, which is determined by the largest spatial distortion among all categories, may also decrease in the current iteration.

[0061] Следует отметить, что определение, описанное в выражениях (9) и 10) может быть совместно использовано в одном процессе итерации. Например, в одной итерации, выражение (9) может использоваться для назначения нового кластера(ов) в этой итерации. В другой итерации, выражение (10) может использоваться для назначения другого нового кластера(ов). [0061] It should be noted that the definition described in expressions (9) and 10) can be shared in one iteration process. For example, in one iteration, expression (9) can be used to assign a new cluster(s) in that iteration. In another iteration, expression (10) may be used to assign another new cluster(s).

[0062] Два способа назначения кластера были описаны выше, один на основании степени важности аудиообъектов, а другой - на основании уменьшения степени общего пространственного искажения. Дополнительно или альтернативно, данные, вводимые пользователем, могут также использоваться для управления назначением кластеров. Поскольку пользователи могут иметь различные требования к разному контенту для разных случаев использования, это может в значительной степени улучшить гибкость процесса кластеризации. В некоторых вариантах выполнения изобретения, назначение кластера может дополнительно основываться на одном или более из следующего: первом пороговом значении для некоторого количества кластеров, предназначенных для назначения каждой категории, втором пороговом значении для пространственного искажения для каждой категории, или степени важности каждой категории по отношению к другим категориям. [0062] Two methods for assigning a cluster have been described above, one based on the degree of importance of audio objects, and the other based on reducing the degree of overall spatial distortion. Additionally or alternatively, user input may also be used to control the assignment of clusters. Since users may have different requirements for different content for different use cases, this can greatly improve the flexibility of the clustering process. In some embodiments of the invention, the cluster assignment may further be based on one or more of the following: a first threshold for a number of clusters to assign each category, a second threshold for spatial distortion for each category, or the degree of importance of each category with respect to other categories.

[0063] Первое пороговое значение может быть задано для некоторого количества кластеров, предназначенных для назначения каждой категории. Первое пороговое значение может быть заданным минимальным или максимальным количеством кластеров для каждой категории. Например, пользователь может указать, что одна категория должна иметь определенное минимальное количество кластеров. В этом случае во время процесса назначения, по меньшей мере указанное количество кластеров должно быть назначено категории. В случае, когда установлено максимальное пороговое значение, максимальное, указанное количество кластеров может быть назначено категории. Второе пороговое значение может быть установлено для уменьшения пространственного искажения для категории до разумного уровня. Степень важности каждой категории также может быть указана пользователем, или может быть определена на основании степени важности аудиообъектов, классифицированных в категории. [0063] The first threshold may be set for a number of clusters to be assigned to each category. The first threshold may be a predetermined minimum or maximum number of clusters for each category. For example, the user can specify that one category must have a certain minimum number of clusters. In this case, during the assignment process, at least the specified number of clusters must be assigned to the category. In the case where a maximum threshold is set, a maximum specified number of clusters can be assigned to a category. A second threshold may be set to reduce the spatial distortion for the category to a reasonable level. The degree of importance of each category may also be specified by the user, or may be determined based on the degree of importance of the audio objects classified in the category.

[0064] В некоторых случаях, пространственное искажение для категории может быть высоким после выполнения назначения кластера, что может вносить ощутимые эффекты. Для устранения этой проблемы в некоторых вариантах выполнения изобретения, по меньшей мере один аудиообъект в категории может быть переклассифицирован в другую категорию на основании пространственного искажения для категории. В примере варианта выполнения изобретения, если пространственное искажение одной категории больше, чем заданное пороговое значение, некоторые аудиообъекты в этой категории могут быть переклассифицированы в другую категорию, пока пространственное искажение не уменьшится до (или станет равно) порогового значения. В некоторых примерах, аудиообъекты могут быть переклассифицированы в категорию, содержащую аудиообъекты без информации, предназначенной для сохранения в метаданных, такой как категория 0, проиллюстрированная на Фиг. 2. В некоторых вариантах выполнения изобретения, в которых назначение кластера основывается на минимизации общего пространственного искажения в итерационном процессе, изменение размещения объекта также может быть итерационным процессом, при котором аудиообъект, имеющий наибольшее пространственное искажение

Figure 00000006
в каждой итерации может переклассифицироваться до тех пор, пока критерий пространственного искажения для категории станет удовлетворительным. [0064] In some cases, the spatial distortion for a category may be high after performing a cluster assignment, which may introduce noticeable effects. To overcome this problem, in some embodiments of the invention, at least one audio object in a category may be reclassified to another category based on the spatial distortion for the category. In an exemplary embodiment of the invention, if the spatial distortion of one category is greater than a predetermined threshold, some audio objects in that category may be reclassified to another category until the spatial distortion decreases to (or equals) the threshold. In some examples, audio objects may be reclassified to a category containing audio objects with no information to store in metadata, such as category 0 illustrated in FIG. 2. In some embodiments of the invention, in which the assignment of the cluster is based on minimizing the overall spatial distortion in an iterative process, changing the placement of the object can also be an iterative process, in which the audio object having the most spatial distortion
Figure 00000006
may be reclassified in each iteration until the spatial distortion criterion for the category is satisfied.

[0065] Благодаря типичной динамической природе аудиосигналов важность или пространственное положение (и соответственно пространственное искажение) аудиообъектов изменяются со временем. Следовательно, назначение кластера может изменяться со временем, и затем может постепенно изменяться количество кластеров расположенных в каждой категории. В этом смысле идентификация категории, связанной с кластером m, может со временем изменяться. В частности кластер m может представлять определенный язык (например, испанский) во время первого кадра, в то время как он может изменить идентификацию категории и следовательно язык для второго кадра (например, английский). Это, в отличие от наследственности канальных систем, в которых языки статично объединяются в каналы, динамически практически не изменяемые. [0065] Due to the typical dynamic nature of audio signals, the importance or spatial position (and thus spatial distortion) of audio objects change over time. Therefore, the purpose of the cluster may change over time, and then the number of clusters located in each category may gradually change. In this sense, the identification of the category associated with the cluster m may change over time. In particular, the cluster m may represent a specific language (eg, Spanish) during the first frame, while it may change the category identification and hence the language for the second frame (eg, English). This is in contrast to the heredity of channel systems, in which languages are statically combined into channels that are practically unchanged dynamically.

[0066] Назначение кластера в S102 описано выше. [0066] The assignment of the cluster in S102 is described above.

[0067] Обратимся снова к фиг. 1, в S103, аудиообъект в каждой из категорий размещен в по меньшей мере один из кластеров в соответствии с назначением. [0067] Referring again to FIG. 1, in S103, the audio object in each of the categories is placed in at least one of the clusters according to the assignment.

[0068] В последующем описании, представлены два способа кластеризации аудиообъектов после классифицирования аудиообъектов в категории в S101 и назначения кластеров каждой из категорий в S102. [0068] In the following description, two methods for clustering audio objects after classifying audio objects into categories in S101 and assigning clusters to each of the categories in S102 are presented.

[0069] В одном из вариантов аудиообъект в каждой категории может размещаться по меньшей мере в один из кластеров, назначенных одной или большему количеству категорий на основании уменьшения стоимости искажения, связанной с категориями. То есть, из-за ограничения количества кластеров, назначаемых каждой категории, допускается некоторая утечка сквозь кластеры и категории для уменьшения стоимости искажения и исключения заметных эффектов для сложного аудио контента. Этот подход может упоминаться как нечеткая кластеризация категорий. В таком подходе нечеткой кластеризации категорий, аудиообъект может мягко разбиваться с усилением на различные кластеры в различные категории и с соответствующей стоимостью. Во время процесса кластеризации, стоимость искажения ожидается минимальной по отношению к общему пространственному искажению также как и недостатки или несовпадения размещения объекта в категории в кластер другой категории. Следовательно, существует компромисс между кластерным ресурсом и сложностью аудио контента. Подход с нечеткой кластеризацией категорий может подходить для аудиообъектов с такими метаданными, как зональная маска и привязка, поскольку для них не существует строгого требования о разделении с другими метаданными. Подход с нечеткой кластеризацией категорий может быть описан следующим образом. [0069] In one embodiment, an audio object in each category may be placed in at least one of the clusters assigned to one or more categories based on the reduction in distortion cost associated with the categories. That is, by limiting the number of clusters assigned to each category, some leakage is allowed through the clusters and categories to reduce the cost of distortion and eliminate noticeable effects for complex audio content. This approach may be referred to as fuzzy category clustering. In such a category fuzzy clustering approach, an audio object can be softly boosted into different clusters into different categories and at a corresponding cost. During the clustering process, the cost of distortion is expected to be minimal in relation to the overall spatial distortion as well as the disadvantages or mismatches of placing an object in a category into a cluster of another category. Therefore, there is a trade-off between the cluster resource and the complexity of the audio content. The fuzzy category clustering approach may be appropriate for audio objects with metadata such as zone mask and anchor, since there is no strict requirement for them to be separated from other metadata. The fuzzy category clustering approach can be described as follows.

[0070] В подходе с нечеткой кластеризацией категорий, количество кластеров, назначаемых каждой категории, может определяться в S102 на основании степени важности аудиообъекта или на основании минимизации общего пространственного искажения. Для назначения кластера на основе степени важности, могут быть некоторые категории без назначенных кластеров. В таких случаях, подход с нечеткой кластеризацией категорий может применяться при кластеризации аудиообъектов, поскольку объект может быть мягко кластеризирован в кластер/кластеры других категорий. Следует отметить, что между подходами, применяемыми на этапе назначения кластера, и подходами, применяемыми на этапе кластеризации аудиообъекта, корреляции может не существовать. [0070] In the category fuzzy clustering approach, the number of clusters assigned to each category may be determined in S102 based on the importance of the audio object or based on minimizing overall spatial distortion. To assign a cluster based on importance, there may be some categories without clusters assigned. In such cases, the fuzzy category clustering approach can be applied to audio object clustering since the object can be soft clustered into other category cluster(s). It should be noted that there may not be a correlation between the approaches used in the cluster assignment step and the approaches used in the audio object clustering step.

[0071] В подходе с нечеткой кластеризацией категорий, стоимость искажения может представляться как функция стоимости, связанная с одним или более из: (1) исходным пространственного положения каждого аудиообъекта

Figure 00000037
, (2) идентификации категории
Figure 00000038
, в которой классифицирован каждый аудиообъект, (3) пространственного положения каждого кластера
Figure 00000039
, или более конкретно, пространственного положения кластера(ов) в которых аудиообъект будет расположен, или (4) идентификации категории
Figure 00000040
, связанной с каждым кластером. В одном примере, кластеризированый аудиообъект кластера может определяться всеми входными аудиообъектами, распределенными в нем с использованием усиления
Figure 00000041
, что может быть представлено как: [0071] In the category fuzzy clustering approach, the cost of distortion can be represented as a function of the cost associated with one or more of: (1) the original spatial position of each audio object
Figure 00000037
, (2) category identification
Figure 00000038
, in which each audio object is classified, (3) the spatial position of each cluster
Figure 00000039
, or more specifically, the spatial position of the cluster(s) in which the audio object will be located, or (4) identifying the category
Figure 00000040
associated with each cluster. In one example, a clustered audio object of a cluster may be defined by all input audio objects distributed therein using gain
Figure 00000041
, which can be represented as:

Figure 00000042
Figure 00000042
(11)(eleven)

где O является количеством входящих аудиообъектов,

Figure 00000043
является кластеризированым аудиообъектом m ого кластера,
Figure 00000044
является o ым входным аудиообъектом, и усиление
Figure 00000045
может быть представлено
Figure 00000046
. Например, как показано на Фиг. 2, аудиообъект в категории 1 может быть кластеризирован во все одиннадцать кластеров с соответствующими коэффициентами усиления, вне зависимости от категорий в которые присваиваются кластеры.where O is the number of incoming audio objects,
Figure 00000043
is the clustered audio object of the m th cluster,
Figure 00000044
is the o th input audio object, and the gain
Figure 00000045
can be presented
Figure 00000046
. For example, as shown in FIG. 2, an audio object in category 1 may be clustered into all eleven clusters with appropriate gains, regardless of the categories to which the clusters are assigned.

[0072] В некоторых вариантах выполнения изобретения коэффициент усиления

Figure 00000045
может быть определен посредством минимизации функции стоимости, связанной с одним или более
Figure 00000037
,
Figure 00000038
,
Figure 00000039
или
Figure 00000040
. Функция стоимости может основываться на расстоянии между исходным пространственным положением
Figure 00000037
каждого аудиообъекта и пространственным положением кластера
Figure 00000039
, в котором размещается аудиообъект.
Figure 00000039
, Как описано выше, может быть определено пространственное положение аудиообъекта с наибольшей важностью в m ой категории. Например, желательно, чтобы расстояние между
Figure 00000037
и
Figure 00000039
было как можно меньше. В качестве альтернативы или дополнения, функция стоимости может также быть связана с несовпадением между идентификацией категории
Figure 00000038
в который классифицирован каждый аудиообъект и идентификацией категории
Figure 00000040
связанный с кластером, в котором размещен аудиообъект. В общем, желательно кластеризировать аудиообъект в ту же категорию, и затем стоимость может быть уменьшена. [0072] In some embodiments of the invention, the gain
Figure 00000045
can be determined by minimizing the cost function associated with one or more
Figure 00000037
,
Figure 00000038
,
Figure 00000039
or
Figure 00000040
. The cost function can be based on the distance between the original spatial position
Figure 00000037
each audio object and the spatial position of the cluster
Figure 00000039
The that hosts the audio object.
Figure 00000039
As described above, the spatial position of the most important audio object in the m th category can be determined. For example, it is desirable that the distance between
Figure 00000037
and
Figure 00000039
was as small as possible. Alternatively or in addition, the cost function can also be related to the mismatch between category identification
Figure 00000038
into which each audio object is classified and the category identification
Figure 00000040
associated with the cluster hosting the audio object. In general, it is desirable to cluster an audio object into the same category, and then the cost can be reduced.

[0073] В некоторых вариантах выполнения изобретения функция стоимости может быть представлена как совокупность вкладов, используя полиномы второго порядка в

Figure 00000037
,
Figure 00000038
,
Figure 00000039
и
Figure 00000040
, и затем общее минимальное значение может быть определено, исходя из функции стоимости, как коэффициент усиления
Figure 00000045
. Подробное описание может быть представлено в порядке, изложенном ниже. [0073] In some embodiments of the invention, the cost function can be represented as a set of contributions using second-order polynomials in
Figure 00000037
,
Figure 00000038
,
Figure 00000039
and
Figure 00000040
, and then the overall minimum value can be determined from the cost function as the gain
Figure 00000045
. A detailed description may be presented in the order set forth below.

[0074] Функция стоимости может быть сведена к минимуму с учетом некоторого дополнительного критерия. При распределении аудиосигналов одним из критериев может быть сохранение суммированной амплитуды или энергии входного аудиообъекта, например, [0074] The cost function can be minimized subject to some additional criterion. When distributing audio signals, one of the criteria may be to preserve the summed amplitude or energy of the input audio object, for example,

Figure 00000047
Figure 00000047
(12)(12)

где

Figure 00000048
может быть значением, находящимся между 1 и 2. Для любого аудиообъекта o коэффициент усиления
Figure 00000045
, соответствующий всем M кластерам, может подчиняться приведенному выше выражению.where
Figure 00000048
can be a value between 1 and 2. For any audio object, o is the gain
Figure 00000045
, corresponding to all M clusters, can obey the above expression.

[0075] Далее будет рассмотрена функция стоимости E. Путем минимизации функции стоимости можно определить коэффициент усиления

Figure 00000045
. [0075] Next, the cost function E will be discussed. By minimizing the cost function, one can determine the gain
Figure 00000045
.

[0076] Функция стоимости, как упомянуто выше, может быть связана с расстоянием между

Figure 00000037
и
Figure 00000039
, которое можно рассматривать как первый член
Figure 00000049
в функции стоимости и может быть определена как: [0076] The cost function, as mentioned above, can be related to the distance between
Figure 00000037
and
Figure 00000039
, which can be considered as the first term
Figure 00000049
in the cost function and can be defined as:

Figure 00000050
Figure 00000050
(13)(13)

[0077] Функция стоимости также может быть связана с несоответствием между

Figure 00000038
и
Figure 00000040
, которое может рассматриваться как второе слагаемое
Figure 00000051
в функции стоимости.
Figure 00000051
Можно представить стоимость кластеризации аудиообъекта через кластер в другой категории, и она может быть определена как: [0077] The cost function can also be related to the mismatch between
Figure 00000038
and
Figure 00000040
, which can be considered as the second term
Figure 00000051
in a cost function.
Figure 00000051
One can represent the cost of clustering an audio object through a cluster in another category, and it can be defined as:

Figure 00000052
Figure 00000052
(14)(fourteen)

где

Figure 00000053
можно определить как:where
Figure 00000053
can be defined as:

Figure 00000054
Figure 00000054
(15)(fifteen)

[0078] Как упоминалось выше, при минимизации функции стоимости одним критерием является сохранение суммарной амплитуды или энергии входного аудиообъекта. Следовательно, функция стоимости также может быть связана с приростом или потерей энергии; То есть отклонение от суммы коэффициентов усиления для конкретного аудиообъекта и +1. Отклонение можно рассматривать как третий член

Figure 00000055
в функции стоимости, который может быть определен как: [0078] As mentioned above, when minimizing the cost function, one criterion is to preserve the total amplitude or energy of the input audio object. Therefore, the cost function can also be related to energy gain or loss; That is, the deviation from the sum of the gains for a particular audio object and +1. Deviation can be considered as the third term
Figure 00000055
in the cost function, which can be defined as:

Figure 00000056
Figure 00000056
(16)(16)

[0079] Кроме того, функция стоимости может основываться на расстоянии между исходным пространственным положением каждого аудиообъекта

Figure 00000037
и реконструированным пространственным положением аудиообъекта
Figure 00000057
. Реконструированное пространственное положение
Figure 00000057
может быть определено в соответствии с пространственным положением кластера
Figure 00000039
, к которому аудио-объект кластеризуется с коэффициентом усиления
Figure 00000045
. Например,
Figure 00000057
может быть определено следующим образом: [0079] In addition, the cost function may be based on the distance between the original spatial position of each audio object
Figure 00000037
and the reconstructed spatial position of the audio object
Figure 00000057
. Reconstructed attitude
Figure 00000057
can be determined according to the spatial position of the cluster
Figure 00000039
, to which the audio object is clustered with gain
Figure 00000045
. For example,
Figure 00000057
can be defined like this:

Figure 00000058
Figure 00000058
(17)(17)

[0080] Расстояние между

Figure 00000037
и
Figure 00000057
можно рассматривать как четвертый член
Figure 00000059
в функции стоимости и может быть представлено следующим образом: [0080] The distance between
Figure 00000037
and
Figure 00000057
can be considered as the fourth member
Figure 00000059
in the cost function and can be represented as follows:

Figure 00000060
Figure 00000060
(18)(eighteen)

[0081] Согласно первому, второму, третьему и четвертому терминам, функция стоимости может быть представлена как взвешенная сумма этих условий и может быть представлена ниже: [0081] According to the first, second, third and fourth terms, the cost function can be represented as a weighted sum of these terms and can be represented below:

Figure 00000061
Figure 00000061
(19)(19)

где веса

Figure 00000062
,
Figure 00000063
,
Figure 00000064
и
Figure 00000065
могут представлять степень важности разных членов в функции стоимости.where the weights
Figure 00000062
,
Figure 00000063
,
Figure 00000064
and
Figure 00000065
can represent the degree of importance of different terms in the cost function.

[0082] На основании четырех членов функции стоимости можно определить коэффициент усиления

Figure 00000045
. Ниже приведен пример расчета коэффициента усиления
Figure 00000045
. Следует отметить, что возможны и другие методы расчета. [0082] Based on the four terms of the cost function, the gain can be determined
Figure 00000045
. Below is an example of calculating the gain
Figure 00000045
. It should be noted that other calculation methods are also possible.

[0083] Коэффициент усиления

Figure 00000045
o го аудиообъекта для кластеров M может быть записан как вектор: [0083] Gain
Figure 00000045
o th audio object for clusters M can be written as a vector:

Figure 00000066
Figure 00000066
(20)(twenty)

[0084] Пространственные положения кластеров M могут быть записаны в виде матрицы: [0084] The spatial positions of the clusters M can be written as a matrix:

Figure 00000067
Figure 00000067
(21)(21)

[0085] Матрица для исходных пространственных положений аудиообъекта также может быть построена как: [0085] The matrix for the original spatial positions of the audio object can also be built as:

Figure 00000068
Figure 00000068
(22)(22)

[0086] Первый член

Figure 00000069
, представляющий расстояние между исходным пространственным положением и восстановленным пространственным положением аудиообъекта, может быть переформулирован следующим образом: [0086] First Member
Figure 00000069
, representing the distance between the original spatial position and the reconstructed spatial position of the audio object, can be reformulated as follows:

Figure 00000070
Figure 00000070
(23)(23)

где

Figure 00000071
представляет собой диагональную матрицу с диагональными элементами
Figure 00000072
.where
Figure 00000071
is a diagonal matrix with diagonal entries
Figure 00000072
.

[0087] Второй термин

Figure 00000073
, представляющий несоответствие между
Figure 00000074
и
Figure 00000075
аудиообъекта, может быть переформулирован следующим образом: [0087] Second term
Figure 00000073
, representing the discrepancy between
Figure 00000074
and
Figure 00000075
audio object, can be reformulated as follows:

Figure 00000076
Figure 00000076
(24)(24)

где

Figure 00000077
представляет собой диагональную матрицу с диагональными элементами
Figure 00000078
.where
Figure 00000077
is a diagonal matrix with diagonal entries
Figure 00000078
.

[0088] Третий член

Figure 00000079
, представляющий отклонение суммы коэффициентов усиления для аудиообъекта и +1 может быть переформулирован следующим образом: [0088] Third Member
Figure 00000079
, representing the deviation of the sum of the gains for the audio object and +1, can be reformulated as follows:

Figure 00000080
Figure 00000080
(25)(25)

где

Figure 00000081
представляет единичную матрицу с размерами (N, M).where
Figure 00000081
represents the identity matrix with dimensions ( N, M ).

[0089] Четвертый член

Figure 00000082
, представляющий расстояние между исходным пространственным положением и реконструированным пространственным положением аудиообъекта, может быть переформулирован следующим образом: [0089] Fourth Member
Figure 00000082
, representing the distance between the original spatial position and the reconstructed spatial position of the audio object, can be reformulated as follows:

Figure 00000083
Figure 00000083
(26)(26)

[0090] Объединив приведенные выше уравнения (23) - (26) вместе, функция стоимости может быть представлена следующим образом: [0090] By combining the above equations (23) - (26) together, the cost function can be represented as follows:

Figure 00000084
Figure 00000084
(27)(27)

с With

Figure 00000085
Figure 00000085
(28)(28)
Figure 00000086
Figure 00000086
(29)(29)
Figure 00000087
Figure 00000087
(30)(thirty)

[0091] Как упоминалось выше, желательно получить минимум в функции стоимости, которая может быть определена: [0091] As mentioned above, it is desirable to obtain a minimum in the cost function, which can be determined:

Figure 00000088
Figure 00000088
(31)(31)

давая:Giving:

Figure 00000089
Figure 00000089
(32)(32)

[0092] Наконец, вектор

Figure 00000090
может быть определен следующим образом: [0092] Finally, the vector
Figure 00000090
can be defined like this:

Figure 00000091
Figure 00000091
(33)(33)

[0093] Вычисляя приведенное выше уравнение, коэффициенты усиления для аудиообъекта o ого среди M могут быть определены. [0093] By calculating the above equation, the gains for audio object o th among M can be determined.

[0094] o ый аудиообъект может быть кластеризирован в кластеры M с определенным коэффициентом усиления

Figure 00000092
. Понятно, что в зависимости от определенного вектора усиления, аудиообъект может быть кластеризирован только в один кластер из одной категории, где он классифицирован или относится к другой категории, или может быть кластеризирован в несколько кластеров одной категории, в которой он классифицирован, или нескольких разных категорий. [0094] o The th audio object can be clustered into M clusters with a certain gain
Figure 00000092
. It is clear that, depending on the defined gain vector, an audio object can be clustered into only one cluster from one category where it is classified or belongs to another category, or can be clustered into several clusters of the same category in which it is classified, or several different categories. .

[0095] Реконструированное пространственное положение аудиообъекта может быть получено уравнением (17), когда определяется вектор усиления

Figure 00000092
. В этом отношении процесс определения коэффициентов усиления может также применяться в назначении кластера на основе минимизации общего пространственного искажения, как описано выше, с тем чтобы идентифицировать реконструированное пространственное положение и, следовательно, пространственное положение каждой категории. [0095] The reconstructed spatial position of the audio object can be obtained by equation (17) when the gain vector is determined
Figure 00000092
. In this regard, the gain determination process may also be applied in cluster assignment based on minimizing total spatial distortion, as described above, in order to identify the reconstructed spatial position and hence the spatial position of each category.

[0096] Следует отметить, что полином второго порядка используется в качестве примера для определения минимума функции стоимости. Многие другие экспоненциальные значения, например, 1, 1,5, 3 и т. п., могут также использоваться в других примерных вариантах выполнения изобретения. [0096] It should be noted that the second order polynomial is used as an example to determine the minimum of the cost function. Many other exponential values, such as 1, 1.5, 3, etc., may also be used in other exemplary embodiments of the invention.

[0097] Способ с нечеткой кластеризацией категорий для аудиообъектов описан выше. В другом подходе аудиообъект в каждой категории может быть назначен по меньшей мере одному из кластеров, которые назначены категории, на основе уменьшения стоимости пространственного искажения, связанного с категорией. То есть утечка по категориям не допускается. Кластеризация аудиообъектов выполняется в каждой категории, и аудиообъект не может быть сгруппирован в кластер, назначенный другой категории. Такой подход может называться кластеризацией с жестко заданными категориями. В некоторых вариантах выполнения изобретения, где применяется подобный подход, аудиообъект может быть выделен более чем одному из кластеров, назначенных категории, соответствующей аудиообъекту. В следующем варианте выполнения изобретения при кластеризации аудиообъектов утечка в кластерах не допускается, и аудиообъект может быть назначен только одному из кластеров, назначенных соответствующей категории. [0097] The fuzzy category clustering method for audio objects is described above. In another approach, an audio object in each category may be assigned to at least one of the clusters that are assigned to the category based on the reduction in the cost of the spatial distortion associated with the category. That is, leakage by category is not allowed. Clustering of audio objects is performed in each category, and an audio object cannot be clustered into a cluster assigned to another category. This approach may be referred to as hard-coded category clustering. In some embodiments of the invention where a similar approach is taken, an audio object may be allocated to more than one of the clusters assigned to the category corresponding to the audio object. In a further embodiment of the invention, when clustering audio objects, the clusters are not allowed to leak, and an audio object can only be assigned to one of the clusters assigned to the corresponding category.

[0098] Подход, с применением кластеризации с жестко заданными категориями, может быть подходящим для некоторых конкретных приложений, таких как замена диалога или улучшение диалога, которые требуют, чтобы аудиообъекты (объекты диалога) были отделены друг от друга. [0098] The hard-coded clustering approach may be suitable for some specific applications, such as dialog replacement or dialog enhancement, which require audio objects (dialog objects) to be separated from each other.

[0099] В подходе с применением кластеризации с жестко заданными категориями, поскольку аудиообъект в одной категории не может быть кластеризирован в один или несколько кластеров других категорий, ожидается, что в предшествующем назначении кластера по меньшей мере один кластер назначается каждому из категорий. Для этой цели назначение кластеров посредством минимизации общего пространственного искажения, описанного выше, может быть более подходящим в некоторых вариантах выполнения изобретения. В других вариантах выполнения изобретения также может использоваться назначение кластера на основе степени важности, в случае применения кластеризации с жестко заданными категориями. При назначении кластера могут использоваться некоторые дополнительные условия, чтобы гарантировать, что каждая категория имеет как минимум один кластер, как описано выше. Например, можно использовать минимальный порог кластера или минимальный порог пространственного искажения для каждой категории. [0099] In the hard-coded category clustering approach, since an audio object in one category cannot be clustered into one or more clusters of other categories, it is expected that in prior cluster assignment, at least one cluster is assigned to each of the categories. For this purpose, assigning clusters by minimizing the overall spatial distortion described above may be more appropriate in some embodiments of the invention. In other embodiments of the invention, the assignment of a cluster based on the degree of importance can also be used, in the case of hard-coded clustering. When assigning a cluster, some additional conditions may be used to ensure that each category has at least one cluster, as described above. For example, you can use a minimum cluster threshold or a minimum spatial distortion threshold for each category.

[00100] В пределах категории аудиообъект в одном или нескольких примерных вариантах выполнения может быть кластеризирован только в один кластер или в несколько кластеров, поскольку категория представляет один и тот же вид метаданных. Например, как проиллюстрировано на Фиг. 2, аудиообъект в категории 1 может быть кластеризирован в один или несколько кластеров 4, 5 или 6. В сценарии, в котором аудиообъект кластеризуется в несколько кластеров в пределах одной категории, можно также определить соответствующие коэффициенты усиления, чтобы уменьшить или даже минимизировать стоимость искажений, связанных с категорией (что может быть похоже на то, что описано в отношении подхода с нечеткой кластеризацией категорий). Разница заключается в том, что определение выполняется в пределах одной категории. В некоторых вариантах выполнения изобретения каждому входному аудиообъекту может быть разрешено кластеризоваться только в один кластер, назначенный его категории. [00100] Within a category, an audio object, in one or more exemplary embodiments, may be clustered into only one cluster, or multiple clusters, as long as the category represents the same kind of metadata. For example, as illustrated in FIG. 2, an audio object in category 1 may be clustered into one or more clusters 4, 5, or 6. In a scenario in which an audio object is clustered into multiple clusters within the same category, appropriate gain factors can also be determined to reduce or even minimize the cost of distortion, related to the category (which may be similar to what is described in relation to the category fuzzy clustering approach). The difference is that the definition is done within the same category. In some embodiments of the invention, each input audio object may be allowed to cluster into only one cluster assigned to its category.

[00101] Два подхода к звуковой кластеризации описаны выше. Следует отметить, что оба подхода могут использоваться отдельно или совместно. Например, после классификации аудиообъектов на этапе S101 и назначения кластера на этапе S102 для некоторых категорий может применяться подход с нечеткой кластеризацией категорий к объектам кластера в их пределах; а для остальных категорий может применяться подход с кластеризацией с жестко заданными категориями. То есть, некоторые утечки по категориям могут быть разрешены в некоторых категориях, и утечка по категориям не допускается для других категорий. [00101] Two approaches to audio clustering are described above. It should be noted that both approaches can be used separately or together. For example, after classifying audio objects in step S101 and assigning a cluster in step S102, for some categories, a category fuzzy clustering approach can be applied to cluster objects within them; and for the remaining categories, a clustering approach with hard-coded categories can be applied. That is, some category leaks may be allowed in some categories, and category leaks are not allowed for other categories.

[00102] После того, как входные аудиообъекты распределены по кластерам, для каждого кластера аудиообъекты могут быть объединены для получения кластеризированого аудиообъекта, а метаданные аудиообъектов в каждом кластере могут быть объединены для получения метаданных кластеризированого аудиообъекта. Кластеризированный аудиообъект может представлять собой взвешенную сумму всех аудиообъектов в кластере с соответствующими коэффициентами усиления. Метаданные кластеризированого аудиообъекта могут быть соответствующими метаданными, представляющими категорию в некоторых примерах, или могут быть метаданными любого аудиообъекта или наиболее важного аудиообъекта среди кластера или его категории в других примерах. [00102] After the input audio objects are clustered, for each cluster, the audio objects can be combined to obtain a clustered audio object, and the metadata of the audio objects in each cluster can be combined to obtain clustered audio object metadata. The clustered audio object may be a weighted sum of all audio objects in the cluster with their respective gain factors. The metadata of the clustered audio object may be the corresponding metadata representing a category in some examples, or may be the metadata of any audio object or the most important audio object among the cluster or its category in other examples.

[00103] Поскольку все входные аудиообъекты классифицируются в соответствующие категории в зависимости от их информации, которая должна быть сохранена в метаданных до кластеризации аудиообъектов, различные сохраненные метаданные или уникальная комбинация сохраняемых метаданных связана с различными категориями. После кластеризации для аудиообъекта в одной категории, менее вероятно, что он будет микширован с аудиообъектами, связанными с различными метаданными. В этом отношении метаданные аудиообъекта могут быть сохранены после кластеризации. Кроме того, во время распределения кластеров и процесса распределения аудиообъектов рассматривается стоимость пространственного искажения или искажения. [00103] Because all input audio objects are classified into appropriate categories depending on their information to be stored in metadata prior to audio object clustering, different stored metadata or a unique combination of stored metadata is associated with different categories. Once clustered for an audio object in one category, it is less likely to be mixed with audio objects associated with different metadata. In this regard, audio object metadata can be preserved after clustering. In addition, during the distribution of clusters and the process of distribution of audio objects, the cost of spatial distortion or distortion is considered.

[00104] На Фиг. 3 проиллюстрирована блок-схема системы 300 для кластеризации аудиообъектов с сохранением метаданных, в соответствии с одним из примеров варианта выполнения изобретения. Как проиллюстрировано на Фиг. 3, система 300 содержит модуль 301 классификации аудиообъектов, выполненный с возможностью классификации множества аудиообъектов на несколько категорий на основе информации, подлежащей сохранению в метаданных, связанных с множеством аудиообъектов. Система 300 дополнительно содержит модуль 302 назначения кластеров, выполненный с возможностью назначения заданного количества кластеров к категориям, и модуль 303 выделения аудиообъектов, выполненный с возможностью выделения аудиообъекта в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением. [00104] In Fig. 3 illustrates a block diagram of a system 300 for metadata-preserving audio object clustering, in accordance with one exemplary embodiment of the invention. As illustrated in FIG. 3, the system 300 includes an audio object classification module 301 configured to classify a plurality of audio objects into a plurality of categories based on information to be stored in metadata associated with the plurality of audio objects. The system 300 further comprises a cluster assigner 302, configured to assign a predetermined number of clusters to categories, and an audio object extractor 303, configured to allocate an audio object in each of the categories to at least one of the clusters according to the assignment.

[00105] В некоторых вариантах выполнения изобретения информация может включать в себя одно или более информации о размере, информации о маске зоны, информации привязки, типа контента или режима воспроизведения аудиообъекта. [00105] In some embodiments, the information may include one or more size information, area mask information, anchor information, content type, or playback mode of the audio object.

[00106] В некоторых вариантах выполнения изобретения модуль 301 классификации аудиообъектов может быть дополнительно предназначен для классификации аудиообъекта без сохранения информации в одну категорию; и классифицирования аудиообъекта с другой информацией, которая должна быть сохранена, в другую категорию. [00106] In some embodiments of the invention, the audio object classification module 301 may be further designed to classify an audio object without storing information into one category; and classifying the audio object with other information to be stored into a different category.

[00107] В некоторых вариантах выполнения изобретения модуль 302 назначения кластеров может дополнительно содержать: модуль определения степени важности, выполненный с возможностью определения заданного количества аудиообъектов из множества аудиообъектов на основе степени важности каждого аудиообъекта относительно других аудиообъектов; и модуль идентификации распределения, выполненный с возможностью идентификации распределения заданного количества аудиообъектов среди категорий. В этих вариантах выполнения изобретения модуль 302 назначения кластеров может быть дополнительно предназначен для назначения заданного количества кластеров категориям в соответствии с распределением. [00107] In some embodiments, the cluster assignment module 302 may further comprise: an importance determination module, configured to determine a predetermined number of audio objects from a plurality of audio objects based on the importance of each audio object relative to other audio objects; and a distribution identification module configured to identify the distribution of the predetermined number of audio objects among the categories. In these embodiments, the cluster assignment module 302 may be further configured to assign a given number of clusters to categories according to a distribution.

[00108] В некоторых вариантах выполнения изобретения модуль 302 назначения кластера может быть дополнительно предназначен для назначения заданного количества кластеров категориям на основе уменьшения степени общего пространственного искажения для категорий. [00108] In some embodiments of the invention, the cluster assignment module 302 may be further configured to assign a given number of clusters to categories based on a reduction in the amount of overall spatial distortion for the categories.

[00109] В некоторых вариантах выполнения изобретения общее пространственное искажение для категорий может включать в себя максимальное пространственное искажение отдельных пространственных искажений категорий или взвешенную сумму отдельных пространственных искажений категорий. Пространственное искажение для каждой категории может быть связано с исходным пространственным положением каждого аудиообъекта в категории и пространственным положением, по меньшей мере, одного из кластеров. [00109] In some embodiments of the invention, the total spatial distortion for categories may include the maximum spatial distortion of the individual spatial distortions of the categories, or a weighted sum of the individual spatial distortions of the categories. The spatial distortion for each category may be related to the original spatial position of each audio object in the category and the spatial position of at least one of the clusters.

[00110] В некоторых вариантах выполнения изобретения реконструированное пространственное положение каждого аудиообъекта может определяться на основе пространственного положения по меньшей мере одного кластера, а пространственное искажение для каждой категории может определяться на основе расстояния между исходным пространственным положением каждого аудиообъекта в категории и реконструированным пространственным положением аудиообъекта. [00110] In some embodiments, the reconstructed spatial position of each audio object may be determined based on the spatial position of at least one cluster, and the spatial distortion for each category may be determined based on the distance between the original spatial position of each audio object in the category and the reconstructed spatial position of the audio object.

[00111] В некоторых вариантах выполнения изобретения множество аудиообъектов может находиться в одном кадре аудиосигнала, а пространственное искажение для каждой категории может быть дополнительно основано на различии между количеством назначенных кластеров категории в текущем кадре и количеству кластеров, назначенных категории в предшествующем кадре. [00111] In some embodiments of the invention, multiple audio objects may be in one frame of the audio signal, and the spatial distortion for each category may be further based on the difference between the number of category clusters assigned in the current frame and the number of clusters assigned to the category in the previous frame.

[00112] В некоторых вариантах выполнения изобретения модуль 302 назначения кластера может быть дополнительно предназначен для итеративного уменьшения степени общего пространственного искажения для категорий на основе по крайней мере, одного из следующего: величина пространственного искажения для категории в предшествующей итерации или разница между пространственным искажением для категории в текущей итерации и в предшествующей итерации. [00112] In some embodiments, the cluster assignment module 302 may further be designed to iteratively reduce the degree of overall spatial distortion for categories based on at least one of the following: the amount of spatial distortion for the category in the previous iteration, or the difference between the spatial distortion for the category in the current iteration and in the previous iteration.

[00113] В некоторых вариантах выполнения изобретения модуль 302 назначения кластера может быть дополнительно предназначен для назначения заданного количества кластеров категориям на основе одного или более из следующего: первого порога для количества кластеров, которые должны быть назначены к каждой категории, второго порога для пространственного искажения для каждой категории или степени важности каждой категории по отношению к другим категориям. [00113] In some embodiments, the cluster assignment module 302 may be further configured to assign a given number of clusters to categories based on one or more of the following: a first threshold for the number of clusters to be assigned to each category, a second threshold for spatial distortion for each category or the degree of importance of each category in relation to other categories.

[00114] В некоторых вариантах выполнения изобретения система 300 может дополнительно содержать модуль переклассификации аудиообъекта, выполненный с возможностью переклассификации по меньшей мере одного аудиообъекта из категории в другую категорию на основе пространственного искажения для категории. [00114] In some embodiments of the invention, the system 300 may further comprise an audio object reclassification module, configured to reclassify at least one audio object from a category to another category based on the spatial distortion for the category.

[00115] В некоторых вариантах выполнения изобретения модуль 303 размещения аудиообъектов может быть дополнительно предназначен для размещения аудиообъекта в каждой категории по меньшей мере в один из кластеров, назначенных категории, на основе уменьшения стоимости искажения, связанной с категорией. [00115] In some embodiments of the invention, the audio object placement module 303 may be further configured to place an audio object in each category into at least one of the clusters assigned to the category based on the reduction in the distortion cost associated with the category.

[00116] В некоторых вариантах выполнения изобретения модуль 303 размещения аудиообъектов может быть дополнительно предназначен для распределения аудиообъекта в каждой категории по меньшей мере в один из кластеров, назначенных одной или нескольким категориям на основе уменьшения стоимости искажений, связанных с категориями. [00116] In some embodiments of the invention, the audio object allocation module 303 may be further configured to allocate an audio object in each category to at least one of the clusters assigned to one or more categories based on reducing the cost of distortion associated with the categories.

[00117] В некоторых вариантах выполнения изобретения стоимость искажения может быть связана с одним или несколькими исходными пространственными положениями каждого аудиообъекта, пространственным положением, по меньшей мере, одного кластера, идентификацией категории, к которой относится каждый аудио-объект, или идентификации каждой категории, которой назначен хотя бы один кластер. [00117] In some embodiments of the invention, the cost of distortion may be related to one or more initial spatial positions of each audio object, the spatial position of at least one cluster, the identification of the category to which each audio object belongs, or the identification of each category to which at least one cluster is assigned.

[00118] В некоторых вариантах выполнения изобретения стоимость искажения может быть определена на основе одного или более из следующего: расстояния между исходным пространственным положением каждого аудиообъекта и пространственным положением, по меньшей мере, одного кластера, расстояния между исходным пространственным положением каждого аудиообъекта и реконструированным пространственным положением аудиообъекта, определенным на основе пространственного положения по меньшей мере одного кластера или несоответствии между идентификацией категории, к которой классифицирован каждый аудиообъект, и идентификацией каждой категории, которой назначен хотя бы один кластер. [00118] In some embodiments of the invention, the cost of distortion can be determined based on one or more of the following: the distance between the original spatial position of each audio object and the spatial position of at least one cluster, the distance between the original spatial position of each audio object and the reconstructed spatial position an audio object determined based on the spatial position of at least one cluster, or a mismatch between the identification of the category to which each audio object is classified and the identification of each category to which at least one cluster is assigned.

[00119] В некоторых вариантах выполнения изобретения система 300 может дополнительно содержать модуль объединения аудиообъектов для объединения аудиообъектов в каждом кластере для получения кластеризированого аудиообъекта и модуль объединения метаданных для объединения метаданных аудиообъектов в каждом кластере для получения метаданных кластеризированого аудиообъекта. [00119] In some embodiments, system 300 may further comprise an audio object combiner to combine the audio objects in each cluster to obtain a clustered audio object, and a metadata combiner to combine the audio object metadata in each cluster to obtain clustered audio object metadata.

[00120] Для ясности некоторые дополнительные компоненты системы 300 не проиллюстрированы на Фиг. 3. Однако следует понимать, что функции, описанные выше со ссылкой на Фиг. 1, применимы к системе 300. Кроме того, компоненты системы 300 могут быть аппаратным модулем или модулем программного обеспечения и т.п. Например, в некоторых вариантах выполнения изобретения система 300 может быть реализована частично или полностью с программным обеспечением и/или прошивкой, например, реализована как компьютерный программный продукт, реализованный на машиночитаемом носителе. Альтернативно или дополнительно система 300 может быть реализована частично или полностью на основе аппаратного обеспечения, например, в виде интегральной схемы (IC), специализированной интегральной схемы (ASIC), системы на чипе (SOC), программируемой вентильной матрице (FPGA) и т. д. Объем примеров вариантов выполнения изобретения в связи с этим не ограничивается. [00120] For clarity, some additional components of system 300 are not illustrated in FIG. 3. However, it should be understood that the functions described above with reference to FIG. 1 are applicable to the system 300. In addition, the components of the system 300 may be a hardware module or a software module, or the like. For example, in some embodiments of the invention, the system 300 may be implemented in part or in full with software and/or firmware, for example, implemented as a computer program product implemented on a computer-readable medium. Alternatively or additionally, system 300 may be implemented partially or entirely in hardware, such as an integrated circuit (IC), application specific integrated circuit (ASIC), system on a chip (SOC), field programmable gate array (FPGA), etc. The scope of examples of embodiments of the invention is therefore not limited.

[00121] На Фиг. 4 проиллюстрирована блок-схема примерной компьютерной системы 400, подходящей для реализации вариантов изобретения. Как проиллюстрировано, компьютерная система 400 содержит центральный процессор (CPU) 401, который способен выполнять различные процессы в соответствии с программой, сохраненной в памяти (ROM) 402 только для чтения, или программой, загруженной из узла хранения 408, в оперативное запоминающее устройство (RAM) 403. В RAM 403 данные, требуемые, когда CPU 401 выполняет различные процессы или тому подобное, также сохраняются по мере необходимости. CPU 401, ROM 402 и RAM 403 соединены между собой через шину 404. Интерфейс 405 ввода/вывода (I/O) также подключен к шине 404. [00121] In FIG. 4 illustrates a block diagram of an exemplary computer system 400 suitable for implementing embodiments of the invention. As illustrated, the computer system 400 includes a central processing unit (CPU) 401 that is capable of executing various processes in accordance with a program stored in a read-only memory (ROM) 402 or a program loaded from a storage node 408 into a random access memory (RAM). ) 403. In the RAM 403, data required when the CPU 401 executes various processes or the like is also stored as needed. The CPU 401, ROM 402, and RAM 403 are connected to each other via a bus 404. An input/output (I/O) interface 405 is also connected to the bus 404.

[00122] К интерфейсу ввода-вывода 405 подключаются следующие компоненты: узел ввода 406, содержащий клавиатуру, мышь и т. п.; выходной узел 407, содержащий дисплей, такой как электронно-лучевая трубка (CRT), жидкокристаллический дисплей (LCD) или тому подобное, и громкоговоритель или тому подобное; узел хранения 408, содержащий жесткий диск или тому подобное; и узел связи 409, содержащий карту сетевого интерфейса, такую как LAN-карта, модем и т. п. Узел связи 409 осуществляет процесс связи через сеть, такую как Интернет. Привод 410 также подключается к интерфейсу 405 ввода-вывода по мере необходимости. Съемный носитель 411, такой как магнитный диск, оптический диск, магнитооптический диск, полупроводниковая память и т. п., монтируется на диске 410 по мере необходимости, так что компьютерная программа, считываемая с него, устанавливается в хранилище узла 408, если требуется. [00122] The following components are connected to the I/O interface 405: an input node 406 containing a keyboard, mouse, etc.; an output node 407 containing a display such as a cathode ray tube (CRT), a liquid crystal display (LCD) or the like, and a speaker or the like; a storage node 408 containing a hard drive or the like; and a communication node 409 containing a network interface card such as a LAN card, a modem, and the like. The communication node 409 performs a communication process over a network such as the Internet. Drive 410 is also connected to I/O interface 405 as needed. Removable media 411, such as a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, and the like, is mounted on the disk 410 as needed, so that a computer program read from it is installed in the storage of the node 408, if required.

[00123] В частности, в соответствии с примерами вариантов выполнения изобретения, раскрытыми здесь, процессы, описанные выше со ссылкой на Фиг. 1, могут быть реализованы как компьютерные программные продукты. Например, варианты осуществления примерных вариантов осуществления включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально воплощенную на машиночитаемом носителе, то есть компьютерную программу, содержащую программный код для выполнения способа 100. В таких вариантах выполнения изобретения компьютерная программа может быть загружена и установлена из сети через узел связи 409 и/или установлена со съемного носителя 411. [00123] In particular, in accordance with the exemplary embodiments of the invention disclosed herein, the processes described above with reference to FIG. 1 may be implemented as computer program products. For example, embodiments of the exemplary embodiments include a computer program product including a computer program tangibly embodied on a computer-readable medium, i.e., a computer program containing program code for performing method 100. In such embodiments, the computer program can be downloaded and installed from the network via communication node 409 and/or installed from removable media 411.

[00124] Вообще говоря, различные примерные варианты изобретения могут быть реализованы в аппаратных или специальных цепях, программном обеспечении, логике или любой их комбинации. Некоторые аспекты могут быть реализованы на аппаратном уровне, в то время как другие аспекты могут быть реализованы в прошивке или программном обеспечении, которые могут выполняться контроллером, микропроцессором или другим вычислительным устройством. Хотя различные аспекты примерных вариантов выполнения изобретения проиллюстрированы и описаны в виде блок-схем, схем процессов или с использованием какого-либо других графических материалов, будет понятно, что узлы, устройства, системы, подходы или способы, описанные здесь, могут быть реализованы в качестве не ограничивающих примеров, аппаратного обеспечения, программного обеспечения, микропрограммного обеспечения, схем специального назначения или логики, аппаратного обеспечения общего назначения или контроллера или других вычислительных устройств или их комбинации. [00124] Generally speaking, various exemplary embodiments of the invention may be implemented in hardware or special circuits, software, logic, or any combination thereof. Some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software, which may be executed by a controller, microprocessor, or other computing device. Although various aspects of exemplary embodiments of the invention are illustrated and described in the form of block diagrams, process diagrams, or using any other graphic materials, it will be understood that the nodes, devices, systems, approaches, or methods described herein can be implemented as non-limiting examples, hardware, software, firmware, special purpose circuitry or logic, general purpose hardware or controller, or other computing devices, or combinations thereof.

[00125] Кроме того, различные блоки, показанные на блок-схемах, могут рассматриваться как способ и/или как операции, которые являются результатом выполнения кода компьютерной программы, и/или как множество связанных логических схемных элементов, сконструированных для выполнения связанной функции (й). Например, варианты выполнения изобретения могут включать в себя компьютерный программный продукт, содержащий компьютерную программу, материально воплощенную на машиночитаемом носителе, причем компьютерная программа, содержит программные коды, предназначенные для реализации способов, описанных выше. [00125] In addition, the various blocks shown in the block diagrams may be viewed as a method and/or as operations that result from the execution of computer program code, and/or as a set of related logical circuit elements designed to perform a related function (th ). For example, embodiments of the invention may include a computer program product comprising a computer program tangibly embodied on a computer-readable medium, the computer program comprising program codes for implementing the methods described above.

[00126] В контексте настоящего описания машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или хранить программу для использования или в связи с системой, аппаратом или устройством выполнения команд. Машиночитаемый носитель может быть машиночитаемым носителем сигнала или машиночитаемым носителем данных. Машиночитаемый носитель может содержать, но не ограничиваясь, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковые системы, аппараты или устройства или любую подходящую комбинацию вышеизложенного. Более конкретные примеры машиночитаемого носителя данных включают в себя электрическое соединение, имеющее один или несколько проводов, переносную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптическое волокно, портативный компакт-диск для чтения (CD-ROM), оптическое запоминающее устройство, магнитное запоминающее устройство или любое подходящее сочетание вышеизложенного. [00126] As used herein, a computer-readable medium can be any tangible medium that can contain or store a program for use in or in connection with an instruction execution system, apparatus, or device. The computer-readable medium may be a computer-readable signal medium or a computer-readable storage medium. The computer-readable medium may include, but is not limited to, electronic, magnetic, optical, electromagnetic, infrared, or semiconductor systems, apparatus, or devices, or any suitable combination of the foregoing. More specific examples of a computer-readable storage medium include an electrical connection having one or more wires, a portable computer floppy disk, a hard disk drive, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash memory). ), optical fiber, portable compact disk (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the foregoing.

[00127] Компьютерный программный код для реализации способов примерных вариантов выполнения изобретения может быть записан в любой комбинации одного или нескольких языков программирования. Эти компьютерные программные коды могут быть предоставлены процессору компьютера общего назначения, компьютера специального назначения или другого программируемого устройства обработки данных, так что программные коды, когда они выполняются процессором компьютера или другим программируемым устройством обработки данных, вызывают функции/операции, указанные в блок-схемах и/или блок-диаграммах, предназначенные для выполнения. Программный код может выполняться полностью на компьютере, частично на компьютере, в виде отдельного программного пакета, частично на компьютере, а частично на удаленном компьютере или полностью на удаленном компьютере или сервере. Программный код может быть распространен на специально запрограммированных устройствах, которые в целом называются «модулями». Части программных компонентов модулей могут быть написаны на любом компьютерном языке и могут быть частью монолитной кодовой базы или могут быть разработаны в более дискретных частях кода, например, типичных для объектно-ориентированных компьютерных языков. Кроме того, модули могут быть распределены по множеству компьютерных платформ, серверов, терминалов, мобильных устройств и т.п. Данный модуль может быть реализован так, что описанные функции выполняются отдельными процессорами и/или вычислительными аппаратными платформами. [00127] The computer program code for implementing the methods of exemplary embodiments of the invention may be written in any combination of one or more programming languages. These computer program codes may be provided to the processor of a general purpose computer, special purpose computer, or other programmable data processing device such that the program codes, when executed by the computer processor or other programmable data processing device, invoke the functions/operations indicated in the flowcharts and /or block diagrams to be executed. The software code may run entirely on a computer, partially on a computer, as a separate software package, partially on a computer, and partially on a remote computer, or entirely on a remote computer or server. Program code can be distributed on specially programmed devices, collectively referred to as "modules". The software component portions of the modules may be written in any computer language and may be part of a monolithic code base, or may be developed in more discrete portions of code, such as those typical of object-oriented computer languages. In addition, the modules may be distributed across a variety of computer platforms, servers, terminals, mobile devices, and the like. This module may be implemented such that the functions described are performed by separate processors and/or computing hardware platforms.

[00128] Как используется в этом приложении, термин «схема» относится ко всему следующему:(а) варианты выполнения схем только для аппаратного обеспечения (например, реализация только в аналоговых и/или цифровых схемах) и (б) комбинации схем и программного обеспечения (и/или прошивки), например (в зависимости от ситуации):(I) к комбинации процессора(ов) или (ii) к частям процессора(ов)/программного обеспечения (включая цифровой сигнальный процессор(ы)), программное обеспечение и память(и), которые работают совместно, заставляя устройство, такое как мобильный телефон или сервер выполнять различные функции) и (c) к схемам, таким как микропроцессор(ы) или часть микропроцессора (ов), которые требуют программного обеспечения или прошивки для работы, даже если программное обеспечение или прошивка физически не присутствует. Кроме того, специалисту в данной области техники хорошо известно, что средства связи обычно воплощают машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой транспортный механизм, и включает в себя любой носитель для доставки информации. [00128] As used in this application, the term "circuit" refers to all of the following: (a) hardware-only implementations of circuits (e.g., implementation in analog and/or digital circuits only) and (b) combinations of circuits and software (and/or firmware), for example (as applicable): (i) to a combination of processor(s) or (ii) to parts of the processor(s)/software (including digital signal processor(s)), software and memory(s) that work together to cause a device such as a mobile phone or a server to perform various functions) and (c) to circuits such as a microprocessor(s) or part of a microprocessor(s) that require software or firmware to operate even if the software or firmware is not physically present. In addition, one skilled in the art is well aware that communication media typically embodies computer readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave or other transport mechanism, and includes any information delivery media. .

[00129] Кроме того, хотя операции показаны в определенном порядке, это не следует понимать как требование, чтобы такие операции выполнялись в определенном порядке, показанном или в последовательном порядке, или чтобы все проиллюстрированные операции выполнялись для достижения желаемых результатов. В определенных обстоятельствах многозадачность и параллельная обработка могут быть полезными. Аналогичным образом, хотя в приведенных выше обсуждениях содержится несколько конкретных деталей реализации, они не должны трактоваться как ограничения объема изобретения, что может быть заявлено, а скорее как описание признаков, которые могут быть конкретными для конкретных примерных вариантов выполнения изобретения. Некоторые функции, рассмотренные в этом описании в контексте отдельных вариантов выполнения изобретения, также могут быть реализованы в комбинации в одном варианте выполнения изобретения. И наоборот, различные функции, которые описаны в контексте одного варианта выполнения изобретения, также могут быть реализованы в нескольких вариантах выполнения изобретения отдельно или в любой подходящей подкомбинации. [00129] In addition, although the operations are shown in a particular order, this should not be understood as a requirement that such operations be performed in a particular order, shown or in sequential order, or that all illustrated operations be performed to achieve the desired results. In certain circumstances, multitasking and parallel processing can be beneficial. Likewise, while the above discussion contains several specific implementation details, they should not be construed as limiting the scope of the invention as may be claimed, but rather as a description of features that may be specific to particular exemplary embodiments of the invention. Some of the features discussed in this description in the context of individual embodiments of the invention may also be implemented in combination in one embodiment of the invention. Conversely, various functions that are described in the context of one embodiment of the invention may also be implemented in several embodiments of the invention alone or in any suitable subcombination.

[00130] Различные модификации и адаптации к вышеприведенным примерным вариантам выполнения изобретения могут быть очевидными для специалистов в соответствующих областях техники с учетом вышеприведенного описания, когда оно учитывается вместе с прилагаемыми графическими материалами. Любые и все модификации также входят в объем не ограничивающих и примерных вариантов выполнения изобретения. Кроме того, другие примеры вариантов выполнения изобретения, изложенные в настоящем документе, придут на ум специалисту в данной области, к которой относятся эти варианты выполнения изобретения, которые имеют преимущество в отношении учений, представленных в вышеприведенных описаниях и графических материалах. [00130] Various modifications and adaptations to the above exemplary embodiments of the invention may be apparent to those skilled in the relevant arts in view of the above description when considered in conjunction with the accompanying drawings. Any and all modifications are also within the scope of non-limiting and exemplary embodiments of the invention. In addition, other examples of embodiments of the invention set forth herein will come to the mind of a person skilled in the art to which these embodiments of the invention pertain, which take advantage of the teachings presented in the above descriptions and drawings.

[00131] Соответственно, описанные здесь примеры вариантов выполнения изобретения могут быть реализованы в любой из форм, описанных здесь. Например, следующие перечисленные примерные варианты выполнения изобретения (EEE) описывают некоторые структуры, признаки и функциональные возможности некоторых аспектов описанных здесь примерных вариантов выполнения изобретения. [00131] Accordingly, the exemplary embodiments of the invention described herein may be implemented in any of the forms described herein. For example, the following listed exemplary embodiments of the invention (EEE) describe some of the structures, features, and functionality of some aspects of the exemplary embodiments of the invention described herein.

[00132] EEE 1. Способ сохранения метаданных объекта при кластеризации аудиообъектов, содержащий этапы, на которых: позиционируют аудиообъекты в категории, причем каждая категория представляет одну или уникальную комбинацию метаданных, предназначенных для сохранения; формируют некоторое количество кластеров для каждой категории посредством процесса кластеризации, в зависимости от общего (максимального) количества доступных кластеров и критерия общей ошибки, и способ дополнительно содержит: нечеткое разделение объекта по категориям, или разделение объекта по жестко заданным категориям. [00132] EEE 1. A method for storing object metadata when clustering audio objects, comprising: positioning audio objects in categories, each category representing one or a unique combination of metadata to be stored; a certain number of clusters are formed for each category by means of a clustering process, depending on the total (maximum) number of available clusters and the overall error criterion, and the method further comprises: fuzzy division of the object into categories, or division of the object into hard-coded categories.

[00133] EEE 2. Способ в соответствии с EEE 1, отличающийся тем, что нечеткое разделение объекта по категориям содержит: определение выходных центроидных кластеров, например, при выборке наиболее важных объектов, и формирование выходных сигналов кластера, при минимизации функции стоимости, которая совместно рассматривает (1) позиционные метаданные каждого объекта

Figure 00000093
, (2) идентификацию категории каждого объекта
Figure 00000094
, (3) позиционные метаданные каждого кластера
Figure 00000095
, и (4) идентификацию категории, связанной с каждым кластером
Figure 00000096
. [00133] EEE 2. A method in accordance with EEE 1, characterized in that the fuzzy division of an object into categories comprises: determining output centroid clusters, for example, when selecting the most important objects, and generating cluster outputs, while minimizing the cost function, which together considers (1) the positional metadata of each object
Figure 00000093
, (2) identification of the category of each object
Figure 00000094
, (3) positional metadata of each cluster
Figure 00000095
, and (4) identifying the category associated with each cluster
Figure 00000096
.

[00134] EEE 3. Способ согласно EEE 2, в котором функция стоимости рассматривает стоимость, связанную с несоответствием между идентификацией категории объектов

Figure 00000094
и идентификацией категории кластера
Figure 00000096
; [00134] EEE 3. The method according to EEE 2, in which the cost function considers the cost associated with the mismatch between the identification of the category of objects
Figure 00000094
and cluster category identification
Figure 00000096
;

[00135] EEE 4. Способ согласно EEE 1, в котором жесткое разделение категории объектов содержит: определение оптимального номера кластера для каждой категории путем минимизации общего пространственного искажения и кластеризации объектов в каждой категории, причем процесс кластеризации выполняется для каждой категории независимо. [00135] EEE 4. A method according to EEE 1, wherein hard partitioning of a category of objects comprises: determining an optimal cluster number for each category by minimizing the overall spatial distortion and clustering the objects in each category, wherein the clustering process is performed for each category independently.

[00136] EEE 5. Способ согласно EEE 4, в котором общее пространственное искажение содержит: пространственное искажение в каждой категории, измеряющее разницу между исходной позицией объекта и позицией после кластеризации, степень важности каждой категории и изменение номера кластера для каждой категории. [00136] EEE 5. The method according to EEE 4, wherein the total spatial distortion comprises: spatial distortion in each category, measuring the difference between the original position of the object and the position after clustering, the degree of importance of each category, and the change in the cluster number for each category.

[00137] EEE 6. Способ согласно EEE 4, процесс определения оптимального количества кластеров для каждой категории является итеративным процессом, и кластер добавляется или присваивается категории, которая больше всего нуждается в каждой итерации. [00137] EEE 6. The method according to EEE 4, the process of determining the optimal number of clusters for each category is an iterative process, and the cluster is added or assigned to the category that is most needed in each iteration.

[00138] EEE 7. Способ согласно EEE 4, процесс определения оптимального количества кластеров дополнительно содержит перераспределение объектов, чтобы избежать больших пространственных искажений в одной категории. [00138] EEE 7. The method according to EEE 4, the process of determining the optimal number of clusters further comprises redistributing objects to avoid large spatial distortions in one category.

Следует понимать, что варианты выполнения описанных здесь примеров реализации изобретения не должны ограничиваться раскрытыми конкретными вариантами выполнения, и что модификации и другие варианты выполнения предназначены для включения в объем прилагаемой формулы изобретения. Хотя здесь используются конкретные термины, они используются только в общем и описательном смысле, а не в целях ограничения.It should be understood that the embodiments of the exemplary embodiments described herein are not to be limited to the specific embodiments disclosed, and that modifications and other embodiments are intended to be included within the scope of the appended claims. Although specific terms are used here, they are used in a general and descriptive sense only and not for purposes of limitation.

Claims (47)

1. Способ кластеризации аудиообъектов с сохранением метаданных, содержащий этапы, на которых:1. A method for clustering audio objects with preservation of metadata, comprising the steps of: классифицируют множество аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов;classifying the plurality of audio objects into a number of categories based on information to be stored in the metadata associated with the plurality of audio objects; определяют для каждой категории соответствующее количество кластеров, предназначенных для назначения соответствующей категории, таким образом, что общее количество кластеров добавляется вплоть до заданного количества кластеров; иdetermining, for each category, an appropriate number of clusters to be assigned to the respective category, such that the total number of clusters is added up to the predetermined number of clusters; and размещают аудиообъект в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением.placing an audio object in each of the categories in at least one of the clusters in accordance with the purpose. 2. Способ по п. 1, в котором информация включает в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типа контента или режима воспроизведения аудиообъекта.2. The method of claim 1, wherein the information includes one or more of size information, zone mask information, anchor information, content type, or playback mode of the audio object. 3. Способ по п. 1, в котором классификация множества аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов, содержит этапы, на которых:3. The method of claim 1, wherein classifying the plurality of audio objects into a number of categories based on information to be stored in the metadata associated with the plurality of audio objects comprises: классифицируют аудиообъект без информации, предназначенной для сохранения, в одну категорию; иclassifying the audio object with no information to be stored into one category; and классифицируют аудиообъект с различной информацией, предназначенной для сохранения, в другую категорию.classifying the audio object with the various information to be stored into another category. 4. Способ по п. 1, в котором назначение заданного количества кластеров категориям содержит этапы, на которых:4. The method of claim 1, wherein assigning a given number of clusters to categories comprises the steps of: определяют заданное количество аудиообъектов из множества аудиообъектов на основании важности каждого аудиообъекта относительно других аудиообъектов;determining a predetermined number of audio objects from a plurality of audio objects based on the importance of each audio object relative to other audio objects; определяют распределение заданного количества аудиообъектов среди категорий; иdetermining the distribution of a predetermined number of audio objects among the categories; and назначают заданное количество кластеров категориям в соответствии с распределением.assigning a predetermined number of clusters to categories according to the distribution. 5. Способ по п. 1, в котором назначение заданного количества кластеров категориям содержит этап, на котором:5. The method of claim 1, wherein assigning a given number of clusters to categories comprises: назначают заданное количество кластеров категориям на основании уменьшения общего пространственного искажения для категорий.assigning a predetermined number of clusters to categories based on a reduction in overall spatial distortion for the categories. 6. Способ по п. 5, в котором общее пространственное искажение для категорий включает в себя максимальное пространственное искажение среди отдельных пространственных искажений категорий или взвешенную сумму отдельных пространственных искажений категорий, и6. The method of claim 5, wherein the total spatial distortion for the categories includes the maximum spatial distortion among the individual category spatial distortions, or a weighted sum of the individual category spatial distortions, and причем пространственное искажение для каждой категории связано с исходным пространственным положением каждого аудиообъекта в категории и пространственным положением по меньшей мере одного из кластеров.wherein the spatial distortion for each category is related to the original spatial position of each audio object in the category and the spatial position of at least one of the clusters. 7. Способ по п. 6, в котором реконструированное пространственное положение каждого аудиообъекта определяется на основании пространственного положения по меньшей мере одного кластера, а пространственное искажение для каждой категории определяется на основании расстояния между исходным пространственным положением каждого аудиообъекта в категории и реконструированным пространственным положением аудиообъекта.7. The method of claim 6, wherein the reconstructed spatial position of each audio object is determined based on the spatial position of at least one cluster, and the spatial distortion for each category is determined based on the distance between the original spatial position of each audio object in the category and the reconstructed spatial position of the audio object. 8. Способ по п. 6, в котором множество аудиообъектов находится в одном кадре аудиосигнала, и пространственное искажение для каждой категории дополнительно основано на различии между количеством кластеров, назначенных категории в текущем кадре и в предшествующем кадре.8. The method of claim 6, wherein the plurality of audio objects are in one frame of the audio signal, and the spatial distortion for each category is further based on the difference between the number of clusters assigned to the category in the current frame and in the previous frame. 9. Способ по п. 5, в котором назначение заданного количества кластеров категориям на основании уменьшения общего пространственного искажения для категорий содержит этап, на котором:9. The method of claim 5, wherein assigning a given number of clusters to categories based on reduction in overall spatial distortion for the categories comprises: итерационно уменьшают общее пространственное искажение для категорий на основании по меньшей мере одного из следующего:iteratively reduce the overall spatial distortion for the categories based on at least one of the following: величины пространственного искажения для категории в предшествующей итерации, илиthe amount of spatial distortion for the category in the previous iteration, or различия между пространственным искажением для категории в текущей итерации и в предшествующей итерации.differences between the spatial distortion for a category in the current iteration and in the previous iteration. 10. Способ по п. 4, в котором назначение заданного количества кластеров категориям дополнительно основано на одном или более из следующего:10. The method of claim 4, wherein the assignment of the given number of clusters to categories is further based on one or more of the following: первого порогового значения количества кластеров, предназначенных для назначения каждой категории,the first threshold value of the number of clusters intended to be assigned to each category, второго порогового значения пространственного искажения для каждой категории, илиa second spatial distortion threshold for each category, or важности каждой категории по отношению к другим категориям.the importance of each category in relation to other categories. 11. Способ по п. 1, дополнительно содержащий этап, на котором:11. The method of claim 1, further comprising the step of: переклассифицируют по меньшей мере один аудиообъект в категории в другую категорию на основании пространственного искажения для категории.reclassifying at least one audio object in the category to another category based on the spatial distortion for the category. 12. Способ по п. 1, в котором распределение аудиообъекта в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением содержит этап, на котором:12. The method according to claim. 1, in which the distribution of the audio object in each of the categories into at least one of the clusters in accordance with the assignment comprises the step of: распределяют аудиообъект в каждой категории по меньшей мере в один из кластеров, назначенных категории, на основании уменьшения стоимости искажения, связанной с категорией.allocating the audio object in each category to at least one of the clusters assigned to the category based on the reduction in the distortion cost associated with the category. 13. Способ по п. 1, в котором распределение аудиообъекта в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением содержит этап, на котором:13. The method according to claim. 1, in which the distribution of the audio object in each of the categories into at least one of the clusters in accordance with the assignment comprises the step of: распределяют аудиообъект в каждой категории по меньшей мере в один из кластеров, назначенных одной или более категориям, на основании уменьшения стоимости искажения, связанной с категориями.allocating the audio object in each category to at least one of the clusters assigned to the one or more categories based on the reduction in the distortion cost associated with the categories. 14. Способ по п. 12, в котором стоимость искажения связана с одним или более из исходного пространственного положения каждого аудиообъекта, пространственного положения по меньшей мере одного кластера, идентификации категории, в которой классифицирован каждый аудиообъект, или идентификации каждой категории, которой назначен по меньшей мере один кластер.14. The method of claim 12, wherein the distortion cost is related to one or more of the original spatial position of each audio object, the spatial position of at least one cluster, identifying the category in which each audio object is classified, or identifying each category to which at least at least one cluster. 15. Способ по п. 14, отличающийся тем, что стоимость искажения определяется на основании одного или более из следующего:15. The method of claim 14, wherein the cost of the distortion is determined based on one or more of the following: расстояния между исходным пространственным положением каждого аудиообъекта и пространственным положением по меньшей мере одного кластера,the distance between the initial spatial position of each audio object and the spatial position of at least one cluster, расстояния между исходным пространственным положением каждого аудиообъекта и реконструированного пространственного положения аудиообъекта, определенного на основании пространственного положения по меньшей мере одного кластера, илиthe distance between the original spatial position of each audio object and the reconstructed spatial position of the audio object, determined based on the spatial position of at least one cluster, or несовпадения между идентификацией категории, в которой классифицирован каждый аудиообъект, и идентификацией каждой категории, которой назначен по меньшей мере один кластер.a mismatch between the identification of the category in which each audio object is classified and the identification of each category to which at least one cluster is assigned. 16. Способ по п. 1, дополнительно содержащий этапы, на которых:16. The method according to claim 1, further comprising the steps of: объединяют аудиообъекты в каждом кластере для получения кластеризированного аудиообъекта; иcombining the audio objects in each cluster to obtain a clustered audio object; and объединяют метаданные аудиообъектов в каждом кластере для получения метаданных кластеризированного аудиообъекта.combining the metadata of the audio objects in each cluster to obtain the metadata of the clustered audio object. 17. Система для кластеризации аудиообъектов с сохранением метаданных, содержащая:17. A system for clustering audio objects with metadata preservation, comprising: модуль классификации аудиообъектов, выполненный с возможностью классификации множества аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов;an audio object classification module, configured to classify the plurality of audio objects into a number of categories based on information to be stored in the metadata associated with the plurality of audio objects; модуль назначения кластеров, выполненный с возможностью определения для каждой категории соответствующего количества кластеров, предназначенных для назначения соответствующей категории, таким образом, что общее количество кластеров составляет в сумме заданное количество кластеров; иa cluster assignment module, configured to determine, for each category, a corresponding number of clusters to be assigned to the corresponding category, such that the total number of clusters adds up to a predetermined number of clusters; and модуль размещения аудиообъекта, выполненный с возможностью размещения аудиообъекта в каждой из категорий в по меньшей мере один из кластеров в соответствии с назначением.an audio object placement module configured to place an audio object in each of the categories into at least one of the clusters in accordance with the assignment. 18. Система по п. 17, в которой информация включает в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типа контента или режима воспроизведения аудиообъекта.18. The system of claim 17, wherein the information includes one or more of size information, zone mask information, anchor information, content type, or audio object playback mode. 19. Система по п. 17, в которой модуль классификации аудиообъектов дополнительно выполнен с возможностью классификации аудиообъекта без информации, предназначенной для сохранения, в одну категорию, и классификации аудиообъекта с различной информацией, предназначенной для сохранения, в другую категорию.19. The system of claim 17, wherein the audio object classification module is further configured to classify an audio object with no information to store into one category and classify an audio object with different information to store into another category. 20. Машиночитаемый носитель, на котором сохранён компьютерный программный продукт, содержащий компьютерную программу, причем компьютерная программа содержит программный код для осуществления способа по п. 1.20. A computer-readable medium that stores a computer program product containing a computer program, the computer program containing program code for implementing the method of claim 1.
RU2019100704A 2014-12-11 2015-12-10 Clustering audio objects with preserving metadata RU2773512C2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201410765578.6 2014-12-11
CN201410765578.6A CN105895086B (en) 2014-12-11 2014-12-11 Metadata-preserving audio object clustering
US201562100183P 2015-01-06 2015-01-06
US62/100,183 2015-01-06

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2017124012A Division RU2678650C2 (en) 2014-12-11 2015-12-10 Clustering of audio objects with metadata preservation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2022112926A Division RU2022112926A (en) 2014-12-11 2022-05-13 CLUSTERIZATION OF AUDIO OBJECTS WITH PRESERVATION OF METADATA

Publications (3)

Publication Number Publication Date
RU2019100704A RU2019100704A (en) 2019-03-18
RU2019100704A3 RU2019100704A3 (en) 2021-12-01
RU2773512C2 true RU2773512C2 (en) 2022-06-06

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065659A1 (en) * 2006-09-12 2008-03-13 Akihiro Watanabe Information processing apparatus, method and program thereof
RU2376654C2 (en) * 2005-02-14 2009-12-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Parametric composite coding audio sources
US20100223265A1 (en) * 2003-10-07 2010-09-02 Fogel David B Method and device for clustering categorical data and identifying anomalies, outliers, and exemplars
US20140023197A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
WO2014099285A1 (en) * 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
WO2014147442A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Spatial audio apparatus
WO2014184706A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio apparatus and method therefor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100223265A1 (en) * 2003-10-07 2010-09-02 Fogel David B Method and device for clustering categorical data and identifying anomalies, outliers, and exemplars
RU2376654C2 (en) * 2005-02-14 2009-12-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Parametric composite coding audio sources
US20080065659A1 (en) * 2006-09-12 2008-03-13 Akihiro Watanabe Information processing apparatus, method and program thereof
US20140023197A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
WO2014099285A1 (en) * 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
WO2014147442A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Spatial audio apparatus
WO2014184706A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio apparatus and method therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHEXUE HUANG, "CLUSTERING LARGE DATA SETS WITH MIXED NUMERIC AND CATEGORICAL VALUES", PAKDD, 24.02.1997. *

Similar Documents

Publication Publication Date Title
RU2678650C2 (en) Clustering of audio objects with metadata preservation
US10638246B2 (en) Audio object extraction with sub-band object probability estimation
US10362426B2 (en) Upmixing of audio signals
US10277997B2 (en) Processing object-based audio signals
US10278000B2 (en) Audio object clustering with single channel quality preservation
RU2773512C2 (en) Clustering audio objects with preserving metadata
US10779106B2 (en) Audio object clustering based on renderer-aware perceptual difference
CN106385660B (en) Processing object-based audio signals
WO2018017394A1 (en) Audio object clustering based on renderer-aware perceptual difference