RU2785944C1

RU2785944C1 - Multichannel audio encoder, decoder, methods, and computer program for switching between parametric multichannel operational mode and mode of operation with separate channels

Info

Publication number: RU2785944C1
Application number: RU2021132090A
Authority: RU
Inventors: Эммануэль РАВЕЛЛИ; Элени ФОТОПОУЛОУ; Маркус МУЛЬТРУС; Гийом ФУКС
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2019-04-04
Filing date: 2020-04-02
Publication date: 2022-12-15

Abstract

FIELD: computer technology.

SUBSTANCE: invention relates to the field of computer technology for audio encoding of data. Switching to parametric multichannel encoding is performed in case of one source, and switching to separate encoding is performed in case of two or more sources in a determined frequency-time part, parameters of multichannel encoding of which differ for at least a set deviation.

EFFECT: provision of a possibility of reproduction of a stereo-image and provision of a voice output signal for scenarios with interfering sources of voice data.

38 cl, 8 dwg

Description

Область техники, к которой относится изобретениеThe technical field to which the invention belongs

Настоящая заявка относится к многоканальному кодированию и декодированию аудиоданных для стерео-, двухканальных или более чем двухканальных вариантов применения. Более конкретно, она относится к общему кодированию/декодированию аудиоданных или к кодированию/декодированию голосовых данных, или к кодированию/декодированию с использованием кодирования/декодирования в области преобразования с коэффициентами масштабирования и/или кодирования/декодирования на основе коэффициентов линейного прогнозирования.The present application relates to multi-channel encoding and decoding of audio data for stereo, two-channel or more than two-channel applications. More specifically, it refers to general audio data coding/decoding, or voice data coding/decoding, or coding/decoding using transform-domain coding/decoding with scaling factors and/or coding/decoding based on linear prediction coefficients.

Уровень техникиState of the art

Для передачи голосовых стереосигналов, захваченных с помощью системы микрофонов с двумя или более микрофонами с определенным расстоянием между микрофонами, когда требуется низкая скорость передачи битов, могут использоваться параметрические стереотехнологии. Примерная параметрическая стереотехнология описана в [1]. Для случаев, в которых два или более говорящих присутствуют в окружении системы микрофонов, и в течение одного и того же периода времени одновременно говорит более чем один говорящий, параметрическая стереосистема может адекватно работать для большинства ситуаций. Тем не менее, иногда возникают случаи, в которых параметрическая модель может не иметь возможность воспроизводить стереоизображение и обеспечивать понятный голосовой выходной сигнал для сценариев с интерферирующими источниками голосовых данных. Это происходит, например, когда каждый из двух или более говорящих захватывается с различной ITD (межканальной разностью времен), значения ITD являются большими (большое расстояние между микрофонами), и/или говорящие сидят в противоположных положениях вокруг оси системы микрофонов.Parametric stereo technologies can be used to transmit stereo voice signals captured using a microphone system with two or more microphones with a certain distance between the microphones, when a low bit rate is required. An exemplary parametric stereo technology is described in [1]. For cases in which two or more speakers are present in a microphone system environment and more than one speaker is speaking at the same time for the same period of time, a parametric stereo system can adequately work for most situations. However, there are occasional cases where a parametric model may not be able to reproduce stereo and provide intelligible voice output for scenarios with interfering voice sources. This occurs, for example, when two or more speakers are each captured with a different ITD (inter-channel time difference), the ITD values are large (large distance between microphones), and/or the speakers are seated in opposite positions around the axis of the microphone system.

Кроме того, в параметрической стереосхеме, к примеру, описанной в [1], некоторые параметры извлекаются, чтобы воспроизводить пространственную стереосцену, и стереосигнал выводится в одноканальное понижающее сведение, которое дополнительно кодируется. В случае интерферирующих источников голосовых данных сигнал понижающего сведения может кодироваться с помощью голосового кодера, такого как CELP, описанный в [2]. Тем не менее, такие схемы кодирования представляют собой модели формирования голосовых данных «источник-фильтр», спроектированные с возможностью представления голосовых данных одного говорящего. Для интерферирующих источников голосовых данных имеется вероятность того, что модель базового кодирования нарушается, и воспринимаемое качество ухудшается.Furthermore, in a parametric stereo circuit such as that described in [1], some parameters are extracted to reproduce a spatial stereo scene, and the stereo signal is output to a single-channel downmix, which is further encoded. In the case of interfering voice data sources, the downmix signal can be encoded with a voice encoder such as CELP as described in [2]. However, such coding schemes are source-filter voice generation models designed to represent the voice of a single speaker. For interfering voice data sources, there is a possibility that the underlying coding model is violated and the perceived quality is degraded.

Задача изобретенияThe task of the invention

Задача настоящего изобретения состоит в по меньшей мере частичном преодолении недостатков традиционных подходов.The aim of the present invention is to at least partially overcome the shortcomings of conventional approaches.

Раскрытие изобретенияDisclosure of invention

Данная задача решается многоканальным аудиокодером по пункту 1 формулы, многоканальным аудиодекодером по пункту 26 формулы, кодированным многоканальным аудиопредставлением по пункту 26 формулы, способом многоканального кодирования аудиоданных по пункту 30 формулы, способом многоканального декодирования аудиоданных по пункту 31 формулы и компьютерной программой по пункту 32 формулы.This problem is solved by a multi-channel audio encoder according to claim 1, a multi-channel audio decoder according to claim 26, an encoded multi-channel audio representation according to claim 26, a method for multi-channel audio data coding according to claim 30, a method for multi-channel audio data decoding according to claim 31, and a computer program according to claim 32.

Предложен многоканальный аудиокодер. Многоканальный аудиокодер может представлять собой стерео- или двухканальный либо более чем двухканальный аудиокодер. Аудиокодер может представлять собой общий аудиокодер или голосовой кодер, или кодер, переключающийся между кодированием в области преобразования с использованием коэффициентов масштабирования и кодированием на основе коэффициентов линейного прогнозирования. Кодер выполнен с возможностью формирования кодированного аудиопредставления на основе входного аудиопредставления. Кодер выполнен с возможностью переключения между параметрическим многоканальным кодированием множества каналов, например, каналов входного аудиопредставления и отдельным кодированием множества каналов, например, каналов входного аудиопредставления, в зависимости от характеристик входного аудиопредставления.A multi-channel audio encoder is proposed. The multi-channel audio encoder may be a stereo or two-channel or more than two-channel audio encoder. The audio encoder may be a general audio encoder or a voice encoder, or an encoder switching between transform-domain coding using scaling factors and coding based on linear prediction coefficients. The encoder is configured to generate an encoded audio representation based on the input audio representation. The encoder is configured to switch between parametric multi-channel coding of a plurality of channels, eg, input audio presentation channels, and separate coding of a plurality of channels, eg, input audio presentation channels, depending on the characteristics of the input audio presentation.

Параметрическое многоканальное кодирование может кодировать комбинированный сигнал, комбинирующий множество канальных сигналов, и кодировать взаимосвязь между двумя или более каналами в форме параметров. Параметры могут содержать параметры межканальной разности времен и/или параметры межканальной разности уровней, и/или межканальные фазовые параметры, и/или параметры межканальной корреляции.Parametric multi-channel coding may encode a combined signal combining a plurality of channel signals and encode a relationship between two or more channels in the form of parameters. The parameters may comprise inter-channel time difference parameters and/or inter-channel level difference parameters and/or inter-channel phase parameters and/or inter-channel correlation parameters.

Переключение между параметрическим многоканальным кодированием и отдельным кодированием в зависимости от характеристик входного аудиопредставления преимущественно обеспечивает возможность адаптации кодирования к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным кодированием и отдельным кодированием может приводить к выбору кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, в отношении воспринимаемой производительности.Switching between parametric multi-channel coding and separate coding depending on the characteristics of the input audio presentation advantageously allows the coding to be adapted to the characteristics of the input audio presentation. Selective switching between parametric multi-channel coding and separate coding may result in the selection of an coding more suitable for coding the underlying input audio representation such that the resulting encoded audio representation may have advantageous properties, eg in terms of perceived performance.

Другими словами, настоящее изобретение заключает в себе компромисс между усилиями для того, чтобы получать характеристики входного аудиопредставления, с последующим действием (например, переключением) относительно характеристик, и преимуществом кодирования входного аудиопредставления посредством использования кодирования, которое может быть преимущественным для определенного входного аудиопредставления (либо его части), например, с точки зрения критерия производительности.In other words, the present invention involves a trade-off between the effort to obtain characteristics of the input audio presentation, followed by action (e.g., switching) on the characteristics, and the advantage of encoding the input audio presentation by using an encoding that may be advantageous for a certain input audio presentation (or part of it), for example, in terms of performance criteria.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью определения, соответствует ли входное аудиопредставление предположению относительно модели, лежащей в основе параметрического многоканального кодирования, и переключения в зависимости от упомянутого определения. Предположение может содержать присутствие одного разговаривающего, например, присутствие одной значимой межканальной разности времен/интерауральной разности времен (ITD) в каждой частотно-временной части. Например, характеристики входного аудиопредставления могут обеспечивать указания на то, что два или более источника голосовых данных интерферируют, и в силу этого предположения относительно модели, лежащей в основе параметрического многоканального кодирования относительно одного говорящего, могут нарушаться.According to an embodiment, the multi-channel encoder may be configured to determine if the input audio representation matches an assumption about the model underlying parametric multi-channel coding and switch depending on said determination. The suggestion may include the presence of a single speaker, eg, the presence of one significant inter-channel time difference/interaural time difference (ITD) in each time-frequency portion. For example, the characteristics of the input audio presentation may provide indications that two or more voice data sources are interfering, and because of this, the assumptions about the model underlying parametric multi-channel coding relative to one speaker may be violated.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью переключения на отдельное кодирование, если предположение относительно модели, лежащей в основе параметрического многоканального кодирования, не выполняется. Например, предположение относительно числа разговаривающих и их ITD модели, лежащей в основе параметрического многоканального кодирования, может не выполняться для некоторых входных аудиопредставлений. Тем не менее, предположение относительно модели, лежащей в основе отдельного кодирования, может выполняться. Как результат, переключение на отдельное кодирование может приводить к преимущественной производительности.According to an embodiment, the multi-channel encoder may be configured to switch to a separate coding if the model assumption underlying the parametric multi-channel coding is not met. For example, an assumption about the number of speakers and their ITD model underlying parametric multi-channel coding may not hold for some input audio representations. However, an assumption about the underlying model of a particular coding may hold. As a result, switching to a separate encoding may result in performance advantages.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью определения, соответствует ли входное аудиопредставление доминирующему источнику, например, одному доминирующему источнику. В таком случае, другие источники (например, все другие источники) могут быть более слабыми, например по меньшей мере на заданную разность интенсивности. Кодер может быть выполнен с возможностью переключения в зависимости от упомянутого определения. Присутствие или отсутствие доминирующего источника может обеспечивать указание в отношении того, может ли параметрическое кодирование или отдельное кодирование быть преимущественным с точки зрения производительности.According to an embodiment, the multi-channel encoder may be configured to determine if an input audio representation corresponds to a dominant source, such as a single dominant source. In such a case, the other sources (eg, all other sources) may be weaker, eg by at least a given intensity difference. The encoder may be configured to switch depending on the above definition. The presence or absence of a dominant source may provide an indication as to whether parametric coding or separate coding may be advantageous from a performance point of view.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеется ли один доминирующий источник во множестве частотно-временных частей, и/или определения, имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение либо более чем на заданное отклонение. Многоканальный кодер может быть выполнен с возможностью переключения в зависимости от упомянутого определения. В качестве альтернативы, множество частотно-временных частей могут содержать все частотно-временные части. Два или более источников могут соответствовать условию значимости источника, например, тому, что они представляют собой релевантные и/или значимые, и/или заметные источники, которые находятся в различных положениях. Параметры многоканального кодирования могут представлять собой ITD. Определение одного источника может обеспечивать возможность выбирать кодирование, базовая модель которого является подходящей для обработки одного источника, например, параметрическое кодирование. Определение одного источника в частотно-временной части или частях может обеспечивать возможность выбирать кодирование для части или частей, для которых выполняются предположения относительно модели, лежащей в основе кодирования, например, параметрической модели. Определение двух или более источников в определённой частотно-временной части может указывать то, что кодирование, имеющее базовую модель на основе одного источника, может не обеспечивать требуемую производительность для определённой частотно-временной части, и в силу этого переключение кодирования для упомянутой определённой части может приводить к преимущественной производительности. Определение в отношении того, отличаются ли многоканальные параметры по меньшей мере на заданное отклонение (либо более чем на заданное отклонение), может обеспечивать возможность определения того, могут ли два или более источников приводить к нарушению предположений относительно модели, лежащей в основе кодирования, и в силу этого может представлять собой указание на необходимость переключения на другое кодирование.According to an embodiment, the multi-channel encoder may be configured to determine if there is one dominant source in a plurality of time-frequency portions and/or determine if there are two or more sources in a particular time-frequency portion whose multi-channel coding parameters differ by at least measure for a given deviation or more than a given deviation. The multi-channel encoder may be switchable depending on the above definition. Alternatively, the set of time-frequency parts may contain all of the time-frequency parts. Two or more sources may meet the source's significance condition, such as being relevant and/or significant and/or notable sources that are in different positions. The multi-channel coding parameters may be an ITD. The definition of a single source may provide the ability to select an encoding whose underlying model is suitable for single source processing, such as parametric encoding. Defining a single source in a time-frequency part or parts may allow selection of an encoding for a part or parts for which assumptions are made about the underlying model of the encoding, eg, a parametric model. The definition of two or more sources in a certain time-frequency part may indicate that an coding having a base model based on one source may not provide the required performance for a certain time-frequency part, and therefore switching the coding for said certain part may result in to superior performance. Determining whether the multi-channel parameters differ by at least a given variance (or more than a given variance) may allow for determining whether two or more sources may violate assumptions about the underlying coding model, and in this may be an indication of the need to switch to another encoding.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения параметра модели, лежащей в основе параметрического многоканального кодирования, и переключения в зависимости от параметра модели. Например, параметр модели может представлять собой межканальную разность времен, интерауральную разность времен, ITD. Параметр может описывать взаимосвязь между двумя или более каналами входного аудиопредставления. Определение параметра модели, лежащей в основе параметрического многоканального кодирования, может обеспечивать возможность оценки способности параметрической модели обеспечивать требуемую производительность для определённой взаимосвязи между двумя или более каналами входного аудиопредставления и выполнения переключения таким образом, чтобы обеспечить преимущественную производительность.In an embodiment, the multi-channel encoder may be configured to determine a model parameter underlying the parametric multi-channel coding and switch depending on the model parameter. For example, the model parameter may be an inter-channel time difference, an interaural time difference, ITD. The parameter may describe the relationship between two or more channels of the input audio presentation. Determining a parameter of the model underlying parametric multi-channel coding may allow the ability of the parametric model to provide the required performance for a particular relationship between two or more channels of the input audio presentation to be evaluated and to perform switching in such a way as to provide advantageous performance.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, обеспечивает ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления, возможность однозначного определения параметра многоканального кодирования, либо, указывает ли она два или более различных возможных значения параметра многоканального кодирования, и переключения в зависимости от упомянутого определения. Например, характеристика, определяющая взаимосвязь между каналами, может представлять собой эволюцию обобщенного взаимного корреляционного фазового преобразования (GCC-PHAT) для параметра запаздывания либо эволюцию взаимной корреляционной функции между двумя или более каналами для параметра запаздывания. Параметр многоканального кодирования может представлять собой ITD. Два или более различных возможных (например, значащих) значения могут отличаться по меньшей мере на заданное значение и могут быть отличимыми от минимального уровня шума. Характеристика может содержать два или более значения (например, пиковых значения или значения, соответствующих условию значимости), которые отличаются самое большее на (например, заданное или сигнально-адаптивное) (например, некоторое значение) разности в отношении их значимости, либо только одно значение, соответствующее условию значимости. Определение взаимосвязи между каналами входного аудиопредставления посредством использования эволюции обобщенного взаимного корреляционного фазового преобразования или эволюции взаимной корреляционной функции может обеспечивать возможность количественного определения взаимосвязи между каналами, чтобы получать характеристику. Определение в отношении того, отличаются ли два или более различных значения параметра многоканального кодирования по меньшей мере на заданное значение, и того, являются ли два или более различных значения параметра многоканального кодирования отличимыми от минимального уровня шума, обеспечивает возможность преимущественно надежного определения, возможно ли однозначное определение параметра многоканального кодирования, либо, могут ли быть определены два или более различных значащих значения параметра многоканального кодирования. В качестве альтернативы или дополнения, определение того, содержит ли характеристика два или более значений, которые отличаются самое большее на разность относительно их определенной значимости, например, посредством использования условия значимости, обеспечивает возможность преимущественно надежного определения того, возможно ли однозначное определение параметра многоканального кодирования, либо того, могут ли быть определены два или более различных значащих значения параметра многоканального кодирования.In an embodiment, the multi-channel encoder may be configured to determine whether a characteristic that defines the relationship between channels of the input audio presentation allows the multi-channel encoding parameter to be uniquely determined, or whether it indicates two or more different possible values of the multi-channel encoding parameter, and switch depending from the above definition. For example, the characteristic defining the relationship between channels may be the evolution of the generalized cross-correlation phase transformation (GCC-PHAT) for the lag parameter, or the evolution of the cross-correlation function between two or more channels for the lag parameter. The multi-channel coding parameter may be an ITD. The two or more different possible (eg, significant) values may differ by at least a predetermined amount and may be distinguishable from the noise floor. A characteristic may contain two or more values (for example, peak values or values that meet a significance condition) that differ by at most (for example, a given or signal-adaptive) (for example, some value) difference with respect to their significance, or only one value corresponding to the significance condition. Determining the relationship between channels of the input audio presentation by using the evolution of the generalized cross-correlation phase transform or the evolution of the cross-correlation function may allow the relationship between channels to be quantified to obtain a response. Determining whether two or more different values of the multi-channel coding parameter differ by at least a predetermined value, and whether two or more different values of the multi-channel coding parameter are distinct from the noise floor, makes it possible to advantageously reliably determine whether an unambiguous determining a multi-channel coding parameter, or whether two or more different meaningful values of the multi-channel coding parameter can be determined. Alternatively or in addition, determining whether a characteristic contains two or more values that differ at most by a difference about their determined significance, for example, by using a significance condition, allows a predominantly reliable determination of whether a multi-channel coding parameter can be uniquely determined, or whether two or more different meaningful values of a multi-channel coding parameter can be determined.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления, только одно значимое значение, которое соответствует условию значимости, либо содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления, два или более (например, различных) значимых значения, которые соответствуют условию значимости, и переключения, например, между параметрическим многоканальным кодированием и отдельным кодированием множества каналов, в зависимости от упомянутого определения. Характеристика, определяющая взаимосвязь между каналами, может представлять собой эволюцию GCC-PHAT для параметра запаздывания либо эволюцию взаимной корреляционной функции между двумя или более каналами для запаздывания. Одно значимое значение может заключать в себе один значимый пик, который представляет одно значение ITD. Условие значимости может содержать взаимосвязь абсолютных величин между двумя или более локальными пиками или максимумами и/или взаимосвязь расстояний между двумя локальными пиками или максимумами, и/или расстояние от минимального уровня шума. Условие значимости может быть заданным или быть сигнально-адаптивным, например, может быть основано на характеристиках входного аудиопредставления. Два или более значимых значения могут содержать по меньшей мере два значимых пика, которые представляют два или более различных значения ITD. Соответствие условию значимости может определяться в одной частотно-временной части. Определение взаимосвязи между каналами входного аудиопредставления посредством использования эволюции GCC-PHAT или взаимной корреляционной функции может преимущественно обеспечивать возможность количественного определения взаимосвязи между каналами, чтобы получать характеристику. Определение того, содержит ли характеристика только одно значимое значение, либо того, содержит ли характеристика два или более значения, может преимущественно позволять определить, какое кодирование, например параметрическое многоканальное кодирование или отдельное кодирование, может быть более подходящим для определённого входного аудиопредставления. Условие значимости может преимущественно позволять использовать один или более критериев оценки значений, например, абсолютных величин между двумя локальными пиками или максимумами, расстояний между двумя локальными пиками или максимумами, например, во временной области, к примеру, запаздывание во времени, или в частотной области, и/или расстояние от минимального уровня шума, для определения, какое из значений, содержащихся в эволюции, может учитываться при определении того, содержат ли характеристики только одно значимое значение или два или более значимых значения.In an embodiment, the multi-channel encoder may be configured to determine whether the characteristic defining the relationship between the channels of the input audio representation contains only one significant value that meets the significance condition, or whether the characteristic defining the relationship between the channels of the input audio representation contains two or more ( eg, different) significant values that meet the significance condition, and switching, eg, between parametric multi-channel coding and separate multi-channel coding, depending on said definition. The characteristic defining the relationship between the channels may be the evolution of the GCC-PHAT for the lag parameter, or the evolution of the cross-correlation function between two or more channels for the lag. One significant value may contain one significant peak that represents one ITD value. The significance condition may comprise an absolute value relationship between two or more local peaks or maxima and/or a distance relationship between two local peaks or maxima and/or a distance from the noise floor. The significance condition may be given or be signal-adaptive, for example, may be based on the characteristics of the input audio representation. The two or more significant values may contain at least two significant peaks that represent two or more different ITD values. Compliance with the significance condition can be determined in one time-frequency part. Determining the relationship between channels of an input audio presentation by using GCC-PHAT evolution or a cross-correlation function may advantageously allow the relationship between channels to be quantified to obtain a characteristic. Determining whether a characteristic contains only one significant value, or whether a characteristic contains two or more values, may advantageously allow one to determine which encoding, such as parametric multi-channel coding or stand-alone coding, may be more suitable for a particular input audio representation. The significance condition may advantageously allow the use of one or more criteria for evaluating values, e.g. absolute values between two local peaks or maxima, distances between two local peaks or maxima, e.g. in the time domain, e.g. time lag, or in the frequency domain, and/or distance from the noise floor, to determine which of the values contained in the evolution may be taken into account in determining whether the characteristics contain only one significant value or two or more significant values.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения параметра предыдущего кадра, например, кодированного аудиопредставления, и переключения в зависимости от параметра предыдущего кадра. Параметр предыдущего кадра может представлять собой флаг SAD. Определение параметра предыдущего кадра может преимущественно использоваться, например, для определения, содержит ли предыдущий кадр активный сигнал, так что переключение в первом кадре части сигнала может избирательно исключаться.In an embodiment, the multi-channel encoder may be configured to determine a previous frame parameter, such as an encoded audio representation, and switch depending on the previous frame parameter. The previous frame parameter may be a SAD flag. The determination of the previous frame parameter can advantageously be used, for example, to determine whether the previous frame contains an active signal, so that switching in the first frame of a part of the signal can be selectively excluded.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеются ли интерферирующие источники во входном аудиопредставлении, и переключения в зависимости от упомянутого определения. Интерферирующий источник может содержать два или более интерферирующих источника звука либо два или более интерферирующих источника голосовых данных, либо двух или более интерферирующих говорящих людей. Интерферирующие источники (либо разговаривающие или говорящие люди) во входном аудиопредставлении могут определяться, например, в частотно-временной части или, например, в перекрывающемся частотно-временном ресурсе или части. Определение того, имеются ли интерферирующие источники, может преимущественно обеспечивать возможность переключения между параметрическим многоканальным кодированием и отдельным кодированием, например, на основе определения того, что входное аудиопредставление содержит интерферирующие источники, которые могут приводить к ухудшению производительности, например, параметрического многоканального кодирования и, например, к преимущественной производительности отдельного кодирования.In an embodiment, the multi-channel encoder may be configured to determine if there are interfering sources in the input audio representation and switch depending on said determination. The interfering source may comprise two or more interfering audio sources, or two or more interfering voice data sources, or two or more interfering talking people. Interfering sources (either talking or talking people) in the input audio representation may be defined, for example, in a time-frequency part, or, for example, in an overlapping time-frequency resource or part. Determining whether there are interfering sources may advantageously allow switching between parametric multi-channel coding and separate coding, for example, based on determining that the input audio representation contains interfering sources, which can lead to performance degradation, for example, parametric multi-channel coding and, for example , to the advantageous performance of individual encoding.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеются ли два или более значения, описывающих взаимосвязь между двумя или более каналами входного аудиопредставления, которые соответствуют условию значимости, и которые ассоциированы с одной частотно-временной частью, и переключения в зависимости от упомянутого определения. Два или более значения могут содержать релевантные значения или значимые значения. Определение того, имеются ли два или более значения, которые соответствуют условию значимости, и ассоциированы с одной частотно-временной частью, может преимущественно обеспечивать возможность определения того, что, например, входное аудиопредставление может приводить к ухудшению производительности, например, параметрического многоканального кодирования и, например, к преимущественной производительности отдельного кодирования.In an embodiment, the multi-channel encoder may be configured to determine whether there are two or more values describing the relationship between two or more channels of the input audio presentation that meet a significance condition and that are associated with the same time-frequency part, and switch depending on the mentioned definition. Two or more values may contain relevant values or meaningful values. Determining whether there are two or more values that meet the significance condition and are associated with the same time-frequency portion may advantageously allow for determining that, for example, the input audio representation may result in performance degradation of, for example, parametric multi-channel coding and, for example, to the advantageous performance of a single encoding.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеются ли два или более пика во взаимной корреляции, например, GCC-PHAT, между двумя или более каналами входного аудиопредставления, и переключения в зависимости от упомянутого определения. Взаимная корреляция может быть связана с определённой частотно-временной частью. Определение того, имеются ли два или более пика во взаимной корреляции между двумя или более каналами, может преимущественно обеспечивать возможность количественного определения, могут ли находиться интерферирующие источники голосовых данных во входном аудиопредставлении, что может ухудшать производительность, например, параметрического многоканального кодирования, и переключаться, например, на отдельное кодирование после определения.In an embodiment, the multi-channel encoder may be configured to determine if there are two or more peaks in a cross-correlation, eg, GCC-PHAT, between two or more channels of the input audio presentation, and switch depending on said determination. Cross-correlation can be associated with a certain time-frequency part. Determining whether there are two or more peaks in the cross-correlation between two or more channels may advantageously allow quantification of whether there may be interfering voice data sources in the input audio representation, which may degrade performance of, for example, parametric multi-channel coding, and switch, for example, to a separate encoding after the definition.

В варианте осуществления, многоканальный кодер может содержать модуль оценки, выполненный с возможностью оценки взаимосвязи между двумя или более каналами входного аудиопредставления на основе взаимной корреляции. Модуль оценки может быть выполнен с возможностью оценки взаимосвязи по отдельности для множества частотно-временных частей. Модуль оценки может представлять собой модуль оценки ITD. Взаимная корреляция может представлять собой GCC-PHAT или сглаженную взаимную корреляцию. Взаимная корреляция может выполняться во временной области или может выполняться в частотной области. Многоканальный кодер может быть дополнительно выполнен с возможностью определения, превышает ли разность между двумя пиковыми значениями, например, релевантными и/или значимыми значениями, например, оцененными посредством модуля оценки, ассоциированными с различным запаздыванием взаимной корреляции, некоторое значение (например, заданное значение или сигнально-адаптивное значение), и переключения в зависимости от упомянутого определения. Модуль оценки, например, модуль оценки ITD может присутствовать в кодере, например, в кодере с использованием параметрического многоканального кодирования, и в силу этого использование модуля оценки для определения, является ли разность между двумя пиковыми значениями, ассоциированными с различным запаздыванием взаимной корреляции, большей, чем пороговое значение, может не вводить существенную дополнительную сложность.In an embodiment, the multi-channel encoder may comprise an estimator configured to estimate the relationship between two or more channels of the input audio representation based on cross-correlation. The estimator may be configured to separately evaluate the relationship for a plurality of time-frequency portions. The evaluation module may be an ITD evaluation module. The cross-correlation may be GCC-PHAT or smoothed cross-correlation. The cross-correlation may be performed in the time domain or may be performed in the frequency domain. The multi-channel encoder may be further configured to determine if the difference between two peak values, e.g., relevant and/or significant values, e.g. -adaptive value), and switching depending on the mentioned definition. An estimator, such as an ITD estimator, may be present in an encoder, such as an encoder using parametric multi-channel coding, and therefore, using an estimator to determine whether the difference between two peak values associated with different cross-correlation lags is greater than than the threshold may not introduce significant additional complexity.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, превышает ли расстояние между двумя или более значениями (например, релевантными значениями или значимыми значениями), описывающими взаимосвязь между двумя или более каналами входного аудиопредставления, которые соответствуют условию значимости, и которые ассоциированы с одной и той же частотно-временной частью, некоторое значение (например, заданное значение или сигнально-адаптивное значение), и переключения в зависимости от упомянутого определения. Расстояние может определяться относительно запаздывания во времени или запаздывания взаимной корреляции, например, во временной области. Два или более значения могут представлять собой пики взаимной корреляции между двумя или более каналами входного аудиопредставления и могут обеспечиваться посредством модуля оценки, например, модуля оценки ITD. Пиковые значения могут представлять собой значения, соответствующие условию значимости. Определение того, превышает ли расстояние между двумя или более значениями, которые соответствуют условию значимости, и которые ассоциированы с одной и той же частотно-временной частью, пороговое значение, обеспечивает возможность преимущественного различения, например, между двумя или более пиками, расположенными на небольшом расстоянии, которое может возможно приписываться одному источнику, и двумя или более пиками, расположенными на значимом (например, большем) расстоянии, которое может приписываться более чем одному источнику.In an embodiment, the multi-channel encoder may be configured to determine if the distance between two or more values (e.g., relevant values or significant values) describing a relationship between two or more channels of the input audio representation that meet a significance condition and that are associated with the same time-frequency part, some value (eg setpoint or signal-adaptive value), and switching depending on said definition. The distance may be defined with respect to time lag or cross-correlation lag, eg, in the time domain. The two or more values may represent cross-correlation peaks between two or more channels of the input audio presentation and may be provided by an estimator, such as an ITD estimator. Peak values may be values that meet a significance condition. Determining whether the distance between two or more values that meet the significance condition, and that are associated with the same time-frequency part, exceeds a threshold value allows for preferential discrimination, for example, between two or more peaks located at a short distance. , which may possibly be attributed to one source, and two or more peaks located at a significant (eg, greater) distance, which may be attributed to more than one source.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения первого характеристического значения на основе эволюции взаимной корреляции (например, для параметра запаздывания) и переключения на основе упомянутого определения. Первое характеристическое значение может представлять собой главный пик или первичный пик. Взаимная корреляция может содержать GCC-PHAT. Первое характеристическое значение может соответствовать условию значимости. Пиковое значение может представлять собой наибольшее (например, абсолютное) значение в эволюции. Определение может содержать оценку эволюций для одного или более кадров, в том числе, например, одного или более предыдущих кадров. Определение дополнительно может содержать определение того, соответствует ли значение условию стабильности. Условие стабильности, например, может выполняться, если значение находится в пределах диапазона (например, заданного диапазона или сигнально-адаптивного диапазона) для определенного числа предыдущих кадров (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров). Так же, в качестве альтернативы или дополнения, соответствие критерию стабильности может определяться на основе гистерезисного механизма, имеющего значение для определенного числа кадров (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров) в качестве ввода. Определение первого характеристического значения, например, главного пика, может обеспечивать возможность преимущественной оценки того, вызывает ли определенное значение (которое во многих случаях представляет собой наибольшее значение в эволюции взаимной корреляции), отдельно или в сочетании с дополнительным одним или более значениями, необходимость переключать кодирование между параметрическим многоканальным кодированием и отдельным кодированием. Кроме того, при необходимости учет условия значимости и/или условия стабильности позволяет преимущественно обеспечивать возможность определения того, должно ли переключение, например, избирательно исключаться, если, например, обнаруженное значение не является достаточно стабильным во времени и/или не находится на достаточно большом расстоянии, например, от минимального уровня шума.In an embodiment, the multi-channel encoder may be configured to determine the first characteristic value based on the evolution of the cross-correlation (eg, for the lag parameter) and switch based on said determination. The first characteristic value may be the main peak or the primary peak. Cross-correlation may contain GCC-PHAT. The first characteristic value may meet a significance condition. The peak value may be the largest (eg, absolute) value in evolution. The determination may comprise an evaluation of evolutions for one or more frames, including, for example, one or more previous frames. The determination may further comprise determining whether the value meets the stability condition. The stability condition may, for example, be met if the value is within a range (eg, predetermined range or signal-adaptive range) for a certain number of previous frames (eg, predetermined number of previous frames or signal-adaptive number of previous frames). Also, alternatively or in addition, compliance with the stability criterion can be determined based on a hysteresis mechanism having a value for a certain number of frames (eg, a given number of previous frames or a signal-adaptive number of previous frames) as an input. Determining a first characteristic value, such as a major peak, can advantageously assess whether a particular value (which in many cases represents the largest value in the cross-correlation evolution), alone or in combination with an additional one or more values, causes the need to switch coding between parametric multi-channel coding and separate coding. In addition, if necessary, taking into account the significance condition and/or the stability condition makes it possible to advantageously make it possible to determine whether the switching should be, for example, selectively excluded if, for example, the detected value is not sufficiently stable in time and/or is not located at a sufficiently large distance. , for example, from the minimum noise level.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения одного или более подчиненных характеристических значений на основе эволюции взаимной корреляции и переключения на основе упомянутого определения. Одно или более подчиненных характеристических значений могут представлять собой вторичные пики или вторые пики. Подчиненные значения могут определяться на основе части эволюции взаимной корреляции. Например, каждый элемент части может иметь расстояние (например, относительно запаздывания во времени, например, во временной области) до первого характеристического значения, которое превышает (например, заданное или сигнально-адаптивное) пороговое значение. Одно или более подчиненных характеристических значений могут соответствовать условию значимости. Одно или более подчиненных характеристических значений могут представлять собой одно или более наибольших (например, абсолютных) значений в части эволюции. Одно или более подчиненных характеристических значений могут соответствовать условию стабильности. Определение одного или более подчиненных характеристических значений может преимущественно обеспечивать возможность оценки того, вызывают ли определенные значения, например, первое характеристическое значение и/или одно или более подчиненных характеристических значений, необходимость переключать кодирование между параметрическим многоканальным кодированием и отдельным кодированием. Кроме того, при необходимости оценка для одного или более подчиненных значений в части эволюции взаимной корреляции, имеющей определенное расстояние от первого характеристического значения, может преимущественно обеспечивать возможность надежного приписывания входного аудиопредставления одному источнику или нескольким источникам. В качестве альтернативы или дополнения, многоканальный кодер может быть выполнен с возможностью определения, имеются ли одно или более подчиненных характеристических значений, на основе эволюции взаимной корреляции, и переключения в зависимости от упомянутого определения. Другими словами, простое существование одного или более подчиненных характеристических значений может определяться, например, например, на основе алгоритма распознавания образов и т.п.In an embodiment, the multi-channel encoder may be configured to determine one or more subordinate characteristic values based on cross-correlation evolution and switch based on said determination. One or more of the subordinate characteristic values may be secondary peaks or second peaks. Slave values may be determined based on part of the evolution of the cross-correlation. For example, each element of the part may have a distance (eg, relative to a time lag, eg, in the time domain) to the first characteristic value that exceeds a (eg, predetermined or signal-adaptive) threshold value. One or more subordinate characteristic values may meet a significance condition. One or more subordinate characteristic values may represent one or more of the largest (eg, absolute) values in terms of evolution. One or more subordinate characteristic values may meet the stability condition. Determining one or more sub-characteristic values may advantageously be able to judge whether certain values, such as the first characteristic value and/or one or more sub-characteristic values, cause the need to switch coding between parametric multi-channel coding and separate coding. In addition, if necessary, an estimate for one or more subordinate values in terms of cross-correlation evolution having a certain distance from the first characteristic value can advantageously enable the input audio representation to be reliably attributed to one or more sources. Alternatively or in addition, the multi-channel encoder may be configured to determine if there are one or more subordinate characteristic values based on the evolution of the cross-correlation and switch depending on said determination. In other words, the mere existence of one or more subordinate characteristic values may be determined, for example, based on a pattern recognition algorithm or the like, for example.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, что главный пик и один или более подчиненных пиков соответствуют условию значимости, и переключения в зависимости от упомянутого определения. Например, условие значимости выполняется, если разность (например, относительная разность) между главным пиком и одним или более подчиненных пиков превышает пороговое значение (например, заданное пороговое значение или сигнально-адаптивное пороговое значение) для определенного числа кадров, для которых выполняется условие стабильности. Разность между пиками может определяться, например, относительно их амплитуд или относительно их фаз, или относительно их запаздывания во времени. В качестве альтернативы или дополнения, многоканальный кодер может быть выполнен с возможностью определения, имеются ли один или более подчиненных пиков взаимной корреляции, которые соответствуют критерию релевантности, и переключения в зависимости от упомянутого определения. Критерий релевантности может задаваться, например, относительно главного пика и/или относительно минимального уровня шума взаимной корреляции. Определение значительной разности между главным пиком и одним или более подчиненными пиками преимущественно обеспечивает возможность надежного определения того, что во входном аудиопредставлении присутствует более одного источника, и переключения, например, на отдельное кодирование на основе упомянутого определения.In an embodiment, the multi-channel encoder may be configured to determine that the main peak and one or more sub peaks meet a significance condition and switch depending on said determination. For example, a significance condition is met if the difference (eg, relative difference) between the main peak and one or more subordinate peaks exceeds a threshold value (eg, a predetermined threshold or signal-adaptive threshold) for a certain number of frames for which the stability condition is met. The difference between the peaks can be determined, for example, with respect to their amplitudes, or with respect to their phases, or with respect to their time lag. Alternatively or in addition, the multi-channel encoder may be configured to determine if there are one or more subordinate cross-correlation peaks that meet a relevance criterion and switch depending on said determination. The relevance criterion can be set, for example, relative to the main peak and/or relative to the noise floor of the cross-correlation. Determining a significant difference between the main peak and one or more sub peaks advantageously enables a reliable determination that more than one source is present in the input audio representation and switching to, for example, a separate encoding based on said determination.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью избирательного учёта подчиненного пика в определённом кадре входного аудиопредставления, если имеются один или более соответствующих подчиненных пиков в одном или более кадрах, предшествующих упомянутому определённому кадру. Например, один или более соответствующих подчиненных пиков могут быть расположены с одинаковым запаздыванием автокорреляции с рассматриваемым подчиненным пиком либо в заданном диапазоне запаздываний автокорреляции около запаздывания автокорреляции рассматриваемого подчиненного пика. Избирательное рассмотрение подчиненного пика в определённом кадре с учетом одного или более соответствующих подчиненных пиков в одном или более предшествующих кадрах преимущественно обеспечивает возможность определения того, может ли определенная пространственная стабильность и/или стабильность уровня/фазы/частоты приписываться источнику/источникам, до переключения кодирования. Стабильность может охватывать один или более кадров и в силу этого может быть связана с обстоятельствами источника/источников, вместо ограничения посредством длины кадра.In an embodiment, the multi-channel encoder may be configured to selectively consider a sub peak in a particular frame of the input audio representation if there are one or more corresponding sub peaks in one or more frames preceding said particular frame. For example, one or more respective sub peaks may be located with the same autocorrelation lag as the sub peak under consideration, or within a predetermined range of autocorrelation lags around the autocorrelation lag of the sub peak under consideration. Selectively considering a sub-peak in a particular frame, given one or more corresponding sub-peaks in one or more preceding frames, advantageously allows a determination as to whether certain spatial and/or level/phase/frequency stability can be attributed to the source(s) prior to coding switching. Stability may span one or more frames and may therefore be related to the circumstances of the source(s) instead of being limited by frame length.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, соответствуют ли одно или более характеристических значений, которые описывают взаимосвязь между двумя или более каналами входного аудиопредставления, условию стабильности, и переключения в зависимости от упомянутого определения. Характеристические значения могут представлять собой главный пик и/или один или более подчиненных пиков. Условие стабильности может выполняться, например, если значение находится в пределах диапазона (например, заданного диапазона или сигнально-адаптивного диапазона) или превышает пороговое значение (например, заданное пороговое значение или сигнально-адаптивное пороговое значение) для определенного числа предыдущих кадров (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров). В качестве альтернативы или дополнения, соответствие условию стабильности может определяться на основе гистерезиса, имеющего значение для определенного числа (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров) кадров (например, предыдущих кадров) в качестве ввода. Определение соответствия условию стабильности может преимущественно обеспечивать возможность исключения переключения на зашумленном входном аудиопредставлении либо его частях, например, на зашумленных кадрах.In an embodiment, the multi-channel encoder may be configured to determine if one or more characteristic values that describe the relationship between two or more input audio presentation channels meet a stability condition, and switch depending on said determination. The characteristic values may be a main peak and/or one or more sub peaks. The stability condition may be met, for example, if the value is within a range (eg, a given range or signal adaptive range) or exceeds a threshold value (eg, a given threshold or signal adaptive threshold) for a certain number of previous frames (eg, a given number of previous frames or signal-adaptive number of previous frames). Alternatively or in addition, compliance with the stability condition may be determined based on a hysteresis having a value for a certain number (eg, a given number of previous frames or a signal-adaptive number of previous frames) of frames (eg, previous frames) as an input. Determining whether the stability condition is met may advantageously enable switching to be avoided on a noisy input audio representation or portions thereof, such as noisy frames.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, выполнено ли условие по шуму для определенного числа кадров (например, заданного числа кадров или сигнально-адаптивного числа кадров), и избирательного исключения переключения, если условие по шуму выполнено. Кадры могут включать в себя текущий кадр. Условие по шуму может выполняться, например, если шумовая характеристика (например, минимальный уровень шума) кадра (или определенного числа кадров) превышает пороговое значение (например, заданное пороговое значение или сигнально-адаптивное пороговое значение). Определение выполнения условия по шуму может преимущественно обеспечивать возможность исключения переключения на зашумленном входном аудиопредставлении либо его частях, например, на зашумленных кадрах.In an embodiment, the multi-channel encoder may be configured to determine if a noise condition is met for a certain number of frames (eg, a given number of frames or a signal-adaptive number of frames) and selectively eliminate switching if the noise condition is met. The frames may include the current frame. The noise condition may be met, for example, if the noise characteristic (eg, noise floor) of a frame (or a certain number of frames) exceeds a threshold value (eg, a predetermined threshold or a signal-adaptive threshold). Determining whether a noise condition is met may advantageously enable switching to be avoided on a noisy input audio representation or portions thereof, such as on noisy frames.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, выполнено ли условие значимости и/или условие стабильности для характеристического значения для определенного числа кадров, и переключения в зависимости от упомянутого определения. Характеристическое значение может представлять собой главный пик и/или один или более подчиненных пиков. Число кадров может быть заданным или сигнально-адаптивным. Кадры могут включать в себя один или более предыдущих кадров и/или текущий кадр. Определение выполнения условия значимости и/или условия стабильности для определенного числа кадров может преимущественно обеспечивать возможность избирательного исключения переключения на нестабильных сигналах, например, на нестабильных и/или шумовых частях входного аудиопредставления.In an embodiment, the multi-channel encoder may be configured to determine whether a significance condition and/or a stability condition is met for a characteristic value for a certain number of frames, and switch depending on said determination. The characteristic value may be a main peak and/or one or more sub peaks. The number of frames may be predetermined or signal-adaptive. Frames may include one or more previous frames and/or the current frame. Determining whether the significance condition and/or the stability condition is met for a certain number of frames may advantageously allow switching to be selectively avoided on unstable signals, eg, unstable and/or noisy portions of the input audio presentation.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, находится ли расстояние одного или более подчиненных пиков в заданном диапазоне, и переключения и/или избирательного исключения переключения в зависимости от упомянутого определения. Например, один или более подчиненных пиков могут иметь наибольшее значение (например, наибольшее абсолютное значение) и могут называться пиком (2). Расстояние может определяться относительно запаздывания во времени (например, абсолютного запаздывания времени или относительного запаздывания во времени) и/или может определяться во временной области или в частотной области. Расстояние может определяться для определенного числа кадров (например, заданного числа кадров или сигнально-адаптивного числа кадров). Кадры могут включать в себя один или более предыдущих кадров и/или текущий кадр. Определение того, находится ли расстояние одного или более пиков в заданном диапазоне, и переключение и/или избирательное исключение переключения на основе этого позволяет преимущественно обеспечивать возможность избирательного исключения переключения на нестабильных сигналах, например, на нестабильных и/или шумовых частях входного аудиопредставления.In an embodiment, the multi-channel encoder may be configured to determine if the distance of one or more sub-peaks is within a predetermined range and switch and/or selectively exclude the switch depending on said determination. For example, one or more subordinate peaks may have the largest value (eg, the largest absolute value) and may be referred to as peak (2). Distance may be defined with respect to time lag (eg, absolute time lag or relative time lag) and/or may be defined in the time domain or frequency domain. The distance may be determined for a certain number of frames (eg, a given number of frames or a signal-adaptive number of frames). Frames may include one or more previous frames and/or the current frame. Determining whether the distance of one or more peaks is within a predetermined range and switching and/or selectively de-switching based on this advantageously enables selective de-switching on unstable signals, such as unstable and/or noisy portions of the input audio presentation.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью избирательного исключения переключения в первом кадре после неактивного кадра входного аудиопредставления или после него. Неактивный кадр может содержать шумовой кадр. В качестве альтернативы или дополнения, многоканальный кодер может быть выполнен с возможностью определения, изменен ли определённый флаг в кадре относительно одного или более предыдущих кадров, и избирательного исключения переключения в зависимости от упомянутого определения. Флаг, например, может указывать активный сигнал и может представлять собой флаг SAD. Избирательное исключение переключения могло содержать исключение переключения в или после первого кадра, в котором флаг принимает активное значение. Как результат, переключение в первом кадре части сигнала может преимущественно избирательно исключаться.In an embodiment, the multi-channel encoder may be configured to selectively eliminate switching in the first frame after or after an inactive frame of the input audio presentation. An inactive frame may contain a noise frame. Alternatively, or in addition, the multi-channel encoder may be configured to determine if a certain flag in a frame has changed relative to one or more previous frames, and selectively eliminate switching depending on said determination. The flag, for example, may indicate an active signal and may be an SAD flag. The selective switch exception could comprise a switch exception at or after the first frame in which the flag becomes active. As a result, switching in the first frame of the signal part can be advantageously selectively suppressed.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью избирательного переключения на отдельное кодирование в ответ на обнаружение изменения характеристики входного аудиопредставления, которое больше порогового значения (например, заданного порогового значения или сигнально-адаптивного порогового значения). Характеристика входного аудиопредставления, например, может представлять собой ITD или главный пик или peak (1). Избирательное переключение на отдельное кодирование в ответ на обнаружение изменения характеристики, превышающее пороговое значение, может преимущественно обеспечивать возможность реакции на резкое изменение без необходимости оценивать дополнительные характеристики/параметры.In an embodiment, the multi-channel encoder may be configured to selectively switch to individual coding in response to detecting a change in input audio presentation characteristic that is greater than a threshold (eg, a predetermined threshold or a signal-adaptive threshold). The characteristic of the input audio representation, for example, may be an ITD or main peak or peak(1). Selectively switching to a separate coding in response to detecting a characteristic change that exceeds a threshold value may advantageously allow response to the abrupt change without the need to evaluate additional characteristics/parameters.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, изменен ли параметр, описывающий направление источника звука (например, относительно предыдущего/последнего кадра) по меньшей мере на упомянутое значение (например, пороговое значение), и переключения в зависимости от упомянутого определения. Параметр может представлять собой местоположение главного пика во взаимной корреляции (например, в GCC-PHAT) в частотно-временной части. Переключение может содержать переключение на отдельное кодирование. Определение того, имеет ли параметр, описывающий направление источника звука, изменение по меньшей мере на пороговое значение, может преимущественно обеспечивать возможность переключения на определенное кодирование, например, отдельное кодирование, если источник звука быстро перемещается, например, относительно микрофона, или дополнительный источник звука внезапно появляется и интерферирует с существующим источником звука в частотно-временной части.In an embodiment, the multi-channel encoder may be configured to determine if a parameter describing the direction of the sound source has changed (eg, relative to the previous/last frame) by at least the mentioned value (eg, threshold value), and switch depending on the mentioned determination . The parameter may be the location of the main peak in the cross-correlation (eg, in GCC-PHAT) in the time-frequency part. The switch may comprise switching to a separate encoding. Determining whether a parameter describing the direction of the sound source has changed by at least a threshold value may advantageously allow switching to a certain coding, for example a separate coding, if the sound source is moving rapidly, for example relative to a microphone, or the additional sound source suddenly appears and interferes with the existing sound source in the time-frequency part.

Кроме того, предложен многоканальный аудиодекодер. Многоканальный аудиодекодер может представлять собой стерео- или двухканальный либо более чем двухканальный аудиодекодер. Аудиодекодер может представлять собой аудиодекодер общего назначения или голосовой декодер, или декодер, переключающийся между декодированием в области преобразования с использованием коэффициентов масштабирования и декодированием на основе коэффициентов линейного прогнозирования. Декодер выполнен с возможностью формирования декодированного аудиопредставления на основе кодированного аудиопредставления. Декодер выполнен с возможностью переключения между параметрическим многоканальным декодированием множества каналов, например, каналов входного аудиопредставления и отдельным декодированием множества каналов, например, каналов входного аудиопредставления.In addition, a multi-channel audio decoder is provided. The multi-channel audio decoder may be a stereo or two-channel or more than two-channel audio decoder. The audio decoder may be a general purpose audio decoder or a voice decoder, or a decoder switching between transform domain decoding using scaling factors and decoding based on linear prediction coefficients. The decoder is configured to generate a decoded audio representation based on the encoded audio representation. The decoder is configured to switch between parametric multi-channel decoding of a plurality of channels, eg, input audio presentation channels, and separate decoding of a plurality of channels, eg, input audio presentation channels.

Для параметрического многоканального декодирования, может кодироваться комбинированный сигнал, комбинирующий множество канальных сигналов, и может кодироваться в форме параметров взаимосвязь между двумя или более каналами . Параметры могут содержать параметры межканальной разности времен и/или параметры межканальной разности уровней, и/или межканальные фазовые параметры, и/или параметры межканальной корреляции.For parametric multi-channel decoding, a combined signal combining a plurality of channel signals may be encoded, and may be encoded in the form of relationship parameters between two or more channels. The parameters may comprise inter-channel time difference parameters and/or inter-channel level difference parameters and/or inter-channel phase parameters and/or inter-channel correlation parameters.

Переключение между параметрическим многоканальным декодированием и отдельным декодированием преимущественно обеспечивает возможность адаптации декодирования (и в силу этого также кодирования) к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным декодированием и отдельным декодированием может обеспечивать возможность выбора кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, в отношении воспринимаемой производительности.Switching between parametric multi-channel decoding and separate decoding advantageously allows the decoding (and therefore also the coding) to be adapted to the characteristics of the input audio presentation. Selective switching between parametric multi-channel decoding and separate decoding may allow selection of an encoding more appropriate for encoding the underlying input audio representation such that the resulting encoded audio representation may have advantageous properties, eg, in terms of perceived performance.

Другими словами, настоящее изобретение заключает в себе компромисс между усилиями для получения характеристик входного аудиопредставления, с последующим действием (например, переключением) в отношении этих характеристик, и преимуществом входного аудиопредставления, кодированного (и в силу этого доступного для декодирования) посредством использования кодирования, которое является преимущественным для определенного входного аудиопредставления (либо его части), например, с точки зрения критерия производительности.In other words, the present invention involves a trade-off between the effort to obtain the characteristics of the input audio presentation, followed by action (e.g., switching) on those characteristics, and the advantage of the input audio presentation being encoded (and therefore decodeable) by using an encoding that is advantageous for a certain input audio representation (or part of it), for example, in terms of performance criteria.

В варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью переключения между параметрическим многоканальным декодированием и отдельным декодированием в зависимости от передачи служебных сигналов, включенной в кодированное аудиопредставление. Передача служебных сигналов, включенная в кодированное аудиопредставление, может упрощать декодер относительно декодера, который логически выводит базовую схему кодирования, например, на основе контекста полученного кодированного аудиопредставления.In an embodiment, the multi-channel audio decoder may be configured to switch between parametric multi-channel decoding and separate decoding depending on the signaling included in the encoded audio representation. Signaling included in the encoded audio representation may simplify the decoder with respect to a decoder that infers the underlying coding scheme, eg, based on the context of the received encoded audio representation.

Помимо этого, предложено кодированное многоканальное аудиопредставление. Многоканальное аудиопредставление может представлять собой стерео- или двухканальное либо более чем двухканальное аудиопредставление. Кодированное многоканальное аудиопредставление содержит кодированное параметрическое многоканальное представление множества каналов (например, входного аудиопредставления) и кодированное отдельное представление множества каналов (например, входного аудиопредставления).In addition, an encoded multi-channel audio presentation is proposed. The multi-channel audio presentation may be a stereo or two-channel or more than two-channel audio presentation. The encoded multi-channel audio representation comprises an encoded parametric multi-channel representation of a plurality of channels (eg, the input audio representation) and an encoded individual representation of the plurality of channels (eg, the input audio representation).

Другими словами, многоканальное аудиопредставление настоящего изобретения преимущественно обеспечивает возможность избирательного использования кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, относительно воспринимаемой производительности или любого другого критерия.In other words, the multi-channel audio representation of the present invention advantageously allows the selective use of an encoding more suitable for encoding the underlying input audio representation, such that the resulting encoded audio representation may have advantageous properties, for example, regarding perceived performance or any other criteria.

В варианте осуществления, кодированное многоканальное аудиопредставление дополнительно может содержать передачу служебных сигналов, указывающую (например, для декодера) необходимость переключаться между параметрическим многоканальным представлением и отдельным представлением. Передача служебных сигналов может указывать необходимость переключаться, например, при декодировании кодированного многоканального аудиопредставления.In an embodiment, the encoded multi-channel audio presentation may further comprise signaling indicating (eg, to the decoder) the need to switch between the parametric multi-channel representation and the separate representation. The signaling may indicate the need to switch, for example, when decoding an encoded multi-channel audio presentation.

Кроме того, предложен способ многоканального кодирования аудиоданных. Многоканальное кодирование может содержать стерео- или двухканальное либо более чем двухканальное кодирование аудиоданных. Кодирование аудиоданных может выполняться посредством общего аудиокодера или голосового кодера, или кодера, переключающегося между кодированием в области преобразования с использованием коэффициентов масштабирования и кодированием на основе коэффициентов линейного прогнозирования. Кодирование обеспечивает кодированное аудиопредставление на основе входного аудиопредставления. Способ содержит переключение между параметрическим многоканальным кодированием множества каналов, например, каналов входного аудиопредставления и отдельным кодированием множества каналов, например, каналов входного аудиопредставления, в зависимости от характеристик входного аудиопредставления.In addition, a method for multi-channel encoding of audio data is provided. The multi-channel coding may comprise stereo or two-channel or more than two-channel audio data coding. The encoding of the audio data may be performed by a general audio encoder or a voice encoder, or an encoder switching between transform-domain coding using scaling factors and coding based on linear prediction coefficients. The encoding provides an encoded audio representation based on the input audio representation. The method comprises switching between parametric multi-channel coding of a plurality of channels, eg, channels of an input audio presentation, and separate coding of a plurality of channels, eg, channels of an input audio presentation, depending on the characteristics of the input audio presentation.

Переключение между параметрическим многоканальным кодированием и отдельным кодированием в зависимости от характеристик входного аудиопредставления преимущественно обеспечивает возможность адаптации кодирования к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным кодированием и отдельным кодированием может приводить к выбору кодирования, более подходящего для того, чтобы кодировать базовое входное аудиопредставление таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, относительно воспринимаемой производительности либо любого другого критерия производительности.Switching between parametric multi-channel coding and separate coding depending on the characteristics of the input audio presentation advantageously allows the coding to be adapted to the characteristics of the input audio presentation. Selective switching between parametric multi-channel coding and separate coding may result in the selection of an coding more appropriate to encode the underlying input audio representation such that the resulting encoded audio representation may have advantageous properties, such as with respect to perceived performance or any other performance criteria.

Кроме того, предложен способ многоканального декодирования аудиоданных. Многоканальное декодирование аудиоданных может содержать стерео- или двухканальное либо более чем двухканальное декодирование аудиоданных. Декодирование аудиоданных может выполняться посредством общего аудиодекодера или голосового декодера, или декодера, переключающегося между декодированием в области преобразования с использованием коэффициентов масштабирования и декодированием на основе коэффициентов линейного прогнозирования. Декодирование обеспечивает декодированное аудиопредставление на основе кодированного аудиопредставления. Способ содержит переключение между параметрическим многоканальным декодированием множества каналов, например, каналов входного аудиопредставления и отдельным декодированием множества каналов, например, каналов входного аудиопредставления.In addition, a method for multi-channel decoding of audio data is provided. The multi-channel audio data decoding may comprise stereo or two-channel or more than two-channel audio data decoding. Audio data decoding may be performed by a general audio decoder or a voice decoder, or a decoder switching between transform-domain decoding using scaling factors and decoding based on linear prediction coefficients. The decoding provides a decoded audio representation based on the encoded audio representation. The method comprises switching between parametric multi-channel decoding of a plurality of channels, eg, input audio presentation channels, and separate decoding of a plurality of channels, eg, input audio presentation channels.

Для параметрического многоканального декодирования может кодироваться комбинированный сигнал, комбинирующий множество канальных сигналов, и может кодироваться в форме параметров взаимосвязь между двумя или более каналами. Параметры могут содержать параметры межканальной разности времен и/или параметры межканальной разности уровней, и/или межканальные фазовые параметры, и/или параметры межканальной корреляции.For parametric multi-channel decoding, a combined signal combining a plurality of channel signals may be encoded, and a relationship between two or more channels may be encoded in the form of parameters. The parameters may comprise inter-channel time difference parameters and/or inter-channel level difference parameters and/or inter-channel phase parameters and/or inter-channel correlation parameters.

Переключение между параметрическим многоканальным декодированием и отдельным декодированием преимущественно обеспечивает возможность адаптации декодирования (и в силу этого также кодирования) к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным декодированием и отдельным декодированием может обеспечивать возможность выбора кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, относительно воспринимаемой производительности.Switching between parametric multi-channel decoding and separate decoding advantageously allows the decoding (and therefore also the coding) to be adapted to the characteristics of the input audio presentation. Selective switching between parametric multi-channel decoding and separate decoding may allow selection of an encoding more appropriate for encoding the underlying input audio representation such that the resulting encoded audio representation may have advantageous properties, eg, with respect to perceived performance.

При необходимости способ может дополняться любыми из признаков, функциональностей и подробностей, раскрытых в данном документе также в отношении устройства. При необходимости способ может дополняться такими признаками, функциональностями и подробностями как в отдельности, так и в сочетании.If necessary, the method can be supplemented with any of the features, functionality and details disclosed herein also in relation to the device. If necessary, the method can be supplemented with such features, functionality and details, either individually or in combination.

Кроме того, предложена компьютерная программа для осуществления одного из способов, описанных выше, когда компьютерная программа выполняется на компьютере.In addition, a computer program is provided for carrying out one of the methods described above when the computer program is running on a computer.

Ниже с обращением к сопровождающим чертежам поясняются варианты осуществления настоящего изобретения.Below, with reference to the accompanying drawings, embodiments of the present invention are explained.

Краткое описание чертежейBrief description of the drawings

Ниже варианты осуществления согласно настоящему изобретению описаны с использованием сопровождающих чертежей, на которых:Below, embodiments according to the present invention are described using the accompanying drawings, in which:

Фиг. 1 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления;Fig. 1 shows a schematic block diagram of an audio encoder according to an embodiment;

Фиг. 2 показывает принципиальную блок-схему аудиодекодера согласно варианту осуществления;Fig. 2 shows a schematic block diagram of an audio decoder according to an embodiment;

Фиг. 3 показывает блок-схему способа формирования кодированного аудиопредставления согласно варианту осуществления;Fig. 3 shows a flowchart of a method for generating an encoded audio representation according to an embodiment;

Фиг. 4 показывает блок-схему способа формирования декодированного аудиопредставления согласно варианту осуществления;Fig. 4 shows a flowchart of a method for generating a decoded audio presentation according to an embodiment;

Фиг. 5 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления;Fig. 5 shows a schematic block diagram of an audio encoder according to an embodiment;

Фиг. 6 показывает представление аудиосигнала и пиков корреляции;Fig. 6 shows a representation of the audio signal and correlation peaks;

Фиг. 7 показывает представление корреляционной функции; иFig. 7 shows a representation of the correlation function; and

Фиг. 8 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления.Fig. 8 shows a schematic block diagram of an audio encoder according to an embodiment.

Осуществление изобретенияImplementation of the invention

1. Аудиокодер по фиг. 11. The audio encoder of FIG. one

Фиг. 1 схематично показывает многоканальный аудиокодер 100. Многоканальный аудиокодер 100 содержит входное аудиопредставление 110 в качестве ввода. Например, входное аудиопредставление 110 может содержать несколько каналов. Многоканальный аудиокодер 100 выдаёт в качестве выходных данных кодированное аудиопредставление 112.Fig. 1 schematically shows a multi-channel audio encoder 100. The multi-channel audio encoder 100 contains an input audio representation 110 as an input. For example, the input audio representation 110 may contain multiple channels. The multi-channel audio encoder 100 outputs an encoded audio representation 112.

Многоканальный аудиокодер 100 содержит функциональный блок для выполнения параметрического многоканального кодирования 120 и функциональный блок для выполнения отдельного кодирования 130 множества каналов. Входное аудиопредставление 110 передаётся в каждый из функциональных блоков 120 и 130. Вывод каждого из функциональных блоков 120 и 130 избирательно переключается посредством переключающего элемента 140 таким образом, что многоканальный аудиокодер 100 обеспечивает кодированное аудиопредставление 112.The multi-channel audio encoder 100 includes a functional block for performing parametric multi-channel encoding 120 and a functional block for performing separate encoding 130 of multiple channels. The input audio representation 110 is passed to each of the function blocks 120 and 130. The output of each of the function blocks 120 and 130 is selectively switched by the switching element 140 such that the multi-channel audio encoder 100 provides the encoded audio representation 112.

Многоканальный аудиокодер 100 управляет переключающим элементом 140 посредством использования управляющего переключающего сигнала 145 в зависимости от характеристик входного аудиопредставления 110. Управляющий сигнал 145 может обеспечиваться посредством факультативного функционального блока для выполнения управления 150 переключением, содержащегося в многоканальном аудиокодере 100, либо любого другого подходящего средства.The multi-channel audio encoder 100 controls the switching element 140 by using a control switching signal 145 depending on the characteristics of the input audio representation 110. The control signal 145 may be provided by an optional function block for performing switching control 150 contained in the multi-channel audio encoder 100, or any other suitable means.

В качестве альтернативы или дополнения, управляющий переключающий сигнал 145 также может передаваться в любой из функциональных блоков 120 и 130 таким образом, что блоки 120 и 130 могут быть избирательно деактивированы (например, отключены). Например, функциональный блок для выполнения параметрического многоканального кодирования 120 может быть деактивирован на основе управляющего переключающего сигнала 145, если управляющий переключающий сигнал 145 указывает, что функциональный блок для выполнения отдельного кодирования 130 множества каналов должен использоваться для кодирования входного аудиопредставления 110.Alternatively or in addition, the control switch signal 145 may also be passed to any of the functional blocks 120 and 130 such that the blocks 120 and 130 can be selectively disabled (eg, disabled). For example, the function block for performing parametric multi-channel encoding 120 may be deactivated based on the control trigger signal 145 if the control trigger signal 145 indicates that the function block for performing individual multi-channel encoding 130 should be used to encode the input audio representation 110.

В качестве альтернативы, функциональный блок для выполнения отдельного кодирования 130 множества каналов может деактивироваться на основе управляющего переключающего сигнала 145, если управляющий переключающий сигнал 145 указывает то, что, функциональный блок для выполнения параметрического многоканального кодирования 120 должен использоваться для кодирования входного аудиопредставления 110.Alternatively, the function block for performing separate multi-channel encoding 130 may be deactivated based on the control switching signal 145 if the control switching signal 145 indicates that the function block for performing parametric multi-channel encoding 120 is to be used to encode the input audio representation 110.

При необходимости аудиокодер 100 может дополняться любыми из признаков, функциональностей и подробностей, раскрытых в данном документе, как в отдельности, так и в сочетании.If desired, audio encoder 100 may be supplemented with any of the features, functionality, and details disclosed herein, either alone or in combination.

2. Аудиодекодер по фиг. 22. The audio decoder of FIG. 2

Фиг. 2 схематично показывает многоканальный аудиодекодер 200. Многоканальный аудиодекодер 200 содержит кодированное аудиопредставление 210 в качестве ввода. Многоканальный аудиодекодер 200 обеспечивает декодированное аудиопредставление 212. Например, декодированное аудиопредставление 212 может содержать множество каналов.Fig. 2 schematically shows a multi-channel audio decoder 200. The multi-channel audio decoder 200 contains an encoded audio representation 210 as an input. The multi-channel audio decoder 200 provides a decoded audio presentation 212. For example, the decoded audio presentation 212 may comprise multiple channels.

Многоканальный декодер 200 содержит функциональный блок для выполнения параметрического многоканального декодирования 220 и функциональный блок для выполнения отдельного декодирования 230 множества каналов. Кодированное аудиопредставление 210 передаётся в каждый из функциональных блоков 220 и 230. Вывод каждого из функциональных блоков 220 и 230 избирательно переключается посредством переключающего элемента 240 таким образом, что многоканальный аудиодекодер 200 обеспечивает декодированное аудиопредставление 212.The multi-channel decoder 200 includes a function block for performing parametric multi-channel decoding 220 and a function block for performing separate decoding 230 of multiple channels. The encoded audio representation 210 is provided to each of the function blocks 220 and 230. The output of each of the function blocks 220 and 230 is selectively switched by the switching element 240 such that the multi-channel audio decoder 200 provides the decoded audio representation 212.

Переключающий элемент 240 представляет собой контроллер, например, посредством неявной передачи служебных сигналов или явной передачи служебных сигналов (не показана), содержащейся в кодированном аудиопредставлении 210.The switching element 240 is a controller, for example, through implicit signaling or explicit signaling (not shown) contained in the encoded audio representation 210.

При необходимости аудиодекодер 200 может дополняться любыми из признаков, функциональностей и подробностей, раскрытых в данном документе, как в отдельности, так и в сочетании.If desired, audio decoder 200 may be supplemented with any of the features, functionality, and details disclosed herein, either alone or in combination.

3. Способ формирования кодированного аудиопредставления по фиг. 33. The method for generating the encoded audio representation of FIG. 3

Фиг. 3 схематично показывает способ 300 многоканального кодирования аудиоданных. Способ 300 содержит этап 310 переключения между параметрическим многоканальным кодированием множества каналов и отдельным кодированием множества каналов в зависимости от характеристик входного аудиопредставления. Помимо этого, способ 300 содержит этап 320, на котором формируется кодированное аудиопредставление.Fig. 3 schematically shows a method 300 for multi-channel encoding of audio data. The method 300 comprises a step 310 of switching between parametric multi-channel multi-channel coding and separate multi-channel coding depending on the characteristics of the input audio representation. In addition, method 300 includes step 320, which generates an encoded audio representation.

Следует отметить, что при необходимости способ 300 может выполнять дополнительные подходящие действия, которые раскрыты в отношении любого из устройств, например многоканального кодера согласно настоящему изобретению.It should be noted that, if necessary, method 300 can perform additional suitable actions that are disclosed in relation to any of the devices, such as a multi-channel encoder according to the present invention.

4. Способ формирования кодированного аудиопредставления по фиг. 44. The method for generating the encoded audio representation of FIG. 4

Фиг. 4 схематично показывает способ 400 многоканального декодирования аудиоданных. Способ 400 содержит этап 410 переключения между параметрическим многоканальным декодированием множества каналов и отдельным декодированием множества каналов. Помимо этого, способ 400 содержит этап 420, на котором формируется декодированное аудиопредставление.Fig. 4 schematically shows a method 400 for multi-channel decoding of audio data. Method 400 includes a step 410 of switching between parametric multi-channel decoding of multiple channels and separate decoding of multiple channels. In addition, method 400 includes step 420, which generates a decoded audio representation.

Следует отметить, что при необходимости способ 400 может выполнять дополнительные подходящие действия, которые раскрыты в отношении любого из устройств, например многоканального декодера согласно настоящему изобретению.It should be noted that, if necessary, method 400 can perform additional suitable actions that are disclosed in relation to any of the devices, such as a multi-channel decoder according to the present invention.

5. Аудиокодер по фиг. 55. The audio encoder of FIG. five

Фиг. 5 схематично показывает вариант осуществления многоканального аудиокодера 500. Многоканальный аудиокодер 500 содержит два сигнала входного аудиопредставления, т.е. сигнал 510a аудиопредставления, который соответствует левому каналу и обозначается посредством L, и сигнал 510b аудиопредставления, который соответствует правому каналу и обозначается посредством R.Fig. 5 schematically shows an embodiment of a multi-channel audio encoder 500. The multi-channel audio encoder 500 contains two input audio representation signals, i. an audio presentation signal 510a that corresponds to the left channel and is denoted by L, and an audio presentation signal 510b that corresponds to the right channel and is denoted by R.

Каждый из сигналов 510a и 510b входного аудиопредставления при необходимости подвергается анализу в частотной области в функциональных блоках 520a и 520b, соответственно. Каждый из функциональных блоков 520a и 520b получает сигнал во временной области, т.е. эволюцию сигнала во времени и выдаёт информацию относительно сигнала относительно амплитуды и/или фаза сигнала в определённой полосе частот для диапазона частот. Функциональные блоки 520a и 520b выдают выходные сигналы 522a и 522b, соответственно. В качестве альтернативы, функциональные блоки 520a и 520b могут не присутствовать, и сигнал 522a может равняться сигналу 510a, и сигнал 522b может равняться сигналу 510b.Each of the input audio presentation signals 510a and 510b is subjected to frequency domain analysis in function blocks 520a and 520b, respectively, if necessary. Function blocks 520a and 520b each receive a signal in the time domain, i.e. the evolution of a signal over time and provides information about the signal with respect to the amplitude and/or phase of the signal in a specific frequency band for a frequency range. Function blocks 520a and 520b provide output signals 522a and 522b, respectively. Alternatively, function blocks 520a and 520b may not be present and signal 522a may equal signal 510a and signal 522b may equal signal 510b.

Сигналы 522a и 522b передаются в функциональный блок 530. Блок 530 выполняет операцию взаимной корреляции для сигналов 530 и выдаёт сигнал 532 обнаружения, указывающий, обнаружен ли интерферирующий источник голосовых данных в сигналах 510a и 510b входного аудиопредставления. Более конкретно, блок 530 выполняет обобщенное взаимное корреляционное фазовое преобразование, которое также упоминается как GCC-PHAT, для сигналов 522a и 522b. GCC-PHAT выполняет операцию взаимной корреляции с использованием функции взвешивания, которая нормализует спектральную плотность сигнала, чтобы получать пики, которые преимущественно являются отличимыми, например, относительно минимального уровня шума. GCC-PHAT обеспечивает значение, указывающее показатель подобия его входных сигналов, имеющих запаздывание во времени между двумя сигналами в качестве параметра. Как результат, посредством анализа пиков в результате операции GCC-PHAT, блок 530 определяет межканальную разность времен, которая также упоминается как интерауральная разность времен или ITD, и делает заключение в качестве вывода о том, присутствует ли интерферирующий источник голосовых данных в сигналах 510a аудиопредставления и 510b. Для определения, присутствует ли интерферирующий источник голосовых данных в сигналах 510a и 510b, блок 530 при необходимости может использовать условие значимости, условие стабильности и/или условие по шуму, поясненные в сочетании с другими вариантами осуществления настоящего изобретения. Сигнал 532 дополнительно может содержать оценку ITD.Signals 522a and 522b are passed to function block 530. Block 530 performs a cross-correlation operation on signals 530 and outputs a detection signal 532 indicating whether an interfering voice source is detected in input audio presentation signals 510a and 510b. More specifically, block 530 performs a generalized cross-correlation phase transform, also referred to as GCC-PHAT, on signals 522a and 522b. GCC-PHAT performs a cross-correlation operation using a weighting function that normalizes the spectral density of the signal to obtain peaks that are predominantly distinct, eg relative to the noise floor. GCC-PHAT provides a value indicating the similarity score of its input signals having a time delay between two signals as a parameter. As a result, by analyzing the peaks resulting from the GCC-PHAT operation, the block 530 determines the inter-channel time difference, which is also referred to as the interaural time difference or ITD, and concludes whether an interfering source of voice data is present in the audio presentation signals 510a and 510b. To determine if an interfering voice source is present in signals 510a and 510b, block 530 may optionally use a significance condition, a stability condition, and/or a noise condition, explained in conjunction with other embodiments of the present invention. Signal 532 may further comprise an ITD estimate.

Сигнал 532 передаётся в контроллер 540. Контроллер 540 также получает сигналы 522a и 522b в качестве вводов. Контроллер избирательно передаёт сигналы 522a, 522b и оценку ITD в параметрический стереокодер 550 (т.е. функциональный блок для параметрического многоканального кодирования) или в блок 560 L-R-кодирования (т.е. функциональный блок для кодирования отдельных каналов) в зависимости от сигнала обнаружения, обеспеченного блоком 530. Более конкретно, контроллер 540 передаёт оценку ITD и сигналы 522a и 522b в параметрический стереокодер 550 в ответ на получение указания на то, что интерферирующий источник голосовых данных не присутствует в сигналах 510a и 510b. В ответ на это, кодер 550 обеспечивает кодированное аудиопредставление 552 согласно параметрическому многоканальному кодированию в качестве выходных данных многоканального аудиокодера 500. В качестве альтернативы, в ответ на получение указания на то, что интерферирующий источник голосовых данных присутствует в сигналах 510a и 510b, контроллер 540 передаёт сигналы 522a и 522b в блок 560 L-R-кодирования. В ответ на это, блок 560 кодирования обеспечивает кодированное аудиопредставление 562 согласно отдельному кодированию (например, левому-правому, L-R-кодированию).Signal 532 is passed to controller 540. Controller 540 also receives signals 522a and 522b as inputs. The controller selectively passes the signals 522a, 522b and the ITD estimate to the parametric stereo encoder 550 (i.e., a functional block for parametric multi-channel coding) or to the L-R encoder 560 (i.e., a functional block for coding individual channels) depending on the detection signal. provided by block 530. More specifically, controller 540 passes the ITD estimate and signals 522a and 522b to parametric stereo encoder 550 in response to receiving an indication that an interfering voice data source is not present in signals 510a and 510b. In response to this, the encoder 550 provides an encoded audio representation 552 according to the parametric multi-channel coding as an output of the multi-channel audio encoder 500. Alternatively, in response to receiving an indication that an interfering voice data source is present in the signals 510a and 510b, the controller 540 transmits signals 522a and 522b to L-R encoder 560. In response to this, the coding unit 560 provides an encoded audio representation 562 according to a separate coding (eg, left-right, L-R coding).

Параметрический стереокодер 550 может реализовывать кодирование, как описано в [1] или [2]. Следует понимать, что соответствующий стандарт (или кроме того, набор правил), определяющий параметрическое стереокодирование, например, в части 3 стандарта MPEG-4 или HE-AAC v2, может использоваться посредством кодера 550. Блок 560 кодирования может реализовывать кодер, как описано в [4]. Следует понимать, что соответствующий стандарт (или набор правил), определяющий отдельное кодирование множества каналов, может использоваться посредством блока 560 кодирования. Блок 560 кодирования также может реализовывать объединенное стереокодирование, M/S-стереокодирование и т.п.Parametric stereo encoder 550 may implement coding as described in [1] or [2]. It should be understood that an appropriate standard (or furthermore, a set of rules) defining parametric stereo coding, such as in Part 3 of the MPEG-4 or HE-AAC v2 standard, may be used by encoder 550. Encoder 560 may implement an encoder as described in [4]. It should be understood that an appropriate standard (or set of rules) defining separate coding for multiple channels can be used by coding block 560 . Encoder 560 may also implement joint stereo coding, M/S stereo coding, and the like.

Фиг. 6 визуализирует примерную операцию функционального модуля GCC-PHAT, например, содержащегося в блоке 530, поясненном в сочетании с вышеприведенным фиг. 5. Более конкретно, фиг. 6 является двумерным представлением значений GCC-PHAT и их анализа с точки зрения определения одного или более пиковых значений и обнаружения интерферирующего источника голосовых данных на основе этого. Абсцисса представления, показанного на фиг. 6, связана с продвижением вперед времени, которое выражается в единице кадров. Для целей нижеприведенного пояснения, различные временные диапазоны определяются посредством идентификации примерных временных точек, таких как t₁, t₂ и т.д., представляющих собой конечные точки соответствующих диапазонов. Ордината представления, показанного на фиг. 5, связана с параметром GCC-PHAT, т.е. с запаздыванием во времени (например, выражаемым как ITD) между двумя сигналами, передаваемыми в функциональный модуль, выполняющий GCC-PHAT. Цвет на двумерной плоскости на фиг. 6 соответствует значению GCC-PHAT для определённого кадра и определённого запаздывания во времени.Fig. 6 visualizes an exemplary operation of a GCC-PHAT functional module, such as contained in block 530 explained in conjunction with FIG. 5. More specifically, FIG. 6 is a two-dimensional representation of GCC-PHAT values and their analysis in terms of determining one or more peak values and detecting an interfering source of voice data based thereon. The abscissa of the representation shown in FIG. 6 is related to the advance of time, which is expressed in units of frames. For the purposes of the following explanation, different time ranges are defined by identifying exemplary time points, such as t ₁ , t ₂ , etc., representing the end points of the respective ranges. The ordinate of the representation shown in FIG. 5 is associated with the GCC-PHAT parameter, i. e. with a time delay (expressed as ITD, for example) between two signals passed to a function module executing GCC-PHAT. The color on the two-dimensional plane in Fig. 6 corresponds to the GCC-PHAT value for a certain frame and a certain time lag.

В примерном временном диапазоне (т.е. диапазоне кадров) между t₁ и t₂, показывается множество главных пиков (обозначенных посредством использования пересечения и обозначенных в качестве «пика 1» в легенде по фиг. 6), определенных посредством функционального модуля GCC-PHAT. Функциональный модуль GCC-PHAT может определять главные пики в соответствии с одним или более вариантами осуществления настоящего изобретения. В диапазоне t₁-t₂, также показывается множество подчиненных пиков (обозначенных посредством использования окружности и обозначенных в качестве «пика 2» в легенде по фиг. 6), определенных посредством функционального модуля GCC-PHAT. Функциональный модуль GCC-PHAT может определять подчиненные пики в соответствии с одним или более вариантами осуществления настоящего изобретения.In the exemplary time range (i.e. frame range) between t ₁ and t ₂ , a plurality of major peaks (indicated by the use of the intersection and labeled "peak 1" in the legend of FIG. 6) are shown, defined by the function module GCC- PHAT. The functional module GCC-PHAT may determine the main peaks in accordance with one or more embodiments of the present invention. In the range t ₁ -t ₂ , a plurality of sub-peaks (indicated by using a circle and labeled "peak 2" in the legend of Fig. 6) as defined by the GCC-PHAT function module are also shown. The GCC-PHAT functional module may determine sub peaks in accordance with one or more embodiments of the present invention.

В диапазоне t₁-t₂, функция GCC-PHAT может определять то, что множество главных пиков 610, содержащихся в ней, соответствуют условию стабильности, например, с учетом местоположений пиков 610 (с точки зрения запаздывания во времени), отличающихся друг от друга (в диапазоне последовательных кадров) самое большее на определенное пороговое значение. Кроме того, функция GCC-PHAT может определять то, что множество подчиненных пиков 615, содержащихся в диапазоне t₁-t₂, соответствуют (одинаковому относительно главных пиков 610 или по-другому параметризованному) условию стабильности, например, несмотря на местоположения пиков 620, показывающие некоторое рассеяние по меньшей мере для диапазона последовательных кадров в части диапазона t₁-t₂, смежной с t₂. Как результат, функция GCC-PHAT (или, например, другой функциональный модуль, содержащийся в блоке 530), может определять то, что интерферирующий источник голосовых данных присутствует, с учетом условия стабильности, выполняемого для пиков 610 и 615.In the range t ₁ -t ₂ , the GCC-PHAT function may determine that the plurality of main peaks 610 contained therein meet the stability condition, for example, considering peak locations 610 (in terms of time lag) different from each other (in the range of consecutive frames) at most by a certain threshold value. In addition, the GCC-PHAT function may determine that the plurality of sub peaks 615 contained in the range t ₁ -t ₂ meet (the same relative to the main peaks 610 or otherwise parameterized) a stability condition, for example, despite the locations of the peaks 620, showing some scatter for at least a range of consecutive frames in the part of the range t ₁ -t ₂ adjacent to t ₂ . As a result, the GCC-PHAT function (or, for example, another functional module contained in block 530) may determine that an interfering voice data source is present, given the stability condition satisfied for peaks 610 and 615.

В другом примерном диапазоне t₃-t₄, главные пики 620 демонстрируют картину, аналогичную картине в диапазоне t₁-t₂. Следовательно, соответствие условию стабильности может определяться посредством функциональности GCC-PHAT. Для множества подчиненных пиков 625, функциональность GCC-PHAT может определять то, что по меньшей мере некоторые пики 625 не соответствуют условию стабильности с учетом картины рассеяния (т.е. значительно отличающихся местоположений с точки зрения запаздывания во времени по меньшей мере для некоторых поддиапазонов последовательных кадров). Как результат, отсутствие интерферирующего источника голосовых данных может определяться с учетом только одного из двух оцененных выполняемых условий стабильности.In another exemplary range of t ₃ -t ₄ , the main peaks 620 show a pattern similar to that in the range of t ₁ -t ₂ . Therefore, compliance with the stability condition can be determined through the functionality of GCC-PHAT. For a plurality of sub peaks 625, the GCC-PHAT functionality may determine that at least some of the peaks 625 do not meet the stability condition given the scatter pattern (i.e., significantly different locations in terms of time lag for at least some subbands of consecutive frames). As a result, the absence of an interfering voice data source may be determined based on only one of the two assessed stability conditions.

Для примерных диапазонов t₅-t₆, а также t₆-t₇, определения могут соответствовать определениям в диапазоне t₃-t₄ с учетом стабильности главных пиков и рассеяния подчиненных пиков. Для примерного диапазона t8-t₉, определения могут соответствовать определениям, выполняемым для диапазона t₁-t₂ с учетом стабильности главных пиков и подчиненных пиков.For the exemplary ranges of t ₅ -t ₆ as well as t ₆ -t ₇ , the definitions may correspond to the definitions in the range t ₃ -t ₄ taking into account the stability of the main peaks and the scattering of the subordinate peaks. For the exemplary range t8-t ₉ , the determinations may be those made for the range t ₁ -t ₂ considering the stability of the major peaks and minor peaks.

Фиг. 7 показывает эволюцию GCC-PHAT для примерного одного кадра, например, одного из кадров, показанных на фиг. 6. На фиг. 7, абсцисса связана с параметром запаздывания во времени и соответствует ординате по фиг. 6. Ордината по фиг. 7 связана со значением взаимной корреляции, например, со значением, выданным функцией GCC-PHAT. Для эволюции на фиг. 7, главный пик (обозначаемый в качестве пика 1, 710) и подчиненный пик (обозначаемый в качестве пика 2, 720) определяются посредством функции GCC-PHAT. Как главный пик 710, так и подчиненный пик 720 могут определяться с возможностью выполнения условия по шуму в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом их соответствующих амплитуд (т.е. взаимных корреляционных значений), имеющих расстояние до взаимного корреляционного значения минимального уровня 730 шума, превышающее пороговое значение (например, заданное в соответствии с одним или более вариантами осуществления настоящего изобретения).Fig. 7 shows the evolution of GCC-PHAT for an exemplary single frame, such as one of the frames shown in FIG. 6. In FIG. 7, the abscissa is related to the time lag parameter and corresponds to the ordinate of FIG. 6. The ordinate of FIG. 7 is associated with a cross-correlation value, such as the value returned by the GCC-PHAT function. For the evolution in Fig. 7, the main peak (designated as peak 1, 710) and the sub peak (designated as peak 2, 720) are determined by the GCC-PHAT function. Both the main peak 710 and the sub peak 720 may be determined to satisfy the noise condition in accordance with one or more embodiments of the present invention, given their respective amplitudes (i.e., cross-correlation values) having a distance to the minimum cross-correlation value noise level 730 that exceeds a threshold value (eg, set in accordance with one or more embodiments of the present invention).

Помимо этого, пики 710 и 720 могут определяться (например, посредством функции GCC-PHAT или блока 530 по фиг. 5) с возможностью выполнения условия значимости в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом наличия расстояния с точки зрения запаздывания во времени, т.е. вдоль абсциссы, превышающего пороговое значение (например, заданное в соответствии с одним или более вариантами осуществления настоящего изобретения).In addition, peaks 710 and 720 can be determined (for example, by the GCC-PHAT function or block 530 of FIG. 5) with the possibility of fulfilling a significance condition in accordance with one or more embodiments of the present invention, taking into account the presence of distance in terms of time lag , i.e. along an abscissa that exceeds a threshold value (eg, defined in accordance with one or more embodiments of the present invention).

Кроме того, пики 710 и 720 могут определяться (например, посредством функции GCC-PHAT или блока 530 по фиг. 5) с возможностью выполнения другого иллюстративного условия значимости в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом наличия взаимного корреляционного значения, превышающего пороговое значение (например, заданное в соответствии с одним или более вариантами осуществления настоящего изобретения, а именно, например, превышающее значение в 0,15, заданное для пика (1) в нижеприведенном варианте 1).In addition, peaks 710 and 720 may be determined (for example, by the GCC-PHAT function or block 530 of FIG. 5) with the possibility of performing another illustrative significance condition in accordance with one or more embodiments of the present invention, taking into account the presence of a cross-correlation value greater than a threshold value (for example, set in accordance with one or more embodiments of the present invention, namely, for example, greater than the value of 0.15 set for peak (1) in option 1 below).

Кроме того, пики 710 и 720 могут определяться (например, посредством функции GCC-PHAT или блока 530 по фиг. 5) с возможностью выполнения другого иллюстративного условия значимости в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом взаимосвязи взаимных корреляционных значений пиков 710 и 720, имеющих соотношение ниже порогового значения (например, заданного в соответствии с одним или более вариантами осуществления настоящего изобретения и поясненного ниже посредством использования примера, имеющего константу c=0,8).In addition, peaks 710 and 720 may be determined (for example, by the GCC-PHAT function or block 530 of FIG. 5) with the possibility of performing another illustrative significance condition in accordance with one or more embodiments of the present invention, taking into account the relationship of cross-correlation values of peaks 710 and 720 having a ratio below a threshold value (eg, defined in accordance with one or more embodiments of the present invention and explained below by using an example having a constant c=0.8).

Следует отметить, что настоящее изобретение не ограничено использованием GCC-PHAT, и вместо этого может использоваться любая технология, допускающая формирование указания взаимного корреляционного значения, т.е. любая подходящая взаимная корреляционная технология, а также подходящая технология распознавания образов, например, предусматривающая нейронную сеть.It should be noted that the present invention is not limited to the use of GCC-PHAT, and instead, any technique capable of generating an indication of a cross-correlation value, i. any suitable cross-correlation technology, as well as a suitable pattern recognition technology, for example, involving a neural network.

Ниже по тексту описаны дополнительные варианты осуществления изобретения. Варианты осуществления, описанные ниже, могут составлять альтернативы или могут рассматриваться в дополнение к аспектам, раскрытым выше. Варианты осуществления, описанные ниже, связаны с обнаружением интерферирующих источников голосовых данных, которые захватываются с помощью системы стереомикрофонов. Варианты осуществления, описанные ниже, представляют собой полезное инструментальное средство, например, для стереофонических голосовых кодеков, которые могут использоваться для вариантов применения для связи.Further embodiments of the invention are described below. The embodiments described below may constitute alternatives or may be considered in addition to the aspects disclosed above. The embodiments described below are related to the detection of interfering sources of voice data that are captured using a stereo microphone system. The embodiments described below provide a useful tool for, for example, stereo voice codecs that can be used for communication applications.

Обращаясь к вышеприведенному описанию, для некоторых конкретных случаев, дискретное кодирование двух стереоканалов может быть предпочтительным для лучшей производительности. Для случая интерферирующих источников голосовых данных, преимущественный вариант осуществления может переключаться между параметрической моделью (режим A) и дискретной моделью (режим B). Дополнительный аспект относится к возможности обнаруживать автоматически, когда переключаться из режима A в режим B и из режима B в режим A. Следующие соображения, в общем, применяются к первому случаю, т.е. когда переключаться из режима A в режим B.Referring to the above description, for some specific cases, discrete coding of two stereo channels may be preferred for better performance. For the case of interfering voice data sources, an advantageous embodiment may switch between a parametric model (Mode A) and a discrete model (Mode B). An additional aspect relates to the ability to detect automatically when to switch from mode A to mode B and from mode B to mode A. The following considerations generally apply to the first case, i. when to switch from mode A to mode B.

Примерное решение рассматривает важный случай (например, только самый критический случай), когда два говорящих имеют различную ITD (интерауральную разность времен), и разность между двумя ITD является большой (значимой).The exemplary solution considers an important case (eg, only the most critical case) where two speakers have a different ITD (interaural time difference) and the difference between the two ITDs is large (significant).

В некоторых вариантах осуществления, можно предполагать, что кодек уже имеет модуль оценки ITD, и этот модуль оценки ITD основан на GCC-PHAT (обобщенном взаимном корреляционном фазовом преобразовании), описанном, например, в [3]. Базовый принцип такого модуля оценки заключается в том, чтобы обнаруживать пик в GCC-PHAT, и этот пик соответствует ITD стереосигнала. Тем не менее, когда два говорящих говорят одновременно, и они имеют две различных ITD, в GCC-PHAT в большинстве случаев имеется два пика. Некоторые варианты осуществления обнаруживают то, имеется только один пик (режим A) или два пика на большом расстоянии друг от друга (в режиме B) в GCC-PHAT.In some embodiments, it may be assumed that the codec already has an ITD estimator, and this ITD estimator is based on GCC-PHAT (generalized cross-correlation phase transform) described in, for example, [3]. The basic principle of such an estimator is to detect a peak in the GCC-PHAT and that peak corresponds to the stereo ITD. However, when two speakers are talking at the same time and they have two different ITDs, GCC-PHAT has two peaks in most cases. Some embodiments detect whether there is only one peak (Mode A) or two peaks far apart (Mode B) in the GCC-PHAT.

В одном варианте осуществления, начальная точка может представлять собой режим A. GCC-PHAT стереосигнала может вычисляться, возможно с использованием сглаженной версии взаимного спектра или любой другой обработки. Главный пик GCC-PHAT может оцениваться. Он может, в большинстве случаев, соответствовать максимуму абсолютного значения GCC-PHAT. В качестве альтернативы или дополнения, некоторый гистерезисный механизм может применяться, чтобы иметь более стабильную оценку ITD. Часть GCC-PHAT, которая находится на достаточно большом расстоянии от главного пика, может выбираться. Расстояние между главным пиком и границей части может составлять выше определенного порогового значения. Второй пик в выбранной части может обнаруживаться: он, например, может представлять собой максимум абсолютного значения GCC-PHAT. Если значение второго пика составляет выше определенного порогового значения, например, если peak(2)>c*peak(1), где peak(1) и peak(2), соответственно, являются значением первого и второго пика, и c может быть константой (например, c=0,8) или сигнально-адаптивной переменной, то можно считать, что GCC-PHAT содержит два значимых пика, и переключение на режим B может возникать. В противном случае, отсутствует значимый второй пик, и режим A остается используемым.In one embodiment, the starting point may be Mode A. The GCC-PHAT of the stereo signal may be computed, possibly using a smoothed version of the cross spectrum or any other processing. The main peak of GCC-PHAT can be estimated. It can, in most cases, correspond to the maximum absolute value of GCC-PHAT. Alternatively or in addition, some hysteresis mechanism may be applied to have a more stable ITD estimate. The portion of the GCC-PHAT that is at a sufficiently large distance from the main peak may be selected. The distance between the main peak and the edge of the part may be above a certain threshold. A second peak in the selected portion may be detected: it may, for example, represent the maximum of the absolute GCC-PHAT value. If the value of the second peak is above a certain threshold, for example, if peak(2)>c*peak(1), where peak(1) and peak(2), respectively, are the value of the first and second peak, and c may be a constant (eg, c=0.8) or a signal-adaptive variable, then the GCC-PHAT can be considered to contain two significant peaks and a switch to mode B can occur. Otherwise, there is no significant second peak and mode A remains in use.

Кроме того, ниже раскрываются варианты осуществления/варианты:In addition, embodiments/options are disclosed below:

В варианте 1, проверка того, что peak(1) составляет выше определенного порогового значения (например, 0,15), может выполняться, чтобы исключать переключение на зашумленных кадрах.In option 1, checking that peak(1) is above a certain threshold (eg, 0.15) may be performed to avoid switching on noisy frames.

В варианте 2, оба условия двух вышеуказанных вариантов осуществления, возможно, должны верифицироваться для двух последовательных кадров. Это позволяет исключать переключение на нестабильных сигналах.In option 2, both conditions of the above two embodiments may need to be verified for two consecutive frames. This allows you to exclude switching on unstable signals.

В варианте 3, peak(2) двух последовательных кадров, возможно, должны составлять близко друг к другу (например, их разность может быть ниже 4). Это позволяет исключать переключение на нестабильных сигналах.In option 3, the peak(2) of two consecutive frames may need to be close to each other (eg, their difference may be less than 4). This allows you to exclude switching on unstable signals.

В варианте 4, флаг SAD предыдущего кадра должен быть равным 1 (что означает то, что он представляет собой активный сигнал). Это позволяет исключать переключение в первом кадре части сигнала.In option 4, the SAD flag of the previous frame must be equal to 1 (which means that it is an active signal). This makes it possible to avoid switching in the first frame of a part of the signal.

В варианте 5, peak(1) может изменяться резко между кадрами на большую разность. В этом случае, проверка второго пика может не требоваться, и можно считать, что второй разговаривающий начинает говорить, и переключение на режим B может возникать.In option 5, peak(1) may change dramatically between frames by a large difference. In this case, the second peak check may not be required and the second speaker may be considered to start talking and a switch to Mode B may occur.

В некоторых вариантах осуществления, после того, как детектор GCC-PHAT определяет, имеются ли интерферирующие источники голосовых данных, как описано в одном или более вышеуказанных вариантах осуществления: если интерферирующие источники голосовых данных не обнаружены, система остается в параметрическом режиме по умолчанию, и оцененное значение ITD может перенаправляться в параметрическую обработку, как описано, например, в [1]. Если обнаружены интерферирующие источники голосовых данных, система может переключаться на схему L-R-кодирования, например, кодировать отдельно каждый канал с использованием EVS-кодека [4].In some embodiments, after the GCC-PHAT detector determines if there are interfering voice sources, as described in one or more of the above embodiments: if no interfering voice sources are detected, the system remains in the default parametric mode, and the estimated the ITD value can be redirected to parametric processing, as described, for example, in [1]. If interfering sources of voice data are detected, the system can switch to the L-R coding scheme, for example, encode each channel separately using the EVS codec [4].

Описанные варианты осуществления достигают обнаружение интерферирующих голосовых сегментов для стереофонических голосовых сигналов при определенных условиях, для которых может быть предпочтительным переключаться из системы параметрического стереокодирования на дискретную систему. Таким образом, перцепционное качество кодека может повышаться. Для схемы параметрического кодирования, детектор межканальной разности времен (ITD) может присутствовать в некоторых кодеках. Как результат, дополнительная сложность или дополнительная задержка может быть приемлемой.The described embodiments achieve detection of interfering voice segments for stereo voice signals under certain conditions for which it may be advantageous to switch from a parametric stereo coding system to a discrete system. Thus, the perceptual quality of the codec can be improved. For a parametric coding scheme, an inter-channel time difference detector (ITD) may be present in some codecs. As a result, additional complexity or additional delay may be acceptable.

Следующие аспекты дополнительно раскрыты и могут использоваться в отдельности или (при необходимости) в сочетании с любыми из признаков, функциональностей и подробностей, раскрытых в данном документе:The following aspects are further disclosed and may be used alone or (if necessary) in combination with any of the features, functionality, and details disclosed herein:

Аспект 1. Система кодирования голосовых стереоданных, в которой кодек может переключаться из режима параметрического кодирования (режима A) в режим дискретного L-R-кодирования (режим B) после того, как классификатор/анализатор сигналов определяет то, что выполнены условия для достижения этого.Aspect 1: A stereo voice data coding system in which the codec can switch from a parametric coding mode (Mode A) to a discrete L-R coding mode (Mode B) after the signal classifier/analyzer determines that the conditions to achieve this are met.

Аспект 2. Система кодирования голосовых стереоданных, в которой кодек может переключаться из режима параметрического кодирования (режима A) в режим дискретного L-R-кодирования (режим B) после того, как классификатор/анализатор сигналов обнаруживает, что сигнал ломает базовую модель схемы параметрического кодирования.Aspect 2: A stereo voice data coding system in which the codec can switch from a parametric coding mode (Mode A) to a discrete L-R coding mode (Mode B) after the signal classifier/analyzer detects that the signal breaks the basic parametric coding scheme model.

Аспект 3. Система кодирования голосовых стереоданных, в которой кодек переключается из режима параметрического кодирования (режима A) в режим дискретного L-R-кодирования (режим B) после того, как система обнаруживает интерферирующие источники голосовых данных.Aspect 3: A stereo voice coding system in which the codec switches from a parametric coding mode (Mode A) to a discrete L-R coding mode (Mode B) after the system detects interfering voice data sources.

Аспект 4. Для кодирования голосовых стереоданных, использование обобщенной взаимной корреляции PHAT для обнаружения первого максимального абсолютного значения (пика) и второго наибольшего абсолютного значения, и в зависимости от условий, которые применяются для второго наибольшего абсолютного значения, для обнаружения интерферирующих голосовых сегментов.Aspect 4: For coding stereo voice data, using the generalized cross-correlation PHAT to detect the first maximum absolute value (peak) and the second largest absolute value, and depending on the conditions that apply for the second largest absolute value, to detect interfering voice segments.

Фиг. 6, поясненная выше, является визуализацией вышеописанных этапов/аспектов/вариантов осуществления, при этом на ней иллюстрируется график рассеяния сигнала, и на фиг. 7 показывается масштабирование представления одного кадра.Fig. 6 explained above is a visualization of the steps/aspects/embodiments described above, illustrating a signal scatter plot, and FIG. 7 shows the scaling of a representation of one frame.

6. Аудиокодер по фиг. 86. The audio encoder of FIG. eight

Фиг. 8 показывает принципиальную блок-схему аудиокодера 800, согласно варианту осуществления настоящего изобретения.Fig. 8 shows a schematic block diagram of an audio encoder 800 according to an embodiment of the present invention.

Аудиокодер 800 принимает входное аудиопредставление 810, которое, например, может содержать несколько каналов (например, каналы L, R). Аудиокодер 800 обеспечивает кодированное аудиопредставление 812, которое, например, может представлять аудиоконтент входного аудиопредставления.Audio encoder 800 receives an input audio representation 810, which, for example, may contain multiple channels (eg, L, R channels). Audio encoder 800 provides an encoded audio representation 812, which may represent the audio content of an input audio representation, for example.

Аудиокодер 800 при необходимости содержит первый анализ 820 в частотной области, который принимает, например, первый канал 810a входного аудиопредставления, и формирует на его основе представление 822 в частотной области этого первого канала 810a. Аудиокодер 800 при необходимости содержит второй анализ 824 в частотной области, который принимает, например, второй канал 810b входного аудиопредставления и формирует на его основе представление 826 в частотной области этого второго канала 810b. Например, первый и второй анализ в частотной области могут формировать представления 822, 826 в частотной области или представления в спектральной области каналов входного аудиопредставления, например, с использованием кратковременного преобразования Фурье, преобразования MDCT, гребенки фильтров и т.п.The audio encoder 800 optionally includes a first frequency domain analysis 820 that takes, for example, a first channel 810a of the input audio representation and generates a frequency domain representation 822 of that first channel 810a based thereon. The audio encoder 800 optionally includes a second frequency domain analysis 824 that takes, for example, a second channel 810b of the input audio representation and generates a frequency domain representation 826 of that second channel 810b based on it. For example, the first and second frequency domain analyzes may generate frequency domain representations 822, 826 or spectral domain representations of the channels of the input audio representation, such as using short-time Fourier transform, MDCT transform, filter bank, or the like.

Аудиодекодер 800 также содержит параметрическое многоканальное кодирование 830 и отдельное кодирование 834 множества каналов. Например, многоканальное кодирование 830 может принимать каналы 810a, 810b входного аудиопредставления или, в качестве альтернативы, представления 822, 826 в частотной области, сформированные посредством анализа 820, 824 в частотной области. Тем не менее, в качестве альтернативы, многоканальное кодирование может принимать различное представление каналов входного аудиопредставления. Параметрическое многоканальное кодирование обеспечивает кодированное представление двух или более каналов, вводимое в параметрическое многоканальное представление 832, при этом каналы входного представления сигналов, например, могут представляться с использованием комбинированного сигнала (например, сигнала понижающего сведения), представляющего, например, сигнальные компоненты, которые являются аналогичными во всех каналах (или по меньшей мере в некоторых каналах, например, в двух или более каналах) входного представления сигналов, и с использованием параметрической вспомогательной информации, которая описывает, например, в форме значений параметров, подобия и/или разности между двумя или более каналами входного аудиопредставления. Например, параметрическая вспомогательная информация может содержать значения межканальной разности уровней и/или значения межканальной разности фаз, и/или значения межканальной разности времен, и/или значения межканальной корреляции, и/или любые другие параметры, описывающие взаимосвязь между каналами входного аудиопредставления. Параметрическая вспомогательная информация предпочтительно может быть применимой на стороне аудиодекодера по меньшей мере для того, чтобы приблизительно восстанавливать каналы входного аудиопредставления на основе комбинированного сигнала. Например, значения параметров параметрической вспомогательной информации могут обеспечиваться отдельно для различных частотно-временных диапазонов или для различных спектральных элементов разрешения. Например, параметрическое многоканальное кодирование может задумывать концепцию «параметрического стерео», которая, например, используется в качестве расширения высокоэффективного усовершенствованного кодирования аудиоданных (HE-AAC) MPEG4 и может обеспечивать соответствующее представление каналов входного аудиопредставления.Audio decoder 800 also includes parametric multi-channel coding 830 and separate multi-channel coding 834. For example, multi-channel coding 830 may receive input audio representation channels 810a, 810b, or alternatively frequency domain representations 822, 826 generated by frequency domain analysis 820, 824. However, as an alternative, multi-channel coding may take a different representation of the channels of the input audio representation. Parametric multi-channel coding provides an encoded representation of two or more channels input to the parametric multi-channel representation 832, wherein the channels of the input signal representation, for example, may be represented using a combined signal (for example, a downmix signal) representing, for example, signal components that are similar in all channels (or at least some channels, e.g., two or more channels) of the input signal representation, and using parametric assistance information that describes, for example, in the form of parameter values, the similarity and/or difference between two or more channels of the input audio presentation. For example, the parametric side information may comprise inter-channel level difference values and/or inter-channel phase difference values and/or inter-channel time difference values and/or inter-channel correlation values and/or any other parameters describing the relationship between channels of the input audio presentation. The parametric assistance information may preferably be applicable on the audio decoder side to at least approximately reconstruct the channels of the input audio representation based on the combined signal. For example, parametric assistance information parameter values may be provided separately for different time-frequency bands or for different spectral bins. For example, parametric multi-channel coding may contemplate the concept of "parametric stereo", which is, for example, used as an extension of MPEG4 High Efficiency Enhanced Audio Coding (HE-AAC) and may provide a corresponding representation of the channels of the input audio presentation.

Аудиокодер 800 также содержит отдельное кодирование 834 множества каналов, при этом, например, различные каналы входного аудиопредставления кодируются отдельно, например, с использованием отдельного кодирования спектральных значений. Таким образом, отдельное кодирование 834 обеспечивает отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, что, например, обеспечивает возможность отдельного декодирования каналов входного аудиопредставления на стороне аудиодекодера.The audio encoder 800 also includes separate multi-channel coding 834, whereby, for example, different channels of the input audio representation are encoded separately, eg using separate spectral value coding. Thus, separate encoding 834 provides separate encoded information 836 associated with different channels of the input audio presentation, which, for example, allows separate decoding of the channels of the input audio presentation at the audio decoder side.

Кроме того, аудиокодер выполнен с возможностью переключения между параметрическим многоканальным кодированием 830 и отдельным кодированием 834, так что блок управления аудиокодера может делать выбор в отношении того, включены ли параметрическое многоканальное представление 832 или отдельная кодированная информация в кодированное аудиопредставление 812. Относительно этой проблемы является нерелевантным, выполняется ли для определённого кадра как параметрическое многоканальное кодирование 830, так и отдельное кодирование 834, и принимается решение в отношении того, включается ли кодированное представление 832, обеспеченное посредством параметрического многоканального кодирования, или кодированное представление 836, обеспеченное посредством отдельного кодирования, фактически в кодированное аудиопредставление 812, либо в отношении того, выбирается ли только параметрическое многоканальное кодирование или отдельное кодирование для определённого кадра (при этом второе решение обычно является более эффективным, но может вводить дополнительную задержку).In addition, the audio encoder is configured to switch between parametric multi-channel coding 830 and separate coding 834, so that the control unit of the audio encoder can make a choice as to whether the parametric multi-channel representation 832 or individual encoded information is included in the encoded audio representation 812. Regarding this issue, it is irrelevant , whether both parametric multi-channel coding 830 and separate coding 834 are performed for a certain frame, and a decision is made as to whether the encoded representation 832 provided by parametric multi-channel coding or the encoded representation 836 provided by separate coding is actually included in the encoded audio representation 812, or whether only parametric multi-channel coding or separate coding for a particular frame is selected (with the second decision usually being more efficient, but may introduce additional latency).

Ниже по тексту описано, каким образом выбор того, следует ли использовать параметрическое многоканальное кодирование 830 или отдельное кодирование 834 (либо, эквивалентным образом, параметрического многоканального представления 832 или отдельной кодированной информации 836, ассоциированной с различными каналами входного аудиопредставления), должен включаться в кодированное аудиопредставление 812.The text below describes how the choice of whether to use parametric multi-channel coding 830 or separate coding 834 (or, equivalently, parametric multi-channel representation 832 or separate encoded information 836 associated with different channels of the input audio presentation) should be included in the encoded audio representation. 812.

С этой целью, аудиокодер 800 содержит определение 840 информации декорреляции, которое, например, может определять корреляцию (например, взаимную корреляцию) между двумя или более каналами входного аудиопредставления на основе представлений 822, 826 в частотной области каналов входного аудиопредставления. Тем не менее, следует отметить, что определение 840 информации корреляции, например, может работать на основе представлений во временной области каналов входного аудиопредставления. Кроме того, следует отметить, что определение информации корреляции может обеспечивать отдельную информацию 842 корреляции для различных частотных диапазонов или частотно-временных частей входного аудиопредставления. Соответственно, может быть предусмотрена не только отдельная информация 842 корреляции для последующих кадров входного аудиопредставления, но даже может быть предусмотрена отдельная информация 842 корреляции для отдельных частотных диапазонов или частотных элементов разрешения. Кроме того, следует отметить, что информация 842 корреляции может принимать форму представления корреляционных функций (например, в расчете на частотно-временную часть), которое содержит различные корреляционные значения для различных значений запаздывания корреляции (также обозначенных в качестве запаздывания или запаздывания во времени).To this end, audio encoder 800 includes a decorrelation information definition 840 that, for example, can determine a correlation (eg, cross-correlation) between two or more input audio representation channels based on the frequency domain representations 822, 826 of the input audio representation channels. However, it should be noted that correlation information determination 840, for example, may operate based on the time domain representations of the channels of the input audio representation. In addition, it should be noted that determining the correlation information may provide separate correlation information 842 for different frequency bands or time-frequency portions of the input audio representation. Accordingly, not only can separate correlation information 842 be provided for subsequent frames of the input audio representation, but even separate correlation information 842 can be provided for individual frequency bands or frequency bins. In addition, it should be noted that the correlation information 842 may take the form of a representation of correlation functions (eg, per time-frequency part) that contains different correlation values for different correlation lag values (also referred to as lag or time lag).

Например, информация корреляции может получаться с использованием так называемой «технологии GCC-PHAT», которая, как обнаружено, способствует высокозначимым результатам. Тем не менее, также могут использоваться различные концепции для определения информации (взаимной) корреляции.For example, correlation information can be obtained using the so-called "GCC-PHAT technology", which has been found to contribute to highly significant results. However, different concepts can also be used to define (cross) correlation information.

Аудиодекодер 800 также содержит определение 850 главных пиков, которое может быть выполнено с возможностью определения главного пика взаимной корреляции между двумя или более каналами входного аудиопредставления (например, максимум абсолютного значения GCC_PHAT) на основе информации взаимной корреляции и обеспечения информации 852, описывающей главный пик (например, содержащий межканальную разность времен пика или пиковое значение, или интенсивность пика). Например, определение 850 главных пиков может определять, для какого запаздывания корреляции (или, эквивалентным образом, для какого запаздывания во времени, или, эквивалентным образом, для какой межканальной разности времен) информация взаимной корреляции (или взаимная корреляционная функция, представленная посредством информации взаимной корреляции) содержит (глобальное) максимальное значение. При необходимости, модуль определения главных пиков также может определять непосредственно пиковое значение (или интенсивность пика). Тем не менее, следует отметить, что модуль определения главных пиков не должен обязательно идентифицировать максимальное значение взаимной корреляционной функции в качестве главного пика. Наоборот, модуль определения главных пиков, например, может оставлять «спорадические» или «нестабильные» нерассмотренные пики и идентифицировать стабильный пик (например, пик, который является стабильным для множества кадров и который может классифицироваться как «значимый», например, превышающий пороговое значение, либо для минимального уровня шума по меньшей мере на заданное значение) в качестве главного пика (пи этом, например, гистерезисный механизм может использоваться для того, чтобы иметь более стабильную оценку ITD). Следует отметить, что могут использоваться различные алгоритмы для распознавания пика или главного пика корреляционной функции, которые известны специалистам в данной области техники.The audio decoder 800 also includes a main peak determination 850 that can be configured to determine the main peak of the cross-correlation between two or more channels of the input audio presentation (eg, the maximum absolute value of GCC_PHAT) based on the cross-correlation information and provide information 852 describing the main peak (eg , containing the inter-channel peak time difference or peak value or peak intensity). For example, the principal peak determination 850 may determine for which correlation lag (or equivalently which time lag or equivalently which inter-channel time difference) the cross-correlation information (or the cross-correlation function represented by the cross-correlation information ) contains the (global) maximum value. If necessary, the main peak detection module can also determine the peak value (or peak intensity) directly. However, it should be noted that the main peak detection module need not necessarily identify the maximum value of the cross-correlation function as the main peak. Conversely, a major peak detection module, for example, may leave "sporadic" or "unstable" peaks unconsidered and identify a stable peak (e.g., a peak that is stable across multiple frames and that can be classified as "significant", e.g., exceeding a threshold, or for a noise floor of at least a given value) as the main peak (whereby, for example, a hysteresis mechanism can be used in order to have a more stable ITD estimate). It should be noted that various algorithms for recognizing the peak or main peak of the correlation function, which are known to those skilled in the art, may be used.

При необходимости, аудиодекодер также содержит модуль 852 проверки пиков, который принимает информацию 852 главных пиков и проверяет информацию главных пиков на предмет надежности. Например, модуль проверки пиков может идентифицировать ненадежную информацию главных пиков, которая содержит большую флуктуацию (например, ITD пика и/или интенсивности пика) во времени и/или которая указывает слишком небольшую интенсивность пика. Например, может проверяться, является значение главного пика большим, чем определенное пороговое значение, для исключения переключения на зашумленных кадрах. При необходимости, также может определяться, соответствует ли главный пик одному или более условиям (например, относительно пикового значения) для множества кадров. В качестве вывода, такая ненадежная информация главных пиков может подавляться и/или заменяться посредством информации по умолчанию и/или передаваться в служебных сигналах.Optionally, the audio decoder also includes a peak checking module 852 that receives the main peak information 852 and checks the main peak information for reliability. For example, the peak checking module may identify unreliable major peak information that contains a large fluctuation (eg, peak ITD and/or peak intensity) over time and/or that indicates too little peak intensity. For example, it may be checked if the main peak value is greater than a certain threshold value to avoid switching on noisy frames. If necessary, it may also be determined if the main peak meets one or more conditions (eg, relative to the peak value) for a plurality of frames. As a conclusion, such unreliable main peak information may be suppressed and/or replaced by default information and/or signaled.

Кроме того, аудиодекодер может содержать определение 860 вторых пиков, которое может быть выполнено с возможностью определения второго пика взаимной корреляции между двумя или более каналами входного аудиопредставления на основе информации 842 взаимной корреляции и обеспечения информации 862, описывающей второй пик (например, содержащий межканальную разность времен пика или пиковое значение, или интенсивность пика). Например, второй пик может представлять собой локальный максимум взаимной корреляционной функции, описанной посредством информации 842 взаимной корреляции, которая содержит второе наибольшее пиковое значение после пикового значения главного пика. Кроме того, при необходимости может требоваться идентификация локального максимума информации взаимной корреляции в качестве второго пика, что локальный максимум соответствует одному или более заданным условиям относительно главного пика и/или относительно минимального уровня шума взаимной корреляционной функции. Например, определение вторых пиков может принимать информацию относительно главного пика из определения 850 главных пиков и рассматривать эту информацию при идентификации второго пика. Например, определение 860 вторых пиков может проверять, содержит ли расстояние возможного варианта второго пика (например, локального максимума взаимной корреляционной функции) условие заданного расстояния (например, с точки зрения запаздывания корреляции или ITD) от главного пика, при этом, например, может требоваться то, что второй пик должен содержать заданное минимальное расстояние от главного пика. В качестве альтернативы, определение второго пика может выполняться на основе (выбранной) части GCC-PHAT, которая находится на «большом расстоянии от главного пика», например, удалена от главного пика на заданное расстояние с точки зрения ITD, при этом, например, (абсолютный) максимум абсолютного значения GCC-PHAT в выбранной части GCC-PHAT может идентифицироваться в качестве второго пика.In addition, the audio decoder may comprise a second peak determination 860, which may be configured to determine the second peak of the cross-correlation between two or more channels of the input audio representation based on the cross-correlation information 842 and provide information 862 describing the second peak (e.g., containing the inter-channel time difference peak or peak value or peak intensity). For example, the second peak may be a local maximum of the cross-correlation function described by the cross-correlation information 842, which contains the second largest peak value after the peak value of the main peak. In addition, if necessary, it may be required to identify the local maximum of the cross-correlation information as the second peak, such that the local maximum meets one or more predetermined conditions relative to the main peak and/or relative to the noise floor of the cross-correlation function. For example, the second peak determination may receive information regarding the main peak from the main peak determination 850 and consider this information when identifying the second peak. For example, the second peak determination 860 may check if the second peak candidate distance (eg, local maximum of the cross-correlation function) contains a predetermined distance condition (eg, in terms of correlation lag or ITD) from the main peak, which may, for example, require that the second peak must contain a given minimum distance from the main peak. Alternatively, the determination of the second peak can be performed based on the (selected) part of the GCC-PHAT that is "far away from the main peak", e.g., a given distance from the main peak in terms of ITD, where, for example, ( absolute) the maximum of the absolute GCC-PHAT value in the selected part of the GCC-PHAT can be identified as the second peak.

В качестве альтернативы или дополнения, определение вторых пиков может проверять, соответствует ли возможный вариант второго пика заданному условию пикового значения (например, с точки зрения взаимосвязи между пиковыми значениями главного пика и второго пика). Например, может требоваться, чтобы значение второго пика было выше определенного порогового значения, которое может задаваться относительно значения главного пика.Alternatively or in addition, the determination of the second peaks may check if the second peak candidate meets the predetermined peak value condition (eg, in terms of the relationship between the peak values of the main peak and the second peak). For example, the value of the second peak may be required to be above a certain threshold value, which may be set relative to the value of the main peak.

Кроме того, определение вторых пиков может проверять, достаточно ли выше пиковое значение возможного варианта второго пика, чем минимальный уровень шума информации взаимной корреляции.In addition, the determination of the second peaks can check if the peak value of the candidate second peak is sufficiently higher than the noise floor of the cross-correlation information.

Соответственно, определение 860 вторых пиков может определять, имеется ли второй пик, который соответствует требованиям для идентификации в качестве второго пика и обеспечивает информацию 862 вторых пиков, описывающую второй пик (например, с точки зрения запаздывания корреляции и/или ITD, и/или пикового значения, и/или интенсивности пика). При необходимости, информация вторых пиков может указывать, что отсутствует второй пик, который соответствует условиям.Accordingly, second peak detection 860 may determine if there is a second peak that meets the requirements for being identified as a second peak and provides second peak information 862 describing the second peak (e.g., in terms of correlation lag and/or ITD and/or peak value, and/or peak intensity). Optionally, the second peak information may indicate that there is no second peak that meets the conditions.

При необходимости, аудиодекодер также может содержать оценку 864 значимости вторых пиков, которая, например, может принимать информацию 862 вторых пиков и определять, является ли второй пик, описанный посредством информации 862 вторых пиков, значимым и/или надежным. Например, оценка значимости вторых пиков может проверять, соответствует ли второй пик одному или более условиям для множества кадров. Например, оценка значимости вторых пиков может определять, превышает ли второй пик определенное пороговое значение (например, относительно главного пика) для множества кадров. В качестве альтернативы или дополнения, оценка значимости вторых пиков может проверять, являются ли значения запаздывания корреляции или значения ITD второго пика достаточно близкими для двух или более (последующих) кадров. Тем не менее, при необходимости также могут проверяться другие условия для второго пика.Optionally, the audio decoder may also include a second peak significance estimate 864, which, for example, may receive second peak information 862 and determine whether the second peak described by second peak information 862 is significant and/or reliable. For example, the evaluation of the significance of the second peaks may check if the second peak meets one or more conditions for a plurality of frames. For example, the evaluation of the significance of the second peaks may determine whether the second peak exceeds a certain threshold value (eg, relative to the main peak) for a plurality of frames. Alternatively or in addition, the second peak significance evaluation may check whether the correlation lag values or second peak ITD values are close enough for two or more (subsequent) frames. However, if necessary, other conditions for the second peak can also be checked.

Следует отметить, что функциональности, описанные относительно проверки 854 главных пиков, при необходимости могут быть интегрированы в определение 850 главных пиков. Кроме того, функциональности оценки значимости вторых пиков при необходимости могут включаться в определение 860 вторых пиков. Кроме того, следует отметить, что ни одно, некоторые или все вышеуказанные условия или дополнительные условия могут проверяться при определении информации 856, описывающей главный пик, и информации 866, описывающей второй пик.It should be noted that the functionality described in relation to the main peak test 854 can be integrated into the main peak definition 850 if desired. In addition, second peak significance evaluation functionality may be included in the second peak determination 860 as needed. In addition, it should be noted that none, some or all of the above conditions or additional conditions can be checked when determining the information 856 describing the main peak, and information 866 describing the second peak.

Кроме того, следует отметить, что информация 856, описывающая главный пик, при необходимости может только указывать, обнаружен ли допустимый главный пик. Кроме того, информация 866, описывающая второй пик, при необходимости может лишь указывать, обнаружен ли допустимый второй пик. Тем не менее, информация 856, 866 при необходимости может также описывать подробности относительно пиков, например, запаздывание корреляции и/или ITD, и/или пиковые значения.In addition, it should be noted that the information 856 describing the main peak, if necessary, can only indicate whether a valid main peak is detected. In addition, the information 866 describing the second peak may only indicate whether a valid second peak has been detected, if necessary. However, information 856, 866 may also describe peak details, such as correlation lag and/or ITD and/or peak values, if desired.

Аудиокодер 800 при необходимости может содержать обнаружение 870, которое обнаруживает изменение запаздывания корреляции или ITD главного пика, которое больше порогового значения, и обеспечивает информацию 872, описывающую, имеет ли место такое изменение.Audio encoder 800 may optionally comprise detection 870 that detects a change in correlation lag or main peak ITD that is greater than a threshold and provides information 872 describing whether such a change has taken place.

Аудиокодер 800 также содержит решение 880 по переключению, которое выполнено с возможностью определения, должны ли параметрическое многоканальное представление 832 или отдельная кодированная информация 836, ассоциированная с различными каналами входного аудиопредставления, быть включены в кодированное аудиопредставление.The audio encoder 800 also includes a switching decision 880 that is configured to determine whether the parametric multi-channel representation 832 or separate encoded information 836 associated with different channels of the input audio presentation should be included in the encoded audio representation.

В простом случае, решение 880 по переключению может просто проверять, имеется ли значимый (или допустимый) второй пик. Если имеется только один пик (т.е. главный пик), может использоваться параметрическое многоканальное кодирование 830 (или параметрическое многоканальное представление 832 может быть включено в кодированное аудиопредставление). Если информация 866, описывающая второй пик, указывает, что имеется значимый (или допустимый) второй пик, решение по переключению может определять необходимость использовать отдельное кодирование 834 (или включать отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, в кодированное аудиопредставление).In a simple case, switch decision 880 may simply check if there is a significant (or valid) second peak. If there is only one peak (ie, the main peak), parametric multi-channel coding 830 may be used (or parametric multi-channel representation 832 may be included in the encoded audio representation). If the second peak description information 866 indicates that there is a significant (or valid) second peak, the switch decision may determine whether to use separate encoding 834 (or include separate encoded information 836 associated with different channels of the input audio representation in the encoded audio representation).

Тем не менее, при необходимости решение по переключению может использовать один или более дополнительных критериев определения того, какая информация должна быть включена в кодированное аудиопредставление.However, if necessary, the switching decision may use one or more additional criteria to determine what information should be included in the encoded audio representation.

Например, при необходимости решение по переключению может учитывать, имеется ли изменение главного пика, которое больше (заданного или переменного) порогового значения, при этом решение по переключению может переключаться на использование отдельного кодирования 834 (или включать отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, в кодированное аудиопредставление) в ответ на обнаружение того, что имеется изменение главного пика, которое больше порогового значения (которое, например, может передаваться в служебных сигналах посредством информации 872).For example, if necessary, the switch decision may consider whether there is a change in the main peak that is greater than a (preset or variable) threshold, and the switch decision may switch to use a separate coding 834 (or include separate coding information 836 associated with different channels input audio representation, to the encoded audio representation) in response to detecting that there is a main peak change that is greater than a threshold (which, for example, may be signaled via information 872).

В качестве другого примера, при необходимости решение по переключению может учитывать указатель, указывающий, является ли предыдущий кадр активным (например, флаг SAD). Например, если решение по переключению обнаруживает, что предыдущий кадр является неактивным, переключение может избирательно подавляться посредством решения по переключению.As another example, if necessary, the switch decision may take into account a pointer indicating whether the previous frame is active (eg, a SAD flag). For example, if the switch decision detects that the previous frame is inactive, the switch may be selectively suppressed by the switch decision.

Тем не менее, решение по переключению при необходимости может также оценивать информацию относительно других характеристик сигналов входного аудиопредставления и принимать решение в отношении того, какая информация должна быть включена в кодированное аудиопредставление, также на основе этого.However, the switching decision, if necessary, may also evaluate information regarding other characteristics of the input audio representation signals and decide what information should be included in the encoded audio representation based on this as well.

В качестве вывода, аудиокодер 800 решает, на основе анализа характеристик входного аудиопредставления (например, на основе определения того, сколько «значимых» или «допустимых» пиков находятся во взаимной корреляционной функции), например, на покадровой основе, следует ли включать параметрическое многоканальное представление 832 или отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, в кодированное аудиопредставление.As an output, audio encoder 800 decides, based on an analysis of the characteristics of the input audio representation (e.g., based on determining how many "significant" or "tolerant" peaks are in the cross-correlation function), e.g., on a frame-by-frame basis, whether to include parametric multichannel representation. 832 or separate encoded information 836 associated with different channels of the input audio presentation into an encoded audio presentation.

Тем не менее, следует отметить, что конкретное распределение функциональностей по различным функциональным блокам не является существенным. Наоборот, некоторые или все функциональности могут комбинироваться в один функциональный блок при необходимости.However, it should be noted that the specific allocation of functionality to the various functional blocks is not essential. Conversely, some or all of the functionality can be combined into one functional block as needed.

Кроме того, следует отметить, что при необходимости аудиокодер 800 может быть дополнен любыми из признаков, функциональностей и подробностей, раскрытых в данном документе, как в отдельности, так и в сочетании.In addition, it should be noted that, if necessary, the audio encoder 800 may be supplemented with any of the features, functionality, and details disclosed herein, either individually or in combination.

Кроме того, любой из признаков, функциональностей и подробностей, раскрытых здесь, при необходимости может быть введён в любой из вариантов осуществления, раскрытых в данном документе, как в отдельности, так и в сочетании.In addition, any of the features, functionality, and details disclosed herein may be incorporated into any of the embodiments disclosed herein, either alone or in combination, if desired.

7. Альтернативные варианты реализации7. Alternative implementations

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого устройства.Although some aspects are described in the context of a device, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, the aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device. Some or all of the steps of the method may be performed by (or using) a hardware device such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, one or more of the most important steps of the method may be performed by this device.

Кодированный аудиосигнал согласно изобретению может сохраняться на цифровом носителе хранения данных или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.The encoded audio signal according to the invention may be stored on a digital storage medium or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, Blu-ray, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having electronically readable control signals stored that interact (or are capable of interacting) with programmable computer system in such a way that the corresponding method is carried out. Therefore, the digital storage medium can be machine readable.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is implemented.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is executed on the computer. The program code may, for example, be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other embodiments comprise a computer program for carrying out one of the methods described herein, stored on a computer-readable medium.

Другими словами, вариант осуществления способа согласно изобретению в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the method according to the invention is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is executed on a computer.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными обычно является материальным и/или постоянным.Therefore, a further embodiment of the methods of the invention is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein. The storage medium, digital storage medium or recorded data medium is usually tangible and/or permanent.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, a further embodiment of the method according to the invention is a data stream or sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional embodiment includes processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передачи (например, электронным или оптическим способом) компьютерной программы для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.A further embodiment of the invention comprises an apparatus or system capable of transmitting (eg, electronically or optically) a computer program for performing one of the methods described herein to a receiving device. The receiving device may, for example, be a computer, mobile device, storage device, or the like. The device or system, for example, may include a file server for transmitting a computer program to a receiving device.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably carried out by any hardware device.

Устройство, описанное в данном документе, может быть реализовано с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера.The apparatus described herein may be implemented using a hardware device, or using a computer, or using a combination of a hardware device and a computer.

Устройство, описанное в данном документе, или любые компоненты устройства, описанного в данном документе, могут быть реализованы по меньшей мере частично в аппаратных средствах и/или в программном обеспечении.The device described herein, or any components of the device described herein, may be implemented at least in part in hardware and/or software.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера.The methods described herein may be performed using a hardware device, or using a computer, or using a combination of a hardware device and a computer.

Способы, описанные в данном документе, или любые компоненты устройства, описанного в данном документе, могут выполняться по меньшей мере частично посредством аппаратных средств и/или посредством программного обеспечения.The methods described herein, or any components of the apparatus described herein, may be performed at least in part by hardware and/or by software.

Вышеописанные варианты осуществления являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в данном документе в качестве описания и пояснения вариантов осуществления.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the configurations and details described herein should be apparent to those skilled in the art. Therefore, it is intended to be limited only by the scope of the following claims, and not by the specific details provided herein as a description and explanation of the embodiments.

Список литературыBibliography

[1] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli и M. Schnell "APPARATUSES AND METHODS FOR ENCODING OR DECODING A MULTI-CHANNEL AUDIO SIGNAL USING FRAME CONTROL SYNCHRONIZATION", WO17125562, 27 июля 2017 года.[1] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell "APPARATUSES AND METHODS FOR ENCODING OR DECODING A MULTI-CHANNEL AUDIO SIGNAL USING FRAME CONTROL SYNCHRONIZATION", WO17125562, July 27, 2017.

[2] M. Schroeder и B. Atal "Code-excited linear prediction (CELP): High-quality speech at very low bit rates", in ICASSP '85. IEEE International Conference on Acoustics, Speech and Signal Processing, Тампа, Флорида, США, 1985 год.[2] M. Schroeder and B. Atal "Code-excited linear prediction (CELP): High-quality speech at very low bit rates", in ICASSP '85. IEEE International Conference on Acoustics, Speech and Signal Processing, Tampa, Florida, USA, 1985.

[3] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli и M. Schnell "APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL USING A BROADBAND ALIGNMENT PARAMETER AND A PLURALITY OF NARROWBAND ALIGNMENT PARAMETERS", WO17125558, 27 июля 2017 года.[3] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell "APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL USING A BROADBAND ALIGNMENT PARAMETER AND A PLURALITY OF NARROWBAND ALIGNMENT PARAMETERS", WO17125558, July 27, 2017.

[4] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.[4] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

Claims

1. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),1. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный аудиокодер (100, 500, 800) выполнен с возможностью переключения между параметрическим многоканальным кодированием (120, 550, 830) множества каналов и отдельным кодированием (130, 560, 834) множества каналов в зависимости от характеристик входного аудиопредставления (110, 510a, 510b, 810);- at the same time, the multi-channel audio encoder (100, 500, 800) is configured to switch between parametric multi-channel coding (120, 550, 830) of a plurality of channels and separate coding (130, 560, 834) of a plurality of channels, depending on the characteristics of the input audio presentation (110, 510a, 510b, 810);

- причём многоканальный декодер выполнен с возможностью определения одного или более параметров многоканального кодирования;- moreover, the multi-channel decoder is configured to determine one or more multi-channel coding parameters;

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеется ли один доминирующий источник во множестве частотно-временных частей или имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение либо более чем на заданное отклонение, и переключения в зависимости от определения того, отличаются ли параметры многоканального кодирования по меньшей мере на заданное отклонение или более чем на заданное отклонение;- at the same time, the multi-channel encoder (100, 500, 800) is configured to determine whether there is one dominant source in a plurality of time-frequency parts or whether there are two or more sources in a certain time-frequency part, the multi-channel coding parameters of which differ at least by a predetermined deviation or by more than a predetermined deviation, and switching depending on determining whether the multi-channel coding parameters differ by at least a predetermined deviation or by more than a predetermined deviation;

- при этом параметры многоканального кодирования основаны на взаимосвязи между каналами входного аудиопредставления; и- in this case, the parameters of multi-channel coding are based on the relationship between the channels of the input audio presentation; and

- при этом многоканальный аудиокодер выполнен с возможностью переключения на параметрическое многоканальное кодирование в случае одного источника и переключения на отдельное кодирование в случае двух или более источников в упомянутой определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение.- at the same time, the multi-channel audio encoder is configured to switch to parametric multi-channel coding in the case of one source and switch to separate coding in the case of two or more sources in the mentioned specific time-frequency part, the multi-channel coding parameters of which differ by at least a given deviation.

2. Многоканальный кодер (100, 500, 800) по п. 1, при этом:2. Multi-channel encoder (100, 500, 800) according to item 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствует ли входное аудиопредставление (110, 510a, 510b, 810) предположению относительно модели, лежащей в основе параметрического многоканального кодирования (120, 550, 830), и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether the input audio representation (110, 510a, 510b, 810) corresponds to an assumption about the model underlying the parametric multi-channel coding (120, 550, 830) and switch depending from the above definition.

3. Многоканальный кодер (100, 500, 800) по п. 2, при этом:3. Multi-channel encoder (100, 500, 800) according to item 2, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью переключения на отдельное кодирование (130, 560, 834), если предположение относительно модели, лежащей в основе параметрического многоканального кодирования (120, 550, 830), не выполняется.- the multi-channel encoder (100, 500, 800) is configured to switch to a separate encoding (130, 560, 834) if the assumption regarding the model underlying the parametric multi-channel encoding (120, 550, 830) is not fulfilled.

4. Многоканальный кодер (100, 500, 800) по п. 1, при этом:4. Multi-channel encoder (100, 500, 800) according to item 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствует ли входное аудиопредставление (110, 510a, 510b, 810) доминирующему источнику, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether the input audio representation (110, 510a, 510b, 810) corresponds to the dominant source and switch depending on said determination.

5. Многоканальный кодер (100, 500, 800) по п. 1, при этом:5. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеется ли один доминирующий источник во множестве частотно-временных частей, и/или определения, имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение или более чем на заданное отклонение, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine if there is one dominant source in a plurality of time-frequency parts, and/or determine if there are two or more sources in a certain time-frequency part, the multi-channel coding parameters of which differ by at least a predetermined deviation or more than a predetermined deviation, and switching depending on said definition.

6. Многоканальный кодер (100, 500, 800) по п. 1, при этом:6. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения параметра модели, лежащей в основе параметрического многоканального кодирования (120, 550, 830), и переключения в зависимости от параметра модели.- the multi-channel encoder (100, 500, 800) is configured to determine the model parameter underlying the parametric multi-channel encoding (120, 550, 830) and switch depending on the model parameter.

7. Многоканальный кодер (100, 500, 800) по п. 1, при этом:7. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, обеспечивает ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), возможность однозначного определения параметра многоканального кодирования либо указывает ли она два или более различных возможных значения параметра многоканального кодирования, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether the characteristic defining the relationship between the channels of the input audio presentation (110, 510a, 510b, 810) allows the multi-channel encoding parameter to be uniquely determined, or whether it indicates two or more different possible values of the multi-channel coding parameter, and switching depending on the mentioned definition.

8. Многоканальный кодер (100, 500, 800) по п. 1, при этом:8. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), только одно значимое значение, которое соответствует условию значимости, либо содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), два или более значимых значения, которые соответствуют условию значимости, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether the characteristic that defines the relationship between the channels of the input audio presentation (110, 510a, 510b, 810) contains only one significant value that meets the significance condition, or whether the characteristic contains, defining a relationship between channels of the input audio presentation (110, 510a, 510b, 810), two or more significant values that match the significance condition, and switching depending on said definition.

9. Многоканальный кодер (100, 500, 800) по п. 1, при этом:9. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения параметра предыдущего кадра и переключения в зависимости от параметра предыдущего кадра.- multi-channel encoder (100, 500, 800) is configured to determine the parameter of the previous frame and switch depending on the parameter of the previous frame.

10. Многоканальный кодер (100, 500, 800) по п. 1, при этом:10. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли интерферирующие источники во входном аудиопредставлении (110, 510a, 510b, 810), и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine if there are interfering sources in the input audio representation (110, 510a, 510b, 810) and switch depending on said determination.

11. Многоканальный кодер (100, 500, 800) по п. 1, при этом:11. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более значения, описывающих взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной частотно-временной частью, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine if there are two or more values describing the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) that meet the significance condition and that are associated with one time-frequency part, and switching depending on the mentioned definition.

12. Многоканальный кодер (100, 500, 800) по п. 1, при этом:12. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более пиков (610, 615, 620, 625, 710, 720) во взаимной корреляции между двумя или более каналами входного аудиопредставления, и переключения в зависимости от упомянутого определения.- multi-channel encoder (100, 500, 800) is configured to determine whether there are two or more peaks (610, 615, 620, 625, 710, 720) in cross-correlation between two or more channels of the input audio presentation, and switch depending on the said definition.

13. Многоканальный кодер (100, 500, 800) по п. 1, при этом:13. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) содержит модуль (530, 840) оценки, выполненный с возможностью оценки взаимосвязи между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810) на основе взаимной корреляции, и- the multi-channel encoder (100, 500, 800) comprises an estimator (530, 840) configured to estimate the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) based on cross-correlation, and

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, превышает ли разность между двумя пиковыми значениями (610, 615, 620, 625, 710, 720), ассоциированными с различным запаздыванием взаимной корреляции, некоторое значение, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether the difference between two peak values (610, 615, 620, 625, 710, 720) associated with a different cross-correlation lag exceeds a certain value, and switch depending from the above definition.

14. Многоканальный кодер (100, 500, 800) по п. 1, при этом:14. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, превышает ли расстояние между двумя или более значениями, описывающими взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной и той же частотно-временной частью, некоторое значение, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine if the distance between two or more values describing the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) that meet the significance condition and which are associated with the same time-frequency part, some value, and switching depending on the mentioned definition.

15. Многоканальный кодер (100, 500, 800) по п. 1, при этом:15. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения первого характеристического значения на основе эволюции взаимной корреляции и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine the first characteristic value based on the evolution of the cross-correlation and switching depending on said definition.

16. Многоканальный кодер (100, 500, 800) по п. 1, при этом:16. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения одного или более подчиненных характеристических значений на основе эволюции взаимной корреляции и переключения в зависимости от упомянутого определения, и/или- the multi-channel encoder (100, 500, 800) is configured to determine one or more subordinate characteristic values based on the evolution of cross-correlation and switching depending on said definition, and/or

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли одно или более подчиненных характеристических значений, на основе эволюции взаимной корреляции, и переключения в зависимости от упомянутого определения.wherein the multi-channel encoder (100, 500, 800) is configured to determine whether there are one or more subordinate characteristic values based on the evolution of the cross-correlation and switch depending on said determination.

17. Многоканальный кодер (100, 500, 800) по п. 1, при этом:17. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли главный пик (610, 620, 710) и один или более подчиненных пиков (615, 625, 720) условию значимости, и переключения в зависимости от упомянутого определения, и/или- the multi-channel encoder (100, 500, 800) is configured to determine whether the main peak (610, 620, 710) and one or more sub-peaks (615, 625, 720) meet the significance condition and switch depending on said determination, and/or

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли один или более подчиненных пиков (615, 625, 720) взаимной корреляции, которые соответствуют критерию релевантности, и переключения в зависимости от упомянутого определения.- while the multi-channel encoder (100, 500, 800) is configured to determine whether there are one or more subordinate cross-correlation peaks (615, 625, 720) that meet the relevance criterion, and switch depending on the mentioned definition.

18. Многоканальный кодер (100, 500, 800) по п. 1, при этом:18. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного учёта подчиненного пика (615, 625, 720) в определённом кадре входного аудиопредставления, если имеются один или более соответствующих подчиненных пиков (615, 625, 720) в одном или более кадрах, предшествующих упомянутому определённому кадру.- multi-channel encoder (100, 500, 800) is configured to selectively take into account a sub peak (615, 625, 720) in a certain frame of the input audio representation if there are one or more corresponding sub peaks (615, 625, 720) in one or more frames preceding the specified frame.

19. Многоканальный кодер (100, 500, 800) по п. 1, при этом:19. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли одно или более характеристических значений, которые описывают взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), условию стабильности, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether one or more characteristic values that describe the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) meet the stability condition, and switch depending from the above definition.

20. Многоканальный кодер (100, 500, 800) по п. 1, при этом:20. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, выполняется ли условие по шуму для определенного числа кадров, и избирательного исключения переключения, если условие по шуму выполняется.- the multi-channel encoder (100, 500, 800) is configured to determine whether the noise condition is met for a certain number of frames, and selectively exclude switching if the noise condition is met.

21. Многоканальный кодер (100, 500, 800) по п. 1, при этом:21. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, выполняется ли условие значимости и/или условие стабильности для характеристического значения для определенного числа кадров, и переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine whether the significance condition and/or the stability condition for the characteristic value is met for a certain number of frames, and to switch depending on said determination.

22. Многоканальный кодер (100, 500, 800) по п. 1, при этом:22. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, находится ли расстояние одного или более подчиненных пиков (615, 625, 720) в заданном диапазоне, и переключения и/или избирательного исключения переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine if the distance of one or more sub-peaks (615, 625, 720) is within a predetermined range and switch and/or selectively exclude switching depending on said determination.

23. Многоканальный кодер (100, 500, 800) по п. 1, при этом:23. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного исключения переключения в первом кадре после неактивного кадра входного аудиопредставления или после него, и/или- the multi-channel encoder (100, 500, 800) is configured to selectively exclude switching in the first frame after or after the inactive frame of the input audio presentation, and/or

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, изменен ли определённый флаг в кадре относительно одного или более предыдущих кадров, и избирательного исключения переключения в зависимости от упомянутого определения.- the multi-channel encoder (100, 500, 800) is configured to determine if a certain flag in a frame has changed relative to one or more previous frames, and to selectively eliminate switching depending on said determination.

24. Многоканальный кодер (100, 500, 800) по п. 1, при этом:24. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного переключения на отдельное кодирование (130, 560, 834) в ответ на обнаружение изменения характеристики входного аудиопредставления (110, 510a, 510b, 810), которое больше порогового значения.- the multi-channel encoder (100, 500, 800) is configured to selectively switch to a separate coding (130, 560, 834) in response to detecting a change in the characteristic of the input audio representation (110, 510a, 510b, 810) that is greater than a threshold value.

25. Многоканальный кодер (100, 500, 800) по п. 1, при этом:25. Multi-channel encoder (100, 500, 800) according to claim 1, while:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, изменен ли параметр, описывающий направление источника звука, по меньшей мере на значение, и переключения в зависимости от упомянутого определения,- the multi-channel encoder (100, 500, 800) is configured to determine whether the parameter describing the direction of the sound source is changed by at least a value and switch depending on said determination,

- при этом многоканальный аудиокодер выполнен с возможностью переключения на отдельное кодирование, если источник звука быстро перемещается.wherein the multi-channel audio encoder is configured to switch to a separate coding if the sound source moves rapidly.

26. Способ (300) многоканального кодирования аудиоданных для формирования (320) кодированного аудиопредставления на основе входного аудиопредставления, при этом способ содержит этап, на котором:26. A method (300) for multi-channel audio data coding for generating (320) an encoded audio representation based on an input audio representation, the method comprising:

- выполняют переключение (310) между параметрическим многоканальным кодированием множества каналов и отдельным кодированием множества каналов в зависимости от характеристик входного аудиопредставления;- perform switching (310) between parametric multi-channel coding of multiple channels and individual coding of multiple channels, depending on the characteristics of the input audio presentation;

- причём способ содержит этап, на котором определяют, имеется ли один доминирующий источник во множестве частотно-временных частей или имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение либо более чем на заданное отклонение, и выполняют переключение в зависимости от определения того, отличаются ли параметры многоканального кодирования по меньшей мере на заданное отклонение или более чем на заданное отклонение;- and the method includes the step of determining whether there is one dominant source in a plurality of time-frequency parts or whether there are two or more sources in a certain time-frequency part, the multi-channel coding parameters of which differ by at least a given deviation or by more than a predetermined deviation, and switching depending on determining whether the multi-channel coding parameters differ by at least a predetermined deviation or more than a predetermined deviation;

- при этом способ содержит этап, на котором выполняют переключение на параметрическое многоканальное кодирование в случае одного источника и выполняют переключение на отдельное кодирование в случае двух или более источников в упомянутой определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение.- the method comprises the step of switching to parametric multi-channel coding in the case of one source and switching to separate coding in the case of two or more sources in the specified time-frequency part, the multi-channel coding parameters of which differ by at least a given deviation .

27. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 26, когда компьютерная программа работает на компьютере.27. A computer-readable medium on which a computer program for carrying out the method of claim 26 is stored when the computer program is running on the computer.

28. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),28. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), только одно значимое значение, которое соответствует условию значимости, либо содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), два или более значимых значения, которые соответствуют условию значимости, и переключения в зависимости от упомянутого определения,- while the multi-channel encoder (100, 500, 800) is configured to determine whether the characteristic that defines the relationship between the channels of the input audio presentation (110, 510a, 510b, 810) contains only one significant value that meets the significance condition, or whether it contains a characteristic defining the relationship between the channels of the input audio presentation (110, 510a, 510b, 810), two or more significant values that correspond to the significance condition, and switching depending on the mentioned definition,

- при этом определение, содержит ли упомянутая характеристика только одно значимое значение или содержит ли упомянутая характеристика два или более значимых значений, позволяет решить, какое кодирование из параметрического многоканального кодирования или отдельного кодирования является более подходящим для упомянутого определённого входного аудиопредставления.- while determining whether said characteristic contains only one significant value or whether said characteristic contains two or more significant values, allows you to decide which coding from parametric multi-channel coding or separate coding is more suitable for said specific input audio representation.

29. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),29. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более значения, описывающих взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной частотно-временной частью, и переключения между параметрическим многоканальным кодированием и отдельным кодированием множества каналов в зависимости от упомянутого определения.- while the multi-channel encoder (100, 500, 800) is configured to determine whether there are two or more values describing the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) that meet the significance condition and are associated with one time-frequency part, and switching between parametric multi-channel coding and separate multi-channel coding depending on said definition.

30. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),30. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более пика (610, 615, 620, 625, 710, 720) во взаимной корреляции между двумя или более каналами входного аудиопредставления, и переключения в зависимости от упомянутого определения,- while the multi-channel encoder (100, 500, 800) is configured to determine whether there are two or more peaks (610, 615, 620, 625, 710, 720) in the cross-correlation between two or more channels of the input audio presentation, and switch to depending on the above definition,

- при этом взаимная корреляция связана с определённой частотно-временной частью, и- in this case, the cross-correlation is associated with a certain frequency-time part, and

- при этом многоканальный аудиокодер выполнен с возможностью переключения на отдельное кодирование при определении, что имеются ли два или более пика.wherein the multi-channel audio encoder is configured to switch to a separate coding when determining whether there are two or more peaks.

31. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),31. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) содержит модуль (530, 840) оценки, выполненный с возможностью оценки взаимосвязи между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810) на основе взаимной корреляции, иwherein the multi-channel encoder (100, 500, 800) comprises an estimator (530, 840) configured to estimate the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) based on cross-correlation, and

32. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),32. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, превышает ли расстояние между двумя или более значениями, описывающими взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной и той же частотно-временной частью, некоторое значение, и переключения в зависимости от упомянутого определения.- while the multi-channel encoder (100, 500, 800) is configured to determine whether the distance between two or more values describing the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) exceeds the significance condition and which are associated with the same time-frequency part, some value, and switching depending on the mentioned definition.

33. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),33. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли главный пик (610, 620, 710) и один или более подчиненных пиков (615, 625, 720) условию значимости, и переключения в зависимости от упомянутого определения, и/или- while the multi-channel encoder (100, 500, 800) is configured to determine whether the main peak (610, 620, 710) and one or more subordinate peaks (615, 625, 720) correspond to the significance condition, and switch depending on the mentioned definitions, and/or

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли один или более подчиненных пиков (615, 625, 720) взаимной корреляции, которые соответствуют критерию релевантности, и переключения в зависимости от упомянутого определения.- while the multi-channel encoder (100, 500, 800) is configured to determine whether there are one or more subordinate cross-correlation peaks (615, 625, 720) that meet the relevance criterion, and switch depending on the said definition.

34. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),34. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли одно или более характеристических значений, которые описывают взаимосвязь между двумя или более каналов входного аудиопредставления (110, 510a, 510b, 810), условию стабильности, и переключения в зависимости от упомянутого определения.- while the multi-channel encoder (100, 500, 800) is configured to determine whether one or more characteristic values that describe the relationship between two or more channels of the input audio presentation (110, 510a, 510b, 810) meet the stability condition, and switch according to the above definition.

35. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),35. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, выполняется ли условие по шуму для определенного числа кадров, и избирательного исключения переключения, если условие по шуму выполняется.- while the multi-channel encoder (100, 500, 800) is configured to determine whether the noise condition is met for a certain number of frames, and selectively exclude switching if the noise condition is met.

36. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),36. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного исключения переключения в первом кадре после неактивного кадра входного аудиопредставления или после него, и/или- while the multi-channel encoder (100, 500, 800) is configured to selectively exclude switching in the first frame after or after the inactive frame of the input audio presentation, and/or

37. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),37. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного переключения на отдельное кодирование (130, 560, 834) в ответ на обнаружение изменения характеристики входного аудиопредставления (110, 510a, 510b, 810), которое больше порогового значения;- at the same time, the multi-channel encoder (100, 500, 800) is configured to selectively switch to a separate coding (130, 560, 834) in response to detecting a change in the characteristics of the input audio presentation (110, 510a, 510b, 810) that is greater than the threshold value;

- при этом характеристика входного аудиопредставления представляет собой межканальную разность времен или главный пик взаимной корреляции между двумя или более каналами входного аудиопредставления.- while the characteristic of the input audio presentation is the inter-channel time difference or the main peak of the cross-correlation between two or more channels of the input audio presentation.

38. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),38. Multi-channel audio encoder (100, 500, 800) for generating an encoded audio representation (112, 552, 562, 812) based on the input audio representation (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, изменен ли параметр, описывающий направление источника звука во входном аудиопредставлении, по меньшей мере на некоторое значение, и переключения в зависимости от упомянутого определения.- at the same time, the multi-channel encoder (100, 500, 800) is configured to determine whether the parameter describing the direction of the sound source in the input audio representation has been changed by at least some value, and switch depending on the said definition.