BR112015007650B1

BR112015007650B1 - Codificador , decodificador e métodos para transformação de zoom dependente de sinal na codificação do objeto de áudio espacial

Info

Publication number: BR112015007650B1
Application number: BR112015007650-5A
Authority: BR
Inventors: Disch Sascha; Paulus Jouni; Edler Bernd; Hellmuth Oliver; Herre Jurgen; Kastner Thorsten
Original assignee: Fraunhofer - Gesellschaft Zur Foerderung Der Angewandten Forschung E.V
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2022-05-17
Also published as: RU2015116645A; CA2886999A1; RU2639658C2; BR112015007649B1; KR20150056875A; WO2014053547A1; BR112015007649A2; US10152978B2; BR112015007650A2; AR092928A1; KR101685860B1; KR20150065852A; AU2013326526B2; CN105190747B; US20150279377A1; EP2904611A1; HK1213361A1; TWI539444B; CA2887028C; TW201423729A

Abstract

CODIFICADOR, DECODIFICADOR E MÉTODOS PARA TRANSFORMAÇÃO DE ZOOM DEPENDENTE DE SINAL NA CODIFICAÇÃO DO OBJETO DE ÁUDIO ESPACIAL. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio de um sinal de downmix, é fornecido. O sinal de downmix codifica um ou mais sinal(is) do objeto de áudio. O decodificador compreende uma unidade de controle (181) para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de um ou mais sinal(is) do objeto de áudio. Além disso, o decodificador compreende um primeiro módulo de análise (182) para transformar o sinal de downmix para obter um primeiro downmix transformado, compreendendo uma pluralidade de canais de sub-banda primários. Figura 1c

Description

DESCRIÇÃO

[0001] A presente invenção refere-se à codificação do sinal de áudio, decodificação do sinal de áudio e processamento do sinal de áudio e, em particular, a um codificador, um decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial (SAOC 1 spatial-audio-object-coding} .

[0002] Nos sistemas de áudio digital modernos, é uma importante tendência permitir as modificações relacionadas ao objeto de áudio do conteúdo transmitido no lado do receptor. Estas modificações incluem modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial de objetos de áudio dedicados no caso de reprodução multicanal através dos alto-falantes espacialmente distribuídos. Isso pode ser obtido entregando individualmente diferentes partes do conteúdo de áudio aos diferentes alto- falantes .

[0003] Em outras palavras, na técnica do processamento de áudio, transmissão de áudio e armazenamento de áudio, há um desejo crescente em permitir a interação do usuário na reprodução do conteúdo de áudio orientado pelo objeto e ainda uma demanda para utilizar as possibilidades estendidas de reprodução multicanal para individualmente apresentar conteúdo de áudio ou partes deste a fim de melhorar a impressão de audição. Por causa disso, a utilização do conteúdo de áudio multicanal traz melhorias significantes para o usuário. Por exemplo, uma impressão de audição tridimensional pode ser obtida, que traz uma satisfação melhorada do usuário nas aplicações de entretenimento. Entretanto, o conteúdo de áudio multicanal é também útil nos ambientes profissionais, por exemplo, em aplicações de conferência telefônica, pois a inteligibilidade do orador pode ser melhorada utilizando uma reprodução de áudio multicanal. Outra possível aplicação é oferecer a um ouvinte de uma peça musical ajustar individualmente o nível de reprodução e/ou posição espacial de diferentes partes (também denominados "objetos de áudio") ou faixas, como uma parte vocal ou diferentes instrumentos. O usuário pode realizar tal ajuste por razões de gosto pessoal, para transcrever de forma mais fácil uma ou mais parte(s) da peça musical, finalidades educacionais, karaokê, ensaio, etc.

[0004] A transmissão discreta direta de todo o conteúdo digital de áudio multicanal ou multiobjeto, por exemplo, na forma de dados de modulação de código por pulso (PCM I pulse code modulation) ou ainda formatos de áudio comprimidos, demanda taxa de bits muito alta. Entretanto, é ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente de taxa de bit. Assim, alguém está desejando aceitar uma compensação razoável entre a qualidade de áudio e exigências de taxa de bit a fim de evitar uma carga de recurso excessiva causada pelas aplicações multicanal/muitiobj eto.

[0005] Recentemente, no campo de codificação de áudio, técnicas paramétricas para a transmissão/armazenamento eficiente de taxa de bit dos sinais de áudio multicanal/multiobjeto foram introduzidas, por exemplo, pelo Grupo de Especialistas em Imagens com Movimento (MPEG | Moving Picture Experts Group} e outros. Um exemplo é o MPEG Surround (MPS) como uma abordagem orientada por canal [MPS, BCC], ou a Codificação do objeto de áudio espacial (SAOC) de MPEG como uma abordagem orientada pelo objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada pelo objeto é denominada como "separação de fonte informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas têm o objetivo de reconstruir uma cena de áudio de saida desejada ou um objeto da fonte de áudio desejado com base em um downmix de canais/objetos e informação adicional que descreve a cena de áudio transmitida/armazenada e/ou os objetos da fonte de áudio na cena de áudio.

[0006] A estimativa e a aplicação do canal/objeto relacionado à informação adicional nestes sistemas é feita em uma forma seletiva de tempo-frequência. Assim, estes sistemas empregam as transformações de tempo-frequência, como a Transformada Discreta de Fourier (DFT | Discrete Fourier Transform) , a Transformada de Fourier de Curta Duração (STFT I Short Time Fourier Transform) ou banco de filtros, como bancos de Filtro em Espelho de Quadratura (QMF I Quadrature Mirror Filter), etc. O principio básico destes sistemas é descrito na Figura 3, utilizando o exemplo de MPEG SAOC.

[0007] No caso da STFT, a dimensão temporal é representada pelo número de bloco por tempo e a dimensão espectral é capturada pelo número ("posição") do coeficiente espectral, No caso do QMF, a dimensão temporal é representada pelo número do periodo de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral de QMF for empregada pela aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF hibrido e as sub-bandas de resolução precisa são denominadas sub-bandas hibridas.

[0008] Conforme já mencionado acima, na SAOC o processamento geral é realizado em uma forma seletiva de frequência de tempo e pode ser descrito conforme segue, dentro de cada faixa de frequência, conforme descrito na Figura 3: - Sinais N do objeto de áudio de entrada s; ... sN são misturados em canais P Xi ... xP como parte do processamento do codificador, utilizando uma matriz de downmix, consistindo nos elementos di,i ... dn,p. Além disso, o codificador extrai informação adicional que descreve as características dos objetos de entrada de áudio (módulo do estimador de informação adicional (SIE I side-informationestimator) ) . Para MPEG SAOC, as relações das potências do objeto entre si é a forma mais básica desta informação adicional. - Sinais de downmix e informação adicional são transmitidos/armazenados. Para esta finalidade, o(s) sinal(s) de áudio de downmix pode(m) ser comprimido(s), por exemplo, utilizando os codificadores de áudio perceptuais bem conhecidos como MPEG-1/2 de Camada II ou III (também conhecido como .mp3), MPEG-2/4 - Codificação de Áudio Avançada (AAC 1 Advanced Audio Coding) etc. - Na extremidade da recepção, o decodificador conceitualmente tenta recuperar os sinais do objeto original ("separação do objeto") dos sinais de downmix (decodificados), utilizando a informação adicional transmitida. Estes sinais de objeto aproximados âi ... sN são, então, misturados em uma cena alvo representada por canais M de saída de áudio JÁ ... yM utilizando uma matriz de apresentação descrita pelos coeficientes rírl ... rN/M na Figura 3. A cena alvo desejada pode ser, no caso extremo, a representação de apenas um sinal de origem fora da mistura (cenário de separação de origem), mas também qualquer outra cena acústica arbitrária que consista nos objetos transmitidos. Por exemplo, a saida pode ser uma cena alvo de canal único, estéreo de 2 canais ou multicanal 5.1.

[0009] Os sistemas com base no tempo-frequência podem utilizar uma transformação de tempo-frequência (t/f) com resolução temporal e de frequência estática. Escolher uma determinada grade de resolução t/f fixa tipicamente envolve um compromisso entre a resolução de frequência e o tempo.

[0010] O efeito de uma resolução t/f fixa pode ser demonstrado no exemplo dos típicos sinais de objeto em uma mistura do sinal de áudio. Por exemplo, os espectros dos sons tonais exibem uma estrutura harmonicamente relacionada com uma frequência fundamental e vários sobre tons. A energia destes sinais é concentrada em determinadas regiões de frequência. Para estes sinais, uma resolução de alta frequência da representação de t/f utilizada é útil para separar as regiões espectrais tonais de banda estreita de uma mistura de sinal. Ao contrário, sinais transientes, como sons de bateria, geralmente têm uma estrutura temporal distinta: a energia substancial está apenas presente para curtos períodos de tempo e é dispersada sobre uma ampla faixa de frequências. Para estes sinais, uma alta resolução temporal da representação de t/f utilizada é vantajosa para separar a parte do sinal transiente da mistura de sinal.

[0011] Os esquemas de codificação de objeto de áudio atuais oferecem apenas uma variabilidade limitada na seletividade de tempo-frequência do processamento de SAOC. Por exemplo, o MPEG SAOC [SAOC] [SAOC1] [SAOC2] é limitado à resolução de tempo-frequência que pode ser obtida pelo uso do chamado Banco de Filtro em Espelho de Quadratura Híbrido (Hybrid-QMF | Hybrid. Quadrature Mirror Filter Bank) e seu agrupamento subsequente em bandas paramétricas. Assim, a recuperação do objeto na SAOC padrão (MPEG SAOC, conforme padronizado em [SAOC]) geralmente apresenta a resolução de frequência bruta de Hybrid-QMF levando à diafonia modulada sonora de outros objetos de áudio (por exemplo, perturbações de fala dupla no discurso ou perturbações de rugosidade auditiva na música).

[0012] Esquemas de codificação de objeto de áudio, como a Codificação de Sinal Binaural [BCC | Binaural Cue Coding] e Codificação Conjunta Paramétrica de Fontes de Áudio [JSC I Parametric Joint-Coding of Audio Sources], são também limitadas ao uso de um banco de filtro de resolução fixa. A escolha atual de um banco de filtro de resolução fixa ou transformação sempre envolve um compromisso predefinido em termos de otimização entre as propriedades temporais e espectrais do esquema de codificação.

[0013] No campo da separação de fonte informada (ISS I informed source separation} , foi sugerido adaptar dinamicamente o comprimento de transformação de frequência de tempo às propriedades do sinal [ISS7] bem como conhecido dos esquemas de codificação de áudio perceptual, por exemplo, Codificação de Áudio Avançada (AAC) [AAC].

[0014] O objeto da presente invenção é fornecer conceitos melhorados para a codificação de objeto de áudio. 0 objeto da presente invenção é solucionado por um decodificador, de acordo com a reivindicação 1, por um codificador, de acordo com a reivindicação 7, por um método de decodificação, de acordo com a reivindicação 13, por um método para codificar, de acordo com a reivindicação 14, e por um programa de computador, de acordo com a reivindicação 15.

[0015] Em contraste à SAOC do estado da técnica, aplicações são fornecidas para adaptar dinamicamente a resolução de tempo-frequência ao sinal em uma forma compatível regressiva, de modo que - fluxos contínuos de bits do parâmetro da SAOC originados de um codificador da SAOC padrão (MPEG SAOC, conforme padronizado em [SAOC]) podem, ainda, ser qualidade perceptual comparável a uma obtida com um decodificador padrão, - fluxos contínuos de bits do parâmetro da SAOC melhorados podem ser decodificados com qualidade ideal com o decodificador melhorado, e - fluxos contínuos de bits do parâmetro da SAOC melhorados e padrão podem ser misturados, por exemplo, em um cenário de unidade de controle multipontos (MCU | multi-point control unit), em um fluxo de bit comum que pode ser decodificado com um decodificador melhorado ou padrão.

[0016] Para as propriedades mencionadas acima, é útil fornecer uma representação de transformada / banco de filtro comum que pode ser dinamicamente adaptada na resolução de tempo-frequência, tanto para suportar a decodificação dos novos dados da SAOC melhorados quanto, ao mesmo tempo, para o mapeamento compatível regressivo dos dados da SAOC padrão tradicionais. A fusão dos dados da SAOC melhorada e dos dados da SAOC padrão é possivel dada como uma representação comum.

[0017] Uma qualidade perceptual da SAOC melhorada pode ser obtida adaptando dinamicamente a resolução de tempo- frequência do banco de filtro ou transformação que é empregada para estimar ou utilizada para sintetizar os sinais do objeto de áudio nas propriedades especificas do objeto de áudio de entrada. Por exemplo, se o objeto de áudio é quase estacionário durante um determinado periodo de tempo, a estimativa de parâmetro e a sintese é favoravelmente realizada em uma resolução de tempo bruto e uma resolução precisa de frequência. Se o objeto de áudio contém transientes ou não estacionários durante um determinado periodo de tempo, a estimativa de parâmetro e a síntese são vantajosamente realizadas utilizando uma resolução precisa de tempo e uma resolução de frequência bruta. Assim, a adaptação dinâmica do banco de filtro ou transformação permite - uma seletividade de alta frequência na separação espectral de sinais quase estacionários para evitar a diafonia entre objetos, e - alta precisão temporal para inícios do objeto ou eventos transientes a fim de reduzir pré- e pós- ecos.

[0018] Ao mesmo tempo, a qualidade da SAOC tradicional pode ser obtida pelo mapeamento dos dados da SAOC padrão na grade de tempo-frequência fornecida pela transformação adaptativa do sinal compatível regressivo inventivo que depende da informação adicional que descreve as características do sinal do objeto.

[0019] Poder decodificar tanto os dados da SAOC melhorados quanto padrão utilizando uma transformação comum permite a compatibilidade regressiva direta para aplicações que abrangem a mistura dos dados da nova SAOC melhorados e padrão.

[0020] Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, é fornecido. O sinal de downmix codifica dois ou mais sinais do objeto de áudio.

[0021] O decodificador compreende um gerador de sequência por janela ou determinação de uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de downmix de dominio de tempo do sinal de downmix. Cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de dominio de tempo da referida janela de análise. O gerador de sequência por janela é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio.

[0022] Além disso, o decodificador compreende um módulo de análise t/f para transformar a pluralidade de amostras de downmix de dominio de tempo de cada janela de análise da pluralidade de janelas de análise de um dominio de tempo em um dominio de frequência de tempo, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado.

[0023] Além disso, o decodificador compreende uma unidade não misturada para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0024] De acordo com uma aplicação, o gerador de sequência por janela pode ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificado pelo sinal de downmix seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t - lb, e um centro ck+i da janela de análise primária é definido pela localização t do transiente, de acordo com ck+i = t + lar em que la e lb são números.

[0025] Em uma aplicação, o gerador de sequência por janela pode ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificados pelo sinal de downmix seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t, em que um centro Cjt-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com c*-i = t - lbr e em que um centro c^+i de uma terceira janela de análise da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com c*+i t + lar em que la e lb são números.

[0026] De acordo com uma aplicação, o gerador de sequência por janela pode ser configurado para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise compreenda tanto um primeiro número de amostras de sinal do dominio de tempo quanto um segundo número de amostras de sinal do dominio de tempo, em que o segundo número de amostras de sinal do dominio de tempo é maior do que o primeiro número de amostras de sinal do dominio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o primeiro número de amostras de sinal do dominio de tempo quando a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificados pelo sinal de downmix.

[0027] Em uma aplicação, o módulo de análise t/f pode ser configurado para transformar as amostras de downmix de dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de frequência de tempo empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f (135) é configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise dependendo do comprimento de janela da referida janela de análise.

[0028] Além disso, um codificador para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo. O codificador compreende uma unidade de sequência por janela para determinar uma pluralidade de janelas de análise. Cada uma das janelas de análise compreende uma pluralidade de amostras de sinal do dominio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sinal do dominio de tempo da referida janela de análise. A unidade de sequência por janela é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0029] Além disso, o codificador compreende uma unidade de análise de t/f para transformar as amostras de sinal do dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de frequência de tempo para obter amostras do sinal transformado. A unidade de análise de t/f pode ser configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise dependendo do comprimento de janela da referida janela de análise.

[0030] Além disso, o codificador compreende a unidade de estimativa por PSI para determinar a informação adicional paramétrica, dependendo das amostras do sinal transformado.

[0031] Em uma aplicação, o codificador pode compreender, ainda, uma unidade de detecção transiente sendo configurada para determinar uma pluralidade de diferenças de nivel do objeto de dois ou mais sinais do objeto de áudio de entrada e sendo configurada para determinar se uma diferença entre a primeira dentre as diferenças de nível do objeto e a segunda dentre as diferenças de nivel do objeto é maior do que um valor limite, para determinar para cada uma das janelas de análise, se a referida janela de análise compreender um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0032] De acordo com uma aplicação, a unidade de detecção transiente pode ser configurada para empregar uma função de detecção d(n) para determinar se a diferença entre a primeira dentre as diferenças de nível do objeto e a segunda dentre as diferenças de nível do objeto é maior do que o valor limite, em que a função de detecção d(n) é definida como:

[0033] em que n indica um índice, em que i indica um primeiro objeto, em que j indica um segundo objeto, em que b indica uma banda paramétrica. OLD pode, por exemplo, indicar uma diferença do nivel do objeto.

[0034] Em uma aplicação, a unidade de sequência por janela pode ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t - lb, e um centro cjt+i da janela de análise primária é definido pela localização t do transiente, de acordo com c*+i = t + lar em que la e lb são números.

[0035] De acordo com uma aplicação, a unidade de sequência por janela pode ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t, em que um centro Cjt-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck-i = t - lb, e em que um centro ck+i de uma terceira janela de análise da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com c*+i = t + la, em que la e lb são números.

[0036] Em uma aplicação, a unidade de sequência por janela pode ser configurada para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise tanto compreenda um primeiro número de amostras de sinal do dominio de tempo quanto um segundo número de amostras de sinal do dominio de tempo, em que o segundo número de amostras de sinal do dominio de tempo é maior do que o primeiro número de amostras de sinal do dominio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o primeiro número de amostras de sinal do dominio de tempo quando a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0037] De acordo com uma aplicação, a unidade de análise de t/f pode ser configurada para transformar as amostras de sinal do dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de frequência de tempo empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f pode ser configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise dependendo do comprimento de janela da referida janela de análise.

[0038] Além disso, um decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal (is) de saida de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de dominio de tempo, é fornecido. 0 sinal de downmix codifica dois ou mais sinais do objeto de áudio. O decodificador compreende um primeiro submódulo de análise para transformar a pluralidade de amostras de downmix de dominio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub-banda. Além disso, o decodificador compreende um gerador de sequência por janela para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de subbanda da referida janela de análise, em que o gerador de sequência por janela é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Além disso, o decodificador compreende um segundo módulo de análise para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado. Além disso, o decodificador compreende uma unidade não misturada para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0039] Além disso, um codificador para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo. O codificador compreende um primeiro submódulo de análise para transformar a pluralidade de amostras de sinal do domínio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub-banda. Além disso, o codificador compreende uma unidade de sequência por janela para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a unidade de sequência por janela é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. Além disso, o codificador compreende um segundo módulo de análise para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter amostras do sinal transformado. Além disso, o codificador compreende uma unidade de estimativa por PSI para determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0040] Além disso, o decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal (is) de saida de áudio de um sinal de downmix, é fornecido. 0 sinal de downmix codifica um ou mais sinal (is) do objeto de áudio. O decodificador compreende uma unidade de controle para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de um ou mais sinal (is) do objeto de áudio. Além disso, o decodificador compreende um primeiro módulo de análise para transformar o sinal de downmix para obter um primeiro downmix transformado, compreendendo uma pluralidade de canais de sub-banda primários. Além disso, o decodificador compreende um segundo módulo de análise para gerar, quando a indicação de ativação é definida no estado de ativação, um segundo downmix transformado pela transformação de, pelo menos, um dos canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo downmix transformado compreende os canais de subbanda primários que não foram transformados pelo segundo módulo de análise e os canais de sub-banda secundários. Além disso, o decodificador compreende uma unidade não misturada, em que a unidade não misturada é configurada para não misturar o segundo downmix transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica em um ou mais sinal(is) do objeto de áudio para obter o sinal de saida de áudio e para não misturar o primeiro downmix transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saida de áudio.

[0041] Além disso, um codificador para codificar um sinal do objeto de áudio de entrada é fornecido. O codificador compreende uma unidade de controle para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal do sinal do objeto de áudio de entrada. Além disso, o codificador compreende um primeiro módulo de análise para transformar o sinal do objeto de áudio de entrada para obter um primeiro sinal do objeto de áudio transformado, em que o primeiro sinal do objeto de áudio transformado compreende uma pluralidade de canais de sub-banda primários. Além disso, o codificador compreende um segundo módulo de análise para gerar, quando a indicação de ativação é definida no estado de ativação, um segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um da pluralidade de canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo sinal do objeto de áudio transformado compreende os canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e pelos canais de sub-banda secundários. Além disso, o codificador compreende uma unidade de estimativa por PSI, em que a unidade de estimativa por PSI é configurada para determinar a informação adicional paramétrica com base no segundo sinal do objeto de áudio transformado, quando a indicação de ativação é definida no estado de ativação, e para determinar a informação adicional paramétrica com base no primeiro sinal do objeto de áudio transformado, quando a indicação de ativação não é definida no estado de ativação.

[0042] Além disso, um método de decodificação para gerar um sinal de saida de áudio, compreendendo um ou mais canal (is) de saida de áudio de um sinal de dotvnmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, é fornecido. O sinal de downmix codifica dois ou mais sinais do objeto de áudio. O método compreende: - determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de downmix de domínio de tempo do sinal de downmix, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de domínio de tempo da referida janela de análise e em que a determinação da pluralidade de janelas de análise é conduzida de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. - transformar a pluralidade de amostras de downmix de domínio de tempo de cada janela de análise da pluralidade de janelas de análise de um domínio de tempo em um domínio de frequência de tempo, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado, e - não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio,

[0043] Além disso, um método para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do domínio de tempo. O método compreende: análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sinal do dominio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sinal do dominio de tempo da referida janela de análise e em que a determinação da pluralidade de janelas de análise é conduzida de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. - Transformar as amostras de sinal do dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de frequência de tempo para obter amostras do sinal transformado, em que a transformação da pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise depende do comprimento de janela da referida janela de análise. E: - Determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0044] Além disso, um método de decodificação gerando um sinal de saida de áudio, compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de dominio de tempo, em que o sinal de downmix codifica dois ou mais sinais do objeto de áudio, é fornecido. O método compreende: - Transformar a pluralidade de amostras de downmix de dominio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de subbanda . - Determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. - Transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado. E: - Não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0045] Além disso, um método para codificar dois ou mais sinais do objeto de áudio de entrada, em que cada de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo, é fornecido. O método compreende: - Transformar a pluralidade de amostras de sinal do dominio de tempo para obter uma pluralidade de sub- bandas, compreendendo uma pluralidade de amostras de subbanda . - Determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. - Transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter amostras do sinal transformado. E - Determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0046] Além disso, um método de decodificação gerando um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, em que o sinal de downmix codifica dois ou mais sinais do objeto de áudio, é fornecido. O método compreende: - Definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. - Transformar o sinal de downmix para obter um primeiro downmix transformado, compreendendo uma pluralidade de canais de sub-banda primários. - Gerar, quando a indicação de ativação é definida no estado de ativação, um segundo downmix transformado pela transformação de, pelo menos, um dos canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo downmix transformado compreende os canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e pelos canais de sub-banda secundários. E: - Não misturar o segundo downmix transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio, e não misturar o primeiro downmix transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0047] Além disso, um método para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. 0 método compreende: - Definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. áudio de entrada para obter um primeiro sinal do objeto de áudio transformado do referido sinal do objeto de áudio de entrada, em que o referido primeiro sinal do objeto de áudio transformado compreende uma pluralidade de canais de subbanda primários. - Gerar para cada um dos sinais do objeto de áudio de entrada, quando a indicação de ativação é definida no estado de ativação, um segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um dos canais de sub-banda primários do primeiro sinal do objeto de áudio transformado do referido sinal do objeto de áudio de entrada para obter uma pluralidade de canais de sub-banda secundários, em que o referido segundo downmix transformado compreende os referidos canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e referidos canais de sub-banda secundários. E: - Determinar a informação adicional paramétrica com base no segundo sinal do objeto de áudio transformado de cada um dos sinais do objeto de áudio de entrada, quando a indicação de ativação é definida no estado de ativação, e determinação da informação adicional paramétrica com base no primeiro sinal do objeto de áudio transformado de cada um dos sinais do objeto de áudio de entrada, quando a indicação de ativação não é definida no estado de ativação.

[0048] Além disso, um programa de computador para implementar um dos métodos descritos acima, quando executado em um computador ou processador de sinal, é fornecido.

[0049] As aplicações preferidas serão fornecidas nas reivindicações dependentes.

[0050] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, nas quais:

[0051] A figura la ilustra um decodificador, de acordo com uma aplicação,

[0052] A figura lb ilustra um decodificador, de acordo com outra aplicação,

[0053] A figura 1c ilustra um decodificador, de acordo com uma aplicação adicional,

[0054] A figura 2a ilustra um codificador para codificar sinais do objeto de áudio de entrada, de acordo com uma aplicação,

[0055] A figura 2b ilustra um codificador para codificar sinais do objeto de áudio de entrada, de acordo com outra aplicação,

[0056] A figura 2c ilustra um codificador para codificar sinais do objeto de áudio de entrada, de acordo com uma aplicação adicional,

[0057] A figura 3 mostra um diagrama em blocos esquemático de uma visão geral conceituai de um sistema SAOC,

[0058] A figura 4 mostra um diagrama esquemático e ilustrativo de uma representação espectral temporal de um sinal de áudio de canal único,

[0059] A figura 5 mostra um diagrama em blocos esquemático de um cálculo computacional seletivo de frequência de tempo da informação adicional dentro de um codificador de SAOC,

[0060] A figura 6 descreve um diagrama em blocos de um decodificador de SAOC melhorado, de acordo com uma aplicação, ilustrando fluxo contínuo de bits SAOC padrão de decodificação,

[0061] A figura 7 descreve um diagrama em blocos de um decodificador, de acordo com uma aplicação,

[0062] A figura 8 ilustra um diagrama em blocos de um codificador, de acordo com uma aplicação particular que implementa uma passagem paramétrica de um codificador,

[0063] A figura 9 ilustra a adaptação da sequência de janelamento normal para acomodar o ponto de cruzamento da janela no transiente,

[0064] A figura 10 ilustra um esquema de comutação do bloco aplicação, de isolamento transiente, de acordo com uma

[0065] A figura 11 ilustra um sinal com um transiente e a sequência de janelamento do tipo AAC resultante, de acordo com uma aplicação,

[0066] estendida, A figura 12 ilustra filtragem híbrida de QMF

[0067] A figura 13 ilustra um exemplo onde janelas curtas são utilizadas para a transformação,

[0068] A figura 14 ilustra um exemplo onde janelas mais longas são utilizadas para a transformação do que no exemplo da Figura 13.

[0069] A figura 15 ilustra um exemplo, onde uma resolução de alta frequência e uma baixa resolução de tempo é realizada,

[0070] A figura 16 ilustra um exemplo, onde uma alta resolução de tempo e uma baixa resolução de frequência é realizada,

[0071] A figura 17 ilustra um primeiro exemplo, onde uma resolução de tempo imediata e uma resolução de frequência imediata é realizada, e

[0072] A figura 18 ilustra um primeiro exemplo, onde uma resolução de tempo imediata e uma resolução de frequência imediata é realizada.

[0073] Antes de descrever as aplicações da presente invenção, mais histórico sobre os sistemas SAOC do estado da técnica é fornecido.

[0074] A Figura 3 mostra uma disposição geral de um codificador de SAOC 10 e um decodif icador de SAOC 12. O codificador de SAOC 10 recebe como uma entrada N objetos, ou seja, sinais de áudio Si a sN. Em particular, o codificador 10 compreende um downmixer 16 que recebe os sinais de áudio Si a sN e reduz o mesmo a um sinal de downmix 18. De modo alternativo, o downmix pode ser fornecido externamente ("downmix artístico") e o sistema estima a informação adicional para fazer o downmix fornecido corresponder o downmix calculado. Na Figura 3, o sinal de downmix é mostrado para ser um sinal do P-canal. Assim, qualquer configuração do sinal de downmix mono (P=l), estéreo (P=2) ou multicanal (P>2) é concebível.

[0075] No caso de um downmix estéreo, os canais do sinal de downmix 18 são denotados LO e RO. no caso de um mesmo downmix mono ser simplesmente denotado LO. A fim de permitir que o decodificador de SAOC 12 recupere os objetos individuais Sj a sN, o estimador de informação adicional 17 fornece ao decodificador de SAOC 12 a informação adicional incluindo parâmetros de SAOC. Por exemplo, no caso de um downmix estéreo, os parâmetros de SAOC compreendem diferenças de nivel do objeto (OLD | object level differences') , correlações entre objetos (IOC I inter-object correlations) (parâmetros de correlação cruzada entre objetos), valores de ganho de downmix (DMG | downmix gain values) e diferenças do nivel do canal de downmix (DCLD | downmix channel level differences). A informação adicional 20, incluindo os parâmetros de SAOC, com o sinal de downmix 18, forma o fluxo de dados de saida de SAOC recebido pelo decodificador de SAOC 12 .

[0076] O decodificador de SAOC 12 compreende um upmixer que recebe o sinal de downmix 18, bem como a informação adicional 20, a fim de recuperar e apresentar os sinais de áudio si e SN em qualquer conjunto de canais selecionado pelo usuário yi a yM, com a representação sendo prescrita pela apresentação de informação 26 inserida no decodificador de SAOC 12.

[0077] Os sinais de áudio Si a sN podem ser inseridos no codificador 10 em qualquer dominio de codificação, tal como no dominio espectral ou de tempo. No caso dos sinais de áudio Si a sw serem inseridos no codificador 10 no dominio de tempo, como codificado por PCM, o codificador 10 pode utilizar um banco de filtro, como um banco QMF híbrido, a fim de transferir os sinais em um domínio espectral, no qual os sinais de áudio são representados em várias sub-bandas associadas com diferentes partes espectrais, em uma resolução específica do banco de filtro. Se os sinais de áudio si a sN já estão na representação esperada pelo codificador 10, alguns não têm que realizar a decomposição espectral.

[0078] A Figura 4 mostra um sinal de áudio no domínio espectral já mencionado. Como pode ser visto, o sinal de áudio é representado como uma pluralidade de sinais de sub-banda. Cada sinal de sub-banda 30i a 30K consiste em uma sequência temporal de valores de sub-banda indicados pelas pequenas caixas 32. Como pode ser visto, os valores de subbanda 32 dos sinais de sub-banda 30i a 30K são sincronizados entre si no tempo, de modo que, para cada um dos períodos de tempo do banco de filtro consecutivo 34, cada sub-banda 30i a 30K compreende um valor de sub-banda exato 32. Conforme ilustrado pelo eixo de frequência 36, os sinais de sub-banda 301 a 30K são associados com diferentes regiões de frequência, e conforme ilustrado pelo eixo de tempo 38, os períodos de tempo do banco de filtro 34 são consecutivamente dispostos no tempo.

[0079] Conforme descrito acima, o extrator da informação adicional 17 da Figura 3 computa os parâmetros de SAOC dos sinais de áudio de entrada Si a sN. , de acordo com o padrão SAOC atualmente implementado, o codificador 10 realiza este cálculo computacional em um resolução de tempo/frequência que pode ser reduzido com relação ao resolução de tempo/frequência original, conforme determinado pelos periodos de tempo do banco de filtro 34 e decomposição de sub-banda, por uma certa quantidade, com esta certa quantidade sendo sinalizada ao lado do decodificador dentro da informação adicional 20. Grupos de periodos de tempo do banco de filtro consecutivo 34 podem formar uma estrutura de SAOC 41. Ainda, o número de bandas do parâmetro dentro da estrutura de SAOC 41 é conduzido dentro da informação adicional 20. Assim, o dominio de tempo/frequência é dividido em porções de tempo/frequência exemplificadas na Figura 4 pelas linhas tracejadas 42. Na Figura 4 as bandas do parâmetro são distribuídas da mesma forma nas várias estruturas de SAOC descritas 41 de modo que uma disposição regular de porções de tempo/frequência seja obtida. No geral, entretanto, as bandas do parâmetro podem variar de uma estrutura de SAOC 41 à subsequente, dependendo das diferentes necessidades para resolução espectral nas respectivas estruturas de SAOC 41. Além disso, o comprimento das estruturas de SAOC 41 podem variar também Como uma consequência, a disposição de porções de tempo/frequência pode ser irregular. Independentemente, as porções de tempo/frequência dentro de uma estrutura de SAOC 41 particular tipicamente têm a mesma duração e são alinhadas na direção do tempo, ou seja, todas as porções t/f na referida estrutura de SAOC 41 começam no inicio da dada estrutura de SAOC 41 e terminam no final da referida estrutura de SAOC 41.

[0080] O extrator da informação adicional 17 descrito na Figura 3 calcula os parâmetros de SAOC, de acordo com as seguintes fórmulas. Em particular, o extrator da informação adicional 17 computa as diferenças de nivel do objeto para cada objeto i como

[0081] caracterizado pelas somas e os indices nek, respectivamente, passarem por todos os indices temporais 34 e todos os indices espectrais 30 que pertencem a uma determinada porção do tempo/frequência 42, referenciada pelos indices 1 para a estrutura de SAOC (ou periodo de tempo de processamento) e m para a banda do parâmetro. Assim, as energias de todos os valores de sub-banda Xi de um sinal de áudio ou objeto i são somadas e normalizadas no valor de energia mais alto desta porção entre todos os objetos ou sinais de áudio. x"'k* denota o conjugado complexo de x"’k .

[0082] Ainda, o extrator da informação adicional de SAOC 17 pode computar uma medição se a similaridade das porções de tempo/frequência correspondentes dos pares de diferentes objetos de entrada Si a Su- Embora o extrator da informação adicional de SAOC 17 possa computar a medição de similaridade entre as partes de objetos de entrada sj a s^, O extrator da informação adicional 17 pode também suprimir a sinalização da medição de similaridades ou restringir o cálculo computacional da medição de similaridades aos objetos de áudio Si a sN que formam os canais esquerdo e direito de um canal estéreo comum. Em qualquer caso, a medição de similaridade é chamada o parâmetro de correlação cruzada entre objetos

. 0 cálculo computacional é como segue

[0083] com índices de ganho n e k passando por todos os valores de sub-banda pertencentes a uma determinada porção do tempo/frequência 42, i e j denotando um determinado par de objetos de áudio Si a sN, e Re^ } denotando a operação de descarte da parte imaginária do argumento complexo.

[0084] O downmixer 16 da Figura 3 reduz os objetos si a sN pelo uso de fatores de ganho aplicados em cada objeto Sj a SN. ISSO é, um fator de ganho dj é aplicado ao objeto i e, então, todos os objetos ponderados s2 a sN são somados para obter um sinal mono de downmix, que é exemplificado na Figura 3 se P=1. Em outro caso exemplar de um sinal de downmix de dois canais, descritos na Figura 3 se P=2, um fator de ganho d2,i é aplicado ao objeto i e, então, estes objetos amplificados por ganho são somados para obter o canal de downmix esquerdo LO, e fatores de ganho d∑ri são aplicados ao objeto i e, então, os objetos amplificados por ganho são somados para obter o canal de downmix direito RO. Um processamento que é análogo ao acima deve ser aplicado no caso de um downmix multicanal (P>2) .

[0085] Esta prescrição de downmix é sinalizada ao lado do decodificador por meios de ganhos de downmix DMGi e, no caso de um sinal de downmix estéreo, diferenças do nível do canal de downmix DCLDÍ.

[0086] Os ganhos de downmix são calculados, de acordo com:

[0087] onde g é um pequeno número como 10-9.

[0088] Para DCLDs a seguinte fórmula é aplicada:

[0089] No modo normal, o downmixer 16 gera o sinal de downmix, de acordo com:

[0090] Para um downmix mono, ou

[0091] Para um downmix estéreo, respectivamente.

[0092] Assim, nas fórmulas mencionadas acima, os parâmetros OLD e IOC são uma função dos sinais de áudio e parâmetros DMG e DCLD são uma função de d. Assim, é observado que d pode ser variante no tempo e na frequência.

[0093] Assim, no modo normal, o downmixer 16 mistura todos os objetos Si a sN sem preferências, ou seja, com manuseio de todos os objetos s1 a SN igualmente.

[0094] No lado do decodificador, o upmixer realiza a intervenção do procedimento de downmix e a implementação da "informação de apresentação" 26 representada por uma matriz R (na literatura às vezes também chamada A) em uma etapa do cálculo computacional, a saber, no caso de um downmix de dois canais

[0095] onde a matriz E é uma função dos parâmetros OLD e IOC, e a matriz D contém os coeficientes de downmix como

[0096] A matriz E é uma matriz de covariância estimada dos objetos de áudio s1 a sN. Nas implementações atuais de SAOC, o cálculo computacional da matriz de covariância estimada E é tipicamente realizado na resolução espectral/temporal dos parâmetros de SAOC, ou seja, para cada (1,m), de modo que a matriz de covariância estimada possa ser escrita como E1'm. A matriz de covariância estimada E1'm tem o tamanho N x N com seus coeficientes sendo definidos como

[0097] Assim, a matriz E1'"' com

[0098] tem ao longo de sua diagonal as diferenças de nível do objeto, ou seja, e;.~'=OLD;•"' para i=j, visto que OLD»'" = OLDS'" e IOC'f' =1 r para i=j. Fora da sua diagonal, a matriz de covariância estimada E tem coeficientes da matriz que representam a média geométrica das diferenças de nível do objeto de objetos i e j, respectivamente, ponderada com a medição da correlação cruzada entre objetos IOCf

[0099] A Figura 5 exibe um possível princípio de implementação no exemplo do Estimador de Informação Adicional (SIE) como parte de um codificador de SAOC 10. 0 codificador de SAOC 10 compreende o mixer 16 e o estimador de informação adicional (SIE) 17. 0 SIE conceitualmente consiste em dois módulos: um módulo 45 para computar uma representação de t/f de curta duração (por exemplo, STFT ou QMF) de cada sinal. A representação de t/f de curta duração computada é inserida no segundo módulo 46, o módulo de estimativa de informação adicional seletiva de t/f (t/f-SIE) . 0 módulo de t/f-SIE 46 computa a informação adicional para cada porção t/f. Nas implementações atuais de SAOC, a transformação de tempo/frequência é fixada e idêntica para todos os objetos de áudio sI a sN. Além disso, os parâmetros de SAOC são determinados sobre as estruturas de SAOC que são as mesmas para todos os objetos de áudio e têm a mesma resolução de tempo/frequência para todos os objetos de áudio s1 a sN , assim desconsiderando as necessidades específicas do objeto para a resolução precisa temporal em alguns casos ou resolução precisa espectral em outros.

[0100] A seguir, as aplicações da presente invenção são descritas.

[0101] A Figura la ilustra um decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de dominio de tempo, de acordo com uma aplicação. O sinal de downmix codifica dois ou mais sinais do objeto de áudio.

[0102] O decodificador compreende um gerador de sequência por janela 134 para determinar uma pluralidade de janelas de análise (por exemplo, com base na informação adicional paramétrica, por exemplo, diferenças de nivel do objeto), em que cada uma das janelas de análise compreende uma pluralidade de amostras de downmix de dominio de tempo do sinal de downmix. Cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de dominio de tempo da referida janela de análise. 0 gerador de sequência por janela 134 é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Por exemplo, o comprimento da janela pode depender se a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificado pelo sinal de downmix.

[0103] Para determinar a pluralidade de janelas de análise, o gerador de sequência por janela 134 pode, por exemplo, informação adicional paramétrica de análise, por exemplo, diferenças transmitidas do nivel do objeto com relação a dois ou mais sinais do objeto de áudio, para determinar o comprimento da janela das janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Ou, por exemplo, para determinar a pluralidade de janelas de análise, o gerador de sequência por janela 134 pode analisar as formas da janela ou as próprias janelas de análise, em que as formas da janela ou as janelas de análise podem, por exemplo, ser transmitidas no fluxo continuo de bits do codificador ao decodificador, e em que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio.

[0104] Além disso, o decodificador compreende um módulo de análise t/f 135 para transformar a pluralidade de amostras de downmix de dominio de tempo de cada janela de análise da pluralidade de janelas de análise de um dominio de tempo em um dominio de frequência de tempo, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado.

[0105] Além disso, o decodificador compreende uma unidade não misturada 136 para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0106] As seguintes aplicações utilizam um mecanismo de construção da sequência da janela especial. Uma função da janela do protótipo f (n, Nu) é definida para o indice 0 < n < Nw - 1 para um comprimento da janela Ao desenhar uma única janela wA(n) , três pontos de controle são necessários, a saber, os centros da janela prévia, atual e próxima,

•

[0107] Utilizando-os, a função de janelamento é definida como

[0108] A localização real da janela é, então,

denota a operação de arredondamento do argumento para o próximo número inteiro acima, e |_ J denota correspondentemente a operação de arredondamento do argumento para o próximo número inteiro abaixo). A função da janela do protótipo utilizada nas ilustrações é a janela sinusoidal definida como

[0109] mas também outras formas podem ser utilizadas. A localização transiente t define os centros para três janelas ck_}=t-lb, ck=t, e cM=t+la, onde os números lb e la definem o intervalo desejado da janela antes e após o transiente.

[0110] Conforme explicado posteriormente com relação à Figura 9, o gerador de sequência por janela 134 pode, por exemplo, ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t - lbl e um centro ck+i da janela de análise primária é definido pela localização t do transiente, de acordo com ck+i = t + lar em que e lb são números.

[0111] Conforme explicado posteriormente com relação à Figura 10, o gerador de sequência por janela 134 pode, por exemplo, ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t, em que um centro Cjt-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck-i = t - e em que um centro ck+i de uma terceira janela de análise da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com CJC+I = t + la, em que la e lb são números.

[0112] Conforme explicado posteriormente com relação à Figura 11, o gerador de sequência por janela 134 pode, por exemplo, ser configurado para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise tanto compreenda um primeiro número de amostras de sinal do dominio de tempo ou um segundo número de amostras de sinal do dominio de tempo, em que o segundo número de amostras de sinal do dominio de tempo é maior do que o primeiro número de amostras de sinal do dominio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o primeiro número de amostras de sinal do dominio de tempo quando referida janela de análise compreende um transiente.

[0113] Em uma aplicação, o módulo de análise t/f 135 é configurado para transformar as amostras de downmix de dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de frequência de tempo empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f (135) é configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise dependendo do comprimento de janela da referida janela de análise.

[0114] A Figura 2a ilustra um codificador para codificar dois ou mais sinais do objeto de áudio de entrada. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo.

[0115] O codificador compreende uma unidade de sequência por janela 102 para determinar uma pluralidade de janelas de análise. Cada uma das janelas de análise compreende uma pluralidade de amostras de sinal do dominio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sinal do dominio de tempo da referida janela de análise. A unidade de sequência por janela 102 é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. Por exemplo, o comprimento da janela pode depender se a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0116] Além disso, o codificador compreende uma unidade de análise de t/f 103 para transformar as amostras de sinal do dominio de tempo de cada uma das janelas de análise de um domínio de tempo em um domínio de frequência de tempo para obter amostras do sinal transformado. A unidade de análise de t/f 103 pode ser configurada para transformar a pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise dependendo do comprimento de janela da referida janela de análise.

[0117] Além disso, o codificador compreende a unidade de estimativa por PSI 104 para determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0118] Em uma aplicação, o codificador pode, por exemplo, compreender, ainda, uma unidade de detecção transiente 101 sendo configurada para determinar uma pluralidade de diferenças de nível do objeto de dois ou mais sinais do objeto de áudio de entrada e sendo configurada para determinar, se uma diferença entre uma primeira dentre as diferenças de nível do objeto e uma segunda um de diferenças de nível do objeto é maior do que um valor limite, para determinar para cada uma das janelas de análise, se a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0119] De acordo com uma aplicação, a unidade de detecção transiente 101 é configurada para empregar uma função de detecção d(n) para determinar se a diferença entre uma primeira dentre as diferenças de nivel do objeto e a segunda dentre as diferenças de nivel do objeto é maior do que o valor limite, em que a função de detecção d(n) é definida como:

[0120] caracterizado por n indicar um indice temporal, em que i indica um primeiro objeto, em que j indica um segundo objeto, em que b indica uma banda paramétrica. OLD pode, por exemplo, indicar uma diferença do nivel do objeto.

[0121] Conforme explicado posteriormente com relação à Figura 9, a unidade de sequência por janela 102 pode, por exemplo, ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t - lbr e um centro c^+i da janela de análise primária é definido pela localização t do transiente, de acordo com ck+i = t + la, em que la e lb são números.

[0122] Conforme explicado posteriormente com relação à Figura 10, a unidade de sequência por janela 102 pode, por exemplo, ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro Ck da janela de análise primária é definido por uma localização t do transiente, de acordo com Ck = t, em que um centro c*-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck-i = t - lbr e em que um centro Cjc+i de uma terceira janela de análise da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com Cjt+i = t + la, em que la e lb são números.

[0123] Conforme explicado posteriormente com relação à Figura 11, a unidade de sequência por janela 102 pode, por exemplo, ser configurada para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise tanto compreenda um primeiro número de amostras de sinal do dominio de tempo quanto um segundo número de amostras de sinal do dominio de tempo, em que o segundo número de amostras de sinal do dominio de tempo é maior do que o primeiro número de amostras de sinal do dominio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o primeiro número de amostras de sinal do dominio de tempo quando referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0124] De acordo com uma aplicação, a unidade de análise de t/f 103 é configurada para transformar as amostras de sinal do dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de frequência de tempo empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f 103 é configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise dependendo do comprimento de janela da referida janela de análise.

[0125] A seguir, uma SAOC melhorada utilizando bancos de filtro adaptativos compatíveis regressiva, de acordo com as aplicações, é descrita.

[0126] Primeiramente, a decodificação do fluxo continuo de bits da SAOC padrão por um decodificador de SAOC melhorado é explicada.

[0127] O decodificador de SAOC melhorado é desenhado de modo que possa decodificar o fluxo continuo de bits dos codificadores SAOC padrão com uma boa qualidade. A decodificação é limitada à reconstrução paramétrica apenas e possíveis fluxos residuais são ignorados.

[0128] A Figura 6 descreve um diagrama em blocos de um decodificador de SAOC melhorado, de acordo com uma aplicação, ilustrando a fluxo continuo de bits de SAOC padrão de decodificação. Os blocos funcionais pretos negritados (132, 133, 134, 135) indicam o processamento inventivo. A informação adicional paramétrica (PSI) consiste em conjuntos de diferenças de nivel do objeto (OLD), correlações entre objetos (IOC), e uma matriz de downmix D utilizada para criar o sinal de downmix (áudio DMX) dos objetos individuais no decodificador. Cada parâmetro definido está associado com um limite do parâmetro que define a região temporal na qual os parâmetros estão associados. Na SAOC padrão, as posições de frequência da representação de tempo/frequência subjacente são agrupadas em banda paramétricas. 0 espaçamento das bandas lembra as bandas criticas no sistema auditivo humano. Além disso, várias estruturas de representação de t/f podem ser agrupadas em uma estrutura do parâmetro. Ambas as operações fornecem uma redução na quantidade da informação adicional necessária com o custo de imprecisões de modelagem.

[0129] Conforme descrito no padrão da SAOC, as OLDs e lOCs são utilizadas para calcular a matriz não misturada G=ED‘J, onde os elementos de

, aproxima a matriz de correlação cruzada do objeto, i e j são indices do objeto,

, e D é a transposição de D. Uma calculadora da matriz não misturada 131 pode ser configurada para calcular a matriz não misturada corretamente.

[0130] A matriz não misturada é, então, linearmente interpolada por um interpolador temporal 132 da matriz não misturada da estrutura anterior sobre a estrutura do parâmetro até o limite do parâmetro no qual os valores estimados são atingidos, como por SAOC padrão. Isso resulta nas matrizes não misturadas para cada janela de análise do tempo/frequência e banda paramétrica.

[0131] A resolução de frequência da banda paramétrica das matrizes não misturadas é expandida à resolução da representação de tempo/frequência nesta janela de análise por uma unidade de adaptação de resolução de frequência da janela 133. Quando a matriz não misturada interpolada para a banda paramétrica b em uma estrutura de tempo é definida como G(ír) , os mesmos coeficientes sem mistura são utilizados para todas as posições de frequência dentro desta banda paramétrica.

[0132] Um gerador de sequência por janela 134 é configurado para utilizar a informação do intervalo definido do parâmetro da PSI para determinar uma sequência de janelamento apropriada para analisar o downmix sinal de áudio de entrada. A principal exigência é que quando há um limite definido do parâmetro na PSI, o ponto cruzado entre as janelas de análise consecutivas devem corresponder a ele. O janelamento também determina a resolução de frequência dos dados dentro de cada janela (utilizados na expansão de dados sem mistura, conforme previamente descrito).

[0133] Os dados em janela são, então, transformados pelo módulo de análise t/f 135 em uma representação de dominio de frequência utilizando uma transformação de tempo- frequência apropriada, por exemplo, Transformada Discreta de Fourier (DFT), Transformada de Cosseno Discreta Modificada Complexa (CMDCT I Complex Modified Discrete Cosine Transform) ou Transformada Discreta de Fourier com empilhamento diferencial (ODFT I Oddly stacked Discrete Fourier Transform).

[0134] Finalmente, uma unidade não misturada 136 aplica as matrizes não misturadas de posição por frequência e por estrutura na representação espectral do sinal de downmix X para obter as reconstruções paramétricas Y . 0 canal de saida j é uma combinação linear dos canais de downmix

[0135] A qualidade que pode ser obtida com este processo é para a maioria das finalidades perceptualmente indistinguível do resultado obtido com um decodificador padrão SAOC.

[0136] Deve ser observado que o texto acima descreve a reconstrução de objetos individuais, mas no SAOC padrão a apresentação é incluida na matriz não misturada, ou seja, é incluida na interpolação paramétrica. Como uma operação linear, a ordem das operações tem importância, mas a diferença é digna de nota.

[0137] A seguir, a decodificação do fluxo continuo de bits de SAOC melhorada por um decodif icador de SAOC melhorado é descrito.

[0138] A funcionalidade principal do decodificador de SAOC melhorado já foi descrita previamente na decodificação do fluxo contínuo de bits da SAOC padrão. Esta seção detalhará como as melhorias da SAOC melhorada introduzida na PSI podem ser utilizadas para obter uma melhor qualidade perceptual.

[0139] A Figura 7 descreve os blocos funcionais principais do decodificador, de acordo com uma aplicação ilustrando a decodificação das melhorias da resolução de frequência. Os blocos funcionais pretos em negrito (132, 133, 134, 135) indicam o processamento inventivo.

[0140] Primeiramente, uma unidade de expansão de valor sobre a banda 141 adapta os valores de OLD e IOC para cada banda paramétrica na resolução de frequência utilizada nas melhorias, por exemplo, em 1024 posições. Isso é feito replicando o valor sobre as posições de frequência que correspondem à banda paramétrica. Isso resulta em novas OLDs <

é uma matriz de núcleo que define a atribuição das posições de frequência f em bandas paramétricas b por

[0141] Paralelo a isso, a unidade de recuperação de função delta 142 inverte a parametrização do fator de correção para obter a função delta C"c(/) do mesmo tamanho que a OLD e IOC expandida.

[0142] Então, a unidade de aplicação delta 143 aplica o delta nos valores expandidos de OLD, e os valores de OLD de resolução precisa obtida são obtidos por

[0143] Em uma aplicação particular, o cálculo das matrizes não misturadas, podem, por exemplo, ser feitos pela calculadora da matriz não misturada 131 como com fluxo continuo de bit da SAOC padrão de decodificação:

Se desejado, a matriz de apresentação pode ser multiplicada na matriz não misturada G(/). A interpolação temporal pelo interpolador temporal 132 segue por SAOC padrão.

[0144] Como a resolução de frequência em cada janela pode ser diferente (geralmente inferior) da resolução nominal de alta frequência, a unidade de adaptação de resolução de frequência da janela 133 precisa adaptar as matrizes não misturadas para corresponder a resolução dos dados espectrais de áudio para permitir aplica-la. Isso pode ser feito, por exemplo, pela reamostragem dos coeficientes sobre o eixo de frequência para a resolução correta. Ou se as resoluções são múltiplos inteiros, simplesmente calcular a média dos dados de alta resolução dos indices que correspondem uma posição de frequência na resolução inferior

[0145] A informação de sequência de janelamento do fluxo continuo de bit pode ser utilizada para obter uma análise de tempo-frequência completamente complementar a um utilizado no codificador, ou a sequência de janelamento pode ser construída com base nos limites do parâmetro, como é feito na decodificação do fluxo de bit continuo de SAOC padrão. Para isso, um gerador de sequência por janela 134 pode ser empregado.

[0146] A análise de tempo-frequência do áudio de downmix é, então, conduzido por um módulo de análise t/f 135 utilizando as dadas janelas.

[0147] Finalmente, as matrizes não misturadas temporalmente interpoladas e espectralmente (possivelmente) adaptadas são aplicadas por uma unidade não misturada 136 na representação de tempo/frequência do áudio de entrada, e o canal de saida j pode ser obtido como uma combinação linear dos canais de entrada

[0148] A seguir, a codificação SAOC melhorada compativel regressiva é descrita.

[0149] Agora, um codificador de SAOC melhorada que produz um fluxo continuo de bit contendo uma parte da informação adicional compativel regressiva e melhorias adicionais é descrito. Os decodificadores padrão SAOC existentes podem decodificar a parte compativel regressiva de PSI e produzem reconstruções dos objetos. A informação adicionada utilizada pelo decodificador de SAOC melhorado melhora a qualidade perceptual das reconstruções na maioria dos casos. Adicionalmente, se o decodificador de SAOC melhorado está operando nos recursos limitados, as melhorias podem ser ignoradas e uma reconstrução de qualidade básica é ainda obtida. Deve ser observado que as reconstruções de SAOC padrão e decodificadores SAOC melhorados utilizando apenas a PSI compativel da SAOC padrão diferem, mas são julgadas para ser perceptualmente muito semelhantes (a diferença é de natureza semelhante como no fluxo continuo de bits SAOC padrão de decodificação com um decodificador de SAOC melhorado).

[0150] A Figura 8 ilustra um diagrama em blocos de um codificador, de acordo com uma aplicação particular que implementa a passagem paramétrica do codificador descrito acima. Os blocos funcionais pretos em negrito (102, 103) indicam o processamento inventivo. Em particular, a Figura 8 ilustra um diagrama em blocos da codificação de dois estágios produzindo o fluxo continuo de bit compativel regressiva com melhorias para decodificadores mais capazes.

[0151] Primeiro, o sinal é subdividido em estruturas de análise, que são, então, transformadas em dominio de frequência. Várias estruturas de análise são agrupadas em uma estrutura do parâmetro de comprimento fixo utilizando, por exemplo, em comprimentos de MPEG SAOC de 16 e 32 estruturas de análise são comuns. É assumido que as propriedades do sinal permanecem quase estacionárias durante a estrutura do parâmetro e podem então ser caracterizadas com apenas um conjunto de parâmetros. Se as características do sinal mudam dentro da estrutura do parâmetro, o erro de modelagem é apresentado, e seria útil subdividir a estrutura do parâmetro mais longa em partes nas quais a suposição de quase estacionário é novamente realizada. Para esta finalidade, a detecção transiente é necessária.

[0152] Os transientes podem ser detectados pela unidade de detecção transiente 101 de todos os objetos de entrada separadamente, e quanto há um evento transiente é apenas um dos objetos que a localização é declarada como uma localização transiente global. A informação das localizações transientes é utilizada para construir uma sequência de janelamento apropriada. A estrutura pode se basear, por exemplo, na seguinte lógica: - Definir um comprimento da janela padrão, ou seja, o comprimento de um bloco de transformação do sinal padrão, por exemplo, 2048 amostras. - Definir o comprimento da estrutura do parâmetro, por exemplo, 4096 amostras, correspondentes a 4 janelas padrão com 50% de sobreposição. As estruturas do parâmetro agrupam várias janelas juntas e um único conjunto de descritores do sinal é utilizado para todo o bloco ao invés de ter os descritores para cada janela separadamente. Isso permite reduzir a quantidade de PSI. - Se nenhum transiente foi detectado, utilize as janelas padrão e o comprimento total da estrutura do parâmetro. - Se um transiente for detectado, adapte o janelamento para fornecer uma melhor resolução temporal na localização do transiente.

[0153] Enquanto constrói a sequência de janelamento, a unidade de sequência por janela 102 responsável por ela também cria subestruturas do parâmetro de uma ou mais janelas de análise. Cada subconjunto é analisado como uma entidade e apenas um conjunto de parâmetros de PSI é transmitido para cada sub-bloco. Para fornecer uma PSI compativel da SAOC padrão, o comprimento do bloco do parâmetro definido é utilizado como o comprimento do bloco do parâmetro principal, e os possíveis transientes localizados dentro deste bloco definem os subconjuntos do parâmetro.

[0154] A sequência da janela construída é emitida para a análise de tempo-frequência dos sinais de áudio de entrada conduzidos pela unidade de análise de t/f 103, e transmitidos na parte de melhoria da SAOC melhorada da PSI.

[0155] Os dados espectrais de cada janela de análise são utilizados pela unidade de estimativa por PSI 104 para estimar a PSI para a parte de SAOC compatível regressiva (por exemplo, MPEG). Isso é feito agrupando as posições espectrais nas bandas paramétricas de MPEG SAOC e estimando as lOCs, OLDs e energias de objetos absolutos (NRG) nas bandas. Seguindo soltamente a notação de MPEG SAOC, o produto normalizado de dois espectros do objeto S;(/,n) e em uma porção de parametrização é definido como

[0156] onde a matriz

define o mapeamento das posições de representação de t/f Fn na estrutura n (das estruturas N nesta estrutura do parâmetro) em bandas paramétricas B por

[0157] S* é o conjugado complexo de S. A resolução espectral pode variar entre as estruturas dentro de um único bloco paramétrico, assim a matriz de mapeamento converte os dados em uma base de resolução comum, A energia do objeto máximo nesta porção de parametrização é definida como a energia do objeto máximo

. Tendo este i valor, as OLDs são, então, definidas como as energias do objeto normalizadas

[0158] E finalmente a IOC pode ser obtida das potências cruzadas como

[0159] Isso conclui que a estimativa das partes compatíveis da SAOC padrão do fluxo continuo de bit.

[0160] Uma unidade de reconstrução de espectro de potência bruta 105 é configurada para utilizar as OLDs e NRGs para reconstrução de uma estimativa bruta do envelope espectral no bloco de análise do parâmetro. O envelope é construído na resolução de frequência mais alta utilizada neste bloco.

[0161] O espectro original de cada janela de análise é utilizado por uma unidade de estimativa do espectro de potência 106 para calcular o espectro de potência nesta j anela.

[0162] Os espectros de potência obtidos são transformados em uma representação da resolução comum de alta frequência por uma unidade de adaptação de resolução de frequência 107. Isso pode ser feito, por exemplo, pela interpolação dos valores espectrais de potência. Então, o perfil espectral de potência média é calculado pelo cálculo da média dos espectros dentro do bloco do parâmetro. Isso corresponde aproximadamente a estimativa de OLD que omite a agregação da banda paramétrica. 0 perfil espectral obtido é considerado como a OLD de resolução precisa.

[0163] A unidade de estimativa por delta 108 é configurada para estimar um fator de correção, "delta", por exemplo, dividindo a OLD de resolução precisa pela reconstrução do espectro de potência bruta. Como um resultado, isso fornece para cada posição de frequência um fator de correção (multiplicativo) que pode ser utilizado para aproximar a OLD de resolução precisa dados os espectros brutos.

[0164] Finalmente, uma unidade de modelagem de delta 109 é configurada para modelar o fator de correção estimado em uma forma eficiente para transmissão.

[0165] Efetivamente, as modificações de SAOC melhorada no fluxo contínuo de bit consistem na informação de sequência de janelamento e nos parâmetros para transmitir o "delta".

[0166] A seguir, a detecção transiente é descrita.

[0167] Quando as características do sinal permanecem quase estacionárias, o ganho de codificação (com relação à quantidade de informação adicional) pode ser obtido combinando várias estruturas temporais nos blocos do parâmetro. Por exemplo, na SAOC padrão, os valores geralmente utilizados são 16 e 32 estruturas de QMF por um bloco do parâmetro. Estes correspondem a 1024 e 2048 amostras, respectivamente. O comprimento do bloco do parâmetro pode ser definido antecipadamente em um valor fixo. Um efeito direto que ele tem é o atraso do codec (o codificador deve ter uma estrutura completa para poder codifica-la). Ao utilizar blocos paramétricos longos, seria útil detectar mudanças significativas nas características do sinal, essencialmente quando a suposição quase estacionária é violada. Após encontrar uma localização de uma mudança significativa, o sinal do domínio de tempo pode ser dividido e as partes podem novamente realizar a suposição quase estacionária melhor.

[0168] Aqui, um novo método de detecção transiente é descrito para ser utilizado em conjunto com a SAOC. Visto de forma pedântica, não tem o objetivo de detectar os transientes, mas ao invés das mudanças nas parametrizações do sinal que podem ser acionadas também, por exemplo, por uma compensação de som.

[0169] O sinal de entrada é dividido em estruturas de curra sobreposição, e as estruturas são transformadas no domínio de frequência, por exemplo, com a Transformada Discreta de Fourier (DFT). O espectro complexo é transformado ao espectro de potência multiplicando os valores com seus conjugados complexos (ou seja, colocando em quadratura seus valores absolutos). Então um agrupamento da banda paramétrica, semelhante a um utilizado na SAOC padrão, é utilizado, e a energia de cada banda paramétrica em cada período de tempo em cada objeto é calculado. As operações são curtas

[0170] onde S. (/,«) é o espectro complexo do objeto i na estrutura de tempo n. A soma passa por cima das posições de frequência f na banda b . Para remover algum efeito de ruído dos dados, os valores são filtrados por passa-baixa com um filtro IIR de primeira ordem:

[0171] onde

é o coeficiente de retorno do filtro, por exemplo, ^=0.9.

[0172] A principal parametrização na SAOC são as diferenças de nível do objeto (OLDs). O método de detecção proposto tenta detectar quando as OLDs mudariam. Assim, todos os pares do objeto são inspecionados com

. As mudanças em todos os pares de objeto único são somadas em uma função de detecção por

[0173] Os valores obtidos são comparados com um limite T para filtrar pequenos desvios de nivel do filtro, e uma distância minima L entre as detecções consecutivas é imposta. Assim a função de detecção é

[0174] A seguir, a resolução da SAOC melhorada resolução de frequência é descrita.

[0175] A resolução de frequência obtida da análise da SAOC padrão é limitada ao número de bandas paramétricas, tendo o valor máximo de 28 na SAOC padrão. Elas são obtidas de um banco de filtro híbrido consistindo em una análise de QMF de 64 bandas seguida por um estágio de filtragem híbrida nas bandas mais baixas ainda dividindo-as em 4 sub-bandas complexas. As faixas de frequência obtidas são agrupadas em bandas paramétricas imitando a resolução da banda crítica do sistema auditivo humano. O agrupamento permite reduzir a taxa de bit da informação adicional necessária.

[0176] O sistema existente produz uma qualidade de separação razoável dada a taxa de bit razoavelmente baixa. O principal problema é a resolução de frequência insuficiente para uma separação limpa de sons tonais. Isso é exibido como um "halo" de outros objetos ao redor dos componentes tonais de um objeto. Perceptualmente isso é observado como rudeza ou uma perturbação do tipo vocoder. 0 efeito prejudicial deste halo pode ser reduzido pelo aumento da resolução de frequência paramétrica. Fo observado que uma resolução igual ou mais alta do que 512 bandas (na taxa de amostragem 44.1 kHz) produz a separação perceptualmente boa nos sinais do teste. Esta resolução poderia ser obtida estendendo o estágio de filtragem híbrida do sistema existente, mas os filtros híbridos precisam ser de uma ordem alta para uma separação suficiente levando a um custo alto de cálculo computacional.

[0177] Uma forma simples de obter a resolução de frequência necessária é utilizar uma transformação de tempo- frequência com base em DFT. Estes podem ser implementados eficientemente através de um algoritmo da Transformada Rápida de Fourier (EFT | Fast Fourier Trans farin') . Ao invés de um DFT normal, CMDCT ou ODFT são consideradas como alternativas. A diferença é que as duas últimas são ímpares e o espectro obtido contém frequências puras positivas e negativas. Comparado a uma DFT, as posições de frequência são alternadas por uma largura de 0,5 posições. Na DFT uma das posições é centralizado em 0 Hz e outro na frequência de Nyquist. A diferença entre ODFT e CMDCT é que CMDCT contém uma operação de pós modulação adicional que afeta o espectro da fase. O benefício disso é que o espectro complexo resultante consiste na Transformada de Cosseno Discreta Modificada (MDCT) e a Transformada de Seno Discreta Modificada (MDST | Modified. Discrete Sine Transform) .

[0178] Uma transformada com base na DFT de comprimento N produz um espectro complexo com N valores. Quando a sequência transformada é em valor real, apenas N/2 destes valores são necessários para uma reconstrução perfeita; os outros valores N/2 podem ser obtidos dos dados com simples manipulações. A análise normalmente opera submetendo uma estrutura de amostras de N dominio de tempo do sinal, aplicando uma função de janelamento sobre os valores, e, então, calculando a transformação real nos dados em janela. Os blocos consecutivos sobrepõem temporalmente 50% e as funções de janelamento são desenhadas de modo que os quadrados das janelas consecutivas somarão em uma unidade. Isso garante que quando a função de janelamento é aplicada duas vezes nos dados (uma vez analisando o sinal do dominio de tempo, e uma segunda vez após a transformação da sintese antes da adição por sobreposição) , a cadeia de análise-mais- sintese sem modificações do sinal é sem perdas.

[0179] Dado 50% de sobreposição entre as estruturas consecutivas e um comprimento da estrutura de 2048 amostras, a resolução temporal efetiva é 1024 amostras (correspondente a 23,2 ms na taxa de amostragem de 44,1 kHz) . Isso não é pequeno o suficiente por duas razões: primeiro, seria desejável poder codificar o fluxo continuo de bits produzido por um codificador de SAOC padrão, e segundo, os sinais de análise em um codificador de SAOC melhorada com uma resolução temporal mais fina, se necessário.

[0180] Na SAOC, é possivel agrupar vários blocos nas estruturas dos parâmetros. É assumido que as propriedades do sinal permanecem semelhantes o suficiente sobre a estrutura do parâmetro para ser caracterizado com um único parâmetro definido. 0 comprimento da estrutura dos parâmetros normalmente encontrados na SAOC padrão são 16 ou 32 estruturas de QMF (comprimentos até 72 são permitidos pelo padrão). 0 agrupamento semelhante pode ser realizado ao utilizar um banco de filtro com uma resolução de alta frequência. Quando as propriedades do sinal não mudam durante uma estrutura do parâmetro, o agrupamento fornece a eficiência da codificação sem degradações de qualidade. Entretanto, quando as propriedades do sinal mudam dentro da estrutura do parâmetro, o agrupamento induz erros. SAOC padrão permite definir um comprimento de agrupamento padrão, que é utilizado com sinais quase estacionários, mas também definir os sub-blocos do parâmetro. Os sub-blocos definem os agrupamentos mais curtos do que o comprimento padrão, e a parametrização é feita em cada sub-bloco separadamente. Por causa da resolução temporal do banco QMF subjacente, a resolução temporal resultante são 64 amostras de dominio de tempo, que é muito mais fina do que a resolução obtida utilizando um banco de filtro fixo com alta resolução de frequência. Esta exigência afeta o decodificador de SAOC melhorado.

[0181] Utilizando um banco de filtro com um grande comprimento de transformada fornece uma boa resolução de frequência, mas a resolução temporal é degradada ao mesmo tempo (o chamado principio de incerteza). Se as propriedades do sinal mudam dentro de uma única estrutura de análise, a baixa resolução temporal pode causar desfocagem na saída da síntese. Assim, seria útil obter uma resolução temporal da subestrutura nas localizações de mudanças de sinal consideráveis. A resolução temporal da subestrutura leva naturalmente em uma resolução de frequência inferior, mas é assumido que durante uma mudança de sinal a resolução temporal é o aspecto mais importante a ser capturado precisamente. Esta exigência da resolução temporal da subestrutura afeta principalmente o codificador de SAOC melhorada (e consequentemente também o decodificador).

[0182] O mesmo principio da solução pode ser utilizado em ambos os casos: utilizar longas estruturas de análise quando o sinal é quase estacionário (nenhum transiente detectado) e quando não há limites do parâmetro. Quando qualquer uma das duas condições falhar, empregar o esquema de comutação do bloco comprimento. Uma exceção desta condição pode ser feita nos limites do parâmetro que residem entre os grupos de estrutura não divididos e coincidem com o ponto cruzado entre duas janelas longas (enquanto decodifica um fluxo continuo de bit da SAOC padrão) . É assumido que neste caso as propriedades do sinal permanecem estacionárias suficiente para o banco de filtro de alta resolução. Quando um limite do parâmetro é sinalizado (do fluxo contínuo de bit ou detector de transiente), a estrutura é ajustada para utilizar um comprimento de estrutura menor, assim melhorando a resolução temporal localmente.

[0183] As primeiras duas aplicações utilizam o mesmo mecanismo de construção de sequência da janela subjacente. Uma função da janela do protótipo f(n,N} é definida para o índice 0<n<N-l para um comprimento da janela N. Desenhando uma única janela wk(n), três pontos de controle são necessários, a saber, os centros da janela anterior, atual e a próxima janela,

.

[0184] Utilizando-as, a função de janelamento é definida como

A localização real da janela é, então, ”| < w < |_ct+] J com «= m. A função da janela do protótipo utilizada nas ilustrações é a janela sinusoidal definida como

[0185] mas também outras formas podem ser utilizadas.

[0186] A seguir, o cruzamento em um transiente, de acordo com uma aplicação é descrito.

[0187] A Figura 9 é uma ilustração do principio do esquema de comutação do bloco de "cruzamento no transiente". Em particular, a Figura 9 ilustra a adaptação da sequência de janelamento normal para acomodar um ponto de cruzamento da janela no transiente. A linha 111 representa as amostras de sinal do domínio de tempo, a linha vertical 112 a localização t do transiente detectado (ou um limite do parâmetro do fluxo contínuo de bit), e as linhas 113 ilustram as funções do janelamento e seus intervalos temporais. Este esquema requer decidir a quantidade da sobreposição entre as duas janelas e wi+iao tedor do transiente, definindo a inclinação da janela. Quando o comprimento da sobreposição é definido em um pequeno valor, as janelas têm seus pontos máximos próximos ao transiente e as seções que cruzam a rápida deterioração do transiente. Os comprimentos de sobreposição podem também ser diferentes antes e após o transiente. Nesta abordagem, as duas janelas ou estruturas ao redor do transiente serão ajustadas no comprimento. A localização do transiente define os centros das janelas circundantes como ck—t — lb e ck+}=t + la , nos quais lb e la são o comprimento de sobreposição antes e após o transiente, respectivamente. Com estes definidos, a equação acima pode ser utilizada.

[0188] A seguir, o isolamento do transiente, de acordo com uma aplicação é descrito.

[0189] A Figura 10 ilustra o principio do esquema de comutação do bloco de isolamento transiente, de acordo com uma aplicação. Uma janela curta é centralizada no transiente, e as duas janelas vizinhas e wi+1 são ajustadas para complementar a janela curta. Efetivamente as janelas vizinhas são limitadas à localização transiente, assim a janela anterior contém apenas o sinal antes do transiente, e a janela seguinte contém apenas o sinal após o transiente. Nesta abordagem, o transiente define os centros para três janelas ck_i=t-lh, ck=t, e Cj+i=í+G onde lh e la define o intervalo desejado da janela antes e após o transiente. Com estes definidos, a equação acima pode ser utilizada.

[0190] A seguir, estrutura do tipo AAC, de acordo com uma aplicação é descrita.

[0191] Os graus de liberdade de dois esquemas de janelamento anteriores não podem ser sempre necessários. O processamento do transiente de diferenciação é também empregado no campo da codificação de áudio perceptual. O objetivo é reduzir a dispersão temporal do transiente que causaria os chamados pré-ecos. No MPEG-2/4 AAC [AAC], dois comprimentos básicos da janela são utilizados: LONGO (com comprimento de 2048-amostras) , e CURTO (com o comprimento de 256 amostras). Além destes dois, duas janelas de transição também são definidas para permitir a transição de uma LONGA para CURTA e vice versa. Como uma restrição adicional, as janelas CURTAS são necessárias para ocorrer em grupos de 8 janelas. Dessa forma, o passo entre as janelas e grupos de janela permanece em um valor constante de 1024 amostras.

[0192] Se o sistema SAOC emprega um codec com base em AAC para os sinais de objeto, o downmix, ou os objetos residuais, seria útil ter um esquema de estrutura que pode ser facilmente sincronizado com o codec. Por esta razão, um esquema de comutação do bloco com base nas janelas AAC é descrito.

[0193] A Figura 11 descreve um exemplo de comutação do bloco do tipo AAC. Em particular, a Figura 11 ilustra o mesmo sinal com um transiente e a sequência de janelamento do tipo AAC resultante. Pode ser visto que a localização do transiente temporal é coberta com 8 janelas CURTAS, que são circundantes pelas janelas de transição de e para as janelas LONGAS. Pode ser visto da ilustração que o próprio transiente não é centralizado em uma única janela nem no ponto cruzado entre duas janelas. Isso é porque as localizações da janela são fixadas em uma grade, mas a grade garante o passo constante ao mesmo tempo. 0 erro arredondado temporal resultante é assumido ser pequeno o suficiente para ser perceptualmente irrelevante comparado aos erros causados pelas janelas LONGAS apenas.

[0194] As janelas são definidas como:

[0195] A seguir, as variantes da implementação, de acordo com as aplicações são descritas.

[0196] Independentemente do esquema de comutação do bloco, outra escolha de desenho é o comprimento da transformada de t/f real. Se o alvo principal é manter as seguintes operações de domínio de frequência simples pelas estruturas de análise, um comprimento de transformação constante pode ser utilizado. O comprimento é definido em um grande valor apropriado, por exemplo, correspondente ao comprimento da estrutura permitida mais longa. Se a estrutura do domínio de tempo é mais curta do que este valor, então é preenchido com zeros no comprimento total. Deve ser observado que embora após o preenchimento com zero o espectro tem um número maior de posições, a quantidade de informação real não é elevada comparado a uma transformação mais curta. Neste caso, as matrizes de núcleo K(b,f,n) têm as mesmas dimensões para todos os valores de n.

[0197] Outra alternativa é transformar a estrutura em janelas sem preenchimento de zeros. Isso tem uma complexidade do cálculo computacional menor do que com um comprimento de transformação constante. Entretanto, a resolução de frequências diferenciada entre as estruturas consecutivas precisam ser consideradas com as matrizes núcleo K(è,/,n) .

[0198] A seguir, a filtragem híbrida estendia, de acordo com uma aplicação é descrita.

[0199] Outra possibilidade para obter uma resolução de frequência mais alta seria modificar o banco de filtro híbrido utilizado na SAOC padrão para uma resolução mais fina. Na SAOC padrão, apenas as três mais básicas das 64 bandas de QMF são passadas através do banco de filtro Nyquist que subdivide os conteúdos da banda também.

[0200] A Figura 12 ilustra a filtragem híbrida de QMF estendida. Os filtros de Nyquist são repetidos para cada banda de QMF separadamente, e as saídas são combinadas por um único espectro de alta resolução. Em particular, a Figura 12 ilustra como obter uma resolução de frequência comparável à abordagem com base em DFT exigiria a subdivisão de cada banda de QMF em, por exemplo, 16 sub-bandas (exigindo filtragem complexa em 32 sub-bandas). A desvantagem desta abordagem é que os protótipos do filtro necessários são longos devido à estreiteza das bandas. Isso causa algum atraso do processamento e aumenta a complexidade do cálculo computacional.

[0201] Uma forma alternativa é implementar a filtragem hibrida estendia substituindo os conjuntos de filtros Nyquist pelos bancos de filtro/transformações eficientes (por exemplo, "zoom" DFT, Transformada de Cosseno Discreto, etc.). Além disso, a distorção contida nos coeficientes espectrais de alta resolução resultantes, que é causado pelos efeitos de vazamento do primeiro estágio de filtro (aqui: QMF), pode ser substancialmente reduzido por um pós-processamento de cancelamento de distorção dos coeficientes espectrais de alta resolução semelhantes ao banco de filtro hibrido MPEG-1/2 de Camada 3 bem conhecido [FB] [MPEG-1].

[0202] A Figura lb ilustra um decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de dominio de tempo, de acordo com uma aplicação correspondente. 0 sinal de downmix codifica dois ou mais sinais do objeto de áudio.

[0203] O decodificador compreende um primeiro submódulo de análise 161 para transformar a pluralidade de amostras de downmix de dominio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub-banda.

[0204] Além disso, o decodificador compreende um gerador de sequência por janela 162 para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de subbanda da referida janela de análise. O gerador de sequência por janela 162 é configurado para determinar a pluralidade de janelas de análise, por exemplo, com base na informação adicional paramétrica, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio.

[0205] Além disso, o decodificador compreende um segundo módulo de análise 163 para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado.

[0206] Além disso, o decodificador compreende uma unidade não misturada 164 para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

[0207] Em outras palavras: a transformação é conduzida em duas fases. Em uma primeira fase de transformação, uma pluralidade de sub-bandas cada uma compreendendo uma pluralidade de amostras de sub-banda são criadas. Então, em uma segunda fase, outra transformação é conduzida. Inter alia, as janelas de análise utilizadas para a segunda fase determinam a resolução de tempo e a resolução de frequência do downmix transformado resultante.

[0208] A Figura 13 ilustra um exemplo onde as janelas curtas são utilizadas para a transformação. Utilizar as janelas curtas leva a uma baixa resolução de frequência, mas uma alta resolução de tempo. Empregar as janelas curtas pode, por exemplo, ser apropriado, quando um transiente está presente nos sinais do objeto de áudio codificado (O Uj,j indica amostras de sub-banda, e o vs,r indicam amostras do downmix transformado em um dominio de frequência de tempo.)

[0209] A Figura 14 ilustra um exemplo onde as janelas mais longas são utilizadas para a transformação do que no exemplo da Figura 13. Utilizar as janelas longas leva a uma resolução de alta frequência, mas uma baixa resolução de tempo. Empregar janelas longas pode, por exemplo, ser apropriado, quando um transiente não está presente nos sinais do objeto de áudio codificados. (Novamente, o Ui,j indica as amostras de sub-banda, e o vs,r indica as amostras do downmix transformado no dominio de frequência de tempo.)

[0210] A Figura 2b ilustra um codificador correspondente para codificar dois ou mais sinais do objeto de áudio de entrada, de acordo com uma aplicação. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo.

[0211] O codificador compreende um primeiro submódulo de análise 171 para transformar a pluralidade de amostras de sinal do dominio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub-banda.

[0212] Além disso, o codificador compreende una unidade de sequência por janela 172 para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a unidade de sequência por janela 172 é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. Por exemplo, uma unidade de detecção transiente (opcional) 175 pode fornecer a informação se um transiente está presente em um dos sinais do objeto de áudio de entrada à unidade de sequência por janela 172.

[0213] Além disso, o codificador compreende um segundo módulo de análise 173 para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter amostras do sinal transformado.

[0214] Além disso, o codificador compreende uma unidade de estimativa por PSI 174 para determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0215] De acordo com outras aplicações, dois módulos de análises para conduzir a análise em duas fases podem estar presentes, mas o segundo módulo pode ser ligado e desligado dependendo de uma propriedade do sinal.

[0216] Por exemplo, se uma resolução de alta frequência é necessária e uma baixa resolução de tempo é aceitável, então o segundo módulo de análise é ligado.

[0217] Em contraste, se uma alta resolução de tempo é necessária e uma baixa resolução de frequência é aceitável, então o segundo módulo de análise é desligado.

[0218] A Figura lc ilustra um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, de acordo com tal aplicação. O sinal de downmix codifica um ou mais sinal(is) do objeto de áudio.

[0219] O decodificador compreende uma unidade de controle 181 para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de um ou mais sinal (is) do objeto de áudio.

[0220] Além disso, o decodificador compreende um primeiro módulo de análise 182 para transformar o sinal de compreendendo uma pluralidade de canais de sub-banda primários.

[0221] Além disso, o decodificador compreende um segundo módulo de análise 183 para gerar, quando a indicação de ativação é definida no estado de ativação, um segundo downmix transformado pela transformação de, pelo menos, um dos canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo downmix transformado compreende os canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e os canais de sub-banda secundários.

[0222] Além disso, o decodificador compreende uma unidade não misturada 184, em que a unidade não misturada 184 é configurada para não misturar o segundo downmix transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal (is) do objeto de áudio para obter o sinal de saída de áudio, e para não misturar o primeiro downmix transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saída de áudio.

[0223] A Figura 15 ilustra um exemplo, onde uma resolução de alta frequência é necessária e uma baixa resolução de tempo é aceitável. Consequentemente, a unidade de controle 181 liga o segundo módulo de análise definindo a indicação de ativação ao estado de ativação (por exemplo, definindo uma variável booleana "activation indication "activation_indication = true"). O sinal de downmix é transformado pelo primeiro módulo de análise 182 (não mostrado na Figura 15) para obter um primeiro downmix transformado. No exemplo, da Figura 15, o downmix transformado tem três sub-bandas. Nos cenários da aplicação mais realística, o downmix transformado pode, por exemplo, ter, por exemplo, 32 ou 64 sub-bandas. Então, o primeiro downmix transformado é transformado pelo segundo módulo de análise 183 (não mostrado na Figura 15) para obter um segundo downmix transformado. No exemplo, da Figura 15, o downmix transformado tem nove sub-bandas. Nos cenários da aplicação mais realística, o downmix transformado pode, por exemplo, ter, por exemplo, 512, 1024 ou 2048 sub-bandas. A unidade não misturada 184 então não misturará o segundo downmix transformado para obter o sinal de saida de áudio.

[0224] Por exemplo, a unidade não misturada 184 pode receber a indicação de ativação da unidade de controle 181. Ou, por exemplo, sempre que a unidade não misturada 184 receber um segundo downmix transformado do segundo módulo de análise 183, a unidade não misturada 184 conclui que o segundo downmix transformado não deve ser misturado; sempre que a unidade não misturada 184 não recebe um segundo downmix transformado do segundo módulo de análise 183, a unidade não misturada 184 conclui que o primeiro downmix transformado não deve ser misturado.

[0225] A Figura 16 ilustra um exemplo, onde uma alta resolução de tempo é necessária e uma baixa resolução de frequência é aceitável. Consequentemente, a unidade de controle 181 desliga o segundo módulo de análise definindo a indicação de ativação em um estado diferente do estado de ativação (por exemplo, definindo a variável booleana "activation_indication" em "activation^ indication = false"). 0 sinal de downmix é transformado pelo primeiro módulo de análise 182 (não mostrado na Figura 16) para obter um primeiro downmix transformado. Então, em contraste à Figura 15, o primeiro downmix transformado não é mais uma vez transformado pelo segundo módulo de análise 183. Ao invés disso, a unidade não misturada 184 não misturará primeiro o segundo downmix transformado para obter o sinal de saida de áudio.

[0226] De acordo com uma aplicação, a unidade de controle 181 é configurada para definir a indicação de ativação ao estado de ativação, dependendo se pelo menos um de um ou mais sinal (is) do objeto de áudio compreende um transiente indicando uma mudança de sinal de, pelo menos, um de um ou mais sinal(is) do objeto de áudio.

[0227] Em outra aplicação, uma indicação de transformação de sub-banda é atribuida a cada um dos canais de sub-banda primários. A unidade de controle 181 é configurada para definir a indicação de transformação de subbanda de cada um dos canais de sub-banda primários em um estado de transformação de sub-banda dependendo da propriedade do sinal de, pelo menos, um de um ou mais sinal(is) do objeto de áudio. Além disso, o segundo módulo de análise 183 é configurado para transformar cada um dos canais de sub-banda primários, a indicação de transformação de sub- banda que é definida no estado de transformação de sub-banda, para obter a pluralidade de canais de sub-banda secundários, e para não transformar cada um dos canais de sub-banda secundários, a indicação de transformação de sub-banda que não é definida no estado de transformação de sub-banda.

[0228] A Figura 17 ilustra um exemplo, onde a unidade de controle 181 (não mostrada na Figura 17) não definiu a indicação de transformação de sub-banda da segunda sub-banda no estado de transformação de sub-banda (por exemplo, definindo uma variável booleana "subband_transform_indication_2" em "subband transform_indication_2 = true"). Assim, o segundo módulo de análise 183 (não mostrado na Figura 17) transforma a segunda sub-banda para obter três novas sub-bandas de "fina- resolução". No exemplo da Figura 17, a unidade de controle 181 não definiu a indicação de transformação de sub-banda da primeira e terceira sub-banda no estado de transformação de sub-banda (por exemplo, isso pode ser indicado pela unidade de controle 181 definindo as variáveis booleanas "subband_transform_indication_l" e "subband_transform_indication_3" em "subband transform_indication_l - false" e "subband transform_indication_3 = false"). Assim, o segundo módulo de análise 183 não transforma a primeira e a terceira sub-banda. Ao invés disso, a primeira e a terceira sub-banda são utilizadas como sub-bandas do segundo downmix transformado.

[0229] A Figura 18 ilustra um exemplo, onde a unidade de controle 181 (não mostrada na Figura 18} não definiu a indicação de transformação de sub-banda da primeira e segunda sub-banda no estado de transformação de sub-banda (por exemplo, definindo a variável booleana "subband_transform_indication_l" em "subband transform_indication_l = true" e, por exemplo, definindo a variável Booleana "subband_transform_indication_2" em "subband transform_indication_2 = true"). Assim, o segundo módulo de análise 183 (não mostrado na Figura 18) transforma a primeira e a segunda sub-banda para obter seis novas subbandas de "fina-resolução". No exemplo da Figura 18, a unidade de controle 181 não definiu a indicação de transformação da sub-banda da terceira sub-banda no estado de transformação de sub-banda (por exemplo, isso pode ser indicado pela unidade de controle 181 definindo a variável booleana "subband_transform_indication_3" em "subband transform_indication_3 = false"). Assim, o segundo módulo de análise 183 não transforma a terceira sub-banda. Ao invés disso, a própria terceira sub-banda é utilizada como uma subbanda do segundo downmix transformado.

[0230] De acordo com uma aplicação, o primeiro módulo de análise 182 é configurado para transformar o sinal de downmix para obter o primeiro downmix transformado compreendendo a pluralidade de canais de sub-banda primários empregando um Filtro em espelho de quadratura (QMF).

[0231] Em uma aplicação, o primeiro módulo de análise 182 é configurado para transformar o sinal de downmix dependendo de um primeiro comprimento da janela de análise, em que o primeiro comprimento da janela de análise depende da referida propriedade do sinal, e/ou o segundo módulo de análise 183 é configurado para gerar, quando a indicação de ativação é definida no estado de ativação, o segundo downmix transformado pela transformação de, pelo menos, um dos canais de sub-banda primários dependendo de um segundo comprimento da janela de análise, em que o segundo comprimento da janela de análise depende da referida propriedade do sinal. Tal aplicação liga e desliga o segundo módulo de análise 183, e para definir o comprimento de uma janela de análise.

[0232] Em uma aplicação, o decodificador é configurado para gerar o sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio do sinal de downmix, em que o sinal de downmix codifica dois ou mais sinais do objeto de áudio. A unidade de controle 181 é configurada para definir a indicação de ativação ao estado de ativação, dependendo da propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Além disso, a unidade não misturada 184 é configurada para não misturar o segundo downmix transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saida de áudio, e para não misturar o primeiro downmix transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0233] A Figura 2c ilustra um codificador para codificar um sinal do objeto de áudio de entrada, de acordo com uma aplicação.

[0234] O codificador compreende uma unidade de controle 191 para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal do sinal do objeto de áudio de entrada.

[0235] Além disso, o codificador compreende um primeiro módulo de análise 192 para transformar o sinal do objeto de áudio de entrada para obter um primeiro sinal do objeto de áudio transformado, em que o primeiro sinal do objeto de áudio transformado compreende uma pluralidade de canais de sub-banda primários.

[0236] Além disso, o codificador compreende um segundo módulo de análise 193 para gerar, quando a indicação de ativação é definida no estado de ativação, um segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um da pluralidade de canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo sinal do objeto de áudio transformado compreende o canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e o canais de sub-banda secundários.

[0237] Além disso, o codificador compreende a unidade de estimativa por PSI 194, em que a unidade de estimativa por PSI 194 é configurada para determinar a informação adicional paramétrica com base no segundo sinal do objeto de áudio transformado, quando a indicação de ativação é definida no estado de ativação, e para determinar a informação adicional paramétrica com base no primeiro sinal do objeto de áudio transformado, quando a indicação de ativação não é definida no estado de ativação.

[0238] De acordo com uma aplicação, a unidade de controle 191 é configurada para definir a indicação de ativação ao estado de ativação, dependendo se o sinal do objeto de áudio de entrada compreende um transiente indicando uma mudança de sinal do sinal do objeto de áudio de entrada.

[0239] Em outra aplicação, uma indicação de transformação de sub-banda é atribuida a cada um dos canais de sub-banda primários. A unidade de controle 191 é configurada para definir a indicação de transformação de subbanda de cada um dos canais de sub-banda primários em um estado de transformação de sub-banda dependendo da propriedade do sinal do sinal do objeto de áudio de entrada. O segundo módulo de análise 193 é configurado para transformar cada um dos canais de sub-banda primários, a indicação de transformação de sub-banda que é definida no estado de transformação de sub-banda, para obter a pluralidade de canais de sub-banda secundários, e para não transformar cada um dos canais de sub-banda secundários, a indicação de transformação de sub-banda que não é definida no estado de transformação de sub-banda.

[0240] De acordo com uma aplicação, o primeiro módulo de análise 192 é configurado para transformar cada um dos sinais do objeto de áudio de entrada empregando um filtro em espelho de quadratura.

[0241] Em outra aplicação, o primeiro módulo de análise 192 é configurado para transformar o sinal do objeto de áudio de entrada dependendo de um primeiro comprimento da janela de análise, em que o primeiro comprimento da janela de análise depende da referida propriedade do sinal, e/ou o segundo módulo de análise 193 é configurado para gerar, quando a indicação de ativação é definida no estado de ativação, o segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um da pluralidade de canais de sub-banda primários dependendo de uma segundo comprimento da janela de análise, em que o segundo comprimento da janela de análise depende da referida propriedade do sinal.

[0242] De acordo com outra aplicação, o codificador é configurado para codificar o sinal do objeto de áudio de entrada e pelo menos outro sinal do objeto de áudio de entrada. A unidade de controle 191 é configurada para definir a indicação de ativação ao estado de ativação, dependendo da propriedade do sinal do sinal do objeto de áudio de entrada e dependendo de uma propriedade do sinal de, pelo menos, outro sinal do objeto de áudio de entrada. O primeiro módulo de análise 192 é configurado para transformar pelo menos outro sinal do objeto de áudio de entrada para obter pelo menos outro primeiro sinal do objeto de áudio transformado, em que cada um de, pelo menos, primeiro sinal do objeto de áudio transformado adicional compreende uma pluralidade de canais de sub-banda primários. O segundo módulo de análise 193 é configurado para transformar, quando a indicação de ativação é definida no estado de ativação, pelo menos um da pluralidade de canais de sub-banda primários de, pelo menos, um de, pelo menos, primeiros sinais do objeto de áudio transformados adicionais para obter uma pluralidade de canais de sub-banda secundários adicionais. Além disso, a unidade de estimativa por PSI 194 é configurada para determinar a informação adicional paramétrica com base na pluralidade de canais de sub-banda secundários adicionais, quando a indicação de ativação é definida no estado de ativação.

[0243] O método e aparelho inventivo alivia as desvantagens previamente mencionadas do processamento de SAOC do estado da técnica utilizando um banco de filtro fixo ou transformação de tempo-frequência. Uma melhor qualidade de áudio subjetiva pode ser obtida adaptando dinamicamente a resolução de tempo/frequência das transformações ou bancos de filtro empregados para analisar e sintetizar os objetos de áudio dentro de SAOC. Ao mesmo tempo, as perturbações como pré- e pós-ecos causadas pela falta de precisão temporal e perturbações como rudeza auditiva e dupla fala causada pela precisão espectral insuficiente podem ser reduzidas dentro do mesmo sistema SAOC. De forma mais importante, o sistema SAOC melhorado equipado com a transformação adaptativa mantém a compatibilidade regressiva com a SAOC padrão ainda fornecendo uma boa qualidade perceptual comparável a SAOC padrão.

[0244] As aplicações fornecem um codificador de áudio ou método para codificar o áudio ou programa de computador relacionado conforme descrito acima. Além disso, as aplicações fornecem um codificador de áudio ou método de decodificação de áudio ou programa de computador relacionado conforme descrito acima. Além disso, as aplicações fornecem um sinal de áudio codificado ou meio de armazenamento tendo armazenado o sinal de áudio codificado conforme descrito acima.

[0245] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.

[0246] O sinal inventivo decomposto pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem fio ou um meio de transmissão cabeado, tal como a Internet.

[0247] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma FROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legiveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.

[0248] Algumas aplicações, de acordo com a invenção compreendem um transportador de dados não transitório tendo sinais de controle eletronicamente legíveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.

[0249] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. 0 código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[0250] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legível por máquina.

[0251] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.

[0252] Outra aplicação dos métodos inventivos é, portanto, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.

[0253] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[0254] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.

[0255] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.

[0256] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0257] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção da invenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.

REFERÊNCIAS

[0258] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[0259] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[0260] [SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[0261] [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008 .

[0262] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[0263] [AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.

[0264] [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[0265] [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[0266] [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[0267] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[0268] [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[0269] [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[0270] [ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: "Benchmarking flexible adaptive timefrequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.

[0271] [FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.

[0272] [MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

Claims

1. Decodificador para gerar um sinal de saída de áudio, caracterizado pelo fato de que compreende um ou mais canais de saída de áudio a partir de um sinal de downmix, em que o sinal de downmix codifica um ou mais sinais de objeto de áudio, em que o decodificador compreende: uma unidade de controle para definir uma indicação de ativação para um estado de ativação dependendo de uma propriedade de sinal de pelo menos um dos um ou mais sinais de objeto de áudio, um primeiro módulo de análise para transformar o sinal de downmix para adquirir um primeiro downmix transformado que compreende uma pluralidade de primeiros canais de sub-banda, um segundo módulo de análise para gerar, quando a indicação de ativação é definida para o estado de ativação, um segundo downmix transformado pela transformação de pelo menos um dos primeiros canais de subbanda para adquirir uma pluralidade de segundos canais de sub-banda, em que o segundo downmix transformado compreende a primeira sub-banda canais que não foram transformados pelo segundo módulo de análise e os canais da segunda subbanda, e uma unidade de descompactação, em que a unidade de descompactação é configurada para descompactar o segundo downmix transformado, quando a indicação de ativação é definida para o estado de ativação, com base em informações laterais paramétricas em um ou mais sinais de objeto de áudio para adquirir sinal de saída de áudio e para descompactar o primeiro downmix transformado, quando a indicação de ativação não está definida para o estado de ativação, com base nas informações laterais paramétricas em um ou mais sinais de objeto de áudio para adquirir o sinal de saída de áudio, em que pelo menos uma da unidade de controle e o primeiro módulo de análise e o segundo módulo de análise e a unidade de desmistura são implementados usando um aparelho de hardware ou um computador ou uma combinação de um aparelho de hardware e um computador.

2. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de controle é configurada para definir a indicação de ativação para o estado de ativação dependendo se pelo menos um dos um ou mais sinais de objeto de áudio compreende um transiente indicando uma mudança de sinal de pelo menos um de um ou mais sinais de objeto de áudio.

3. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que uma indicação de transformação de sub-banda é atribuída a cada um dos primeiros canais de sub-banda, em que a unidade de controle é configurada para definir a indicação de transformação de sub-banda de cada um dos primeiros canais de sub-banda para um estado de transformação de sub-banda dependendo da propriedade do sinal de pelo menos um dos um ou mais sinais de objeto de áudio, e em que o segundo módulo de análise é configurado para transformar cada um dos primeiros canais de sub-banda, a indicação de transformação de sub-banda do qual é definida para o estado de transformação de sub-banda, para adquirir a pluralidade de canais de segunda sub-banda e para não transformar cada um dos segundos canais de sub-banda , a indicação de transformação de subbanda da qual não é definida para o estado de transformação de sub-banda.

4. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro módulo de análise é configurado para transformar o sinal de downmix para adquirir o primeiro downmix transformado que compreende a pluralidade de primeiros canais de sub-banda empregando um filtro de espelho de quadratura.

5. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro módulo de análise é configurado para transformar o sinal de downmix, dependendo de um comprimento de janela de primeira análise, em que o comprimento da primeira janela de análise depende da referida propriedade de sinal, ou em que o segundo módulo de análise é configurado para gerar, quando a indicação de ativação é definida para o estado de ativação, o segundo downmix transformado pela transformação de pelo menos um dos primeiros canais de sub-banda dependendo de um segundo comprimento de janela de análise, em que o segundo comprimento de janela de análise depende da referida propriedade do sinal.

6. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o decodificador é configurado para gerar o sinal de saída de áudio compreendendo um ou mais canais de saída de áudio do sinal de downmix, em que o sinal de downmix codifica dois ou mais sinais de objeto de áudio, em que a unidade de controle é configurada para definir a indicação de ativação para o estado de ativação dependendo da propriedade do sinal de pelo menos um dos dois ou mais sinais de objeto de áudio, e em que a unidade de descompactação é configurada para descompactar o segundo downmix transformado, quando a indicação de ativação é definida para o estado de ativação, com base na informação lateral paramétrica em um ou mais sinais de objeto de áudio para adquirir o sinal de saída de áudio, e para descompacte o primeiro downmix transformado, quando a indicação de ativação não está definida para o estado de ativação, com base nas informações laterais paramétricas nos dois ou mais sinais de objeto de áudio para adquirir o sinal de saída de áudio.

7. Um codificador para codificar um sinal de objeto de áudio de entrada, caracterizado pelo fato de que o codificador compreende: uma unidade de controle para definir uma indicação de ativação para um estado de ativação dependendo de uma propriedade de sinal do sinal de objeto de áudio de entrada, um primeiro módulo de análise para transformar o sinal de objeto de áudio de entrada para adquirir um primeiro sinal de objeto de áudio transformado, em que o primeiro sinal de objeto de áudio transformado compreende uma pluralidade de primeiros canais de subbanda, um segundo módulo de análise para gerar, quando a indicação de ativação é definida para o estado de ativação, um segundo sinal de objeto de áudio transformado pela transformação de pelo menos um da pluralidade de canais da primeira sub-banda para adquirir uma pluralidade de canais da segunda sub-banda, em que o segundo áudio transformado sinal de objeto compreende os primeiros canais de sub-banda que não foram transformados pelo segundo módulo de análise e os segundos canais de sub-banda, e uma unidade de estimativa de PSI, em que a unidade de estimativa de PSI é configurada para determinar as informações laterais paramétricas com base no segundo sinal de objeto de áudio transformado, quando a indicação de ativação é configurada para o estado de ativação e para determinar as informações laterais paramétricas com base na primeira sinal de objeto de áudio transformado, quando a indicação de ativação não está definida para o estado de ativação, em que pelo menos uma da unidade de controle e o primeiro módulo de análise e o segundo módulo de análise e a unidade de estimativa PSI são implementados usando um aparelho de hardware ou um computador ou uma combinação de um aparelho de hardware e um computador.

8. Codificador, de acordo com a reivindicação 7, caracterizado pelo fato de que a unidade de controle é configurada para definir a indicação de ativação para o estado de ativação dependendo se o sinal do objeto de áudio de entrada compreende um transiente indicando uma mudança de sinal do sinal do objeto de áudio de entrada.

9. Codificador, de acordo com a reivindicação 7, caracterizado pelo fato de que uma indicação de transformação de sub-banda é atribuída a cada um dos primeiros canais de sub-banda, em que a unidade de controle é configurada para definir a indicação de transformação de sub-banda de cada um dos primeiros canais de sub-banda para um estado de transformação de sub-banda dependendo da propriedade do sinal do sinal de objeto de áudio de entrada, e em que o segundo módulo de análise é configurado para transformar cada um dos primeiros canais de sub-banda, a indicação de transformação de sub-banda do qual é definida para o estado de transformação de sub-banda, para adquirir a pluralidade de canais de segunda sub-banda e para não transformar cada um dos segundos canais de sub-banda , a indicação de transformação de subbanda da qual não é definida para o estado de transformação de sub-banda.

10. Codificador, de acordo com a reivindicação 7, caracterizado pelo fato de que o primeiro módulo de análise é configurado para transformar cada um dos sinais de objeto de áudio de entrada empregando um filtro de espelho de quadratura.

11. Codificador, de acordo com a reivindicação 7, caracterizado pelo fato de que o primeiro módulo de análise é configurado para transformar o sinal de objeto de áudio de entrada dependendo de um comprimento de janela de primeira análise, em que o comprimento de janela de primeira análise depende da referida propriedade de sinal, ou em que o segundo módulo de análise é configurado para gerar, quando a indicação de ativação é definida para o estado de ativação, o segundo sinal de objeto de áudio transformado pela transformação de pelo menos um da pluralidade de primeiros canais de sub-banda dependendo de um segundo comprimento de janela de análise, em que o o comprimento da janela de análise depende da referida propriedade do sinal.

12. Codificador, de acordo com a reivindicação 7, caracterizado pelo fato de que o codificador é configurado para codificar o sinal de objeto de áudio de entrada e pelo menos um sinal de objeto de áudio de entrada adicional, em que a unidade de controle é configurada para definir a indicação de ativação para o estado de ativação, dependendo da propriedade do sinal do sinal de objeto de áudio de entrada e dependendo de uma propriedade de sinal de pelo menos um sinal de objeto de áudio de entrada adicional, em que o primeiro módulo de análise está configurado para transformar pelo menos um sinal de objeto de áudio de entrada adicional para adquirir pelo menos um primeiro sinal de objeto de áudio transformado, em que cada um dos pelo menos um primeiro sinal de objeto de áudio transformado compreende uma pluralidade de primeiros canais de sub-banda, em que o segundo módulo de análise é configurado para transformar, quando a indicação de ativação é definida para o estado de ativação, pelo menos um da pluralidade de primeiros canais de sub-banda de pelo menos um dos pelo menos um dos primeiros sinais de objeto de áudio transformados para adquirir uma pluralidade de outros canais de segunda sub-banda, e em que a unidade de estimativa de PSI é configurada para determinar as informações laterais paramétricas com base na pluralidade de outros canais de segunda sub-banda, quando a indicação de ativação é definida para o estado de ativação.

13. Método para decodificar por meio da geração de um sinal de saída de áudio que compreende um ou mais canais de saída de áudio de um sinal de downmix, em que o sinal de downmix codifica dois ou mais sinais de objeto de áudio, caracterizado pelo fato de que o método compreende: definir uma indicação de ativação para um estado de ativação dependendo de uma propriedade de sinal de pelo menos um dos dois ou mais sinais de objeto de áudio, transformar o sinal de downmix para adquirir um primeiro downmix transformado compreendendo uma pluralidade de primeiros canais de sub-banda, gerar, quando a indicação de ativação é definida para o estado de ativação, um segundo downmix transformado pela transformação de pelo menos um dos primeiros canais de sub-banda para adquirir uma pluralidade de segundos canais de sub-banda, em que o segundo downmix transformado compreende os primeiros canais de sub-banda que não foram transformado pelo segundo módulo de análise e os segundos canais de sub-banda, e desmisturar o segundo downmix transformado, quando a indicação de ativação é definida para o estado de ativação, com base na informação lateral paramétrica nos dois ou mais sinais de objeto de áudio para adquirir o sinal de saída de áudio, e desmisturar o primeiro downmix transformado, quando o a indicação de ativação não está definida para o estado de ativação, com base nas informações laterais paramétricas nos dois ou mais sinais de objeto de áudio para adquirir o sinal de saída de áudio, em que o método é implementado usando um aparelho de hardware ou usando um computador ou usando uma combinação de um aparelho de hardware e um computador.

14. Um método para codificar dois ou mais sinais de objeto de áudio de entrada, caracterizado pelo fato de que o método compreende: definir uma indicação de ativação para um estado de ativação dependendo de uma propriedade de sinal de pelo menos um dos dois ou mais sinais de objeto de áudio de entrada, transformar cada um dos sinais de objeto de áudio de entrada para adquirir um primeiro sinal de objeto de áudio transformado do referido sinal de objeto de áudio de entrada, em que o referido primeiro sinal de objeto de áudio transformado compreende uma pluralidade de primeiros canais de sub-banda, gerar para cada um dos sinais de objeto de áudio de entrada, quando a indicação de ativação é definida para o estado de ativação, um segundo sinal de objeto de áudio transformado pela transformação de pelo menos um dos primeiros canais de sub-banda do primeiro sinal de objeto de áudio transformado do referido sinal de objeto de áudio de entrada para adquirir uma pluralidade de canais de segunda sub-banda, em que o dito segundo downmix transformado compreende os ditos primeiros canais de subbanda que não foram transformados pelo segundo módulo de análise e os ditos segundos canais de sub-banda, e determinar a informação lateral paramétrica com base no segundo sinal de objeto de áudio transformado de cada um dos sinais de objeto de áudio de entrada, quando a indicação de ativação é definida para o estado de ativação, e determinar a informação lateral paramétrica com base no primeiro sinal de objeto de áudio transformado de cada um dos sinais de objeto de áudio de entrada, quando a indicação de ativação não está definida para o estado de ativação, em que o método é implementado usando um aparelho de hardware ou usando um computador ou usando uma combinação de um aparelho de hardware e um computador.