BRPI0516405B1

BRPI0516405B1 - Conformação individual de canal para esquemas bcc e similares

Info

Publication number: BRPI0516405B1
Application number: BRPI0516405-2A
Authority: BR
Inventors: Eric Allamanche; Sascha Disch; Christof Faller; Juergen Herre
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.; Agere Systems Inc.
Priority date: 2004-10-20
Filing date: 2005-09-07
Publication date: 2019-09-17
Also published as: PT1803117E; KR20070061872A; CA2582485A1; AU2005299068A1; US7720230B2; CA2582485C; IL182236A0; ES2323275T3; CN101044551B; RU2339088C1; ATE424606T1; DK1803117T3; BRPI0516405A8; NO338919B1; WO2006045371A1; BRPI0516405A; IL182236A; HK1106861A1; EP1803117B1; TWI318079B

Abstract

conformação individual de canal para esquemas bcc e similares. em um codificador de áudio, são gerados códigos de sinalização para um ou mais canais de áudio, caracterizados pelo fato de que um código de sinalização de envelope é gerado pela caracterização de um envelope temporal em um canal de áudio. em um decodificador de áudio, e canal(is) de áudio transmitido(s) são decodificados para gerar c canais de áudio playback, onde c>e<sym>1. os códigos de sinalização recebidos incluem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde ao(s) canal(is) transmitido(s). um ou mais canal(is) transmitido(s) são upmixados para gerar um ou mais canais upmixados. um ou mais canais de playback são sintetizados pela aplicação dos códigos de sinalização ao um ou mais canais upmixados, em que o código de sinalização de envelope é aplicado a um canal upmixado ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal caracterizado de maneira que o envelope temporal ajustado combine substancialmente com o envelope temporal caracterizado.

Description

Referência Cruzada dos Pedidos Anteriores

Este pedido reivindica o beneficio da data de depósito do pedido provisório norte-americano n² 60/620.480, depositado em 20/10/04 como protocolo do agente n² Allamanche 2-3-184, cujos ensinamentos estão incorporados à presente como referência.

Além disso, o objeto em questão deste pedido refere-

se ao objeto em questão dos seguintes pedidos norte-americanos, cujos ensinamentos estão incorporados à presente como referência:

o Pedido norte-americano número de série 09/848.877, depositado em 04/05/01 como protocolo do agente n² Faller 5;

o Pedido norte-americano número de série

10/045.458, depositado em 7/11/01 como protocolo do agente n²

Baumgarte 1-6-8, que reivindicou para si próprio o beneficio da data de depósito do pedido provisório norte-americano n² 60/311.565, depositado em 10/08/01;

o Pedido norte-americano número de série

10/155.437, depositado em 24/05/02 como protocolo do agente n²Baumgarte 2-10;

o Pedido norte-americano número de série 10/246.570, depositado em 18/09/02 como protocolo do agente n²25 Baumgarte 3-11;

o Pedido norte-americano número de série 10/815.591, depositado em 01/04/04 como protocolo do agente n²

Baumgarte 7-12;

o Pedido norte-americano número

10/936.464, depositado em 08/09/04 como protocolo do de série agente η²

Baumgarte 8-7-15;

o Pedido norte-americano número de série

10/762.100, depositado em 20/01/04 (Faller 13-1) o Pedido norte-americano número de série

10/xxx.xxx, depositado na mesma data deste pedido como protocolo do agente n² Allamanche 1-2-17-3.

O objeto em questão deste pedido está também relacionado ao objeto em questão descrito nos documentos a seguir.

cujos ensinamentos estão incorporados à presente como referência:

o F.

Baumgarte and C. Faller, Binaural Cue

Coding - Part I: Psychoacoustic fundamentais and design principies,

IEEE Trans. on Speech and Áudio Proc., vol. 11, no. 6, Nov. 2003;

o C. Faller and F.

Baumgarte, Binaural Cue

Coding - Part II: Schemes and applications, ” IEEE Trans. on Speech. and Audio Proc., vol. 11, no. 6, Nov. 2003; e o C. Faller, Coding of spatial audio compatible with different playback formats, Preprint 117^th Conv. Aud. Eng.

Soc., October 2004.

Campo da Invenção

A presente invenção se refere à codificação de sinais de áudio e a subsequente síntese de cenas auditivas a partir dos dados de áudio codificados.

Descrição da Técnica Anterior

Quando uma pessoa ouve um sinal de áudio (isto é, sons) gerados por uma determinada fonte de áudio, o sinal de áudio chegará normalmente aos ouvidos esquerdo e direito da pessoa em dois

tempos diferentes e com dois niveis diferentes de áudio (por exemplo, decibéis), em que esses tempos e níveis diferentes são funções das diferenças dos caminhos pelos quais o sinal de áudio percorre para alcançar os ouvidos esquerdo e direito, respectivamente. O cérebro da pessoa interpreta essas diferenças em tempo e nível para dar à pessoa a percepção de que o sinal de áudio recebido está sendo gerado por uma fonte de áudio localizada em uma posição determinada (por exemplo, direção e distância) com relação á pessoa. Uma cena auditiva é o efeito líquido de uma pessoa ouvindo simultaneamente sinais de áudio gerados por uma ou mais diferentes fontes de áudio localizadas em uma ou mais posições diferentes com relação à pessoa.

A existência desse processamento pelo cérebro pode ser usada para sintetizar cenas auditivas, em que sinais de áudio de uma ou mais diferentes fontes de áudio são modificados de propósito para gerar sinais de áudio esquerdo e direito que dão a percepção de

que diferentes fontes de áudio estão localizadas em diferentes posições com relação ao ouvinte.

A Fig. 1 mostra um diagrama de blocos de alto nível de sintetizador convencional binaural 100, que converte um único sinal de fonte de áudio (por exemplo, um sinal mono) nos sinais de áudio esquerdo e direito de um sinal binaural, onde um sinal binaural é definido para ser os dois sinais recebidos pelos tímpanos de um ouvinte. Além do sinal de fonte de áudio, o sintetizador 100 recebe um conjunto de sinalizações espaciais que correspondem à posição desejada da fonte de áudio com relação ao ouvinte. Nas implementações típicas, o conjunto de sinalizações espaciais compreende um valor de diferença de níveis intercanais (ICLD) (que identifica a diferença no nível de áudio entre os sinais de áudio esquerdo e direito como

4.

recebidos pelos ouvidos esquerdo e direito, respectivamente) e um valor de diferença de tempos intercanais (ICTD) (que identifica a diferença no tempo de chegada entre os sinais de áudio esquerdo e direito como recebidos pelos ouvidos esquerdo e direito, respectivamente). Além disso, ou como alternativa, algumas técnicas de síntese envolvem a conformação de uma função de transferência dependente da direção para o som de uma fonte sonora até os também denominada de função de transferência relativa tímpanos, à cabeça

(HRTF) . Ver, por exemplo, J. Blauert, The Psychophysics of Human

Sound Localization, MIT Press, 1983, cujos ensinamentos estão incorporados à presente como referência.

Usando o sintetizador de sinal binaural 100 da Fig.

1, o sinal de áudio mono gerado por uma fonte de sinal único pode ser processado de maneira que, quando é ouvido com fones de ouvido, a fonte sonora é localizada espacialmente pela aplicação de um conjunto adequado de sinalizações espaciais (por exemplo, ICLD, ICTD e/ou HRTF) para gerar o sinal de áudio de cada ouvido. Ver, por exemplo,

D.R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic

Press, Cambridge, MA, 1994.

O sintetizador de sinal binaural 100 da Fig. 1 gera o tipo mais simples de cenas auditivas: aquelas que possuem uma fonte de áudio única posicionada em relação ao ouvinte. Cenas auditivas mais complexas, compreendendo duas ou mais fontes de áudio localizadas em diferentes posições com. relação ao ouvinte podem ser 25 geradas usando um sintetizador de cena auditiva, que é essencialmente implementado usando instâncias múltiplas do sintetizador de sinal binaural, onde cada instância de sintetizador de sinal binaural gera o sinal binaural que corresponde a uma diferente fonte de áudio. Como /7 cada diferente fonte de áudio relação ao ouvinte, é usado um espaciais para gerar o sinal de

5.

U

W « · • V· d

• W » r ·» · · ··· • · · · · ·· ♦ · « · *· • · «·» ♦ · · » .0» f · J < ’>

• « · · tem uma diferente localização com conjunto diferente de sinalizações áudio binaural para cada diferente fonte de áudio.

SUMÁRIO DA INVENÇÃO

De acordo com uma configuração, a presente invenção é um método, equipamento e meio de leitura por máquina para a codificação de canais de áudio. São gerados e transmitidos um ou mais códigos de sinalizações para um ou mais canais de áudio,

.10 caracterizado pelo fato de que pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio.

De acordo com outra configuração, a presente invenção se trata de um equipamento para a codificação de C canais de áudio de entrada para gerar E canal(is) de áudio transmitido(s). O equipamento compreende um analisador envelope, um estimador de códigos e um downmixer. O analisador envelope caracteriza um envelope

temporal de entrada de pelo menos um dos C canais de entrada. 0 estimador de dos C canais entrada para códigos gera códigos de sinalização para dois ou mais de entrada. O gerar os E caracterizado pelo fato de downmixer que o sobre os códigos de sinalização caracterizado para permitir que o faz o downmix dos equipamento transmite

C canais de onde O £31, informações e o envelope temporal decodificador realize a de entrada sintese e a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) .

De acordo com outra configuração, a presente invenção se trata de um fluxo de bits de áudio codificados gerados • * 4 «« · • · pelos canais de áudio de codificação, caracterizado pelo fato de que um ou mais códigos de sinalização são gerados para um ou mais canais de áudio, onde pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope 5 temporal em um dos um ou mais canais de áudio. 0 um ou mais códigos de sinalização e os E canal(is) de áudio transmitido(s) que correspondem ao um ou mais canais de áudio, onde ΕΞΙ1, são codificados no fluxo de bits de áudio codificados.

De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificados que compreende um ou mais códigos de sinalização e E canal(is) de áudio transmitido(s). 0 um ou mais códigos de sinalização são gerados para um ou mais canais de áudio, caracterizados pelo fato de que pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio. 0(s) E canal(is) de áudio transmitido(s) correspondem ao um ou mais canais de áudio.

De acordo com outra

configuração, a presente invenção é um método, a decodificação de E equipamento canal(is) de e meio de leitura por máquina para áudio transmitido(s) para gerar C canais de áudio playback, onde ΟΕΞ11. São recebidos os códigos de sinalização que correspondem aos E canal(is) transmitido(s), caracterizados pelo fato de que os códigos de sinalização compreendem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde ao(s) E canal (is) transmitido(s) . Um ou mais dos E canal(is) transmitido(s) são upmixed. para gerar um ou mais canais upmixed. Um ou mais dos C canais de playback são sintetizados aplicando os códigos de sinalização a um ou mais canais upmixed, caracterizados pelo fato de que o código de sinalização de envelope é aplicado a um canal upmixed ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado, baseado no envelope temporal caracterizado de maneira que o envelope temporal ajustado combine substancialmente com o envelope temporal caracterizado.

BREVE DESCRIÇÃO DOS DESENHOS

Outros aspectos, características e vantagens da presente invenção se tornarão mais aparentes a partir da seguinte

e dos desenhos de acompanhamento em que numerais de referência iguais identificam elementos similares ou idênticos.

Fig. 1 mostra um diagrama de blocos de alto nivel sinal binaural convencional;

Fig. 2 mostra um diagrama de blocos de um sistema de processamento de áudio binaural cue coding (BCC) genérico;

Fig.

mostra um diagrama de blocos de um

downmixer que pode ser usado para o downmix da Fig.

2;

Fig. 4 mostra um diagrama de blocos de um sintetizador BCC que pode ser usado para o decodificador da

Fig.

2;

A Fig. 5 mostra um diagrama de blocos do estimador

BCC da Fig. 2, de acordo com uma configuração da presente invenção;

A Fig.

ilustra a geração de dados ICTD e

ICLD para áudio de cinco canais;

A Fig.

ilustra a geração de dados ICC para áudio de cinco canais;

A Fig.

mostra um diagrama de blocos de uma implementação do sintetizador BCC da Fig. 4 que pode ser usado em um *

• · · codificador BCC para gerar um sinal de áudio estéreo ou multicanais, dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais;

Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da frequência;

Fig. 10 mostra um diagrama de blocos de processamento no domínio do tempo que é adicionado a um codificador

BCC, como o codificador da Fig. 2, de acordo com uma configuração da presente invenção;

A Fig. 11 ilustra uma aplicação exemplar no domínio do tempo do processamento TP no contexto do sintetizador BCC da Fig.

4;

As Figs. 12 (a) e (b) mostram possíveis implementações da TPA da

Fig. 10 e da TP da Fig. 11, respectivamente, onde a conformação de envelope é somente aplicada frequências superiores à frequência de corte f_TP;

mostra um diagrama de blocos de

processamento no domínio da frequência, adicionado a um codificador

BCC, como o codificador da Fig. 2, de acordo com uma configuração alternativa da presente invenção;

A Fig.

ilustra uma aplicação exemplar no domínio da frequência do processamento

TP no contexto do sintetizador BCC da

Fig. 4;

A Fig. 15 mostra um diagrama de blocos de processamento no domínio da frequência que é adicionado a um codificador BCC, como o codificador da Fig. 2, de acordo com outra configuração alternativa da presente invenção;

A Fig. 16 ilustra outra aplicação exemplar no c//

0 • · domínio da freqüência de processamento TP no contexto do sintetizador

BCC da Fig. 4;

As Figs. 17 (a) — (c) mostram diagramas de blocos de possíveis implementações das TPAs das Figs. 15 e 16

Fig. 16; e

As Figs. 18(a) e (b) ilustram dois e da ITP e TP da modos exemplares de operação do bloco de controle da Fig. 16.

DESCRIÇÃO DETALHADA

Em binaural cue coding (BCC), um codificador codifica C canais de áudio de entrada para gerar E canais de áudio transmitidos, onde OE31. Em particular, dois ou mais dos C canais de entrada são providos em um domínio de freqüência, e um ou mais códigos de sinalização são gerados para cada uma ou mais diferentes bandas de freqüência em freqüência. Além disso, dois ou mais os C canais canais de entrada no domínio de de entrada são downmixados para

gerar os E canais transmitidos.

Em algumas implementações de

downmixing, pelo	menos	um	dos E canais	transmitidos	se	baseia <	em dois
ou mais dos C	canais	de	entrada, e	pelo	menos	um	dos E	canais
transmitidos se	baseia	em	somente um	dos C	canais	de	entrada

codificador BCC tem dois

Em uma configuração, ou um mais bancos de filtros, um estimador de códigos e um downmixer.

Os dois ou mais bancos de filtros convertem dois ou mais dos de entrada do domínio de tempo para o domínio de freqüência.

O estimador de códigos gera um ou mais mais diferentes bandas de códigos de freqüência sinalização para cada uma nos dois ou mais canais ou de entrada convertidos. O downmixer faz o downmix dos C canais de entrada para gerar os E canais transmitidos, onde

Em decodificação BCC, os E canais de áudio

transmitidos são decodificados para gerar C canais de áudio playback. Em particular, para cada uma ou mais diferentes bandas de frequência, um ou mais dos E canais transmitidos são upmixed em um domínio de frequência para gerarem dois ou mais dos C canais de playback no 5 domínio de frequência, onde ΟΕΞΙ1. Um ou mais códigos de sinalização são aplicados a cada uma ou mais diferentes bandas de frequência nos dois ou mais canais de playback no domínio de frequência para gerar dois ou mais canais modificados, e dois ou mais canais modificados

são convertidos do domínio de frequência para um domínio de tempo. Em determinadas implementações de upmix, pelo menos um dos C canais de playback se baseia em pelo menos um dos E canais transmitidos e pelo menos um código de sinalização, e pelo menos um dos C canais de playback se baseia em somente um dos E canais transmitidos e independente de quaisquer códigos de sinalização.

Em uma configuração, um decodificador BCC tem um upmixer, um sintetizador e um ou mais bancos de filtros inversos. Para cada uma ou mais das diferentes bandas de freqüências, o upmixer

faz o upmix de um ou mais dos E canais transmitidos em um domínio de frequência para gerar dois ou mais dos C canais de playback no domínio de freqüência, onde OE31. 0 sintetizador aplica um ou mais códigos de sinalização a cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de playback no domínio de freqüência para gerar dois ou mais canais modificados. Um ou mais bancos de filtros inversos convertem os dois ou mais canais modificados do domínio de freqüência para o domínio de tempo.

Dependendo da implementação em particular, um dado canal de playback pode se basear em um único canal transmitido, ao invés de em uma combinação de dois ou mais canais transmitidos. Por

4.

Ζ3 exemplo, quando há somente um de playback se baseia naquele

• · * · · • · · • ♦ · «4 · canal transmitido, cada um dos C canais canal transmitido. Nessas situações, o upmixing corresponde à cópia do canal transmitido correspondente.

Assim, para aplicações onde somente existir um canal transmitido, o upmixer pode ser transmitido para incorporados em exemplo, implementado usando um replicador que copie o canal cada canal de playback.

Os codificadores e/ou vários sistemas ou gravadores/reprodutores gravadores/reprodutores de áudio decodificadores BCC podem ser aplicações, incluindo, por de video digital, digital, computadores, transmissores/receptores por satélite, transmissores/receptores cabo, transmissores/receptores de difusão terrestre, sistemas de entretenimento doméstico e sistemas de iwie theater.

P rocessamento BCC Genérico

A Fig. 2 é um diagrama de blocos de um sistema de processamento de áudio bina ura 1 cue coding (BCC) genérico 200, que compreende um codificador 202 e um decodificador 204. O codificador

202 inclui um downmixer 206 e um estimador BCC 208.

downmixer

206 converte C canais de áudio de entrada x_Á (n) em E canais de áudio transmitidos y± (n) , onde ΟΕΞ1.

Nessa especificação, os sinais expressos usando a variável n são sinais do domínio de tempo, enquanto os sinais expressos usando a variável k são sinais do implementação em particular, no domínio de tempo como no domínio de freqüência. Dependendo da o downmixing pode ser implementado tanto domínio de frequência. O estimador BCC

208 gera códigos BCC a partir dos C canais de áudio de entrada e transmite aqueles códigos BCC tanto como informações colaterais em banda ou fora de banda, relativas aos E canais de áudio transmitidos.

Os códigos BCC típicos incluem uma ou mais das diferenças de tempos intercanais (ICTD), diferenças de níveis intercanais {ICLD) e dados de correlações intercanais (ICC) estimados entre determinados pares de canais de entrada como uma função da freqüência e do tempo. A implementação particular indicará entre quais determinados pares de canais de entrada que os códigos BCC são estimados.

Os dados ICC correspondem à coerência de um sinal binaural, que refere-se à largura percebida da fonte de áudio. Quanto mais larga a fonte de áudio, menor a coerência entre os canais

esquerdo e direito do sinal binaural resultante.

Por exemplo, a coerência do sinal binaural que corresponde à difusão de uma orquestra em um palco de auditório é tipicamente menor que a coerência do sinal binaural que corresponde a um único violino tocando solo.

Em geral, um sinal de áudio com menor coerência é normalmente percebido como mais difundido em um espaço auditivo.

Assim, os dados ICC referem-se tipicamente com a largura aparente da fonte e com o grau de envolvimento do ouvinte.

Ver, por exemplo, J.

Blauert, The Psychophysics of Human Sound Localization,

MIT Press,

1983 .

Dependendo da aplicação em particular, os E canais de áudio transmitidos e os correspondentes transmitidos diretamente ao decodificador 204 códigos BCC podem ser ou armazenados em algum tipo adequado de dispositivo para acesso posterior pelo decodificador

204. Dependendo da situação, o termo transmitindo pode se referir tanto à transmissão direta a um decodificador ou armazenagem para a provisão subsequente a um decodificador. Em qualquer caso, o decodificador 204 recebe os canais de áudio transmitidos e as informações colaterais e realiza o upmixing e a síntese BCC usando os ·♦· códigos BCC para converter os E canais de áudio transmitidos em mais do que os E (tipicamente, mas não necessariamente, C) canais de áudio playback para playback de áudio. Dependendo da implementação em particular, o upmixing pode ser feito tanto no domínio de tempo como 5 no domínio de freqüência.

Além do processamento BCC mostrado na Fig.2, um sistema genérico de processamento de áudio BCC pode incluir outros estágios de codificação e decodificação para comprimir mais os sinais

de áudio no codificador, e então descomprimir os sinais de áudio no decodificador, respectivamente. Esses codecs de áudio podem se basear em técnicas de compressão/descompressão convencionais de áudio, como as baseadas em modulação em código de pulsos (PCM), PCM (DPCM) diferencial ou DPCM (ADPCM) de adaptação.

Quando o downmixer 206 gera um sinal de soma simples (isto é, E=l) , a codificação BCC pode representar sinais de áudio muiticanais em uma taxa de bits somente discretamente maior que o necessário para representar um sinal de áudio mono. Isso ocorre porque contêm que um os dados cerca de

ICTD, ICLD e ICC estimados entre um par de canais duas ordens de magnitude inferior de informações do formato de onda de áudio.

Não somente a baixa taxa de bits da codificação BCC, como também seu aspecto de retro-compatibilidade apresenta interesse.

Um único sinal de soma transmitido corresponde a um downmix mono do sinal original estéreo ou muiticanais. Para os receptores que não suportam reprodução sonora estéreo ou multicanais, ouvir o sinal de soma transmitido é um método válido de apresentação do material de áudio em um equipamento de reprodução mono de baixo desempenho. Portanto, a codificação BCC também pode ser usada para ampliar os serviços existentes que envolvem a difusão de material de áudio mono por áudio muiticanais. Por exemplo, os sistemas existentes de radiodifusão de áudio mono podem ser ressaltados para playback estéreo ou multicanais se as informações colaterais BCC puderem ser 5 integradas no canal existente de transmissão. Existem capacidades análogas ao ser feito o downmix de áudio multicanais para dois sinais de soma que correspondem ao áudio estéreo.

BCC processa sinais de áudio com determinada

resolução de tempo e freqüência. A resolução de freqüência usada é amplamente motivada pela resolução de freqüência do sistema auditivo humano. A psicoacústica sugere que a percepção espacial se baseia muito provavelmente em uma representação de banda critica do sinal acústico de entrada. Essa resolução de freqüência é considerada usando um banco de filtros reversível (por exemplo, baseada na 15 transformada rápida de Fourier (FFT) ou um filtro espelhado em quadratura (QMF)) com sub-bandas com larguras de bandas iguais ou proporcionais à largura crítica de banda do sistema humano de audição.

Downmixing Genérico

Nas implementações preferidas, o(s) sinal (is) de soma transmitido(s) contêm todas as componentes de sinais do sinal de áudio de entrada. O obj etivo é que cada componente de sinal seja totalmente mantida. A simples soma dos canais de entrada de áudio geralmente resulta na amplificação ou na atenuação das componentes do 25 sinal. Em outras palavras, a potência das componentes de sinal em uma soma simples é geralmente maior ou menor do que a soma da potência da componente de sinal correspondente de cada canal. Pode ser usada uma técnica de downmixing que equaliza o sinal de soma, de maneira os =Ζ7

• · · · · · · •· ······ ······· · • · · · que a potência de componentes de sinal no sinal de soma aproximadamente a mesma que a potência correspondente em todos canais de entrada.

A Fig. 3 mostra um diagrama de blocos de downmixer 300 que pode ser usado para o downmixer 206 da Fig. 2 um de acordo com certas implementações do sistema BCC 200. O downmixer 300 tem um banco de filtros (FB) 302 para cada canal de entrada χ₂(η)₍ um bloco downmixing 304, um bloco opcional de escalonamento/retardo 306 e um FB inverso(IFB) 308 para cada canal codificado yi(n).

Cada banco de filtros 302 converte cada quadro (por exemplo, 20 mseg) de um canal de entrada digital correspondente Xí(n) no domínio de tempo em um conjunto de coeficientes de entrada no domínio de freqüência. 0 bloco de downmixing 304 faz o downmix de cada sub-banda de C coeficientes de entrada correspondentes em uma sub-banda correspondente de E coeficientes no domínio de freqüência downmixados. A equação (1) representa o downmix das Â:-ésimas bandas de coeficientes de entrada -->^xcW) p_ara gerar ésima sub-banda de coeficientes downmixados (-^¹(^)’λ---’Λ;W) suba kcomo segue:


	= d_(7í	χ₂(Λ)
_ynW_		x_c(k)

(D onde é uma matriz de downmixing de valores reais C-por-E.

bloco de escalonamento/retardo opcional 306 compreende um multiplica um conjunto de coeficiente multiplicadores 310, cada downmixado correspondente um dos quais por um • · · ·· • · · · fator de escalonamento (k) para gerar um coeficiente escalado correspondente T/W, motivação para a operação de escalonamento é equivalente à equalização generalizada para downmixing com fatores arbitrários de ponderação para cada canal.

Se os canais de entrada

onde Dor _se deriva pela quadratura de cada de matriz na matriz de downmixing C-por-E _{e a} da sub-banda k do canal de entrada i.

Se as sub-bandas não forem independentes, valores de potência do elemento potência então os sinal downmixado serão maiores ou menores do que os computados usando a Equação (2) , devido às amplificações ou cancelamentos de sinais quando as componentes do sinal estiverem em fase ou fora de fase, respectivamente. Para evitar isso, a operação de downmixing da Equação (1) se aplica a sub-bandas seguidas pela operação de escalonamento dos multiplicadores 310. Os fatores de escalonamento (k) (l#i#E) podem ser obtidos usando a

Equação (3) como segue:

¢3) onde é a potência de sub-banda computada pela

Equação ¢2) , e é a potência do sinal de sub-banda downmixado correspondente .

♦ · · • « · ·· • · · · • · · • · ·

Além de, ou ao invés de prover escalonamento opcional, o bloco de escalonamento/retardo 306 pode aplicar opcionalmente retardos aos sinais.

Cada banco de filtros inverso 308 converte um conjunto de coeficientes escalados correspondentes no domínio de freqüência para um quadro de um canal transmitido digital correspondente y± (n).

Apesar da Fig. 3 mostrar todos os C dos canais de

entrada sendo convertidos no domínio de freqüência para subseqüente downmixing, em implementações alternativas, um ou mais (mas inferior a C-l) dos C canais de entrada podem desviar alguns ou todos os processamentos mostrados na Fig. 3 e ser transmitidos como um número equivalente de canais de áudio não modificados. Dependendo da implementação em particular, esses canais de áudio não modificados podem ou não ser usados pelo estimador BCC 208 da Fig. 2 na geração dos códigos BCC transmitidos.

Em uma implementação do downmixer 300 que gera um sinal de soma simples y(n), E=1 e os sinais de cada sub-banda de cada canal de entrada c são adicionados e então multiplicados por um fator e(£), de acordo com a Equação (4) como segue:

o fator e(k) é dado pela Equação (5) como segue: ~C

ΣΡχ.(Α) c=I_________

Px(k)

Px_c(k) onde é uma breve estimativa da potência de *

• · · • ♦ ^Xt'(^) no índice de tempo k_f e é uma breve estimativa da x (k) potência de ^c . As sub-bandas equalizadas são transformadas novamente para o domínio de tempo resultando no sinal de soma y(n) que é transmitido ao decodificador BCC.

Síntese BCC Genérica

A Fig. 4 mostra um diagrama de blocos sintetizador BCC 400 que pode ser usado para o decodificador

Fig. 2, de acordo com certas implementações do sistema BCC

de	um
204	da
200 .	0

sintetizador BCC 400 tem um banco de filtros

402 para cada canal transmitido yi(n), um bloco de upmixing 404, de retardos 406, de multiplicadores

408, de blocos de correlação

410 e um banco de filtros inverso

412 para cada canal de playback

Cada banco de filtros 402 converte cada quadro de um canal digital e em um conjunto transmitido correspondente y_Á (n) no domínio de tempo de coeficientes de entrada Ιύ(^) no domínio de freqüência. 0 bloco de upmixing 404 faz o upmix de cada sub-banda dos

E coeficientes de canal transmitidos correspondentes em uma sub-banda correspondente de C coeficientes upmixados no domínio de freqüência.

A equação (4) representa o upmixing da k-ésima sub-banda de coeficientes de canais transmitidos (ΐ*!®’^)’··· J/íW) _para gerar a Ir-ésima sub-banda de coeficientes upmixados (^1(^)^2(^),---^(.(^)) _como segue:

s₂(k)	= u«.	.tW
ÃW.

(6) onde U/íc é uma matriz de upmixing de valores reais

E-por-C. A realização do upmixing no domínio de freqüência permite

0/

que o upmixing seja aplicado individualmente em cada diferente subbanda .

Cada retardo 406 aplica um valor de retardo di(k) com base no código BCC correspondente para dados ICTD para garantir que os valores ICTD desejados apareçam entre certos pares de canais de playback. Cada multiplicador 408 aplica um fator de escalonamento a_d (k) com base no código BCC correspondente para dados ICLD para garantir que os valores ICLD desejados apareçam entre certos pares de

canais de playback. 0 bloco de correlação 410 realiza uma operação de decorrelação A com base nos códigos BCC correspondente para dados ICC para garantir que os valores

ICC desejados apareçam entre certos pares de canais de playback.

Outras descrições das operações de bloco de correlação 410 podem ser encontradas no Pedido de Patente norteamericana N- 10/155,437, depositado em 24/05/02 como Baumgarte 2-10.

15	A	síntese dos valores	ICLD	pode	ser	menos
problemática	do que	a síntese dos valores	ICTD	e ICC,	já	que a
síntese ICLD	envolve	somente o escalonamento	de sinais de	sub-	-banda.

Como as sinalizações ICLD são as sinalizações direcionais mais comumente usadas, é comumente mais importante que os valores ICLD se aproximem daqueles do sinal de áudio original. Assim, os dados ICLD podem ser estimados entre todos os pares de canais. Os fatores de escalonamento ai(k) (l#i#C) para cada sub-banda são escolhidos de preferência de maneira que a potência de sub-banda de cada canal de playback se aproxime da potência correspondente do canal de áudio de entrada original.

Um objetivo pode ser aplicar relativamente poucas modificações de sinal para a sintetização dos valores ICTD e ICC.

Assim, os dados BCC podem não incluir valores ICTD e ICC para todos

..

β® • · ·· • * · • · « « · ♦ · · · ♦ ♦

·· · β

os pares de canais. Nesse caso, o sintetizador BCC 400 sintetizaria os valores ICTD e ICC somente entre determinados pares de canais.

Cada banco de filtro inverso 412 converte um conjunto de coeficientes sintetizados correspondentes ^/(Λ) _no domínio de freqüência para um quadro de um canal digital de playback correspondente ^x/(ⁿ)

Apesar da Fig. 4 mostrar todos os E dos canais transmitidos sendo convertidos para o domínio de freqüência para subseqüente upmixing e processamento BCC, nas implementações alternativas, um ou mais (mas não todos) os E canais transmitidos podem desviar de alguns ou todos os processamentos mostrados na Fig.

4. Por exemplo, um ou mais dos canais transmitidos podem ser canais não modificados que não estejam submetidos a qualquer upmixing. Além disso, para ser um ou mais dos C canais de playback, esses canais não modificados, por sua vez, podem ser, mas não precisam ser, usados como canais de referência para os quais o processamento BCC é aplicado para sintetizar um ou mais de outros canais de playback. Em qualquer caso, esses canais não modificados podem estar sujeitos a retardos para compensar o tempo de processamento envolvido no upmixing e/ou no processamento BCC usado para gerar o restante dos canais de playback.

Deve ser observado que, apesar da Fig. 4 mostrar C canais de playback sendo sintetizados a partir de E canais transmitidos, onde C era também o número de canais de entrada originais, a síntese BCC não se limita a esse número de canais de playback. Em geral, o número de canais de playback pode ser qualquer número de canais, incluindo números maiores ou menores que C e possivelmente mesmo situações em que o número de canais de playback é igual ou menor que o número de canais transmitidos.

Diferenças perceptivelmente relevantes entre canais de áudio

Supondo um sinal de soma simples, BCC sintetiza um sinal de áudio estéreo ou multicanais de maneira que ICTD, ICLD e ICC se aproximam das sinalizações correspondentes do sinal de áudio original. A seguir, será discutido o papel de ICTD, ICLD e ICC com relação aos atributos de imagem espacial auditiva.

conhecimento sobre audição espacial implica que.

para um evento auditivo, ICTD e

ICLD estão relacionados à direção percebida. Ao se considerar as respostas impulsivas binaurais do ambiente (BRIRs) de uma fonte, existe uma relação entre a largura do evento auditivo e o envelopamento do ouvinte e os dados ICC estimados para as partes precoces e posteriores das BRIRs. Entretanto, a relação entre ICC e essas propriedades de sinais gerais (e não somente as BRIRs) não é direta.

Sinais de áudio estéreo e multicanais normalmente

contêm uma mistura complexa de sinais fonte concomitantemente ativos sobrepostos pelas componentes do sinal refletido resultantes da gravação em espaços fechados ou adicionados pelo engenheiro de gravação para a criação artificial de uma impressão espacial.

Diferentes sinais fonte e suas reflexões ocupam diferentes regiões no plano tempo-freqüência. São refletidos pelas ICTD, ICLD e ICC, que variam como uma função do tempo e da frequência. Nesse caso, a 25 relação entre as ICTD, ICLD e ICC instantâneas e as direções do evento auditivo e a impressão espacial não é óbvia. A estratégia de determinadas configurações de BCC é para sintetizar cegamente essas sinalizações, de maneira que se aproximem das sinalizações * 0· • ·· ** · *

• ··

* · * * · *· ·«*··· • e ·♦ ·. · <' » • · · · · · · • · · · correspondentes do sinal de áudio original.

São usados bancos de filtros com sub-bandas de

larguras de bandas iguais a duas vezes à largura de banda retangular equivalente (ERB). Ά audição informal revela que a qualidade de áudio da BCC não melhora de maneira notável ao ser escolhida uma maior resolução de freqüência. Pode ser desejada uma menor resolução de freqüência, já que isso resulta em menos valores ICTD, ICLD e ICC que devem ser transmitidos ao decodifiçador e assim em menor taxa de bits.

Com relação à resolução de tempo, ICTD, ICLD e ICC são consideradas tipicamente em intervalos regulares de tempo. É obtido alto desempenho quando ICTD, ICLD e ICC são considerados aproximadamente a cada 4 a 16 ms. Deve ser observado que, a menos que as sinalizações sejam consideradas em intervalos de tempo muito pequenos, o efeito de precedência não é considerado diretamente. Supondo um par lead-lag clássico de estímulos sonoros, se o lead e o lag caírem em um intervalo de tempo em que seja sintetizado somente um conjunto de sinalizações, então a dominância de localização do lead não será considerada. Apesar disso, BCC obtém qualidade de áudio refletida em uma classificação MUSHRA média de cerca de 87 (isto é, qualidade excelente de áudio) na média e até próximo de 100 para determinados sinais de áudio.

A diferença perceptivelmente pequena geralmente obtida entre o sinal de referência e o sinal sintetizado implica que as sinalizações relacionadas a uma ampla faixa de atributos de imagem espacial auditiva são consideradas implicitamente pela sintetização de ICTD, ICLD e ICC em intervalos regulares de tempo. A seguir, são feitas algumas argumentações sobre como ICTD, ICLD e ICC podem *

j ·· · · ·*··** · ·· · r r · · · c · *··*'· ^c • · <* ·· ··· • ··· v · refere-ser com uma faixa de atributos de imagem espacial auditiva.

Estimativa de sinalizações espaciais

A seguir é descrito como são estimadas ICTD, ICLD e

ICC. A taxa de bits para a transmissão dessas sinalizações espaciais (quantizadas e codificadas) pode ser de somente alguns kb/s e portanto, com BCC, é possível transmitir sinais de áudio estéreo e multicanais em taxas de bits próximos ao que é necessário para um único canal de áudio.

Fig. 5 mostra um diagrama de blocos de um

estimador BCC

208 da Fig. 2, de acordo com uma configuração da presente invenção.

O estimador BCC

208 compreende bancos de filtros (FB) 502, que podem ser os mesmos bancos de filtros 302 da Fig. 3, e o bloco de e ICC para estimativa 504, que gera sinalizações espaciais ICTD, ICLD cada diferente sub-banda de freqüência gerada pelos bancos de filtros

Estimativa de ICTD, ICLD e ICC para sinais estéreo

As seguintes medidas são usadas para ICTD, ICLD e

ICC para os correspondentes sinais de sub-banda ^x^^ e ^e dois canais de áudio (por exemplo, estéreo):

o ICTD [amostras]: t₁₂(£)= argmaxlo ₁₂(<2,£)1 (7) com uma breve estimativa da função normalizada de correlação cruzada dada pela Equação (8) como segue:

Φ |₉ (d, k)~ i----------------------r (8) onde

absoluto da multicanais

24.

• ♦ • · • · • · • · • · *

« · • 4 • · • · d_{ = max{-í/,0} d₂ = max {d, O}

ICLD [dB] ¢9) uma breve estimativa da média de (10) o ICC:

c_l2(k)= max|®_l2(<y,*)|

Deve ser observado (11) que é considerado o valor correlação cruzada normalizada

Estimativa de ICTD, ICLD e é normalmente e ^ci2(D tem uma

ICC para sinais de áudio

Quando existirem mais do que dois canais de entrada, suficiente definir ICTD e ICLD entre um canal de referência (por exemplo, canal número 1) e os demais canais, como ilustrado na Fig. 6 para o caso de C=5 canais, denotam ICTD e ICLD, respectivamente, entre o canal de referência 1 e o canal c.

De forma oposta à ICTD e ICLD, ICC normalmente tem mais graus de liberdade. Os ICC, como definidas, podem ter valores diferentes entre todos os possíveis pares de canais de entrada. Para C canais, existem 0(01) /2 possíveis pares de canais; por exemplo, para 5 canais, existem 10 pares de canais, como ilustrado na Fig.

(a). Entretanto, tal esquema exige que, para cada sub-banda em cada índice de tempo, os valores ICC 0(0-1)/2 sejam estimados e

transmitidos, resultando em alta complexidade de computação e em alta taxa de bits.

De maneira alternativa, para cada sub-banda, ICTD e

ICLD determinam a direção a que se refere o evento auditivo da componente de sinal correspondente na sub-banda. Um único parâmetro

ICC por sub-banda pode então ser usado para descrever a coerência geral entre todos os canais de áudio. Podem ser obtidos bons resultados pela estimativa e transmissão de sinalizações ICC somente

entre os dois canais com maior energia em cada sub-banda em cada indice de tempo. Isto está ilustrado na Fig. 7 (b) , onde para os instantes de tempo k-1 e k os pares de canais (3, 4) e (1, 2) são os mais fortes, respectivamente. Pode ser usada uma regra heurística para determinar ICC entre os demais pares de canais.

Síntese de sinalizações espaciais

A Fig. 8 mostra um diagrama de blocos de uma implementação do sintetizador BCC 400 da Fig. 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou

multicanais dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais. 0 sinal de soma s(n) é decomposto em subbandas, onde denota uma dessas sub-bandas. Para a geração das sub-bandas correspondentes de cada um dos canais de saída, são aplicados retardos d_c, fatores de escala a_Cf e filtros h_c à sub-banda correspondente do sinal de soma. (Para a simplicidade de notação, o índice de tempo k é ignorado nos retardos, fatores de escala e filtros). As ICTD são sintetizadas por retardos impostos, as ICLD por escalonamento e ICC pela aplicação de filtros de decorrelação. O processamento mostrado na Fig. 8 se aplica de forma independente a cada sub-banda.

2$.

Síntese ICTD

Os retardos d_c são determinados a partir das ICTDs τ (k^i ^{ltA 7} , de acordo c^>m_

2< c< C

I (12)

O retardo para o canal de referência, d_lf é computado de maneira que a magnitude máxima dos retardos d_c seja \3S minimizada. Quanto menos os sinais de sub-banda forem modificados.

menor é o perigo de ocorrência de problemas. Se a taxa de amostragem de sub-banda não proporcionar suficiente tempo-resolução para síntese ♦ 10

ICTD, os retardos poderão ser impostos com maior precisão usando os adequados filtros passa-tudo.

Síntese ICLD

Para que os sinais desejados ICLDs entre o canal de sub-banda de e o canal de saída tenham referência 1, os os fatores de ganho a_c devem satisfazer n

Equação (13) como segue:

(13)

Além disso, as sub-bandas de saída são preferivelmente normalizadas de maneira que a soma da potência de todos os canais entrada. Como a de saída seja igual à potência do sinal potência do sinal original total em cada de soma de sub-banda é preservada no sinal de soma, essa normalização resulta na potência de sub-banda absoluta para cada canal de saída, aproximando-se da potência correspondente do sinal de áudio de entrada do codificador original. Dadas essas limitações, os fatores de escala a_c são dados pela Equação (14) como segue:

|θΔΖ,_υ/10

/20

c = 1

ao contrário (14)

Síntese ICC

Em certas configurações, o objetivo da síntese TCC é reduzir a correlação entre as sub-bandas após os retardos e tendo sido aplicada ao escalonamento, sem afetar ICTD e ICLD. Isto pode ser conseguido projetando os filtros h_c na Fig. 8 de maneira que ICTD e

ICLD variem efetivamente como uma função da freqüência, de maneira

que a variação média seja zero em cada sub-banda (banda crítica auditiva).

A Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da freqüência. A amplitude da variação de ICTD e ICLD determina o grau de decorrelação e é controlada como uma função de ICC. Deve ser observado que ICTD varia suavemente (como na Fig. 9 (a)), enquanto ICLD varia randomicamente (como na Fig.

9 (b) ) . Pode-se variar ICLD tão suavemente quanto ICTD, mas isto

resultaria em uma maior coloração dos sinais resultantes de áudio.

Outro método para sintetizar ICC, particularmente adequado para a síntese ICC multicanais, é descrita em mais detalhes em C. Faller, Parametric multi-channel audio coding: Synthesis of coherence cues, IEEE Trans. on Speech and Audio Proc._t 2003, cujos ensinamentos estão incorporados à presente como referência. Como uma função do tempo e da freqüência, quantidades específicas de reverberação posterior artificial são adicionadas a cada um dos canais de saída para a obtenção do desejado ICC. Além disso, pode ser aplicada uma modificação espectral, de maneira que o envelope espectral do sinal resultante se aproxime do envelope espectral do

28.

······· · « · · · · · · • · * · sinal de áudio original.

Outras técnicas de síntese

ICC relativas e não relativas para sinais estéreo (ou pares de canais de áudio) foram apresentadas em E.

Schuij ers, W.

Oomen, B. den

Brinker, and

J.

Breebaart, Advances in parametric coding for high-quality audio, in

Preprint 114^th Conv.

Aud. Eng. Soe., Mar. 2003, and J. Engdegard,

H.

Purnhagen,

J. Roden, and L.

Lí1j eryd, Synthetic ambience in parametric stereo coding, in

Preprint Conv. Aud. Eng. Soc. ,

May 2004, cujos ensinamentos estão incorporados à presente como

referência.

BCC C-para-E

Como descrito anteriormente, o BCC pode ser implementado uma variação único canal com de mais do que um canal de transmissão. Foi descrita

BCC que representa C canais de áudio não como um (transmitido), mas como E canais, designados BCC

C-para-E. Existem (pelo menos) duas motivações para BCC C-para-E:

o BCC com um canal de transmissão provê um caminho retro-compatível para a atualização dos sistemas mono

existentes para playback de áudio estéreo ou multicanais. Os sistemas atualizados transmitem o sinal soma downmixado BCC pela infraestrutura mono existente, enquanto também transmite as informações colaterais BCC. BCC C-para-E se aplica à codificação retro-compatível dos E canais de áudio do canal C.

o BCC C-para-E introduz escalabilidade em termos de diferentes graus de redução do número do canais transmitidos.

Espera-se que quanto mais canais de áudio são transmitidos, melhor será a qualidade de áudio.

Os detalhes do processamento de sinal para BCC C para-E, de maneira a definir as sinalizações ICTD, ICLD e ICC estão descritos no pedido norte-americano número de série 10/762.100, depositado em 20/01/04 (Faller 13-1).

Configuração de Canal Individual

Em certas configurações, tanto BCC com um canal de transmissão como BCC C-para-E envolvem algoritmos para síntese de ICTD, ICLD e/ou ICC. Normalmente, é suficiente para sintetizar as sinalizações ICTD, ICLD e/ou ICC a cada cerca de 4 a 30 ms. Entretanto, o fenômeno perceptivo de efeito de precedência implica que existem instantes específicos de tempo quando o sistema auditivo humano avalia sinalizações em resolução de maior tempo (por exemplo, a cada 1 a 10 ms).

Um único banco de filtro estático normalmente não pode fornecer resolução de freqüência suficientemente alta, adequada para a maioria dos instantes de tempo, enquanto proporciona resolução de tempo suficientemente alta em intervalos de tempo quando o efeito de precedência se torna efetivo.

Algumas configurações da presente invenção são dirigidas para um sistema que usa síntese de ICTD, ICLD e/ou ICC com resolução de tempo suficientemente baixa, enquanto adiciona novo processamento para tratar dos instantes de tempo quando é necessária maior resolução de tempo. Além disso, em certas configurações, o sistema elimina a necessidade de tecnologia de mudança de janela adaptativa de sinal, que é normalmente difícil para integrar em uma estrutura de sistema. Em certas configurações, são estimados os envelopes temporais de um ou mais dos canais de áudio de entrada do codificador original. Isto pode ser feito, por exemplo, diretamente pela análise da estrutura de tempo do sinal ou pelo exame da autoAz

u. • · • ♦ • ·	• · · • • •	• * · • · • ·	• · · • • · •	• • · • •	• · • • · • ·	• • • · ···	• · · · ♦ · · • · · · • · ·
	• · ♦	•	•	• · ·	•	•	• ·

correlação do espectro do sinal na frequência. As duas abordagens serão elaboradas em outros dos subsequentes exemplos de implementação. As informações envelopes são transmitidas ao decodificador (como códigos de sinalização de envelope) se perceptivamente necessárias e vantajosas.

Em certas configurações, o decodifiçador aplica certos processamentos para impor esses desejados envelopes temporais em seus canais de áudio de saída:

o Isto pode ser atingido pelo processamento TP,

por exemplo, a manipulação do envelope do sinal pela multiplicação das amostras da amplitude do domínio de tempo do sinal pela função de modificação com variação no tempo. Um processamento similar pode ser aplicado ás amostras espectrais/sub-banda se a resolução de tempo das sub-bandas for suficientemente alta (ao custo de uma resolução de freqüência mais grosseira).

o De maneira alternativa, uma convolução / filtragem da representação usada de maneira análoga á de conformação do ruído de baixa taxa espectral do sinal na freqüência pode ser usada na técnica anterior com o propósito quantização de um codificador de áudio de de bits ou para a ampliação dos sinais codificados de estéreo de intensidade. Isto será preferível se o banco de filtros tiver uma resolução de alta freqüência e, portanto, um tempo de resolução bem menor.

Para a abordagem de convolução/filtragem:

método de conformação de envelope é estendido a partir do estéreo de intensidade para a codificação multicanais

C-para-E.

técnica compreende uma montagem onde a conformação de envelope é controlada pelas informações paramétricas • ·«· · ·«* · ·· * · ··· ·« »·· ·· · · · · · • · ·»«· · ·· ······ « · « · · · ······« · « ··«* » ·· «·*·· «· · * » · · · · ·· · (por exemplo, marcadores binários) geradas pelo codificador, mas na realidade é realizada usando conjuntos de coeficientes de filtro derivados do decodificador.

o Em outra montagem, são transmitidos conjuntos de coeficientes de filtro do decodificador, por exemplo, somente quando perceptivamente necessários e/ou benéficos.

mesmo é também verdade para a abordagem do domínio de tempo /sub-banda. Portanto, podem ser introduzidos critérios (por exemplo, detecção transiente e uma estimativa de tonalidade) para

também controlar a transmissão das informações envelope.

Podem existir situações em que será favorável desabilitar o processamento TP para evitar possíveis problemas. Para ficar do lado da segurança, é uma boa estratégia deixar o processamento temporal desabilitado como padrão (isto é, BCC operaria 15 de acordo com um esquema BCC convencional). 0 processamento adicional é somente habilitado quando se espera que uma maior resolução

temporal dos canais proporcione melhora, por exemplo, quando se espera que o efeito de precedência se torne ativo.

Como declarado anteriormente, este controle de habilitação/desabilitação pode ser obtido por detecção transiente.

Isto é, se um transiente é detectado, então é habilitado o processamento TP. O efeito de precedência é mais eficaz para transientes. A detecção de transientes pode ser usada com vistas à conformação eficaz de não somente simples transientes, mas também de 25 componentes de sinal logo antes e depois do transiente. As possíveis formas de detectar transientes incluem:

o Observar o envelope temporal dos sinais de entrada do codificador BCC ou do(s) sinal(is) de soma BCC * · «· · • « * · «·««·· ··· · · * transmitido(s). Se houver um súbito aumento de potência, então ocorreu um transiente.

o Examinar o ganho da codificação preditiva linear (LPC) como estimada no codificador ou decodificador. Se o ganho de previsão LPC ultrapassar um determinado limite, então poderá ser suposto que o sinal é transiente ou altamente oscilante. A análise LPC é computada na autocorrelação do espectro.

Além disso, para evitar possíveis problemas nos sinais tonais, o processamento TP não é aplicado de preferência

quando a tonalidade do(s) sinal (is) de soma transmitido(s) é alta.

De acordo com certas configurações da presente invenção, os envelopes temporais dos canais de áudio individuais originais são estimados em um codificador BCC para permitir que um decodificador BCC gere canais de saída com envelopes temporais similares (ou perceptivamente similares) aos dos canais de áudio originais. Algumas configurações da presente invenção enfocam o fenômeno do efeito de precedência. Algumas configurações da presente invenção envolvem a transmissão de códigos de sinalização de

envelope, além de outros códigos BCC, como ICLD, ICTD e/ou ICC, como parte das informações colaterais BCC.

Em certas configurações da presente invenção, a resolução de tempo para as sinalizações de envelopes temporais é mais precisa do que a resolução de tempo de outros códigos BCC (por exemplo, ICLD, ICTD, ICC). Isto permite a conformação de envelope a 25 ser realizada no período provido por uma janela de síntese que corresponde ao comprimento de um bloco de um canal de entrada para o qual outros códigos BCC são derivados.

Exemplos de Implementação

33, • ··· · ««» • · · · * • · » ♦♦· • · < · · • V · ·· «·· · · · * « · · ««··*« ·♦· » · * » ♦ · · » • « « de blocos do um codificador

« · • · ♦ · •

A Fig. 10 mostra um diagrama processamento no domínio do tempo que é adicionado a

BCC, como o codificador 202 da Fig. 2, de acordo com uma configuração da presente invenção. Como mostrado na Fig. 10(a), cada analisador de 5 processo temporal (TPA) 1002 estima o envelope temporal de um diferente canal de entrada original x_c(n), embora, no geral, qualquer um ou mais dos canais de entrada possa(m) ser analisado(s).

A Fig. 10(b) mostra um diagrama de blocos de uma possível implementação baseada no domínio de tempo de TPA 1002, na

qual as amostras dos sinais de entrada são elevadas ao quadrado (1006) e então filtradas em passa-baixa (1008) para caracterizar o envelope temporal do sinal de entrada. Em configurações alternativas, o envelope temporal pode ser estimado usando uma autocorrelação / método LPC ou por outros métodos, por exemplo, usando uma transformada de Hilbert.

codifica os bloco 1004 da Fig. 10(a) parametriza, quantiza e envelopes temporais estimados antes da transmissão como informações de processamento temporal (TP) (isto é, códigos de

sinalização de envelope) que estão incluídas nas informações colaterais da Fig. 2.

Em uma configuração, um detector (não mostrado) no bloco 1004 determina se o processamento TP a qualidade de áudio, esse bloco 1004 no decodificador melhorará transmitindo informações colaterais TP somente durante aqueles intervalos em que a qualidade de áudio será melhorada pelo processamento TP.

A Fig. 11 ilustra uma aplicação exemplar no domínio de tempo do processamento TP no contexto do sintetizador BCC 400 da

Fig. 4. Nessa configuração, existe um único sinal de soma transmitido s(n), C sinais base são gerados pela replicação daquele sinal de soma e a conformação de envelope é aplicada individualmente a diferentes canais sintetizados. Em configurações alternativas, a ordem dos retardos, o escalonamento e demais processamentos podem ser diferentes. Além disso, em configurações alternativas, a conformação de envelope não se restringe ao processamento de cada canal independentemente. Isto é especialmente verdadeiro para implementações de convolução/baseadas em filtragem que exploram a coerência sobre as frequências de banda para obter informações da boa

estrutura temporal do sinal.

Na Fig. 11 (a), o bloco de decodificaçao 1102 recupera os sinais de envelope temporal a para cada canal de saída das informações colaterais transmitidas TP recebidas do codificador BCC, e cada bloco TP 1104 aplica as informações de envelope 15 correspondentes para conformar o envelope do canal de saída.

A Fig. 11(b) mostra um diagrama de blocos de uma possível implementação baseada no domínio de tempo de TP 1104, onde

as amostras do sinal sintetizado são elevadas ao quadrado (1106) e então filtradas em passa-baixa (1108) para caracterizar o envelope temporal b do canal sintetizado. É gerado um fator de escala (por exemplo, sqrt (a/b)) (1110) e então aplicado (1112) ao canal sintetizado para gerar um sinal de saída com um envelope temporal substancialmente igual ao do canal de entrada original correspondente.

Em implementações alternativas de TPA 1002 da Fig.

e TP 1104 da Fig. 11, os envelopes temporais são caracterizados usando operações de magnitude ao invés de elevar ao quadrado as amostras de sinal. Nessas implementações, a razão a/b pode ser usada &

como fator de corresponder processamento

3S · ♦·♦ · ··· • * # · * · · ♦ . · « · »· ·♦ · · « * escala sem ter que aplicar a operação ·♦ • · de

Apesar da operação de escalonamento a uma implementação

TP, também pode ser

V • · ·· * a *

* ·· » * raiz quadrada.

da Fig. 11(c) baseada no domínio de tempo do implementado o processamento

TP (assim como os processamentos TPA e no domínio de freqüência, como na configuração das Figs. 16-17 (descrita abaixo). Assim, para os objetivos da presente especificação, o termo função de escalonamento deve ser interpretado para cobrir tanto as

operações no domínio de tempo como no domínio de freqüência, como as operações de filtragem das Figs. 17(b) e (c).

Em geral, cada TP 1104 é projetado preferivelmente de maneira que não modifique a potência do sinal (isto é, energia). Dependo da implementação em particular, essa potência de sinal pode ser uma potência de sinal médio de curto tempo em cada canal, por 15 exemplo, com base na potência de sinal total por canal no período definido pela janela síntese ou por alguma outra medida adequada de potência. Assim, pode ser aplicada o escalonamento da síntese ICLD (por exemplo, usando multiplicadores 408) antes ou depois da

conformação de envelope.

Como o escalonamento de banda total dos sinais de saída BCC pode provocar problemas, a conformação de envelope pode ser somente aplicada em freqüências especificadas, por exemplo, freqüências maiores do que uma determinada freqüência de corte (por exemplo, 500 Hz) . Deve ser observado que a variação de 25 freqüência para análise (TPA) pode diferir da variação de freqüência para síntese (TP).

As Figs. 12(a) e (b) mostram possíveis implementações de TPA 1002 da Fig. 10 e TP 1104 da Fig. 11, onde a

36» »·· • · · * · * ·· · r ·· ·· «

• · «

• · • ·

«·· conformação de envelope é somente aplicada em frequências maiores do que a freqüência de corte f_TP. Em particular, a Fig. 12 (a) mostra a adição do filtro passa-alta 1202, que filtra as frequências inferiores a antes da caracterização do envelope temporal. A Fig.

12(b) mostra a adição do banco de filtros de duas bandas 1204 tendo uma freqüência de corte de f_TP entre as duas sub-bandas, onde somente a parte de alta freqüência é temporalmente conformada. Então, o banco de filtro inverso de duas bandas 1206 recombina a parte de baixa

freqüência com a parte de alta freqüência temporalmente conformada para gerar o canal de saída.

A Fig. 13 mostra um diagrama de blocos do processamento no domínio da freqüência que é adicionado a um codificador BCC, como o codificador 202 da Fig. 2, de acordo com uma configuração alternativa da presente invenção. Como mostrado na Fig.

13(a), o processamento de cada TPA 1302 é aplicado individualmente em uma diferente sub-banda, onde cada banco de filtro (FB) é o mesmo que um correspondente FB 302 da Fig. 3 e o bloco 1304 é uma implementação

de sub-banda análoga ao bloco 1004 da Fig. 10. Em implementações alternativas, as sub-bandas para o processamento TPA podem diferir das sub-bandas BCC. Como mostrado na Fig. 13(b), o TPA 1302 pode ser implementado análogo ao TPA 1002 da Fig. 10.

A Fig. 14 ilustra uma aplicação exemplar do domínio de freqüência do processamento TP no contexto do sintetizador BCC 400 da Fig. 4. O bloco de decodif icação 1402 é análogo ao bloco de decodificação 1102 da Fig. 11, e cada TP 1404 é uma implementação de sub-banda análoga a cada TP 1104 da Fig. 11, como mostrado na Fig.

14(b) .

A Fig. 15 mostra um diagrama de blocos de

processamento no domínio da freqüência que é adicionado ao codificador BCC, como o codificador 202 da Fig. 2, de acordo com outra configuração alternativa da presente invenção. Esse esquema tem a seguinte montagem: As informações de envelope de cada canal de entrada são obtidas pelo cálculo de LPC através da freqüência ¢1502), parametrizada (1504), quantizada (1506) e codificada no fluxo de bits (1508) pelo codificador. A Fig. 17(a) ilustra um exemplo de implementação de TPA 1502 da Fig. 15. As informações colaterais a serem transmitidas ao sintetizador multicanais (decodificador) poderia ser os coeficientes de filtro LPC computados por um método de autocorrelação, pelos coeficientes de reflexão resultantes ou pares espectrais de linha, etc., ou, de maneira a manter pequena a taxa de informações colaterais, os parâmetros obtidos do, por exemplo, ganho de previsão LPC como marcadores binários transientes presentes/não presentes.

A Fig. 16 ilustra outra aplicação exemplar de domínio de freqüência do processamento TP no contexto do sintetizador

BCC 400 da Fig. 4. O processamento de codificação da Fig. 15 e o

processamento de decodificação da Fig. 16 podem ser implementados para formarem um par combinado de uma configuração codificador/decodificador. O bloco de decodificação 1602 é análogo ao bloco de decodificação 1402 da Fig. 14, e cada TP 1604 é análogo a cada TP 1404 da Fig. 14. Nesse sintetizador multicanais, as informações colaterais TP transmitidas são decodificadas e usadas para controlar a conformação de envelope dos canais individuais. Além disso, entretanto, o sintetizador inclui um estágio caracterizador de envelope (TPA) 1606 para a análise dos sinais de soma transmitidos, um TP inverso(ITP) 1608 para o achatamento do envelope temporal de •38··· · ··· cada sinal base, em que os ajustadores de envelope (TP) 1604 impõem um envelope modificado em cada canal de saida. Dependendo da implementação particular, o ITP pode ser aplicado tanto antes como depois do upmixing. Em detalhes, isto é feito usando a abordagem convolução/filtragem, onde a conformação de envelope é obtida pela aplicação dos filtros com base LPC no espectro através da freqüência, como ilustrado nas Figs. 17(a), (b),

ITP e TP, respectivamente. Na Fig.

16, o bloco de controle 1610 'determina se a conformação de envelope deve ou não ser implementada

e, caso positivo, se deve se basear (1) nas informações colaterais TP transmitidas ou (2) de TPA 1606.

As de operação do bloco nos dados de envelope localmente caracterizados

Figs. 18(a) e (b) ilustram dois modos exemplares de controle 1610 da Fig. 16. Na implementação da

Fig. 18(a) , um conjunto de coeficientes de filtro é transmitido ao decodificador, e a conformação de envelope por convolução/filtragem é feita com base nos coeficientes transmitidos.

Se for detectado que a conformação transiente não é benéfica para codificador, então

nenhum dado de filtro é enviado e os filtros são desabilitados . (mostrado na

Fig. 18(a) pela mudança para um conjunto de coeficientes de filtro unitário [1,0...]).

Na implementação da somente é transmitido um marcador transiente/não transiente para cada canal e esse marcador é usado para ativar ou desativar a conformação baseada nos conjuntos de coeficientes de filtro calculados a partir dos sinais downmix transmitidos no decodificador.

Outras Configurações Alternativas

Apesar de a presente invenção ter sido descrita no ·· · · ·*· • · · · ·

• ······ • · ··· * * · • · · · · · · • · · · contexto de esquemas de codificação BCC em que existe um único sinal de soma, a presente invenção também pode ser implementada no contexto de esquemas de codificação BCC tendo dois ou mais sinais de soma. Nesse caso, o envelope temporal para cada diferente sinal de soma 5 base pode ser estimado antes de aplicar a síntese BCC, e diferentes canais de saída BCC podem ser gerados baseados em diferentes envelopes temporais, dependendo de quais sinais de soma foram usados para sintetizar os diferentes canais de saída. Um canal de saída que é sintetizado a partir de dois ou mais diferentes canais de soma 10 poderia ser gerado com base em um envelope temporal eficaz que leva em consideração (por exemplo, por meio de média ponderada) os efeitos relativos dos canais de soma constituintes.

Apesar de presente invenção ter sido descrita no contexto de esquemas de codificação BCC envolvendo códigos ICTD, ICLD e ICC, a presente invenção também pode ser implementada no contexto de outros esquemas de codificação BCC envolvendo somente um ou dois desses três tipos de códigos (por exemplo, ICLD e ICC, mas não ICTD) e/ou um ou mais outros tipos de códigos. Além disso, a seqüência do processamento da síntese BCC e a conformação de envelope podem variar em diferentes implementações. Por exemplo, quando a conformação de envelope é aplicada a sinais no domínio de frequência , como nas Figs. 14 e 16, a conformação de envelope poderia de maneira alternativa ser implementada depois da síntese ICTD (naquelas configurações que empregam síntese ICTD), mas antes da síntese ICLD.

Em outras configurações, a conformação de envelope poderia ser aplicada aos sinais upmixados antes de ser aplicada qualquer outra síntese BCC.

Apesar de a presente invenção ter sido descrita no

40;· • · · · ► · · ♦ * · · • · · * • ·· contexto de codificadores BCC que geram códigos de sinalização de envelope a partir dos canais de entrada originais, em configurações alternativas, os códigos de sinalização de envelope poderíam ser gerados a partir de canais downmixados correspondentes entrada originais. Isto permitiría a implementação de um processador (por exemplo, um codificador de sinalização [cue coder] envelope em separado) que pudesse (1) aceitar a saída de um codificador BCC que gerasse os canais downmixados e determinados códigos BCC (por exemplo, ICLD, ICTD e/ou ICC) temporal (is) de um ou mais dos canais downmixados para adicionar códigos de sinalização de envelope às contexto de sinalização áudio (isto

Apesar de a presente esquemas de codificação invenção ter sido descrita

BCC em que os códigos no de de envelope são transmitidos com um ou mais canais de é, os E canais transmitidos) com outros códigos BCC, em configurações alternativas, os códigos de sinalização de envelope poderíam ser transmitidos, tanto individualmente como com outros códigos BCC, para um local (por exemplo, um decodificador ou um dispositivo de armazenagem) que já tenha os canais transmitidos e possivelmente outros códigos

BCC.

Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, a presente invenção também pode ser implementada no contexto de outros sistemas de processamento de áudio em que os sinais de áudio sejam decorrelacionados ou outros processamentos de áudio que precisem de sinais decorrelatos.

Apesar de a presente invenção ter sido descrita no contexto de implementações em que o codificador recebe sinais de áudio de entrada no domínio de tempo e gera sinais de áudio • · •V • · · · • · · • · ·* • · · • · · · • ·· • ♦ ·· ·«· ·« • ·· • « transmitidos no domínio de tempo e o decodificador recebe os sinais de áudio transmitidos no domínio de tempo e gera sinais de áudio playback no domínio de tempo, a presente invenção não é tão limitada.

Por exemplo, em outras implementações, qualquer um ou mais dos sinais de áudio de entrada.

transmitidos e de playback poderiam ser representados em um domínio de frequência.

Os codificadores e/ou decodificadores BCC podem ser usados em conjunto ou incorporados a uma variedade de diferentes aplicações ou sistemas, incluindo sistemas para televisão ou

distribuição de música eletrônica, movie theaters, difusão, streamíng e/ou recepção.

Incluem sistemas para a codificação/decodificação de transmissões por satélite, a cabo, exemplo, compact meio de, por exemplo, meios terrestres, por pela internet, intranets ou meios físicos (por discs, discos digitais versáteis, chips semicondutores, discos rígidos, cartões de memória e similares).

Os codificadores e/ou decodificadores BCC também podem ser empregados jogos e sistemas de jogos, incluindo, por exemplo, produtos em de software interativos que possam interagir com o usuário para seu

entretenimento (jogos de ação, role play, estratégia, aventura, simulações, corridas, esportes, fliperama, j ogos de cartas e de tabuleiro) e/ou para educação que possam ser máquinas, plataformas ou meios. Além disso, decodificadores de áudio ou decodificadores publicados para várias os codificadores e/ou

BCC podem ser incorporados a gravadores/reprodutores a sistemas CD-ROM/DVD. Os codificadores e/ou

BCC também podem ser incorporados a aplicativos de software PC que incorporam decodificação digital (por exemplo, reprodutor, decodificador) e aplicativos de software incorporando propriedades de codificação digital (por exemplo, codificador,

5if •42··· • ♦ • · • ♦ ·· ······· * • * · · · * * * · · · ripper, gravador e jukebox) .

A presente invenção pode ser implementada como processos baseados em circuito, incluindo possível implementação como um único circuito integrado (como um ASIC ou um FPGA), um módulo multi-chip, cartão simples ou um pacote

Como ficaria aparente para um perito no de circuitos multicartões.

assunto, também podem ser implementadas várias funções de elementos de circuitos como etapas de processamento em um programa de software. Esse software pode ser empregado em, por exemplo, um processador de sinal digital, um micro

controlador ou um computador com funções gerais.

A presente invenção pode ser configurada sob a forma de métodos e equipamentos para a prática desses métodos. A presente invenção também pode ser configurada sob a forma de um código de programas configurado em meios tangíveis, como disquetes, CD-ROMs, discos rígidos ou qualquer outro meio de armazenagem com leitura por máquina, caracterizado pelo fato de que, quando o código de programa for carregado e processado por uma máquina, como um computador, máquina se torna um equipamento para a prática da invenção.

presente invenção também pode ser configurada sob a forma de um código de programa, por exemplo, podendo ser armazenada em meio de armazenagem, carregada algum meio ou portador e/ou rodada por uma máquina ou transmitida por de transmissão, como por fiação ou cabeamento óticas ou por radiação eletromagnética, caracterizada pelo fato de que, carregado e rodado por uma máquina, torna um equipamento para a prática quando o código do como um computador, da invenção. Quando programa é a máquina se implementado em um processador com funções gerais, os segmentos do código de programa se combinam com o processador para prover um dispositivo

• •43* *· · ··· ο - » · »» ♦ „ * · ··· ·♦ » · ·♦ * ♦ 4 * ·· exclusivo que opere de forma análoga aos circuitos específicos de lógica.

• 10

Também será compreendido que poderão ser feitas várias alterações nos detalhes, nos materiais e na disposição das peças que foram descritas e ilustradas para explicar a natureza da presente invenção pelos peritos no assunto, sem abandonar o escopo da invenção como mencionada nas reivindicações seguintes.

Apesar das etapas das reivindicações de método a seguir, se houverem, serem mencionadas em uma determinada seqüência com a rotulagem correspondente, a menos que os textos das reivindicações indicarem uma determinada seqüência para a implementação de alguma ou de todas essas etapas, essas etapas não necessariamente devem ser limitadas à implementação nessa seqüência em particular.

Claims

1. Método para a codificação de canais de áudio, compreendendo: geração de dois ou mais códigos de sinalização para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização ser um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de sinalização ainda compreendem um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferença de tempo intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e onde o envelope temporal é definido para o correspondente canal de áudio em um domínio do tempo ou individualmente para diferentes sub-bandas de sinais do correspondente canal de áudio em um domínio de sub-banda; e transmitir os dois ou mais códigos de sinalização.

2. Método de acordo com a reivindicação 1, caracterizado por compreender ainda a transmissão de E canal(is) de áudio transmitido(s) correspondendo ao um ou mais canais de áudio, onde E>1.

3. Método de acordo com a reivindicação 2, caracterizado por:

um ou mais canais de áudio compreende (m) C canais de áudio de entrada, onde OE; e

Petição 870190056730, de 19/06/2019, pág. 8/19

2/12 os C canais de entrada são downmixados para gerar o(s) E canal(is) transmitido(s).

4. Método de acordo com a reivindicação 1, caracterizado pelos dois ou mais códigos de sinalização serem transmitidos para permitir que o decodificador realize a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) baseado nos dois ou mais códigos de sinalização, onde o(s) E canal(is) de áudio transmitido(s) corresponde(m) ao um ou mais canais de áudio, onde E>1.

5. Método de acordo com a reivindicação 4, caracterizado pela conformação de envelope ajustar um envelope temporal de um sinal sintetizado gerado pelo decodificador para combinar o envelope temporal definido.

6. Método de acordo com a reivindicação 1, caracterizado pelo envelope temporal ser definido somente para frequências especificadas do canal de áudio correspondente.

7. Método de acordo com a reivindicação 1, caracterizado pelo envelope temporal ser definido somente para frequências do canal de áudio correspondente acima de uma determinada frequência de corte.

8. Método de acordo com a reivindicação 1, caracterizado pelo domínio de sub-bandas corresponder a um banco de filtros espelhados em quadratura (QMF).

9. Método de acordo com a reivindicação 1, caracterizado por compreender ainda a determinação de habilitar ou desabilitar a caracterização.

10. Método de acordo com a reivindicação 9,

Petição 870190056730, de 19/06/2019, pág. 9/19

3/12 caracterizado por compreender ainda a geração e a transmissão de um marcador de habilitar/desabilitar com base na determinação para instruir o decodificador se implementar ou não a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) correspondente(s) ao um ou mais canais de áudio, onde E>1.

11. Método de acordo com a reivindicação 9, caracterizado pela determinação se basear na análise de um canal de entrada para detectar transientes no canal de áudio, de maneira que a caracterização seja habilitada se a ocorrência de um transiente for detectada.

12. Método de acordo com a reivindicação 1, caracterizado pela etapa de geração do código de sinalização de envelope incluir a quadratura (1006) ou a formação de uma filtragem de magnitude e passa-baixa (1008) de amostras de sinais do canal de áudio ou de sinais de sub-bandas do canal de áudio, de maneira a definir o envelope temporal.

13. Método de acordo com a reivindicação 1 ou 12, caracterizado pelo fato de que a etapa de geração compreende ainda a etapa de parametrização, quantização e codificação de um envelope temporal estimado.

14. Equipamento para a codificação de canais de áudio, o equipamento compreendendo: meios para a geração de dois ou mais códigos de sinalização para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de

Petição 870190056730, de 19/06/2019, pág. 10/19

4/12 sinalização compreendem ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), onde uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e onde o envelope temporal é definido para o canal de áudio correspondente em um domínio do tempo ou individualmente para diferentes sub-bandas de sinais do correspondente canal de áudio em um domínio de subbanda; e meios para a transmissão de informação sobre os dois ou mais códigos de sinalização.

15. 0 equipamento de acordo com a reivindicação 14, caracterizado pelo equipamento ser operacional para a codificação de C canais de áudio de entrada para gerar o(s) E canal(is) de áudio transmitido(s):

em que os meios para gerar compreendem analisador de envelope adaptado para definir o envelope temporal de entrada de pelo menos um dos C canais de entrada;

em que os meios para gerar compreendem ainda um estimador de códigos adaptado para gerar os códigos de sinalização para dois ou mais dos C canais de entrada; e em que o equipamento compreende ainda um downmixer adaptado para o downmix dos C canais de entrada para gerar o(s) E canal(is) transmitido(s), onde Of^l, em que os meios de transmissão estão

Petição 870190056730, de 19/06/2019, pág. 11/19

5/12 adaptados para transmitir as informações sobre os dois ou mais códigos de sinalização para permitir que um decodificador faça a síntese e a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s).

16. 0 Equipamento de acordo com a reivindicação 15, caracterizado por:

o equipamento é um sistema selecionado de um grupo que consiste de um gravador digital de vídeo, um gravador digital de áudio, um computador, um transmissor por satélite, um transmissor a cabo, um transmissor de difusão terrestre, um sistema de entretenimento doméstico e um sistema de movie theater; e o sistema compreende o analisador envelope, o estimador de códigos e o downmixer.

17. Dotado de um código de programa, caracterizado por, quando o código de programa for feito por uma máquina, a máquina implementa o método de acordo com a reivindicação 1.

18. Fluxo de bits de áudio codificados, tendo:

dois ou mais códigos de sinalização gerados para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização ser um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de sinalização compreende(m) ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo

Petição 870190056730, de 19/06/2019, pág. 12/19

6/12 associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e em que o envelope temporal é definido para o correspondente canal de áudio em um domínio do tempo ou individualmente para diferentes subbandas de sinal do correspondente canal de áudio em um domínio de sub-banda; e os dois ou mais códigos de sinalização e o(s) E canal(is) de áudio transmitido(s) correspondentes ao um ou mais canais de áudio, onde E>1, são codificados no fluxo de bits de áudio codificados.

19. 0 fluxo de bits de áudio codificados de acordo com a reivindicação 18, compreendendo ainda E canal(is) de áudio transmitido(s), caracterizado por:

o(s) E canal(is) de áudio transmitido(s) corresponde(m) ao um ou mais canais de áudio.

20. Método para a decodif icação de E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, onde Of^l, o método compreendendo:

receber códigos de sinalização correspondentes ao(s)

E canal(is) transmitido(s), caracterizado pelos códigos de sinalização compreenderem um código de sinalização de envelope correspondente a um envelope temporal definido de um canal de áudio correspondente ao(s) E canal(is) transmitido(s), em que o dois ou mais códigos de sinalização compreendem ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de

Petição 870190056730, de 19/06/2019, pág. 13/19

7/12 diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código de sinalização(s);

fazer o upmixing de um ou mais do(s) E canal(is) transmitido(s) para gerar um ou mais canais upmixed; e sintetizar um ou mais dos C canais de playback pela aplicação dos códigos de sinalização ao um ou mais canais upmixed, em que o código de sinalização de envelope é aplicado a um canal upmixed ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal definido pelo escalonamento de domínio de tempo ou por amostras de sinal no domínio de sub-banda, usando um fator de escalonamento de maneira que o envelope temporal ajustado combine com o envelope temporal definido.

21. Método de acordo com a reivindicação 20, caracterizado pelo código de sinalização de envelope corresponder a um envelope temporal definido em um canal de entrada original usado para gerar o(s) E canal(is) transmitido(s).

22. Método de acordo com a reivindicação 21, caracterizado pela síntese compreender a síntese ICC de posterior reverberação.

23. Método de acordo com a reivindicação 21, caracterizado pelo envelope temporal do sinal sintetizado ser ajustado antes da síntese ICLD.

Petição 870190056730, de 19/06/2019, pág. 14/19

8/12

24. Método de acordo com a reivindicação 20, caracterizado por:

o envelope temporal do sinal sintetizado ser definido; e o envelope temporal do sinal sintetizado ser ajustado com base tanto no envelope temporal definido correspondendo ao código de sinalização de envelope quanto no envelope temporal definido do sinal sintetizado.

25. Método de acordo com a reivindicação 24, caracterizado por:

ser gerada uma função de escalonamento com base no envelope temporal definido correspondente ao código de sinalização de envelope e o envelope temporal definido do sinal sintetizado; e a função de escalonamento ser aplicada ao sinal sintetizado.

26. Método de acordo com a reivindicação 20, compreendendo ainda o ajuste de um canal transmitido com base no envelope temporal caracterizado para gerar um canal achatado, definido pelo fato de que o upmixing e a síntese são aplicados ao canal achatado para gerar um correspondente canal de playback.

27. Método de acordo com a reivindicação 20, compreendendo ainda o ajuste de um canal upmixed baseado no envelope temporal caracterizado para gerar um canal achatado, definido pelo fato de que a síntese é aplicada ao canal achatado para gerar um correspondente canal de playback.

28. Método de acordo com a reivindicação 20,

Petição 870190056730, de 19/06/2019, pág. 15/19

9/12 caracterizado pelo o envelope temporal do sinal sintetizado ser ajustado para somente frequências especificadas.

29. Método de acordo com a reivindicação 28, caracterizado pelo envelope temporal do sinal sintetizado ser ajustado para somente frequências acima de uma frequência especificada de corte.

30. Método de acordo com a reivindicação 20, caracterizado pelos envelopes temporais serem ajustados individualmente para diferentes sub-bandas de sinais no sinal sintetizado.

31 . Método de acordo com a reivindicação 20, caracterizado por um domínio de sub- -banda corresponder a um QMF . 32 . Método de acordo com a reivindicação 20,

caracterizado pelo envelope temporal do sinal sintetizado ser ajustado em um domínio de tempo.

33. Método de acordo com a reivindicação 20, caracterizado por compreender ainda a determinação da habilitação ou a desabilitação do ajuste do envelope temporal do sinal sintetizado.

34. Método de acordo com a reivindicação 33, caracterizado pela determinação se basear em um marcador habilitar/desabilitar gerado por um codificador de áudio que gerou o(s) E canal(is) transmitido(s).

35. Método de acordo com a reivindicação 33, caracterizado pela determinação se basear na análise do(s) E canal(is) transmitido(s) para detectar transientes, como o ajuste ser habilitado se a ocorrência de um transiente for

Petição 870190056730, de 19/06/2019, pág. 16/19

10/12 detectada.

36. Método de acordo com a reivindicação 20, caracterizado por compreender ainda:

definir um envelope temporal de um canal transmitido; e determinar se usar (1) o envelope temporal definido correspondente ao código de sinalização de envelope ou (2) o envelope temporal definido do canal transmitido para ajustar o envelope temporal do sinal sintetizado.

37. Método de acordo com a reivindicação 20, caracterizado pela potência em uma janela especificada do sinal sintetizado após o ajuste do envelope temporal ser igual à potência em uma janela correspondente do sinal sintetizado antes do ajuste.

38. Método de acordo com a reivindicação 37, caracterizado pela janela especificada corresponder a uma janela síntese associada a um ou mais códigos de sinalização não-envelope.

39. Equipamento para a decodificação de E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, onde Of^l, o equipamento compreendendo:

meios para a recepção dos códigos de sinalização correspondentes ao(s) E canal(is) transmitido(s), definidos pelos códigos de sinalização compreenderem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde aos E canais transmitidos, em que o dois ou mais códigos de sinalização compreendem ainda um ou mais dos

Petição 870190056730, de 19/06/2019, pág. 17/19

11/12 códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização;

meios para o upmix de um ou mais dos E canais transmitidos para gerar um ou mais canais upmixados; e meios para a sintetização de um ou mais dos C canais de playback pela aplicação dos códigos de sinalização ao um ou mais canais upmixados, em que o código de sinalização de envelope é aplicado a um canal upmixado ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal definido pelo domínio de tempo de escalonamento ou por amostras do sinal de domínio de sub-banda usando um fator de escalonamento de maneira que o envelope temporal ajustado combine com o envelope temporal definido.

40. Equipamento de acordo com a reivindicação 39, caracterizado por:

o equipamento é um sistema selecionado do grupo que consiste de um gravador digital de video, um gravador digital de áudio, um computador, um receptor por satélite, um receptor a cabo, um receptor de difusão terrestre, um sistema de entretenimento doméstico e um sistema de movie theater; e o sistema compreende o receptor, o upmixer, o sintetizador e o ajustador envelope.

Petição 870190056730, de 19/06/2019, pág. 18/19

12/12

41. Um meio legível de computador,

caracterizado por compreender instruções armazenadas que, ao ser executado por pelo menos um processador, faz com que o dito processador seja adaptado para executar o método da

reivindicação 20.