PT1829026T - Informações auxiliares compactas para a codificação paramétrica de áudio espacial - Google Patents

Informações auxiliares compactas para a codificação paramétrica de áudio espacial Download PDF

Info

Publication number
PT1829026T
PT1829026T PT57967465T PT05796746T PT1829026T PT 1829026 T PT1829026 T PT 1829026T PT 57967465 T PT57967465 T PT 57967465T PT 05796746 T PT05796746 T PT 05796746T PT 1829026 T PT1829026 T PT 1829026T
Authority
PT
Portugal
Prior art keywords
channels
signaling
code
audio
estimated
Prior art date
Application number
PT57967465T
Other languages
English (en)
Inventor
Herre Jürgen
Faller Christof
Original Assignee
Fraunhofer Ges Forschung
Agere Systems Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung, Agere Systems Llc filed Critical Fraunhofer Ges Forschung
Publication of PT1829026T publication Critical patent/PT1829026T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

DESCRIÇÃO
INFORMAÇÕES AUXILIARES COMPACTAS PARA A CODIFICAÇÃO PARAMÉTRICA
DE ÁUDIO ESPACIAL
Antecedentes da Invenção 0 objeto em questão do presente pedido está relacionado com o objeto em questão dos seguintes pedidos norte-americanos. • Pedido Norte-Americano Número de Série 09/848,877, depositado em 4 de maio de 2001 como protocolo do agente número Faller 5; • Pedido Norte-Americano Número de Série 10/045,458, depositado em 7 de novembro de 2001 como protocolo do agente número Baumgarte 1-6-8, que reivindica para si o beneficio da data de depósito do pedido provisório norte-americano número 60/311,565, depositado em 10 de agosto de 2001; • Pedido Norte-Americano Número de Série 10/155.437, depositado em 24 de maio de 2002 como protocolo do agente número Baumgarte 2-10; • Pedido Norte-Americano Número de Série 10/246.570, depositado em 18 de setembro de 2002 como protocolo do agente número Baumgarte 3-11; • Pedido Norte-Americano Número de Série 10/815.591, depositado em 1- de abril de 2004 como protocolo do agente número Baumgarte 7-12; • Pedido Norte-Americano Número de Série 10/936.464, de- positado em 8 de setembro de 2004 como protocolo do agente número Baumgarte 8-7-15; • Pedido Norte-Americano Número de Série 10/762.100, depositado em 20 de janeiro de 2004 (Faller 13-1); • Pedido Norte-Americano Número de Série 11/006.492, depositado em 7 de dezembro de 2004 como protocolo do agente número Allamanche 1-2-17-3; e • Pedido Norte-Americano Número de Série 11/006, depositado em 7 de dezembro de 2004 como protocolo do agente número Allamanche 2-3-18-4. O objeto em questão do presente pedido também está relacionado ao objeto em questão descrito nos seguintes artigos. • F. Baumgarte and C. Faller, "Binaural Cue Coding--Part
I: Psychoacoustic fundamentals and design principles," IEEE
Trans, on Speech and Audio Proc., vol. 11, no. 6, November 2003; • C. Faller and F. Baumgarte, "Binaural Cue Coding--Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, November 2003; e • C. Faller, "Coding of spatial audio compatible with different playback formats," Preprint 117th Conv. Aud. Eng. Soc., October 2004.
Campo da Invenção A presente invenção diz respeito à codificação de sinais de áudio e a subsequente síntese de cenas de auditório dos dados de áudio codificados.
Descrição da Técnica Relacionada
Quando uma pessoa ouve um sinal de áudio (isto é, sons) gerado por uma determinada fonte de áudio, o sinal de áudio tipicamente chegará aos ouvidos direito e esquerdo da pessoa em dois tempos diferentes e com dois níveis (ex., decibéis) diferentes de áudio, sendo que esses diferentes tempos e níveis são funções das diferenças dos caminhos que percorrem os sinais de áudio até atingirem os ouvidos direito e esquerdo, respectivamente. 0 cérebro da pessoa interpreta essas diferenças em tempo e nível de maneira a dar à pessoa a percepção de que o sinal de áudio recebido está a ser gerado por uma fonte de áudio localizada numa determinada posição (ex., direção e distância) em relação à pessoa. Uma cena de auditório é o efeito líquido de uma pessoa que ouve simultaneamente sinais de áudio gerados por uma ou mais diferentes fontes de áudio localizadas numa ou mais diferentes posições em relação à pessoa. A existência deste processamento pelo cérebro pode ser usada para sintetizar cenas de auditório, em que os sinais de áudio provenientes de uma ou mais fontes de áudio diferentes são modificados de propósito para gerar sinais de áudio esquerdo e direito que dão a percepção de que diferentes fontes de áudio estão localizadas em diferentes posições relativamente ao ouvinte. A Fig. 1 mostra um diagrama de blocos de alto nível do sin-tetizador de sinal binaural convencional 100, que converte um único sinal de fonte de áudio (ex., um sinal mono) em sinais de áudio esquerdo e direito de um sinal binaural, em que um sinal binaural é definido como sendo os dois sinais recebidos pelos tímpanos de um ouvinte. Para além da fonte do sinal de áudio, o sintetizador 100 recebe um conjunto de sinalizações espaciais correspondentes à posição desejada da fonte de áudio em relação ao ouvinte. Nas implementações típicas, o conjunto de sinalizações espaciais compreende uma diferença no valor de nível inter-canais (ICLD) (que identifica a diferença no nível de áudio entre os sinais de áudio esquerdo e direito tal como recebidos pelos ouvidos esquerdo e direito, respectivamente) e uma diferença no valor de tempo intercanais (ICTD) (que identifica a diferença de tempos da chegada dos sinais de áudio esquerdo e direito tal como recebidos pelos ouvidos esquerdo e direito, respectivamen-te) . Para além disso ou como alternativa, algumas técnicas de síntese envolvem a modulação de uma função de transferência dependente de direção para o som da fonte de sinais até os tímpanos, também denominada de função de transferência relativa à cabeça (HRTF) . Ver, ex., J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.
Usando o sintetizador binaural de sinais 100 da Fig. 1, o sinal de áudio mono gerado por uma única fonte sonora pode ser processado de maneira que, quando ouvido por meio de auscultadores, a fonte sonora é localizada espacialmente pela aplicação de um conjunto adequado de sinalizações espaciais (ex., ICLD, ICTD, e/ou HRTF) para gerar o sinal de áudio para cada ouvido. Ver, ex., D. R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, Mass., 1994. O sintetizador binaural de sinais 100 da Fig. 1 gera os tipos mais simples de cenas de auditório: aquelas que têm uma única fonte de áudio posicionada em relação ao ouvinte. Cenas audi tório mais complexas que compreendem duas ou mais fontes de áudio localizadas em diferentes posições em relação ao ouvinte podem ser geradas usando um sintetizador de cena de auditório que seja essencialmente implementado usando múltiplas instâncias de sintetizador binaural de sinais, em que cada instância de sintetizador binaural de sinais gera o sinal binaural que corresponde a uma diferente fonte de áudio. Como cada diferente fonte de áudio tem uma localização diferente relativamente ao ouvinte, é usado um conjunto de diferentes sinalizações espaciais para gerar o sinal de áudio binaural para cada uma das diferentes fontes de áudio. A tese de Doutoramento "Parametric Coding of Spatial Audio" de Christof Faller apresenta cenários BCC diferentes, em que sobre os canais originais é feito um downmix num ou numa pluralidade de canais compostos, e onde é calculada informação paralela paramétrica para os canais originais, transmitida para um desco-dificador e utilizada para remistura subsequente de um ou mais canais de downmix. W02004/049309A apresenta um método para decompor um sinal de áudio, em que os parâmetros mais representativos do sinal audio são calculados numa primeira instância. Adicionalmente, valores de parâmetros secundários que representam o aspecto do sinal de áudio numa instância posterior são também calculados. Um subconjunto dos parâmetros secundários é associada a uma franja de frequências particular do sinal de áudio. Esta franja de frequências é selecionada para cobrir todas as frequências presentes no sinal áudio. WO2005/069274A1 apresenta um aparelho e um método para construir um sinal de saída multicanal ou para gerar um sinal de downmix, em que sinalizações ICC e sinalizações ICTD para ambos os lados são calculadas num codificador. Estes dois valores podem ser transmitidos de um codificador para um descodificador. Alternativamente, o codificador pode calcular um sinalizador ICC ou ICTD resultante através da entrada dos sinalizadores de ambos os lados numa função matemática tal como uma função de média etc, para derivar o valor resultante a partir das duas medidas de coerência. A data prioritária de WO 2005/069274 AI é anterior à data prioritária da presente especificação, e a data de publicação de WO 2005/069274 Al é posterior à data prioritária da presente especificação. É um objeto da presente invenção fornecer um conceito de codificação/ descodificação de canais áudio melhorado.
Este objeto é alcançado através de um método de codificação de canais áudio de acordo com a reivindicação 1, um dispositivo para codificação de canis áudio de acordo com a reivindicação 9, um suporte de leitura por máquina de acordo com a reivindicação 12, um fluxo de bits de áudio codificado de acordo com a reivindicação 13, um método para descodificar de acordoi com a reivindicação 14, um dispositivo para descodificar de acordo com a reivindicação 24, ou um suporte de leitura por máquina de acordo com a reivindicação 26.
Sumário da Invenção
De acordo com uma forma de realização, a presente invenção é um método, dispositivo, e suporte de leitura por máquina para a codificação de canais de áudio. São gerados um ou mais códigos de sinalização para dois ou mais canais de áudio, caracterizado pelo facto de que pelo menos um código de sinalização é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados, e cada código de sinalização estimado é estimado a partir de um grupo de dois ou mais canais de áudio.
De acordo com uma outra forma de realização, a presente invenção é um dispositivo para a codificação de C canais de áudio de entrada para gerar E canal(is) de áudio transmitido(s). 0 dispositivo compreende um estimador de códigos e um downmixer. 0 estimador de códigos gera um ou mais códigos de sinalização para dois ou mais canais de áudio, caracterizado pelo facto de que pelo menos um código de sinalização é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados, e cada código de sinalização é estimado a partir de um grupo de dois ou mais canais de áudio. 0 downmixer faz o downmix dos C canais de entrada para gerar o(s) E canal (is) transmitido(s), em que C>E>1, sendo o equipamento adaptado para transmitir as informações sobre os códigos de sinalização para permitir que o descodificador faça o processamento da síntese durante a descodificação do(s) E canal (is) transmitido (s) .
De acordo com uma outra forma de realização, a presente invenção é um fluxo de bits de áudio codificado gerado pela codificação de canais de áudio, caracterizado pelo facto de que um ou mais códigos de sinalização são gerados para dois ou mais ca nais de áudio, em que pelo menos um código de sinalização é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados, e cada código de sinalização estimado é estimado a partir de um grupo de dois ou mais canais de áudio. Os um ou mais códigos de sinalização e os E canal (is) de áudio transmitido(s) correspondente(s) a dois ou mais canais de áudio, em que E>1, são codificado (s) no fluxo de bits de áudio codificado.
De acordo com uma outra forma de realização, a presente invenção é um fluxo de bits de áudio codificado compreendendo um ou mais códigos de sinalização e E canal(is) de áudio transmitido (s). Os um ou mais códigos de sinalização são gerados para dois ou mais canais de áudio, caracterizado pelo facto de que pelo menos um código de sinalização é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados e cada código de sinalização estimado é estimado a partir de um grupo de dois ou mais dos canais de áudio. 0(s) E canal(is) de áudio transmitido(s) corresponde(m) aos dois ou mais canais de áudio.
De acordo com uma outra forma de realização, a presente invenção é um método, dispositivo e meio de leitura por máquina para descodificação de E canal (is) de áudio transmitido (s) para gerar C canais de áudio playback, em que C>E>1. São recebidos os códigos de sinalização correspondentes aos E canal (is) transmitido (s), caracterizado pelo facto de que pelo menos um código de sinalização é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados, e cada código de sinalização estimado a partir de um grupo de dois ou mais canais de áudio correspondentes aos E canal(is) transmitido (s) . A um ou mais dos E canal (is) transmitido (s) é feito o upmix para gerar um ou mais canais em upmix. Um ou mais dos C canais playback são sintetizados pela aplicação dos códigos de sinalização a um ou mais canais em upmix, caracterizado pelo facto de que dois ou mais códigos de sinalização derivados se derivam a partir do código de sinalização combinado, e cada código de sinalização derivado é aplicado para gerar dois ou mais canais sintetizados.
Breve Descrição dos Desenhos
Outros aspectos, caracteristicas e vantagens da presente invenção tornar-se-ão completamente evidentes a partir da seguinte descrição detalhada, das reivindicações apensas e dos desenhos de acompanhamento em que números semelhantes de referência indicam elementos similares ou idênticos. A Fig. 1 mostra um diagrama de blocos de alto nível do sin-tetizador binaural de sinais convencional; A Fig. 2 é um diagrama de blocos de um sistema de processamento de áudio de codificação de sinalização binaural (Binaural Cue Coding) (BCC) genérico; A Fig. 3 mostra um diagrama de blocos de urn downmixer que pode ser usado para o downmixer da Fig. 2; A Fig. 4 mostra um diagrama de blocos de urn sintetizador BCC que pode ser usado para o descodificador da Fig. 2; A Fig. 5 mostra um diagrama de blocos do estimador BCC da Fig. 2, de acordo com uma forma de realização da presente invenção ; A Fig. 6 ilustra a geração de dados ICTD e ICLD para o áudio de cinco canais; A Fig. 7 ilustra a geração de dados ICC para o áudio de cinco canais; A Fig. 8 mostra um diagrama de blocos de uma implementação do sintetizador BCC da Fig. 4 que pode ser usado num descodifi-cador BCC para gerar um sinal de áudio estéreo ou multicanais dado um único sinal de soma transmitido s (n) mais as sinalizações espaciais; A Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da frequência; A Fig. 10 mostra um diagrama de blocos de um sintetizador BCC que pode ser usado para o descodificador da Fig. 2 num esquema BCC 5-para-2; e A Fig. 11 mostra um fluxograma do processamento de um sistema BCC, como o mostrado na Fig. 2, relacionado com uma forma de realização da presente invenção.
Descrição Detalhada
Em binaural cue coding (BCC), um codificador codifica C canais de entrada de áudio para gerar E canais transmitidos de áudio, em que C>E>1. Em particular, dois ou mais dos C canais de entrada são fornecidos no domínio de frequência, e um ou mais códigos de sinalização são gerados para cada um ou mais das diferentes bandas de frequência nos dois ou mais canais de entrada no domínio de frequência. Além disso, aos C canais de entrada é aplicado o downmix para gerar os E canais transmitidos. Nalgumas implementações de downmix, pelo menos um dos E canais transmitidos é baseado nos dois ou mais dos C canais de entrada, e pelo menos um dos E canais transmitidos é baseado em somente um dos C canais de entrada.
Numa forma de realização, um codificador BCC tem dois ou mais bancos de filtros, um estimador de códigos e um downmixer. Os dois ou mais bancos de filtros convertem dois ou mais dos C canais de entrada de um domínio de tempo para um domínio de frequência. 0 estimador de códigos gera um ou mais códigos de sinalização para cada uma ou mais diferentes bandas de frequência nos dois ou mais canais de entrada convertidos. 0 downmixer faz o downmix dos C canais de entrada para gerar os E canais transmitidos, em que C>E>1.
Na descodificação BCC, E canais transmitidos de áudio são descodificados para gerarem C canais de áudio playback. Em particular, para cada um ou mais diferentes bandas de frequência, um ou mais dos E canais transmitidos são upmixados num domínio de frequência para gerar dois ou mais dos C canais playback no domínio de frequência, em que C>E>1. Um ou mais códigos de sinalização são aplicados a cada um ou mais diferentes bandas de frequência nos dois ou mais canais playback no domínio de frequência para gerar dois ou mais canais modificados, e os dois ou mais canais modificados são convertidos do domínio de frequência para o domínio de tempo. Em algumas implementações de upmixing, pelo menos um dos C canais playback é baseado em pelo menos um dos E canais transmitidos e pelo menos um código de sinalização, e pelo menos um dos C canais playback é baseado em somente um dos E canais transmitidos e independente de quaisquer códigos de sinalização.
Numa forma de realização, um descodificador BCC tem um upmi-xer, um sintetizador e um ou mais bancos de filtros inversos. Para cada uma ou mais diferentes bandas de frequência, o upmixer faz o upmix de um ou mais dos E canais transmitidos no domínio de frequência para gerar dois ou mais dos C canais playback no domínio de frequência, em que C>E>1. 0 sintetizador aplica um ou mais códigos de sinalização a cada uma ou mais diferentes bandas de frequência nos dois ou mais canais playback no domínio de frequência para gerar dois ou mais canais modificados. Um ou mais bancos de filtros inversos convertem os dois ou mais canais modificados do domínio de frequência num domínio de tempo.
Dependendo da implementação em particular, um dado canal playback pode ser baseado num único canal transmitido, ao invés de numa combinação de dois ou mais canais transmitidos. Por exemplo, quando existir somente um canal transmitido, cada um dos C canais playback é baseado naquele canal transmitido. Nestas situações, o upmixing corresponde a copiar o canal transmitido correspondente. Desta forma, nas aplicações em que existe somente um canal transmitido, o upmixer pode ser implementado usando um replicador que copia o canal transmitido de cada canal playback.
Os codificadores e/ou descodificadores BCC podem ser incorporados num número de sistemas ou aplicações incluindo, por exemplo, gravadores/reprodutores de vídeo digital, gravado-res/reprodutores de áudio digital, computadores, transmisso-res/receptores por satélite, transmissores/receptores a cabo, transmissores/receptores de difusão terrestre, sistemas de home entertainment e sistemas de movie theater.
Processamento BCC Genérico A Fig. 2 é um diagrama de blocos de um sistema de processamento de áudio binaural cue coding (BCC) genérico 200 que compreende um codificador 202 e um descodificador 204. O codificador 202 inclui um downmixer 206 e um estimador BCC 208. O downmixer 206 converte C canais de entrada de áudio xi(n) em E canais transmitidos de áudio y± (n) , em que C>E>1. Nessa especificação, os sinais expressos usando a variável n são sinais no domínio de tempo, enquanto os sinais expressos usando a variável k são sinais no domínio de frequência. Dependendo da implementação em particular, o downmixing pode ser implementado tanto no domínio de tempo como no domínio de frequência. O estimador BCC 208 gera códigos BCC dos C canais de entrada de áudio e transmite aqueles códigos BCC tanto como informações auxiliares em banda como fora de banda relativas aos E canais transmitidos de áudio. Os códigos típicos BCC incluem um ou mais dos dados de diferenças de tempo intercanais (ICTD), diferenças de nível in-tercanais (ICLD) e correlação intercanais (ICC) estimados entre determinados pares de canais de entrada como uma função da frequência e do tempo. A implementação em particular irá ditar entre quais pares particulares de canais de entrada que os códigos BCC são estimados.
Os dados ICC correspondem à coerência de um sinal binaural, que se relaciona com a largura percecionada da fonte de áudio. Quanto mais larga a fonte de áudio, mais baixa a coerência entre os canais esquerdo e direito do sinal binaural resultante. Por exemplo, a coerência do sinal binaural que corresponde à difusão de uma orquestra num palco de auditório é tipicamente menor do que a coerência do sinal binaural que corresponde a um único violino tocando a solo. Em geral, um sinal de áudio com menor coerência é normalmente percebido como mais difundido num espaço de auditório. Assim, os dados ICC estão relacionados tipicamente com a largura aparente da fonte e com o grau de envolvência do ouvinte. Ver, por exemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.
Dependendo da aplicação em particular, os E canais de áudio transmitidos e os correspondentes códigos BCC podem ser transmitidos diretamente ao descodificador 204 ou armazenados nalgum tipo de dispositivo de armazenamento adequado para acesso posterior pelo descodificador 204. Dependendo da situação, o termo "transmitindo" pode dizer respeito tanto à transmissão direta a um descodificador ou armazenamento para a provisão subsequente a um descodificador. Em qualquer caso, o descodificador 204 recebe os canais de áudio transmitidos e as informações auxiliares e realiza o upmixing e a síntese BCC usando os códigos BCC para converter os E canais de áudio transmitidos em mais do que os E (tipicamente, mas não necessariamente, C) canais de áudio de playback xí(n^ para playback de áudio. Dependendo da implementação em particular, o upmixing pode ser feito tanto no domínio de tempo como no domínio de frequência.
Além do processamento BCC mostrado na Fig. 2, um sistema genérico de processamento de áudio BCC pode incluir outros estágios de codificação e descodificação para comprimir mais os sinais de áudio no codificador, e depois descomprimir os sinais de áudio no descodificador, respectivamente. Esses codecs de áudio podem ser baseados em técnicas de compressão/descompressão convencionais de áudio, como as baseadas em modulação em código de pulsos (PCM), PCM diferencial (DPCM) ou DPCM de adaptação (AD-PCM) .
Quando o downmixer 206 gera um sinal de soma unitário (isto é, E=1), a codificação BCC pode representar sinais de áudio mul-ticanais numa taxa de bits somente um pouco maior do que a necessária para representar um sinal de áudio mono. Isto assim acontece porque os dados ICTD, ICLD e ICC estimados entre um par de canais contém cerca de duas ordens de magnitude menos em termos de de informação do que um formato de onda de áudio. Não só a baixa taxa de bits da codificação BCC, bem como o seu aspecto de retro-compatibilidade apresenta interesse. Um único sinal de soma transmitido corresponde a um downmix mono do sinal original estéreo ou multicanais. Para os receptores que não suportam reprodução sonora estéreo ou multicanais, ouvir o sinal de soma transmitido é um método válido de apresentação do material de áudio num equipamento de reprodução mono de baixo desempenho. Portanto, a codificação BCC pode também ser usada para ampliar os serviços existentes que envolvem a difusão de material de áudio mono por áudio multicanais. Por exemplo, os sistemas existentes de radiodifusão de áudio mono podem ser ampliados para playback estéreo ou multicanais se as informações auxiliares BCC puderem ser integradas no canal existente de transmissão. Existem capacidades análogas ao ser feito o downmix de áudio multicanais para dois sinais de soma que correspondem ao áudio estéreo. 0 BCC processa sinais de áudio com determinada resolução de tempo e frequência. A resolução de frequência usada é amplamente motivada pela resolução de frequência do sistema de audição humano. A psicoacústica sugere que a percepção espacial é baseada muito provavelmente numa representação de banda critica do sinal acústico de entrada. Essa resolução de frequência é considerada usando um banco de filtros invertivel (por exemplo, baseado na transformada rápida de Fourier (FFT) ou um filtro espelhado em quadratura (QMF)) com sub-bandas com larguras de bandas iguais ou proporcionais à largura critica de banda do sistema humano de audição.
Downmixing Genérico
Nas implementações preferidas, o(s) sinal(is) de soma transmitido (s) contêm todas as componentes de sinais do sinal de áudio de entrada. 0 objetivo é que cada componente de sinal seja totalmente mantida. A simples soma dos canais de entrada de áudio geralmente resulta na amplificação ou na atenuação das componentes do sinal. Por outras palavras, a potência das componentes de sinal numa soma "simples" é geralmente maior ou menor do que a soma da potência da componente de sinal correspondente de cada canal. Pode ser usada uma técnica de downmixing que equali- za o sinal de soma, de maneira que a potência das componentes de sinal no sinal de soma seja aproximadamente a mesma que a potência correspondente em todos os canais de entrada. A Fig. 3 mostra um diagrama de blocos de um downmixer 300 que pode ser usado para o downmixer 20 6 da Fig. 2 de acordo com certas implementações do sistema BCC 200. O downmixer 300 tem um banco de filtros (FB) 302 para cada canal de entrada xi(n), um bloco downmixing 304, um bloco opcional escalonamento/atraso 306 e um FB (IFB) inverso 308 para cada canal codificado y±(n).
Cada banco de filtros 302 converte cada frame (por exemplo, 20 msec) de um canal de entrada digital correspondente x±(n) no domínio de tempo num conjunto de coeficientes de entrada no domínio de frequência. O bloco de downmixing 304 faz o downmix de cada sub-banda de C coeficientes de entrada correspondentes numa sub-banda correspondente de E coeficientes no domínio de frequência downmixados. A equação (1) representa o downmix da k- sub-bandas de coeficientes de entrada ( x i (k) , x 2 (k) , ...x c (k) ) para gerar a k- sub-banda de coeficientes downmixados ( ^ χ (k) , ^ 2 (k) ,..., •^E(k)) como se segue:
(D onde Dce é uma matriz de downmixing de valores reais C-por-E. O bloco de escalonamento/atraso opcional 306 compreende um conjunto de multiplicadores 310, cada um dos quais multiplica um coeficiente downmixado correspondente -^i(k) por um fator de escalonamento ei(k) para gerar um coeficiente escalonado correspondente ^ (k). A motivação para a operação de escalonamento é equivalente à equalização generalizada para downmixing com fatores arbitrários de ponderação para cada canal. Se os canais de entrada forem independentes, então a potência pnW do sinal downmixado em cada sub-banda é dada pela Equação (2) como se segue:
(2) onde D CE se deriva pela quadratura de cada elemento de matriz na matriz de downmixing C-por-E Dce e px-W é a potência da sub-banda k do canal de entrada i.
Se as sub-bandas não forem independentes, então os valores de potência pkW do sinal downmixado serão maiores ou menores do que os computados usando a Equação (2), devido às amplificações ou cancelamentos de sinais quando as componentes do sinal estiverem em fase ou fora de fase, respectivamente. Para evitar isto, a operação de downmixing da Equação (1) é aplicada a sub-bandas seguidas pela operação de escalonamento dos multiplicadores 310. Os fatores de escalonamento ei(k) (l<i^E) podem ser obtidos usando a Equação (3) como se segue:
(3) onde é a potência de sub-banda computada pela Equação (2) , e pkW é a potência do sinal de sub-banda downmixado correspondente (k) .
Para além ou ao invés de fornecer escalonamento opcional, o bloco de escalonamento/atraso 306 pode aplicar opcionalmente atrasos aos sinais.
Cada banco de filtros inverso 308 converte um conjunto de coeficientes escalados correspondentes (k) do domínio de frequência para um frame de um canal transmitido digital correspondente y±(n) .
Apesar de a Fig. 3 mostrar todos os C canais de entrada a serem convertidos para o domínio de frequência para subsequente downmixing, em implementações alternativas, um ou mais (mas não menos do que C-l) dos C canais de entrada podem desviar alguns ou todos os processamentos mostrados na Fig. 3 e ser transmitidos como um número equivalente de canais de áudio não modificados. Dependendo da implementação em particular, esses canais de áudio não modificados podem ou não ser usados pelo estimador BCC 208 da Fig. 2 na geração dos códigos BCC transmitidos.
Numa implementação do downmixer 300 que gera um sinal de soma simples y(n), E=1 e os sinais
de cada sub-banda de cada canal de entrada c são adicionados e então multiplicados por um fator e(k), de acordo com a Equação (4) como se segue:
(4) o fator e(k) é dado pela Equação (5) como se segue:
(5)
~ JC onde p*c (k) é uma breve estimativa da potência de e(k) no índice de tempo k, e p*(k) é uma breve estimativa da potência de
As sub-bandas equalizadas são transformadas novamente para o domínio de tempo resultando no sinal de soma y(n) que é transmitido ao descodificador BCC. Síntese BCC Genérica A Fig. 4 mostra um diagrama de blocos de um sintetizador BCC 400 que pode ser usado para o descodif icador 204 da Fig. 2 de acordo com certas implementações do sistema BCC 200. O sintetizador BCC 400 tem um banco de filtros 402 para cada canal transmitido yi(n), um bloco de upmixing 404, de atrasos 406, de multiplicadores 408, de blocos de correlação 410, e um banco de filtros inverso 412 para cada canal playback *i(n).
Cada banco de filtros 402 converte cada frame de um canal digital transmitido correspondente yi (n) do domínio de tempo num conjunto de coeficientes de entrada (k) no domínio de frequência. O bloco de upmixing 404 faz o upmix de cada sub-banda dos E coeficientes de canal transmitidos correspondentes numa sub-banda correspondente de C coeficientes upmixados no domínio de frequência. A equação (4) representa o upmixing da k~ sub-banda de coeficientes de canais transmitidos
para gerar a k~ sub-banda de coeficientes upmixados
como se segue:
(6) onde Uec é uma matriz de upmixing de valores reais L-por-C. A realização do upmixing no domínio de frequência permite que o upmixing seja aplicado individualmente em cada diferente sub-banda .
Cada atraso 406 aplica um valor de atraso di(k) com base no código BCC correspondente para dados ICTD para garantir que os valores ICTD desejados apareçam entre certos pares de canais playback. Cada multiplicador 408 aplica um fator de escalonamento ai(k) com base no código BCC correspondente para dados ICLD para garantir que os valores ICLD desejados apareçam entre certos pares de canais playback. O bloco de correlação 410 realiza uma operação de decorrelação A com base nos correspodentes códigos BCC para dados ICC para garantir que os valores ICC desejados apareçam entre certos pares de canais playback. Outras descrições das operações de bloco de correlação 410 podem ser encontradas no Pedido de Patente Norte-Americana N- 10/155.437, depositado em 24 de maio de 2002 como Baumgarte 2-10. A síntese dos valores ICLD pode ser menos problemática do que a síntese dos valores ICTD e ICC, já que a síntese ICLD envolve somente o escalonamento de sinais de sub-banda. Como as sinalizações ICLD são as sinalizações direcionais mais comummente usadas, é normalmente mais importante que os valores ICLD se aproximem daqueles do sinal de áudio original. Desta forma, os dados ICLD podem ser estimados entre todos os pares de canais. Os fatores de escalonamento ai(k) (l<i^C) para cada sub-banda são escolhidos de preferência de maneira que a potência de sub-banda de cada canal playback se aproxime da potência correspondente do canal de entrada de áudio original.
Um objetivo pode ser aplicar relativamente poucas modificações de sinal para a sintetização dos valores ICTD e ICC. Assim, os dados BCC podem não incluir valores ICTD e ICC para todos os pares de canais. Nesse caso, o sintetizador BCC 400 sintetizaria os valores ICTD e ICC somente entre determinados pares de canais .
Cada banco de filtro inverso 412 converte um conjunto de co- eficientes sintetizados correspondentes '(k) do domínio de frequência para um frame de um correspondente canal digital de playback ’ (n).
Apesar de a Fig. 4 mostrar todos os E canais transmitidos a serem convertidos para o domínio de frequência para subsequente upmixing e processamento BCC, nas implementações alternativas, um ou mais (mas não todos) dos E canais transmitidos pode (m) contornar alguns ou todos os processamentos mostrados na Fig. 4. Por exemplo, um ou mais dos canais transmitidos podem ser canais não modificados que não estejam submetidos a qualquer upmixing. Além de serem um ou mais dos C canais playback, esses canais não modificados, por sua vez podem, mas não precisam ser usados como canais de referência para os quais o processamento BCC é aplicado para sintetizar um ou mais de outros canais playback. Em qualquer caso, esses canais não modificados podem estar sujeitos a atrasos para compensar o tempo de processamento envolvido no upmixing e/ou no processamento BCC usado para gerar o restante dos canais playback.
Notar que, apesar de a Fig. 4 mostrar C canais playback a serem sintetizados a partir de E canais transmitidos, em que C é também o número de canais de entrada originais, a síntese BCC não se limita a esse número de canais playback. Em geral, o número de canais playback pode ser qualquer número de canais, incluindo números maiores ou menores que C e possivelmente mesmo situações em que o número de canais playback é igual ou menor que o número de canais transmitidos. "Diferenças Perceptualmente Relevantes" Entre Canais de Áudio
Supondo um sinal de soma único, BCC sintetiza um sinal de áudio estéreo ou multicanais de maneira que ICTD, ICLD e ICC se aproximam das sinalizações correspondentes do sinal de áudio original. No que se segue, será discutido o papel de ICTD, ICLD e ICC relativamente aos atributos de imagem espacial de auditório . 0 conhecimento sobre audição espacial implica que, para um evento auditório, ICTD e ICLD estão relacionados com a direção perceptual. Ao considerarem-se as respostas de impulsos binau-rais do ambiente (BRIRs) de uma fonte, existe uma relação entre a largura do evento auditório e o envolvimento do ouvinte e os dados ICC estimados para as partes anteriores e posteriores das BRIRs. Entretanto, a relação entre ICC e essas propriedades de sinais gerais (e não somente as BRIRs) não é direta.
Sinais de áudio estéreo e multicanais normalmente contêm uma mistura complexa de sinais fonte concorrentemente ativos superpostos pelas componentes do sinal refletido, resultando da gravação em espaços fechados ou adicionados pelo engenheiro de gravação para a criação artificial de uma impressão espacial. Diferentes sinais fonte e as suas reflexões ocupam diferentes regiões no plano tempo-freguência. Isto é refletido pelas ICTD, ICLD e ICC, gue variam como uma função do tempo e da freguência. Nesse caso, a relação entre as ICTD, ICLD e ICC instantâneas e as direções do evento auditório e a impressão espacial não é óbvia. A estratégia de determinadas configurações de BCC é sintetizar cegamente essas sinalizações, de maneira gue se aproximem das sinalizações correspondentes do sinal de áudio original. São usados bancos de filtros com sub-bandas de larguras de bandas iguais a duas vezes a largura de banda retangular equivalente (ERB) . A audição informal revela que a qualidade de áudio da BCC não melhora de maneira notável ao ser escolhida uma maior resolução de frequência. Pode ser desejada uma menor resolução de frequência, já que isso resulta em menos valores ICTD, ICLD e ICC que devem ser transmitidos ao descodificador e assim em menor taxa de bits.
Em relação à resolução de tempo, ICTD, ICLD e ICC são consideradas tipicamente em intervalos regulares de tempo. É obtido alto desempenho quando ICTD, ICLD e ICC são considerados aproxi-madamente a cada 4 a 16 ms. Notar que, a menos que as sinalizações sejam consideradas em intervalos de tempo muito pequenos, o efeito de precedência não é considerado diretamente. Supondo um par lead-lag clássico de estímulos sonoros, se o lead e o lag caírem num intervalo de tempo em que seja sintetizado somente um conjunto de sinalizações, então a dominância de localização do lead não será considerada. Apesar disso, BCC obtém qualidade de áudio refletida numa classificação MUSHRA média de cerca de 87 (isto é, qualidade "excelente" de áudio) em média e até perto de 100 para determinados sinais de áudio. A diferença perceptualmente pequena geralmente obtida entre o sinal de referência e o sinal sintetizado implica que as sinalizações relacionadas a uma ampla faixa de atributos de imagem espacial de auditório são consideradas implicitamente pela sintetização de ICTD, ICLD e ICC em intervalos regulares de tempo. No que se segue, serão feitas algumas considerações sobre como ICTD, ICLD e ICC se podem relacionar com uma faixa de atributos de imagem espacial de auditório.
Estimativa de Sinalizações Espaciais
No que se segue, é descrito como são estimadas ICTD, ICLD e ICC. A taxa de bits para a transmissão destas (quantizadas e codificadas) sinalizações espaciais pode ser somente de alguns kb/s e portanto, com BCC, é possível transmitir sinais de áudio estéreo e multicanais em taxas de bits próximas às necessárias para um único canal de áudio.
A Fig. 5 mostra um diagrama de blocos de um estimador BCC 208 da Fig. 2, de acordo com uma forma de realização da presente invenção. 0 estimador BCC 208 compreende bancos de filtros (FB) 502, que podem ser os mesmos bancos de filtros 302 da Fig. 3, e o bloco de estimativa 504, que gera sinalizações espaciais ICTD, ICLD e ICC para cada sub-banda de frequência diferente gerada pelos bancos de filtros 502.
Estimativa de ICTD, ICLD e ICC para Sinais Estéreo As seguintes medidas são usadas para ICTD, ICLD e ICC para os correspondentes sinais de sub-banda Xl (k) e (k) de dois canais de áudio (por exemplo, estéreo): • ICTD [amostras]:
(7) com uma breve estimativa da função normalizada de correlação cruzada dada pela Equação (8) como se segue:
(8) onde
(9)
é uma breve estimativa da média de
o ICLD [dB]:
(10) o ICC:
(11)
Notar que é considerado o valor absoluto da correlação cruzada normalizada e que Ci2(k) tem uma faixa de [0,1] .
Estimativa de ICTD, ICLD e ICC para Sinais de Áudio Multica- nais
Quando existirem mais do que dois canais de entrada, é normalmente suficiente definir ICTD e ICLD entre um canal de referência (por exemplo, canal número 1) e os restantes canais, como ilustrado na Fig. 6 para o caso de C=5 canais, em que iic(k) e ALic(k) denotam ICTD e ICLD, respectivamente, entre o canal de referência 1 e o canal c.
De forma oposta à ICTD e ICLD, ICC normalmente tem mais graus de liberdade. Os ICC como definidos, podem ter valores diferentes entre todos os possíveis pares de canais de entrada. Para C canais, existem C(C-l)/2 possíveis pares de canais; por exemplo, para 5 canais, existem 10 pares de canais como ilustrado na Fig. 7 (a) . Entretanto, tal esquema exige que, para cada sub-banda em cada índice de tempo, os valores ICC C(C-l)/2 sejam estimados e transmitidos, resultando numa alta complexidade de computação e numa alta taxa de bits.
De maneira alternativa, para cada sub-banda, ICTD e ICLD determinam a direção na qual o evento auditório da componente de sinal correspondente é reproduzido na sub-banda. Um único parâmetro ICC por sub-banda pode então ser usado para descrever a coerência geral entre todos os canais de áudio. Podem ser obtidos bons resultados pela estimativa e transmissão de sinaliza ções ICC somente entre os dois canais com maior energia para cada sub-banda em cada indice de tempo. Isto está ilustrado na Fig. 7(b), em que para os instantes de tempo k-1 e k os pares de canais (3, 4) e (1, 2) são os mais fortes, respectivamente. Pode ser usada uma regra heurística para determinar ICC entre os restantes pares de canais. Síntese de Sinalizações Espaciais A Fig. 8 mostra um diagrama de blocos de uma implementação do sintetizador BCC 400 da Fig. 4 que pode ser usado num desco-dificador BCC para gerar um sinal de áudio estéreo ou multica-nais dado um único sinal de soma transmitido s (n) acrescido das sinalizações espaciais. O sinal de soma s(n) é decomposto em sub-bandas, em que s (k) denota uma dessas sub-bandas. Para a geração das correspondentes sub-bandas de cada um dos canais de saída, são aplicados atrasos dc, fatores de escala ac, e filtros hc à sub-banda correspondente do sinal de soma. (Para a simplicidade de notação, o índice de tempo k é ignorado nos atrasos, nos fatores de escala e nos filtros.) As ICTD são sintetizadas por atrasos impostos, as ICLD por escalonamento e ICC pela aplicação de filtros de decorrelação. O processamento mostrado na Fig. 8 é aplicado de forma independente a cada sub-banda.
Síntese ICTD
Os atrasos dc são determinados a partir das ICTDs Tic(k), de acordo com a Equação (12) como se segue:
:i2) 0 atraso para o canal de referência, di, é computado de maneira que a magnitude máxima dos atrasos dc seja minimizada. Quanto menos os sinais de sub-banda forem modificados, menor é o perigo de ocorrência de problemas. Se a taxa de amostragem de sub-banda não proporcionar resolução temporal suficiente para síntese ICTD, os atrasos poderão ser impostos com maior precisão usando os filtros passa-tudo adequados.
Síntese ICLD
De forma a que os sinais de sub-banda de saída tenham os desejados ICLDs, o
entre o canal c e o canal de referência 1 e os fatores de ganho ac devem satisfazer a Equação (13) que se segue:
(13)
Para além disso, as sub-bandas de saída são preferivelmente normalizadas de maneira que a soma da potência de todos os canais de saída seja igual à potência do sinal de soma de entrada. Como a potência do sinal original total de cada sub-banda é preservada no sinal de soma, essa normalização resulta na potência de sub-banda absoluta de cada canal de saída aproximando-se da potência correspondente do sinal de áudio de entrada do codificador original. Dadas estas limitações, os fatores de escala ac são dados pela Equação (14) como se segue:
(14)
Síntese ICC
Em certas configurações, o objetivo da síntese ICC é reduzir a correlação entre as sub-bandas após os atrasos e tendo sido aplicado o escalonamento, sem afetar ICTD e ICLD. Isto pode ser conseguido projetando os filtros hc na Fig. 8 de maneira que ICTD e ICLD variem efetivamente como uma função da frequência, de maneira que a variação média seja zero em cada sub-banda (banda crítica de auditório). A Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da frequência. A amplitude da variação de ICTD e ICLD determina o grau de decorrelação e é controlada como uma função de ICC. Notar que ICTD varia suavemente (como na Fig. 9(a)), enquanto ICLD varia aleatoriamente (como na Fig. 9(b)). Pode-se variar ICLD tão suavemente quanto ICTD, mas isto resultaria numa maior coloração dos sinais de áudio resultantes.
Outro método para sintetizar ICC, particularmente adequado para a síntese ICC multicanais, é descrita com maiores detalhes em C. Faller, "Parametric multi-channel audio coding: Synthesis of coherence cues," IEEE Trans, on Speech and Audio Proc., 2003. Como uma função do tempo e da frequência, quantidades específicas de reverberação tardia artificial são adicionadas a cada um dos canais de saída para a obtenção do ICC desejado. Além disso, pode ser aplicada uma modificação espectral, de maneira que o envelope espectral do sinal resultante se aproxime do envelope espectral do sinal de áudio original.
Outras técnicas relacionadas e não relacionadas com de síntese ICC de sinais estéreo (ou pares de canais de áudio) foram apresentadas em E. Schuijers, W. Oomen, B. den Brinker, and J. Breebaart, "Advances in parametric coding for high-quality audio, " in Preprint 114th Conv. Aud. Eng. Soc., March 2003, and J. Engdegard, H. Purnhagen, J. Roden, and L. Liljeryd, "Synthetic ambience in parametric stereo coding," in Preprint 117th Conv. Aud. Eng. Soc., May 2004.
BCC C-para-E
Como descrito anteriormente, o BCC pode ser implementado com mais do que urn canal de transmissão. Foi descrita uma variação de BCC que representa C canais de áudio não como um único canal (transmitido), mas como canais E, indicados como BCC C-para-E. Existem (pelo menos) duas motivações para BCC C-para-E: • BCC com um canal de transmissão fornece um caminho retro-compatível para a atualização dos sistemas mono existentes para playback de áudio estéreo ou multicanais. Os sistemas atualizados transmitem o sinal soma downmixado BCC pela infra-estrutura mono existente, enquanto também transmite as informações auxiliares BCC. BCC C-para-E se aplica à codificação retro-compatível dos canais E de áudio do canal C. • BCC C-para-E introduz escalabilidade em termos de diferentes graus de redução do número de canais transmitidos. Espera-se que quanto mais canais de áudio sejam transmitidos, melhor será a qualidade de áudio. Os detalhes do processamento de sinal para BCC C-para-E, de maneira a definir as sinalizações ICTD, ICLD e ICC estão descritos no pedido norte-americano número de série 10/762.100, depositado em 20 de janeiro de 2004 (Faller 13-1) .
Informações Auxiliares Compactas
Como acima descrito, num esquema BCC tipico, o codificador transmite ao descodificador códigos ICTD, ICLD e/ou ICC estimados entre diferentes pares ou grupos de canais de áudio. Estas informações auxiliares são transmitidas conjuntamente com o(s) sinal(is) (ex., mono ou estéreo) downmix de maneira a obter um sinal de áudio multicanais após a descodificação BCC. Assim, é desejável minimizar a quantidade de informação auxiliar conquanto não se degrade a qualidade subjetiva do som descodificado.
Dado que os valores ICLD e ICTD se relacionam tipicamente com um canal de referência, os valores ICLD e ICTD C-l são suficientes para descrever as caracteristicas dos C canais codificados. Por outro lado, os ICCs são definidos entre pares arbitrários de canais. Assim, para C canais codificados, existem C (C-l)/2 possíveis pares ICC. Para 5 canais codificados, isto corresponde a 10 pares ICC. Na prática, para limitar a quantidade de informações ICC transmitidas, somente as informações ICC para determinados pares são transmitidas. A Fig. 10 mostra um diagrama de blocos de um sintetizador BCC 1000 que pode ser usado para o descodificador 204 da Fig. 2 num esquema BCC 5-para-2. Como mostrado na Fig. 10, o sintetizador BCC 1000 recebe dois sinais de entrada yi (n) e y2 (n) e informações auxiliares BCC (não mostradas) gerando cinco sinais sintetizados de saída Xl (n) ,..., *5 (n) , em que o primeiro, o segundo, o terceiro, o quarto e o quinto sinais de saída correspondem aos sinais surround esquerdo, direito, central, esquerdo traseiro e direito traseiro, respectivamente, mostrados nas Figs. 6 e 7.
Os parâmetros de atraso, escalonamento e decorrelação derivados das informações auxiliares transmitidas ICTD, ICLD e ICC são aplicados aos elementos 1004, 1006 e 1008, respectivamente, para sintetizar os cinco sinais de saida '(n) dos cinco sinais " upmixados " 1 (k) gerados pelo elemento de upmixing 1002. Como mostrado na Fig. 10, a decorrelação somente é feita entre os canais esquerdo e traseiro esquerdo (isto é, canais 1 e 4) e entre os canais direito e traseiro direito (isto é, canais 2 e 5). Assim, não mais do que dois conjuntos de dados ICC devem ser transmitidos ao sintetizador BCC 1000, no qual estes dois conjuntos caracterizam os valores ICC entre os dois pares de canais de cada sub-banda. Apesar de esta já ser uma redução considerável da quantidade de informação auxiliar ICC, ainda mais redução é desejável.
De acordo com uma forma de realização da presente invenção, no contexto do esquema BCC 5-para-2 da Fig. 10, para cada sub-banda, o codificador BCC correspondente combina o valor ICC estimado para o par de canais "esquerdo/traseiro esquerdo" com o valor ICC estimado para o par de canais "direito/traseiro direito" para gerar um único valor ICC combinado que efetivamente indica uma quantidade global de decorrelação frontal/traseira e que é transmitida para o descodificador BCC como informações auxiliares ICC. Experimentação informal indicou que esta simplificação não resulta virtualmente em nenhuma perda na qualidade do áudio, reduzindo as informações ICC transmitidas por um fator de dois.
Em geral, as configurações da presente invenção são direcionadas para esquemas BCC, em que dois ou mais ICCs diferentes estimados entre diferentes pares de canais, ou grupos de canais, são combinados para transmissão, como indicado pela Equação (15) seguinte:
(15) onde f é uma função que combina N ICCs diferentes.
Para obter uma medida ICC combinada que seja representativa da imagem espacial, pode ser vantajoso usar uma média ponderada para a função f que considere a importância dos canais individuais, na qual a importância do canal pode ser baseada nas potências dos canais, como representado pela Equação (16) a seguir:
(16) em que p± é a potência do par de canais correspondente na sub-banda. Neste caso, os ICCs estimados a partir dos pares de canais mais potentes são ponderados mais do que estimados por ICCs a partir dos pares de canais mais fracos. A potência combinada pi de um par de canais pode ser computada como a soma das potências dos canais individuais em cada sub-banda.
No descodificador, os ICCtransmitted, ICCs dados podem ser derivados para cada par de canais. Numa possível implementação, o descodif icador simplesmente usa ICCtransmitted como o código ICC derivado para cada par de canais. Por exemplo, no contexto do esquema BCC 5-para-2 da Fig. 110, ICCtransmitted pode ser usado diretamente para a decorrelação tanto do par de canais esquer do/traseiro esquerdo como do par de canais direito/traseiro di reito.
Numa outra possível implementação, se o descodificador estimar as potências do par de canais a partir dos sinais sintetizados, então a ponderação da Equação (16) pode ser estimada e o processo do descodificador pode usar opcionalmente estas informações e outros argumentos estatísticos perceptuais e de sinais para a geração de uma regra para a derivação de dois códigos ICC individuais e perceptualmente otimizados.
Apesar da combinação dos valores ICC ter sido descrita no contexto de um determinado esquema BCC 5-para-2, a presente invenção pode ser implementada no contexto de qualquer esquema BCC C-para-E, incluindo aqueles em que E=1. A Fig. 11 mostra um fluxograma do processamento de um sistema BCC, como o mostrado na Fig. 2, relacionado com uma forma de realização da presente invenção. A Fig. 11 mostra somente as etapas associadas com o processamento relativo ao ICC.
Em particular, um codificador BCC estima os valores ICC entre dois ou mais grupos de canais (etapa 1102), combina dois ou mais daqueles valores ICC estimados para gerar um ou mais valores ICC combinados (etapa 1104), e transmite os valores ICC combinados (possivelmente em conjunto com um ou mais valores ICC "descombinados") como informações auxiliares BCC para um desco-dificador BCC (etapa 1106). O descodificador BCC deriva dois ou mais valores ICC dos valores ICC combinados recebidos (etapa 1108) e decorrelaciona grupos de canais usando os valores ICC derivados (e possivelmente um ou mais valores ICC não combinados recebidos) (etapa 1110).
Outras Configurações Alternativas A presente invenção foi descrita no contexto do esquema BCC 5-para-2 da Fig. 10. Naquele exemplo, um codificador BCC (1) estima dois códigos ICC para dois pares de canais que consistem em quatro canais diferentes (isto é, esquerdo/traseiro esquerdo e direito/traseiro direito) e (2) calcula a média esses dois códigos ICC para gerar um código ICC combinado, que é transmitido para um descodificador BCC. O descodificador BCC (1) deriva dois códigos ICC do código ICC combinado transmitido (notar que o código ICC combinado pode ser simplesmente usado para ambos os códigos ICC derivados) e (2) aplica cada um dos dois códigos ICC derivados a um par de canais sintetizados diferente para gerar quatro canais decorrelacionados (isto é, canais sintetizados esquerdo, traseiro esquerdo, direito e traseiro direito). A presente invenção também pode ser implementada noutros contextos. Por exemplo, um codificador BCC poderia estimar dois códigos ICC a partir de três canais de entrada A, B e C, em que um código ICC estimado corresponde aos canais A e B, e o outro código ICC estimado corresponde aos canais A e C. Nesse caso, o codificador poderia ser dito como estimativo de dois códigos ICC a partir de dois pares de canais de entrada, em que os dois pares de canais de entrada compartilham um canal comum (isto é, o canal de entrada A) . O codificador poderia então gerar e transmitir um único código ICC combinado baseado nos dois códigos ICC estimados. Um descodificador BCC poderia então derivar dois códigos ICC a partir do código ICC combinado transmitido e aplicar esses dois códigos ICC derivados para sintetizar três canais de-correlacionados (isto é, canais sintetizados A, B e C) . Nesse caso, cada código ICC derivado pode ser dito como aplicado para gerar um par de canais decorrelacionados, em que os dois pares de canais decorrelacionados compartilham um canal comum (isto é, o canal sintetizado A).
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC que empregam códigos ICC combinados, a presente invenção também pode ser implementada no contexto de esquemas de codificação BCC que empregam códigos de sinalização BCC combinados gerados pela combinação de dois ou mais códigos de sinalização BCC além dos códigos ICC, como os códigos ICTD e/ou os códigos ICLD, ao invés de ou para além de empregar códigos ICC combinados.
Apesar de a presente invenção ter sido descrita no contexto dos esquemas de codificação BCC envolvendo os códigos ICTD, ICLD e ICC, a presente invenção também pode ser implementada no contexto de outros esquemas de codificação BCC envolvendo somente um ou dois desses três tipos de códigos (ex., ICLD e ICC, mas não ICTD) e/ou um ou mais tipos adicionais de códigos.
No esquema BCC 5-para-2 representado na Fig. 10, os dois canais transmitidos yi (n) e y2 (n) são tipicamente gerados pela aplicação de um determinado esquema de estágio único de downmi-xing aos cinco canais mostrados nas Figs. 6 e 7, em que o canal yi é gerado como uma soma ponderada dos canais 1, 3 e 4, e o canal y2 é gerado como uma soma ponderada dos canais 2, 3 e 5, em que, por exemplo, em cada soma ponderada, o fator ponderado do canal 3 é a metade do fator ponderado usado para cada um dos dois outros canais. Nesse esquema BCC de estágio único, os códigos de sinalização BCC estimados correspondem a diferentes pares dos cinco canais originais de entrada. Por exemplo, um conjunto de códigos ICC estimados é baseado nos canais 1 e 4 e outro conjunto de códigos ICC estimados é baseado nos canais 2 e 5.
Num esquema BCC alternativo de estágios múltiplos, os canais são downmixados sequencialmente, com os códigos de sinalização BCC correspondendo potencialmente a diferentes grupos de canais em cada estágio da sequência de downmixing. Por exemplo, para os cinco canais das Figs. 6 e 7 de um codificador BCC, os canais esquerdo e traseiro esquerdo originais podem ser downmixados para formarem um primeiro canal esquerdo downmixado com um primeiro conjunto de códigos de sinalização BCC gerados correspondendo àqueles dois canais originais. De forma similar, os canais direito e traseiro direito originais poderiam ser downmixados para formarem um primeiro canal direito downmixado com um segundo conjunto de códigos de sinalização BCC gerados correspondendo àqueles dois canais originais. Num segundo estágio de downmi-xing, o primeiro canal esquerdo downmixado poderia ser downmixado com o canal central original para formarem um segundo canal esquerdo downmixado com um terceiro conjunto de códigos de sinalização BCC gerados correspondendo ao primeiro canal esquerdo downmixado e o canal central original. De maneira similar, o primeiro canal direito downmixado poderia ser downmixado com o canal central original para formarem um segundo canal direito downmixado com um quarto conjunto de códigos de sinalização BCC gerados correspondendo ao primeiro canal direito downmixado e o canal central original. Os segundos canais esquerdo e direito downmixados poderiam então ser transmitidos com todos os quatro conjuntos de códigos de sinalização BCC como informações auxiliares. De forma análoga, um descodificador BCC correspondente poderia então aplicar sequencialmente esses quatro conjuntos de códigos de sinalização BCC em diferentes estágios de um esquema sequencial de upmixing de dois estágios para sintetizar cinco canais de saida a partir dos dois canais "estéreo" transmitidos.
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, em que códigos de sinalização ICC combinados são transmitidos com um ou mais canais de áudio (isto é, os E canais transmitidos) conjuntamente com outros códigos BCC, em configurações alternativas, poderiam ser transmitidos os códigos de sinalização ICC combinados, seja individualmente ou com outros códigos BCC, para um local (ex., um descodi-ficador ou um dispositivo de armazenamento) que já possua os canais transmitidos e possivelmente outros códigos BCC.
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, a presente invenção também pode ser implementada no contexto de outros sistemas de processamento de áudio em que os sinais de áudio são decorrelacionados ou outros processamentos de áudio que precisem decorrelacionar sinais .
Apesar de a presente invenção ter sido descrita no contexto de implementações em que o codificador recebe sinal de áudio de entrada no domínio de tempo e gera sinais de áudio transmitidos no domínio de tempo e o descodificador recebe os sinais de áudio transmitidos no domínio de tempo e gera sinais de áudio playback no domínio de tempo, a presente invenção não é tão limitada. Por exemplo, noutras implementações, qualquer um ou mais dos sinais de áudio de entrada, transmitidos e reproduzidos poderiam ser representados num domínio de frequência.
Os codificadores e/ou descodificadores BCCs podem ser usados em conjunto ou incorporados numa variedade de diferentes aplicações ou sistemas, incluindo sistemas para televisão ou de distribuição de música eletrónica, movie theaters, difusão, streaming, e/ou recepção. Estes incluem sistemas para codifi-car/descodificar transmissões por via, por exemplo, terrestre, por satélite, cabo, internet, intranets ou meios físicos (ex., compact discs, discos digitais versáteis, chips semicondutores, discos rígidos, cartões de memória e similares). Os codificadores e/ou descodificadores BCCs também podem ser empregados em jogos e sistemas de jogos, incluindo, por exemplo, produtos de software interativo para fins de diversão do usuário (ação, jogo de papéis, estratégia, aventura, simulações, corridas, desporto, arcádia, cartas e jogos de tabuleiro) e/ou para educação, que podem ser publicados para múltiplas máquinas, plataformas ou media. Para além disso, os codificadores e/ou descodificadores BCC podem ser incorporados a reprodutores/gravadores de áudio ou sistemas CD-ROM/DVD. Os codificadores e/ou descodificadores BCC também podem ser incorporados a aplicativos de software para PC que incorporam descodificação digital (ex., reprodutor, descodi-ficador) aplicativos de software que incorporam capacidade de codificação digital (ex., codificador, extrator, recodificador e jukebox). A presente invenção pode ser implementada como processos baseados em circuitos, incluindo possível implementação como circuito integrado simples (como um ASIC ou um FPGA), um módulo multi-chips, cartão simples ou um pacote de circuitos multicard. Como será aparente aos versados na arte, podem ser implementadas também várias funções de elementos de circuito, como etapas de processamento num programa de software. Esse software pode ser empregado, por exemplo, num processador de sinal digital, micro-controlador ou computador de funções gerais. A presente invenção pode ser concretizada sob a forma de métodos e equipamentos para a prática desses métodos. A presente invenção também pode ser concretizada sob a forma de código de programa configurado em media tangível, como disquetes, CD-ROMs, discos rígidos ou qualquer outro meio de armazenamento de leitura por máquina, caracterizado pelo facto de que, quando o código de programas é carregado e executado por uma máquina, como um computador, a máquina se tornar num equipamento para a utilização prática da invenção. A presente invenção também pode ser configurada sob a forma de um código de programa, por exemplo, armazenada num meio de armazenamento, carregada e/ou executada por uma máquina, ou transmitida por um meio ou portador de transmissão, como uma instalação elétrica ou cablagem, por meio de fibra ótica ou via radiação eletromagnética, em que, quando o código de programa é carregado e executado por uma máquina, como um computador, a máquina se tornar num equipamento para a utili zação prática da invenção. Quando implementada num processador de uso geral, os segmentos do código de programa combinam com o processador para disponibilizar um dispositivo exclusivo que opera de forma análoga aos circuitos de lógica específicos.
Será ainda entendido que várias alterações nos detalhes, nos materiais e disposições das peças que foram descritas e ilustradas para explicar a natureza da presente invenção podem ser feitas pelos versados na arte sem abandonar o âmbito da invenção tal como expressa nas reivindicações a seguir.
Apesar de as etapas das seguintes reivindicações de método, se as houver, serem mencionadas numa sequência particular com a correspondente identificação, a não ser que a redação da reivindicação implique de uma dada forma uma sequência particular para a implementação de alguma ou de todas essas etapas, a implementação dessas etapas não se entende necessariamente como sendo limitada àquela sequência particular.
Referências citadas na descrição: A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado que foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa quaisquer responsabilidades nesse sentido.
Documentos de Patente Citados na Descrição
US 09848877 B US 31156501 P
US 10045458 B US 10155437 B
US 10246570 B US 11006XXX A
US 10815591 B WO 2004049309 A US 10936464 B WO 2005069274 Al
US 10762100 B US 15543702 A
US 11006492 B US 76210004 A
Literatura, que não patentes, citada na descrição, F. BAUMGARTE; C. FALLER. Binaural Cue Coding- Part I: Psychoacoustic fundamentals and design
Principles. IEEE Trans. On Speech and Audio Proc., Novembro 2003, Vol 11 C. FALLER; F. BAUMGARTE. Binaural Cue Coding- Part II: Schemes and applications. IEEE Trans. On Speech and Audio Proc., Novembro 2003, Vol 11 C. FALLER. Coding of spatial audio compatible with different playback formats. Preprint 117th Conv. Aud. Eng. Soc., Outubro 2004 J. BLAUERT. The Psychoacoustics of Human Sound Localization. MIT Press, 1983 D. R. BEGAULT. 3-D Sound for Virtual Reality and Multimedia. Academic Press, 1994
Parametric multi-channel audio coding: Synthesis of coherence cues. C. FALLER. IEEE Trans on Speech and Audio Proc. 2003 E. SCHUIJERS; W. OOMEN; B. DEN BRINKER; J. BREEBAART. Advances in poarametric coding for high-quality audio. Preprint 114th Conv. Aud. Eng. Soc., Março 2003 J. ENGDEGARD; H. PURHAGEN; J. RODEN; L. LILJERYD. Synthetic ambience in parametric stereo coding. Preprint 117th Conv. Aud. Eng. Soc., Maio 2004.

Claims (26)

  1. REIVINDICAÇÕES
    1. Método para a codificação de canais de áudio, caracterizado por: gerar (1102, 1104) um ou mais códigos de sinalização para dois ou mais canais de áudio, caracterizado por: pelo menos um código de sinalização dos códigos de sinalização a serem transmitidos é um código de sinalização combinado gerado pela combinação (1104) de dois ou mais códigos de sinalização estimados utilizando a função de média ponderada, a função de média ponderada levando em consideração a importância dos canais individuais; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais dos canais de áudio; e transmitir (1106) ou armazenar o um ou mais códigos de sinalização a serem transmitidos.
  2. 2. Método, de acordo com a reivindicação 1, caracterizado por compreender ainda a transmissão de E canal(is) de áudio transmitido (s) correspondentes aos dois ou mais canais de áudio, em que E>1.
  3. 3. Método, de acordo com a reivindicação 2, caracterizado por: os dois ou mais canais de áudio compreenderem C canal(is) de entrada de áudio, em que C>E; e os C canais de entrada são downmi-xados para gerar o(s) E canal(is) transmitido(s).
  4. 4. Método, de acordo com a reivindicação 1, caracterizado por o um ou mais códigos de sinalização a serem transmitidos serem transmitidos para permitir que um descodificador realize o processamento de sintese durante a descodificação do(s) E canal(is) transmitido(s) com base no código de sinalização combinado, em que o(s) E canal (is) de áudio transmitido(s) correspondem aos dois ou mais canais de áudio, em que E>1.
  5. 5. Método, de acordo com a reivindicação 1, caracterizado por o um ou mais códigos de sinalização compreenderem um ou mais de um código de correlação intercanais (ICC) combinada, um código de diferenças de nível intercanais (ICLD) combinadas e um código de diferenças de tempo intercanais (ICTD) combinadas.
  6. 6. Método, de acordo com a reivindicação 1, caracterizado por: cada código de sinalização estimado usado para gerar o código de sinalização combinado está associado a um fator de ponderação usado na geração da média ponderada; e o fator de ponderação para cada código de sinalização estimado é baseado na potência no grupo de canais a que corresponde o código de sinalização estimado.
  7. 7. Método, de acordo com a reivindicação 1, caracterizado por o código de sinalização combinado ser um código ICC combinado.
  8. 8. Método, de acordo com a reivindicação 7, caracterizado por: os dois ou mais canais de áudio compreenderem um canal esquerdo, um canal esquerdo traseiro, um canal direito e um canal direito traseiro; um primeiro código ICC estimado ser gerado a partir dos canais traseiro e esquerdo traseiro; um segundo código ICC estimado ser gerado a partir dos canais direito e traseiro direito; e o código ICC combinado ser gerado pela combinação do primeiro e do segundo códigos ICC estimados.
  9. 9. Dispositivo (202) para a codificação de canais de áudio, o dispositivo caracterizado por: capacidade (208) para a geração de um ou mais códigos de sinalização para serem transmitidos por dois ou mais canais de áudio, caracterizada por: pelo menos um código de sinalização dos um ou mais códigos de sinalização a serem transmitidos é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados utilizando a função de média ponderada, a função de média ponderada levando em consideração a importância dos canais individuais; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais dos canais de áudio; e capacidade para a transmissão ou armazenamento do um ou mais códigos de sinalização a serem transmitidos.
  10. 10. Dispositivo, de acordo com a reivindicação 9, caracterizado por o dispositivo ser para a codificação de C canais de entrada de áudio para a geração de E canal(is) de áudio transmitido(s): caracterizado por a capacidade de gerar incluir incluir um estimado r de códigos, caracterizado por o dispositivo compreender adicionalmente um downmixer (206) 25 adaptado para fazer o downmix de C canais de entrada para a geração de E canal(is) transmitido(s), em que C>E>1, caracterizado pelo facto de que o equipamento ser adaptado para transmitir informações acerca do um ou mais códigos de sinalização a serem transmitidos, de maneira a permitir que o des-codificador faça o processamento de síntese durante a descodificação do(s) E canal (is) transmitido(s) .
  11. 11. Dispositivo, de acordo com a reivindicação 10, caracterizado por o dispositivo ser um sistema selecionado a partir de um grupo que consiste num gravador de vídeo digital, um gravador de áudio digital, um computador, um transmissor por satélite, um transmissor por cabo, um transmissor de difusão terrestre, um sistema de home entertainment e um sistema de movie theater; e o sistema compreender o estimador de códigos e o downmixer.
  12. 12. Suporte de leitura por máquina, tendo em si codificado um código de programa, caracterizado pelo facto de que, quando o código de programa é executado por uma máquina, a máquina implementa um método para a codificação de canais de áudio, o método compreendendo: a geração (1102, 1104) de um ou mais códigos de sinalização para dois ou mais canais de áudio, em que: pelo menos um código de sinalização do um ou mais códigos de sinalização a serem transmitidos é um código de sinalização combinado gerado pela combinação (1104) de dois ou mais códigos de sinalização estimados utilizando a função de média ponderada, a função de média ponderada tendo em consideração a importância de cada canal individualmente; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais dos canais de áudio; e transmitir (1106) ou armazenar o um ou mais códigos de sinalização a serem transmitidos.
  13. 13. Fluxo de bits de áudio codificado gerado pela codificação de canais de áudio, caracterizado por um ou mais códigos de sinalização a serem transmitidos serem gerados para dois ou mais canais de áudio, em que: pelo menos um código de sinalização dos um ou mais códigos de sinalização a serem transmitido é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados utilizando a função de média ponderada, a função de média ponderada tendo em consideração a importância de cada canal individualmente; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais dos canais de áudio; e em que um ou mais códigos de sinalização a serem transmitidos e E canal (is) de áudio transmitido(s) correspondendo aos dois ou mais canais de áudio, em que E>1, são codificados no fluxo de bits de áudio codificado.
  14. 14. Método para a descodificação de E canal (is) de áudio transmitido (s) para gerar C canais de áudio playback, em que C>E>1, o método compreendendo: receber os códigos de sinalização correspondentes ao(s) E canal (is) transmitido(s), caracterizado por pelo menos um código de sinalização dos códigos de sinalização recebidos ser um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais canais de áudio de entrada no codificador; upmixing de um ou mais do(s) E canal(is) transmitido(s) para gerar um ou mais canais upmixados; e sintetizar um ou mais dos C canais playback pela aplicação dos códigos de sinalização recebidos ao um ou mais canais upmixados, em que: dois ou mais códigos de sinalização derivados são derivados do código de sinalização combinado (1108); e cada código de sinalização derivado é aplicado (1110) para gerar dois ou mais canais sintetizados.
  15. 15. Método, de acordo com a reivindicação 14, caracterizado por os códigos de sinalização recebidos compreenderem um ou mais de um código ICC combinado, um código ICLD combinado e um código ICTD combinado.
  16. 16. Método, de acordo com a reivindicação 14, caracterizado por o código de sinalização combinado ser uma média de dois ou mais códigos de sinalização estimados.
  17. 17. Método, de acordo com a reivindicação 16, caracterizado por o código de sinalização combinado ser uma média ponderada de dois ou mais códigos de sinalização estimados.
  18. 18. Método, de acordo com a reivindicação 17, caracterizado por: cada código de sinalização estimado usado para gerar o código de sinalização combinado estar associado a um fator de ponderação usado na geração da média ponderada; e o fator de ponderação para cada código de sinalização estimado ser baseado na potência no grupo de canais a que corresponde o código de sinalização estimado.
  19. 19. Método, de acordo com a reivindicação 14, caracterizado por os dois ou mais códigos de sinalização derivados serem derivados por: derivação de um fator de ponderação para cada grupo de dois ou mais canais associados a um código de sinalização estimado; e derivação de dois ou mais códigos de sinalização derivados como uma função do código de sinalização combinado e de dois ou mais fatores de ponderação derivados.
  20. 20. Método, de acordo com a reivindicação 19, caracterizado por cada fator de ponderação derivado ser derivado por: estimativa de potência no grupo de canais a que correspondente a um código de sinalização estimado; e derivação do fator de ponderação baseado nas potências estimadas para diferentes grupos de canais correspondentes a diferentes códigos de sinalização estimados.
  21. 21. Método, de acordo com a reivindicação 14, caracterizado por o código de sinalização combinado ser um código ICC combinado.
  22. 22. Método, de acordo com a reivindicação 21, caracterizado por: os dois ou mais canais de áudio compreenderem um canal esguerdo, um canal traseiro esquerdo, um canal direito e um canal traseiro direito; um primeiro código ICC estimado ser gerado a partir dos canais esquerdo e traseiro esquerdo; um segundo código ICC estimado ser gerado a partir dos canais direito e traseiro direito; e o código ICC combinado ser gerado pela combinação do primeiro e do segundo códigos ICC estimados.
  23. 23. Método, de acordo com a reivindicação 22, caracterizado por: o código ICC combinado ser usado para decorrelacionar os canais sintetizados esquerdo e traseiro esquerdo; e o código ICC combinado ser usado para decorrelacionar os canais sintetizados direito e traseiro direito.
  24. 24. Dispositivo (204) para descodificar E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, em que C>E>1, o dispositi vo compreendendo : capacidade para recepção dos códigos de sinalização correspondentes aos E canal (is) transmitido(s), caracterizada por: pelo menos um código de sinalização dos códigos de sinalização recebidos ser um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais canais de áudio de entrada no codificador; capacidade para upmixing de um ou mais dos E canal (is) transmitido (s) para gerar um ou mais canais upmixados; e capacidade para sintetizar um ou mais dos C canais playback pela aplicação dos códigos de sinalização a um ou mais canais upmixados, em que: dois ou mais códigos de sinalização derivados são derivados a partir do código de sinalização combinado; e cada código de sinalização derivado é aplicado para gerar dois ou mais canais sintetizados.
  25. 25. Dispositivo, de acordo com a reivindicação 24, caracterizado por: o dispositivo ser um sistema selecionado a partir de um grupo que consiste num reprodutor de video digital, um reprodutor de áudio digital, um computador, um receptor por satélite, um receptor por cabo, um receptor de difusão terrestre, um sistema de home entertainment e um sistema de movie theater; e o sistema compreende o receptor, o upmixer, e o sintetizador.
  26. 26. Suporte para leitura por máquina, tendo em si codificado um código de programa, caracterizado por, quando o código de programas é operado por uma máquina, a máquina implementa um método para a descodificação do(s) E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, em que C>E>1, o método compreendendo: receber códigos de sinalização correspondentes ao(s) E canal(is) transmitido(s), caracterizado por: pelo menos um código de sinalização é um código de sinalização combinado gerado pela combinação de dois ou mais códigos de sinalização estimados; e cada código de sinalização estimado é estimado a partir de um grupo diferente de dois ou mais canais de áudio de entrada no codificador; upmixing de um ou mais dos E canal(is) transmitido(s) para gerar um ou mais canais upmixados; e sintetizar um ou mais dos C canais playback aplicando os códigos de sinalização recebidos a um ou mais canais upmixados, em que: dois ou mais códigos de sinalização derivados são derivados a partir do código de sinalização combinado; e cada código de sinalização derivado é aplicado para gerar dois ou mais canais sintetizados.
PT57967465T 2005-01-10 2005-09-30 Informações auxiliares compactas para a codificação paramétrica de áudio espacial PT1829026T (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/032,689 US7903824B2 (en) 2005-01-10 2005-01-10 Compact side information for parametric coding of spatial audio

Publications (1)

Publication Number Publication Date
PT1829026T true PT1829026T (pt) 2017-05-04

Family

ID=35798481

Family Applications (1)

Application Number Title Priority Date Filing Date
PT57967465T PT1829026T (pt) 2005-01-10 2005-09-30 Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Country Status (17)

Country Link
US (1) US7903824B2 (pt)
EP (1) EP1829026B1 (pt)
JP (1) JP5156386B2 (pt)
KR (1) KR100895609B1 (pt)
CN (1) CN101160618B (pt)
AU (1) AU2005324210C1 (pt)
CA (1) CA2593290C (pt)
ES (1) ES2623365T3 (pt)
IL (1) IL184340A (pt)
MX (1) MX2007008262A (pt)
MY (1) MY142581A (pt)
NO (1) NO339299B1 (pt)
PL (1) PL1829026T3 (pt)
PT (1) PT1829026T (pt)
RU (1) RU2383939C2 (pt)
TW (1) TWI289025B (pt)
WO (1) WO2006072270A1 (pt)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9008812B2 (en) 2008-06-19 2015-04-14 Sirius Xm Radio Inc. Method and apparatus for using selected content tracks from two or more program channels to automatically generate a blended mix channel for playback to a user upon selection of a corresponding preset button on a user interface
US8223975B2 (en) * 2008-06-19 2012-07-17 Xm Satellite Radio Inc. Method and apparatus for multiplexing audio program channels from one or more received broadcast streams to provide a playlist style listening experience to users
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
ATE406651T1 (de) * 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
WO2007013780A1 (en) * 2005-07-29 2007-02-01 Lg Electronics Inc. Method for signaling of splitting information
MX2008001307A (es) * 2005-07-29 2008-03-19 Lg Electronics Inc Metodo para la senalizacion de informacion de division.
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
WO2007032648A1 (en) * 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
KR101366291B1 (ko) * 2006-01-19 2014-02-21 엘지전자 주식회사 신호 디코딩 방법 및 장치
EP1974348B1 (en) * 2006-01-19 2013-07-24 LG Electronics, Inc. Method and apparatus for processing a media signal
KR20080093024A (ko) * 2006-02-07 2008-10-17 엘지전자 주식회사 부호화/복호화 장치 및 방법
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
ES2407820T3 (es) * 2006-02-23 2013-06-14 Lg Electronics Inc. Método y aparato para procesar una señal de audio
KR100773562B1 (ko) 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
JP2009532712A (ja) * 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
US7555354B2 (en) * 2006-10-20 2009-06-30 Creative Technology Ltd Method and apparatus for spatial reformatting of multi-channel audio content
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
JP5541928B2 (ja) * 2007-03-09 2014-07-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP2010538571A (ja) 2007-09-06 2010-12-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8374883B2 (en) * 2007-10-31 2013-02-12 Panasonic Corporation Encoder and decoder using inter channel prediction based on optimally determined signals
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
US9886503B2 (en) 2007-12-27 2018-02-06 Sirius Xm Radio Inc. Method and apparatus for multiplexing audio program channels from one or more received broadcast streams to provide a playlist style listening experience to users
US8831936B2 (en) 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
CN102084418B (zh) * 2008-07-01 2013-03-06 诺基亚公司 用于调整多通道音频信号的空间线索信息的设备和方法
US8639368B2 (en) * 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2146341B1 (en) 2008-07-15 2013-09-11 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN101809656B (zh) * 2008-07-29 2013-03-13 松下电器产业株式会社 音响编码装置、音响解码装置、音响编码解码装置及会议***
US8346380B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal
MX2011006248A (es) * 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
EP2439736A1 (en) * 2009-06-02 2012-04-11 Panasonic Corporation Down-mixing device, encoder, and method therefor
TWI463485B (zh) * 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
MX2012004569A (es) * 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados.
WO2011086066A1 (en) 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
KR101666465B1 (ko) 2010-07-22 2016-10-17 삼성전자주식회사 다채널 오디오 신호 부호화/복호화 장치 및 방법
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
WO2013149673A1 (en) 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for inter-channel difference estimation and spatial audio coding device
JP5977434B2 (ja) * 2012-04-05 2016-08-24 ホアウェイ・テクノロジーズ・カンパニー・リミテッド パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
US9622014B2 (en) 2012-06-19 2017-04-11 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2873073A1 (en) * 2012-07-12 2015-05-20 Dolby Laboratories Licensing Corporation Embedding data in stereo audio using saturation parameter modulation
BR112015025092B1 (pt) * 2013-04-05 2022-01-11 Dolby International Ab Sistema de processamento de áudio e método para processar um fluxo de bits de áudio
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
EP2989631A4 (en) 2013-04-26 2016-12-21 Nokia Technologies Oy AUDIO SIGNAL ENCODER
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
ES2709248T3 (es) 2014-01-03 2019-04-15 Dolby Laboratories Licensing Corp Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
EP3095117B1 (en) 2014-01-13 2018-08-22 Nokia Technologies Oy Multi-channel audio signal classifier
CN106716525B (zh) * 2014-09-25 2020-10-23 杜比实验室特许公司 下混音频信号中的声音对象***
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US611958A (en) * 1898-10-04 Jar or bottle fastener
US4236039A (en) * 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
CA1268546A (en) 1985-08-30 1990-05-01 Shigenobu Minami Stereophonic voice signal transmission system
US4812132A (en) * 1986-05-16 1989-03-14 Asea Ab Arrangement for distributing a cable assemblage betwen two mutually rotatable component parts
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943879B4 (de) 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
WO1992012607A1 (en) * 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
JP3793235B2 (ja) 1996-02-08 2006-07-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 2チャネル伝送及び1チャネル伝送に適合するnチャネル伝送
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US5825776A (en) 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US6987856B1 (en) 1996-06-19 2006-01-17 Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US5860060A (en) 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US6108584A (en) 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6021389A (en) 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000151413A (ja) 1998-11-10 2000-05-30 Matsushita Electric Ind Co Ltd オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2000152399A (ja) 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
MY123651A (en) 1999-04-07 2006-05-31 Dolby Laboratories Licensing Corp Matrix improvements to lossless encoding and decoding
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6614936B1 (en) 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
JP4842483B2 (ja) 1999-12-24 2011-12-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネルオーディオ信号処理装置及び方法
US6782366B1 (en) 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
JP2001339311A (ja) 2000-05-26 2001-12-07 Yamaha Corp オーディオ信号圧縮回路および伸長回路
US6850496B1 (en) 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US6885992B2 (en) 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7225027B2 (en) 2001-08-27 2007-05-29 Regents Of The University Of California Cochlear implants and apparatus/methods for improving audio signals by use of frequency-amplitude-modulation-encoding (FAME) strategies
CN1705980A (zh) 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
CN1647156B (zh) 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
JP4187719B2 (ja) 2002-05-03 2008-11-26 ハーマン インターナショナル インダストリーズ インコーポレイテッド マルチチャネル・ダウンミキシング装置
US6940540B2 (en) 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
AU2003281128A1 (en) 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
JP4649208B2 (ja) 2002-07-16 2011-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオコーディング
ES2278192T3 (es) 2002-11-28 2007-08-01 Koninklijke Philips Electronics N.V. Codificacion de una señal de audio.
ES2273216T3 (es) 2003-02-11 2007-05-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
KR20050116828A (ko) 2003-03-24 2005-12-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 다채널 신호를 나타내는 주 및 부 신호의 코딩
US20050069143A1 (en) 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7840401B2 (en) 2005-10-24 2010-11-23 Lg Electronics Inc. Removing time delays in signal paths

Also Published As

Publication number Publication date
JP5156386B2 (ja) 2013-03-06
AU2005324210A1 (en) 2006-07-13
ES2623365T3 (es) 2017-07-11
WO2006072270A1 (en) 2006-07-13
PL1829026T3 (pl) 2017-09-29
JP2008527431A (ja) 2008-07-24
KR20070110266A (ko) 2007-11-16
IL184340A0 (en) 2007-10-31
EP1829026B1 (en) 2017-01-25
US7903824B2 (en) 2011-03-08
BRPI0518507A2 (pt) 2008-11-25
TWI289025B (en) 2007-10-21
MY142581A (en) 2010-12-15
MX2007008262A (es) 2007-08-22
CA2593290C (en) 2011-07-12
CA2593290A1 (en) 2006-07-13
TW200631449A (en) 2006-09-01
US20060153408A1 (en) 2006-07-13
NO339299B1 (no) 2016-11-21
NO20074122L (no) 2007-08-09
RU2007130545A (ru) 2009-02-20
AU2005324210C1 (en) 2011-03-17
RU2383939C2 (ru) 2010-03-10
CN101160618A (zh) 2008-04-09
AU2005324210B2 (en) 2009-11-19
CN101160618B (zh) 2012-03-21
KR100895609B1 (ko) 2009-04-30
EP1829026A1 (en) 2007-09-05
IL184340A (en) 2011-10-31

Similar Documents

Publication Publication Date Title
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
EP1817768B1 (en) Parametric coding of spatial audio with cues based on transmitted channels
JP5106115B2 (ja) オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
AU2005299070B2 (en) Diffuse sound envelope shaping for binaural cue coding schemes and the like
CA2582485C (en) Individual channel shaping for bcc schemes and the like
KR101236259B1 (ko) 오디오 채널들을 인코딩하는 방법 및 장치
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial