BRPI0516405B1 - Conformação individual de canal para esquemas bcc e similares - Google Patents

Conformação individual de canal para esquemas bcc e similares Download PDF

Info

Publication number
BRPI0516405B1
BRPI0516405B1 BRPI0516405-2A BRPI0516405A BRPI0516405B1 BR PI0516405 B1 BRPI0516405 B1 BR PI0516405B1 BR PI0516405 A BRPI0516405 A BR PI0516405A BR PI0516405 B1 BRPI0516405 B1 BR PI0516405B1
Authority
BR
Brazil
Prior art keywords
channel
envelope
audio
channels
time
Prior art date
Application number
BRPI0516405-2A
Other languages
English (en)
Inventor
Eric Allamanche
Sascha Disch
Christof Faller
Juergen Herre
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Agere Systems Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V., Agere Systems Inc. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BRPI0516405A publication Critical patent/BRPI0516405A/pt
Publication of BRPI0516405A8 publication Critical patent/BRPI0516405A8/pt
Publication of BRPI0516405B1 publication Critical patent/BRPI0516405B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Channel Selection Circuits, Automatic Tuning Circuits (AREA)
  • Outer Garments And Coats (AREA)
  • Superheterodyne Receivers (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Steroid Compounds (AREA)

Abstract

conformação individual de canal para esquemas bcc e similares. em um codificador de áudio, são gerados códigos de sinalização para um ou mais canais de áudio, caracterizados pelo fato de que um código de sinalização de envelope é gerado pela caracterização de um envelope temporal em um canal de áudio. em um decodificador de áudio, e canal(is) de áudio transmitido(s) são decodificados para gerar c canais de áudio playback, onde c>e<sym>1. os códigos de sinalização recebidos incluem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde ao(s) canal(is) transmitido(s). um ou mais canal(is) transmitido(s) são upmixados para gerar um ou mais canais upmixados. um ou mais canais de playback são sintetizados pela aplicação dos códigos de sinalização ao um ou mais canais upmixados, em que o código de sinalização de envelope é aplicado a um canal upmixado ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal caracterizado de maneira que o envelope temporal ajustado combine substancialmente com o envelope temporal caracterizado.

Description

Referência Cruzada dos Pedidos Anteriores
Este pedido reivindica o beneficio da data de depósito do pedido provisório norte-americano n2 60/620.480, depositado em 20/10/04 como protocolo do agente n2 Allamanche 2-3-184, cujos ensinamentos estão incorporados à presente como referência.
Além disso, o objeto em questão deste pedido refere-
se ao objeto em questão dos seguintes pedidos norte-americanos, cujos ensinamentos estão incorporados à presente como referência:
o Pedido norte-americano número de série 09/848.877, depositado em 04/05/01 como protocolo do agente n2 Faller 5;
o Pedido norte-americano número de série
10/045.458, depositado em 7/11/01 como protocolo do agente n2
Baumgarte 1-6-8, que reivindicou para si próprio o beneficio da data de depósito do pedido provisório norte-americano n2 60/311.565, depositado em 10/08/01;
o Pedido norte-americano número de série
10/155.437, depositado em 24/05/02 como protocolo do agente n2 Baumgarte 2-10;
o Pedido norte-americano número de série 10/246.570, depositado em 18/09/02 como protocolo do agente n2 25 Baumgarte 3-11;
o Pedido norte-americano número de série 10/815.591, depositado em 01/04/04 como protocolo do agente n2
Baumgarte 7-12;
o Pedido norte-americano número
10/936.464, depositado em 08/09/04 como protocolo do de série agente η2
Baumgarte 8-7-15;
o Pedido norte-americano número de série
10/762.100, depositado em 20/01/04 (Faller 13-1) o Pedido norte-americano número de série
10/xxx.xxx, depositado na mesma data deste pedido como protocolo do agente n2 Allamanche 1-2-17-3.
O objeto em questão deste pedido está também relacionado ao objeto em questão descrito nos documentos a seguir.
cujos ensinamentos estão incorporados à presente como referência:
o F.
Baumgarte and C. Faller, Binaural Cue
Coding - Part I: Psychoacoustic fundamentais and design principies,
IEEE Trans. on Speech and Áudio Proc., vol. 11, no. 6, Nov. 2003;
o C. Faller and F.
Baumgarte, Binaural Cue
Coding - Part II: Schemes and applications, ” IEEE Trans. on Speech. and Audio Proc., vol. 11, no. 6, Nov. 2003; e o C. Faller, Coding of spatial audio compatible with different playback formats, Preprint 117th Conv. Aud. Eng.
Soc., October 2004.
Campo da Invenção
A presente invenção se refere à codificação de sinais de áudio e a subsequente síntese de cenas auditivas a partir dos dados de áudio codificados.
Descrição da Técnica Anterior
Quando uma pessoa ouve um sinal de áudio (isto é, sons) gerados por uma determinada fonte de áudio, o sinal de áudio chegará normalmente aos ouvidos esquerdo e direito da pessoa em dois
tempos diferentes e com dois niveis diferentes de áudio (por exemplo, decibéis), em que esses tempos e níveis diferentes são funções das diferenças dos caminhos pelos quais o sinal de áudio percorre para alcançar os ouvidos esquerdo e direito, respectivamente. O cérebro da pessoa interpreta essas diferenças em tempo e nível para dar à pessoa a percepção de que o sinal de áudio recebido está sendo gerado por uma fonte de áudio localizada em uma posição determinada (por exemplo, direção e distância) com relação á pessoa. Uma cena auditiva é o efeito líquido de uma pessoa ouvindo simultaneamente sinais de áudio gerados por uma ou mais diferentes fontes de áudio localizadas em uma ou mais posições diferentes com relação à pessoa.
A existência desse processamento pelo cérebro pode ser usada para sintetizar cenas auditivas, em que sinais de áudio de uma ou mais diferentes fontes de áudio são modificados de propósito para gerar sinais de áudio esquerdo e direito que dão a percepção de
que diferentes fontes de áudio estão localizadas em diferentes posições com relação ao ouvinte.
A Fig. 1 mostra um diagrama de blocos de alto nível de sintetizador convencional binaural 100, que converte um único sinal de fonte de áudio (por exemplo, um sinal mono) nos sinais de áudio esquerdo e direito de um sinal binaural, onde um sinal binaural é definido para ser os dois sinais recebidos pelos tímpanos de um ouvinte. Além do sinal de fonte de áudio, o sintetizador 100 recebe um conjunto de sinalizações espaciais que correspondem à posição desejada da fonte de áudio com relação ao ouvinte. Nas implementações típicas, o conjunto de sinalizações espaciais compreende um valor de diferença de níveis intercanais (ICLD) (que identifica a diferença no nível de áudio entre os sinais de áudio esquerdo e direito como
4.
recebidos pelos ouvidos esquerdo e direito, respectivamente) e um valor de diferença de tempos intercanais (ICTD) (que identifica a diferença no tempo de chegada entre os sinais de áudio esquerdo e direito como recebidos pelos ouvidos esquerdo e direito, respectivamente). Além disso, ou como alternativa, algumas técnicas de síntese envolvem a conformação de uma função de transferência dependente da direção para o som de uma fonte sonora até os também denominada de função de transferência relativa tímpanos, à cabeça
(HRTF) . Ver, por exemplo, J. Blauert, The Psychophysics of Human
Sound Localization, MIT Press, 1983, cujos ensinamentos estão incorporados à presente como referência.
Usando o sintetizador de sinal binaural 100 da Fig.
1, o sinal de áudio mono gerado por uma fonte de sinal único pode ser processado de maneira que, quando é ouvido com fones de ouvido, a fonte sonora é localizada espacialmente pela aplicação de um conjunto adequado de sinalizações espaciais (por exemplo, ICLD, ICTD e/ou HRTF) para gerar o sinal de áudio de cada ouvido. Ver, por exemplo,
D.R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic
Press, Cambridge, MA, 1994.
O sintetizador de sinal binaural 100 da Fig. 1 gera o tipo mais simples de cenas auditivas: aquelas que possuem uma fonte de áudio única posicionada em relação ao ouvinte. Cenas auditivas mais complexas, compreendendo duas ou mais fontes de áudio localizadas em diferentes posições com. relação ao ouvinte podem ser 25 geradas usando um sintetizador de cena auditiva, que é essencialmente implementado usando instâncias múltiplas do sintetizador de sinal binaural, onde cada instância de sintetizador de sinal binaural gera o sinal binaural que corresponde a uma diferente fonte de áudio. Como /7 cada diferente fonte de áudio relação ao ouvinte, é usado um espaciais para gerar o sinal de
5.
U
W « · • V· d
• W » r ·» · · ··· • · · · · ·· ♦ · « · *· • · «·» ♦ · · » .0» f · J < ’>
• « · · tem uma diferente localização com conjunto diferente de sinalizações áudio binaural para cada diferente fonte de áudio.
SUMÁRIO DA INVENÇÃO
De acordo com uma configuração, a presente invenção é um método, equipamento e meio de leitura por máquina para a codificação de canais de áudio. São gerados e transmitidos um ou mais códigos de sinalizações para um ou mais canais de áudio,
.10 caracterizado pelo fato de que pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio.
De acordo com outra configuração, a presente invenção se trata de um equipamento para a codificação de C canais de áudio de entrada para gerar E canal(is) de áudio transmitido(s). O equipamento compreende um analisador envelope, um estimador de códigos e um downmixer. O analisador envelope caracteriza um envelope
temporal de entrada de pelo menos um dos C canais de entrada. 0 estimador de dos C canais entrada para códigos gera códigos de sinalização para dois ou mais de entrada. O gerar os E caracterizado pelo fato de downmixer que o sobre os códigos de sinalização caracterizado para permitir que o faz o downmix dos equipamento transmite
C canais de onde O £31, informações e o envelope temporal decodificador realize a de entrada sintese e a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) .
De acordo com outra configuração, a presente invenção se trata de um fluxo de bits de áudio codificados gerados • * 4 «« · • · pelos canais de áudio de codificação, caracterizado pelo fato de que um ou mais códigos de sinalização são gerados para um ou mais canais de áudio, onde pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope 5 temporal em um dos um ou mais canais de áudio. 0 um ou mais códigos de sinalização e os E canal(is) de áudio transmitido(s) que correspondem ao um ou mais canais de áudio, onde ΕΞΙ1, são codificados no fluxo de bits de áudio codificados.
De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificados que compreende um ou mais códigos de sinalização e E canal(is) de áudio transmitido(s). 0 um ou mais códigos de sinalização são gerados para um ou mais canais de áudio, caracterizados pelo fato de que pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio. 0(s) E canal(is) de áudio transmitido(s) correspondem ao um ou mais canais de áudio.
De acordo com outra
configuração, a presente invenção é um método, a decodificação de E equipamento canal(is) de e meio de leitura por máquina para áudio transmitido(s) para gerar C canais de áudio playback, onde ΟΕΞ11. São recebidos os códigos de sinalização que correspondem aos E canal(is) transmitido(s), caracterizados pelo fato de que os códigos de sinalização compreendem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde ao(s) E canal (is) transmitido(s) . Um ou mais dos E canal(is) transmitido(s) são upmixed. para gerar um ou mais canais upmixed. Um ou mais dos C canais de playback são sintetizados aplicando os códigos de sinalização a um ou mais canais upmixed, caracterizados pelo fato de que o código de sinalização de envelope é aplicado a um canal upmixed ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado, baseado no envelope temporal caracterizado de maneira que o envelope temporal ajustado combine substancialmente com o envelope temporal caracterizado.
BREVE DESCRIÇÃO DOS DESENHOS
Outros aspectos, características e vantagens da presente invenção se tornarão mais aparentes a partir da seguinte
e dos desenhos de acompanhamento em que numerais de referência iguais identificam elementos similares ou idênticos.
Fig. 1 mostra um diagrama de blocos de alto nivel sinal binaural convencional;
Fig. 2 mostra um diagrama de blocos de um sistema de processamento de áudio binaural cue coding (BCC) genérico;
Fig.
mostra um diagrama de blocos de um
downmixer que pode ser usado para o downmix da Fig.
2;
Fig. 4 mostra um diagrama de blocos de um sintetizador BCC que pode ser usado para o decodificador da
Fig.
2;
A Fig. 5 mostra um diagrama de blocos do estimador
BCC da Fig. 2, de acordo com uma configuração da presente invenção;
A Fig.
ilustra a geração de dados ICTD e
ICLD para áudio de cinco canais;
A Fig.
ilustra a geração de dados ICC para áudio de cinco canais;
A Fig.
mostra um diagrama de blocos de uma implementação do sintetizador BCC da Fig. 4 que pode ser usado em um *
• · · codificador BCC para gerar um sinal de áudio estéreo ou multicanais, dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais;
Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da frequência;
Fig. 10 mostra um diagrama de blocos de processamento no domínio do tempo que é adicionado a um codificador
BCC, como o codificador da Fig. 2, de acordo com uma configuração da presente invenção;
A Fig. 11 ilustra uma aplicação exemplar no domínio do tempo do processamento TP no contexto do sintetizador BCC da Fig.
4;
As Figs. 12 (a) e (b) mostram possíveis implementações da TPA da
Fig. 10 e da TP da Fig. 11, respectivamente, onde a conformação de envelope é somente aplicada frequências superiores à frequência de corte fTP;
mostra um diagrama de blocos de
processamento no domínio da frequência, adicionado a um codificador
BCC, como o codificador da Fig. 2, de acordo com uma configuração alternativa da presente invenção;
A Fig.
ilustra uma aplicação exemplar no domínio da frequência do processamento
TP no contexto do sintetizador BCC da
Fig. 4;
A Fig. 15 mostra um diagrama de blocos de processamento no domínio da frequência que é adicionado a um codificador BCC, como o codificador da Fig. 2, de acordo com outra configuração alternativa da presente invenção;
A Fig. 16 ilustra outra aplicação exemplar no c//
0 • · domínio da freqüência de processamento TP no contexto do sintetizador
BCC da Fig. 4;
As Figs. 17 (a) — (c) mostram diagramas de blocos de possíveis implementações das TPAs das Figs. 15 e 16
Fig. 16; e
As Figs. 18(a) e (b) ilustram dois e da ITP e TP da modos exemplares de operação do bloco de controle da Fig. 16.
DESCRIÇÃO DETALHADA
Em binaural cue coding (BCC), um codificador codifica C canais de áudio de entrada para gerar E canais de áudio transmitidos, onde OE31. Em particular, dois ou mais dos C canais de entrada são providos em um domínio de freqüência, e um ou mais códigos de sinalização são gerados para cada uma ou mais diferentes bandas de freqüência em freqüência. Além disso, dois ou mais os C canais canais de entrada no domínio de de entrada são downmixados para
gerar os E canais transmitidos.
Em algumas implementações de
downmixing, pelo menos um dos E canais transmitidos se baseia < em dois
ou mais dos C canais de entrada, e pelo menos um dos E canais
transmitidos se baseia em somente um dos C canais de entrada
codificador BCC tem dois
Em uma configuração, ou um mais bancos de filtros, um estimador de códigos e um downmixer.
Os dois ou mais bancos de filtros convertem dois ou mais dos de entrada do domínio de tempo para o domínio de freqüência.
O estimador de códigos gera um ou mais mais diferentes bandas de códigos de freqüência sinalização para cada uma nos dois ou mais canais ou de entrada convertidos. O downmixer faz o downmix dos C canais de entrada para gerar os E canais transmitidos, onde
Em decodificação BCC, os E canais de áudio
transmitidos são decodificados para gerar C canais de áudio playback. Em particular, para cada uma ou mais diferentes bandas de frequência, um ou mais dos E canais transmitidos são upmixed em um domínio de frequência para gerarem dois ou mais dos C canais de playback no 5 domínio de frequência, onde ΟΕΞΙ1. Um ou mais códigos de sinalização são aplicados a cada uma ou mais diferentes bandas de frequência nos dois ou mais canais de playback no domínio de frequência para gerar dois ou mais canais modificados, e dois ou mais canais modificados
são convertidos do domínio de frequência para um domínio de tempo. Em determinadas implementações de upmix, pelo menos um dos C canais de playback se baseia em pelo menos um dos E canais transmitidos e pelo menos um código de sinalização, e pelo menos um dos C canais de playback se baseia em somente um dos E canais transmitidos e independente de quaisquer códigos de sinalização.
Em uma configuração, um decodificador BCC tem um upmixer, um sintetizador e um ou mais bancos de filtros inversos. Para cada uma ou mais das diferentes bandas de freqüências, o upmixer
faz o upmix de um ou mais dos E canais transmitidos em um domínio de frequência para gerar dois ou mais dos C canais de playback no domínio de freqüência, onde OE31. 0 sintetizador aplica um ou mais códigos de sinalização a cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de playback no domínio de freqüência para gerar dois ou mais canais modificados. Um ou mais bancos de filtros inversos convertem os dois ou mais canais modificados do domínio de freqüência para o domínio de tempo.
Dependendo da implementação em particular, um dado canal de playback pode se basear em um único canal transmitido, ao invés de em uma combinação de dois ou mais canais transmitidos. Por
4.
Ζ3 exemplo, quando há somente um de playback se baseia naquele
• · * · · • · · • ♦ · «4 · canal transmitido, cada um dos C canais canal transmitido. Nessas situações, o upmixing corresponde à cópia do canal transmitido correspondente.
Assim, para aplicações onde somente existir um canal transmitido, o upmixer pode ser transmitido para incorporados em exemplo, implementado usando um replicador que copie o canal cada canal de playback.
Os codificadores e/ou vários sistemas ou gravadores/reprodutores gravadores/reprodutores de áudio decodificadores BCC podem ser aplicações, incluindo, por de video digital, digital, computadores, transmissores/receptores por satélite, transmissores/receptores cabo, transmissores/receptores de difusão terrestre, sistemas de entretenimento doméstico e sistemas de iwie theater.
P rocessamento BCC Genérico
A Fig. 2 é um diagrama de blocos de um sistema de processamento de áudio bina ura 1 cue coding (BCC) genérico 200, que compreende um codificador 202 e um decodificador 204. O codificador
202 inclui um downmixer 206 e um estimador BCC 208.
downmixer
206 converte C canais de áudio de entrada xÁ (n) em E canais de áudio transmitidos y± (n) , onde ΟΕΞ1.
Nessa especificação, os sinais expressos usando a variável n são sinais do domínio de tempo, enquanto os sinais expressos usando a variável k são sinais do implementação em particular, no domínio de tempo como no domínio de freqüência. Dependendo da o downmixing pode ser implementado tanto domínio de frequência. O estimador BCC
208 gera códigos BCC a partir dos C canais de áudio de entrada e transmite aqueles códigos BCC tanto como informações colaterais em banda ou fora de banda, relativas aos E canais de áudio transmitidos.
Os códigos BCC típicos incluem uma ou mais das diferenças de tempos intercanais (ICTD), diferenças de níveis intercanais {ICLD) e dados de correlações intercanais (ICC) estimados entre determinados pares de canais de entrada como uma função da freqüência e do tempo. A implementação particular indicará entre quais determinados pares de canais de entrada que os códigos BCC são estimados.
Os dados ICC correspondem à coerência de um sinal binaural, que refere-se à largura percebida da fonte de áudio. Quanto mais larga a fonte de áudio, menor a coerência entre os canais
esquerdo e direito do sinal binaural resultante.
Por exemplo, a coerência do sinal binaural que corresponde à difusão de uma orquestra em um palco de auditório é tipicamente menor que a coerência do sinal binaural que corresponde a um único violino tocando solo.
Em geral, um sinal de áudio com menor coerência é normalmente percebido como mais difundido em um espaço auditivo.
Assim, os dados ICC referem-se tipicamente com a largura aparente da fonte e com o grau de envolvimento do ouvinte.
Ver, por exemplo, J.
Blauert, The Psychophysics of Human Sound Localization,
MIT Press,
1983 .
Dependendo da aplicação em particular, os E canais de áudio transmitidos e os correspondentes transmitidos diretamente ao decodificador 204 códigos BCC podem ser ou armazenados em algum tipo adequado de dispositivo para acesso posterior pelo decodificador
204. Dependendo da situação, o termo transmitindo pode se referir tanto à transmissão direta a um decodificador ou armazenagem para a provisão subsequente a um decodificador. Em qualquer caso, o decodificador 204 recebe os canais de áudio transmitidos e as informações colaterais e realiza o upmixing e a síntese BCC usando os ·♦· códigos BCC para converter os E canais de áudio transmitidos em mais do que os E (tipicamente, mas não necessariamente, C) canais de áudio playback para playback de áudio. Dependendo da implementação em particular, o upmixing pode ser feito tanto no domínio de tempo como 5 no domínio de freqüência.
Além do processamento BCC mostrado na Fig.2, um sistema genérico de processamento de áudio BCC pode incluir outros estágios de codificação e decodificação para comprimir mais os sinais
de áudio no codificador, e então descomprimir os sinais de áudio no decodificador, respectivamente. Esses codecs de áudio podem se basear em técnicas de compressão/descompressão convencionais de áudio, como as baseadas em modulação em código de pulsos (PCM), PCM (DPCM) diferencial ou DPCM (ADPCM) de adaptação.
Quando o downmixer 206 gera um sinal de soma simples (isto é, E=l) , a codificação BCC pode representar sinais de áudio muiticanais em uma taxa de bits somente discretamente maior que o necessário para representar um sinal de áudio mono. Isso ocorre porque contêm que um os dados cerca de
ICTD, ICLD e ICC estimados entre um par de canais duas ordens de magnitude inferior de informações do formato de onda de áudio.
Não somente a baixa taxa de bits da codificação BCC, como também seu aspecto de retro-compatibilidade apresenta interesse.
Um único sinal de soma transmitido corresponde a um downmix mono do sinal original estéreo ou muiticanais. Para os receptores que não suportam reprodução sonora estéreo ou multicanais, ouvir o sinal de soma transmitido é um método válido de apresentação do material de áudio em um equipamento de reprodução mono de baixo desempenho. Portanto, a codificação BCC também pode ser usada para ampliar os serviços existentes que envolvem a difusão de material de áudio mono por áudio muiticanais. Por exemplo, os sistemas existentes de radiodifusão de áudio mono podem ser ressaltados para playback estéreo ou multicanais se as informações colaterais BCC puderem ser 5 integradas no canal existente de transmissão. Existem capacidades análogas ao ser feito o downmix de áudio multicanais para dois sinais de soma que correspondem ao áudio estéreo.
BCC processa sinais de áudio com determinada
resolução de tempo e freqüência. A resolução de freqüência usada é amplamente motivada pela resolução de freqüência do sistema auditivo humano. A psicoacústica sugere que a percepção espacial se baseia muito provavelmente em uma representação de banda critica do sinal acústico de entrada. Essa resolução de freqüência é considerada usando um banco de filtros reversível (por exemplo, baseada na 15 transformada rápida de Fourier (FFT) ou um filtro espelhado em quadratura (QMF)) com sub-bandas com larguras de bandas iguais ou proporcionais à largura crítica de banda do sistema humano de audição.
Downmixing Genérico
Nas implementações preferidas, o(s) sinal (is) de soma transmitido(s) contêm todas as componentes de sinais do sinal de áudio de entrada. O obj etivo é que cada componente de sinal seja totalmente mantida. A simples soma dos canais de entrada de áudio geralmente resulta na amplificação ou na atenuação das componentes do 25 sinal. Em outras palavras, a potência das componentes de sinal em uma soma simples é geralmente maior ou menor do que a soma da potência da componente de sinal correspondente de cada canal. Pode ser usada uma técnica de downmixing que equaliza o sinal de soma, de maneira os =Ζ7
• · · · · · · •· ······ ······· · • · · · que a potência de componentes de sinal no sinal de soma aproximadamente a mesma que a potência correspondente em todos canais de entrada.
A Fig. 3 mostra um diagrama de blocos de downmixer 300 que pode ser usado para o downmixer 206 da Fig. 2 um de acordo com certas implementações do sistema BCC 200. O downmixer 300 tem um banco de filtros (FB) 302 para cada canal de entrada χ2(η)( um bloco downmixing 304, um bloco opcional de escalonamento/retardo 306 e um FB inverso(IFB) 308 para cada canal codificado yi(n).
Cada banco de filtros 302 converte cada quadro (por exemplo, 20 mseg) de um canal de entrada digital correspondente Xí(n) no domínio de tempo em um conjunto de coeficientes de entrada no domínio de freqüência. 0 bloco de downmixing 304 faz o downmix de cada sub-banda de C coeficientes de entrada correspondentes em uma sub-banda correspondente de E coeficientes no domínio de freqüência downmixados. A equação (1) representa o downmix das Â:-ésimas bandas de coeficientes de entrada -->xcW) para gerar ésima sub-banda de coeficientes downmixados (-^1(^)’λ---’Λ;W) suba kcomo segue:
= d(7í χ2(Λ)
_ynW_ xc(k)
(D onde é uma matriz de downmixing de valores reais C-por-E.
bloco de escalonamento/retardo opcional 306 compreende um multiplica um conjunto de coeficiente multiplicadores 310, cada downmixado correspondente um dos quais por um • · · ·· • · · · fator de escalonamento (k) para gerar um coeficiente escalado correspondente T/W, motivação para a operação de escalonamento é equivalente à equalização generalizada para downmixing com fatores arbitrários de ponderação para cada canal.
Se os canais de entrada
onde Dor se deriva pela quadratura de cada de matriz na matriz de downmixing C-por-E e a da sub-banda k do canal de entrada i.
Se as sub-bandas não forem independentes, valores de potência do elemento potência então os sinal downmixado serão maiores ou menores do que os computados usando a Equação (2) , devido às amplificações ou cancelamentos de sinais quando as componentes do sinal estiverem em fase ou fora de fase, respectivamente. Para evitar isso, a operação de downmixing da Equação (1) se aplica a sub-bandas seguidas pela operação de escalonamento dos multiplicadores 310. Os fatores de escalonamento (k) (l#i#E) podem ser obtidos usando a
Equação (3) como segue:
¢3) onde é a potência de sub-banda computada pela
Equação ¢2) , e é a potência do sinal de sub-banda downmixado correspondente .
♦ · · • « · ·· • · · · • · · • · ·
Além de, ou ao invés de prover escalonamento opcional, o bloco de escalonamento/retardo 306 pode aplicar opcionalmente retardos aos sinais.
Cada banco de filtros inverso 308 converte um conjunto de coeficientes escalados correspondentes no domínio de freqüência para um quadro de um canal transmitido digital correspondente y± (n).
Apesar da Fig. 3 mostrar todos os C dos canais de
entrada sendo convertidos no domínio de freqüência para subseqüente downmixing, em implementações alternativas, um ou mais (mas inferior a C-l) dos C canais de entrada podem desviar alguns ou todos os processamentos mostrados na Fig. 3 e ser transmitidos como um número equivalente de canais de áudio não modificados. Dependendo da implementação em particular, esses canais de áudio não modificados podem ou não ser usados pelo estimador BCC 208 da Fig. 2 na geração dos códigos BCC transmitidos.
Em uma implementação do downmixer 300 que gera um sinal de soma simples y(n), E=1 e os sinais de cada sub-banda de cada canal de entrada c são adicionados e então multiplicados por um fator e(£), de acordo com a Equação (4) como segue:
o fator e(k) é dado pela Equação (5) como segue: ~C
ΣΡχ.(Α) c=I_________
Px(k)
Pxc(k) onde é uma breve estimativa da potência de *
• · · • ♦ Xt'(^) no índice de tempo kf e é uma breve estimativa da x (k) potência de c . As sub-bandas equalizadas são transformadas novamente para o domínio de tempo resultando no sinal de soma y(n) que é transmitido ao decodificador BCC.
Síntese BCC Genérica
A Fig. 4 mostra um diagrama de blocos sintetizador BCC 400 que pode ser usado para o decodificador
Fig. 2, de acordo com certas implementações do sistema BCC
de um
204 da
200 . 0
sintetizador BCC 400 tem um banco de filtros
402 para cada canal transmitido yi(n), um bloco de upmixing 404, de retardos 406, de multiplicadores
408, de blocos de correlação
410 e um banco de filtros inverso
412 para cada canal de playback
Cada banco de filtros 402 converte cada quadro de um canal digital e em um conjunto transmitido correspondente yÁ (n) no domínio de tempo de coeficientes de entrada Ιύ(^) no domínio de freqüência. 0 bloco de upmixing 404 faz o upmix de cada sub-banda dos
E coeficientes de canal transmitidos correspondentes em uma sub-banda correspondente de C coeficientes upmixados no domínio de freqüência.
A equação (4) representa o upmixing da k-ésima sub-banda de coeficientes de canais transmitidos (ΐ*!®’^)’··· J/íW) para gerar a Ir-ésima sub-banda de coeficientes upmixados (^1(^)^2(^),---^(.(^)) como segue:
s2(k) = u«. .tW
ÃW.
(6) onde U/íc é uma matriz de upmixing de valores reais
E-por-C. A realização do upmixing no domínio de freqüência permite
0/
que o upmixing seja aplicado individualmente em cada diferente subbanda .
Cada retardo 406 aplica um valor de retardo di(k) com base no código BCC correspondente para dados ICTD para garantir que os valores ICTD desejados apareçam entre certos pares de canais de playback. Cada multiplicador 408 aplica um fator de escalonamento ad (k) com base no código BCC correspondente para dados ICLD para garantir que os valores ICLD desejados apareçam entre certos pares de
canais de playback. 0 bloco de correlação 410 realiza uma operação de decorrelação A com base nos códigos BCC correspondente para dados ICC para garantir que os valores
ICC desejados apareçam entre certos pares de canais de playback.
Outras descrições das operações de bloco de correlação 410 podem ser encontradas no Pedido de Patente norteamericana N- 10/155,437, depositado em 24/05/02 como Baumgarte 2-10.
15 A síntese dos valores ICLD pode ser menos
problemática do que a síntese dos valores ICTD e ICC, que a
síntese ICLD envolve somente o escalonamento de sinais de sub- -banda.
Como as sinalizações ICLD são as sinalizações direcionais mais comumente usadas, é comumente mais importante que os valores ICLD se aproximem daqueles do sinal de áudio original. Assim, os dados ICLD podem ser estimados entre todos os pares de canais. Os fatores de escalonamento ai(k) (l#i#C) para cada sub-banda são escolhidos de preferência de maneira que a potência de sub-banda de cada canal de playback se aproxime da potência correspondente do canal de áudio de entrada original.
Um objetivo pode ser aplicar relativamente poucas modificações de sinal para a sintetização dos valores ICTD e ICC.
Assim, os dados BCC podem não incluir valores ICTD e ICC para todos
..
β® • · ·· • * · • · « « · ♦ · · · ♦ ♦
·· · β
os pares de canais. Nesse caso, o sintetizador BCC 400 sintetizaria os valores ICTD e ICC somente entre determinados pares de canais.
Cada banco de filtro inverso 412 converte um conjunto de coeficientes sintetizados correspondentes ^/(Λ) no domínio de freqüência para um quadro de um canal digital de playback correspondente x/(n)
Apesar da Fig. 4 mostrar todos os E dos canais transmitidos sendo convertidos para o domínio de freqüência para subseqüente upmixing e processamento BCC, nas implementações alternativas, um ou mais (mas não todos) os E canais transmitidos podem desviar de alguns ou todos os processamentos mostrados na Fig.
4. Por exemplo, um ou mais dos canais transmitidos podem ser canais não modificados que não estejam submetidos a qualquer upmixing. Além disso, para ser um ou mais dos C canais de playback, esses canais não modificados, por sua vez, podem ser, mas não precisam ser, usados como canais de referência para os quais o processamento BCC é aplicado para sintetizar um ou mais de outros canais de playback. Em qualquer caso, esses canais não modificados podem estar sujeitos a retardos para compensar o tempo de processamento envolvido no upmixing e/ou no processamento BCC usado para gerar o restante dos canais de playback.
Deve ser observado que, apesar da Fig. 4 mostrar C canais de playback sendo sintetizados a partir de E canais transmitidos, onde C era também o número de canais de entrada originais, a síntese BCC não se limita a esse número de canais de playback. Em geral, o número de canais de playback pode ser qualquer número de canais, incluindo números maiores ou menores que C e possivelmente mesmo situações em que o número de canais de playback é igual ou menor que o número de canais transmitidos.
Diferenças perceptivelmente relevantes entre canais de áudio
Supondo um sinal de soma simples, BCC sintetiza um sinal de áudio estéreo ou multicanais de maneira que ICTD, ICLD e ICC se aproximam das sinalizações correspondentes do sinal de áudio original. A seguir, será discutido o papel de ICTD, ICLD e ICC com relação aos atributos de imagem espacial auditiva.
conhecimento sobre audição espacial implica que.
para um evento auditivo, ICTD e
ICLD estão relacionados à direção percebida. Ao se considerar as respostas impulsivas binaurais do ambiente (BRIRs) de uma fonte, existe uma relação entre a largura do evento auditivo e o envelopamento do ouvinte e os dados ICC estimados para as partes precoces e posteriores das BRIRs. Entretanto, a relação entre ICC e essas propriedades de sinais gerais (e não somente as BRIRs) não é direta.
Sinais de áudio estéreo e multicanais normalmente
contêm uma mistura complexa de sinais fonte concomitantemente ativos sobrepostos pelas componentes do sinal refletido resultantes da gravação em espaços fechados ou adicionados pelo engenheiro de gravação para a criação artificial de uma impressão espacial.
Diferentes sinais fonte e suas reflexões ocupam diferentes regiões no plano tempo-freqüência. São refletidos pelas ICTD, ICLD e ICC, que variam como uma função do tempo e da frequência. Nesse caso, a 25 relação entre as ICTD, ICLD e ICC instantâneas e as direções do evento auditivo e a impressão espacial não é óbvia. A estratégia de determinadas configurações de BCC é para sintetizar cegamente essas sinalizações, de maneira que se aproximem das sinalizações * 0· • ·· ** · *
• ··
* · * * · *· ·«*··· • e ·♦ ·. · <' » • · · · · · · • · · · correspondentes do sinal de áudio original.
São usados bancos de filtros com sub-bandas de
larguras de bandas iguais a duas vezes à largura de banda retangular equivalente (ERB). Ά audição informal revela que a qualidade de áudio da BCC não melhora de maneira notável ao ser escolhida uma maior resolução de freqüência. Pode ser desejada uma menor resolução de freqüência, já que isso resulta em menos valores ICTD, ICLD e ICC que devem ser transmitidos ao decodifiçador e assim em menor taxa de bits.
Com relação à resolução de tempo, ICTD, ICLD e ICC são consideradas tipicamente em intervalos regulares de tempo. É obtido alto desempenho quando ICTD, ICLD e ICC são considerados aproximadamente a cada 4 a 16 ms. Deve ser observado que, a menos que as sinalizações sejam consideradas em intervalos de tempo muito pequenos, o efeito de precedência não é considerado diretamente. Supondo um par lead-lag clássico de estímulos sonoros, se o lead e o lag caírem em um intervalo de tempo em que seja sintetizado somente um conjunto de sinalizações, então a dominância de localização do lead não será considerada. Apesar disso, BCC obtém qualidade de áudio refletida em uma classificação MUSHRA média de cerca de 87 (isto é, qualidade excelente de áudio) na média e até próximo de 100 para determinados sinais de áudio.
A diferença perceptivelmente pequena geralmente obtida entre o sinal de referência e o sinal sintetizado implica que as sinalizações relacionadas a uma ampla faixa de atributos de imagem espacial auditiva são consideradas implicitamente pela sintetização de ICTD, ICLD e ICC em intervalos regulares de tempo. A seguir, são feitas algumas argumentações sobre como ICTD, ICLD e ICC podem *
j ·· · · ·*··** · ·· · r r · · · c · *··*'· c • · <* ·· ··· • ··· v · refere-ser com uma faixa de atributos de imagem espacial auditiva.
Estimativa de sinalizações espaciais
A seguir é descrito como são estimadas ICTD, ICLD e
ICC. A taxa de bits para a transmissão dessas sinalizações espaciais (quantizadas e codificadas) pode ser de somente alguns kb/s e portanto, com BCC, é possível transmitir sinais de áudio estéreo e multicanais em taxas de bits próximos ao que é necessário para um único canal de áudio.
Fig. 5 mostra um diagrama de blocos de um
estimador BCC
208 da Fig. 2, de acordo com uma configuração da presente invenção.
O estimador BCC
208 compreende bancos de filtros (FB) 502, que podem ser os mesmos bancos de filtros 302 da Fig. 3, e o bloco de e ICC para estimativa 504, que gera sinalizações espaciais ICTD, ICLD cada diferente sub-banda de freqüência gerada pelos bancos de filtros
Estimativa de ICTD, ICLD e ICC para sinais estéreo
As seguintes medidas são usadas para ICTD, ICLD e
ICC para os correspondentes sinais de sub-banda x^^ e ^e dois canais de áudio (por exemplo, estéreo):
o ICTD [amostras]: t12(£)= argmaxlo 12(<2,£)1 (7) com uma breve estimativa da função normalizada de correlação cruzada dada pela Equação (8) como segue:
Φ |9 (d, k)~ i----------------------r (8) onde
absoluto da multicanais
24.
• ♦ • · • · • · • · • · *
« · • 4 • · • · d{ = max{-í/,0} d2 = max {d, O}
ICLD [dB] ¢9) uma breve estimativa da média de (10) o ICC:
cl2(k)= max|®l2(<y,*)|
Deve ser observado (11) que é considerado o valor correlação cruzada normalizada
Estimativa de ICTD, ICLD e é normalmente e ci2(D tem uma
ICC para sinais de áudio
Quando existirem mais do que dois canais de entrada, suficiente definir ICTD e ICLD entre um canal de referência (por exemplo, canal número 1) e os demais canais, como ilustrado na Fig. 6 para o caso de C=5 canais, denotam ICTD e ICLD, respectivamente, entre o canal de referência 1 e o canal c.
De forma oposta à ICTD e ICLD, ICC normalmente tem mais graus de liberdade. Os ICC, como definidas, podem ter valores diferentes entre todos os possíveis pares de canais de entrada. Para C canais, existem 0(01) /2 possíveis pares de canais; por exemplo, para 5 canais, existem 10 pares de canais, como ilustrado na Fig.
(a). Entretanto, tal esquema exige que, para cada sub-banda em cada índice de tempo, os valores ICC 0(0-1)/2 sejam estimados e
transmitidos, resultando em alta complexidade de computação e em alta taxa de bits.
De maneira alternativa, para cada sub-banda, ICTD e
ICLD determinam a direção a que se refere o evento auditivo da componente de sinal correspondente na sub-banda. Um único parâmetro
ICC por sub-banda pode então ser usado para descrever a coerência geral entre todos os canais de áudio. Podem ser obtidos bons resultados pela estimativa e transmissão de sinalizações ICC somente
entre os dois canais com maior energia em cada sub-banda em cada indice de tempo. Isto está ilustrado na Fig. 7 (b) , onde para os instantes de tempo k-1 e k os pares de canais (3, 4) e (1, 2) são os mais fortes, respectivamente. Pode ser usada uma regra heurística para determinar ICC entre os demais pares de canais.
Síntese de sinalizações espaciais
A Fig. 8 mostra um diagrama de blocos de uma implementação do sintetizador BCC 400 da Fig. 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou
multicanais dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais. 0 sinal de soma s(n) é decomposto em subbandas, onde denota uma dessas sub-bandas. Para a geração das sub-bandas correspondentes de cada um dos canais de saída, são aplicados retardos dc, fatores de escala aCf e filtros hc à sub-banda correspondente do sinal de soma. (Para a simplicidade de notação, o índice de tempo k é ignorado nos retardos, fatores de escala e filtros). As ICTD são sintetizadas por retardos impostos, as ICLD por escalonamento e ICC pela aplicação de filtros de decorrelação. O processamento mostrado na Fig. 8 se aplica de forma independente a cada sub-banda.
2$.
Síntese ICTD
Os retardos dc são determinados a partir das ICTDs τ (k^i ltA 7 , de acordo c^>m_
2< c< C
I (12)
O retardo para o canal de referência, dlf é computado de maneira que a magnitude máxima dos retardos dc seja \3S minimizada. Quanto menos os sinais de sub-banda forem modificados.
menor é o perigo de ocorrência de problemas. Se a taxa de amostragem de sub-banda não proporcionar suficiente tempo-resolução para síntese ♦ 10
ICTD, os retardos poderão ser impostos com maior precisão usando os adequados filtros passa-tudo.
Síntese ICLD
Para que os sinais desejados ICLDs entre o canal de sub-banda de e o canal de saída tenham referência 1, os os fatores de ganho ac devem satisfazer n
Equação (13) como segue:
(13)
Além disso, as sub-bandas de saída são preferivelmente normalizadas de maneira que a soma da potência de todos os canais entrada. Como a de saída seja igual à potência do sinal potência do sinal original total em cada de soma de sub-banda é preservada no sinal de soma, essa normalização resulta na potência de sub-banda absoluta para cada canal de saída, aproximando-se da potência correspondente do sinal de áudio de entrada do codificador original. Dadas essas limitações, os fatores de escala ac são dados pela Equação (14) como segue:
|θΔΖ,υ/10
/20
c = 1
ao contrário (14)
Síntese ICC
Em certas configurações, o objetivo da síntese TCC é reduzir a correlação entre as sub-bandas após os retardos e tendo sido aplicada ao escalonamento, sem afetar ICTD e ICLD. Isto pode ser conseguido projetando os filtros hc na Fig. 8 de maneira que ICTD e
ICLD variem efetivamente como uma função da freqüência, de maneira
que a variação média seja zero em cada sub-banda (banda crítica auditiva).
A Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da freqüência. A amplitude da variação de ICTD e ICLD determina o grau de decorrelação e é controlada como uma função de ICC. Deve ser observado que ICTD varia suavemente (como na Fig. 9 (a)), enquanto ICLD varia randomicamente (como na Fig.
9 (b) ) . Pode-se variar ICLD tão suavemente quanto ICTD, mas isto
resultaria em uma maior coloração dos sinais resultantes de áudio.
Outro método para sintetizar ICC, particularmente adequado para a síntese ICC multicanais, é descrita em mais detalhes em C. Faller, Parametric multi-channel audio coding: Synthesis of coherence cues, IEEE Trans. on Speech and Audio Proc.t 2003, cujos ensinamentos estão incorporados à presente como referência. Como uma função do tempo e da freqüência, quantidades específicas de reverberação posterior artificial são adicionadas a cada um dos canais de saída para a obtenção do desejado ICC. Além disso, pode ser aplicada uma modificação espectral, de maneira que o envelope espectral do sinal resultante se aproxime do envelope espectral do
28.
······· · « · · · · · · • · * · sinal de áudio original.
Outras técnicas de síntese
ICC relativas e não relativas para sinais estéreo (ou pares de canais de áudio) foram apresentadas em E.
Schuij ers, W.
Oomen, B. den
Brinker, and
J.
Breebaart, Advances in parametric coding for high-quality audio, in
Preprint 114th Conv.
Aud. Eng. Soe., Mar. 2003, and J. Engdegard,
H.
Purnhagen,
J. Roden, and L.
Lí1j eryd, Synthetic ambience in parametric stereo coding, in
Preprint Conv. Aud. Eng. Soc. ,
May 2004, cujos ensinamentos estão incorporados à presente como
referência.
BCC C-para-E
Como descrito anteriormente, o BCC pode ser implementado uma variação único canal com de mais do que um canal de transmissão. Foi descrita
BCC que representa C canais de áudio não como um (transmitido), mas como E canais, designados BCC
C-para-E. Existem (pelo menos) duas motivações para BCC C-para-E:
o BCC com um canal de transmissão provê um caminho retro-compatível para a atualização dos sistemas mono
existentes para playback de áudio estéreo ou multicanais. Os sistemas atualizados transmitem o sinal soma downmixado BCC pela infraestrutura mono existente, enquanto também transmite as informações colaterais BCC. BCC C-para-E se aplica à codificação retro-compatível dos E canais de áudio do canal C.
o BCC C-para-E introduz escalabilidade em termos de diferentes graus de redução do número do canais transmitidos.
Espera-se que quanto mais canais de áudio são transmitidos, melhor será a qualidade de áudio.
Os detalhes do processamento de sinal para BCC C para-E, de maneira a definir as sinalizações ICTD, ICLD e ICC estão descritos no pedido norte-americano número de série 10/762.100, depositado em 20/01/04 (Faller 13-1).
Configuração de Canal Individual
Em certas configurações, tanto BCC com um canal de transmissão como BCC C-para-E envolvem algoritmos para síntese de ICTD, ICLD e/ou ICC. Normalmente, é suficiente para sintetizar as sinalizações ICTD, ICLD e/ou ICC a cada cerca de 4 a 30 ms. Entretanto, o fenômeno perceptivo de efeito de precedência implica que existem instantes específicos de tempo quando o sistema auditivo humano avalia sinalizações em resolução de maior tempo (por exemplo, a cada 1 a 10 ms).
Um único banco de filtro estático normalmente não pode fornecer resolução de freqüência suficientemente alta, adequada para a maioria dos instantes de tempo, enquanto proporciona resolução de tempo suficientemente alta em intervalos de tempo quando o efeito de precedência se torna efetivo.
Algumas configurações da presente invenção são dirigidas para um sistema que usa síntese de ICTD, ICLD e/ou ICC com resolução de tempo suficientemente baixa, enquanto adiciona novo processamento para tratar dos instantes de tempo quando é necessária maior resolução de tempo. Além disso, em certas configurações, o sistema elimina a necessidade de tecnologia de mudança de janela adaptativa de sinal, que é normalmente difícil para integrar em uma estrutura de sistema. Em certas configurações, são estimados os envelopes temporais de um ou mais dos canais de áudio de entrada do codificador original. Isto pode ser feito, por exemplo, diretamente pela análise da estrutura de tempo do sinal ou pelo exame da autoAz
u. • · • ♦ • · • · · • • • • * · • · • · • · · • • · • • • · • • • · • • · • · • • • · ··· • · · · ♦ · · • · · · • · ·
• · ♦ • · · • ·
correlação do espectro do sinal na frequência. As duas abordagens serão elaboradas em outros dos subsequentes exemplos de implementação. As informações envelopes são transmitidas ao decodificador (como códigos de sinalização de envelope) se perceptivamente necessárias e vantajosas.
Em certas configurações, o decodifiçador aplica certos processamentos para impor esses desejados envelopes temporais em seus canais de áudio de saída:
o Isto pode ser atingido pelo processamento TP,
por exemplo, a manipulação do envelope do sinal pela multiplicação das amostras da amplitude do domínio de tempo do sinal pela função de modificação com variação no tempo. Um processamento similar pode ser aplicado ás amostras espectrais/sub-banda se a resolução de tempo das sub-bandas for suficientemente alta (ao custo de uma resolução de freqüência mais grosseira).
o De maneira alternativa, uma convolução / filtragem da representação usada de maneira análoga á de conformação do ruído de baixa taxa espectral do sinal na freqüência pode ser usada na técnica anterior com o propósito quantização de um codificador de áudio de de bits ou para a ampliação dos sinais codificados de estéreo de intensidade. Isto será preferível se o banco de filtros tiver uma resolução de alta freqüência e, portanto, um tempo de resolução bem menor.
Para a abordagem de convolução/filtragem:
método de conformação de envelope é estendido a partir do estéreo de intensidade para a codificação multicanais
C-para-E.
técnica compreende uma montagem onde a conformação de envelope é controlada pelas informações paramétricas • ·«· · ·«* · ·· * · ··· ·« »·· ·· · · · · · • · ·»«· · ·· ······ « · « · · · ······« · « ··«* » ·· «·*·· «· · * » · · · · ·· · (por exemplo, marcadores binários) geradas pelo codificador, mas na realidade é realizada usando conjuntos de coeficientes de filtro derivados do decodificador.
o Em outra montagem, são transmitidos conjuntos de coeficientes de filtro do decodificador, por exemplo, somente quando perceptivamente necessários e/ou benéficos.
mesmo é também verdade para a abordagem do domínio de tempo /sub-banda. Portanto, podem ser introduzidos critérios (por exemplo, detecção transiente e uma estimativa de tonalidade) para
também controlar a transmissão das informações envelope.
Podem existir situações em que será favorável desabilitar o processamento TP para evitar possíveis problemas. Para ficar do lado da segurança, é uma boa estratégia deixar o processamento temporal desabilitado como padrão (isto é, BCC operaria 15 de acordo com um esquema BCC convencional). 0 processamento adicional é somente habilitado quando se espera que uma maior resolução
temporal dos canais proporcione melhora, por exemplo, quando se espera que o efeito de precedência se torne ativo.
Como declarado anteriormente, este controle de habilitação/desabilitação pode ser obtido por detecção transiente.
Isto é, se um transiente é detectado, então é habilitado o processamento TP. O efeito de precedência é mais eficaz para transientes. A detecção de transientes pode ser usada com vistas à conformação eficaz de não somente simples transientes, mas também de 25 componentes de sinal logo antes e depois do transiente. As possíveis formas de detectar transientes incluem:
o Observar o envelope temporal dos sinais de entrada do codificador BCC ou do(s) sinal(is) de soma BCC * · «· · • « * · «·««·· ··· · · * transmitido(s). Se houver um súbito aumento de potência, então ocorreu um transiente.
o Examinar o ganho da codificação preditiva linear (LPC) como estimada no codificador ou decodificador. Se o ganho de previsão LPC ultrapassar um determinado limite, então poderá ser suposto que o sinal é transiente ou altamente oscilante. A análise LPC é computada na autocorrelação do espectro.
Além disso, para evitar possíveis problemas nos sinais tonais, o processamento TP não é aplicado de preferência
quando a tonalidade do(s) sinal (is) de soma transmitido(s) é alta.
De acordo com certas configurações da presente invenção, os envelopes temporais dos canais de áudio individuais originais são estimados em um codificador BCC para permitir que um decodificador BCC gere canais de saída com envelopes temporais similares (ou perceptivamente similares) aos dos canais de áudio originais. Algumas configurações da presente invenção enfocam o fenômeno do efeito de precedência. Algumas configurações da presente invenção envolvem a transmissão de códigos de sinalização de
envelope, além de outros códigos BCC, como ICLD, ICTD e/ou ICC, como parte das informações colaterais BCC.
Em certas configurações da presente invenção, a resolução de tempo para as sinalizações de envelopes temporais é mais precisa do que a resolução de tempo de outros códigos BCC (por exemplo, ICLD, ICTD, ICC). Isto permite a conformação de envelope a 25 ser realizada no período provido por uma janela de síntese que corresponde ao comprimento de um bloco de um canal de entrada para o qual outros códigos BCC são derivados.
Exemplos de Implementação
33, • ··· · ««» • · · · * • · » ♦♦· • · < · · • V · ·· «·· · · · * « · · ««··*« ·♦· » · * » ♦ · · » • « « de blocos do um codificador
« · • · ♦ · •
A Fig. 10 mostra um diagrama processamento no domínio do tempo que é adicionado a
BCC, como o codificador 202 da Fig. 2, de acordo com uma configuração da presente invenção. Como mostrado na Fig. 10(a), cada analisador de 5 processo temporal (TPA) 1002 estima o envelope temporal de um diferente canal de entrada original xc(n), embora, no geral, qualquer um ou mais dos canais de entrada possa(m) ser analisado(s).
A Fig. 10(b) mostra um diagrama de blocos de uma possível implementação baseada no domínio de tempo de TPA 1002, na
qual as amostras dos sinais de entrada são elevadas ao quadrado (1006) e então filtradas em passa-baixa (1008) para caracterizar o envelope temporal do sinal de entrada. Em configurações alternativas, o envelope temporal pode ser estimado usando uma autocorrelação / método LPC ou por outros métodos, por exemplo, usando uma transformada de Hilbert.
codifica os bloco 1004 da Fig. 10(a) parametriza, quantiza e envelopes temporais estimados antes da transmissão como informações de processamento temporal (TP) (isto é, códigos de
sinalização de envelope) que estão incluídas nas informações colaterais da Fig. 2.
Em uma configuração, um detector (não mostrado) no bloco 1004 determina se o processamento TP a qualidade de áudio, esse bloco 1004 no decodificador melhorará transmitindo informações colaterais TP somente durante aqueles intervalos em que a qualidade de áudio será melhorada pelo processamento TP.
A Fig. 11 ilustra uma aplicação exemplar no domínio de tempo do processamento TP no contexto do sintetizador BCC 400 da
Fig. 4. Nessa configuração, existe um único sinal de soma transmitido s(n), C sinais base são gerados pela replicação daquele sinal de soma e a conformação de envelope é aplicada individualmente a diferentes canais sintetizados. Em configurações alternativas, a ordem dos retardos, o escalonamento e demais processamentos podem ser diferentes. Além disso, em configurações alternativas, a conformação de envelope não se restringe ao processamento de cada canal independentemente. Isto é especialmente verdadeiro para implementações de convolução/baseadas em filtragem que exploram a coerência sobre as frequências de banda para obter informações da boa
estrutura temporal do sinal.
Na Fig. 11 (a), o bloco de decodificaçao 1102 recupera os sinais de envelope temporal a para cada canal de saída das informações colaterais transmitidas TP recebidas do codificador BCC, e cada bloco TP 1104 aplica as informações de envelope 15 correspondentes para conformar o envelope do canal de saída.
A Fig. 11(b) mostra um diagrama de blocos de uma possível implementação baseada no domínio de tempo de TP 1104, onde
as amostras do sinal sintetizado são elevadas ao quadrado (1106) e então filtradas em passa-baixa (1108) para caracterizar o envelope temporal b do canal sintetizado. É gerado um fator de escala (por exemplo, sqrt (a/b)) (1110) e então aplicado (1112) ao canal sintetizado para gerar um sinal de saída com um envelope temporal substancialmente igual ao do canal de entrada original correspondente.
Em implementações alternativas de TPA 1002 da Fig.
e TP 1104 da Fig. 11, os envelopes temporais são caracterizados usando operações de magnitude ao invés de elevar ao quadrado as amostras de sinal. Nessas implementações, a razão a/b pode ser usada &
como fator de corresponder processamento
3S · ♦·♦ · ··· • * # · * · · ♦ . · « · »· ·♦ · · « * escala sem ter que aplicar a operação ·♦ • · de
Apesar da operação de escalonamento a uma implementação
TP, também pode ser
V • · ·· * a *
* ·· » * raiz quadrada.
da Fig. 11(c) baseada no domínio de tempo do implementado o processamento
TP (assim como os processamentos TPA e no domínio de freqüência, como na configuração das Figs. 16-17 (descrita abaixo). Assim, para os objetivos da presente especificação, o termo função de escalonamento deve ser interpretado para cobrir tanto as
operações no domínio de tempo como no domínio de freqüência, como as operações de filtragem das Figs. 17(b) e (c).
Em geral, cada TP 1104 é projetado preferivelmente de maneira que não modifique a potência do sinal (isto é, energia). Dependo da implementação em particular, essa potência de sinal pode ser uma potência de sinal médio de curto tempo em cada canal, por 15 exemplo, com base na potência de sinal total por canal no período definido pela janela síntese ou por alguma outra medida adequada de potência. Assim, pode ser aplicada o escalonamento da síntese ICLD (por exemplo, usando multiplicadores 408) antes ou depois da
conformação de envelope.
Como o escalonamento de banda total dos sinais de saída BCC pode provocar problemas, a conformação de envelope pode ser somente aplicada em freqüências especificadas, por exemplo, freqüências maiores do que uma determinada freqüência de corte (por exemplo, 500 Hz) . Deve ser observado que a variação de 25 freqüência para análise (TPA) pode diferir da variação de freqüência para síntese (TP).
As Figs. 12(a) e (b) mostram possíveis implementações de TPA 1002 da Fig. 10 e TP 1104 da Fig. 11, onde a
36» »·· • · · * · * ·· · r ·· ·· «
• · «
• · • ·
«·· conformação de envelope é somente aplicada em frequências maiores do que a freqüência de corte fTP. Em particular, a Fig. 12 (a) mostra a adição do filtro passa-alta 1202, que filtra as frequências inferiores a antes da caracterização do envelope temporal. A Fig.
12(b) mostra a adição do banco de filtros de duas bandas 1204 tendo uma freqüência de corte de fTP entre as duas sub-bandas, onde somente a parte de alta freqüência é temporalmente conformada. Então, o banco de filtro inverso de duas bandas 1206 recombina a parte de baixa
freqüência com a parte de alta freqüência temporalmente conformada para gerar o canal de saída.
A Fig. 13 mostra um diagrama de blocos do processamento no domínio da freqüência que é adicionado a um codificador BCC, como o codificador 202 da Fig. 2, de acordo com uma configuração alternativa da presente invenção. Como mostrado na Fig.
13(a), o processamento de cada TPA 1302 é aplicado individualmente em uma diferente sub-banda, onde cada banco de filtro (FB) é o mesmo que um correspondente FB 302 da Fig. 3 e o bloco 1304 é uma implementação
de sub-banda análoga ao bloco 1004 da Fig. 10. Em implementações alternativas, as sub-bandas para o processamento TPA podem diferir das sub-bandas BCC. Como mostrado na Fig. 13(b), o TPA 1302 pode ser implementado análogo ao TPA 1002 da Fig. 10.
A Fig. 14 ilustra uma aplicação exemplar do domínio de freqüência do processamento TP no contexto do sintetizador BCC 400 da Fig. 4. O bloco de decodif icação 1402 é análogo ao bloco de decodificação 1102 da Fig. 11, e cada TP 1404 é uma implementação de sub-banda análoga a cada TP 1104 da Fig. 11, como mostrado na Fig.
14(b) .
A Fig. 15 mostra um diagrama de blocos de
processamento no domínio da freqüência que é adicionado ao codificador BCC, como o codificador 202 da Fig. 2, de acordo com outra configuração alternativa da presente invenção. Esse esquema tem a seguinte montagem: As informações de envelope de cada canal de entrada são obtidas pelo cálculo de LPC através da freqüência ¢1502), parametrizada (1504), quantizada (1506) e codificada no fluxo de bits (1508) pelo codificador. A Fig. 17(a) ilustra um exemplo de implementação de TPA 1502 da Fig. 15. As informações colaterais a serem transmitidas ao sintetizador multicanais (decodificador) poderia ser os coeficientes de filtro LPC computados por um método de autocorrelação, pelos coeficientes de reflexão resultantes ou pares espectrais de linha, etc., ou, de maneira a manter pequena a taxa de informações colaterais, os parâmetros obtidos do, por exemplo, ganho de previsão LPC como marcadores binários transientes presentes/não presentes.
A Fig. 16 ilustra outra aplicação exemplar de domínio de freqüência do processamento TP no contexto do sintetizador
BCC 400 da Fig. 4. O processamento de codificação da Fig. 15 e o
processamento de decodificação da Fig. 16 podem ser implementados para formarem um par combinado de uma configuração codificador/decodificador. O bloco de decodificação 1602 é análogo ao bloco de decodificação 1402 da Fig. 14, e cada TP 1604 é análogo a cada TP 1404 da Fig. 14. Nesse sintetizador multicanais, as informações colaterais TP transmitidas são decodificadas e usadas para controlar a conformação de envelope dos canais individuais. Além disso, entretanto, o sintetizador inclui um estágio caracterizador de envelope (TPA) 1606 para a análise dos sinais de soma transmitidos, um TP inverso(ITP) 1608 para o achatamento do envelope temporal de •38··· · ··· cada sinal base, em que os ajustadores de envelope (TP) 1604 impõem um envelope modificado em cada canal de saida. Dependendo da implementação particular, o ITP pode ser aplicado tanto antes como depois do upmixing. Em detalhes, isto é feito usando a abordagem convolução/filtragem, onde a conformação de envelope é obtida pela aplicação dos filtros com base LPC no espectro através da freqüência, como ilustrado nas Figs. 17(a), (b),
ITP e TP, respectivamente. Na Fig.
16, o bloco de controle 1610 'determina se a conformação de envelope deve ou não ser implementada
e, caso positivo, se deve se basear (1) nas informações colaterais TP transmitidas ou (2) de TPA 1606.
As de operação do bloco nos dados de envelope localmente caracterizados
Figs. 18(a) e (b) ilustram dois modos exemplares de controle 1610 da Fig. 16. Na implementação da
Fig. 18(a) , um conjunto de coeficientes de filtro é transmitido ao decodificador, e a conformação de envelope por convolução/filtragem é feita com base nos coeficientes transmitidos.
Se for detectado que a conformação transiente não é benéfica para codificador, então
nenhum dado de filtro é enviado e os filtros são desabilitados . (mostrado na
Fig. 18(a) pela mudança para um conjunto de coeficientes de filtro unitário [1,0...]).
Na implementação da somente é transmitido um marcador transiente/não transiente para cada canal e esse marcador é usado para ativar ou desativar a conformação baseada nos conjuntos de coeficientes de filtro calculados a partir dos sinais downmix transmitidos no decodificador.
Outras Configurações Alternativas
Apesar de a presente invenção ter sido descrita no ·· · · ·*· • · · · ·
• ······ • · ··· * * · • · · · · · · • · · · contexto de esquemas de codificação BCC em que existe um único sinal de soma, a presente invenção também pode ser implementada no contexto de esquemas de codificação BCC tendo dois ou mais sinais de soma. Nesse caso, o envelope temporal para cada diferente sinal de soma 5 base pode ser estimado antes de aplicar a síntese BCC, e diferentes canais de saída BCC podem ser gerados baseados em diferentes envelopes temporais, dependendo de quais sinais de soma foram usados para sintetizar os diferentes canais de saída. Um canal de saída que é sintetizado a partir de dois ou mais diferentes canais de soma 10 poderia ser gerado com base em um envelope temporal eficaz que leva em consideração (por exemplo, por meio de média ponderada) os efeitos relativos dos canais de soma constituintes.
Apesar de presente invenção ter sido descrita no contexto de esquemas de codificação BCC envolvendo códigos ICTD, ICLD e ICC, a presente invenção também pode ser implementada no contexto de outros esquemas de codificação BCC envolvendo somente um ou dois desses três tipos de códigos (por exemplo, ICLD e ICC, mas não ICTD) e/ou um ou mais outros tipos de códigos. Além disso, a seqüência do processamento da síntese BCC e a conformação de envelope podem variar em diferentes implementações. Por exemplo, quando a conformação de envelope é aplicada a sinais no domínio de frequência , como nas Figs. 14 e 16, a conformação de envelope poderia de maneira alternativa ser implementada depois da síntese ICTD (naquelas configurações que empregam síntese ICTD), mas antes da síntese ICLD.
Em outras configurações, a conformação de envelope poderia ser aplicada aos sinais upmixados antes de ser aplicada qualquer outra síntese BCC.
Apesar de a presente invenção ter sido descrita no
40;· • · · · ► · · ♦ * · · • · · * • ·· contexto de codificadores BCC que geram códigos de sinalização de envelope a partir dos canais de entrada originais, em configurações alternativas, os códigos de sinalização de envelope poderíam ser gerados a partir de canais downmixados correspondentes entrada originais. Isto permitiría a implementação de um processador (por exemplo, um codificador de sinalização [cue coder] envelope em separado) que pudesse (1) aceitar a saída de um codificador BCC que gerasse os canais downmixados e determinados códigos BCC (por exemplo, ICLD, ICTD e/ou ICC) temporal (is) de um ou mais dos canais downmixados para adicionar códigos de sinalização de envelope às contexto de sinalização áudio (isto
Apesar de a presente esquemas de codificação invenção ter sido descrita
BCC em que os códigos no de de envelope são transmitidos com um ou mais canais de é, os E canais transmitidos) com outros códigos BCC, em configurações alternativas, os códigos de sinalização de envelope poderíam ser transmitidos, tanto individualmente como com outros códigos BCC, para um local (por exemplo, um decodificador ou um dispositivo de armazenagem) que já tenha os canais transmitidos e possivelmente outros códigos
BCC.
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, a presente invenção também pode ser implementada no contexto de outros sistemas de processamento de áudio em que os sinais de áudio sejam decorrelacionados ou outros processamentos de áudio que precisem de sinais decorrelatos.
Apesar de a presente invenção ter sido descrita no contexto de implementações em que o codificador recebe sinais de áudio de entrada no domínio de tempo e gera sinais de áudio • · •V • · · · • · · • · ·* • · · • · · · • ·· • ♦ ·· ·«· ·« • ·· • « transmitidos no domínio de tempo e o decodificador recebe os sinais de áudio transmitidos no domínio de tempo e gera sinais de áudio playback no domínio de tempo, a presente invenção não é tão limitada.
Por exemplo, em outras implementações, qualquer um ou mais dos sinais de áudio de entrada.
transmitidos e de playback poderiam ser representados em um domínio de frequência.
Os codificadores e/ou decodificadores BCC podem ser usados em conjunto ou incorporados a uma variedade de diferentes aplicações ou sistemas, incluindo sistemas para televisão ou
distribuição de música eletrônica, movie theaters, difusão, streamíng e/ou recepção.
Incluem sistemas para a codificação/decodificação de transmissões por satélite, a cabo, exemplo, compact meio de, por exemplo, meios terrestres, por pela internet, intranets ou meios físicos (por discs, discos digitais versáteis, chips semicondutores, discos rígidos, cartões de memória e similares).
Os codificadores e/ou decodificadores BCC também podem ser empregados jogos e sistemas de jogos, incluindo, por exemplo, produtos em de software interativos que possam interagir com o usuário para seu
entretenimento (jogos de ação, role play, estratégia, aventura, simulações, corridas, esportes, fliperama, j ogos de cartas e de tabuleiro) e/ou para educação que possam ser máquinas, plataformas ou meios. Além disso, decodificadores de áudio ou decodificadores publicados para várias os codificadores e/ou
BCC podem ser incorporados a gravadores/reprodutores a sistemas CD-ROM/DVD. Os codificadores e/ou
BCC também podem ser incorporados a aplicativos de software PC que incorporam decodificação digital (por exemplo, reprodutor, decodificador) e aplicativos de software incorporando propriedades de codificação digital (por exemplo, codificador,
5if •42··· • ♦ • · • ♦ ·· ······· * • * · · · * * * · · · ripper, gravador e jukebox) .
A presente invenção pode ser implementada como processos baseados em circuito, incluindo possível implementação como um único circuito integrado (como um ASIC ou um FPGA), um módulo multi-chip, cartão simples ou um pacote
Como ficaria aparente para um perito no de circuitos multicartões.
assunto, também podem ser implementadas várias funções de elementos de circuitos como etapas de processamento em um programa de software. Esse software pode ser empregado em, por exemplo, um processador de sinal digital, um micro
controlador ou um computador com funções gerais.
A presente invenção pode ser configurada sob a forma de métodos e equipamentos para a prática desses métodos. A presente invenção também pode ser configurada sob a forma de um código de programas configurado em meios tangíveis, como disquetes, CD-ROMs, discos rígidos ou qualquer outro meio de armazenagem com leitura por máquina, caracterizado pelo fato de que, quando o código de programa for carregado e processado por uma máquina, como um computador, máquina se torna um equipamento para a prática da invenção.
presente invenção também pode ser configurada sob a forma de um código de programa, por exemplo, podendo ser armazenada em meio de armazenagem, carregada algum meio ou portador e/ou rodada por uma máquina ou transmitida por de transmissão, como por fiação ou cabeamento óticas ou por radiação eletromagnética, caracterizada pelo fato de que, carregado e rodado por uma máquina, torna um equipamento para a prática quando o código do como um computador, da invenção. Quando programa é a máquina se implementado em um processador com funções gerais, os segmentos do código de programa se combinam com o processador para prover um dispositivo
• •43* *· · ··· ο - » · »» ♦ „ * · ··· ·♦ » · ·♦ * ♦ 4 * ·· exclusivo que opere de forma análoga aos circuitos específicos de lógica.
• 10
Também será compreendido que poderão ser feitas várias alterações nos detalhes, nos materiais e na disposição das peças que foram descritas e ilustradas para explicar a natureza da presente invenção pelos peritos no assunto, sem abandonar o escopo da invenção como mencionada nas reivindicações seguintes.
Apesar das etapas das reivindicações de método a seguir, se houverem, serem mencionadas em uma determinada seqüência com a rotulagem correspondente, a menos que os textos das reivindicações indicarem uma determinada seqüência para a implementação de alguma ou de todas essas etapas, essas etapas não necessariamente devem ser limitadas à implementação nessa seqüência em particular.

Claims (39)

1. Método para a codificação de canais de áudio, compreendendo: geração de dois ou mais códigos de sinalização para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização ser um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de sinalização ainda compreendem um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferença de tempo intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e onde o envelope temporal é definido para o correspondente canal de áudio em um domínio do tempo ou individualmente para diferentes sub-bandas de sinais do correspondente canal de áudio em um domínio de sub-banda; e transmitir os dois ou mais códigos de sinalização.
2. Método de acordo com a reivindicação 1, caracterizado por compreender ainda a transmissão de E canal(is) de áudio transmitido(s) correspondendo ao um ou mais canais de áudio, onde E>1.
3. Método de acordo com a reivindicação 2, caracterizado por:
um ou mais canais de áudio compreende (m) C canais de áudio de entrada, onde OE; e
Petição 870190056730, de 19/06/2019, pág. 8/19
2/12 os C canais de entrada são downmixados para gerar o(s) E canal(is) transmitido(s).
4. Método de acordo com a reivindicação 1, caracterizado pelos dois ou mais códigos de sinalização serem transmitidos para permitir que o decodificador realize a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) baseado nos dois ou mais códigos de sinalização, onde o(s) E canal(is) de áudio transmitido(s) corresponde(m) ao um ou mais canais de áudio, onde E>1.
5. Método de acordo com a reivindicação 4, caracterizado pela conformação de envelope ajustar um envelope temporal de um sinal sintetizado gerado pelo decodificador para combinar o envelope temporal definido.
6. Método de acordo com a reivindicação 1, caracterizado pelo envelope temporal ser definido somente para frequências especificadas do canal de áudio correspondente.
7. Método de acordo com a reivindicação 1, caracterizado pelo envelope temporal ser definido somente para frequências do canal de áudio correspondente acima de uma determinada frequência de corte.
8. Método de acordo com a reivindicação 1, caracterizado pelo domínio de sub-bandas corresponder a um banco de filtros espelhados em quadratura (QMF).
9. Método de acordo com a reivindicação 1, caracterizado por compreender ainda a determinação de habilitar ou desabilitar a caracterização.
10. Método de acordo com a reivindicação 9,
Petição 870190056730, de 19/06/2019, pág. 9/19
3/12 caracterizado por compreender ainda a geração e a transmissão de um marcador de habilitar/desabilitar com base na determinação para instruir o decodificador se implementar ou não a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) correspondente(s) ao um ou mais canais de áudio, onde E>1.
11. Método de acordo com a reivindicação 9, caracterizado pela determinação se basear na análise de um canal de entrada para detectar transientes no canal de áudio, de maneira que a caracterização seja habilitada se a ocorrência de um transiente for detectada.
12. Método de acordo com a reivindicação 1, caracterizado pela etapa de geração do código de sinalização de envelope incluir a quadratura (1006) ou a formação de uma filtragem de magnitude e passa-baixa (1008) de amostras de sinais do canal de áudio ou de sinais de sub-bandas do canal de áudio, de maneira a definir o envelope temporal.
13. Método de acordo com a reivindicação 1 ou 12, caracterizado pelo fato de que a etapa de geração compreende ainda a etapa de parametrização, quantização e codificação de um envelope temporal estimado.
14. Equipamento para a codificação de canais de áudio, o equipamento compreendendo: meios para a geração de dois ou mais códigos de sinalização para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de
Petição 870190056730, de 19/06/2019, pág. 10/19
4/12 sinalização compreendem ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), onde uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e onde o envelope temporal é definido para o canal de áudio correspondente em um domínio do tempo ou individualmente para diferentes sub-bandas de sinais do correspondente canal de áudio em um domínio de subbanda; e meios para a transmissão de informação sobre os dois ou mais códigos de sinalização.
15. 0 equipamento de acordo com a reivindicação 14, caracterizado pelo equipamento ser operacional para a codificação de C canais de áudio de entrada para gerar o(s) E canal(is) de áudio transmitido(s):
em que os meios para gerar compreendem analisador de envelope adaptado para definir o envelope temporal de entrada de pelo menos um dos C canais de entrada;
em que os meios para gerar compreendem ainda um estimador de códigos adaptado para gerar os códigos de sinalização para dois ou mais dos C canais de entrada; e em que o equipamento compreende ainda um downmixer adaptado para o downmix dos C canais de entrada para gerar o(s) E canal(is) transmitido(s), onde Of^l, em que os meios de transmissão estão
Petição 870190056730, de 19/06/2019, pág. 11/19
5/12 adaptados para transmitir as informações sobre os dois ou mais códigos de sinalização para permitir que um decodificador faça a síntese e a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s).
16. 0 Equipamento de acordo com a reivindicação 15, caracterizado por:
o equipamento é um sistema selecionado de um grupo que consiste de um gravador digital de vídeo, um gravador digital de áudio, um computador, um transmissor por satélite, um transmissor a cabo, um transmissor de difusão terrestre, um sistema de entretenimento doméstico e um sistema de movie theater; e o sistema compreende o analisador envelope, o estimador de códigos e o downmixer.
17. Dotado de um código de programa, caracterizado por, quando o código de programa for feito por uma máquina, a máquina implementa o método de acordo com a reivindicação 1.
18. Fluxo de bits de áudio codificados, tendo:
dois ou mais códigos de sinalização gerados para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização ser um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de sinalização compreende(m) ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo
Petição 870190056730, de 19/06/2019, pág. 12/19
6/12 associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e em que o envelope temporal é definido para o correspondente canal de áudio em um domínio do tempo ou individualmente para diferentes subbandas de sinal do correspondente canal de áudio em um domínio de sub-banda; e os dois ou mais códigos de sinalização e o(s) E canal(is) de áudio transmitido(s) correspondentes ao um ou mais canais de áudio, onde E>1, são codificados no fluxo de bits de áudio codificados.
19. 0 fluxo de bits de áudio codificados de acordo com a reivindicação 18, compreendendo ainda E canal(is) de áudio transmitido(s), caracterizado por:
o(s) E canal(is) de áudio transmitido(s) corresponde(m) ao um ou mais canais de áudio.
20. Método para a decodif icação de E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, onde Of^l, o método compreendendo:
receber códigos de sinalização correspondentes ao(s)
E canal(is) transmitido(s), caracterizado pelos códigos de sinalização compreenderem um código de sinalização de envelope correspondente a um envelope temporal definido de um canal de áudio correspondente ao(s) E canal(is) transmitido(s), em que o dois ou mais códigos de sinalização compreendem ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de
Petição 870190056730, de 19/06/2019, pág. 13/19
7/12 diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código de sinalização(s);
fazer o upmixing de um ou mais do(s) E canal(is) transmitido(s) para gerar um ou mais canais upmixed; e sintetizar um ou mais dos C canais de playback pela aplicação dos códigos de sinalização ao um ou mais canais upmixed, em que o código de sinalização de envelope é aplicado a um canal upmixed ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal definido pelo escalonamento de domínio de tempo ou por amostras de sinal no domínio de sub-banda, usando um fator de escalonamento de maneira que o envelope temporal ajustado combine com o envelope temporal definido.
21. Método de acordo com a reivindicação 20, caracterizado pelo código de sinalização de envelope corresponder a um envelope temporal definido em um canal de entrada original usado para gerar o(s) E canal(is) transmitido(s).
22. Método de acordo com a reivindicação 21, caracterizado pela síntese compreender a síntese ICC de posterior reverberação.
23. Método de acordo com a reivindicação 21, caracterizado pelo envelope temporal do sinal sintetizado ser ajustado antes da síntese ICLD.
Petição 870190056730, de 19/06/2019, pág. 14/19
8/12
24. Método de acordo com a reivindicação 20, caracterizado por:
o envelope temporal do sinal sintetizado ser definido; e o envelope temporal do sinal sintetizado ser ajustado com base tanto no envelope temporal definido correspondendo ao código de sinalização de envelope quanto no envelope temporal definido do sinal sintetizado.
25. Método de acordo com a reivindicação 24, caracterizado por:
ser gerada uma função de escalonamento com base no envelope temporal definido correspondente ao código de sinalização de envelope e o envelope temporal definido do sinal sintetizado; e a função de escalonamento ser aplicada ao sinal sintetizado.
26. Método de acordo com a reivindicação 20, compreendendo ainda o ajuste de um canal transmitido com base no envelope temporal caracterizado para gerar um canal achatado, definido pelo fato de que o upmixing e a síntese são aplicados ao canal achatado para gerar um correspondente canal de playback.
27. Método de acordo com a reivindicação 20, compreendendo ainda o ajuste de um canal upmixed baseado no envelope temporal caracterizado para gerar um canal achatado, definido pelo fato de que a síntese é aplicada ao canal achatado para gerar um correspondente canal de playback.
28. Método de acordo com a reivindicação 20,
Petição 870190056730, de 19/06/2019, pág. 15/19
9/12 caracterizado pelo o envelope temporal do sinal sintetizado ser ajustado para somente frequências especificadas.
29. Método de acordo com a reivindicação 28, caracterizado pelo envelope temporal do sinal sintetizado ser ajustado para somente frequências acima de uma frequência especificada de corte.
30. Método de acordo com a reivindicação 20, caracterizado pelos envelopes temporais serem ajustados individualmente para diferentes sub-bandas de sinais no sinal sintetizado.
31 . Método de acordo com a reivindicação 20, caracterizado por um domínio de sub- -banda corresponder a um QMF . 32 . Método de acordo com a reivindicação 20,
caracterizado pelo envelope temporal do sinal sintetizado ser ajustado em um domínio de tempo.
33. Método de acordo com a reivindicação 20, caracterizado por compreender ainda a determinação da habilitação ou a desabilitação do ajuste do envelope temporal do sinal sintetizado.
34. Método de acordo com a reivindicação 33, caracterizado pela determinação se basear em um marcador habilitar/desabilitar gerado por um codificador de áudio que gerou o(s) E canal(is) transmitido(s).
35. Método de acordo com a reivindicação 33, caracterizado pela determinação se basear na análise do(s) E canal(is) transmitido(s) para detectar transientes, como o ajuste ser habilitado se a ocorrência de um transiente for
Petição 870190056730, de 19/06/2019, pág. 16/19
10/12 detectada.
36. Método de acordo com a reivindicação 20, caracterizado por compreender ainda:
definir um envelope temporal de um canal transmitido; e determinar se usar (1) o envelope temporal definido correspondente ao código de sinalização de envelope ou (2) o envelope temporal definido do canal transmitido para ajustar o envelope temporal do sinal sintetizado.
37. Método de acordo com a reivindicação 20, caracterizado pela potência em uma janela especificada do sinal sintetizado após o ajuste do envelope temporal ser igual à potência em uma janela correspondente do sinal sintetizado antes do ajuste.
38. Método de acordo com a reivindicação 37, caracterizado pela janela especificada corresponder a uma janela síntese associada a um ou mais códigos de sinalização não-envelope.
39. Equipamento para a decodificação de E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, onde Of^l, o equipamento compreendendo:
meios para a recepção dos códigos de sinalização correspondentes ao(s) E canal(is) transmitido(s), definidos pelos códigos de sinalização compreenderem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde aos E canais transmitidos, em que o dois ou mais códigos de sinalização compreendem ainda um ou mais dos
Petição 870190056730, de 19/06/2019, pág. 17/19
11/12 códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização;
meios para o upmix de um ou mais dos E canais transmitidos para gerar um ou mais canais upmixados; e meios para a sintetização de um ou mais dos C canais de playback pela aplicação dos códigos de sinalização ao um ou mais canais upmixados, em que o código de sinalização de envelope é aplicado a um canal upmixado ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal definido pelo domínio de tempo de escalonamento ou por amostras do sinal de domínio de sub-banda usando um fator de escalonamento de maneira que o envelope temporal ajustado combine com o envelope temporal definido.
40. Equipamento de acordo com a reivindicação 39, caracterizado por:
o equipamento é um sistema selecionado do grupo que consiste de um gravador digital de video, um gravador digital de áudio, um computador, um receptor por satélite, um receptor a cabo, um receptor de difusão terrestre, um sistema de entretenimento doméstico e um sistema de movie theater; e o sistema compreende o receptor, o upmixer, o sintetizador e o ajustador envelope.
Petição 870190056730, de 19/06/2019, pág. 18/19
12/12
41. Um meio legível de computador,
caracterizado por compreender instruções armazenadas que, ao ser executado por pelo menos um processador, faz com que o dito processador seja adaptado para executar o método da
reivindicação 20.
BRPI0516405-2A 2004-10-20 2005-09-07 Conformação individual de canal para esquemas bcc e similares BRPI0516405B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US62048004P 2004-10-20 2004-10-20
US60/620,480 2004-10-20
US11/006,482 US7720230B2 (en) 2004-10-20 2004-12-07 Individual channel shaping for BCC schemes and the like
US11/006,482 2004-12-07
PCT/EP2005/009618 WO2006045371A1 (en) 2004-10-20 2005-09-07 Individual channel temporal envelope shaping for binaural cue coding schemes and the like

Publications (3)

Publication Number Publication Date
BRPI0516405A BRPI0516405A (pt) 2008-09-02
BRPI0516405A8 BRPI0516405A8 (pt) 2018-07-31
BRPI0516405B1 true BRPI0516405B1 (pt) 2019-09-17

Family

ID=36180779

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0516405-2A BRPI0516405B1 (pt) 2004-10-20 2005-09-07 Conformação individual de canal para esquemas bcc e similares

Country Status (21)

Country Link
US (1) US7720230B2 (pt)
EP (1) EP1803117B1 (pt)
JP (1) JP4664371B2 (pt)
KR (1) KR100924576B1 (pt)
CN (1) CN101044551B (pt)
AT (1) ATE424606T1 (pt)
AU (1) AU2005299068B2 (pt)
BR (1) BRPI0516405B1 (pt)
CA (1) CA2582485C (pt)
DE (1) DE602005013103D1 (pt)
DK (1) DK1803117T3 (pt)
ES (1) ES2323275T3 (pt)
HK (1) HK1106861A1 (pt)
IL (1) IL182236A (pt)
MX (1) MX2007004726A (pt)
NO (1) NO338919B1 (pt)
PL (1) PL1803117T3 (pt)
PT (1) PT1803117E (pt)
RU (1) RU2339088C1 (pt)
TW (1) TWI318079B (pt)
WO (1) WO2006045371A1 (pt)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US8019087B2 (en) * 2004-08-31 2011-09-13 Panasonic Corporation Stereo signal generating apparatus and stereo signal generating method
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
KR100682915B1 (ko) * 2005-01-13 2007-02-15 삼성전자주식회사 다채널 신호 부호화/복호화 방법 및 장치
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US8768691B2 (en) * 2005-03-25 2014-07-01 Panasonic Corporation Sound encoding device and sound encoding method
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
WO2007083952A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for processing a media signal
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
EP1984913A4 (en) 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
KR101358700B1 (ko) * 2006-02-21 2014-02-07 코닌클리케 필립스 엔.브이. 오디오 인코딩 및 디코딩
KR100773562B1 (ko) * 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
WO2007107670A2 (fr) * 2006-03-20 2007-09-27 France Telecom Procede de post-traitement d'un signal dans un decodeur audio
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8126721B2 (en) 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8041578B2 (en) 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
US8504377B2 (en) * 2007-11-21 2013-08-06 Lg Electronics Inc. Method and an apparatus for processing a signal using length-adjusted window
US8548322B2 (en) * 2008-02-29 2013-10-01 Telefonaktiebolaget L M Ericsson (Publ) Channel power estimation means
WO2009125046A1 (en) * 2008-04-11 2009-10-15 Nokia Corporation Processing of signals
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
KR101418661B1 (ko) * 2009-10-20 2014-07-14 돌비 인터네셔널 에이비 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
IL295473B2 (en) * 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
WO2012105886A1 (en) * 2011-02-03 2012-08-09 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
PL2880654T3 (pl) 2012-08-03 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder i sposób realizacji uogólnionej parametrycznej koncepcji kodowania przestrzennych obiektów audio dla przypadków wielokanałowego downmixu/upmixu
US9818412B2 (en) * 2013-05-24 2017-11-14 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830334A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP3806498B1 (en) 2013-09-17 2023-08-30 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing audio signal
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
CN108922552B (zh) 2013-12-23 2023-08-29 韦勒斯标准与技术协会公司 生成用于音频信号的滤波器的方法及其参数化装置
US9832585B2 (en) 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
EP3128766A4 (en) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
US10672408B2 (en) 2015-08-25 2020-06-02 Dolby Laboratories Licensing Corporation Audio decoder and decoding method
AU2017219696B2 (en) 2016-02-17 2018-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
CN107818790B (zh) * 2017-11-16 2020-08-11 苏州麦迪斯顿医疗科技股份有限公司 一种多路音频混音方法及装置
CN112262433B (zh) 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4236039A (en) * 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
CA1268546C (en) * 1985-08-30 1990-05-01 STEREO VOICE SIGNAL TRANSMISSION SYSTEM
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943880B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
AU653582B2 (en) * 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) * 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) * 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
JP3793235B2 (ja) * 1996-02-08 2006-07-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 2チャネル伝送及び1チャネル伝送に適合するnチャネル伝送
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US5825776A (en) * 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) * 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) * 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US5860060A (en) * 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US6108584A (en) * 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6021389A (en) * 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) * 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000152399A (ja) * 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) * 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) * 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) * 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) * 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) * 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
US6782366B1 (en) * 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
US6850496B1 (en) * 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) * 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) * 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
ATE315823T1 (de) 2002-02-18 2006-02-15 Koninkl Philips Electronics Nv Parametrische audiocodierung
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
EP1500083B1 (en) 2002-04-22 2006-06-28 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
CN1650528B (zh) 2002-05-03 2013-05-22 哈曼国际工业有限公司 多信道下混频设备
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
DE60317203T2 (de) * 2002-07-12 2008-08-07 Koninklijke Philips Electronics N.V. Audio-kodierung
KR101001170B1 (ko) * 2002-07-16 2010-12-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
JP2005533271A (ja) 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
RU2005120236A (ru) 2002-11-28 2006-01-20 Конинклейке Филипс Электроникс Н.В. (Nl) Кодирование аудиосигнала
JP4431568B2 (ja) * 2003-02-11 2010-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US20060171542A1 (en) 2003-03-24 2006-08-03 Den Brinker Albertus C Coding of main and side signal representing a multichannel signal
US20050069143A1 (en) * 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths

Also Published As

Publication number Publication date
PT1803117E (pt) 2009-06-15
KR20070061872A (ko) 2007-06-14
CA2582485A1 (en) 2006-05-04
AU2005299068A1 (en) 2006-05-04
US7720230B2 (en) 2010-05-18
CA2582485C (en) 2012-05-15
IL182236A0 (en) 2007-09-20
ES2323275T3 (es) 2009-07-10
CN101044551B (zh) 2012-02-08
RU2339088C1 (ru) 2008-11-20
ATE424606T1 (de) 2009-03-15
DK1803117T3 (da) 2009-06-22
BRPI0516405A8 (pt) 2018-07-31
NO338919B1 (no) 2016-10-31
WO2006045371A1 (en) 2006-05-04
BRPI0516405A (pt) 2008-09-02
IL182236A (en) 2011-08-31
HK1106861A1 (en) 2008-03-20
EP1803117B1 (en) 2009-03-04
TWI318079B (en) 2009-12-01
EP1803117A1 (en) 2007-07-04
AU2005299068B2 (en) 2008-10-30
KR100924576B1 (ko) 2009-11-02
DE602005013103D1 (de) 2009-04-16
JP2008517333A (ja) 2008-05-22
NO20071493L (no) 2007-05-22
CN101044551A (zh) 2007-09-26
TW200628001A (en) 2006-08-01
PL1803117T3 (pl) 2009-08-31
JP4664371B2 (ja) 2011-04-06
US20060083385A1 (en) 2006-04-20
MX2007004726A (es) 2007-09-07

Similar Documents

Publication Publication Date Title
BRPI0516405B1 (pt) Conformação individual de canal para esquemas bcc e similares
JP4625084B2 (ja) バイノーラルキュー符号化方法等のための拡散音の整形
KR101236259B1 (ko) 오디오 채널들을 인코딩하는 방법 및 장치
AU2005324210C1 (en) Compact side information for parametric coding of spatial audio
KR101215868B1 (ko) 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
KR101215872B1 (ko) 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
B06T Formal requirements before examination [chapter 6.20 patent gazette]
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/008 (2013.01)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 17/09/2019, OBSERVADAS AS CONDICOES LEGAIS. (CO) 10 (DEZ) ANOS CONTADOS A PARTIR DE 17/09/2019, OBSERVADAS AS CONDICOES LEGAIS