BRPI0618002B1 - método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais - Google Patents

método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais Download PDF

Info

Publication number
BRPI0618002B1
BRPI0618002B1 BRPI0618002-7A BRPI0618002A BRPI0618002B1 BR PI0618002 B1 BRPI0618002 B1 BR PI0618002B1 BR PI0618002 A BRPI0618002 A BR PI0618002A BR PI0618002 B1 BRPI0618002 B1 BR PI0618002B1
Authority
BR
Brazil
Prior art keywords
representation
waveform
resolution
signal
channel
Prior art date
Application number
BRPI0618002-7A
Other languages
English (en)
Inventor
Jürgen Herre
Matthias Neusinger
Gerard Hotho
Sascha Disch
Jeroen Breebaart
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Koninklijke Philips Electronics N.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V., Koninklijke Philips Electronics N.V filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BRPI0618002A2 publication Critical patent/BRPI0618002A2/pt
Publication of BRPI0618002B1 publication Critical patent/BRPI0618002B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

MÉTODO PAPA UMA MELHOR CONFORMAÇÃO TEMPORAL E ESPACIAL DOS SINAIS DE ÁUDIO MULTICANAIS. Um canal selecionado de um sinal multicanais que é representado por frames compostos por valores de amostragem tendo uma alta resolução de tempo pode ser codificado com maior qualidade quando é obtida uma representação paramétrica de forma de onda que representa a forma de onda de uma representação de resolução intermediária do canal selecionado, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo menor que a alta resolução de tempo dos valores de amostragem e maior que a resolução de tempo definida por uma taxa de repetição de frame. A representação paramétrica de forma de onda com a resolução intermediária pode ser usada para conformar um canal reconstruído de maneira a recuperar um canal tendo um envelope de sinal próximo daquele do canal original selecionado. A escala de tempo em que a conformação é feita é mais curta que a escala de tempo de um processamento de frames, ampliando assim a qualidade do canal reconstruído. Por outro lado, a escala de tempo da conformação é maior que a escala de tempo dos valores de (...).

Description

Campo da Invenção
A presente invenção se refere à codificação de sinais de áudio multicanais e, em particular, a um conceito para melhorar a percepção espacial de um sinal multicanais reconstruído.
Histórico da invenção e técnica anterior
O recente desenvolvimento da codificação de áudio tornou disponível a capacidade de recriar uma representação multicanais de um sinal de áudio com base em um sinal estéreo (ou mono) e nos dados de controle correspondentes. Esses métodos diferem essencialmente das antigas soluções baseadas em matrizes como a Dolby Prologic, já que os dados de controle adicionais são transmitidos para controlar a recriação, também denominada de up- mix, dos canais surround com base nos canais mono e estéreo transmitidos.
Assim, os decodificadores paramétricos de áudio multicanais reconstroem N canais com base em M canais transmitidos, onde N > M, e com base nos dados adicionais de controle. Os dados adicionais de controle representam uma taxa de dados significativamente menor do que a transmissão de todos os N canais, tornando a codificação muito eficiente, enquanto ao mesmo tempo garante a compatibilidade tanto dos dispositivos de M canais como dos dispositivos de N canais. Os M canais tanto podem ser uma representação de canais mono única, estéreo ou 5.1. Portanto, é possível ter, por exemplo, um sinal original de canal 7.2 com down mix para um sinal reversamente compatível de canal 5.1, e 2 parâmetros de áudio espacial que permitem que um decodificador de áudio espacial reproduza uma versão muito próxima dos canais 7.2 originais, com uma pequena taxa inicial adicional de bits.
Esses métodos paramétricos de codificação surround normalmente compreendem uma parametrização do sinal surround baseada em ILD (Diferença de Nivel Intercanais) e ICC (Coerência Intercanais). Esses parâmetros descrevem, por exemplo, relações de potência e correlação entre pares de canais do sinal multicanais original. No processo de decodificação, o sinal multicanal recriado pela distribuição da energia dos canais downmix recebidos entre todos os pares de canais descritos pelos parâmetros ILD transmitidos. Entretanto, como um sinal multicanais pode ter distribuição igual de potência entre todos os canais, enquanto os sinais nos diferentes canais são muito diferentes, dando assim a impressão auditiva de um som muito amplo (difuso), a * . largura correta (difusibilidade) é obtida misturando os sinais com suas versões não correlacionadas. Essa mistura é descrita pelo parâmetro ICC. A versão não correlacionada do sinal é obtida passando o sinal por um filtro passa tudo, como um reverberador.
Isto significa que a versão não correlacionada do sinal é criada no lado do decodif icador, não sendo, como nos canais downmix, transmitida do codificador para o decodificador. Os sinais de saida dos filtros passa tudo (decorrelatores) têm um tempo-resposta normalmente muito plano. Assim, um sinal de entrada direta proporciona uma explosão de ruido decrescente. Portanto, ao mixar o sinal não correlacionado com o original, é importante para alguns tipos de sinais, como densos transientes (sinais de envelope de tempo do sinal não correlacionado para melhor combinar com o do canal down-mix, que é geralmente chamado de sinal seco. Se isto não for feito, resultará em uma percepção de uma sala de maior tamanho e de sinais transientes com sons não naturais. Tendo os sinais transientes e 5 um reverberador como filtro passa tudo, até mesmo os problemas do tipo eco podem ser introduzidos quando é omitida a conformação dos sinais (úmidos) não correlacionados.
A partir do ponto de vista técnico, um dos principais desafios na reconstrução dos sinais multicanais, como por exemplo, dentro de uma sintese de som MPEG, consiste na adequada reprodução dos sinais multicanais com uma imagem sonora muito ampla. Falando tecnicamente, isto corresponde à geração de vários sinais com baixa correlação intercanais (ou coerência), mas ainda com envelopes espectrais e temporais sob rigido controle. Um exemplo desses sinais são os "aplausos", que possuem tanto um alto grau de decorrelação e aguçados eventos transientes (palmas). Como consequência, esses itens são os mais criticos para a tecnologia surround MPEG que é, por exemplo, elaborada em maiores detalhes no "Report on MPEG Spatial Audio Coding RMO Listening Tests", ISO/IEC JTC1/SC29/WG11 (MPEG), Document N7138, Busan, Korea, 2005". Em geral, os trabalhos anteriores se focalizaram em alguns aspectos relativos à reprodução ideal de sinais amplos/difusos, como os aplausos, fornecendo soluções que 1. adaptam a forma temporal (e espectral) do 25 sinal decorrelacionado ao do sinal downmix transmitido, de maneira a evitar o pré-eco - como problemas (nota: isto não exige o envio de quaisquer informações auxiliares do codificador de áudio espacial para o decodificador de áudio espacial). 2. adaptam os envelopes temporais dos canais sintetizados de saida a suas formas originais de envelopes (presentes na entrada do codificador correspondente) usando informações auxiliares que descrevem os envelopes temporais dos 5 sinais originais de entrada e que são transmitidas do codificador de áudio espacial ao decodificador de áudio espacial.
Atualmente, o MPEG Surround Reference Model (Modelo de Referência MPEG Surround) já contém várias ferramentas v.. que suportam a codificação desses sinais, por exemplo 10 • Time Domain Temporal Shaping (TP) **• • • Temporal Conformação de envelope (TES)
Em um sistema de sintese MPEG Surround, o som decorrelacionado é gerado e mixado com o sinal "seco", de maneira a controlar a correlação dos canais sintetizados de saida de * acordo com os valores ICC transmitidos. Daqui para frente, o sinal * ■ decorrelacionado será denominado de sinal 'difuso', apesar de o termo 'difuso' refletir propriedades do campo do som espacial reconstruído ao invés das propriedades do próprio sinal. Nos sinais transientes, o som difuso gerado no decodificador não combina automaticamente com a fina forma temporal dos sinais secos e não se funde perceptualmente bem com o sinal seco. Isto resulta em uma má reprodução transiente, em analogia ao "problema de pré- eco" conhecido na codificação de áudio perceptual. A ferramenta TP que implementa o Time Domain Temporal Shaping é projetada para solucionar esse problema, processando o som difuso.
A ferramenta TP é aplicada ao dominio do tempo, como ilustrado na Fig. 14. Basicamente consiste de uma estimativa do envelope temporal dos sinais seco e difuso com uma maior u. resolução temporal que a fornecida pelo banco de filtros do codificador MPEG Surround. 0 sinal difuso é reescalado em seu envelope temporal para combinar com o envelope do sinal seco. Isto resulta em um aumento significativo na qualidade do som dos sinais 5 transientes críticos com uma ampla imagem espacial / baixa correlação entre os sinais de canal, como os aplausos.
A conformação de envelope (ajustando a evolução temporal da energia contida dentro de um canal) é feita combinando a energia normalizada de curto tempo do sinal úmido com a do sinal seco. Isto é feito por meio de uma função de ganho na variação do tempo que é aplicada ao sinal difuso, de maneira que o envelope de tempo do sinal difuso seja conformado para combinar com o do sinal seco.
Notar que isto não requer que qualquer informação auxiliar seja transmitida do codificador para o decodificador para processar o envelope temporal do sinal (somente informações de controle para habilitar/desabilitar seletivamente a TP são transmitidas pelo codificador surround). A Fig. 14 ilustra a conformação temporal no domínio do tempo, como aplicada dentro da codificação MPEG surround. Os sinais a serem processados são o sinal direto 10 e o sinal difuso 12, ambos fornecidos em um domínio de banco de filtros. Opcionalmente, dentro do MPEG surround, pode haver um sinal residual 14 que seja adicionado ao sinal direto 10 ainda dentro do domínio do banco de filtros. No caso especial de um decodificador MPEG surround, somente são conformadas as partes de alta freqüência do sinal difuso 12, portanto as partes de baixa freqüência 16 do sinal são adicionadas ao sinal direto 10 dentro do domínio do banco de filtros.
O sinal direto 10 e o sinal difuso 12 são convertidos separadamente no domínio do tempo pelos dispositivos de síntese do banco de filtros 18a e 18b. A real conformação 5 temporal no domínio do tempo é feita após o banco de filtros de síntese. Como somente as partes de alta frequência do sinal difuso 12 devem ser conformadas, as representações no domínio do tempo do sinal direto 10 e do sinal difuso 12 entram nos filtros passa altas 20a e 20b que garantem que somente as porções de alta 10 frequência dos sinais sejam usadas nas etapas seguintes de filtragem. Pode ser feito um branqueamento espectral subsequente dos sinais nos branqueadores espectrais 22a e 22b para garantir que as taxas de amplitude (energia) de toda a faixa espectral dos sinais sejam adicionadas na seguinte estimativa envelope 24 que 15 compara a taxa das energias que estão contidas no sinal direto e no sinal difuso em uma dada porção de tempo. Essa porção de tempo é normalmente definida pelo comprimento do frame. A estimativa envelope 24 tem como saída um fator de escala 26, que é aplsicado ao sinal difuso 12 na conformação envelope 28 no domínio do tempo, 20 para garantir que o' envelope sinal seja basicamente o mesmo para o sinal difuso 12 e para o sinal direto 10 dentro de cada frame.
Finalmente, o sinal difuso conformado em envelope é novamente filtrado em passa alta por um filtro passa altas 29 de maneira a garantir que não existam problemas de bandas de menores 25 freqüências no sinal difuso conformado em envelope. A combinação do sinal direto e do sinal difuso é feita por um adicionador 30. O sinal de saída 32 então contém partes do sinal do sinal direto 10 e do sinal difuso 12, onde o sinal difuso foi conformado em envelope para garantir que o envelope sinal seja basicamente o mesmo para o sinal difuso 12 e para o sinal direto 10 antes da combinação.
O problema do controle preciso da conformação temporal do som difuso também pode ser solucionado pela denominada ferramenta Temporal Conformação de envelope (TES), que é projetada para ser uma alternativa de baixa complexidade à ferramenta Temporal Processing (TP). Apesar de a TP operar no domínio do tempo por meio de uma escalação no domínio do tempo do envelope de som difuso, a abordagem TES alcança o mesmo efeito principal controlando o envelope de som difuso em uma representação de domínio espectral. Isto é feito de forma similar à da abordagem da Temporal Noise Shaping (TNS), como é conhecida no MPEG-2/4 Advanced Audio Coding (AAC). A manipulação do fino envelope temporal de som difuso é feita pela convolução de seus coeficientes espectrais na freqüência com um adequado filtro de conformação obtido de uma análise LPC dos coeficientes espectrais do sinal seco. Devido ao tempo de resolução muito alto do banco de filtros do MPEG Surround, o processamento TES requer somente filtragem de baixa ordem (previsão complexa de primeira ordem), sendo assim baixa em sua complexidade computacional. Por outro lado, devido às limitações, por exemplo, relacionadas ao serrilhado temporal, não pode prover a totalidade do controle temporal que a ferramenta TP oferece.
Notar que, de forma similar ao caso TP, a TES não exige que nenhuma informação auxiliar seja transmitida do codificador para o decodificador para descrever o envelope temporal do sinal.
As duas ferramentas, TP e TES, resolvem com sucesso o problema da conformação temporal do som difuso, adaptando sua forma temporal à do sinal down mix transmitido. Apesar de esse fato evitar o tipo pré-eco de desmascaramento, não 5 pode compensar um segundo tipo de deficiência no sinal de saida multicanais, que se deve à falta de redistribuição espacial:
Um sinal de aplauso consiste de uma densa mistura de eventos transientes (palmas), vários dos quais caem no mesmo frame de parâmetro. Claramente, nem todas as palmas de um frame se originam da mesma (ou similar) direção espacial. Para um decodificador MPEG Surround, entretanto, a granularidade temporal do decodificador é amplamente determinada pelo tamanho do frame e pela granularidade temporal do slot do parâmetro. Assim, após a sintese, todas as palmas que se situarem em um frame aparecem com 15 a mesma orientação espacial (distribuição de nivel entre os canais de saida) em contraste com o sinal original para o qual cada palma pode ser localizada (e, de fato, percebida) individualmente.
Para também obter bons resultados em termos de redistribuição espacial de sinais altamente críticos como sinais 20 de aplauso, os envelopes de tempo do sinal upmixed devem ser conformados com uma resolução muito alta de tempo.
Sumário da invenção
É o objetivo da presente invenção prover um conceito para a codificação de sinais de áudio multicanais que 25 permita a codificação eficiente, provendo uma melhor preservação da distribuição espacial dos sinais multicanais.
De acordo com o primeiro aspecto da presente invenção, este objetivo é alcançado por um decodificador para a geração de um sinal de saída multicanais com base em um sinal base obtido de um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais original, o sinal base sendo organizado em 5 frames, um frame compreendendo valores de amostragem dotados de alta resolução, e com base em uma representação paramétrica de forma de onda que representa uma forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação 10 paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária inferior à alta resolução de tempo dos valores de amostragem e superior à baixa resolução de tempo definida por uma taxa de repetição de frame, compreendendo: um upmixer para a 15 geração de uma pluralidade de canais upmixed tendo uma resolução de tempo mais alta do que a resolução intermediária; e um shaper (conformador) para conformar um canal upmixed selecionado usando os parâmetros intermediários de forma de onda do canal original selecionado que corresponde ao canal upmixed selecionado.
De acordo com um segundo aspecto da presente invenção, este objetivo é atingido por um codificador para a geração de uma representação paramétrica de forma de onda de um canal de um sinal multicanais representado por frames, um frame compreendendo valores de amostragem tendo um período de 25 amostragem, o codificador compreendendo: um redutor da resolução de tempo para a obtenção de uma representação de baixa resolução do canal usando os valores de amostragem de um frame, a representação de baixa resolução tendo valores de baixa resolução dotados de um período de baixa resolução associado maior que o período de amostragem; e um calculador paramétrico de forma de onda para o cálculo da representação paramétrica de forma de onda que representa uma forma de onda da representação de baixa 5 resolução, em que o calculador paramétrico de forma de onda está adaptado para gerar uma sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem e maior que a resolução de tempo definida pela taxa de repetição de frame.
De acordo com um terceiro aspecto da presente invenção, este objetivo é alcançado por um método para a geração de um sinal de saída multicanais com base em um sinal base obtido de um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais original, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda que representa uma forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal ' multicanais original, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária menor que a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame, o método compreendendo: a geração de uma pluralidade de canais upmixed tendo uma resolução de tempo maior que a resolução intermediária; e conformando um canal upmixed selecionado usando os parâmetros intermediários de forma de onda do canal original selecionado que correspondem ao canal upmixed selecionado.
De acordo com um quarto aspecto da presente invenção, este objetivo é alcançado por um método para a geração 5 de uma representação paramétrica de forma de onda de um canal de um sinal multicanais representado por frames, um frame compreendendo valores de amostragem tendo um periodo de amostragem, o método compreendendo: obter uma representação de baixa resolução do canal usando os valores de amostragem de um 10 frame, a representação de baixa resolução tendo valores de baixa resolução tendo associado um periodo de baixa resolução maior que o período de amostragem; e calcular uma representação paramétrica de forma de onda que representa a forma de onda da representação de baixa resolução, em que o calculador paramétrico de forma de 15 onda está adaptado para gerar uma sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem e maior que a resolução de tempo definida por uma taxa de repetição de frame.
De acordo com um quinto aspecto da presente invenção, este objetivo é alcançado por uma representação de um sinal de áudio multicanais com base em um sinal base obtido do sinal de áudio multicanais tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda que representa uma forma de onda de uma representação de resolução intermediária de um canal selecionado do sinal multicanais, a  representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo a resolução de tempo menor que uma alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por 5 uma taxa de repetição de frame.
De acordo com um sexto aspecto da presente invenção, este objetivo é alcançado por um meio de armazenagem legivel por computador, tendo armazenado uma representação de um sinal de áudio multicanais com base em um sinal base obtido do 10 sinal de áudio multicanais tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda que 15 representa a forma de onda de uma representação de resolução intermediária de um canal selecionado do sinal multicanais, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo menor que a alta resolução de tempo dos valores de 20 amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame.
De acordo com um sétimo aspecto da presente invenção, este objetivo é alcançado por um receptor ou reprodutor de áudio tendo um decodificador para a geração de um sinal de 25 saida multicanais com base em um sinal base obtido de um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais original, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda que representa a forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária menor que a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame, compreendendo: um upmixer para a geração de uma pluralidade de canais upmixed tendo uma resolução de tempo maior que a resolução intermediária; e um shaper para a conformação de um canal upmixed selecionado usando os parâmetros intermediários de forma de onda do canal original selecionado que correspondem ao canal upmixed selecionado.
De acordo com um oitavo aspecto da presente invenção, este objetivo é alcançado por um transmissor ou gravador de áudio tendo um codificador para gerar uma representação paramétrica de forma de onda de um canal de um sinal multicanais representado por frames, um frame compreendendo valores de amostragem tendo um periodo de amostragem, o codificador compreendendo: um redutor da resolução de tempo para obter uma. representação de baixa resolução do canal usando os valores de amostragem de um frame, a representação de baixa resolução tendo valores de baixa resolução tendo associados um periodo de baixa resolução maior que o periodo de amostragem; e um calculador paramétrico de forma de onda para o cálculo da representação paramétrica de forma de onda que representa uma forma de onda da representação de baixa resolução, em que o calculador paramétrico de forma de onda está adaptado para gerar uma sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem e maior que a 5 resolução de tempo definida por uma taxa de repetição de frame.
De acordo com um nono aspecto da presente invenção, este objetivo é alcançado por um método de recepção ou de reprodução de áudio, o método tendo um método para a geração de um sinal de saida multicanais com base em um sinal base obtido de 10 um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais original, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de 15 onda que representa a forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária menor que 20 a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame, o método compreendendo: a geração de uma pluralidade de canais upmixed tendo uma resolução de tempo maior que a resolução intermediária; e conformando um canal upmixed selecionado usando 25 os parâmetros intermediários de forma de onda do canal original selecionado que correspondem ao canal upmixed selecionado.
De acordo com um décimo aspecto da presente invenção, este objetivo é alcançado por um método para a transmissão ou a gravação de áudio, o método tendo um método para a geração de uma representação paramétrica de forma de onda de um canal de um sinal multicanais representado por frames, um frame compreendendo valores de amostragem tendo um periodo de 5 amostragem, o método compreendendo: obter uma representação de baixa resolução de um canal usando os valores de amostragem de um frame, a representação de baixa resolução tendo valores de baixa resolução tendo associado um período de baixa resolução maior que o período de amostragem; e calcular a representação paramétrica de 10 forma de onda que representa a forma de onda da representação de baixa resolução, em que o calculador paramétrico de forma de onda está adaptado para gerar uma sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem e maior que a resolução de tempo 15 definida por uma taxa de repetição de frame.
De acordo com um décimo primeiro aspecto da presente invenção, este objetivo é alcançado por um sistema de transmissão dotado de um transmissor e um receptor, o transmissor tendo um codificador para a geração de uma representação 20 paramétrica de forma de onda de um canal de um sinal multicanais representado por frames, um frame compreendendo valores de amostragem tendo um período de amostragem; e o receptor tendo um decodificador para a geração de um sinal de saída multicanais com base em um sinal base obtido de um sinal multicanais original 25 tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais original, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda que representa a forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária menor que a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame.
De acordo com um décimo segundo aspecto da presente invenção, este objetivo é alcançado por um método para a transmissão e recepção, o método de transmissão tendo um método para a geração de uma representação paramétrica de forma de onda de um canal de um sinal multicanais representado por frames, um frame compreendendo valores de amostragem tendo um periodo de amostragem; e o método de recepção tendo um método para a geração de um sinal de saida multicanais com base em um sinal base obtido de um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base sendo menor que o número de canais do sinal multicanais original, o sinal base sendo organizado em frames, um frame compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda que representa a forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária menor que a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame, o método compreendendo.
De acordo com um décimo terceiro aspecto da presente invenção, este objetivo é alcançado por um programa de computador tendo um código de programa para, quando operando em um 5 computador, desenvolver qualquer dos métodos acima.
A presente invenção se baseia no achado de que um canal selecionado de um sinal multicanais que é representado por frames compostos de valores de amostragem tendo uma alta resolução de tempo pode ser codificado com uma maior qualidade quando é 10 obtida a representação paramétrica de forma de onda que representa a forma de onda de uma representação de resolução intermediária do canal selecionado, a representação paramétrica de forma de onda incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo menor que a alta 15 resolução de tempo dos valores de amostragem e mais alta que a resolução de tempo definida por uma taxa de repetição de frame. A representação paramétrica de forma de onda com a resolução intermediária pode ser usada para conformar um canal reconstruído para obter um canal tendo um envelope de sinal perto daquele do 20 canal original selecionado. A escala de tempo em que a conformação é feita é mais fina que a escala de tempo de um processamento na direção dos frames, aumentando assim a qualidade do canal reconstruído. Por outro lado, a escala de tempo conformada é mais grossa que a escala de tempo dos valores de amostragem, reduzindo 25 significativamente a quantidade necessária de dados pela representação paramétrica de forma de onda.
Uma representação paramétrica de forma de onda sendo adequada para conformação de envelope pode configuração preferida da presente invenção, conter como parâmetros uma medida de resistência de sinal, que indica uma resistência do sinal em um período de amostragem. Como a resistência do sinal está altamente relacionada com a intensidade 5 perceptual de um sinal, o uso de parâmetros de resistência de sinal é, portanto, uma escolha adequada para a implementação da conformação de envelope. Dois parâmetros de resistência de sinal naturais são, por exemplo, a amplitude ou a amplitude ao quadrado, isto é, a energia do sinal.
A presente invenção visa prover um mecanismo para recuperar os sinais da distribuição espacial em uma alta granularidade temporal, e assim recuperar a sensação completa de "distribuição espacial" como é relevante, por exemplo, para os sinais de aplauso. Uma importante condição secundária é ser alcançado um melhor desempenho de apresentação sem um inaceitável grande aumento das informações transmitidas de controle (informações surround auxiliares).
A presente invenção descrita nos parágrafos subseqüentes se refere primariamente à reconstrução multicanais de 20 sinais de áudio com base em um sinal down-mix disponível e nos dados adicionais de controle. Os parâmetros espaciais são extraídos no lado do codificador, representando as características multicanais com respeito a um (dado) down-mix dos canais originais. O sinal down mix e a representação espacial são usados 25 em um decodificador para recriar uma representação muito parecida do sinal multicanais original por meio da distribuição de uma combinação do sinal down-mix com uma versão decorrelacionada dela com os canais sendo reconstruídos.
A invenção se aplica a sistemas onde é desejável um sinal downmix reversamente compatível, do tipo transmissão de rádio estéreo digital (DAB, rádio satélite XM, etc.), mas também em sistemas que exigem representação muito compacta do sinal 5 multicanais. Nos parágrafos a seguir, a presente invenção é descrita em sua aplicação dentro do padrão de áudio MPEG surround. É também possível dizer que é aplicável dentro de outros sistemas de codificação de áudio multicanais como, por exemplo, naqueles mencionados abaixo.
A presente invenção se baseia nas seguintes considerações: • Para uma qualidade ideal de áudio perceptual, o estágio de síntese MPEG Surround não somente deve prover meios para a decorrelação, como também pode resintetizar a distribuição 15 espacial do sinal em uma fina granularidade temporal. • Isto requer a transmissão das informações surround auxiliares que representam a distribuição espacial (envelopes de canal) do sinal multicanais. • Para minimizar a taxa necessária de bits para 20 uma transmissão dos envelopes individuais de canal temporal, essas informações são codificadas de forma normalizada e relacionada com relação ao envelope do sinal down mix. Segue-se uma outra etapa de codificação de entropia para reduzir ainda mais a taxa de bits necessária para a transmissão do envelope. • De acordo com essas informações, o decodificador MPEG Surround conforma tanto o som direto como o difuso (ou o som combinado direto/difuso), de forma que combine com o envelope temporal alvo. Isto permite o controle independente dos envelopes de canais individuais e recria a percepção de distribuição espacial em uma fina granularidade temporal, que muito se parece com a original (ao invés de um processamento espacial de baixa resolução com base em frames por meio somente de 5 técnicas de decorrelação).
O princípio de conformação guiada de envelope pode tanto ser aplicado no domínio espectral como no domínio do tempo, onde a implementação no domínio espectral caracteriza uma menor complexidade computacional.
Em uma configuração da presente invenção, um canal selecionado de um sinal multicanais é representado por uma representação paramétrica que descreve o envelope do canal, em que o canal é representado por frames de valores de amostragem tendo uma alta taxa de amostragem, isto é, uma alta resolução de tempo.
O envelope está sendo definido como a evolução temporal da energia contida no canal, em que o envelope é tipicamente computado em um intervalo de tempo que corresponde ao comprimento do frame. Na presente invenção, o espaço de tempo para o qual um único parâmetro representa o envelope é reduzido com relação à escala de tempo definida por um frame, isto é, esse espaço de tempo é um intervalo intermediário de tempo que é maior que o intervalo de amostragem e mais curto que o comprimento do frame. Para se obter isto, é computada uma representação de resolução intermediária do canal selecionado que descreve um frame com resolução temporal 25 reduzida comparado à resolução provida pelos parâmetros de amostragem. O envelope do canal selecionado é estimado com a resolução de tempo da representação de baixa resolução que, por um lado, aumenta a resolução temporal da representação de resolução mais baixa e, por outro lado, reduz a quantidade de dados e a complexidade de computação necessária quando comparada à conformação no dominio do tempo.
Em uma configuração preferida da presente invenção, é provida uma representação de resolução intermediária do canal selecionado por um banco de filtros que obtém uma representação de banco de filtros com resolução reduzida do canal selecionado. Na representação do banco de filtros, cada canal é dividido em várias bandas finitas de frequências, cada banda de frequência sendo representada por vários valores de amostragem que descrevem a evolução temporal do sinal dentro da banda de frequência selecionada com uma resolução de tempo menor que a resolução de tempo dos valores de amostragem.
A aplicação da presente invenção no dominio do banco de filtros tem um grande número de vantagens. A implementação se adapta bem aos existentes esquemas de codificação, isto é, a presente invenção pode ser implementada de forma totalmente reversamente compatível aos esquemas existentes de codificação de áudio, como a codificação de áudio MPEG surround. Além disso, a necessária redução da resolução temporal é provida automaticamente pelas propriedades de redução de resolução do banco de filtros e um branqueamento de um espectro pode ser implementado com uma complexidade computacional bem menor no dominio do banco de filtros que no dominio do tempo. Uma outra vantagem é que o conceito do invento somente pode ser aplicado às partes da freqüência do canal selecionado que precisam de conformação a partir do ponto de vista de qualidade perceptual.
Em uma outra configuração preferida da presente invenção, é obtida uma representação paramétrica de forma de onda de um canal selecionado que descreve uma relação entre o envelope do canal selecionado e o envelope de um sinal down-mix obtido no lado do codificador. A obtenção da representação paramétrica de 5 forma de onda com base em uma estimativa diferencial ou relativa dos envelopes tem a grande vantagem de reduzir mais a taxa de bits exigida pela representação paramétrica de forma de onda. Em uma outra configuração preferida a assim derivada representação paramétrica de forma de onda é quantizada para reduzir ainda mais a taxa de bits necessária pela representação paramétrica de forma de onda. É também mais vantajoso aplicar uma codificação de entropia aos parâmetros quantizados para economizar mais taxa de bits sem uma maior perda de informações.
Em uma outra configuração preferida da presente invenção, os parâmetros de forma de onda se baseiam em medidas energéticas que descrevem a energia contida no canal selecionado em uma dada porção de tempo. A energia é preferivelmente calculada como a soma ao quadrado dos parâmetros de amostragem que descrevem o canal selecionado.
Em uma outra configuração da presente invenção, o conceito do invento de obter uma representação paramétrica de forma de onda com base na representação de resolução intermediária de um canal selecionado de áudio de um sinal de áudio multicanais é implementado no dominio do tempo. A obtenção necessária da representação de resolução intermediária pode ser obtida pela computação da média (quadrada) ou soma da energia de um número de consecutivos valores de amostragem. A variação do número de valores consecutivos de amostragem na média permite o conveniente ajuste da resolução de tempo do processo de conformação do envelope. Em uma modificação da configuração anteriormente descrita, somente cada enésimo valor de amostragem é usado para a obtenção da representação paramétrica de forma de onda, reduzindo ainda mais a complexidade computacional.
Em uma outra configuração da presente invenção a obtenção dos parâmetros de conformação é feita com complexidade computacional comparativamente baixa no dominio da frequência, onde a conformação real, isto é, a aplicação dos parâmetros de conformação, é feita no dominio do tempo.
Em uma outra configuração da presente invenção a conformação de envelope é somente aplicada naquelas porções do canal selecionado que exigem uma conformação de envelope com alta resolução temporal.
A presente invenção descrita nos parágrafos anteriores proporciona as seguintes vantagens: • Melhoria da qualidade do som espacial de sons transientes densos, como sinais de aplausos, que atualmente podem ser considerados os sinais de pior caso.
Somente um aumento moderado na taxa de informações auxiliares de áudio espacial (aproximadamente 5 kbit/s para a transmissão continua de envelopes) devido à codificação muito compacta das informações de envelope.
A taxa geral de bits pode ser ainda mais reduzida permitindo que o codificador transmita envelopes somente quando forem perceptualmente necessários. A sintaxe proposta do elemento envelope de fluxo de bits cuida disso.
O conceito do invento pode ser descrito como uma conformação guiada de envelope sendo brevemente resumido nos parágrafos seguintes:
A conformação guiada de envelope restaura o envelope de banda larga do sinal de saida sintetizado pelo 5 aplanamento do envelope e a reconformação de cada canal de saida usando as informações auxiliares de envelope de banda larga paramétrica contidas no fluxo de bits.
No processo de reconformação, são extraidos os envelopes dos canais downmix e de saida. Para obter esses 10 envelopes, são calculadas as energias de cada banda paramétrica e de cada slot. Depois, é feita uma operação de branqueamento espectral, em que são ponderados os valores energéticos de cada banda paramétrica, de maneira que as energias totais de todas as bandas paramétricas sejam iguais. Finalmente, é obtido o envelope 15 de banda larga somando e normalizando as energias ponderadas de todas as bandas paramétricas, sendo obtida uma energia média de longo prazo pela filtragem passa baixas com uma constante de longo tempo.
O processo de reconformação de envelope realiza o 20 aplanamento e a reconformação dos canais de saida na direção do envelope alvo, calculando e aplicando uma curva de ganhos na porção sonora direta e na difusa de cada canal de saida. Portanto, os envelopes do down mix transmitido e do respectivo canal de saida são extraidos como acima descrito.
É obtida então a curva de ganho escalando a relação do envelope down mix extraido e do envelope de saida extraido com os valores de relação envelope transmitidos no fluxo de bits.
A ferramenta proposta de conformação de envelope usa informações auxiliares quantizadas transmitidas no fluxo de bits. A demanda total de taxa de bits das informações auxiliares de envelope está listada na Tabela 1 (supondo taxa de amostragem 5 de 44,1 kHz, informações auxiliares de envelope quantizadas em 5 etapas). Tabela 1 - Taxa estimada de bits das informações auxiliares de envelope
Figure img0001
Como mencionado anteriormente, a conformação de envelope temporal guiado focaliza assuntos que são ortogonais àqueles focalizados pela TES ou TP: Enquanto a conformação de envelope temporal guiado proposta visa melhorar a distribuição espacial de eventos transientes, a ferramenta TES e TP é funcional para conformar o envelope de som difuso de maneira a combinar com o envelope seco. Assim, para um cenário de aplicação de alta qualidade, é recomendada uma combinação da ferramenta recém- proposta com TES ou TP. Para um desempenho ideal, a conformação de envelope temporal guiada é feita antes da aplicação da TES ou TP na cadeia de ferramenta do decodificador. Além disso, as ferramentas TES e TP são um pouco mais adaptadas em suas configurações para se integrarem perfeitamente à ferramenta proposta: Basicamente, o sinal usado para obter o envelope alvo no processamento TES ou TP é alterado do uso do sinal down mix para o uso dos sinais up mix de canal individual reconformados.
Como já mencionado acima, a grande vantagem do conceito do invento é a sua possibilidade de ser colocado dentro do esquema de codificação MPEG surround. 0 conceito do invento, por um lado, amplia a funcionalidade da ferramenta TP/TES, já que implementa o mecanismo de conformação temporal necessário para o manuseio adequado de eventos ou sinais transientes. Por outro lado, a ferramenta exige a transmissão de informações auxiliares para orientar o processo de conformação. Apesar da taxa de bits de informações auxiliares média necessária (aprox. 5 KBit/s para transmissão de envelope continua) ser comparativamente baixa, o ganho na qualidade conceituai é significativo. Como consequência, o novo conceito é proposto como uma adição às ferramentas TP/TES existentes. No sentido de manter a complexidade computacional mais baixa, enquanto é mantida uma alta qualidade de áudio, a combinação do conceito recém-proposto com TES é um modo preferido de operação. Quando se trata de complexidade computacional, pode ser notado que alguns dos cálculos são necessários para a extração e reconformação de envelope, quadro a quadro, enquanto outros são feitos por slot (isto é, um intervalo de tempo dentro do dominio do banco de filtros). A complexidade é dependente do comprimento do frame, assim como da freqüência de amostragem. Supondo um comprimento de frame de 32 slots e uma taxa de amostragem de 4 4,1 KHz, o algoritmo descrito requer aproximadamente 105.000 operações por segundo (OPS) para a extração do envelope para um canal e 330.000 OPS para a reconformação de um canal. Como é necessária uma extração de envelope por canal down-mix e uma operação de reconformação é necessária para cada canal de saida, isto resulta em uma complexidade total de 1,76 MOPS para uma configuração 5-1- 5, isto é, uma configuração onde 5 canais de um sinal de áudio multicanais sejam representados por um sinal down-mix monofônico e 1,86 MOPS para a configuração 5-2-5 utilizando um sinal down-mix estéreo.
Breve descrição dos desenhos
Serão subsequentemente descritas as configurações preferidas da presente invenção por referência aos desenhos anexos, onde: A Fig. 1 mostra um decodificador do invento; A Fig. 2 mostra um codificador do invento; As Figs. 3a e 3b mostram uma tabela indicando indices de banda de filtro de um banco de filtros hibrido aos correspondentes indices de sub-banda; A Fig. 4 mostra parâmetros de diferentes configurações de decodificação; A Fig. 5 mostra um esquema de codificação que ilustra a compatibilidade reversa do conceito do invento; A Fig. 6 mostra configurações paramétricas selecionando diferentes configurações; A Fig. 7 mostra um esquema de codificação reversamente compatível; A Fig. 7b ilustra diferentes esquemas de quantização; A Fig. 8 mostra ainda o esquema de codificação reversamente compatível; A Fig. 9 mostra um livro de códigos de Huffman usado para uma implementação eficiente; A Fig. 10 mostra um exemplo de uma configuração de canal de um sinal de saida multicanais; A Fig. 11 mostra um transmissor ou gravador de áudio do invento; A Fig. 12 mostra um receptor ou reprodutor de áudio do invento; A Fig. 13 mostra um sistema de transmissão do invento; e A Fig. 14 ilustra a conformação temporal no domínio do tempo da técnica anterior.
Descrição detalhada das configurações preferidas A Fig. 1 mostra um decodificador do invento 40 tendo um upmixer 42 e um shaper (conformador) 44.
O decodificador 40 recebe como entrada um sinal base 46 obtido de um sinal multicanais original, o sinal base tendo um ou mais canais, onde o número de canais do sinal base é menor que o número de canais do sinal multicanais original. O decodificador 40 recebe como segunda entrada uma representação paramétrica de forma de onda 48 que representa a forma de onda da representação de baixa resolução de um canal original selecionado, onde a representação paramétrica de forma de onda 48 está incluindo uma sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem que estão organizados em frames, os frames descrevendo o sinal base 46. O upmixer 42 gera um canal upmix 50 do sinal base 46, onde o upmix 50 é uma representação estimada de baixa resolução de um canal original selecionado do sinal multicanais original que tem uma resolução de tempo menor que a resolução de tempo dos valores de amostragem. O shaper 44 recebe o canal upmix 50 e a representação paramétrica de forma de onda 48 como entrada e obtém urn canal up-mixed conformado 52 que está conformado de maneira que o envelope do canal up-mixed conformado 52 está ajustado para se adaptar ao envelope do correspondente canal original dentro de uma faixa de tolerância, onde a resolução de 5 tempo é dada pela resolução de tempo da representação paramétrica de forma de onda.
Assim, o envelope do canal up-mixed conformado pode ser conformado com a resolução de tempo que é maior que a resolução de tempo definida pelos frames que constroem o sinal base 46. Portanto, a redistribuição espacial de um sinal reconstruído é garantida por uma granularidade temporal mais fina que pelo uso de frames e a qualidade de percepção pode ser ampliada com o custo de um pequeno aumento da taxa de bits devido à representação paramétrica de forma de onda 48. A Fig. 2 mostra um codificador do invento 60 tendo um redutor da resolução de tempo 62 e um calculador paramétrico de forma de onda 64. 0 codificador 60 recebe como entrada um canal de um sinal multicanais que é representado pelos frames 66, os frames compreendendo valores de amostragem 68a a 20 68g, cada valor de amostragem representando um primeiro periodo de amostragem. 0 redutor da resolução de tempo 62 está obtendo uma representação de baixa resolução 70 do canal em que um frame está tendo valores de baixa resolução 72a a 72d que são associados a um periodo de baixa resolução maior que o período de amostragem.
O calculador paramétrico de forma de onda 64 recebe a representação de baixa resolução 70 como entrada e calcula os parâmetros de forma de onda 74, em que os parâmetros de forma de onda 74 estão tendo uma resolução de tempo mais baixa que a resolução de tempo dos valores de amostragem e maior que uma resolução de tempo definida pelos frames.
Os parâmetros de forma de onda 74 dependem preferivelmente da amplitude do canal dentro de uma porção de tempo definida pelo periodo de baixa resolução. Em uma configuração preferida, os parâmetros de forma de onda 74 descrevem a energia que está contida dentro do canal em um periodo de baixa resolução. Em uma configuração preferida, os parâmetros de forma de onda são obtidos de maneira que uma medida de energia contida nos parâmetros de forma de onda 74 é obtida com relação à medida de energia de referência que é definida por um sinal down- mix recebido pelo codificador de áudio multicanais do invento.
A aplicação do conceito do invento no contexto de um codificador de áudio MPEG surround está descrita em maiores detalhes nos parágrafos seguintes para ressaltar as idéias do invento.
A aplicação do conceito do invento no domínio de sub-banda de um codificador MPEG da técnica anterior ainda ressalta a vantajosa compatibilidade reversa do conceito do invento com relação aos esquemas de codificação da técnica anterior. envelope) restaura o envelope de banda larga do sinal de saída sintetizado. Compreende um procedimento upmix modificado seguido pelo aplanamento do envelope e a reconformação da porção do sinal direta (seca) e da difusa (úmida) de cada canal de saída. Para orientar, são usadas as informações auxiliares de envelope de banda larga paramétrica reconformadas contidas no fluxo de bits.
As informações auxiliares consistem de relações (envRatio) que se referem ao envelope de sinais downmix transmitidos para o envelope de sinais de canal de entrada originais. Como o processo de conformação do envelope emprega uma operação de extração de envelope nos diferentes sinais, o processo de extração de envelope deverá ser primeiro descrito em maiores detalhes. Deve ser notado que dentro do esquema de codificação MPEG, os canais são manipulados em uma representação obtida por um banco de filtros hibrido, isto é, dois filtros consecutivos são aplicados a um canal de entrada. Um primeiro banco de filtros obtém uma representação de um canal de entrada em que uma pluralidade de intervalos de freqüência é descrita de forma independente por parâmetros tendo uma resolução de tempo inferior à da resolução de tempo dos valores de amostragem do canal de entrada. Essas bandas paramétricas são a seguir indicadas pela letra K. Algumas bandas paramétricas são subsequentemente filtradas por um banco adicional de filtros que está ainda subdividindo algumas das bandas de frequências do primeiro banco de filtros em uma ou mais bandas de freqüência finitas com representações que são indicadas como k nos parágrafos seguintes. Em outras palavras, cada banda paramétrica K pode ter associado mais do que um indice hibrido k. As Figs. 3a e 3b mostram uma tabela que associa várias bandas paramétricas aos correspondentes parâmetros híbridos. O parâmetro híbrido k é dado na primeira coluna 80 da tabela onde a banda paramétrica associada K é dada em uma das colunas 82a ou 82b. A aplicação da coluna 82a ou 82b depende de um parâmetro 84 (decType) que indica duas diferentes configurações possíveis de um banco de filtros decodificador MPEG.
Deve ainda ser notado que os parâmetros associados a um canal são processados de maneira dirigida a frames, onde um único frame tem n intervalos de tempo, e onde para cada intervalo de tempo n existe um único parâmetro y para cada índice híbrido k. Os intervalos de tempo n são também chamados de slots e os parâmetros associados são indicados como yn,k. Para a estimativa do envelope normalizado, as energias das bandas paramétricas são calculadas com yn,k sendo o sinal de entrada para cada slot de um frame:
Figure img0002
A soma inclui todos os k que estiverem sendo atribuídos a todas as bandas paramétricas K de acordo com a tabela mostrada nas Figs. 3a e 3b. Subsequentemente, a energia total da banda paramétrica no frame de cada banda paramétrica é calculada como
Figure img0003
Com a sendo um fator de pesagem que corresponde a um IIR de primeira ordem passa baixas com 400 ms de constante de tempo, t indica o índice do frame, sFreq a taxa de amostragem do sinal de entrada, e 64 representa o fator de down-sample do banco de filtros. A energia média em um frame é calculada como
Figure img0004
Figure img0005
A relação dessas energias é determinada para obter pesos para o branqueamento espectral:
Figure img0006
O envelope de banda larga é obtido pela soma das contribuições pesadas das bandas paramétricas, normalizando e calculando a raiz quadrada
Figure img0007
Após a extração do envelope, é feito o processo 10 de conformação do envelope, que consiste de um aplanamento do envelope de som direto e difuso de cada canal de saida, seguido por uma reconformação na direção do envelope alvo. Isto resulta em uma curva de ganho sendo aplicada à porção do sinal direto e difuso de cada canal de saída.
No caso de um esquema de codificação MPEG surround compatível, devem ser distinguidas uma configuração 5-1-5 e uma 5-2-5 . Para a configuração 5-1-5, o envelope alvo é obtido estimando o envelope do Envl)mx down mix transmitido e depois 20 escalando-o com relações de codificador transmitido e de envelope requantizado envRaüou‘s'c,l<,K' . A curva de ganho de todos os slots em um frame é calculada para cada canal de saída, estimando o envelope Env1;;!^;^ do sinal direto e difuso respectivamente e it trCi yU ijjit relacionando-o com o envelope alvo
Figure img0008
Para as configurações 5-2-5, o envelope alvo de L e Ls é obtido a partir do envelope down mix do sinal transmitido compativel com o canal esquerdo Envümxl , para R e Rs é usado o down 5 mix transmitido compatível com o canal direito para obter Envl)mxli .
O canal central é obtido a partir da soma dos envelopes de down mix do sinal transmitido compativel com os canais esquerdo e direito. A curva de ganho é calculada para cada canal de saída por meio da estimativa do envelope Env‘j;^^e do sinal direto e difuso 10 respectivamente e o relacionando com o envelope alvo
Figure img0009
Para todos os canais, a curva de ganho de ajuste do envelope é aplicada como
Figure img0010
Com k iniciando na sub-banda híbrida transversal e para n = 0,...,numS!ots -1 .
Após a conformação de envelope dos sinais úmido e seco separadamente, o som conformado direto e difuso é mixado 20 dentro do domínio de sub-banda de acordo com a seguinte fórmula:
Figure img0011
Ficou demonstrado nos parágrafos anteriores ser vantajosamente possível implementar o conceito do invento dentro de um esquema de codificação da técnica anterior, que se baseia na codificação MPEG surround. A presente invenção também usa uma representação já existente de domínio de sub-banda dos sinais a serem manipulados, introduzindo mais uma pequena ação de computador. Para aumentar a eficiência de uma implementação do conceito do invento em uma codificação MPEG de áudio multicanais, são preferidas alterações adicionais na conformação de upmixing e temporal de envelope.
Se a conformação guiada de envelope estiver habilitada, os sinais direto e difuso são sintetizados separadamente usando uma pós-mixagem modificada no domínio de sub- banda híbrida de acordo com
Figure img0012
com kQ indicando a sub-banda híbrida transversal.
Como pode ser visto nas equações acima, as saídas diretas mantêm o sinal direto, o sinal difuso para as bandas inferiores e o sinal residual (se presente). As saídas difusas 20 proporcionam o sinal difuso para as bandas superiores.
Aqui, k0 indica a sub-banda híbrida transversal de acordo com a Fig. 4. A Fig. 4 mostra uma tabela que dá a sub- banda híbrida transversal k0 na dependência das duas configurações possíveis de decodificador indicadas pelo parâmetro 84 (decType).
Se TES for usada em combinação com a conformação guiada de envelope, o processamento TES é um pouco adaptado para o desempenho ideal: Ao invés dos sinais downmix, os sinais upmix diretos reconfigurados sâo usados para a conformação de estimativa do filtro: %c ydirect, c
Independente do modo 5-1-5 ou 5-2-5, todos os cálculos TES são feitos adequadamente, decanal a canal. Além disso, a etapa de mixagem dos sinais direto e difuso é omitida na conformação guiada de envelope, e então como feita pela TES.
Se a TP for usada em combinação com a conformação guiada de envelope, o processamento TP é um pouco mais adaptado para o desempenho ideal:
Ao invés de um downmix comum (obtido do sinal multicanais original), o sinal upmix direto reconformado de cada canal é usado para extrair o envelope alvo de cada canal. ydirect ydirect
Independente do modo 5-1-5 ou 5-2-5 todos os cálculos TP são feitos de acordo com um procedimento canal a canal. Além disso, a etapa de mixagem do sinal direto e difuso é omitida na conformação guiada de envelope, sendo feita pela TP.
Para uma maior ênfase e provar a compatibilidade reversa do conceito do invento com a codificação MPEG de áudio, as figuras a seguir mostram definições e funções de fluxos de bits definidas como sendo totalmente compatíveis reversamente e, além disso, suportando dados de reconformação de envelope quantizado. A Fig. 5 mostra uma sintaxe geral que descreve a configuração espacial especifica de um fluxo de bits.
Em uma primeira parte 90 da configuração, as variáveis estão relacionadas com a codificação MPEG da técnica anterior que define, por exemplo, se a codificação residual é aplicada ou dando indicações sobre os esquemas de decorrelação a 5 serem aplicados. Essa configuração pode ser facilmente estendida por uma segunda parte 92 que descreve a configuração modificada quando o conceito do invento da conformação guiada de envelope for aplicado.
Em particular, a segunda parte utiliza uma 10 variável bsTempShapeConfig, indicando a configuração da conformação de envelope aplicável pelo decodificador. A Fig. 6 mostra uma forma reversamente compativel de interpretação de quatro bits consumida pela referida variável. Como pode ser visto na Fig. 6, os valores variáveis de 4 a 7 15 (indicados na linha 94) indicam o uso do conceito do invento e, além disso, uma combinação do conceito do invento com os mecanismos de conformação da técnica anterior TP e TES. A Fig. 7 revela a sintaxe proposta para um esquema de codificação de entropia como é implementado em uma 20 configuração preferida da presente invenção. Além disso, as informações auxiliares de envelope são quantizadas com uma regra de quantização de cinco etapas. Em uma primeira parte do pseudocódigo apresentado na Fig. 7, a conformação de envelope temporal é habilitada para todos canais de saída desejados, onde em uma segunda parte 102 do código apresentado, é necessária a reconformação de envelope. Isto está indicado pela variável bsTempShapeConfig mostrada na Fig. 6. invenção, é usada a quantização de cinco etapas e os valores quantizados são codificados em conjunto com as informações, caso de um a oito valores idênticos consecutivos tiverem ocorrido dentro do fluxo de bits dos parâmetros de conformação de envelope. 5 Deve ser notado que, em princípio, é possível uma quantização mais fina da quantização proposta de cinco etapas, que pode então ser indicada por uma variável bsEnvquantMode como mostrada na Fig. 7b. Apesar de ser possível em princípio, a presente implementação introduz somente uma quantização válida. A Fig. 8 mostra um código que é adaptado para a obtenção dos parâmetros quantizados da representação codificada de Huffman. Como já mencionado, as informações combinadas referentes ao valor quantizado e ao número de repetições do valor em questão são representadas por uma única palavra código de Huffman. A 15 decodificação Huffman, portanto, compreende uma primeira componente 104 que inicia um loop sobre os canais desejados de saída, e uma segunda componente 106 que recebe os valores codificados de cada canal individual por meio da transmissão das palavras código de Huffman e recepção dos valores paramétricos 20 associados e os dados de repetição como indicados na Fig. 9. A Fig. 9 mostra o livro código associado de Huffman que tem 40 entradas, já que para os 5 diferentes valores de parâmetros 110, é prevista uma taxa de repetição máxima de 8. Cada palavra código de Huffman 112, portanto, descreve uma 25 combinação do parâmetro 110 com o número de ocorrências consecutivas 114.
Dados os valores paramétricos decodificados de Huffman, as relações de envelopes usadas para a conformação guiada de envelope são obtidas a partir dos dados de reconformação transmitidos de acordo com a seguinte equação:
Figure img0013
com w = 0 numSIots -1 e X e oc indicando o canal de saida de acordo com a Fig. 10. A Fig. 10 mostra uma tabela que está associando a variável loop oc 120, como usada pelas tabelas e expressões anteriores com os canais de saídas 122 de um sinal multicanais reconstruído.
Como ficou demonstrado pelas Figuras 3a a 9, é facilmente possível uma aplicação do conceito do invento nos esquemas de codificação da técnica anterior, resultando em um aumento da qualidade perceptual, enquanto é mantida toda a compatibilidade reversa. A Fig. 11 mostra um gravador ou transmissor de áudio do invento 330 que tem um codificador 60, uma interface de entrada 332 e uma interface de saída 334.
Pode ser enviado um sinal de áudio na interface de entrada 332 do transmissor/gravador 330. O sinal de áudio é 20 codificado por um codificador do invento 60 dentro do transmissor/gravador e a representação codificada sai na interface de saída 334 do transmissor/gravador 330. A representação codificada pode então ser transmitida ou armazenada em um meio de armazenagem. A Fig. 12 mostra um receptor do invento ou reprodutor de áudio entrada de fluxo de 340, bits tendo um decodificador do invento 40, uma 342 e uma saída de áudio 344.
Um fluxo de bits pode ser enviado para a entrada 342 do receptor/reprodutor de áudio do invento 340. O fluxo de bits é então decodificado pelo decodificador 40 e o sinal decodificado é enviado ou tocado na saida 344 do receptor/reprodutor de áudio do invento 340. A Fig. 13 mostra um sistema de transmissão compreendendo um transmissor do invento 330, e um receptor do invento 340.
A entrada de sinal de áudio na interface de entrada 332 do transmissor 330 é codificada e transferida da saida 334 do transmissor 330 para a entrada 342 do receptor 340. 0 receptor decodifica o sinal de áudio e faz o playback ou envia o sinal de áudio para sua saida 344.
Resumindo, a presente invenção proporciona soluções aperfeiçoadas descrevendo, por exemplo, Uma maneira para o cálculo de um envelope de banda larga adequado e estável que minimize a distorção percebida Um método otimizado para codificar as informações auxiliares de envelope de uma maneira que sejam representadas com relação ao (normalizadas em relação a) envelope do sinal downmix e que assim minimize o excesso de taxa de bits
Um esquema de quantização para que as informações de envelope sejam transmitidas Uma adequada sintaxe de fluxo de bits para a transmissão dessas informações auxiliares Um método eficiente para a manipulação de envelopes de banda larga no dominio de sub-banda QMF Um conceito de como os tipos de processamento (1) e (2), como acima descritos, podem ser unificados dentro de uma única arquitetura, que pode recuperar a fina distribuição espacial do sinal multicanais no tempo, caso as informações auxiliares espaciais existirem descrevendo os envelopes originais de canal temporal. Caso nenhuma dessas informações seja enviada no 5 fluxo de bits espacial (por exemplo, devido às restrições na taxa de bits das informações auxiliares disponíveis), o processamento recua para um tipo de (1) processamento que ainda pode realizar a correta conformação temporal do som decorrelacionado (apesar de não individualmente por canal).
Apesar de o conceito da invenção acima descrita ter sido extensamente descrito em sua aplicação em esquemas de codificação MPEG existentes, é óbvio que o conceito do invento pode ser aplicado a qualquer outro tipo de codificação, em que as características de áudio espacial devam ser preservadas.
O conceito do invento da introdução ou do uso de um sinal intermediário para a conformação do envelope, isto é, a energia de um sinal com uma resolução de tempo aumentada, pode ser aplicado não somente no domínio da freqüência, como ilustrado pelas figuras, mas também no domínio do tempo onde, por exemplo, 20 uma redução ria resolução de tempo e, portanto, uma redução na taxa exigida de bits pode ser alcançada fazendo a média dos espaços de tempo consecutivos ou somente levando em conta cada enésimo valor de amostra de uma representação de amostras de um sinal de áudio. Apesar de o conceito do invento, como ilustrado nos parágrafos anteriores, incorporar um branqueamento espectral dos sinais processados, a idéia de ter um sinal de resolução intermediária também pode ser incorporada sem o branqueamento espectral.
Dependendo de determinadas exigências de implementação dos métodos do invento, os métodos do invento podem ser implementados em hardware ou em software. A implementação pode ser feita usando um meio digital de armazenagem, em particular um disco, DVD ou um CD dotado de armazenamento de sinais de controle de leitura eletrônica, que cooperam com um sistema de computador programável, de maneira que os métodos do invento possam ser realizados. Em geral, a presente invenção é, portanto, um produto de programa de computador com o armazenamento de um código de programas em um portador de leitura por máquina, o código de programa operando para a realização dos métodos do invento quando o produto de programa de computador opera em um computador. Em outras palavras, os métodos do invento são, portanto, um programa de computador tendo um código de programa para a realização de pelo menos um dos métodos do invento quando o programa de computador opera em um computador.
Apesar do exposto ter sido particularmente mostrado e descrito com referência a suas configurações particulares, será compreendido pelos técnicos no assunto que várias outras alterações na forma e nos detalhes podem ser feitas sem abandonar seu espirito e escopo. Será compreendido que várias alterações podem ser feitas para a adaptação das diferentes configurações sem abandonar os conceitos mais amplos ora revelados e englobados pelas reivindicações que seguem.

Claims (27)

1. Decodificador (40) para a geração de um sinal de saída multicanais com base em um sinal base (46) obtido de um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base (46) é menor que o número de canais do sinal multicanal original, o sinal base (46) tendo um frame (66), o frame (66) compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda (48), representando uma forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação paramétrica de forma de onda (48) incluindo uma sequência de parâmetros de forma de onda intermediária tendo uma resolução de tempo intermediária menor que a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame (66), caracterizado por: um upmixer (42) (42) para a geração de uma pluralidade de canais upmixed tendo uma resolução de tempo maior que a resolução intermediária e para obter uma representação de resolução intermediária do sinal base (46) usado para gerar os canais upmixed; e um shaper para a obtenção de uma representação paramétrica de forma de onda (48) de referência da representação de resolução intermediária do sinal base (46) e para a conformação de um canal upmixed selecionado usando a representação paramétrica de forma de onda (48) de referência e os parâmetros intermediários de forma de onda do canal original selecionado que correspondem ao canal upmixed selecionado.
2. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o upmixer (42) ainda opera para obter uma representação de resolução intermediária do sinal base (46).
3. Decodificador, de acordo com a reivindicação 2, caracterizado pelo fato de que o upmixer (42) opera para obter a representação de resolução intermediária do sinal base (46) usando um banco de filtros, de forma que a representação de resolução intermediária do sinal base (46) é obtida em um domínio de banco de filtros.
4. Decodificador, de acordo com a reivindicação 3, caracterizado pelo fato de que o banco de filtros é um banco de filtros modulado complexo.
5. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o upmixer (42) tem um ou mais decorrelatores para a obtenção de um ou mais sinais decorrelacionados do sinal base (46).
6. Decodificador, de acordo com a reivindicação 5, caracterizado pelo fato de que o upmixer (42) opera de maneira que a geração dos canais upmixed inclui uma combinação linear dos canais do sinal base (46) e do um ou mais sinais decorrelacionados.
7. Decodificador, de acordo com a reivindicação 6, caracterizado pelo fato de que o shaper (44) opera para conformar o canal upmixed selecionado de maneira que uma primeira parte do canal upmixed selecionado obtido do sinal base (46) seja conformado de forma independente de uma segunda parte do canal upmixed selecionado obtido de um ou mais sinais decorrelacionados.
8. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o shaper opera para usar parâmetros de forma de onda intermediária que descrevem a medida de resistência de sinal da representação de resolução intermediária do canal selecionado.
9. Decodificador, de acordo com a reivindicação 8, caracterizado pelo fato de que o shaper (44) opera pra usar os parâmetros de forma de onda intermediária que descrevem a medida de resistência de sinal tendo uma amplitude ou uma medida de energia.
10. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o shaper (44) opera para conformar o canal upmixed selecionado de maneira que a conformação compreenda uma combinação dos parâmetros da representação paramétrica de forma de onda (48) e da representação paramétrica de forma de onda (48) de referência.
11. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o shaper (44) opera pra obter uma representação espectralmente plana da representação de resolução intermediária do sinal base (46), a representação espectralmente plana tendo um espectro plano de freqüência, e para obter a representação paramétrica de forma de onda (48) de referência da representação espectralmente plana.
12. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o shaper (44) ainda está adaptado para conformar o canal upmixed selecionado usando outros parâmetros de forma de onda tendo a baixa resolução de tempo definida pela taxa de repetição de frame.
13. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que tem ainda uma interface de saída (334) para gerar o sinal de saída multicanais dotado de alta resolução de tempo usando o canal upmixed selecionado conformado.
14. Decodificador, de acordo com a reivindicação 13, caracterizado pelo fato de que a interface de saída (334) opera para gerar o sinal de saída multicanais, de maneira que a geração do sinal de saída multicanais compreende uma síntese de uma representação de banco de filtros de uma pluralidade de canais upmixed conformados, resultando em uma representação no domínio do tempo da pluralidade de canais upmixed conformados tendo uma alta resolução de tempo.
15. Decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que o shaper (44) tem um dequantizador para a obtenção da representação paramétrica de forma de onda (48) de uma representação quantizada dela, usando uma regra de dequantização tendo menos que 10 etapas de quantização.
16. Decodificador, de acordo com a reivindicação 15, caracterizado pelo fato de que o shaper (44) tem um decodificador (40) de entropia para obter a representação quantizada da representação paramétrica de forma de onda (48) de uma representação codificada de entropia dele.
17. Decodificador, de acordo com a reivindicação 16, caracterizado pelo fato de que o decodificador (40) de entropia opera para usar um livro código de Huffman para a obtenção da representação quantizada da representação paramétrica de forma de onda (48).
18. Decodificador, de acordo com a reivindicação 3, caracterizado pelo fato de que o shaper (44) opera para conformar o canal upmixed selecionado no domínio do tempo.
19. Codificador (60) para a geração de uma representação paramétrica de forma de onda (48) de um canal de um sinal multicanais dotado de um frame (66), o frame (66) compreendendo valores de amostragem tendo um período de amostragem, o codificador sendo caracterizado por: um redutor da resolução de tempo(62)para obter uma representação de baixa resolução (70) do canal usando os valores de amostragem do frame (66), a representação de baixa resolução (70) tendo valores de baixa resolução com a associação de um período de baixa resolução maior que o período de amostragem e para a obtenção de uma representação de baixa resolução (70) de referência de um sinal base (46) obtido do sinal multicanais, o número de canais do sinal base (46) sendo menor que o número de canais do sinal multicanais; e um calculador paramétrico de forma de onda (64) para o cálculo da representação paramétrica de forma de onda (48) que representa a forma de onda da representação de baixa resolução (70), e um calculador paramétrico de forma de onda (64) adaptado para gerar uma sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem e maior que a resolução de tempo definida por uma taxa de repetição de frame (66), de forma que o calculador paramétrico de forma de onda (64) opera para calcular os parâmetros de forma de onda usando a representação de baixa resolução (70) de referência e a representação de baixa resolução (70) do canal.
20. Codificador (60), de acordo com a reivindicação 19, caracterizado pelo fato de que o redutor da resolução de tempo (62)tem um banco de filtros para a obtenção da representação de baixa resolução (70) do canal, a representação de baixa resolução do canal sendo obtida em um domínio de banco de filtros.
21. Codificador (60), de acordo com a reivindicação 19, caracterizado pelo fato de que o calculador paramétrico de forma de onda (64) opera de maneira que o cálculo dos parâmetros de forma de onda compreende uma combinação de medidas de amplitude da representação de baixa resolução (70) de referência e da representação de baixa resolução do canal.
22. Codificador (60), de acordo com a reivindicação 19, caracterizado pelo fato de que o calculador paramétrico de forma de onda (64) tem um quantizador para a obtenção de uma representação quantizada dos parâmetros de forma de onda.
23. Codificador (60), de acordo com a reivindicação 22, caracterizado pelo fato de que o calculador paramétrico de forma de onda (64) tem um codificador (60) de entropia para obter uma representação codificada de entropia da representação quantizada dos parâmetros de forma de onda.
24. Método para a geração de um sinal de saída multicanais com base em um sinal base (46) obtido de um sinal multicanais original tendo um ou mais canais, o número de canais do sinal base (46) sendo menor que o número de canais do sinal multicanais original, o sinal base (46) tendo um frame (66), o frame (66) compreendendo valores de amostragem tendo uma alta resolução, e com base em uma representação paramétrica de forma de onda (48) representando uma forma de onda de uma representação de resolução intermediária de um canal original selecionado do sinal multicanais original, a representação paramétrica de forma de onda (48) incluindo uma sequência de parâmetros de forma de onda intermediária dotada de uma resolução de tempo intermediária menor que a alta resolução de tempo dos valores de amostragem e maior que uma baixa resolução de tempo definida por uma taxa de repetição de frame (66), o método caracterizado por: obter uma representação de resolução intermediária do sinal base (46) usada para gerar os canais upmixed; gerar uma pluralidade de canais upmixed tendo uma resolução de tempo maior que a resolução intermediária; obter uma representação paramétrica de forma de onda (48) de referência da representação de resolução intermediária do sinal base (46); e conformar um canal upmixed selecionado usando a representação paramétrica de forma de onda (48) de referência e os parâmetros intermediários de forma de onda do canal original selecionado que correspondem ao canal upmixed selecionado.
25. Método para a geração de uma representação paramétrica de forma de onda de um canal de um sinal multicanais tendo um frame (66), o frame (66) compreendendo valores de amostragem tendo um período de amostragem, o método caracterizado por: obter uma representação de baixa resolução do canal usando os valores de amostragem do frame (66), a representação de baixa resolução tendo valores de baixa resolução tendo associado um período de baixa resolução maior que o período de amostragem; obter uma representação de baixa resolução de referência de um sinal base (46) obtido a partir do sinal multicanais, o número de canais do sinal base (46) sendo menor que o número de canais do sinal multicanais; e calcular a representação paramétrica de forma de onda (48) que representa a forma de onda da representação de baixa resolução usando a representação de baixa resolução de referência e a representação de baixa resolução do canal, onde a representação paramétrica de forma de onda (48) compreende uma sequência de parâmetros de forma de onda, a sequência de parâmetros de forma de onda tendo uma resolução de tempo menor que a resolução de tempo dos valores de amostragem e maior que a resolução de tempo definida pela taxa de repetição de frame (66).
26. Sistema de transmissão, caracterizado por um transmissor (330) e um receptor (340), o transmissor (330) tendo um codificador (60) da reivindicação 19; e o receptor (340) tendo um decodificador (40) da reivindicação 1.
27. Método de transmissão e recepção, caracterizado por o método de transmissão tendo um método da reivindicação 25; e o método de recepção tendo um método da reivindicação 24.
BRPI0618002-7A 2005-10-12 2006-08-31 método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais BRPI0618002B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US72638905P 2005-10-12 2005-10-12
US60/726,389 2005-10-12
US11/363,985 2006-02-27
US11/363,985 US7974713B2 (en) 2005-10-12 2006-02-27 Temporal and spatial shaping of multi-channel audio signals
PCT/EP2006/008534 WO2007042108A1 (en) 2005-10-12 2006-08-31 Temporal and spatial shaping of multi-channel audio signals

Publications (2)

Publication Number Publication Date
BRPI0618002A2 BRPI0618002A2 (pt) 2011-08-16
BRPI0618002B1 true BRPI0618002B1 (pt) 2021-03-09

Family

ID=37179043

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0618002-7A BRPI0618002B1 (pt) 2005-10-12 2006-08-31 método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais

Country Status (16)

Country Link
US (3) US7974713B2 (pt)
EP (1) EP1934973B1 (pt)
JP (1) JP5102213B2 (pt)
KR (1) KR100947013B1 (pt)
CN (1) CN101356571B (pt)
AU (1) AU2006301612B2 (pt)
BR (1) BRPI0618002B1 (pt)
CA (1) CA2625213C (pt)
ES (1) ES2770146T3 (pt)
IL (1) IL190765A (pt)
MY (1) MY144518A (pt)
NO (1) NO343713B1 (pt)
PL (1) PL1934973T3 (pt)
RU (1) RU2388068C2 (pt)
TW (1) TWI332192B (pt)
WO (1) WO2007042108A1 (pt)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793125B2 (en) * 2004-07-14 2014-07-29 Koninklijke Philips Electronics N.V. Method and device for decorrelation and upmixing of audio channels
KR20070065401A (ko) * 2004-09-23 2007-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체
US9080894B2 (en) 2004-10-20 2015-07-14 Electro Industries/Gauge Tech Intelligent electronic device for receiving and sending data at high speeds over a network
US7304586B2 (en) 2004-10-20 2007-12-04 Electro Industries / Gauge Tech On-line web accessed energy meter
US7747733B2 (en) 2004-10-25 2010-06-29 Electro Industries/Gauge Tech Power meter having multiple ethernet ports
US8160824B2 (en) 2005-01-27 2012-04-17 Electro Industries/Gauge Tech Intelligent electronic device with enhanced power quality monitoring and communication capabilities
US8620608B2 (en) 2005-01-27 2013-12-31 Electro Industries/Gauge Tech Intelligent electronic device and method thereof
US8190381B2 (en) 2005-01-27 2012-05-29 Electro Industries/Gauge Tech Intelligent electronic device with enhanced power quality monitoring and communications capabilities
US8121801B2 (en) * 2005-01-27 2012-02-21 Electro Industries/Gauge Tech System and method for multi-rate concurrent waveform capture and storage for power quality metering
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
WO2007049881A1 (en) 2005-10-26 2007-05-03 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR20080071971A (ko) * 2006-03-30 2008-08-05 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
DE602007004061D1 (de) * 2007-02-06 2010-02-11 Oticon As Abschätzung der eigenen Stimmaktivität mit einem Hörgerätsystem aufgrund des Verhältnisses zwischen Direktklang und Widerhall
US11307227B2 (en) 2007-04-03 2022-04-19 Electro Industries/Gauge Tech High speed digital transient waveform detection system and method for use in an intelligent electronic device
US10845399B2 (en) 2007-04-03 2020-11-24 Electro Industries/Gaugetech System and method for performing data transfers in an intelligent electronic device
US9989618B2 (en) 2007-04-03 2018-06-05 Electro Industries/Gaugetech Intelligent electronic device with constant calibration capabilities for high accuracy measurements
US20130275066A1 (en) 2007-04-03 2013-10-17 Electro Industries/Gaugetech Digital power metering system
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8504377B2 (en) * 2007-11-21 2013-08-06 Lg Electronics Inc. Method and an apparatus for processing a signal using length-adjusted window
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8909361B2 (en) * 2008-06-19 2014-12-09 Broadcom Corporation Method and system for processing high quality audio in a hardware audio codec for audio transmission
WO2010003479A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
CN102811034A (zh) 2011-05-31 2012-12-05 财团法人工业技术研究院 信号处理装置及信号处理方法
US8831515B2 (en) 2011-10-12 2014-09-09 Broadcom Corporation Shaped load modulation in a near field communications (NFC) device
WO2013058634A2 (ko) 2011-10-21 2013-04-25 삼성전자 주식회사 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
CN104584123B (zh) * 2012-08-29 2018-02-13 日本电信电话株式会社 解码方法、以及解码装置
CN103871414B (zh) * 2012-12-11 2016-06-29 华为技术有限公司 一种多声道语音信号的时标调制方法和装置
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
KR101729930B1 (ko) 2013-02-14 2017-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN103680513B (zh) * 2013-12-13 2016-11-02 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
US20160018443A1 (en) * 2014-07-21 2016-01-21 Tektronix, Inc. Method for determining a correlated waveform on a real time oscilloscope
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
BR112017003218B1 (pt) * 2014-12-12 2021-12-28 Huawei Technologies Co., Ltd. Aparelho de processamento de sinal para aprimorar um componente de voz dentro de um sinal de áudio multicanal
JP2016126037A (ja) * 2014-12-26 2016-07-11 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP6804528B2 (ja) * 2015-09-25 2020-12-23 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
WO2017132366A1 (en) 2016-01-26 2017-08-03 Dolby Laboratories Licensing Corporation Adaptive quantization
AU2017219696B2 (en) 2016-02-17 2018-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
US10958695B2 (en) * 2016-06-21 2021-03-23 Google Llc Methods, systems, and media for recommending content based on network conditions
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
AU2018368589B2 (en) * 2017-11-17 2021-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
WO2020115311A1 (en) 2018-12-07 2020-06-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
EP4085660A4 (en) 2019-12-30 2024-05-22 Comhear Inc. METHOD FOR PROVIDING A SPATIAL SOUND FIELD
CN113702893B (zh) * 2021-09-23 2023-11-21 云南电网有限责任公司电力科学研究院 一种直流互感器暂态波形传变一致性评价方法及装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4189625A (en) * 1978-03-13 1980-02-19 Strandberg Terry W Method and apparatus for processing dual frequency digital information signals
DE2916308C3 (de) * 1979-04-23 1982-02-25 Deutsche Vereinigte Schuhmaschinen Gmbh, 6000 Frankfurt Klebepresse zum Ankleben von Laufsohlen an aufgeleistetes Schuhwerk
US4285058A (en) 1980-02-26 1981-08-18 Fisher Charles B Waveform correction by sampling
TW226035B (en) 1991-12-13 1994-07-01 Nat Science Committee A process for producing anisotropic ribbon of R-Fe-M-B and the produced anisotropic resin bond
FR2700383B1 (fr) 1993-01-11 1995-02-10 Framatome Sa Echangeur de chaleur dans lequel l'alimentation en fluide secondaire s'effectue en partie haute par un boîtier d'alimentation ouvert vers le bas.
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
KR0174084B1 (ko) * 1995-09-25 1999-04-01 이준 Mpeg-2 다채널 오디오 복호화기의 역변환기
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US6865232B1 (en) * 1996-09-02 2005-03-08 Stmicroelectronics N.V. Multi-carrier transmission systems
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6611212B1 (en) 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7418043B2 (en) * 2000-07-19 2008-08-26 Lot 41 Acquisition Foundation, Llc Software adaptable high performance multicarrier transmission protocol
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
TW561451B (en) 2001-07-27 2003-11-11 At Chip Corp Audio mixing method and its device
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
TWI226601B (en) 2003-01-17 2005-01-11 Winbond Electronics Corp System and method of synthesizing a plurality of voices
JP4431568B2 (ja) 2003-02-11 2010-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化
WO2005027094A1 (fr) * 2003-09-17 2005-03-24 Beijing E-World Technology Co.,Ltd. Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio
TWI226035B (en) 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
TWI229318B (en) 2003-10-29 2005-03-11 Inventec Multimedia & Telecom Voice processing system and method
JP4579930B2 (ja) * 2004-01-30 2010-11-10 フランス・テレコム 次元ベクトルおよび可変解像度量子化
JPWO2005081229A1 (ja) 2004-02-25 2007-10-25 松下電器産業株式会社 オーディオエンコーダ及びオーディオデコーダ
EP1914722B1 (en) * 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals

Also Published As

Publication number Publication date
TW200746044A (en) 2007-12-16
RU2008118333A (ru) 2009-11-20
RU2388068C2 (ru) 2010-04-27
NO343713B1 (no) 2019-05-13
TWI332192B (en) 2010-10-21
CN101356571B (zh) 2012-05-30
CN101356571A (zh) 2009-01-28
MY144518A (en) 2011-09-30
JP5102213B2 (ja) 2012-12-19
ES2770146T3 (es) 2020-06-30
AU2006301612B2 (en) 2010-07-22
US20070081597A1 (en) 2007-04-12
PL1934973T3 (pl) 2020-06-01
IL190765A (en) 2013-09-30
US7974713B2 (en) 2011-07-05
WO2007042108A1 (en) 2007-04-19
NO20082176L (no) 2008-05-09
US20140126725A1 (en) 2014-05-08
KR20080059193A (ko) 2008-06-26
BRPI0618002A2 (pt) 2011-08-16
CA2625213C (en) 2012-04-10
JP2009511966A (ja) 2009-03-19
KR100947013B1 (ko) 2010-03-10
US8644972B2 (en) 2014-02-04
EP1934973B1 (en) 2019-11-13
IL190765A0 (en) 2008-11-03
EP1934973A1 (en) 2008-06-25
US9361896B2 (en) 2016-06-07
US20110106545A1 (en) 2011-05-05
CA2625213A1 (en) 2007-04-19
AU2006301612A1 (en) 2007-04-19

Similar Documents

Publication Publication Date Title
BRPI0618002B1 (pt) método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais
ES2378734T3 (es) Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal
US8515083B2 (en) Methods for improved performance of prediction based multi-channel reconstruction
US8433583B2 (en) Audio decoding
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
JP4664371B2 (ja) バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
BRPI0816556A2 (pt) codificação de áudio usando downmix
NO342863B1 (no) Konsept for kopling av gapet mellom parametrisk flerkanals audiokoding og matrise-surround flerkanalkoding
BRPI0612218B1 (pt) codificação de áudio residual adaptativa
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
TR201811059T4 (tr) Ses kaynaklarının parametrik birleşik kodlaması.
JPWO2006003891A1 (ja) 音声信号復号化装置及び音声信号符号化装置
JP2006323314A (ja) マルチチャネル音声信号をバイノーラルキュー符号化する装置
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/00 , H04S 3/00

Ipc: G10L 19/008 (2013.01), H04S 3/00 (1980.01)

B06T Formal requirements before examination [chapter 6.20 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 09/03/2021, OBSERVADAS AS CONDICOES LEGAIS.