BR112012007803B1 - Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear - Google Patents

Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear Download PDF

Info

Publication number
BR112012007803B1
BR112012007803B1 BR112012007803-8A BR112012007803A BR112012007803B1 BR 112012007803 B1 BR112012007803 B1 BR 112012007803B1 BR 112012007803 A BR112012007803 A BR 112012007803A BR 112012007803 B1 BR112012007803 B1 BR 112012007803B1
Authority
BR
Brazil
Prior art keywords
linear prediction
encoded
audio content
spectral
audio
Prior art date
Application number
BR112012007803-8A
Other languages
English (en)
Other versions
BR112012007803A2 (pt
Inventor
Guillaume Fuchs
Nikolaus Rettelbach
Tom BAECKSTROEM
Jérémie Lecomte
Jürgen Herre
Max Neuendorf
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112012007803A2 publication Critical patent/BR112012007803A2/pt
Publication of BR112012007803B1 publication Critical patent/BR112012007803B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

DECODIFICADOR DE SINAL DE ÁUDIO MULTIMODAL, CODIFICADOR DE SINAL DE ÁUDIO MULTIMODAL, MÉTODOS E PROGRAMA DE COMPUTADOR USANDO UMA CONFIGURAÇÃO DE RUÍDO COM BASE EM CODIFICAÇÃO DE PREVISÃO LINEAR. Um decodificador de sinal de áudio multimodal para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio compreende um determinador de valor espectral configurado para obter conjuntos de coeficientes espectrais decodificados para uma pluralidade de porções do conteúdo de áudio. O decodificador de sinal de áudio também compreende um processador de espectro configurado para aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio codificada em um modo de previsão linear, e aplicar uma configuração espectral a um conjunto de coeficientes espectrais decodificados, ou sua versão pré- processada, em dependência de um conjunto de parâmetros de fator de escala para uma porção do conteúdo de áudio codificada em um modo de domínio de frequência.

Description

[0001] Campo Técnico
[0002] As realizações de acordo com a presente invenção são relacionadas a um decodificador de sinal de áudio multimodal para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio.
[0003] As realizações adicionais de acordo com a invenção são relacionadas a um codificador de sinal de áudio multimodal para fornecer uma representação codificada de um conteúdo de áudio com base em uma representação de entrada do conteúdo de áudio.
[0004] As realizações adicionais de acordo com a invenção são relacionadas a um método para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio.
[0005] As realizações adicionais de acordo com a invenção são relacionadas a um método para fornecer uma representação codificada de um conteúdo de áudio com base em uma representação de entrada do conteúdo de áudio.
[0006] As realizações adicionais de acordo com a invenção são relacionadas implantando os referidos métodos.
[0007] Histórico da Invenção
A seguir, algum histórico da invenção será explicado com a finalidade de facilitar o entendimento da invenção e suas vantagens.
Durante a última década, o grande esforço foi feito para criar a possibilidade de digitalmente armazenar e distribuir conteúdos de áudio. Uma realização importante disso é a definição da norma internacional ISO/IEC 14496-3. Parte 3 dessa norma é relacionada a uma codificação e decodificação dos conteúdos de áudio, e a subparte 4 da parte 3 é relacionada à codificação geral de áudio. ISO/IEC 14496 parte 3, subparte 4 define um conceito para codificação e decodificação do conteúdo de áudio geral. Além disso, as melhorias adicionais foram propostas com a finalidade de melhorar a qualidade e/ou reduzir a taxa exigida de bit.
Além do mais, foi averiguado que o desempenho dos codificadores de áudio com base em dominio de frequência não é ideal para os conteúdos de áudio compreendendo a fala.
Recentemente, um codec unificado de fala e áudio foi proposto que eficientemente combina as técnicas de ambos os mundos, isto é, codificação de fala e codificação de áudio (vide, 20 por exemplo, Referência [1].)
Em tal codificador de áudio, alguns quadros de áudio são codificados no dominio de frequência e alguns quadros de áudio são codificados no dominio de previsão linear.
Entretanto, foi averiguado que é dificil alterar entre quadros codificados em diferentes domínios sem sacrificar uma quantidade significativa de taxa de bit.
Considerando essa situação, existe um desejo de criar um conceito para codificação e decodificação de um conteúdo de áudio compreendendo ambos o áudio de fala e geral, que permite uma realização eficiente de transições entre as porções * codificadas usando diferentes modos.
Sumário da Invenção
Uma realização de acordo com a invenção cria um decodificador de sinal de áudio multimodal para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio. O decodificador de sinal de áudio compreende um determinador de valor espectral WF 10 configurado para obter conjuntos de coeficientes espectrais decodificados para uma pluralidade de porções do conteúdo de áudio.
O decodificador de sinal de áudio multimodal também compreende um processador de espectro configurado para 15 aplicar uma configuração espectral a um conjunto dos coeficientes espectrais decodificados, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de dominio de previsão linear para uma porção do conteúdo de áudio codificado de um modo de previsão linear, e aplicar uma configuração espectral a um 20 conjunto de coeficientes espectrais decodificados, ou a sua versão pré-processada, independência de um conjunto de parâmetros de fator de escala para uma porção do conteúdo de áudio codificado em um modo de dominio de frequência. O decodificador de sinal de áudio multimodal também compreende um conversor de dominio de 25 frequência para dominio de tempo configurado para obter uma representação de dominio de tempo do conteúdo de áudio com base em um conjunto configurado de forma espectral dos coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificado no modo de previsão linear, e para também obter uma representação de dominio de tempo do conteúdo de áudio com base em um conjunto configurado de forma espectral dos coeficientes espectrais decodificados para uma porção do conteúdo de áudio 5 codificado no modo de dominio de frequência.
Esse decodificador de sinal de áudio multimodal é com base no achado de que as transições eficientes entre as porções do conteúdo de áudio codificadas em diferentes modos podem ser obtidas ao realizar uma configuração espectral no dominio de 10 frequência, i.e., uma configuração espectral de conjuntos dos coeficientes espectrais decodificados, ambos para porções do conteúdo de áudio codificadas no modo de dominio de frequência e para porções do conteúdo de áudio codificadas no modo de previsão linear. Ao assim o fazer, uma representação de dominio de tempo 15 obtida com base em um conjunto configurado de forma espectral dos coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de previsão linear está "no mesmo dominio" (por exemplo, são valores de saida das transformações de dominio de frequência para dominio de tempo do mesmo tipo de 20 transformação) como uma representação de dominio de tempo obtida com base em um conjunto configurado de forma espectral dos coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de dominio de frequência. Dessa forma, as representações de dominio de tempo de uma porção do conteúdo de 25 áudio codificada no modo de previsão linear e de uma porção do conteúdo de áudio codificada no modo de dominio de frequência podem ser combinadas eficientemente e sem artefatos inaceitáveis.
Por exemplo, as características de cancelamento de aliasing dos conversores típicos de domínio de frequência para domínio de tempo podem ser exploradas por sinais de conversão do domínio de frequência para domínio de tempo, que estão no mesmo domínio (por exemplo, ambos representam um conteúdo de áudio em um domínio de conteúdo de áudio). Dessa forma, as transições de boa qualidade podem ser obtidas entre as porções do conteúdo de áudio codificadas em diferentes modos sem exigir uma quantidade substancial de taxa de bit para permitir tais transições.
Em uma realização preferida, o decodificador de sinal de áudio multimodal ainda compreende um overlapper configurado para sobrepor e adicionar uma representação de domínio de tempo de uma porção do conteúdo de áudio codificada no modo de previsão linear com uma porção do conteúdo de áudio codificada no modo de domínio de frequência. Ao sobrepor as porções do conteúdo de áudio codificadas em diferentes domínios, a vantagem, que pode ser obtida ao inserir conjuntos de configuração de forma espectral dos coeficientes espectrais decodificados ao conversor de domínio de frequência para domínio de tempo em ambos os modos do decodificador de sinal de áudio multimodal pode ser realizada. Ao realizar a configuração espectral antes da conversão do domínio de frequência para domínio de tempo em ambos os modos do decodificador de sinal de áudio multimodal, as representações de domínio de tempo das porções dos conteúdos de áudio codificados em diferentes modos tipicamente compreendem as características muitas boas de sobreposição e adição, que permitem transições de boa qualidade sem exigir informações secundárias adicionais.
Em uma realização preferida, o conversor de domínio de frequência para domínio de tempo é configurado para obter uma representação de dominio de tempo do conteúdo de áudio para uma porção do conteúdo de áudio codificada no modo de previsão linear usando uma transformação dobrada e para obter uma representação de dominio de tempo do conteúdo de áudio para uma porção do conteúdo de áudio codificada no modo de dominio de frequência usando uma transformação dobrada. Nesse caso, o overlapper é preferivelmente configurado para sobrepor as representações de dominio de tempo de porções subsequentes do conteúdo de áudio codificadas em diferentes dos modos. De forma correspondente, as transições regulares podem ser obtidas. Devido ao fato de que uma configuração espectral seja aplicada no dominio de frequência para ambos os modos, as representações de dominio de tempo fornecidas pelo conversor de dominio de frequência para dominio de tempo em ambos os modos são compativeis e permite uma transição de boa qualidade. 0 uso da transformação dobrada apresenta uma troca melhorada entre a eficiência de qualidade e taxa de bit das transições, pois as transformações dobradas permitem as transições regulares mesmo na presença dos erros de quantização enquanto evita um código extra da taxa de bit significativo.
Em uma realização preferida, o conversor de dominio de frequência para dominio de tempo é configurado para aplicar uma transformação dobrada do mesmo tipo de transformação para obter a representação de dominio de tempo dos conteúdos de 25 áudio das porções do conteúdo de áudio codificadas em diferentes dos modos. Nesse caso, o overlapper é configurado para sobreposição e adição das representações de dominio de tempo de porções subsequentes do conteúdo de áudio codificadas em diferentes dos modos, de modo que um aliasing de dominio de tempo causado pela transformação dobrada é reduzido ou eliminado por sobreposição e adição. Esse conceito é com base no fato de que os sinais de saida da conversão do dominio de frequência para dominio 5 de tempo estão no mesmo dominio (dominio de conteúdo de áudio) para ambos os modos ao aplicar ambos os parâmetros de fator de escala e os parâmetros de dominio de previsão linear no dominio de frequência. De forma correspondente, o cancelamento de aliasing, que é tipicamente obtido ao aplicar transformações dobradas do 10 mesmo tipo de transformação para porções de sobreposição subsequentes e parcialmente de um sinal de áudio representação pode ser explorado.
Em uma realização preferida, o overlapper é configurado para sobreposição e adição de uma representação de dominio de tempo de uma primeira porção do conteúdo de áudio codificada em um primeiro dos modos, conforme fornecido por uma transformação dobrada de sintese associada, ou sua versão em escala de amplitude, porém distorcida de forma espectral, e uma representação de dominio de tempo de uma segunda porção subsequente do conteúdo de áudio codificado em um segundo dos modos, conforme fornecido por uma transformação dobrada de sintese associada, ou sua versão em escala de amplitude, porém não distorcida de forma espectral. Ao evitar nos sinais de saida da transformação dobrada de sintese para aplicar qualquer processamento de sinal (por exemplo, uma filtração ou semelhante) não comum para todos os diferentes modos de codificação usados para porções subsequentes (parcialmente sobrepostas) do conteúdo de áudio, a vantagem total pode ser obtida das características de cancelamento de aliasing da transformação dobrada.
Em uma realização preferida, o conversor de dominio de frequência para dominio de tempo é configurado para fornecer representações de dominio de tempo das porções do 5 conteúdo de áudio codificadas indiferentes dos modos, de modo que as representações de dominio de tempo fornecidas estão em um mesmo dominio de modo que são linearmente combináveis sem aplicar uma operação de filtração de configuração de sinal para uma ou ambas as representações de dominio de tempo fornecidas. Em outras 10 palavras, os sinais de saida da conversão do dominio de frequência para dominio de tempo são representações de dominio de tempo do conteúdo de áudio por si só para ambos os modos (e não sinais de excitação para uma operação de filtração de conversão de dominio de excitação para dominio de tempo).
Em uma realização preferida, o conversor de dominio de frequência para dominio de tempo é configurado para realizar uma transformação de cosseno discreta modificada inversa, para obter, como resultado da transformação de cosseno discreta modificada inversa, uma representação de dominio de tempo do 20 conteúdo de áudio em um dominio de sinal de áudio, tanto para uma porção do conteúdo de áudio codificada no modo de previsão linear quanto para uma porção do conteúdo de áudio codificada no modo de dominio de frequência.
Em uma realização preferida, o decodificador de 25 sinal de áudio multimodal compreende um determinador de coeficiente de filtro LPC configurado para obter os coeficientes decodificados de filtro LPC com base em uma representação codificada dos coeficientes de filtro LPC para uma porção do conteúdo de áudio codificada em um modo de previsão linear.
Nesse caso, o decodif icador de sinal de áudio multimodal também compreende um transformador de coeficiente de filtro configurado para transformar os coeficientes decodificados de filtro LPC em uma representação espectral, com a finalidade de obter os valores de ganho associados às diferentes frequências. Dessa forma, o coeficiente de filtro LPC pode servir como parâmetros de dominio de previsão linear. O decodificador de sinal de áudio multimodal também compreende um determinador de fator de 10 escala configurado para obter os valores decodificados de fator de escala (que servem como parâmetros de fator de escala) com base em uma representação codificada dos valores de fator de escala para uma porção do conteúdo de áudio codificada em um modo de dominio de frequência. O processador de espectro compreende um modificador 15 de espectro configurado para combinar um conjunto de coeficientes espectrais decodificados associados a uma porção do conteúdo de áudio codificada no modo de previsão linear, ou sua versão pré- processada, com os valores de ganho do modo de previsão linear, com a finalidade de obter uma versão processada de valor de ganho 20 (e, consequentemente, configurada de forma espectral) dos coeficientes espectrais (decodificados) em que as contribuições dos coeficientes espectrais decodificados, ou de sua versão pré- processada, são ponderadas em dependência dos valores de ganhos. Da mesma forma, o modificador de espectro é configurado para 25 combinar um conjunto de coeficientes espectrais decodificados associados a uma porção do conteúdo de áudio codificada no modo de dominio de frequência, ou sua versão pré-processada, com os valores decodificados de fator de escala, com a finalidade de obter uma versão processada de fator de escala (configurada de forma espectral) dos coeficientes espectrais (decodificados) em que as contribuições dos coeficientes espectrais decodificados, ou de sua versão pré-processada, são ponderadas em dependência dos 5 valores de fator de escala.
Ao usar essa abordagem, uma própria configuração de ruido pode ser obtida em ambos os modos do decodificador de sinal de áudio multimodal enquanto ainda garante que o conversor de domínio de frequência para domínio de tempo forneça sinais de 10 saida com boas características de transição nas transições entre as porções do sinal de áudio codificadas em diferentes modos.
Em uma realização preferida, o transformador de coeficiente é configurado para transformar os coeficientes decodificados de filtro LPC, que representa uma resposta de 15 impulso de domínio de tempo de um filtro de codificação de previsão linear (filtro LPC), na representação espectral usando uma transformação singular discreta de Fourier. O transformador de coeficiente de filtro é configurado para derivar os valores de ganhos de modo de previsão linear a partir da representação espectral dos coeficientes decodificados de filtro LPC, de modo que os valores de ganhos são uma função de magnitudes dos coeficientes da representação espectral. Dessa forma, a configuração espectral, que é realizada no modo de previsão linear, assume a funcionalidade de configuração de ruído de um filtro de codificação de previsão linear. De forma correspondente, o ruído de quantização da representação espectral decodificada (ou de sua versão pré-processada) é modificado de modo que o ruído de quantização é comparativamente pequeno para frequências "importantes", para as quais a representação espectral do coeficiente decodificado de filtro LPC é comparativamente grande.
Em uma realização preferida, o transformador de coeficiente de filtro e o combinador são configurados de modo que 5 uma contribuição de determinado coeficiente espectral decodificado, ou de sua versão pré-processada, para uma versão processada de ganho de determinado coeficiente espectral é determinada por uma magnitude de um valor de ganho de modo de previsão linear associado a determinado coeficiente espectral 10 decodificado.
Em uma realização preferida, o determinador de valor espectral é configurado para aplicar uma quantização inversa aos valores decodificados espectrais quantizados, com a finalidade de obter os coeficientes espectrais decodificados e inversamente quantizados. Nesse caso, o modificador de espectro é configurado para realizar uma configuração de ruido de quantização ao ajustar uma etapa efetiva de quantização para determinado coeficiente espectral decodificado em dependência de uma magnitude de um valor de ganho de modo de previsão linear associado a determinado coeficiente espectral decodificado. De forma correspondente, a configuração de ruido, que é realizada no dominio espectral, é adaptada para as características de sinal descritas pelos coeficientes de filtro LPC.
Em uma realização preferida, o decodificador de sinal de áudio multimodal é configurado para usar um quadro intermediário de inicio de modo de previsão linear com a finalidade de alterar de um quadro do modo de dominio de frequência a um quadro combinado de modo de previsão linear/modo de previsão linear excitado de código algébrico. Nesse caso, o decodificador de sinal de áudio é configurado para obter um conjunto de coeficientes espectrais decodificados para o quadro de inicio de modo de previsão linear. Da mesma forma, o decodificador 5 de áudio é configurado para aplicar uma configuração espectral ao conjunto de coeficientes espectrais decodificados para o quadro de inicio de modo de previsão linear, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear lá associados. 0 decodificador de sinal de áudio também é 10 configurado para obter uma representação de domínio de tempo do quadro de início de modo de previsão linear com base em um conjunto configurado de forma espectral dos coeficientes espectrais decodificados. 0 decodificador de áudio também é configurado para aplicar uma janela de início com uma inclinação 15 de transição de lado esquerdo comparativamente longa e uma inclinação de transição de lado direito comparativamente curta à representação de domínio de tempo do quadro de início de modo de previsão linear. Ao assim o fazer, uma transição entre um quadro do modo de domínio de frequência e um quadro combinado de modo de 20 previsão linear/modo de previsão linear excitado de código algébrico é criada que compreende boas características de sobreposição e adição com o quadro precedente do modo de domínio de frequência e que, ao mesmo tempo, disponibiliza os coeficientes do domínio de previsão linear para uso pelo quadro subsequente 25 combinado de modo de previsão linear/modo de previsão linear excitado de código algébrico.
Em uma realização preferida, o decodificador de sinal de áudio multimodal é configurado para sobrepor uma porção de lado direito de uma representação de dominio de tempo de um quadro do modo de dominio de frequência precedente ao quadro de inicio de modo de previsão linear com uma porção de lado esquerdo de uma representação de dominio de tempo do quadro de inicio de 5 modo de previsão linear, para obter uma redução ou cancelamento de um aliasing de dominio de tempo. Essa realização é com base no achado que as boas características de cancelamento de aliasing de domínio de tempo são obtidas ao realizar uma configuração espectral do quadro de início de modo de previsão linear no 10 domínio de frequência, pois uma configuração espectral do quadro anterior do modo de domínio de frequência também é realizada no domínio de frequência.
Em uma realização preferida, o decodificador de sinal de áudio é configurado para usar os parâmetros de domínio de 15 previsão linear associados ao quadro de início de modo de previsão linear com a finalidade de inicializar um decodificador de modo de previsão linear excitado de código algébrico para decodificar pelo menos uma porção do quadro combinado de modo de previsão linear/modo de previsão linear excitado de código algébrico. Dessa 20 forma, a necessidade de transmitir um conjunto adicional de parâmetros de domínio de previsão linear, que existe em algumas abordagens convencionais, é eliminada. Ao invés disso, o quadro de início de modo de previsão linear permite criar uma boa transição a partir de um quadro anterior do modo de domínio de frequência, 25 ainda por um período de sobreposição comparativamente longo, e inicializar um decodificador de modo de previsão linear excitado de código algébrico (ACELP). Dessa forma, as transições com boa qualidade de áudio podem ser obtidas com o grau muito alto de eficiência.
Outra realização de acordo com a invenção cria um codificador de sinal de áudio multimodal para fornecer uma representação codificada de um conteúdo de áudio com base em uma representação de entrada do conteúdo de áudio. O codificador de áudio compreende um conversor de dominio de tempo para dominio de frequência de tempo configurado para processar a representação de entrada do conteúdo de áudio, para obter uma representação do conteúdo de áudio de domínio de frequência. O codificador de áudio 10 ainda compreende um processador de espectro configurado para aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio a ser codificada no domínio de previsão linear. O processador de espectro também é configurado para aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de fator de escala para uma porção do conteúdo de áudio a ser codificada no modo de 20 domínio de frequência.
O codificador de sinal de áudio multimodal acima descrito é com base no achado de que uma codificação eficiente de áudio, que permite uma simples decodificação de áudio com baixas distorções, pode ser obtida se uma representação de entrada do 25 conteúdo de áudio for convertida no domínio de frequência (também designado como domínio de tempo de frequência) tanto para porções do conteúdo de áudio a serem codificadas no modo de previsão linear quanto para porções do conteúdo de áudio a serem codificadas no modo de dominio de frequência. Da mesma forma, foi averiguado que os erros de quantizaçâo podem ser reduzidos ao aplicar uma configuração espectral a um conjunto de coeficientes espectrais (ou sua versão pré-processada) tanto para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear quanto para uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência. Se diferentes tipos de parâmetros forem usados para determinar a configuração espectral nos diferentes modos (isto é, parâmetros de dominio de previsão linear no modo de previsão linear e parâmetros de fator de escala no modo de dominio de frequência), a configuração de ruido pode ser adaptada à característica da porção do conteúdo de áudio atualmente processada enquanto ainda aplicando a conversão de domínio de tempo para domínio de frequência para (porções de) o mesmo sinal de áudio nos diferentes modos. Consequentemente, o codificador de sinal de áudio multimodal é capaz de fornecer bom desempenho de codificação para os sinais de áudio com ambas as porções gerais de áudio e porções de áudio de fala ao seletivamente aplicar o tipo adequado de configuração espectral aos conjuntos de coeficientes espectrais. Em outras palavras, uma configuração espectral com base em um conjunto de parâmetros de domínio de previsão linear pode ser aplicada em um conjunto de coeficientes espectrais para um quadro de áudio que é reconhecido como sendo semelhante à fala, e uma configuração espectral com base em um conjunto de parâmetros de fator de escala pode ser aplicada a um conjunto de coeficientes espectrais para um quadro de áudio que é reconhecido como de um tipo geral de áudio, ao invés do tipo semelhante à fala.
Para resumir, o codificador de sinal de áudio multimodal permite a codificação de um conteúdo de áudio com características temporariamente variáveis (semelhante à fala para algumas porções temporais e áudio geral para outras porções), caracterizada pelo fato de que a representação de dominio de tempo do conteúdo de áudio é convertida ao dominio de frequência da mesma forma para as porções do conteúdo de áudio a serem codificadas em diferentes modos. As diferentes características de diferentes porções do conteúdo de áudio são consideradas ao 10 aplicar uma configuração espectral com base em diferentes parâmetros (parâmetros de dominio de previsão linear versus parâmetros de fator de escala), com a finalidade de obter os coeficientes espectrais configurados de forma espectral ou a quantização subsequente.
Em uma realização preferida, o conversor de dominio de tempo para dominio de frequência é configurado para converter uma representação de dominio de tempo de um conteúdo de áudio em um dominio de sinal de áudio em uma representação do conteúdo de áudio de dominio de frequência tanto para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear quanto para uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência. Ao realizar a conversão de dominio de tempo para dominio de frequência (no sentido de uma operação de transformação, como, por exemplo, uma operação de transformação 25 MDCT ou uma operação de separação de frequência com base em banco de filtro) com base no mesmo sinal de entrada tanto para o modo de dominio de frequência quanto o modo de previsão linear, uma operação de sobreposição e adição do lado do decodificador pode ser realizada com eficiência especificamente boa, que facilita a reconstrução de sinal no lado do decodificador e evita a necessidade de transmitir dados adicionais sempre que existir uma transição entre os diferentes modos.
Em uma realização preferida, o conversor de dominio de tempo para dominio de frequência é configurado para aplicar transformações dobradas de análise do mesmo tipo de transformação para obter representações de domínio de frequência para as porções do conteúdo de áudio a serem codificadas em 10 diferentes modos. Novamente, usando as transformações dobradas do mesmo tipo de transformação permite uma simples reconstrução do conteúdo de áudio enquanto evita o bloqueio de artefatos. Especificamente, é possível usar uma amostragem crítica sem um código extra significativo.
Em uma realização preferida, o processador de espectro é configurado para seletivamente aplicar a configuração espectral ao conjunto de coeficientes espectrais, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear obtido usando uma análise com base em 20 correlação de uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, ou em dependência de um conjunto de parâmetros de fator de escala obtido usando uma análise de modelo psicoacústico de uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência. Ao assim o fazer, uma 25 configuração de ruído adequada pode ser atingida tanto para as porções semelhantes à fala do conteúdo de áudio, em que a análise com base em correlação fornece informações significativas de configuração de ruído, quanto para porções gerais de áudio do conteúdo de áudio, para as quais a análise de modelo psicoacústico fornece informações significativas de configuração de ruido.
Em uma realização preferida, o codificador de sinal de áudio compreende um seletor de modo configurado para 5 analisar o conteúdo de áudio com a finalidade de decidir se deve codificar uma porção do conteúdo de áudio no modo de previsão linear ou no modo de dominio de frequência. De forma correspondente, o conceito adequado de configuração de ruido pode ser escolhido enquanto deixa o tipo de conversão de dominio de 10 tempo para dominio de frequência não afetado em alguns casos.
Em uma realização preferida, o codificador de sinal de áudio multimodal é configurado para codificar um quadro de áudio, que está entre um quadro do modo de dominio de frequência e um quadro combinado de modo de previsão linear/modo 15 de previsão linear excitado de código algébrico como um quadro de inicio de modo de previsão linear. O codificador de sinal de áudio multimodal é configurado para aplicar uma janela de inicio tendo uma inclinação de transição de lado esquerdo comparativamente longa e uma inclinação de transição de lado direito 20 comparativamente curta à representação de dominio de tempo do quadro de inicio de modo de previsão linear, para obter uma representação de dominio de tempo com janela. O codificador de sinal de áudio multimodal também é configurado para obter uma representação de dominio de frequência da representação de dominio 25 de tempo com janela do quadro de inicio de modo de previsão linear. O codificador de sinal de áudio multimodal também é configurado para obter um conjunto de parâmetros de dominio de previsão linear para o quadro de inicio de modo de previsão linear e aplicar uma configuração espectral à representação de dominio de frequência da representação de dominio de tempo com janela do quadro de inicio de modo de previsão linear, ou a sua versão pré- processada, em dependência do conjunto de parâmetros de dominio de 5 previsão linear. O codificador de sinal de áudio também é configurado para codificar o conjunto de parâmetros de dominio de previsão linear e a representação configurada de forma espectral de dominio de frequência da representação de dominio de tempo com janela do quadro de inicio de modo de previsão linear. Desse modo, 10 as informações codificadas de um quadro de áudio de transição são obtidas, cujas informações codificadas do quadro de áudio de transição podem ser usadas para uma reconstrução do conteúdo de áudio, caracterizado pelo fato de que as informações codificadas sobre o quadro de áudio de transição permite uma transição regular 15 de lado esquerdo e, ao mesmo tempo, permite uma inicialização de um decodificador de modo ACELP para decodificar um quadro de áudio subsequente. Um código extra causado pela transição entre os diferentes modos do codificador de sinal de áudio multimodal é minimizado.
Em uma realização preferida, o codificador de sinal de áudio multimodal é configurado para usar os parâmetros de dominio de previsão linear associados ao quadro de inicio de modo de previsão linear com a finalidade de inicializar um codificador de modo de previsão linear excitado de código algébrico para 25 codificar pelo menos uma porção do quadro combinado de modo de previsão linear/modo de previsão linear excitado de código algébrico seguindo o quadro de inicio de modo de previsão linear. De forma correspondente, os parâmetros de dominio de previsão linear, que são obtidos para o quadro de inicio de modo de previsão linear, e que também são codificados em uma corrente de bit representando o conteúdo de áudio, são reutilizados para a codificação de um quadro de áudio subsequente, em que o modo ACELP é usado. Isso aumenta a eficiência da codificação e também permite uma decodificação eficiente sem informações secundárias adicionais de inicialização ACELP.
Em uma realização preferida, o codificador de sinal de áudio multimodal compreende um determinador de coeficiente de filtro LPC configurado para analisar uma porção do conteúdo de áudio a ser codificada em um modo de previsão linear, ou sua versão pré-processada, para determinar os coeficientes de filtro LPC associados à porção do conteúdo de áudio a ser codificada no modo de previsão linear. O codificador de sinal de áudio multimodal também compreende um transformador de coeficiente de filtro configurado para transformar os coeficientes decodificados de filtro LPC em uma representação espectral, com a finalidade de obter valores de ganhos de modo de previsão linear associados às diferentes frequências. O codificador de sinal de áudio multimodal também compreende um determinador de fator de escala configurado para analisar uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência, ou sua versão pré-processada, para determinar os fatores de escala associados à porção do conteúdo de áudio a ser codificada no modo de dominio de frequência. O codificador de sinal de áudio multimodal também compreende um arranjo de combinador configurado para combinar uma representação de domínio de frequência de uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, ou sua versão processada, com os valores de ganhos de modo de previsão linear, para obter componentes espectrais processados de ganho (também designados como coeficientes) , caracterizado pelo fato de que as contribuições dos componentes espectrais (ou coeficientes espectrais) da representação do conteúdo de áudio de dominio de frequência são ponderadas em dependência dos valores de ganhos de modo de previsão linear. O combinador também é configurado para combinar uma representação de dominio de frequência de uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência, ou sua versão processada, com os fatores de escala, para obter componentes espectrais processados de ganho, caracterizados pelo fato de que as contribuições dos componentes espectrais (ou coeficientes espectrais) da representação do conteúdo de áudio de dominio de frequência são ponderadas em dependência dos fatores de escala.
Nesta realização, os componentes espectrais processados de ganho formam conjuntos configurados de forma espectral dos coeficientes espectrais (ou componentes espectrais).
Outra realização de acordo com a invenção cria um método para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de . áudio.
Ainda outra realização de acordo com a invenção cria um método para fornecer uma representação codificada de um conteúdo de áudio com base em uma representação de entrada do conteúdo de áudio.
Ainda outra realização de acordo com a invenção cria um programa de computador para realizar um ou mais dos referidos métodos.
Os métodos e o programa de computador são com base nos mesmos achados que o mecanismo acima discutido.
Breve Descrição das Figuras
As realizações da presente invenção subsequentemente serão descritas com referência às Figs anexas, em que: Fig. 1 mostra um diagrama esquemático de bloco de um codificador de sinal de áudio, de acordo com uma realização 10 da invenção; Fig. 2 mostra um diagrama esquemático de bloco de um codificador de sinal de áudio de referência; Fig. 3 mostra um diagrama esquemático de bloco de um codificador de sinal de áudio, de acordo com uma realização 15 da invenção; Fig. 4 mostra uma ilustração de uma interpolação de coeficientes LPC para uma janela TCX; Fig. 5 mostra um código de programa de computador de uma função para derivar os valores de ganhos de 20 dominio de previsão linear com base em coeficientes decodificados de filtro LPC; Fig. 6 mostra um código de programa de computador para combinar um conjunto de coeficientes espectrais decodificados com os valores de ganhos de modo de previsão linear 25 (ou valores de ganhos de dominio de previsão linear); Fig. 7 mostra uma representação esquemática de diferentes quadros e informações associadas para um codec comutado de dominio de tempo/dominio de frequência (TD/FD) enviando um denominado "LPC" como código extra; Fig. 8 mostra uma representação esquemática dos quadros e parâmetros associados para um comutador a partir do codificador de dominio de frequência ao dominio de previsão linear 5 usando "LPC2MDCT" para transições; Fig. 9 mostra uma representação esquemática de um codificador de sinal de áudio compreendendo uma configuração de ruido com base em LPC para TCX e um codificador de dominio de frequência; Fig. 10 mostra uma visão unificada de uma codificação unificada de fala e áudio (USAC) com TCX MDCT realizado no dominio de sinal; Fig. 11 mostra um diagrama esquemático de bloco de um decodificador de sinal de áudio, de acordo com uma 15 realização da invenção; Fig. 12 mostra uma visão unificada de um decodificador USAC com TCX-MDCT no dominio de sinal; Fig. 13 mostra uma representação esquemática das etapas de processamento, que podem ser realizadas nos 20 decodificadores de sinal de áudio de acordo com as Figs. 7 e 12; Fig. 14 mostra uma representação esquemática de um processamento de quadros subsequentes de áudio nos decodificadores de áudio de acordo com as Figs. 11 e 12; Fig. 15 mostra uma tabela representando um 25 número de coeficientes espectrais como uma função de um MOD [ ] variável; Fig. 16 mostra uma tabela representando as sequências de janela e janelas de transformação; Fig. 17a mostra uma representação esquemática de uma transição de janela de áudio em uma realização da invenção; Fig. 17b mostra uma tabela representando uma transição de janela de áudio em uma realização estendida de acordo 5 com a invenção; e Fig. 18 mostra um fluxo de processamento para derivar os valores de ganhos de dominio de previsão linear g[k] em dependência de um coeficiente codificado de filtro LPC. Descrição Detalhada da Realização 1. Codificador de sinal de áudio de acordo com a Fig. 1
A seguir, um codificador de sinal de áudio de acordo com uma realização da invenção será discutido com referência à Fig. 1, que mostra um diagrama esquemático de bloco 15 de tal codificador de sinal de áudio multimodal 100. O codificador de sinal de áudio multimodal 100 é por vezes também brevemente designado como um codificador de áudio.
O codificador de áudio 100 é configurado para receber uma representação de entrada 110 de um conteúdo de áudio, 20 cuja representação de entrada 100 é tipicamente uma representação de dominio de tempo. 0 codificador de áudio 100 fornece, com base nisso, uma representação codificada do conteúdo de áudio. Por exemplo, o codificador de áudio 100 fornece uma corrente de bit 112, que é uma representação codificada de áudio.
O codificador de áudio 100 compreende um conversor de dominio de tempo para dominio de frequência 120, que é configurado para receber a representação de entrada 110 do conteúdo de áudio, ou sua versão pré-processada 110' . O conversor de dominio de tempo para dominio de frequência 120 fornece, com base na representação de entrada 110, 110', uma representação de domínio de frequência 122 do conteúdo de áudio. A representação de domínio de frequência 122 pode ter a forma de uma sequência de conjuntos de coeficientes espectrais. Por exemplo, o conversor de domínio de tempo para domínio de frequência pode ser um conversor de domínio de tempo para domínio de frequência com base em janela, que fornece um primeiro conjunto de coeficientes espectrais com base em amostras de domínio de tempo de um primeiro quadro do conteúdo de áudio de entrada, e fornece um segundo conjunto de coeficientes espectrais com base em amostras de domínio de tempo de um segundo quadro do conteúdo de áudio de entrada. O primeiro quadro do conteúdo de áudio de entrada pode sobrepor, por exemplo, em aproximadamente 50%, com o segundo quadro do conteúdo de áudio de entrada. Uma gestão de janela de domínio de tempo pode ser aplicada para derivar o primeiro conjunto de coeficientes espectrais a partir do primeiro quadro de áudio, e uma gestão de janela também pode ser aplicada para derivar o segundo conjunto de coeficientes espectrais a partir do segundo quadro de áudio. Dessa forma, o conversor de domínio de tempo para domínio de frequência pode ser configurado para realizar transformações dobradas das porções com janela (por exemplo, quadros de sobreposição) das informações de áudio de entrada.
O codificador de áudio 100 também compreende um processador de espectro 130, que é configurado para receber a representação de domínio de frequência 122 do conteúdo de áudio (ou, opcionalmente, sua versão pós-processada de forma espectral 122'), e fornecer, com base nisso, uma sequência de conjuntos de configuração de forma espectral 132 dos coeficientes espectrais. O processador de espectro 130 pode ser configurado para aplicar uma configuração espectral em um conjunto 122 dos coeficientes espectrais, ou sua versão pré-processada 122', em dependência de 5 um conjunto de parâmetros de dominio de previsão linear 134 para uma porção (por exemplo, um quadro) do conteúdo de áudio a ser codificada no modo de previsão linear, para obter um conjunto configurado de forma espectral 132 dos coeficientes espectrais. O processador de espectro 130 também pode ser configurado para 10 aplicar uma configuração espectral em um conjunto 122 de coeficientes espectrais, ou sua versão pré-processada 122', em dependência de um conjunto de parâmetros de fator de escala 136 para uma porção (por exemplo, um quadro) do conteúdo de áudio a ser codificada em um modo de dominio de frequência, para obter um 15 conjunto configurado de forma espectral 132 dos coeficientes espectrais para a referida porção do conteúdo de áudio a ser codificada no modo de dominio de frequência. 0 processador de espectro 130 pode, por exemplo, compreende um provedor de parâmetro 138, que é configurado par fornecer o conjunto de parâmetros de dominio de previsão linear 134 e o conjunto de parâmetros de fator de escala 136. Por exemplo, o provedor de parâmetro 138 pode fornecer o conjunto de parâmetros de dominio de previsão linear 134 usando um analisador de dominio de previsão linear, e fornecer o conjunto de parâmetros de fator de escala 136 25 usando um processador de modelo psicoacústico. Entretanto, outras possibilidades para fornecer os parâmetros de dominio de previsão linear 134 ou conjunto de parâmetros de fator de escala 136 também podem ser aplicadas.
O codificador de áudio 100 também compreende um codificador de quantização 140, que é configurado para receber um conjunto configurado de forma espectral 132 dos coeficientes espectrais (conforme fornecido pelo processador de espectro 130) 5 para cada porção (por exemplo, para cada quadro) do conteúdo de áudio. Alternativamente, o codificador de quantização 140 pode receber uma versão pós-processada 132' de um conjunto configurado de forma espectral 132 dos coeficientes espectrais. O codificador de quantização 140 é configurado para fornecer uma versão 10 codificada 142 de um conjunto configurado de forma espectral dos coeficientes espectrais 132 (ou, opcionalmente, de sua versão pré- processada) .
O codificador de quantização 140 pode, por exemplo, ser configurado para fornecer uma versão codificada 142 15 de um conjunto configurado de forma espectral 132 dos coeficientes espectrais para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, e também fornecer uma versão codificada 142 de um conjunto configurado de forma espectral 132 dos coeficientes espectrais para uma porção do conteúdo de áudio a 20 ser codificada no modo de dominio de frequência. Em outras palavras, o mesmo codificador de quantização 140 pode ser usado para codificar os conjuntos de configuração de forma espectral dos coeficientes espectrais independentemente de se uma porção do conteúdo de áudio deve ser codificada no modo de previsão linear 25 ou modo de domínio de frequência.
Além disso, o codificador de áudio 100 pode opcionalmente compreende uma formatador de carga útil de corrente de bit 150, que é configurado para fornecer a corrente de bit 112 com base nas versões codificadas 142 dos conjuntos de configuração de forma espectral dos coeficientes espectrais. Entretanto, o formatador de carga útil de corrente de bit 150 pode naturalmente inclui as informações codificadas adicionais na corrente de bit 5 112, bem como, as informações de configuração, informação de controle, etc. Por exemplo, um codificador opcional 160 pode receber o conjunto codificado 134 dos parâmetros de dominio de previsão linear e/ou conjunto 136 de parâmetros de fator de escala e fornecer uma versão codificada do mesmo ao formatador de carga 10 útil de corrente de bit 150. De forma correspondente, uma versão codificada do conjunto 134 de parâmetros de dominio de previsão linear pode ser incluida na corrente de bit 112 para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear e uma versão codificada do conjunto 136 de parâmetros de fator de escala pode ser incluida na corrente de bit 112 para uma porção do conteúdo de áudio a ser codificada no dominio de frequência.
O codificador de áudio 100 ainda compreende, opcionalmente, um controlador de modo 170, que é configurado para decidir se uma porção do conteúdo de áudio (por exemplo, um quadro 20 do conteúdo de áudio) deve ser codificada no modo de previsão linear ou no modo de dominio de frequência. Para essa finalidade, o controlador de modo 170 pode receber a representação de entrada 110 do conteúdo de áudio, sua versão pré-processada 110' ou sua representação de dominio de frequência 122. O controlador de modo 25 170 pode, por exemplo, usar um algoritmo de detecção de fala para determinar as porções semelhantes à fala do conteúdo de áudio e fornecer um sinal de controle de modo 172 que indica para codificar a porção do conteúdo de áudio no modo de previsão linear em resposta à detecção de uma porção semelhante à fala. Em contraste, se o controlador de modo averiguar que determinada porção do conteúdo de áudio não seja semelhante à fala, o controlador de modo 170 fornece o sinal de controle de modo 172 de 5 modo que o sinal de controle de modo 172 indica para codificar a referida porção do conteúdo de áudio no modo de dominio de frequência.
A seguir, a funcionalidade geral do codificador de áudio 100 será discutida em detalhes. 0 codificador de sinal de 10 áudio multimodal 100 é configurado para eficientemente codificar ambas as porções do conteúdo de áudio que são semelhantes à fala e porções do conteúdo de áudio que não são semelhantes à fala. Para essa finalidade, o codificador de áudio 100 compreende pelo menos dois modos, isto é, o modo de previsão linear e o modo de dominio 15 de frequência. Entretanto, o conversor de dominio de tempo para dominio de frequência 120 do codificador de áudio 110 é configurado para transformar a mesma representação de dominio de tempo do conteúdo de áudio (por exemplo, a representação de entrada 110, ou sua versão pré-processada 110') ao dominio de 20 frequência ambos para o modo de previsão linear e ao modo de dominio de frequência. Uma resolução de frequência da representação de dominio de frequência 122 pode, entretanto, ser diferente para os diferentes modos de operação. A representação de dominio de frequência 122 não é quantizada e codificada 25 imediatamente, porém, ao invés disso, configurada de forma espectral antes da quantização e a codificação. A configuração espectral é realizada de tal forma que um efeito do ruido de quantização introduzido pelo codificador de quantização 140 é mantido suficientemente pequeno, com a finalidade de evitar distorções excessivas. No modo de previsão linear, a configuração espectral é realizada em dependência de um conjunto 134 de parâmetros de dominio de previsão linear, que são derivados a partir do conteúdo de áudio. Nesse caso, a configuração espectral pode, por exemplo, ser realizada de modo que os coeficientes espectrais são enfatizados (ponderados de forma superior) se um coeficiente espectral correspondente de uma representação de dominio de frequência dos parâmetros de dominio de previsão linear compreende um valor comparativamente superior. Em outras palavras, os coeficientes espectrais da representação de dominio de frequência 122 são ponderados em conformidade com os coeficientes espectrais correspondentes de uma representação de dominio espectral dos parâmetros de dominio de previsão linear. De forma correspondente, os coeficientes espectrais de representação de domínio de frequência 122, para os quais o coeficiente espectral correspondente da representação de dominio espectral dos parâmetros de dominio de previsão linear obtém valores comparativamente maiores, são quantizados com resolução comparativamente superior devido à ponderação superior no conjunto configurado de forma espectral 132 dos coeficientes espectrais. Em outras palavras, existem porções do conteúdo de áudio para as quais uma configuração espectral em conformidade com os parâmetros de domínio de previsão linear 134 (por exemplo, em conformidade com uma representação de domínio espectral dos parâmetros de domínio de previsão linear 134) provoca uma boa configuração de ruído, pois os coeficientes espectrais da representação de domínio de frequência 132, que são mais sensíveis com relação ao ruído de quantização, são ponderados de forma superior na configuração espectral, de modo que o ruido efetivo de quantização introduzido pelo codificador de quantização 140 seja efetivamente reduzido.
Em contraste, as porções do conteúdo de áudio, 5 que são codificadas no modo de dominio de frequência, sofrem uma diferente configuração espectral. Nesse caso, os parâmetros de fator de escala 136 são determinados, por exemplo, usando um processador de modelo psicoacústico. O processador de modelo psicoacústico avalia o mascaramento espectral e/ou mascaramento 10 temporal dos componentes espectrais da representação de dominio de frequência 122. Essa avaliação do mascaramento espectral e mascaramento temporal é usada para decidir quais componentes espectrais (por exemplo, coeficientes espectrais) da representação de domínio de frequência 122 devem ser codificados com alta 15 exatidão de quantização efetiva e quais componentes espectrais (por exemplo, coeficientes espectrais) da representação de domínio de frequência 122 podem ser codificados com a baixa exatidão de quantização comparativamente efetiva. Em outras palavras, o processador de modelo psicoacústico pode, por exemplo, determinar 20 a relevância psicoacústica de diferentes componentes espectrais e indicar quais componentes espectrais menos importantes de forma psicoacústica devem ser quantizados com exatidão baixa ou ainda mais baixa de quantização. De forma correspondente, a configuração espectral (que é realizada pelo processador de espectro 130) , pode 25 ponderar os componentes espectrais (por exemplo, coeficientes espectrais) da representação de domínio de frequência 122 (ou de sua versão pós-processada 122' ) , em conformidade com os parâmetros de fator de escala 136 fornecidos pelo processador de modelo psicoacústico. Os componentes espectrais importantes de forma psicoacústica recebem alta ponderação na configuração espectral, de modo que são efetivamente quantizados com alta exatidão de quantização pelo codificador de quantização 140. Dessa forma, os 5 fatores de escala podem descrever uma relevância psicoacústica de diferentes frequências ou bandas de frequência.
Para concluir, o codificador de áudio 100 é comutável entre pelo menos dois diferentes modos, isto é, um modo de previsão linear e um modo de dominio de frequência. As porções 10 de sobreposição do conteúdo de áudio podem ser codificadas em diferentes dos modos. Para essa finalidade, as representações de dominio de frequência de diferentes porções (porém preferivelmente de sobreposição) do mesmo sinal de áudio são usadas ao codificar as porções subsequentes (por exemplo, imediatamente subsequentes) do conteúdo de áudio em diferentes modos. Os componentes de dominio espectral da representação de dominio de frequência 122 são configurados de forma espectral em dependência de um conjunto de parâmetros de dominio de previsão linear para uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência, e em dependência de parâmetros de fator de escala para uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência. Os diferentes conceitos, que são usados para determinar uma configuração espectral adequada, que é realizada entre a conversão de dominio de tempo para domínio de frequência e a quantização/codificação, permite ter uma boa eficiência de codificação e permite configuração de ruído de distorção para diferentes tipos de conteúdos de áudio (semelhante à fala e não semelhante à fala). 2. Codificador de áudio de acordo com a Fig. 3
A seguir, um codificador de áudio 300 de acordo com outra realização da invenção será descrito com referência à Fig. 3. A Fig. 3 mostra um diagrama esquemático de bloco de tal codificador de áudio 300. Deve ser observado que o codificador de áudio 300 é uma versão melhorada do codificador de áudio de referência 200, cujo diagrama esquemático de bloco é mostrado na Fig. 2. 2.1 Codificador de Sinal de Áudio de Referência, 10 De acordo com a Fig. 2
Em outras palavras, para facilitar o entendimento do codificador de áudio 300 de acordo com a'Fig. 3, o codificador unificado de codificação de fala e áudio de referência (codificador USAC) 200 será primeiramente descrito com referência 15 ao diagrama de função de bloco do codificador USAC, que é mostrado na Fig. 2. O codificador de áudio de referência 200 é configurado para receber uma representação de entrada 210 de um conteúdo de áudio, que é tipicamente uma representação de dominio de tempo, e para fornecer, com base nisso, uma representação codificada 212 do 20 conteúdo de áudio. O codificador de áudio 200 compreende, por exemplo, um comutador ou distribuidor 220, que é configurado para fornecer a representação de entrada 210 do conteúdo de áudio a um codificador de dominio de frequência 230 e/ou um codificador de dominio de previsão linear 240. O codificador de dominio de 25 frequência 230 é configurado para receber a representação de entrada 210' do conteúdo de áudio e para fornecer, com base nisso, uma representação espectral codificada 232 e uma informação codificada de fator de escala 234. O codificador de dominio de previsão linear 240 é configurado para receber a representação de entrada 210" e para fornecer, com base nisso, uma informação excitação codificada 242 e codificada de coeficiente de filtro LPC 244. O codificador de dominio de frequência 230 compreende, por 5 exemplo, um conversor de transformação de cosseno discreto modificado de domínio de tempo para domínio de frequência 230a, que fornece uma representação espectral 230b do conteúdo de áudio. O codificador de domínio de frequência 230 também compreende uma análise psicoacústica 230c, que é configurada para analisar o 10 mascaramento espectral e mascaramento do conteúdo de áudio temporal e para fornecer os fatores de escala 230d e a informação codificada de fator de escala 234. O codificador de domínio de frequência 230 também compreende um scaler 230e, que é configurado para escalar os valores espectrais fornecidos pelo conversor de 15 domínio de tempo para domínio de frequência 230a em conformidade com os fatores de escala 230d, assim obtendo uma representação espectral escalada 230f do conteúdo de áudio. O codificador de domínio de frequência 230 também compreende um quantizador 230g configurado para quantizar a representação espectral escalada 230f 20 do conteúdo de áudio e um codificador de entropia 230h, configurado para codificar por entropia a representação espectral escalada quantizada do conteúdo de áudio fornecido pelo quantizador 230g. O codificador por entropia 230h consequentemente fornece a representação espectral codificada 232.
O codificador de domínio de previsão linear 240 é configurado para fornecer uma informação excitação codificada 242 e codificada de coeficiente de filtro LPC 244 com base na representação de áudio de entrada 210". O codificador LPD 240 compreende uma análise de previsão linear 240a, que é configurada para fornecer coeficientes de filtro LPC 240b e a informação codificada de coeficiente de filtro LPC 244 com base na representação de entrada 210" do conteúdo de áudio. O codificador LPD 240 também compreende uma codificação de excitação, que compreende dois desvios paralelos, isto é, um desvio TCX 250 e um desvio ACELP 260. Os desvios são comutáveis (por exemplo, usando um comutador 270) , para fornecer uma excitação codificada de transformação 252 ou uma excitação codificada algébrica 262. O desvio TCX 250 compreende um filtro com base em LPC 250a, que é configurado para receber ambas a representação de entrada 210" do conteúdo de áudio e os coeficientes de filtro LPC 240b fornecidos pela análise LP 240a. O filtro com base em LPC 250a fornece um sinal de saida de filtro 250b, que pode descrever um estimulo exigido por um filtro com base em LPC com a finalidade de fornecer um sinal de saida que é suficientemente semelhante à representação de entrada 210" do conteúdo de áudio. O desvio TCX também compreende uma transformação de cosseno discreto modificado (MDCT) configurada para receber o sinal de estimulo 250d e para fornecer, com base nisso, uma representação de dominio de frequência 250d do sinal de estimulo 250b. O desvio TCX também compreende um quantizador 250e configurado para receber a representação de dominio de frequência 250b e para fornecer sua versão quantizada 250f. O desvio TCX também compreende um codificador por entropia 250g configurado para receber a versão quantizada 250f da representação de dominio de frequência 250d do sinal de estimulo 250b e para fornecer, com base nisso, o sinal de excitação codificado por transformação 252.
O desvio ACELP 260 compreende um filtro com base em LPC 260a que é configurado para receber os coeficientes de filtro LPC 240b fornecidos pela análise LP 240a e também receber a representação de entrada 210" do conteúdo de áudio. O filtro com 5 base em LPC 260a é configurado para fornecer, com base nisso, um sinal de estimulo 260b, que descreve, por exemplo, um estimulo exigido por um filtro com base em LPC do lado do decodificador com a finalidade de fornecer um sinal reconstruído que é suficientemente semelhante à representação de entrada 210" do 10 conteúdo de áudio. O desvio ACELP 260 também compreende um codificador ACELP 260c configurado para codificar o sinal de estimulo 260b usando um algoritmo de codificação algébrica adequado.
Para resumir o acima, em um codec de áudio de comutação, como, por exemplo, um codec de áudio de acordo com o desenho de trabalho de codificação de fala e áudio unificado MPEG- D (USAC), que é descrito na referência [1], os segmentos adjacentes de um sinal de entrada podem ser processados por diferentes codificadores. Por exemplo, o codec de áudio de acordo 20 com o desenho de trabalho de codificação de fala e áudio unificado (USAC WD) pode comutar entre um codificador de dominio de frequência com base na denominada codificação adiantada de áudio (AAC), que é descrita, por exemplo, na referência [2] , e codificadores de dominio de previsão linear (LPD), isto é, TCX e 25 ACELP, com base no denominado conceito AMR-WB +, que é descrito, por exemplo, na referência [3]. O codificador USAC é esquematizado na Fig. 2.
Foi averiguado que o design de transições entre os diferentes codificadores é uma questão importante ou ainda essencial para ser capaz de comutar continuamente entre os diferentes codificadores. Também foi averiguado que é normalmente dificil atingir tais transições devido à diferente natureza da 5 coleta de técnicas de codificação na estrutura comutada.
Entretanto, foi averiguado que as ferramentas comuns compartilhadas pelos diferentes codificadores podem facilitar as transições. Com referência agora ao codificador de áudio de referência 200 de acordo com a Fig. 2, pode ser observado que, no 10 USAC, o codificador de dominio de frequência 230 computa uma transformação de cosseno discreta modificada (MDCT) no dominio de sinal enquanto o desvio de excitação codificado por transformação (TCX) computa uma transformação de cosseno discreto modificado (MDCT 250c) no dominio residual LPC (usando o residual LPC 250b).
Da mesma forma, ambos os codificadores (isto é, o codificador de dominio de frequência 230 e o desvio TCX 250) compartilham o mesmo tipo de banco de filtro, sendo aplicado em um diferente dominio.
Dessa forma, o codificador de áudio de referência 200 (que pode ser um codificador USAC de áudio) não pode explorar totalmente as 20 numerosas propriedades do MDCT, especialmente o cancelamento de aliasing de dominio de tempo (TDAC) quando indo de um codificador (por exemplo, codificador de dominio de frequência 230) a outro codificador (por exemplo, codificador TCX 250).
Com referência novamente ao codificador de áudio de referência 200 de acordo com a Fig. 2, também pode ser observado que o desvio TCX 250 e o desvio ACELP 260 compartilham uma ferramenta de codificação preditiva linear (LPC). É um recurso chave para a ACELP, que é um codificador de modelo de fonte, em que o LPC é usado para modelagem do trato vocal da fala. Para TCX, o LPC é usado para a configuração do ruido de quantização introduzidos nos coeficientes MDCT 250d. É realizado por filtração (por exemplo, usando o filtro com base em LPC 250a) no dominio de 5 tempo do sinal de entrada 210" antes de realizar o MDCT 250c. Além do mais, o LPC é usado dentro do TCX durante as transições para ACELP ao obter um sinal de excitação alimentado ao livro de código adaptável de ACELP. Permite, adicionalmente, obter os conjuntos interpolados LPC dos coeficientes para o próximo quadro ACELP. 2.2 Codificador de Sinal de Áudio de Acordo com a Fig. 3
A seguir, o codificador de sinal de áudio 300 de acordo com a Fig. 3 será descrito. Para essa finalidade, a referência será feita ao codificador de sinal de áudio de 15 referência 200 de acordo com a Fig. 2, conforme o codificador de sinal de áudio 300 de acordo com a Fig. 3 tem algumas similaridades com o codificador de sinal de áudio 200 de acordo com a Fig. 2.
O codificador de sinal de áudio 300 é configurado 20 para receber uma representação de entrada 310 de um conteúdo de áudio, e para fornecer, com base nisso, uma representação codificada 312 do conteúdo de áudio. O codificador de sinal de áudio 300 é configurado para ser comutável entre um modo de dominio de frequência, em que uma representação codificada de uma 25 porção do conteúdo de áudio é fornecida por um codificador de dominio de frequência 230, e um modo de previsão linear em que uma representação codificada de uma porção do conteúdo de áudio é fornecida pelo codificador de dominio de previsão linear 340. As porções do conteúdo de áudio codificadas em diferentes dos modos podem estar sobrepostas em algumas realizações, e podem não estar sobrepostas em outras realizações.
O codificador de dominio de frequência 330 recebe a representação de entrada 310' do conteúdo de áudio para uma porção do conteúdo de áudio a ser codificada no modo de dominio de frequência e fornece, com base nisso, uma representação espectral codificada 332. O codificador de dominio de previsão linear 340 recebe a representação de entrada 310" do conteúdo de áudio para 10 uma porção do conteúdo de áudio a ser codificada no modo de previsão linear e fornece, com base nisso, uma excitação codificada 342. O comutador 320 pode ser usado, opcionalmente, para fornecer a representação de entrada 310 ao codificador de dominio de frequência 330 e/ou ao codificador de dominio de 15 previsão linear 340.
O codificador de dominio de frequência também fornece uma informação codificada de fator de escala 334. O codificador de dominio de previsão linear 340 fornece uma informação codificada de coeficiente de filtro LPC 344.
O multiplexador de lado de saida 380 é configurado para fornecer, como a representação codificada 312 do conteúdo de áudio, a representação espectral codificada 332 e a informação codificada de fator de escala 334 para uma porção do conteúdo de áudio a ser codificada no dominio de frequência e para 25 fornecer, como a representação codificada 312 do conteúdo de áudio, a excitação codificada 342 e a informação de coeficiente codificado de filtro LPC 344 para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear.
O codificador de dominio de frequência 330 compreende uma transformação de cosseno discreto modificado 330a, que recebe a representação de dominio de tempo 310' do conteúdo de áudio e transforma a representação de dominio de tempo 310' do 5 conteúdo de áudio, para obter uma representação de dominio de frequência transformada por MDCT 330b do conteúdo de áudio. O codificador de dominio de frequência 330 também compreende uma análise psicoacústica 330c, que é configurada para receber a representação de dominio de tempo 310' do conteúdo de áudio e para 10 fornecer, com base nisso, fatores de escala 330d e a informação codificada de fator de escala 334. 0 codificador de dominio de frequência 330 também compreende um combinador 330e configurado para aplicar os fatores de escala 330e à representação de dominio de frequência transformada por MDCT 330d do conteúdo de áudio, com 15 a finalidade de escalar os diferentes coeficientes espectrais da representação de dominio de frequência transformada por MDCT 330b do conteúdo de áudio com diferentes valores de fator de escala. De forma correspondente, uma versão configurada de forma espectral 330f da representação de dominio de frequência transformada por 20 MDCT 330d do conteúdo de áudio é obtida, caracterizada pelo fato de que a configuração espectral é realizada em dependência dos fatores de escala 330d, caracterizada pelo fato de que as regiões espectrais, às quais os fatores de escala comparativamente grandes 330e são associados, são enfatizadas sobre as regiões espectrais 25 às quais os fatores de escala comparativamente menores 330e são associadas. O codificador de dominio de frequência 330 também compreende a quantizador configurado para receber a versão escalada (configurada de forma espectral) 330f da representação de dominio de frequência transformada por MDCT 330b do conteúdo de áudio, e para fornecer sua versão quantizada 330h. O codificador de dominio de frequência 330 também compreende um codificador de entropia 330i configurado para receber a versão quantizada 330h e 5 para fornecer, com base nisso, a representação espectral codificada 332. O quantizador 330g e codificador de entropia 330i podem ser considerados como um codificador de quantização.
O codificador de dominio de previsão linear 340 compreende um desvio TCX 350 e um desvio ACELP 360. Além disso, o codificador LPD 340 compreende uma análise LP 340a, que é comumente usada pelo desvio TCX 350 e desvio ACELP 360. A análise LP 340a fornece coeficientes de filtro LPC 340b e a informação codificada de coeficiente de filtro LPC 344.
O desvio TCX 350 compreende uma transformação MDCT 350a, que é configurada para receber, como uma entrada de transformação MDCT, a representação de dominio de tempo 310".
Importantemente para observar, o MDCT 330a do codificador de dominio de frequência e MDCT 350a do desvio TCX 350 recebe (diferentes) porções da mesma representação de dominio de tempo do 20 conteúdo de áudio como sinais de entrada de transformação.
De forma correspondente, se as porções subsequentes e de sobreposição (por exemplo, quadros) do conteúdo de áudio forem codificadas em diferentes modos, o MDCT 330a do codificador de dominio de frequência 330 e MDCT 350a do desvio TCX 25 350 pode receber representações de dominio de tempo com uma sobreposição temporal como sinais de entrada de transformação. Em outras palavras, o MDCT 330a do codificador de dominio de frequência 330 e MDCT 350a do desvio TCX 350 recebem os sinais de entrada de transformação que estão "no mesmo dominio", i.e., que são ambos os sinais de dominio de tempo representando o conteúdo de áudio. Isso é em contraste ao codificador de áudio 200, caracterizado pelo fato de que o MDCT 230a do codificador de 5 dominio de frequência 230 recebe uma representação de dominio de tempo do conteúdo de áudio enquanto o MDCT 250c do desvio TCX 250 recebe uma representação de dominio de tempo residual de um sinal ou sinal de excitação 250b, porém não uma representação de dominio de tempo do próprio conteúdo de áudio.
O desvio TCX 350 ainda compreende um transformador de coeficiente de filtro 350b, que é configurado para transformar os coeficientes de filtro LPC 340b ao dominio espectral, para obter os valores de ganhos 350c. O transformador de coeficiente de filtro 350b é por vezes também designado como um
"conversor de previsão linear para MDCT". O desvio TCX 350 também compreende um combinador 350d, que recebe a representação do conteúdo de áudio transformada por MDCT e os valores de ganhos 350c e fornece, com base nisso, uma versão configurada de forma espectral 350e da representação do conteúdo de áudio transformada por MDCT. Para essa finalidade, o combinador 350d pondera os coeficientes espectrais da representação do conteúdo de áudio transformada por MDCT em dependência dos valores de ganhos 350c com a finalidade de obter a versão configurada de forma espectral 350e. 0 desvio TCX 350 também compreende um quantizador 350f que é 25 configurado para receber a versão configurada de forma espectral 350e da representação do conteúdo de áudio transformada por MDCT e para fornecer sua versão quantizada 350g. O desvio TCX 350 também compreende um codificador por entropia 350h, que é configurado para fornecer uma versão codificada por entropia (por exemplo, aritmeticamente codificada) da representação quantizada 350g como a excitação codificada 342.
O desvio ACELP compreende um filtro com base em LPC 360a, que recebe os coeficientes de filtro LPC 340b fornecidos pela análise LP 340a e a representação de dominio de tempo 310" do conteúdo de áudio. O filtro com base em LPC 360a assume a mesma funcionalidade que o filtro com base em LPC 260a e fornece um sinal de excitação 360b, que é equivalente ao sinal de excitação 260b. O desvio ACELP 360 também compreende um codificador ACELP 360c, que é equivalente ao codificador ACELP 260c. O codificador ACELP 360c fornece uma excitação codificada 342 para uma porção do conteúdo de áudio a ser codificada usando o modo ACELP (que é um sub-modo do modo de previsão linear).
Com relação à funcionalidade geral do codificador de áudio 300, pode ser dito que uma porção do conteúdo de áudio pode ser codificada no modo de dominio de frequência, no modo TCX (que é um primeiro sub-modo do modo de previsão linear) ou no modo ACELP (que é um segundo sub-modo do modo de previsão linear) . Se uma porção do conteúdo de áudio for codificada no modo de domínio de frequência ou no modo TCX, a porção do conteúdo de áudio é primeiramente transformada ao domínio de frequência usando o MDCT 330a do codificador de domínio de frequência ou MDCT 350a do desvio TCX. Ambos o MDCT 330a e MDCT 350a operam na representação de domínio de tempo do conteúdo de áudio, e ainda operam, pelo menos parcialmente, em porções idênticas do conteúdo de áudio quando existe uma transição entre o modo de domínio de frequência e o modo TCX. No modo de domínio de frequência, a configuração espectral da representação de dominio de frequência fornecida pelo transformador MDCT 330a é realizada em dependência do fator de escala fornecida por análise psicoacústica 330c, e no modo TCX, a configuração espectral da representação de dominio de frequência fornecida pelo MDCT 350a é realizada em dependência dos coeficientes de filtro LPC fornecidos pela análise LP 340a. A quantização 330g pode ser semelhante a, ou ainda idêntica à quantização 350f, e a codificação por entropia 330i pode ser semelhante a, ou ainda idêntica a, a codificação por entropia 350h. Da mesma forma, a transformação MDCT 330a pode ser semelhante a, ou ainda idêntica a, a transformação MDCT 350a. Entretanto, as diferentes dimensões da transformação MDCT podem ser usadas nos codificadores de dominio de frequência 330 e desvio TCX 350.
Além do mais, pode ser observado que os coeficientes de filtro LPC 340b são usados ambos pelo desvio TCX 350 e o desvio ACELP 360. Isso facilita as transições entre as porções do conteúdo de áudio codificadas no modo TCX e porções do conteúdo de áudio codificadas no modo ACELP.
Para resumir o acima, uma realização da presente invenção consiste em realizar, no contexto da codificação unificada de fala e áudio (USAC), o MDCT 350a do TCX no dominio de tempo e aplicar a filtração com base em LPC no dominio de frequência (combinador 350d). A análise LPC (por exemplo, análise 25 LP 340a) é realizada conforme antes (por exemplo, conforme no codificador de sinal de áudio 200), e os coeficientes (por exemplo, os coeficientes 340b) ainda são transmitidos como habitual (por exemplo, na forma dos coeficientes codificadas de filtro LPC 344) . Entretanto, a configuração de ruido não é mais realizada ao aplicar no dominio de tempo um filtro, porém ao aplicar uma ponderação no dominio de frequência (que é realizada, por exemplo, pelo combinador 350d). A configuração de ruído no 5 domínio de frequência é atingida ao converter os coeficientes LPC (por exemplo, os coeficientes de filtro LPC 340b) ao domínio MDCT (que pode ser realizado pelo transformador de coeficientes de filtro 350b). Para detalhes, a referência é feita à Fig. 3, que mostra o conceito de aplicar a configuração de ruído com base em 10 LPC do TCX no domínio de frequência. 2.3 Detalhes referentes à computação e aplicação dos coeficientes LPC
A seguir, a computação e aplicação dos coeficientes LPC serão descritas. Primeiro, um conjunto adequado 15 de coeficientes LPC é calculado para a presente janela TCX, por exemplo, usando a análise LPC 340a. Uma janela TCX pode ser uma porção de janela da representação de domínio de tempo do conteúdo de áudio, que deve ser codificada no modo TCX. As janelas de análise LPC estão localizadas nos limites de extremidade dos 20 quadros de codificador LPC, conforme mostrado na Fig. 4.
Com referência à Fig. 4, um quadro TCX, i.e., um quadro de áudio a ser codificado no modo TCX, é mostrado. Uma abscissa 410 descreve o tempo, e uma ordenada 420 descreve os valores de magnitude de uma função de janela.
Uma interpolação é realizada para computar o conjunto LPC de coeficientes 340b correspondentes ao baricentro da janela TCX. A interpolação é realizada na frequência espectral de imitância (domínio ISF), em que os coeficientes LPC são normalmente quantizados e codificados. Os coeficientes interpolados são então centrados no meio da janela TCX de tamanho sizeR + sizeM + sizeL.
Para detalhes, a referência é feita à Fig. 4, que 5 mostra uma ilustração da interpolação de coeficientes LPC para uma janela TCX.
Os coeficientes interpolados LPC são então ponderados conforme realizado no TCX (para detalhes, vide referência [3]), para obter uma configuração de ruido adequada 10 alinhada com a consideração psicoacústica. Os coeficientes LPC obtidos interpolados e ponderados (também brevemente designados com lpc_coeffs) são finalmente convertidos para fatores de escala MDCT (também designados como valores de ganhos de modo de previsão linear) usando um método, cujo pseudocódigo é mostrado nas Figs. 5 15 e 6. A Fig. 5 mostra um pseudocódigo de programa de uma função "LPC2MDCT" para fornecer fatores de escala MDCT ("mdct_scaleFactors") com base em coeficientes LPC de entrada ("lpc_coeffs"). Conforme pode ser visto, a função "LPC2MDCT" recebe, como variáveis de entrada, os coeficientes LPC "lpc_coeffs", um valor de ordem LPC "lpc_order" e valores de tamanho de janela "sizeR", "sizeM", "sizeL". Em uma primeira etapa, as entradas de um arranjo "InRealData[i]" são preenchidas com uma versão modulada dos coeficientes LPC, conforme mostrado no numeral de referência 510. Conforme pode ser visto, as entradas do arranjo "InRealData" e entradas do arranjo "InlmagData" com indices entre 0 e lpc_order - 1 são definidos para valores determinados pelo coeficiente LPC correspondente "IpcCoeffs[i]", modulado por um termo de cosseno ou termo de seno. As entradas do arranjo "InRealData" e "InlmagData" com índices i > lpc_order sâo definidas como 0.
De forma correspondente, os arranjos "InRealData[i]" e "InlmagData[i]" descrevem uma parte real e uma parte imaginária de uma resposta de domínio de tempo descrita pelos coeficientes LPC, modulados com um termo de modulação complexo (cos(i • n/sizeN) - j • sin(i • n/sizeN)).
Subsequentemente, uma transformação Fourier rápida complexa é aplicada, caracterizada pelo fato de que os arranjos "InRealData[i]" e "InlmagData[i]" descrevem o sinal de entrada da transformação Fourier rápida complexa. Um resultado da transformação Fourier rápida complexa é fornecido pelos arranjos "OutRealData" e "OutlmagData". Dessa forma, os arranjos
"OutRealData" e "OutlmagData" descrevem os coeficientes espectrais (com índices de frequência i) representando a resposta do filtro LPC descrita pelos coeficientes de filtro de dominio de tempo.
Subsequentemente, os denominados fatores de escala MDCT são computados, que possuem índices de frequência i, e que são designados com "mdct_scaleFactors[i]". Um fator de escala MDCT "mdct_scaleFactors [i]" é computado como o inverso do valor absoluto do coeficiente espectral correspondente (descrito pelas entradas "OutRealData[i]" e "OutlmagData[i]").
Deve ser observado que a operação de modulação estimada complexa mostrada no numeral de referência 510 e execução de uma transformação Fourier rápida complexa mostrada no numeral de referência 520 efetivamente constitui uma transformação singular discreta de Fourier (ODFT). A transformação singular discreta de Fourier tem a seguinte fórmula:
Figure img0001
em que N = sizeN, que é duas vezes o tamanho do MDCT
Na fórmula acima, os coeficientes LPC lpc_coeffs[n] têm o papel da função de entrada de transformação x(n). A função de saida X0(k) é representada pelos valores "OutRealData[k]" (parte real) e "OutlmagData[k]" (parte imaginária).
A função "complex_fft() " é uma implantação rápida de uma transformação Fourier discreta complexa convencional (DFT). Os fatores de escala MDCT obtidos ("mdct_scaleFactors") são valores positivos que são então usados para escalar os coeficientes MDCT (fornecidos pelo MDCT 350a) do sinal de entrada.
O escalonamento será realizado em conformidade com o pseudocódigo mostrado na Fig. 6. 2.4 Detalhes referentes à gestão de janela e overlapping
A gestão de janela e overlapping entre os quadros 20 subsequentes são descritos na Fig. 7 e 8. A Fig. 7 mostra uma gestão de janela que é realizada por um codec comutado de dominio de tempo/domínio de frequência enviando o LPCO como código extra. A Fig. 8 mostra uma gestão de janela que é realizada ao comutar de um codificador de 25 dominio de frequência a um codificador de dominio de tempo usando "lpc2mdct" para transições.
Com referência agora à Fig. 7, um primeiro quadro de áudio 710 é codificado no modo de dominio de frequência e dotado de janela usando uma janela 712.
O segundo quadro de áudio 716, que sobrepõe o primeiro quadro de áudio 710 em aproximadamente 50 %, e que é 5 codificado no modo de dominio de frequência, é dotado de janela usando uma janela 718, que é designada como uma "janela de inicio". A janela de inicio tem uma longa inclinação de transição de lado esquerdo 718a e uma curta inclinação de transição de lado direito 718c.
Um terceiro quadro de áudio 722, que é codificado no modo de previsão linear, é dotado de janela usando uma janela de modo de previsão linear 724, que compreende uma curta inclinação de transição de lado esquerdo 724a combinando com a inclinação de transição de lado direito 718c e uma curta 15 inclinação de transição de lado direito 724c. Um quarto quadro de áudio 728, que é codificado no modo de dominio de frequência, é dotado de janela usando uma "janela de parada" 7 30 com uma inclinação de transição de lado esquerdo comparativamente curta 730a e uma inclinação de transição de lado direito comparativamente longa 730c.
Ao mudar do modo de dominio de frequência ao modo de previsão linear, i.e., como uma transição entre o segundo quadro de áudio 716 e o terceiro quadro de áudio 722, um conjunto extra de coeficientes LPC (também designado como "LPCO") é 25 convencionalmente enviado para garantir uma transição adequada ao modo de codificação de dominio de previsão linear.
Entretanto, uma realização de acordo com a invenção cria um codificador de áudio com um novo tipo de janela de início para a transição entre o modo de dominio de frequência e o modo de previsão linear. Com referência agora à Fig. 8, pode ser visto que um primeiro quadro de áudio 810 é dotado de janela usando a denominada "janela longa" 812 e codificado no modo de domínio de frequência. A "janela longa" 812 compreende uma inclinação de transição de lado direito comparativamente longa 812b. Um segundo quadro de áudio 816 é dotado de janela usando uma janela de início de domínio de previsão linear 818, que compreende uma inclinação de transição de lado esquerdo comparativamente longa 818a, que combina a inclinação de transição de lado direito 812b da janela 812. A janela de início de domínio de previsão linear 818 também compreende uma inclinação de transição de lado direito comparativamente curta 818b. O segundo quadro de áudio 816 é codificado no modo de previsão linear. De forma correspondente, os coeficientes de filtro LPC são determinados para o segundo quadro de áudio 816, e as amostras de domínio de tempo do segundo quadro de áudio 816 também são transformadas na representação espectral usando um MDCT. Os coeficientes de filtro LPC, que foram determinados para o segundo quadro de áudio 816, são então aplicados no domínio de frequência e usados para configurar de forma espectral os coeficientes espectrais fornecidos pelo MDCT com base na representação de domínio de tempo do conteúdo de áudio.
Um terceiro quadro de áudio 822 é dotado de janela usando uma janela 824, que é idêntico à janela 724 acima descrita. O terceiro quadro de áudio 822 é codificado no modo de previsão linear. Um quarto quadro de áudio 828 é dotado de janela usando uma janela 830, que é substancialmente idêntica à janela 730.
O conceito descrito com referência à Fig. 8 tem a vantagem que uma transição entre o quadro de áudio 810, que é codificado no modo de dominio de frequência usando uma denominada 5 "janela longa" e um terceiro quadro de áudio 822, que é codificado no modo de previsão linear usando a janela 824, é realizado via um segundo quadro de áudio intermediário (parcialmente overlapping) 816, que é codificado no modo de previsão linear usando a janela 818. Conforme o segundo quadro de áudio é tipicamente codificado 10 de modo que a configuração espectral seja realizada no dominio de frequência (i.e., usando o transformador de coeficiente de filtro 350b), uma boa sobreposição e adição entre o quadro de áudio 810 codificado no modo de dominio de frequência usando uma janela com uma inclinação de transição de lado direito comparativamente longa 812b e o segundo quadro de áudio 816 podem ser obtidas. Além disso, os coeficientes codificados de filtro LPC são transmitidos para o segundo quadro de áudio 816 ao invés dos valores de fator de escala. Isso distingue a transição da Fig. 8 da transição da Fig. 7, em que os coeficientes extras LPC (LPC0) são transmitidos além dos valores de fator de escala. Consequentemente, a transição entre o segundo quadro de áudio 816 e o terceiro quadro de áudio 822 pode ser realizada com boa qualidade sem transmitir dados extras adicionais como, por exemplo, os coeficientes LPC0 transmitidos no caso da Fig. 7. Dessa forma, as informações que 25 são exigidas para inicializar o codec de dominio preditivo linear usado no terceiro quadro de áudio 822 estão disponíveis sem transmitir as informações extras. Para resumir, na realização descrita com referência à Fig. 8, a janela de inicio de dominio de previsão linear 818 pode usar uma configuração de ruido com base em LPC ao invés dos fatores de escala convencionais (que são transmitidos, por exemplo, para o quadro de áudio 716) . A janela de análise LPC 818 corresponde à janela de inicio 718, e nenhum coeficiente LPC de configuração adicional (como, por exemplo, os coeficientes LPCO) precisa ser enviado, conforme descrito na Fig. 8. Nesse caso, o livro de código adaptável de ACELP (que pode ser usado para codificação de pelo menos uma porção do terceiro quadro de 10 áudio 822) pode ser facilmente alimentado com o LPC residual computado do codificador de janela de inicio de dominio de previsão linear decodificado 818.
Para resumir o acima, a Fig. 7 mostra uma função de um codec comutado de dominio de tempo/dominio de frequência que 15 precisa enviar um conjunto extra do conjunto de coeficiente LPC denominado LPO como código extra. A Fig. 8 mostra um comutador a partir de um codificador de dominio de frequência a um codificador de dominio de previsão linear usando o denominado "LPC2MDCT" para transições. 20 3. Codificador de sinal de áudio de acordo com a Fig. 9
A seguir, um codificador de sinal de áudio 900 será descrito com referência à Fig. 9, que é adaptado para implantar o conceito conforme descrito com referência à Fig. 8. 0 codificador de sinal de áudio 900 de acordo com a Fig. 9 é muito semelhante ao sinal de áudio 300 de acordo com a Fig. 3, de modo que os meios idênticos e sinais são designados com ' numerais idênticos de referência. Uma discussão de tais meios idênticos e sinais será aqui omitida, e a referência é feita à discussão do codificador de sinal de áudio 300.
Entretanto, o codificador de sinal de áudio 900 é estendido em comparação ao codificador de sinal de áudio 300 de 5 modo que o combinador 330e do codificador de dominio de frequência 930 pode seletivamente aplicar os fatores de escala 340d ou valores de ganhos de dominio de previsão linear 350c para a configuração espectral. Para essa finalidade, um comutador 930j é usado, que permite alimentar os fatores de escala 330d ou os valores de ganhos de dominio de previsão linear 350c ao combinador 330e para a configuração espectral dos coeficientes espectrais 330b. Dessa forma, o codificador de sinal de áudio 900 conhece ainda três modos de operação, isto é: 1. Modo de dominio de frequência: a representação de dominio de tempo do conteúdo de áudio é transformada no dominio de frequência usando o MDCT 330a e uma configuração espectral é aplicada à representação de dominio de frequência 330b do conteúdo de áudio em dependência dos fatores de escala 330d. Uma versão codificada e quantizada 332 da representação de dominio de frequência configurada de forma espectral 330f e uma informação codificada de fator de escala 334 é incluida na corrente de bit para um quadro de áudio codificado usando o modo de dominio de frequência. 2. Modo de previsão linear: no modo de previsão linear, os coeficientes de filtro LPC 340b são determinados para uma porção do conteúdo de áudio e uma excitação codificada de transformação (primeiro sub-modo) ou uma excitação codificada de ACELP é determinada usando os referidos coeficientes de filtro LPC 340b, dependendo de qual excitação codificada aparenta ser mais eficiente de taxa de bit. A excitação codificada 342 e a informação de coeficiente codificado de filtro LPC 344 são incluidas na corrente de bit para um quadro de áudio codificado no 5 modo de previsão linear. 3. Modo de dominio de frequência com coeficiente de filtro LPC com base em configuração espectral: alternativamente, em um terceiro modo possivel, o conteúdo de áudio pode ser processado pelo codificador de dominio de 10 frequência 930. Entretanto, ao invés dos fatores de escala 330d, os valores de ganhos de dominio de previsão linear 350c são aplicados para a configuração espectral no combinador 330e. De forma correspondente, uma versão codificada por entropia e quantizada 332 da representação de dominio de frequência 15 configurada de forma espectral 330f do conteúdo de áudio é incluida na corrente de bit, caracterizada pelo fato de que a representação de dominio de frequência configurada de forma espectral 330f é configurada de forma espectral em conformidade com os valores de ganhos de dominio de previsão linear 350c 20 fornecidos pelo codificador de dominio de previsão linear 340.
Além disso, uma informação de coeficiente codificado de filtro LPC 344 é incluida na corrente de bit para tal quadro de áudio.
Ao usar o terceiro modo acima descrito, é possivel atingir a transição que foi descrita com referência à 25 Fig. 8 para o segundo quadro de áudio 816. Deve ser observado que a codificação de um quadro de áudio usando o codificador de dominio de frequência 930 com uma configuração espectral em dependência dos valores de ganhos de dominio de previsão linear é equivalente à codificação do quadro de áudio 816 usando um codificador de dominio de previsão linear, se a dimensão do MDCT usado pelo codificador de dominio de frequência 930 corresponde à dimensão do MDCT usado pelo desvio TCX 350, e se a quantização 5 330g usada pelo codificador de dominio de frequência 930 corresponde à quantização 350f usada pelo desvio TCX 350 e se a codificação por entropia 330e usada pelo codificador de dominio de frequência corresponde à codificação de entropia 350h usada no desvio TCX. Em outras palavras, a codificação do quadro de áudio 10 816 pode ser feita ao adaptar o desvio TCX 350, de modo que o MDCT 350g assume as características do MDCT 330a, e de modo que a quantização 350f assume as características da quantização 330e e de modo que a codificação por entropia 350h assume as características da codificação por entropia 330i, ou ao aplicar os 15 valores de ganhos de domínio de predicação linear 350c no codificador de domínio de frequência 930. Ambas as soluções são equivalentes e levam ao processamento da janela de início 816 conforme discutido com referência à Fig. 8. 4. Decodificador de sinal de áudio de acordo com 20 a Fig. 10
A seguir, uma visão unificada do USAC (codificação unificada de fala e áudio) com TCX MDCT realizado no domínio de sinal será descrita com referência à Fig. 10.
Deve ser observado aqui que, em algumas realizações de acordo com a invenção, o desvio TCX 350 e o codificador de domínio de frequência 330, 930 compartilham quase todas as mesmas ferramentas de codificação (MDCT 330a, 350a; combinador 330e, 350d; quantização 330g, 350f; codificador de 56/120 entropia 330i, 350h) e podem ser considerados como um único codificador, conforme ilustrado na Fig. 10. Dessa forma, as realizações de acordo com a presente invenção permitem uma estrutura mais unificada do codificador USAC comutado, em que 5 somente dois tipos de codecs (codificador de dominio de frequência e codificador de dominio de tempo) podem ser delimitados.
Com referência agora à Fig. 10, pode ser visto que o codificador de sinal de áudio 1000 é configurado para receber uma representação de entrada 1010 do conteúdo de áudio e para fornecer, com base nisso, uma representação codificada 1012 do conteúdo de áudio. A representação de entrada 1010 do conteúdo de áudio, que é tipicamente uma representação de dominio de tempo, é colocada em um MDCT 1030a se uma porção do conteúdo de áudio deve ser codificada no modo de dominio de frequência ou em um sub- modo TCX do modo de previsão linear. O MDCT 1030a fornece uma representação de dominio de frequência 1030b da representação de dominio de tempo 1010. A representação de dominio de frequência 1030b é colocada em um combinador 1030e, que combina a representação de dominio de frequência 1030b com os valores de configuração espectral 1040, para obter uma versão configurada de forma espectral 1030f da representação de dominio de frequência 1030b. A representação configurada de forma espectral 1030f é quantizada usando um quantizador 1030g, para obter sua versão quantizada 1030h, e a versão quantizada 1030h é enviada a um codificador de entropia (por exemplo, codificador aritmético) 1030i. O codificador de entropia 1030i fornece uma representação codificada de entropia e quantizada da representação de dominio de frequência configurada de forma espectral 1030f, que quantizada uma representação codificada é designada com 1032. O MDCT 1030a, combinador 1030e, quantizador 1030g e codificador por entropia 10301 formam um caminho comum de processamento de sinal para o modo de dominio de frequência e o sub-modo TCX do modo de previsão 5 linear.
O codificador de sinal de áudio 1000 compreende um Caminho de processamento de sinal ACELP 1060, que também recebe a representação de dominio de tempo 1010 do conteúdo de áudio e que fornece, com base nisso, uma excitação codificada 1062 usando 10 uma informação de coeficiente de filtro LPC 1040b. O caminho de processamento de sinal ACELP 1060, que pode ser considerado como sendo opcional, compreende um filtro com base em LPC 1060a, que recebe a representação de dominio de tempo 1010 do conteúdo de áudio e fornece um sinal residual ou sinal de excitação 1060b ao 15 codificador ACELP 1060c. O codificador ACELP fornece a excitação codificada 1062 com base no sinal de excitação ou sinal residual 1060b.
O codificador de sinal de áudio 1000 também compreende um analisador de sinal comum 1070 que é configurado para receber a representação de dominio de tempo 1010 do conteúdo de áudio e para fornecer, com base nisso, a informação de configuração espectral 1040a e a informação de filtro de coeficiente de filtro LPC 1040b, bem como uma versão codificada da informação secundária exigida para decodificar um quadro de áudio 25 atual. Dessa forma, o analisador de sinal comum 1070 fornece a informação de configuração espectral 1040a usando uma análise psicoacústica 1070a se o quadro de áudio atual for codificado no modo de dominio de frequência, e fornece uma informação codificada de fator de escala se o quadro de áudio atual for codificado no modo de dominio de frequência. A informação de fator de escala, que é usada para a configuração espectral, é fornecida pela análise psicoacústica 1070a, e uma informação codificada de fator 5 de escala descrevendo os fatores de escala 1070b é incluida na corrente de bit 1012 para um quadro de áudio codificado no modo de dominio de frequência.
Para um quadro de áudio codificado no sub-modo TCX do modo de previsão linear, o analisador de sinal comum 1070 deriva a informação de configuração espectral 1040a usando uma análise de previsão linear 1070c. A análise de previsão linear 1070c resulta em um conjunto de coeficientes de filtro LPC, que são transformados em uma representação espectral pelo bloco de previsão linear para MDCT 1070d. De forma correspondente, a informação de configuração espectral 1040a é derivada a partir dos coeficientes de filtro LPC fornecidos pela análise LP 1070c, conforme acima discutido. Consequentemente, para um quadro de áudio codificado no sub-modo de excitação codificada de transformação do modo de previsão linear, o analisador de sinal comum 1070 fornece a informação de configuração espectral 1040a com base na análise de previsão linear 1070c (ao invés de com base na análise psicoacústica 1070a) e também fornece uma informação de coeficiente codificado de filtro LPC ao invés de uma informação codificada de fator de escala, para inclusão na corrente de bit 1012.
Além do mais, para um quadro de áudio ser codificado no sub-modo ACELP do modo de previsão linear, a análise de previsão linear 1070c do analisador de sinal comum 1070 fornece a informação de coeficiente de filtro LPC 1040b ao filtro com base em LPC 1060a do desvio de processamento de sinal ACELP 1060. Nesse caso, o analisador de sinal comum 1070 fornece uma informação de coeficiente codificado de filtro LPC para inclusão na corrente de bit 1012.
Para resumir o acima, o mesmo caminho de processamento de sinal é usado para o modo de dominio de frequência e para o sub-modo TCX do modo de previsão linear.
Entretanto, a gestão de janela aplicada antes ou em combinação com o MDCT e dimensão do MDCT 1030a pode variar em dependência do modo de codificação. Não obstante, o modo de dominio de frequência e o sub-modo TCX do modo de previsão linear diferem de modo que uma informação codificada de fator de escala é incluída na corrente de bit no modo de domínio de frequência enquanto uma informação de coeficiente codificado de filtro LPC é incluída na corrente de bit no modo de previsão linear.
No sub-modo ACELP do modo de previsão linear, uma informação de excitação codificada ACELP e uma informação de coeficiente codificado de filtro LPC é incluída na corrente de bit. 5. Decodificador de sinal de áudio de acordo com a Fig. 11 5.1. A Visão Geral do Decodificador
A seguir, um decodificador de sinal de áudio será descrito, que é capaz de decodificar a representação codificada de um conteúdo de áudio fornecido pelo codificador de sinal de áudio acima descrito.
O decodificador de sinal de áudio 1100 de acordo com a Fig. 11 é configurado para receber a representação codificada 1110 de um conteúdo de áudio e fornece, com base nisso, uma representação decodificada 1112 do conteúdo de áudio. O 5 codificador de sinal de áudio 1110 compreende um deformatter opcional de carga útil de corrente de bit 1120 que é configurado para receber uma corrente de bit compreendendo a representação codificada 1110 do conteúdo de áudio e para extrair a representação codificada do conteúdo de áudio a partir da referida 10 corrente de bit, assim obtendo uma representação codificada extraida 1110' do conteúdo de áudio. O deformatter opcional de carga útil de corrente de bit 1120 pode extrair da corrente de bit uma informação codificada de fator de escala, uma informação de coeficiente codificado de filtro LPC e informação adicional de 15 controle ou informação secundária de otimização de sinal.
O decodificador de sinal de áudio 1100 também compreende um determinador de valor espectral 1130 que é configurado para obter uma pluralidade de conjuntos 1132 de coeficientes espectrais decodificados para uma pluralidade de 20 porções (por exemplo, quadros de áudio de sobreposição ou não) do conteúdo de áudio. Os conjuntos de coeficientes espectrais decodificados podem opcionalmente ser pré-processados usando um pré-processador 1140, assim rendendo os conjuntos pré-processados 1132' dos coeficientes espectrais decodificados.
O decodificador de sinal de áudio 1100 também compreende um processador de espectro 1150 configurado para aplicar uma configuração espectral a um conjunto 1132 de coeficientes espectrais decodificados, ou sua versão pré- 61/120 processada 1132', em dependência de um conjunto 1152 de parâmetros de dominio de previsão linear para uma porção do conteúdo de áudio (por exemplo, um quadro de áudio) codificada em um modo de previsão linear, e aplicar uma configuração espectral a um 5 conjunto 1132 de coeficientes espectrais decodificados, ou sua versão pré-processada 1132', em dependência de um conjunto 1154 de parâmetros de fator de escala para uma porção do conteúdo de áudio (por exemplo, um quadro de áudio) codificada em um modo de dominio de frequência. De forma correspondente, o processador de espectro 10 1150 obtém conjuntos configurados de forma espectral 1158 dos coeficientes espectrais decodificados.
O decodificador de sinal de áudio 1100 também compreende um conversor de dominio de frequência para dominio de tempo 1160, que é configurado para receber um conjunto configurado 15 de forma espectral 1158 de coeficientes espectrais decodificados e para obter uma representação de dominio de tempo 1162 do conteúdo de áudio com base no conjunto configurado de forma espectral 1158 de coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de previsão linear. O 20 conversor de dominio de frequência para dominio de tempo 1160 também é configurado para obter uma representação de dominio de tempo 1162 do conteúdo de áudio com base em um respectivo conjunto configurado de forma espectral 1158 de coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no 25 modo de dominio de frequência.
O decodificador de sinal de áudio 1100 também compreende um processador opcional de dominio de tempo 1170, que opcionalmente realiza um pós-processamento de dominio de tempo da representação de domínio de tempo 1162 do conteúdo de áudio, para obter a representação decodificada 1112 do conteúdo de áudio. Entretanto, na ausência do pós-processador de dominio de tempo 1170, a representação decodificada 1112 do conteúdo de áudio pode 5 ser igual à representação de domínio de tempo 1162 do conteúdo de áudio fornecida pelo conversor de domínio de frequência para domínio de tempo 1160. 5.2 Detalhes Adicionais
A seguir, os detalhes adicionais do decodificador 10 de áudio 1100 serão descritos, cujos detalhes poderão ser considerados como melhorias opcionais do decodificador de sinal de áudio.
Deve ser observado que o decodificador de sinal de áudio 1100 é um decodificador de sinal de áudio multimodal, que 15 é capaz de manusear uma representação codificada de sinal de áudio em que as porções subsequentes (por exemplo, quadros de áudio de sobreposição ou não) do conteúdo de áudio são codificadas usando diferentes modos. A seguir, os quadros de áudio serão considerados como um simples exemplo de uma porção do conteúdo de áudio.
Conforme o conteúdo de áudio é subdividido em quadros de áudio, é especificamente importante ter transições regulares entre as representações decodificadas dos quadros de áudio subsequentes (parcialmente de sobreposição ou não) codificadas do mesmo modo, e também entre os quadros de áudio subsequentes (de sobreposição ou 25 não) codificados em diferentes modos. Preferivelmente, o decodificador de sinal de áudio 1100 manuseia as representações de sinal de áudio em que os quadros de áudio subsequentes são sobrepostos em aproximadamente 50%, embora a sobreposição possa ser significativamente menor em alguns casos e/ou para algumas transições.
Por esse motivo, o decodificador de sinal de áudio 1100 compreende um overlapper configurado para 5 representações de sobreposição e adição de dominio de tempo de quadros de áudio subsequentes codificados em diferentes dos modos. O overlapper pode, por exemplo, ser parte do conversor de dominio de frequência para dominio de tempo 1160, ou pode ser arranjado na saida do conversor de domínio de frequência para domínio de tempo 1160. Com a finalidade de obter alta eficiência e boa qualidade ao sobrepor quadros de áudio subsequentes, o conversor de domínio de frequência para domínio de tempo é configurado para obter uma representação de domínio de tempo de um quadro de áudio codificado no modo de previsão linear (por exemplo, em seu sub-modo de excitação codificada de transformação) usando uma transformação dobrada, e também obter um domínio de representação de tempo de um quadro de áudio codificado no modo de domínio de frequência usando uma transformação dobrada. Nesse caso, o overlapper é configurado para sobrepor as representações de domínio de tempo dos quadros de áudio subsequentes codificados em diferentes dos modos. Ao usar tais transformações dobradas de síntese para as conversões do domínio de frequência para domínio de tempo, que podem preferivelmente ser do mesmo tipo de transformação para os quadros de áudio codificados em diferentes dos modos, uma amostragem crítica pode ser usada e o código extra causado pela operação de sobreposição e adição é minimizado. Ao mesmo tempo, existe um cancelamento de aliasing de domínio de tempo entre as porções de sobreposição das representações de domínio de tempo dos quadros de 64/120 áudio subsequentes. Deve ser observado que a possibilidade de ter um cancelamento de aliasing de dominio de tempo na transição entre os quadros de áudio subsequentes codificados em diferentes modos é causada pelo fato de que uma conversão do dominio de frequência 5 para dominio de tempo é aplicada no mesmo dominio em diferentes modos, de modo que uma saida de uma transformação dobrada de sintese realizada em um conjunto configurado de forma espectral de coeficientes espectrais decodificados de um primeiro quadro de áudio codificado em um primeiro dos modos pode ser diretamente combinado (i.e., combinado sem uma operação de filtração intermediária) com uma saida de uma transformação dobrada realizada em um conjunto configurado de forma espectral de coeficientes espectrais decodificados de um quadro de áudio subsequente codificado em um segundo dos modos. Dessa forma, uma combinação linear da saida da transformação dobrada realizáda para um quadro de áudio codificado no primeiro modo e da saida da transformação dobrada para um quadro de áudio codificado no segundo modo é realizada. Naturalmente, uma gestão de janela de sobreposição adequada pode ser realizada como parte do processo de transformação dobrada ou subsequente ao processo de transformação dobrada.
De forma correspondente, um cancelamento de aliasing de dominio de tempo é obtido pela mera operação de sobreposição e adição entre as representações de dominio de tempo 25 de quadros de áudio subsequentes codificados em diferentes dos modos.
Em outras palavras, é importante que o conversor de dominio de frequência para dominio de tempo 1160 forneça os sinais de saida de dominio de tempo, que estão no mesmo dominio para ambos os modos. O fato de que os sinais de saida da conversão do dominio de frequência para dominio de tempo (por exemplo, a transformação dobrada em combinação com uma gestão de janela de 5 transição associada) estão no mesmo dominio para diferentes modos significa que os sinais de saida da conversão do dominio de frequência para dominio de tempo são linearmente combináveis mesmo em uma transição entre os diferentes modos. Por exemplo, os sinais de saida da conversão do dominio de frequência para dominio de 10 tempo são ambas as representações de dominio de tempo de um conteúdo de áudio descrevendo uma evolução temporal de um sinal de locutor. Em outras palavras, as representações de dominio de tempo 1162 dos conteúdos de áudio dos quadros de áudio subsequentes podem ser comumente processadas com a finalidade de derivar os 15 sinais de locutor.
Além do mais, deve ser observado que o processador de espectro 1150 pode compreender um provedor de parâmetro 1156, que é configurado para fornecer o conjunto 1152 de parâmetros de domínio de previsão linear e o conjunto 1154 de 20 parâmetros de fator de escala com base na informação extraída da corrente de bit 1110, por exemplo, com base em uma informação codificada de fator de escala e uma informação codificada de parâmetro de filtro LPC. O provedor de parâmetro 1156 pode, por exemplo, compreende um determinador de coeficiente de filtro LPC 25 configurado para obter coeficientes decodificados de filtro LPC com base em uma representação codificada dos coeficientes de filtro LPC para uma porção do conteúdo de áudio codificada no modo de previsão linear. Da mesma forma, o provedor de parâmetro 1156 pode compreender um transformador de coeficiente de filtro configurado para transformar os coeficientes decodificados de filtro LPC em uma representação espectral, com a finalidade de obter os valores de ganhos de modo de previsão linear associados 5 às diferentes frequências. Os valores de ganhos de modo de previsão linear (por vezes também designados com g[k]) podem constituir um conjunto 1152 de parâmetros de dominio de previsão linear.
O provedor de parâmetro 1156 pode ainda 10 compreender um determinador de fator de escala configurado para obter os valores decodificados de fator de escala com base em uma representação codificada dos valores de fator de escala para um quadro de áudio codificado no modo de dominio de frequência. Os valores decodificados de fator de escala podem servir como um 15 conjunto 1154 de parâmetros de fator de escala.
De forma correspondente, a configuração espectral, que pode ser considerada como uma modificação de espectro, é configurada para combinar um conjunto 1132 de coeficientes espectrais decodificados associados a um quadro de 20 áudio codificado no modo de previsão linear, ou sua versão pré- processada 1132' , com os valores de ganhos de modo de previsão linear (constituindo o conjunto 1152 de parâmetros de dominio de previsão linear), com a finalidade de obter um a versão de ganho processado (i.e., configurada de forma espectral) 1158 dos 25 coeficientes espectrais decodificados 1132 em que as contribuições dos coeficientes espectrais decodificados 1132, ou de sua versão pré-processada 1132', são ponderadas em dependência dos valores de ganhos de modo de previsão linear. Além disso, o modificador de espectro pode ser configurado para combinar um conjunto 1132 de coeficientes espectrais decodificados associados a um quadro de áudio codificado no modo de dominio de frequência, ou sua versão pré-processada 1132', com os valores de fator de escala (que 5 constituem o conjunto 1154 de parâmetros de fator de escala) com a finalidade de obter uma versão processada de fator de escala (i.e., configurada de forma espectral) 1158 dos coeficientes espectrais decodificados 1132 em que as contribuições dos coeficientes espectrais decodificados 1132, ou de sua versão pré- 10 processada 1132', são ponderadas em dependência dos valores de fator de escala (do conjunto 1154 de parâmetros de fator de escala). De forma correspondente, um primeiro tipo de configuração espectral, isto é, uma configuração espectral em dependência de um conjunto 1152 de parâmetros de domínio de previsão linear, é 15 realizado no modo de previsão linear, e um segundo tipo de configuração espectral, isto é, uma configuração espectral em dependência de um conjunto 1154 de parâmetros de fator de escala, é realizada no modo de domínio de frequência. Consequentemente, um impacto prejudicial do ruído de quantização sobre a representação 20 de domínio de tempo 1162 é mantido pequeno para os quadros de áudio semelhantes à fala (em que a configuração espectral é preferivelmente realizada em dependência do conjunto 1152 de parâmetros de domínio de previsão linear) e para áudio geral, por exemplo, quadros de áudio não semelhantes à fala para os quais a 25 configuração espectral é preferivelmente realizada em dependência do conjunto 1154 de parâmetros de fator de escala. Entretanto, ao realizar a configuração de ruído usando a configuração espectral tanto para os quadros de áudio semelhantes à fala e não semelhantes à fala, i.e., ambos para os quadros de áudio codificados no modo de previsão linear e para os quadros de áudio codificados no modo de dominio de frequência, o decodificador de áudio multimodal 1100 compreende uma estrutura de baixa 5 complexidade e ao mesmo tempo permite uma sobreposição e adição de cancelamento de aliasing das representações de dominio de tempo 1162 dos quadros de áudio codificados em diferentes dos modos.
Outros detalhes serão abaixo discutidos. 6. Decodificador de sinal de áudio de acordo com 10 a Fig. 12 A Fig. 12 mostra um diagrama esquemático de bloco de um decodificador de sinal de áudio 1200, de acordo com uma realização adicional da invenção. A Fig. 12 mostra uma visão unificada de um decodificador unificado de codificação de fala e 15 áudio (USAC) com uma transformação de cosseno discreto modificado de excitação codificada de transformação (TCX-MDCT) no dominio de sinal.
O decodificador de sinal de áudio 1200 de acordo com a Fig. 12 compreende um demultiplexador de corrente de bit 20 1210, que pode obter a função do deformatter de carga útil de corrente de bit 1120. O demultiplexador de corrente de bit 1210 extrai a partir de uma corrente de bit representando um conteúdo de áudio uma representação codificada do conteúdo de áudio, que pode compreender os valores espectrais codificados e informação 25 adicional (por exemplo, uma informação codificada de fator de escala e uma informação codificada de parâmetro de filtro LPC).
O decodificador de sinal de áudio 1200 também compreende os comutadores 1216, 1218, que são configurados para distribuir componentes da representação codificada do conteúdo de áudio fornecida pelo demultiplexador de corrente de bit para diferentes blocos de processamento de componente do decodificador de sinal de áudio 1200. Por exemplo, o decodificador de sinal de 5 áudio 1200 compreende um desvio combinado de modo de dominio de frequência/sub-modo TCX 1230, que recebe a partir do comutador 1216 uma representação codificada de dominio de frequência 1228 e fornece, com base nisso, uma representação de dominio de tempo 1232 do conteúdo de áudio. O decodificador de sinal de áudio 1200 10 também compreende um decodificador ACELP 1240, que é configurado para receber a partir do comutador 1216 uma informação de excitação codificada ACELP 1238 e para fornecer, com base nisso, uma representação de dominio de tempo 1242 do conteúdo de áudio.
O decodificador de sinal de áudio 1200 também 15 compreende um provedor de parâmetro 1260, que é configurado para receber a partir do comutador 1218 uma informação codificada de fator de escala 1254 para um quadro de áudio codificado no modo de dominio de frequência e uma informação de coeficiente codificado de filtro LPC 1256 para um quadro de áudio codificado no modo de 20 previsão linear, que compreende o sub-modo TCX e o sub-modo ACELP.
O provedor de parâmetro 1260 é ainda configurado para receber informação de controle 1258 a partir do comutador 1218. O provedor de parâmetro 1260 é configurado para fornecer uma informação de configuração espectral 1262 para o desvio combinado de modo de 25 dominio de frequência/sub-modo TCX 1230. Além disso, o provedor de parâmetro 1260 é configurado para fornecer uma informação de coeficiente de filtro LPC 1264 ao decodificador ACELP 1240. frequência/sub-modo TCX 1230 pode compreender urn decodificador de entropia 1230a, que recebe a informação codificada de dominio de frequência 1228 e fornece, com base nisso, uma informação decodificada de dominio de frequência 1230b, que é alimentada a um 5 quantizador inverso 1230c. 0 quantizador inverso 1230c fornece, com base na informação decodificada de dominio de frequência 1230b, uma informação decodificada e inversamente quantizada de dominio de frequência 1230d, por exemplo, na forma de conjuntos de coeficientes espectrais decodificados. Um combinador 1230e é 10 configurado para combinar a informação decodificada e inversamente quantizada de dominio de frequência 1230d com a informação de configuração espectral 1262, para obter a informação configurada de forma espectral de dominio de frequência 1230f. Uma transformação inversa de cosseno discreto modificado 1230g recebe a informação configurada de forma espectral de dominio de frequência 1230f e fornece, com base nisso, a representação de dominio de tempo 1232 do conteúdo de áudio.
O decodificador de entropia 1230a, quantizador inverso 1230c e transformação de cosseno discreta modificada 20 inversa 1230g podem todos opcionalmente receber alguma informação de controle, que pode ser incluida na corrente de bit ou derivada a partir da corrente de bit pelo provedor de parâmetro 1260.
O provedor de parâmetro 1260 compreende um decodificador de fator de escala 1260a, que recebe a informação 25 codificada de fator de escala 1254 e fornece uma informação decodificada de fator de escala 1260b. O provedor de parâmetro 1260 também compreende um decodificador de coeficiente LPC 1260c, codificado de filtro LPC 1256 e para fornecer, com base nisso, uma informação decodificada de coeficiente de filtro LPC 1260d a um transformador de coeficiente de filtro 1260e. Da mesma forma, o decodificador de coeficiente LPC 1260c fornece a informação de 5 coeficiente de filtro LPC 1264 ao decodificador ACELP 1240. O transformador de coeficiente de filtro 1260e é configurado para transformar os coeficientes de filtro LPC 1260d ao domínio de frequência (também designado como domínio espectral) e subsequentemente derivar os valores de ganhos de modo de previsão 10 linear 1260f a partir dos coeficientes de filtro LPC 1260d. Da mesma forma, o provedor de parâmetro 1260 é configurado para seletivamente fornecer, por exemplo, usando um comutador 1260g, os fatores de escala decodificados 1260b ou valores de ganhos de modo de previsão linear 1260f como a informação de configuração 15 espectral 1262.
Deve ser observado aqui que o codificador de sinal de áudio 1200 de acordo com a Fig. 12 pode ser complementado por um número de etapas adicionais de pré-processamento e etapas de pós-processamento em circuito entre os estágios. As etapas de 20 pré-processamento e etapas de pós-processamento podem ser diferentes para diferentes dos modos.
Alguns detalhes serão descritos a seguir. 7. Fluxo de sinal de acordo com a Fig. 13 A seguir, um possível fluxo de sinal será 25 descrito com referência à Fig. 13. O fluxo de sinal 1300 de acordo com a Fig. 13 pode ocorrer no decodificador de sinal de áudio 1200 de acordo com a Fig. 12.
Deve ser observado que o fluxo de sinal 1300 da Fig. 13 somente descreve a operação no modo de dominio de frequência e sub-modo TCX do modo de previsão linear para fins de simplicidade. Entretanto, a decodificação no sub-modo ACELP do modo de previsão linear pode ser realizada conforme discutido com 5 referência à Fig. 12.
O desvio comum de modo de dominio de frequência/sub-modo TCX 1230 recebe a informação codificada de dominio de frequência 1228. A informação codificada de dominio de frequência 1228 pode compreender os denominados dados espectrais 10 aritmeticamente codificados "ac_spectral_data", que são extraídos a partir de uma corrente de canal de domínio de frequência ("fd_channel_stream") no modo de domínio de frequência. A informação codificada de domínio de frequência 1228 pode compreender uma denominada codificação TCX ("tcxcoding"), que pode 15 ser extraída a partir de uma corrente de canal de domínio de previsão linear ("lpd_channel_stream") no sub-modo TCX. Uma decodificação de entropia 1330a pode ser realizada pelo decodificador de entropia 1230a. Por exemplo, a decodificação de entropia 1330a pode ser realizada usando um decodificador 20 aritmético. De forma correspondente, os coeficientes espectrais quantizados "x_ac_quant" são obtidos para os quadros de áudio codificados de domínio de frequência, e coeficientes espectrais quantizados de modo TCX "x_tcx_quant" são obtidos para os quadros de áudio codificados no modo TCX. Os coeficientes espectrais 25 quantizados de modo de domínio de frequência e coeficientes espectrais quantizados de modo TCX podem ser números inteiros em algumas realizações. A decodificação de entropia pode, por exemplo, conjuntamente decodificar grupos codificados espectrais de uma forma sensivel ao contexto. Além do mais, o número de bits exigido para codificar determinado coeficiente espectral pode variar em dependência da magnitude de coeficientes espectrais, de modo que mais bits de palavra de 5 código são exigidos para codificação de um coeficiente espectral com uma magnitude comparativamente superior.
Subsequentemente, a quantização inversa 1330c dos coeficientes espectrais quantizados de modo de dominio de frequência e dos coeficientes espectrais quantizados de modo TCX 10 será realizada, por exemplo, usando o quantizador inverso 1230c. A quantização inversa pode ser descrita pela seguinte fórmula:
Figure img0002
De forma correspondente, os coeficientes espectrais inversamente quantizados de modo de dominio de 15 frequência ("x_ac_invquant") são obtidos para os quadros de áudio codificados no modo de dominio de frequência, e coeficientes espectrais inversamente quantizados de modo TCX ("x_tcx_invquant") são obtidos para os quadros de áudio codificados no sub-modo TCX. 7.1 Processamento para quadro de áudio codificado 20 no dominio de frequência
A seguir, o processamento no modo de dominio de frequência será resumido. No modo de dominio de frequência, um enchimento de ruido 1340 é opcionalmente aplicado aos coeficientes espectrais inversamente quantizados de modo de dominio de 25 frequência, para obter uma versão enchida por ruido 1342 dos coeficientes espectrais inversamente quantizados de modo de dominio de frequência 1330d ("x_ac_invquant"). Depois, um escalonamento da versão enchida por ruido 1342 dos coeficientes espectrais inversamente quantizados de modo de dominio de frequência pode ser realizado, caracterizado pelo fato de que o escalonamento é designado com 1344. No escalonamento, os 5 parâmetros de fator de escala (também brevemente designados como fatores de escala ou sf[g][sfb]) são aplicados para escalonar os coeficientes espectrais inversamente quantizados de modo de dominio de frequência 1342 ("x_ac_invquant"). Por exemplo, diferentes fatores de escala podem ser associados aos coeficientes 10 espectrais de diferentes bandas de frequência (variações de frequência ou bandas de fator de escala). De forma correspondente, os coeficientes espectrais inversamente quantizados 1342 podem ser multiplicados com fatores associados de escala para obter os coeficientes espectrais escalonados 1346. O escalonamento 1344 15 pode preferivelmente ser realizado conforme descrito na Norma
Internacional ISO/IEC 14496-3, subparte 4, subcláusulas 4.6.2 e 4.6.3. O escalonamento 1344 pode, por exemplo, ser realizado usando o combinador 1230e. De forma correspondente, uma versão escalonada (e consequentemente, configurada de forma espectral) 20 1346, "x_rescal" dos coeficientes espectrais de modo de dominio de frequência é obtida, que pode ser equivalente à representação de dominio de frequência 1230f. Subsequentemente, uma combinação de um processamento médio/lateral 1348 e de um processamento temporal de configuração de ruido 1350 pode opcionalmente ser realizada com 25 base na versão escalonada 1346 dos coeficientes espectrais de modo de dominio de frequência, para obter uma versão pós-processada 1352 dos coeficientes espectrais escalonados de modo de dominio de frequência 1346. O processamento médio/lateral opcional 1348 pode, por exemplo, ser realizado conforme descrito em ISO/IEC 14496-3: 2005, codificação de tecnologia da informação dos objetos audiovisuais - parte 3: Áudio, subparte 4, subcláusula 4.6.8.1. A configuração de ruido temporal opcional pode ser realizada conforme descrito em ISO/IEC 14496-3: 2005, codificação de informação da tecnologia dos objetos audiovisuais - parte 3: Áudio, subparte 4, subcláusula 4.6.9.
Subsequentemente, uma transformação de cosseno discreta modificada inversa 1354 pode ser aplicada à versão 10 escalonada 1346 dos coeficientes espectrais de modo de dominio de frequência ou a sua versão pós-processada 1352. Consequentemente, uma representação de dominio de tempo 1356 do conteúdo de áudio do quadro de áudio atualmente processado é obtida. A representação de dominio de tempo 1356 também é designada com xi; n. Como uma assunção de simplificação, pode ser assumido que existe uma representação de dominio de tempo xiz n por quadro de áudio. Entretanto, em alguns casos, em que as janelas múltiplas (por exemplo, denominadas "janelas curtas") são associadas a um único quadro de áudio, pode existir uma pluralidade de representações de dominio de tempo xir n por quadro de áudio.
Subsequentemente, uma gestão de janela 1358 é aplicada à representação de dominio de tempo 1356, para obter uma representação de dominio de tempo com janela 1360, que também é designada com zi; n. De forma correspondente, em um caso simplificado, em que existe uma janela por quadro de áudio, uma representação de dominio de tempo com janela 1360 é obtida por quadro de áudio codificado no modo de dominio de frequência. 7.2. Processamento para quadro de áudio codificado no modo TCX
A seguir, o processamento será descrito para um quadro de áudio codificado total ou parcialmente no modo TCX. Referente a essa questão, deve ser observado que um quadro de 5 áudio pode ser dividido em uma pluralidade de, por exemplo, quatro sub-quadros, que podem ser codificados em diferentes sub-modos do modo de previsão linear. Por exemplo, os sub-quadros de um quadro de áudio podem seletivamente ser codificados no sub-modo TCX do modo de previsão linear ou no sub-modo ACELP do modo de previsão 10 linear. De forma correspondente, cada um dos sub-quadros pode ser codificado de modo que uma eficiência ideal de codificação ou uma troca ideal entre a qualidade de áudio e taxa de bit seja obtida. Por exemplo, uma sinalização usando um arranjo nomeado "mod[]" pode ser incluída na corrente de bit para um quadro de áudio 15 codificado no modo de previsão linear de modo a indicar quais dos sub-quadros do referido quadro de áudio são codificados no sub- modo TCX e quais são codificados no sub-modo ACELP. Entretanto, deve ser observado que o presente conceito pode ser entendido mais facilmente se for assumido que todo o quadro é codificado no modo 20 TCX. Os outros casos, em que um quadro de áudio compreende ambos os sub-quadros TCX, devem ser considerados como uma extensão opcional do referido conceito.
Presumindo-se agora que todo o quadro é codificado no modo TCX, pode ser visto que um enchimento de ruido 25 1370 é aplicado aos coeficientes espectrais inversamente quantizados de modo TCX 1330d, que também são designados como "quant[]". De forma correspondente, um conjunto enchido de ruído dos coeficientes espectrais de modo TCX 1372, que também é designado como "r[i]", é obtido. Além disso, uma denominada desconfiguração de espectro 1374 é aplicada ao conjunto enchido de ruido de coeficientes espectrais de modo TCX 1372, para obter um conjunto desconfigurado de espectro 1376 de coeficientes espectrais de modo TCX, que também é designado como "r[i]".
Subsequentemente, uma configuração espectral 1378 é aplicada, caracterizada pelo fato de que a configuração espectral é realizada em dependência dos valores de ganhos de dominio de previsão linear que são derivados dos coeficientes codificados LPC 10 descrevendo uma resposta de filtro de um filtro de Codificação de
Previsão Linear (LPC). A configuração espectral 1378 pode, por exemplo, ser realizada usando o combinador 1230a. De forma correspondente, um conjunto reconstruído 1380 de coeficientes espectrais de modo TCX, também designado com "rr[i]", é obtido.
Subsequentemente, um MDCT inverso 1382 é realizado com base no conjunto reconstruído 1380 de coeficientes espectrais de modo TCX, para obter uma representação de domínio de tempo 1384 de um quadro (ou, alternativamente, de um sub-quadro) codificado no modo TCX.
Subsequentemente, uma nova escala 1386 é aplicada à representação 20 de domínio de tempo 1384 de um quadro (ou um sub-quadro) codificado no modo TCX, para obter uma representação novamente escalada de domínio de tempo 1388 do quadro (ou sub-quadro) codificado no modo TCX, caracterizada pelo fato de que a representação novamente escalada de domínio de tempo também é 25 designada com "xw[i]". Deve ser observado que a nova escala 1386 é tipicamente um escalonamento igual de todos os valores de domínio de tempo de um quadro codificado no modo TCX ou do sub-quadro codificado no modo TCX. De forma correspondente, a nova escala 78/120 1386 tipicamente não apresenta uma distorção de frequência, pois não é seletiva de frequência.
Subsequente à nova escala 1386, uma gestão de janela 1390 é aplicada à representação novamente escalada de 5 dominio de tempo 1388 de um quadro (ou um sub-quadro) codificado no modo TCX. De forma correspondente, amostras de domínio de tempo com janela 1392 (também designadas com "zlz n" são obtidas, que representam o conteúdo de áudio de um quadro (ou um sub-quadro) codificado no modo TCX. 7.3. Processamento de sobreposição e adição
As representações de domínio de tempo 1360, 1392 de uma sequência de quadros são combinadas usando um processamento de sobreposição e adição 1394. No processamento de sobreposição e adição, as amostras de domínio de tempo de uma porção de lado 15 direito (temporariamente posterior) de um primeiro quadro de áudio são sobrepostas e adicionadas com as amostras de domínio de tempo de uma porção de lado esquerdo (temporariamente anterior) de um segundo quadro de áudio subsequente. Esse processamento de sobreposição e adição 1394 é realizado para os quadros de áudio 20 subsequentes codificados no mesmo modo e para os quadros de áudio subsequentes codificados em diferentes modos. Um cancelamento de aliasing de domínio de tempo é realizado pelo processamento de sobreposição e adição 1394 mesmo se os quadros de áudio subsequentes forem codificados em diferentes modos (por exemplo, 25 no modo de domínio de frequência e no modo TCX) devido à estrutura específica do decodificador de áudio, que evita qualquer processamento de distorção entre a saída do MDCT inverso 1954 e o processamento de sobreposição e adição 1394, e também entre a saída do MDCT inverso 1382 e processamento de sobreposição e adição 1394. Em outras palavras, não existe nenhum processamento adicional entre o processamento de MDCT inverso 1354, 1382 e o processamento de sobreposição e adição 1394, exceto pela gestão de 5 janela 1358, 1390 e a nova escala 1386 (e opcionalmente, uma combinação de não distorção de forma espectral de uma filtração de pré-ênfase e uma operação de retirada de ênfase). 8. Detalhes referentes ao TCX com base em MDCT 8.1. Descrição de Ferramenta de TCX com base em 10 MDCT
Quando o modo principal é um modo de previsão linear (que é indicado pelo fato da variável de corrente de bit "corejnode" ser igual a um) e quando um ou mais dos três modos TCX (por exemplo, a partir de um primeiro modo TCX para fornecer uma porção TCX de 512 amostras, incluindo 256 amostras de sobreposição, um segundo modo TCX para fornecer 768 amostras de domínio de tempo, incluindo 256 amostras de sobreposição, e um terceiro modo TCX para fornecer 1280 amostras TCX, incluindo 256 amostras de sobreposição) é selecionado como a codificação de "domínio de previsão linear", i.e., se uma das quatro entradas de arranjo de "mod[x]" for superior a zero (caracterizado pelo fato de que quatro entradas de arranjo mod[0], mod[l], mod[2], mod[3] são derivadas a partir de uma variável de corrente de bit e indicam os sub-modos LPC para quatro sub-quadros do quadro de áudio atual, i.e., indicam se um sub-quadro é codificado no sub- modo ACELP do modo de previsão linear ou no sub-modo TCX do modo de previsão linear, e se uma codificação TCX comparativamente longa, uma codificação TCX de comprimento médio ou uma codificação
TCX de comprimento curto for usada), a ferramenta TCX com base em MDCT é usada. Em outras palavras, se um dos sub-quadros do quadro de áudio atual for codificado no sub-modo TCX do modo de previsão linear, a ferramenta TCX é usada. O TCX com base em MDCT recebe os 5 coeficientes espectrais quantizados a partir de um decodificador aritmético (que pode ser usado para implantar o decodificador de entropia 1230a ou decodificação de entropia 1330a). Os coeficientes quantizados (ou sua versão inversamente quantizada 1230b) são primeiramente completados por um ruido de conforto (que pode ser realizado pela operação de enchimento de ruido 1370). A configuração de ruido de dominio de frequência com base em LPC é então aplicada aos coeficientes espectrais resultantes (por exemplo, usando o combinador 1230e, ou a operação de configuração espectral 1378) (ou sua versão desconfigurada espectral), e uma transformação MDCT inversa (que pode ser implantada pelo MDCT 1230g ou pela operação MDCT inversa 1382) é realizada para obter o sinal de sintese de dominio de tempo. 8.2. Definições de TCX com base em MDCT
A seguir, algumas definições serão fornecidas. "lg" designa um número de saida de coeficientes espectrais quantizados pelo decodificador aritmético (por exemplo, para um quadro de áudio codificado no modo de previsão linear).
A variável de corrente de bit "noise_factor" designa o indice de quantização de nivel de ruido. A variável ''nivel de ruido" designa um nivel de ruido injetado no espectro reconstruído. A variável "noise[]" designa um vetor de ruido gerado. 81/120
A variável de corrente de bit "global_gain" designa um indice de quantização de ganho de nova escala. A variável "g" designa um ganho de nova escala. A variável "rms" designa um valor quadrático 5 médio do sinal de dominio de tempo sintetizado "x[]' . A variável "x[]z/ designa o sinal de dominio de tempo sintetizado. 8.3. Processo de decodificação
O TCX com base em MDCT solicita do decodificador 10 aritmético 1230a um número de coeficientes espectrais quantizados, 1g, que é determinado pelo valor mod[] (i.e., pelo valor da variável mod[]). Esse valor (i.e., o valor da variável mod[]) também define o comprimento e formato de janela que serão aplicados no MDCT inverso 1230g (ou pelo processamento de MDCT 15 inverso 1382 e a gestão de janela correspondente 1390) . A janela é composta por três partes, uma sobreposição de lado esquerdo de L amostras (também designada como inclinação de transição de lado esquerdo) , uma parte média de uma das M amostras e uma parte de sobreposição direita (também designada como inclinação de 20 transição de lado direito) de R amostras. Para obter uma janela
MDCT de comprimento 2*lg, ZL zeros são adicionados no lado esquerdo e ZR zeros são adicionais no lado direito.
No caso de uma transição de ou para uma "short_windown", a região de sobreposição correspondente L ou R 25 pode precisar ser reduzida para 128 (amostras) com a finalidade de adaptar a uma possivel inclinação mais curta de janela de "short_window". Consequentemente, a região Mea região zero correspondente ZL ou ZR podem precisar ser expandidas por 64 amostras cada.
Em outras palavras, normalmente existe uma sobreposição de 256 amostras = L = R. É reduzido para 128 no caso do modo FD para modo LPD.
O diagrama da Fig. 15 mostra um número de coeficientes espectrais como uma função de mod[], bem como, um número de amostras de dominio de tempo da região zero esquerda ZL, da região de sobreposição esquerda L, da parte média M, da região de sobreposição direita R e da região zero direita ZR. a janela MDCT é fornecida por
Figure img0003
As definições de Wsin left, l e Wsin right r serão fornecidas abaixo. A janela MDCT W(n) é aplicada na etapa de gestão de janela 1390, que pode ser considerada como uma parte de um MDCT inverso de gestão de janela (por exemplo, do MDCT inverso 1230g).
Os coeficientes espectrais quantizados, também designados como "quant[]", entregues pelo decodificador aritmético 1230a (ou, alternativamente, pela quantização inversa 1230c) são 20 completados por um ruido de conforto. O nivel do ruido injetado é determinado pela variável decodificada de corrente de bit "noise_factor" conforme segue: noise_level = 0,0625*(8-noise_factor)
Um vetor de ruido, também designado com 25 "noise[]", é então computado usando uma função aleatória, designada com "random_sign() ", entregando aleatoriamente o valor - 1 ou +1. A seguinte relação se mantém: noise[i] = random_sign()*noise_level;
Os vetores "quant[]" e "noiseQ" são combinados 5 para formar o vetor reconstruído de coeficientes espectrais, também designado com "r[J", de uma forma que as execuções de 8 zeros consecutivos em "quant[]" são substituídas pelos componentes de "noise[]". Uma execução de 8 não zeros é detectada de acordo com a seguinte fórmula:
Figure img0004
Obtém-se o espectro reconstruído conforme segue:
Figure img0005
O enchimento de ruído acima descrito poderá ser realizado como um pós-processamento entre a decodificação de 15 entropia realizada pelo decodificador de entropia 1230a e a combinação realizada pelo combinador 1230e.
Uma desconfiguração de espectro é aplicada ao espectro reconstruído (por exemplo, ao espectro reconstruído 1376, r[i]) de acordo com as seguintes etapas: 20 1. calcular a energia Em do bloco 8-dimensional no índice m para cada bloco 8-dimensional do primeiro quarto do espectro 2. computar a razão Rm=sqrt (Em/Ej) , em que I é o . índice de bloco com o valor máximo 25 de todo Em 3. se Rm<0,l, então defina Rm=0,l 4. se Rra<Rm-l, então defina Rm=Rm-l Cada bloco 8-dimensional pertencente ao primeiro quarto do espectro é então multiplicado pelo fator Rm.
Uma desconfiguração de espectro será realizada 5 como um pós-processamento arranjado em um caminho de sinal entre o decodificador de entropia 1230a e o combinador 1230e. A desconfiguração de espectro pode, por exemplo, ser realizada pela desconfiguração de espectro 1374. Antes de aplicar o MDCT inverso, os dois filtros
LPC quantizados correspondentes à extremidade do bloco MDCT (i.e., os pontos de dobragem esquerdo e direito) são recuperados, suas versões ponderadas são computadas, e os espectros decimados correspondentes (64 pontos, qualquer que seja o comprimento de transformação) são computados.
Em outras palavras, um primeiro conjunto de coeficientes de filtro LPC é obtido para um primeiro periodo de tempo e um segundo conjunto de coeficientes de filtro LPC é determinado para um segundo período de tempo. Os conjuntos de coeficientes de filtro LPC são preferivelmente derivados a partir 20 de uma representação codificada dos referidos coeficientes de filtro LPC, que é incluída na corrente de bit. O primeiro período de tempo é preferivelmente em ou antes do início do quadro codificado por TCX atual (ou sub-quadro), e o segundo período de tempo é preferivelmente em ou após o final do quadro codificado por TCX ou sub-quadro. De forma correspondente, um conjunto efetivo de coeficientes de filtro LPC é determinado ao formar uma média ponderada dos coeficientes de filtro LPC do primeiro conjunto e dos coeficientes de filtro LPC do segundo conjunto.
Os espectros ponderados LPC são computados ao aplicar uma transformação singular discreta de Fourier (ODFT) aos coeficientes de filtros LPC. Uma modulação complexa é aplicada aos coeficientes LPC (filtro) antes de computar a transformação 5 singular discreta de Fourier (ODFT), de modo que os compartimentos de frequência ODFT estejam (preferivelmente de forma perfeita) alinhados com os compartimentos de frequência MDCT. Por exemplo, o espectro ponderado de sintese LPC de determinado filtro LPC Â(z) é computado conforme segue:
Figure img0006
Figure img0007
em que w[n], n = 0... Ipc _ order +1, são os coeficientes do filtro LPC ponderado fornecido por:
Figure img0008
Em outras palavras, uma resposta de dominio de tempo de um filtro LPC, representada pelos valores w[n], com n entre 0 e lpc_order - 1, é transformada no domínio espectral, para obter os coeficientes espectrais X0[k] . A resposta de dominio de tempo w[n] do filtro LPC pode ser derivada dos coeficientes de domínio de tempo ax a ai6 descrevendo o filtro de Codificação de Previsão Linear.
Os ganhos g[k] podem ser calculados a partir da representação espectral X0[k] dos coeficientes LPC (por exemplo, ax a ai6) de acordo com a seguinte equação:
Figure img0009
em que M=64 é o número de bandas em que os ganhos calculados são aplicados.
Subsequentemente, um espectro reconstruído 1230f, 1380, rr[i] é obtido em dependência dos ganhos calculados g[k] (também designados como valores de ganhos de modo de previsão linear) . Por exemplo, um valor de ganho g[k] pode ser associado a um coeficiente espectral 1230d, 1376, r[i] . Alternativamente, uma 10 pluralidade de valores de ganhos pode ser associada a um coeficiente espectral 1230d, 1376, r[i] . Um coeficiente de ponderação a [ i ] pode ser derivado a partir de um ou mais valores de ganhos g[k], ou o coeficiente de ponderação a[i] pode ainda ser idêntico a um valor de ganho g[k] em algumas realizações.
Consequentemente, um coeficiente de ponderação a[i] pode ser multiplicado com um valor espectral associado r[i], para determinar uma contribuição do coeficiente espectral r [1] ao coeficiente espectral configurado de forma espectral rr[i]. Por exemplo, a seguinte equação pode manter: 20 rr [i] = g [k] • r [i] . Entretanto, diferentes relações também podem ser usadas.
Acima, a variável k é igual a i/(lg/64) para considerar o fato de que os espectros LPC são decimados. O espectro reconstruído rr[] é alimentado a um MDCT inverso 1230g, 1382. Ao realizar o MDCT inverso, que será descrito em detalhes abaixo, os valores de espectro reconstruído rr[i] servem como os 87/120 valores de frequência de tempo Xiz k, ou como os valores de frequência de tempo spec[i][k]. A seguinte relação pode se manter: XÍ, K = rr [ k] ; ou spec [i] [k] = rr[k] .
Deve ser ressaltado aqui que, na discussão acima do processamento de espectro no desvio TCX, a variável i é um índice de frequência. Em contraste, na discussão do banco de filtro MDCT e comutação de bloco, a variável i é um índice de janela. Aquele com habilidade na técnica facilmente reconhecerá a 10 partir do contexto se a variável i é um índice de frequência ou um índice de janela.
Da mesma forma, deve ser observado que um índice de janela pode ser equivalente a um índice de quadro, se um quadro de áudio compreende somente uma janela. Se um quadro compreende 15 múltiplas janelas, que é o caso algumas vezes, podem existir múltiplos valores de índice de janela por quadro.
O sinal de saída sem janela x[] é novamente escalonado pelo ganho g, obtido por uma quantização inversa do índice de ganho global decodificado ("global_gain"):
Figure img0010
Em que rms é calculado como:
Figure img0011
O sinal de domínio de tempo sintetizado novamente escalonado é então igual a:
Figure img0012
Após a nova escala, a gestão de janela e a adição de sobreposição são aplicadas. A gestão de janela pode ser realizada usando uma janela W(n) conforme acima descrito e considerando os parâmetros de gestão de janela mostrados na Fig. 15. De forma correspondente, uma representação de sinal de dominio de tempo com janela Zi( n é obtida como:
Figure img0013
A seguir, um conceito será descrito que é útil se existir ambos o quadro codificado por TCXs de áudio (ou sub- quadros de áudio) e quadros de áudio codificados ACELP (ou sub- quadros de áudio) . Da mesma forma, deve ser observado que os coeficientes de filtro LPC, que são transmitidos para os quadros codificados por TCX ou sub-quadros significam que algumas realizações serão aplicadas com a finalidade de inicializar a decodificação ACELP.
Também observe que o comprimento da sintese TCX é fornecido pelo comprimento do quadro TCX (sem a sobreposição): 256, 512 ou 1024 amostras para o mod [ ] de 1,2 ou 3, respectivamente.
Após isso, a seguinte anotação é adotada: x[] designa a saida da transformação de cosseno discreta modificada inversa, z[] o sinal decodificado com janela no dominio de tempo e out[] o sinal de dominio de tempo sintetizado.
A saida da transformação de cosseno discreta modificada inversa é então novamente escalonada e dotada de janela conforme segue:
Figure img0014
N corresponde ao tamanho de janela MDCT, i.e.,
Quando o modo anterior de codificação era o modo FD ou TCX com base em MDCT, uma sobreposição e adição convencional 5 são aplicadas entre o sinal decodificado atual com janela zi/n e o sinal decodificado com janela anterior zi-i, n, em que o indice i conta o número das janelas MDCT já decodificadas. A sintese final de dominio de tempo out é obtida pelas seguintes fórmulas.
No caso em que ZÍ-J, n seja proveniente do modo FD:
Figure img0015
N 1 é o tamanho da sequência de janela proveniente do modo FD. i_out indexa o buffer de saida e é incrementado pelo.número
Figure img0016
das amostras escritas.
No caso de Zi-i,n proveniente do TCX com base em MDCT:
Figure img0017
Ni . ! é o tamanho da janela MDCT anterior. i_out indexa o buffer de saida out e é incrementado pelo número (N + L- R)/2 das amostras escritas.
A seguir, algumas possibilidades serão descritas para reduzir os artefatos em uma transição de um quadro ou sub- quadro codificado no modo ACELP a um quadro ou sub-quadro codificado no modo TCX com base em MDCT. Entretanto, deve ser observado que as diferentes abordagens também podem ser usadas.
A seguir, uma primeira abordagem será brevemente descrita. Quando proveniente do ACELP, uma janela especifica pode 5 ser usada para o próximo TCX por meio de reduzir R a 0, e então eliminar a região de sobreposição entre os dois quadros subsequentes.
A seguir, uma segunda abordagem será brevemente descrita (conforme descrito em USAC WD5 e anterior). Quando 10 proveniente do ACELP, a próxima janela TCX é ampliada por meio de M crescente (comprimento médio) por 128 amostras. No decodificador, a parte direita da janela, i.e., as primeiras amostras decodificadas não zero R são simplesmente descartadas e substituídas pelas amostras decodificadas ACELP.
A sintese reconstruída out [iout+n] é então filtrada por meio do filtro de pré-ênfase (1 - 0.68Z"1). A sintese de pré-ênfase resultante é então filtrada pelo filtro de análise Â(z) com a finalidade de obter o sinal de excitação. A excitação calculada atualiza o livro de código adaptável ACELP e permite comutação do TCX ao ACELP em um quadro subsequente. Os coeficientes de filtro de análise são interpolados com base em um sub-quadro. 9. Detalhes Referentes ao Banco de Filtro e Comutação de Bloco
A seguir, os detalhes referentes à transformação de cosseno discreta modificada inversa e comutação de bloco, i.e., a sobreposição e adição realizadas entre os quadros ou sub-quadros subsequentes, serão descritos em mais detalhes. Deve ser observado que a transformação de cosseno discreta modificada inversa descrita a seguir pode ser aplicada para os quadros de áudio codificados no dominio de frequência e para os quadros de áudio ou sub-quadros de áudio codificados no modo TCX. Enquanto as janelas 5 (W (n) ) para uso no modo TCX tenham sido descritas acima, as janelas usadas para o modo de dominio de frequência serão discutidas a seguir: deve ser observado que a escolha das janelas adequadas, especificamente na transição de um quadro codificado no modo de frequência a um quadro codificado no modo TCX subsequente, 10 ou vice-versa, permite ter um cancelamento de aliasing de dominio de tempo, de modo que as transições com baixo ou nenhum aliasing podem ser obtidas sem o código extra de taxa de bit. 9.1. Banco de filtro e Comutação de bloco - Descrição 15 . A representação de tempo/frequência do sinal (por exemplo, a representação de frequência de tempo 1158, 1230f, 1352, 1380) é mapeada no dominio de tempo ao alimentar a mesma no módulo de banco de filtro (por exemplo, o módulo 1160, 1230g, 1354-13581394, 1382-1386-1390-1394). Esse módulo consiste em uma 20 transformação de cosseno discreta modificada inversa (IMDCT), e uma janela e uma função de sobreposição/adição. Com a finalidade de adaptar o tempo/resolução de frequência do banco de filtro às características do sinal de entrada, uma ferramenta de comutação de bloco também é adotada. N representa o comprimento de janela, 25 em que N é uma função da variável de corrente de bit "window_sequence". Para cada canal, os valores de frequência de tempo N/2 Xi/k são transformados nos valores de domínio de tempo N Xi,n via o IMDCT. Após aplicar a função de janela, para cada canal, a primeira metade da sequência Zijn é adicionada à segunda metade da sequência com janela de bloco anterior Z(i-i),n para reconstruir as amostras de saida para cada canal outi,n. 9.2. Banco de filtro e Comutação de bloco - 5 Definições A seguir , algumas definições das variáveis de corrente de bit serão fornecidas.
A variável de corrente de bit "window_sequence" compreende dois bits indicando qual sequência de janela (i.e., 10 tamanho de bloco) é usada. A variável de corrente de bit "window_sequence" é tipicamente usada para quadros de áudio codificados no dominio de frequência.
A variável de corrente de bit "window_shape" compreende um bit indicando qual função de janela é selecionada. A tabela da Fig. 16 mostra as onze sequências de janela (também designadas como window_sequences) com base nas sete janelas de transformação. (ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE).
A seguir, LPDSEQUENCE refere-se a todas as combinações permitidas de modo de janela/codificação dentro do denominado codec de dominio de previsão linear. No contexto de decodificação de um quadro codificado de dominio de frequência, é importante saber somente se um quadro a seguir é codificado com os 25 modos de codificação de dominio LP, que é representado por uma LPDSEQUENCE. Entretanto, a estrutura exata dentro da LPD_SEQUENCE é cuidada ao decodificar o quadro codificado de dominio LP.
Em outras palavras, um quadro de áudio codificado no modo de previsão linear pode compreender um único quadro codificado por TCX, uma pluralidade de sub-quadros codificados por TCX ou uma combinação de sub-quadros codificados por TCX e sub- quadros codificados por ACELP. 5 9.3. Banco de filtro e Comutação de bloco - Processo de Decodificação 9.3.1 Banco de filtro e Comutação de bloco-IMDCT A expressão analítica do IMDCT é:
Figure img0018
em que: n = indice de amostra i = indice de janela k = indice de coeficiente espectral N = comprimento de janela com base no valor de 15 window_sequence NQ = (N/2 + l)/2
O comprimento de janela de sintese N para a transformação inversa é uma função do elemento de sintaxe "window sequence" e o contexto algorítmico. É definido conforme segue: Comprimento de janela 2048:
Figure img0019
Uma marca de assinalação (0) em determinada célula de tabela da tabela da Fig. 17a ou 17b indica que uma sequência de janela listada em tal fileira especifica pode ser seguida por uma sequência de janela listada em tal coluna especifica. significativas de bloco de uma 5 primeira realização são listadas na Fig. 17a. As transições significativas de bloco de uma realização adicional são listadas na tabela da Fig. 17d. As transições adicionais de bloco na realização de acordo com a Fig. 17b serão explicadas separadamente abaixo. 10 9.3.2 Banco de filtro e Comutação de bloco -
Gestão de janela e Comutação de bloco Dependendo das variáveis de corrente de bit (ou elementos) "window_sequence" e "window_shape", diferentes janelas de transformação de elemento são usadas. Uma combinação das 15 metades de janela descritas conforme segue oferece todas as possíveis sequências de janela. Para "window_shape" == 1, os coeficientes de janela são fornecidos pela janela derivada por Kaiser - Bessel (KBD) conforme segue:
Figure img0020
em que: W', função de janela de núcleo Kaiser - Bessel, vide também [5], é definido conforme segue:
Figure img0021
a = fator alfa de janela de núcleo, ct =
Figure img0022
5 De outro modo, para "window_shape" = 0, uma janela de seno é empregada conforme segue:
Figure img0023
O comprimento de janela N pode ser 2048 (1920) ou 256 (240) para KBD e a janela de seno. Como obter as possíveis sequências de janela é explicado nas partes a)-e) desta subcláusula.
Para todos os tipos de sequências de janela, a variável "window_shape" da metade esquerda da primeira janela de transformação é determinada pela configuração da janela do bloco 15 anterior que é descrito pela variável "window_shape_previous_block". A seguinte fórmula expressa esse fato:
Figure img0024
em que: "window_shape_previous_block" é uma variável, que é igual à variável de corrente de bit "window_shape" do bloco anterior (i-1).
Para o primeiro bloco de dados brutos "raw_data_block()" a ser decodificado, a variável "window_shape" da metade esquerda e direita da janela é idêntica.
No caso do bloco anterior ser codificado usando o modo LPD, "window_shape_previous_block" é definido para 0. a) ONLY_LONG_SEQUENCE:
A sequência de janela designada pela window_sequence == ONLY_LONG_SEQUENCE é igual a uma janela do tipo "LONG_WINDOW" com um comprimento total de janela N _1 de 2048 (1920) .
Para window_shape == 1, a janela para o valor de variável "ONLY_LONG_SEQUENCE" é fornecida conforme segue:
Figure img0025
Se window_shape == 0, a janela para o valor de variável "ONLY_LONG_SEQUENCE" pode ser descrita conforme segue:
Figure img0026
Após a gestão de janela, os valores do dominio de tempo (Zi,n) podem ser expressos como:
Figure img0027
b) LONG_START_SEQUENCE:
A janela do tipo "LONG_START_SEQUENCE" pode ser usada para obter uma sobreposição e adição corretas para uma transição de bloco a partir de uma janela do tipo "ONLY_LONG_SEQUENCE" para qualquer bloco com uma metade de janela de sobreposição baixa (inclinação de janela curta) janela na esquerda (EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, 5 STOP_START_SEQUENCE ou LPD_SEQUENCE).
No caso em que seguinte sequência de janela não for uma janela do tipo "LPD_SEQUENCE": O comprimento de janela N_1 e N_s é definido para 2048 (1920) e 256 (240), respectivamente.
No caso em que seguinte sequência de janela for uma janela do tipo "LPD_SEQUENCE": O comprimento de janela N_1 e N__s é definido para 2048 (1920) e 512 (480), respectivamente.
Se window_shape == 1, a janela para tipo de janela "LONG_START_SEQUENCE" é fornecida conforme segue:
Figure img0028
Se window_shape == 0, a janela para tipo de janela "LONG_START_SEQUENCEr parece com:
Figure img0029
Os valores de dominio de tempo com janela podem ser calculados com a fórmula explicada no item a). 20 c) EIGHT_SHORT
A sequência de janela para window_sequence == EIGHT_SHORT compreende oito SHORT_WINDOWS sobrepostas e adicionadas com um comprimento N_s de 256 (240) cada. O comprimento total da window_sequence junto com os zeros principais e seguintes é de 2048 (1920) . Cada um dos oito blocos curtos são dotados de janela separadamente primeiro. O número de bloco curto 5 é indexado com a variável j = 0, . . ., M - 1 (M = N_l/N_s) .
O window_shape do bloco anterior influencia o primeiro dos oito blocos curtos (W0(n)) apenas. Se window_shape == 1, as funções de janela podem ser fornecidas conforme segue:
Figure img0030
De outro modo, se window_shape == 0, as funções de janela podem ser descritas como:
Figure img0031
A sobreposição e adição entre EIGHT_SHORT window sequence resultante nos valores de dominio de tempo com janela zít n são descritas conforme segue:
Figure img0032
d) LONG_STOP_SEQUENCE
Esta window_sequence é necessária para comutar de uma sequência de janela "EIGHT_SHORT__SEQUENCE" ou um tipo de 5 janela "LPD_SEQUENCE" de volta ao tipo de janela "ONLY_LONG_SEQUENCE" .
No caso em que a sequência de janela anterior não for uma LPD_SEQUENCE: O comprimento de janela N_1 e N__s é definido para 2048 (1920) e 256 (240), respectivamente. No caso em que a sequência de janela anterior for uma LPD_SEQUENCE: O comprimento de janela N_1 e N_s é definido para 2048 (1920) e 512 (480), respectivamente. 15 Se window_shape == 1, a janela para tipo de janela "LONG_STOP_SEQUENCE" é fornecida conforme segue:
Figure img0033
LONG_START_SEQUENCE é determinada por:
Figure img0034
Os valores de dominio de tempo com janela podem ser calculados com a fórmula explicada no item a). e) STOP_START_SEQUENCE:
O tipo de janela "STOP_START_SEQUENCE" pode ser usado para obter uma sobreposição e adição corretas para uma transição de bloco de qualquer bloco com uma metade de janela de sobreposição baixa (inclinação de janela curta) na direita de qualquer bloco com uma metade de janela de sobreposição baixa 10 (inclinação de janela curta) na esquerda e se uma única transformação longa é desejada para o quadro atual.
No caso em que a seguinte sequência de janela não seja uma LPD_SEQUENCE: O comprimento de janela N_1 e N_sr é definido 15 para 2048 (1920) e 256 (240), respectivamente.
No caso em que a seguinte sequência de janela seja uma LPD_SEQUENCE: O comprimento de janela N_1 e N_sr é definido para 2048 (1920) e 512 (480), respectivamente.
No caso em que a sequência de janela anterior não seja uma LPD_SEQUENCE: O comprimento de janela N_1 e N__sl é definido para 2048 (1920) e 256 (240), respectivamente.
No caso em que a sequência de janela anterior seja uma LPD_SEQUENCE: O comprimento de janela NI e N sl é definido para 2048 (1920) e 512 (480), respectivamente. Se window_shape =1, a janela para STOP_START_SEQUENCE" é fornecida conforme segue:
Figure img0035
janela "STOP_START_SEQUENCE" parece com:
Figure img0036
Os valores de dominio de tempo ser calculados com a fórmula explicada no item a). 9.3.3 Banco de filtro e Comutação de bloco - Sobreposição e Adição com Sequência de Janela Anterior
Além da sobreposição e adição dentro da sequência de janela EIGHT_SHORT, a primeira parte (esquerda) de cada sequência de janela (ou de cada quadro ou sub-quadro) é sobreposta e adicionada com a segunda parte (direita) da sequência de janela anterior (ou o quadro ou sub-quadro anterior) resultante nos valores finais de dominio de tempo outirn. A expressão matemática para essa operação pode ser descrita conforme segue.
No caso de ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE:
Figure img0037
A equação acima para a sobreposição e adição entre os quadros de áudio codificados no modo de dominio de frequência também pode ser usada para a sobreposição e adição das representações de dominio de tempo dos quadros de áudio 10 codificados em diferentes modos.
Alternativamente, a sobreposição e adição podem ser definidas conforme segue: In case de ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE, 15 STOP_START_SEQUENCE:
Figure img0038
N 1 é o tamanho da sequência de janela. i out indexa o buffer de saída out e é incrementado pelo número
Figure img0039
das amostras escritas. No caso da LPDJSEQUENCE:
A seguir, uma primeira abordagem será descrita que pode ser usada para reduzir os artefatos de aliasing. Quando proveniente do ACELP, uma janela especifica pode ser usada para o próximo TCX por meio de reduzir R a 0, e então eliminar a região 25 de sobreposição entre os dois quadros subsequentes.
A seguir, uma segunda abordagem será descrita que pode ser usada para reduzir os artefatos de aliasing (conforme descrito em USAC WD5 e anterior). Quando proveniente do ACELP, a próxima janela TCX é ampliada por meio de M crescente (comprimento médio) por 128 amostras e ao também incrementar um número de coeficientes MDCT associados à janela TCX. No decodificador, a parte direita da janela, i.e., as primeiras amostras decodificadas não zero R são simplesmente descartadas e substituídas pelas amostras decodificadas ACELP. Em outras palavras, ao fornecer os coeficientes MDCT adicionais (por exemplo, 1152 ao invés de 1024), os artefatos de aliasing são reduzidos. Com palavras diferentes, ao fornecer coeficientes MDCT extras (de modo que o número de coeficientes MDCT é superior à metade do número de amostras de dominio de tempo por quadro de áudio), uma porção sem aliasing da representação de domínio de tempo pode ser obtida, que elimina a necessidade de um cancelamento dedicado de aliasing no custo de uma amostragem não crítica do espectro.
De outro modo, quando o sinal decodificado com janela anterior Zi-i,n é proveniente do TCX com base em MDCT, uma sobreposição e adição convencionais são adicionadas para obter o sinal de tempo final out. A sobreposição e adição podem ser expressas pela seguinte fórmula quando a sequência de janela do modo FD é uma LONG_START_SEQUENCE ou uma EIGHT_SHORT_SEQUENCE:
Figure img0040
Nj-i corresponde ao tamanho 21g da janela anterior aplicada no TCX com base em MDCT. I_out indexa o buffer de saída out e é incrementado pelo número de (N__l + N_s)/4 de amostras. N_s/2 deve ser igual ao valor L do TCX com base em MDCT anterior definido na tabela da Fig. 15.
Para uma STOP_START_SEQUENCE, a sobreposição e adição entre o modo FD e TCX com base em MDCT como a seguinte expressão:
Figure img0041
corresponde ao tamanho 21g da janela anterior 10 aplicada no TCX com base em MDCT. i__out indexa o buffer out e é incrementado pelo número (N_l + N_sl)/4 das amostras escritas N_sl/2 deve ser igual ao valor L do TCX com base em MDCT anterior definido na tabela da Fig. 15. 15 10. Detalhes Referentes à Computação de w[n]
A seguir, alguns detalhes referentes à computação dos valores de ganhos de dominio de previsão linear g[k] serão descritos para facilitar o entendimento. Tipicamente, uma corrente de bit representando o conteúdo de áudio codificado (codificado no 20 modo de previsão linear) compreende os coeficientes codificados de filtro LPC. Os coeficientes codificados de filtro LPC podem, por exemplo, ser descritos pelas palavras de código correspondentes e podem descrever um filtro de previsão linear para recuperar o conteúdo de áudio. Deve ser observado que o número de conjuntos de coeficientes de filtro LPC transmitido conforme o quadro de áudio codificado por LPC pode variar. De fato, o número efetivo de conjuntos de coeficientes de filtro LPC que são codificados dentro da corrente de bit para um quadro de áudio codificado no modo de previsão linear depende na combinação do modo ACELP-TCX do quadro 5 de áudio (que é por vezes também designado como "superquadro").
Essa combinação de modo ACELP-TCX pode ser determinada por uma variável de corrente de bit. Entretanto, também existem naturalmente casos em que somente um modo TCX está disponível, e também existem casos em que não existe nenhum modo ACELP 10 disponível.
A corrente de bit é tipicamente analisada para extrair os indices de quantização correspondentes a cada um dos coeficientes de filtro LPC de conjuntos exigidos pela combinação de modo ACELP TCX.
Em uma primeira etapa de processamento 1810, uma quantização inversa do filtro LPC é realizada. Deve ser observado que os filtros LPC (i.e., os conjuntos de coeficientes de filtro LPC, por exemplo, ai a ai6) são quantizados usando a representação de frequência espectral de linha (LSF) (que é uma representação de codificação dos coeficientes de filtro LPC) . Na primeira etapa de processamento 1810, as frequências espectrais de linha quantizadas inversas (LSF) são derivadas a partir dos indices codificados.
Para essa finalidade, uma primeira aproximação de estágio pode ser computada e um refinamento quantizado de vetor algébrico opcional (AVQ) pode ser calculado. As frequências espectrais de linha quantizadas inversas podem ser reconstruídas ao adicionar a primeira aproximação de estágio e a contribuição AVQ ponderada inversa. A presença da refinação AVQ pode depender do modo efetivo de quantização do filtro LPC.
O vetor das frequências espectrais de linha quantizadas inversas, que pode ser derivado a partir da representação codificada dos coeficientes de filtro LPC, é 5 posteriormente convertido em um vetor de parâmetros de par espectrais de linha, então interpolado e convertido novamente nos parâmetros LPC. O procedimento de quantização inversa, realizado na etapa de processamento 1810, resulta em um conjunto de parâmetros LPC no dominio de frequência espectral de linha. As 10 frequências espectrais de linha são então convertidas, em uma etapa de processamento 1820, ao dominio de cosseno, que é descrito por pares espectrais de linha. De forma correspondente, os pares espectrais de linha q± são obtidos. Para cada quadro ou sub- quadro, os coeficientes de par espectral de linha qi (ou sua 15 versão interpolada) são convertidos aos coeficientes de filtro de previsão linear ak, que são usados para sintetizar o sinal reconstruído no quadro ou sub-quadro. A conversão ao dominio de previsão linear é realizada conforme segue. Os coeficientes f1(i) e f2(i) podem, por exemplo, ser derivados usando a seguinte relação 20 por recorrência: para i = 1 a 8 fi (i) = -∑q^fid - 1) + 2fr (i - 2) para j = i - 1 até 1 fi (j) = fi (j) - 2q2i-ifi (j - 1) + fi (j - 2) 25 final final com valores inicias fi(0) = 1 fj(-l) =0. Os coeficientes f2(i) são computados de forma semelhante ao substituir q2ii-i por q2i. assim que os coeficientes de fi(i) f2(i) são encontrados, os coeficientes f±' (i) e F2' (i) são computados de acordo com 5 f/ (i) = fx(i) + ft(i - 1) , i = 1,...,8 f2' (i) = f2(i) + f2(i - D, i = 1,...,8 finalmente, os coeficientes LP ai são computados a partir de f1’ (i) e f2' (i) por
Figure img0042
Para resumir, a derivação dos coeficientes LPC aA a partir dos coeficientes de par espectral de linha q± é realizada usando a etapa de processamentos 1830, 1840, 1850, conforme acima explicado.
Os coeficientes w[n], n=0...lpc_order-l, que são coeficientes de um filtro LPC ponderado, são obtidos em uma etapa de processamento 1860. Ao derivar os coeficientes w[n] dos coeficientes alz é considerado que os coeficientes ai são os coeficientes de dominio de tempo de um filtro com características de filtro Â[z], e que os coeficientes w[n] são coeficientes de domínio de tempo de um filtro com resposta de domínio de frequência W[z], Da mesma forma, it é considerado que a seguinte relação se mantém:
Figure img0043
Considerando o acima, pode ser visto que os coeficientes w[n] podem facilmente ser derivados a partir dos coeficientes codificados de filtro LPC, que são representados, por exemplo, pelos respectivos indices na corrente de bit.
Também deve ser observado que a derivação de xt[n], que é realizada na etapa de processamento 1870, foi discutida acima. De forma semelhante, a computação de X0[k] foi acima discutida. De forma semelhante, a computação dos valores de ganhos de dominio de previsão linear g[k], que é realizada na etapa 1890, foi acima discutida. 11. Solução Alternativa para a Configuração Espectral
Deve ser observado que um conceito para a configuração espectral foi acima descrito, que é aplicado para os quadros de áudio codificados no dominio de previsão linear, e que é com base em uma transformação dos coeficientes de filtro LPC wn[n] em uma representação espectral X0[k] a partir da qual os valores de ganhos de dominio de previsão linear são derivados. Conforme acima discutido, os coeficientes de filtro LPC w[n] são transformados em uma representação de dominio de frequência X0[k], usando uma transformação singular discreta de Fourier com 64 compartimentos de frequência igualmente espaçados. Entretanto,. naturalmente não é necessário para obter os valores de dominio de frequência x0[k], que são espaçados igualmente na frequência. Ao invés disso, por vezes, pode ser recomendável o uso dos valores de dominio de frequência x0[k], que são espaçados não de forma não linear na frequência. Por exemplo, os valores de dominio de frequência x0[k] podem ser espaçados de forma logaritmica na frequência ou podem ser espaçados na frequência em conformidade com uma escala Bark. Tal espaçamento não linear dos valores de dominio de frequência X0[k] e dos valores de ganhos de dominio de previsão linear g[k] pode resultar em uma troca particularmente boa entre a impressão de audição e complexidade computacional. Não obstante, não é necessário implantar tal conceito de um espaçamento não uniforme de frequência dos valores de ganhos de 5 dominio de previsão linear. 12. Conceito Melhorado de Transição
A seguir, um conceito melhorado para a transição entre um quadro de áudio codificado no dominio de frequência e um quadro de áudio codificado no dominio de previsão linear será descrito. Esse conceito melhorado usa uma denominada janela de modo de previsão linear de inicio, que será explicada a seguir.
Com referência primeiramente às Figs. 17a e 17b, deve ser observado que convencionalmente as janelas com uma inclinação de transição comparativamente curta de lado direito são 15 aplicadas nas amostras de dominio de tempo de um quadro de áudio codificado no modo de dominio de frequência quando uma transição para um quadro de áudio codificado no modo de previsão linear é feita. Conforme pode ser visto a partir da Fig. 17a, uma janela do tipo "LONG_START_SEQUENCE", uma janela do tipo 20 EIGHT_SHORT_SEQUENCE", uma janela do tipo "STOP_START_SEQUENCE" é convencionalmente aplicada antes de um quadro de áudio codificado no dominio de previsão linear. Dessa forma, convencionalmente, não existe nenhuma possibilidade de diretamente realizar a transição a partir de um quadro de áudio codificado por dominio de frequência, 25 ao qual uma janela com uma inclinação comparativamente longa de lado direito é aplicada, a um quadro de áudio codificado no modo de previsão linear. Isso é devido ao fato de que, convencionalmente, existem problemas graves causados pela porção longa de aliasing de dominio de tempo de urn quadro de áudio codificado por dominio de frequência ao qual uma janela com uma inclinação de transição comparativamente longa de lado direito é aplicada. Conforme pode ser visto a partir da Fig. 17a, não é 5 convencionalmente possivel realizar a transição a partir de um quadro de áudio ao qual o tipo de janela "only_long_sequence" é associado, ou a partir de um quadro de áudio ao qual o tipo de janela "long_stop_sequence" é associado, a um quadro de áudio codificado no modo de previsão linear subsequente.
Entretanto, em algumas realizações de acordo com a invenção, um novo tipo de quadro de áudio é usado, isto é, um quadro de áudio ao qual uma janela de modo de previsão linear de inicio é associada.
Um novo tipo de quadro de áudio (também 15 brevemente designado como um quadro de inicio de modo de previsão linear) é codificado no sub-modo TCX do dominio de modo de previsão linear. O quadro de inicio de modo de previsão linear compreende um único quadro TCX (i.e., não é subdividido em sub- quadros TCX). Consequentemente, tanto quanto 1024 coeficientes 20 MDCT são incluidos na corrente de bit, em uma forma codificada, para o quadro de inicio de modo de previsão linear. Em outras palavras, o número de coeficientes MDCT associado a um quadro de início de previsão linear é idêntico ao número de coeficientes MDCT associado ao quadro de áudio codificado por domínio de 25 frequência ao qual uma janela do tipo de janela "only_long_sequence" é associada. Adicionalmente, a janela associada ao quadro de início de modo de previsão linear pode ser do tipo de janela "LONG_START_SEQUENCE". Dessa forma, o quadro de inicio de modo de previsão linear pode ser muito semelhante ao quadro codificado por domínio de frequência ao qual uma janela do tipo "long_start_sequence" é associada. Entretanto, o quadro de inicio de modo de previsão linear difere de tal quadro de áudio codificado por domínio de frequência de modo que a configuração espectral é realizada em dependência dos valores de ganhos de domínio de previsão linear, ao invés de em dependência dos valores de fator de escala. Dessa forma, os coeficientes codificados de filtro de codificação de previsão linear são incluídos na corrente 10 de bit para o quadro de início de modo de previsão linear.
Conforme o MDCT inverso 1354, 1382 é aplicado no mesmo domínio (conforme acima explicado) ambos para um quadro de áudio codificado no modo de domínio de frequência e para um quadro de áudio codificado no modo de previsão linear, uma operação de 15 sobreposição e adição de cancelamento de aliasing de domínio de tempo com boas características de cancelamento de aliasing de tempo pode ser realizada entre um quadro anterior de áudio codificado no modo de domínio de frequência e com uma inclinação de transição comparativamente longa de lado direito (por exemplo, 20 de 1024 amostras) e o quadro de início de modo de previsão linear com uma inclinação de transição comparativamente longa de lado esquerdo (por exemplo, de 1024 amostras), caracterizadas pelo fato de que as inclinações de transição são combinados para o cancelamento de aliasing de tempo. Dessa forma, o quadro de início 25 de modo de previsão linear é codificado no modo de previsão linear (i.e., usando os coeficientes de filtro de codificação de previsão linear) e compreende uma inclinação de transição de lado esquerdo significativamente mais longa (por exemplo, pelo menos pelo fator de 2, ou pelo menos pelo fator de 4, ou pelo menos pelo fator de 8) do que outros quadros de áudio codificados por modo de previsão linear para criar possibilidades adicionais de transição.
Como uma consequência, um quadro de inicio de 5 modo de previsão linear pode substituir o quadro de áudio codificado por dominio de frequência com o tipo de janela "long_sequence".
O quadro de inicio de modo de previsão linear compreende a vantagem que os coeficientes de filtro MDCT são 10 transmitidos para o quadro de inicio de modo de previsão linear, que estão disponíveis para um quadro de áudio codificado no modo de previsão linear subsequente. Consequentemente, não é necessário incluir informação extra de coeficiente de filtro LPC na corrente de bit com a finalidade de ter informação de inicialização para 15 uma decodificação do quadro de áudio codificado de modo de previsão linear subsequente. A Fig. 14 ilustra esse conceito. A Fig. 14 mostra uma representação gráfica de uma sequência de quatro quadros de áudio 1410, 1412, 1414, 1416, que todos compreendem um comprimento 20 de 2048 amostras de áudio, e que são sobrepostas em aproximadamente 50%. O primeiro quadro de áudio 1410 é codificado no modo de dominio de frequência usando uma janela "only_long_sequence" 1420, o segundo quadro de áudio 1412 é codificado no modo de previsão linear usando uma janela de modo de 25 previsão linear de inicio, que é igual à janela "long_start_sequence", o terceiro quadro de áudio 1414 é codificado no modo de previsão linear usando, por exemplo, uma janela W[n], conforme acima definida, para um valor de mod[x]=3 que é designado com 1424. Deve ser observado que a janela de modo de previsão linear de inicio 1422 compreende uma inclinação de transição de lado esquerdo de 1024 amostras de áudio de comprimento e uma inclinação de transição de lado direito de 256 5 amostras de comprimento. A janela 1424 compreende uma inclinação de transição de lado esquerdo de 256 amostras de comprimento e uma inclinação de transição de lado direito de 256 amostras de comprimento. O quarto quadro de áudio 1416 é codificado no modo de dominio de frequência usando uma janela "long_stop_sequence" 1426, 10 que compreende uma inclinação de transição de lado esquerdo de 256 amostras de comprimento e uma inclinação de transição de lado direito de 1024 amostras de comprimento.
Conforme pode ser visto na Fig. 14, as amostras de domínio de tempo para os quadros de áudio são fornecidas pelas 15 transformações de cosseno discretas modificadas inversas 1460, 1462, 1464, 1466. Para os quadros de áudio 1410, 1416 codificados no modo de domínio de frequência, a configuração espectral é realizada em dependência dos fatores de escala e valores de fator de escala. Para os quadros de áudio 1412, 1414, que são codificados no modo de previsão linear, a configuração espectral é realizada em dependência dos valores de ganhos de domínio de previsão linear que são derivados a partir dos coeficientes codificados de filtro de codificação de previsão linear. Em qualquer caso, os valores espectrais são fornecidos por uma decodificação (e, opcionalmente, uma quantização inversa). 13. Conclusão as realizações de acordo com a invenção usam uma configuração de ruído com base em LPC aplicada no dominio de frequência para um codificador de áudio comutado.
As realizações de acordo com a invenção aplicam um filtro com base em LPC no dominio de frequência para facilidade de transição entre diferentes codificadores no contexto de um 5 codec de áudio comutado.
Algumas realizações consequentemente resolvem os problemas ao projetar transições eficientes entre os três modos de codificação, codificação de dominio de frequência, TCX (dominio de previsão linear de excitação codificada de transformação) e ACELP 10 (previsão linear excitada de código algébrico). Entretanto, em algumas outras realizações, é suficiente ter somente dois dos referidos modos, por exemplo, a codificação de dominio de frequência e o modo TCX.
As realizações de acordo com a invenção superam as seguintes soluções alternativas: • Realiza transições não criticamente provada entre o codificador de dominio de frequência e codificador de dominio de previsão linear (vide, por exemplo, referência [4]): • gera amostragem não critica, troca entre tamanho de sobreposição e informação de código extra, não usa totalmente a capacidade (dominio de cancelamento de aliasing de tempo TDAC) dos MDCTs. • precisa enviar um conjunto extra LPC de coeficientes quando a partir do codificador de dominio de frequência ao codificador LPD. • Aplica um cancelamento de aliasing de dominio de tempo (TDAC) em diferentes dominios (vide, por exemplo, referência [5]). A filtração LPC é realizada dentro do MDCT entre a dobragem e DCT: • o sinal de aliasing de dominio de tempo pode não ser apropriado para a filtração; e • é necessário enviar um conjunto extra LPC de 5 coeficientes a partir do codificador de dominio de frequência ao codificador LPD. • Computa coeficientes LPC no dominio MDCT para um codificador não comutado (TwlnVQ) (vide, por exemplo, referência [6] ) ; 10 • usa o LPC somente como uma apresentação de envelope espectral para nivelamento do espectro. Não explora o LPC nem a configuração do ruido de quantização nem para facilidade das transições ao comutar para outro codificador de áudio.
As realizações de acordo com a presente invenção realizam o codificador de dominio de frequência e MDCT de codificador LPC no mesmo dominio enquanto ainda usando o LPC para configuração do erro de quantização no dominio MDCT. Isso apresenta inúmeras vantagens: • O LPC ainda pode ser usado para comutar a um 20 codificador de fala, como ACELP. • O cancelamento de aliasing de dominio de tempo (TDAC) é possivel durante a transição de/para TCX de/para codificador de dominio de frequência, a amostragem critica é então mantida. 25 • O LPC ainda é usado como um configurador de ruido na adjacência do ACELP, que torna possivel usar a mesma função objetiva para maximizar para ambos o TCX e o ACELP, (por exemplo, o SNR segmentai ponderado com base em LPC em um processo de decisão de loop fechado).
Para ainda concluir, é um aspecto importante que 1. transição entre a excitação codificada de transformação (TCX) e dominio de frequência (FD) é 5 significativamente simplificada/unifiçada ao aplicar a
Codificação de Previsão Linear no dominio de frequência; e que 2. ao manter a transmissão dos coeficientes LPC no caso TCX, as transições entre TCX e ACELP podem ser realizadas tão vantajosamente quanto nas outras implantações (ao 10 aplicar o filtro LPC no dominio de tempo).
Alternativas de Implantação Embora alguns aspectos tenham sido descritos no contexto de um mecanismo, é claro que esses aspectos também representam uma descrição do método correspondente, em que um 15 bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. De forma análoga, os aspectos descritos no contexto de uma etapa de método também representa uma descrição de um bloco, item ou recurso correspondente de um mecanismo correspondente. Algumas ou todas as etapas de método podem ser executadas por (ou usando) um mecanismo de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas realizações, algumas ou mais das etapas de método mais importantes podem ser executadas por tal mecanismo.
O sinal de áudio codificado inventivo pode ser armazenado em uma midia de armazenamento digital ou pode ser transmitido em uma midia de transmissão, tal como, midia de transmissão sem fio ou midia de transmissão com fio, tal como, a Internet.
Dependendo de determinadas exigências de implantação, as realizações da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada usando 5 uma midia de armazenamento digital, por exemplo, um disco flexivel, um DVD, um Blue-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, com sinais de controle eletronicamente legiveis lá armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Portanto, a midia de armazenamento digital pode ser legivel por computador.
Algumas realizações de acordo com a invenção compreende um portador de dados com sinais de controle eletronicamente legiveis, que são capazes de cooperar com um 15 sistema de computador programável, de modo que um dos métodos aqui descritos seja realizado.
Geralmente, as realizações da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo 20 para realizar um dos métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em um portador legivel por máquina.
Outras realizações compreendem o programa de computador para realizar um dos métodos aqui descritos, 25 armazenados em um portador legivel por máquina.
Em outras palavras, uma realização do método inventivo é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador opera em um computador.
Uma realização adicional dos métodos inventivos é, portanto, um portador de dados (ou uma midia de armazenamento digital, ou uma midia legivel por computador) compreendendo, lá 5 gravado, o programa de computador para realizar um dos métodos aqui descritos. 0 portador de dados, a midia de armazenamento digital ou a midia gravada são tipicamente tangiveis e/ou de não transição.
Uma realização adicional do método inventivo é, portanto, uma corrente de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos aqui descritos. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida via uma conexão de comunicação de dados, por exemplo, via a Internet.
Uma realização adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos aqui descritos.
Uma realização adicional compreende um computador tendo lá instalado o programa de computador para realizar um dos métodos aqui descritos.
Uma realização adicional de acordo com a invenção compreende um mecanismo ou um sistema configurado para transferir (por exemplo, de forma eletrônica ou ótica) um programa de 25 computador para realizar um dos métodos aqui descritos a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. 0 mecanismo ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.
Em algumas realizações, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável de campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas realizações, um arranjo de porta programável de campo pode cooperar com um microprocessador com a finalidade de realizar um dos métodos aqui descritos. Geralmente, os métodos são preferivelmente realizados por qualquer mecanismo de hardware.
As realizações acima descritas são meramente ilustrativas para os princípios da presente invenção. Fica entendido que as modificações e variações dos arranjos e detalhes aqui descritas serão aparentes para outros com habilidade na técnica. Não é a intenção, portanto, de ser somente limitado pelo 15 escopo das reivindicações de patente a seguir e não pelos detalhes específicos apresentados por meio de descrição e explicação das realizações no presente. Referências: [1] "Unified speech and audio coding scheme by high quality at low bitrates", Max Neuendorf et al., in iEEE Int, Conf. Acoustics, Speech and Signal Processing, ICASSP, 2009 [2] Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding. Norma Internacional 13818-7, ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group, 1997 [3] "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec", 3GPP TS 26.290 V6.3.0, 2005-06, Especificação 10 Técnica [4] "Audio Encoder and Decoder for Encoding and Decoding Audio Samples", FH080703PUS, F49510, incorporado por referência, [5] "Apparatus and Method for Encoding/Decoding 15 an Audio Signal Using na Aliasing Switch Scheme", FH080715PUS, F49522, incorporado por referência [6] "High-quality audio-coding at less than 64 kbits/s "by using transform-domain weighted interleave vector quantization (Twin VQ)", N. Iwakami e T. Moriya e S. Miki, IEEE 20 ICASSP, 1995

Claims (25)

1. Um decodificador de sinal de áudio multimodal (1100; 1200) para fornecer uma representação decodificada (1112; 1212) de um conteúdo de áudio com base em uma representação codificada (1110; 1208) do conteúdo de áudio, o decodificador de sinal de áudio caracterizado por compreender: um determinador de valor espectral (1130; 1230a, 1230c) configurado para obter os conjuntos (1132; 1230d) de coeficientes espectrais decodificados (1132; 1230d; r[i]) para uma pluralidade de porções (1410, 1412, 1414, 1416) do conteúdo de áudio; um processador de espectro (1230e; 1378) configurado para aplicar uma configuração espectral a um conjunto (1132; 1230d; r[i]) de coeficientes espectrais decodificados, ou sua versão pré-processada (1132’), em dependência de um conjunto de parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio codificada no modo de previsão linear, e aplicar uma configuração espectral a um conjunto (1132; 1230d; r[i]) de coeficientes espectrais decodificados, ou sua versão pré- processada (1232’), em dependência de um conjunto de parâmetros de fator de escala (1152; 1260b) para uma porção (1410; 1416) do conteúdo de áudio codificada no modo de domínio de frequência, e um conversor de domínio de frequência para domínio de tempo (1160; 1230g) configurado para obter uma representação de domínio de tempo (1162; 1232; xi, n) do conteúdo de áudio com base em um conjunto configurado de forma espectral (1158; 1230f) dos coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de previsão linear, e para obter uma representação de domínio de tempo (1162; 1232) do conteúdo de áudio com base em um conjunto configurado de forma espectral de coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de domínio de frequência.
2. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 1, caracterizado por o decodificador de sinal de áudio multimodal ainda compreende um overlapper (1233) configurado para a sobreposição e adição de uma representação de domínio de tempo de uma porção do conteúdo de áudio codificada no modo de previsão linear com uma porção do conteúdo de áudio codificada no modo de domínio de frequência.
3. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 2, caracterizado por o conversor de domínio de frequência para domínio de tempo (1160; 1230g) é configurado para obter uma representação de domínio de tempo do conteúdo de áudio para uma porção (1412; 1414) do conteúdo de áudio codificada no modo de previsão linear usando uma transformação dobrada, e para obter uma representação de domínio de tempo do conteúdo de áudio para uma porção (1410; 1416) do conteúdo de áudio codificada no modo de domínio de frequência usando uma transformação dobrada, e sendo que o overlapper é configurado para representações de domínio de tempo de sobreposição de porções do conteúdo de áudio subsequentes codificadas em diferentes dos modos.
4. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 3, caracterizado por o conversor de domínio de frequência para domínio de tempo (1160; 1230g) é configurado para aplicar as transformações dobradas do mesmo tipo de transformação para obter as representações de domínio de tempo do conteúdo de áudio para as porções do conteúdo de áudio codificadas em diferentes dos modos; e sendo que o overlapper é configurado para sobreposição e adição das representações de domínio de tempo de porções do conteúdo de áudio subsequentes codificadas em diferentes dos modos de modo que um aliasing de domínio de tempo causado pela transformação dobrada é reduzido ou eliminado.
5. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 4, caracterizado pelo fato de que o overlapper é configurado para a sobreposição e adição de uma representação de domínio de tempo com janela de uma primeira porção (1414) do conteúdo de áudio codificado em um primeiro dos modos conforme fornecido por uma transformação dobrada associada, ou sua versão em escala de amplitude, porém não distorcida de forma espectral, e uma representação de domínio de tempo com janela de uma segunda porção subsequente (1416) do conteúdo de áudio codificada em um segundo dos modos, conforme fornecido por uma transformação dobrada associada, ou sua versão em escala de amplitude, porém não distorcida de forma espectral.
6. O decodificador de sinal de áudio multimodal de acordo com uma das reivindicações 1 a 5, caracterizado por o conversor de domínio de frequência para domínio de tempo (1160; 1230g) é configurado para fornecer as representações de domínio de tempo de porções (1410, 1412, 1414, 1416) do conteúdo de áudio codificadas em diferentes dos modos, de modo que as representações de domínio de tempo fornecidas estão em um mesmo domínio de modo que são linearmente combináveis sem aplicar uma operação de filtração de configuração de sinal, exceto uma operação de transição de gestão de janela, para uma ou ambas das representações de domínio de tempo fornecidas.
7. O decodificador de sinal de áudio multimodal de acordo com uma das reivindicações 1 a 6, caracterizado por o conversor de domínio de frequência para domínio de tempo (1160; 1230g) é configurado para realizar uma transformação de cosseno discreta modificada inversa, para obter, como resultado da transformação de cosseno discreta modificada inversa, uma representação de domínio de tempo do conteúdo de áudio em um domínio de sinal de áudio tanto para uma porção do conteúdo de áudio codificada no modo de previsão linear quanto para uma porção do conteúdo de áudio codificada no modo de domínio de frequência.,
8. O decodificador de sinal de áudio multimodal de acordo com uma das reivindicações 1 a 7, compreendendo: um determinador de coeficiente de filtro de codificação de previsão linear configurado para obter os coeficientes decodificados de filtro de codificação de previsão linear (α1 a α16) com base em uma representação codificada dos coeficientes de filtro de codificação de previsão linear para uma porção do conteúdo de áudio codificada no modo de previsão linear; um transformador de coeficiente de filtro (1260e) configurado para transformar os coeficientes decodificados de Codificação de Previsão Linear (1260d; α1 a α16) em uma representação espectral (1260f; X0[k]), com a finalidade de obter valores de ganhos de modo de previsão linear (g[k]) associados às diferentes frequências; um determinador de fator de escala (1260a) configurado para obter valores decodificados de fator de escala (1260f) com base em uma representação codificada (1254) dos valores de fator de escala para uma porção do conteúdo de áudio codificada em um modo de domínio de frequência; caracterizado por o processador de espectro (1150; 1230e) compreende um modificador de espectro configurado para combinar um conjunto (1132; 1230d; r[i]) de coeficientes espectrais decodificados associados a uma porção do conteúdo de áudio codificada no modo de previsão linear, ou sua versão pré- processada, com os valores de ganhos de modo de previsão linear (g[k]), com a finalidade de obter uma versão processada de ganho (1158; 1230f; rr[i]) dos coeficientes espectrais decodificados, em que as contribuições dos coeficientes espectrais decodificados (1130; 1230d; r[i]), ou de sua versão pré-processada, são ponderadas em dependência dos valores de ganhos de modo de previsão linear (g[k]), e também configuradas para combinar um conjunto (1132; 1230d; x ac invquant) dos coeficientes espectrais decodificados associados a uma porção do conteúdo de áudio codificada no modo de domínio de frequência, ou sua versão pré- processada, com os valores de fator de escala (1260b,), com a finalidade de obter uma versão processada de fator de escala (x rescal) dos coeficientes espectrais decodificados (x ac invquant) em que as contribuições dos coeficientes espectrais decodificados, ou de sua versão pré-processada, são ponderadas em dependência dos valores de fator de escala.
9. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 8, caracterizado por o transformador de coeficiente de filtro (1260e) é configurado para transformar os coeficientes decodificados de filtro de codificação de previsão linear (1260d), que representam uma resposta de impulso de domínio de tempo (w[n]) de um filtro de codificação de previsão linear, em uma representação espectral (X0[k]) usando uma transformação singular discreta de Fourier; e sendo que o transformador de coeficiente de filtro (1260e) é configurado para derivar os valores de ganhos de modo de previsão linear (g[k]) a partir da representação espectral (X0[k]) dos coeficientes decodificados de filtro de codificação de previsão linear (1260d; a1 a a16), de modo que os valores de ganhos são uma função de magnitudes de coeficientes (X0[k]) da representação espectral (X0[k]).
10. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 8 ou reivindicação 9, caracterizado por o transformador de coeficiente de filtro (1260e) e o combinador (1230e) são configurados de modo que uma contribuição de determinado coeficiente espectral decodificado (r[i]), ou de sua versão pré-processada, a uma versão processada de ganho (rr[i]) de determinado coeficiente espectral é determinada por uma magnitude de um valor de ganho de modo de previsão linear (g[k]) associado a determinado coeficiente espectral decodificado (r[i]).
11. O decodificador de sinal de áudio multimodal de acordo com uma das reivindicações 1 a 9, caracterizado por o processador de espectro (1230e) é configurado de modo que uma ponderação de uma contribuição de determinado coeficiente espectral decodificado (r[i]), ou de sua versão pré-processada, a uma versão processada de ganho (rr[i]) de determinado coeficiente espectral aumenta com a magnitude crescente de um valor de ganho de modo de previsão linear (g[k]) associado a determinado coeficiente espectral decodificado (r[i]), ou de modo que uma ponderação de uma contribuição de determinado coeficiente espectral decodificado (r[i]), ou de sua versão pré-processada, a uma versão processada de ganho (rr[i]) de determinado coeficiente espectral diminui com a magnitude crescente de um coeficiente espectral associado (X0[k]) de uma representação espectral dos coeficientes decodificados de filtro de codificação de previsão linear.
12. O decodificador de sinal de áudio multimodal de acordo com uma das reivindicações 1 a 11, caracterizado por o determinador de valor espectral (1130; 1230a, 1230c) é configurado para aplicar uma quantização inversa aos coeficientes decodificados espectrais quantizados, com a finalidade de obter os coeficientes espectrais decodificados e inversamente quantizados (1132; 1230d); e sendo que o processador de espectro (1230e) é configurado para realizar uma configuração de ruído de quantização ao ajustar uma etapa efetiva de quantização para determinado coeficiente espectral decodificado (r[i]) em dependência de uma magnitude de um valor de ganho de modo de previsão linear (g[k]) associado a determinado coeficiente espectral decodificado (r[i]).
13. O decodificador de sinal de áudio multimodal de acordo com uma das reivindicações 1 a 12, caracterizado por o decodificador de sinal de áudio é configurado para usar um quadro intermediário de início de modo de previsão linear (1212) com a finalidade de realizar a transição a partir de um quadro do modo de domínio de frequência (1410) a um quadro combinado de modo de previsão linear/modo de previsão linear excitado de código algébrico, sendo que o decodificador de sinal de áudio é configurado para obter um conjunto de coeficientes espectrais decodificados para o quadro de início de modo de previsão linear, aplicar uma configuração espectral ao conjunto de coeficientes espectrais decodificados para o quadro de início de modo de previsão linear, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear associado ao mesmo, obter uma representação de domínio de tempo do quadro de início de modo de previsão linear com base em um conjunto configurado de forma espectral de coeficientes espectrais decodificados, e aplicar uma janela de início com uma inclinação de transição de lado esquerdo comparativamente longa e uma inclinação de transição de lado direito comparativamente curta à representação de domínio de tempo do quadro de início de modo de previsão linear.
14. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 13, caracterizado por o decodificador de sinal de áudio é configurado para a sobreposição de uma porção de lado direito de uma representação de domínio de tempo de um quadro do modo de domínio de frequência (1410) precedente ao quadro de início de modo de previsão linear (1412) com uma porção de lado esquerdo de uma representação de domínio de tempo do quadro de início de modo de previsão linear, para obter uma redução ou cancelamento de um aliasing de domínio de tempo.
15. O decodificador de sinal de áudio multimodal de acordo com a reivindicação 13 ou reivindicação 14, caracterizado por o decodificador de sinal de áudio é configurado para usar os parâmetros de domínio de previsão linear associados ao quadro de início de modo de previsão linear (1412) com a finalidade de inicializar um decodificador de modo de previsão linear excitado de código algébrico para decodificar pelo menos uma porção do quadro combinado de modo de previsão linear/modo de previsão linear excitado de código algébrico seguindo o quadro de início de modo de previsão linear.
16. Um codificador de sinal de áudio multimodal (100; 300; 900; 1000) para fornecer uma representação codificada (112; 312; 1012) de um conteúdo de áudio com base em uma representação de entrada (110; 310; 1010) do conteúdo de áudio, o codificador de sinal de áudio compreendendo: um conversor de domínio de tempo para domínio de frequência (120; 330a, 350a; 1030a) configurado para processar a representação de entrada (110; 310; 1010) do conteúdo de áudio, para obter uma representação de domínio de frequência (122; 330b; 1030b) do conteúdo de áudio, caracterizado por a representação de domínio de frequência (122) compreende uma sequência de conjuntos de coeficientes espectrais; um processador de espectro (130; 330e; 350d; 1030e) configurado para aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear (134; 340b) para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, para obter um conjunto configurado de forma espectral (132) de coeficientes espectrais, e aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de fator de escala (136) para uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência, para obter um conjunto configurado de forma espectral (132) de coeficientes espectrais; e um codificador de quantização (140; 330g, 330i, 350f, 350h; 1030g, 1030i) configurado para fornecer uma versão codificada (142; 322, 342; 1032) de um conjunto configurado de forma espectral (132; 350e; 1030f) de coeficientes espectrais para a porção do conteúdo de áudio a ser codificada no modo de previsão linear, e para fornecer uma versão codificada (142; 322, 342; 1032) de um conjunto configurado de forma espectral (132; 330f; 1030f) de coeficientes espectrais para a porção do conteúdo de áudio a ser codificada no modo de domínio de frequência.
17. O codificador de sinal de áudio multimodal de acordo com a reivindicação 16, caracterizado por o conversor de domínio de tempo para domínio de frequência (120; 330a, 350a; 1030a) é configurado para converter uma representação de domínio de tempo (110; 310; 1010) de um conteúdo de áudio em um domínio de sinal de áudio em uma representação de domínio de frequência (122; 330b; 1030b) do conteúdo de áudio tanto para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear quanto para uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência.
18. O codificador de sinal de áudio multimodal de acordo com a reivindicação 16 ou reivindicação 17, caracterizado por o conversor de domínio de tempo para domínio de frequência (120; 330a, 350a; 1030a) é configurado para aplicar transformações dobradas do mesmo tipo de transformação para obter as representações de domínio de frequência para as porções do conteúdo de áudio a serem codificadas em diferentes modos.
19. O codificador de sinal de áudio multimodal de acordo com uma das reivindicações 16 a 18, caracterizado por o processador espectral (130; 330e, 350b; 1030e) é configurado para seletivamente aplicar a configuração espectral ao conjunto (122; 330b; 1030b) de coeficientes espectrais, ou sua versão pré- processada, em dependência de um conjunto (134; 340b) de parâmetros de domínio de previsão linear obtidos usando uma análise com base em correlação de uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, ou em dependência de um conjunto (136; 330d; 1070b) de parâmetros de fator de escala obtidos usando uma análise de modelo psicoacústico (330c; 1070a) de uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência.
20. O codificador de sinal de áudio multimodal de acordo com a reivindicação 19, caracterizado por o codificador de sinal de áudio compreende um seletor de modo configurado para analisar o conteúdo de áudio com a finalidade de decidir se deve codificar uma porção do conteúdo de áudio no modo de previsão linear ou no modo de domínio de frequência.
21. O codificador de sinal de áudio multimodal de acordo com uma das reivindicações 16 a 20, caracterizado por o codificador de sinal de áudio multicanal é configurado para codificar um quadro de áudio, que está entre um quadro do modo de domínio de frequência e um quadro combinado de modo de previsão linear de excitação codificada de transformação/modo de previsão linear excitado de código algébrico como um quadro de início de modo de previsão linear, sendo que o codificador de sinal de áudio multimodal é configurado para aplicar uma janela de início com uma inclinação de transição de lado esquerdo comparativamente longa e uma inclinação de transição de lado direito comparativamente curta à representação de domínio de tempo do quadro de início de modo de previsão linear, para obter uma representação de domínio de tempo com janela, obter uma representação de domínio de frequência da representação de domínio de tempo com janela do quadro de início de modo de previsão linear, obter um conjunto de parâmetros de domínio de previsão linear para o quadro de início de modo de previsão linear, aplicar uma configuração espectral à representação de domínio de frequência da representação de domínio de tempo com janela do quadro de início de modo de previsão linear, ou sua versão pré-processada, em dependência do conjunto de parâmetros de domínio de previsão linear, e codificar o conjunto de parâmetros de domínio de previsão linear e representação de domínio de frequência configurada de forma espectral da representação de domínio de tempo com janela do quadro de início de modo de previsão linear.
22. O codificador de sinal de áudio multimodal de acordo com a reivindicação 21, caracterizado por o codificador de sinal de áudio multimodal é configurado para usar os parâmetros de domínio de previsão linear associados ao quadro de início de modo de previsão linear com a finalidade de inicializar um codificador de modo de previsão linear excitado de código algébrico para a codificação de pelo menos uma porção do quadro combinado de modo de previsão linear de excitação codificada de transformação/modo de previsão linear excitado de código algébrico seguindo o quadro de início de modo de previsão linear.
23. O codificador de sinal de áudio multimodal de acordo com uma das reivindicações 16 a 22, o codificador de sinal de áudio compreendendo: um determinador de coeficiente de filtro de codificação de previsão linear (340a; 1070c) configurado para analisar uma porção do conteúdo de áudio a ser codificada em um modo de previsão linear, ou sua versão pré-processada, para determinar os coeficientes de filtro de codificação de previsão linear associados à porção do conteúdo de áudio a ser codificada no modo de previsão linear; um transformador de coeficiente de filtro (350b; 1070d) configurado para transformar os coeficientes de filtro de codificação de previsão linear em uma representação espectral (X0[k]), com a finalidade de obter os valores de ganhos de modo de previsão linear (g[k], 350c) associados às diferentes frequências; um determinador de fator de escala (330c; 1070a) configurado para analisar uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência, ou sua versão pré- processada, para determinar os fatores de escala associados à porção do conteúdo de áudio a ser codificada no modo de domínio de frequência; um arranjo de combinador (330e, 350d; 1030e) configurado para combinar uma representação de domínio de frequência de uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, ou sua versão pré-processada, com os valores de ganhos de modo de previsão linear (g[k]), para obter os componentes espectrais processados de ganho, caracterizado pelo fato de que as contribuições dos componentes espectrais da representação do conteúdo de áudio de domínio de frequência são ponderadas em dependência dos valores de ganhos de modo de previsão linear, e combinar uma representação de domínio de frequência de uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência, ou sua versão pré-processada, com os fatores de escala, para obter os componentes espectrais processados de ganho, caracterizado pelo fato de que as contribuições dos componentes espectrais da representação do conteúdo de áudio de domínio de frequência são ponderados em dependência dos fatores de escala, caracterizado por os componentes espectrais processados de ganho formam os conjuntos configurados de forma espectral de coeficientes espectrais.
24. Um método para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio, o método caracterizado por compreender: obter conjuntos de coeficientes espectrais decodificados para uma pluralidade de porções do conteúdo de áudio; aplicar uma configuração espectral a um conjunto de coeficientes espectrais decodificados, ou sua versão pré- processada, em dependência de um conjunto de parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio codificada em um modo de previsão linear, e aplicar uma configuração espectral a um conjunto de coeficientes espectrais decodificados, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de fator de escala para uma porção do conteúdo de áudio codificada em um modo de domínio de frequência; e obter uma representação de domínio de tempo do conteúdo de áudio com base em um conjunto configurado de forma espectral de coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de previsão linear, e obter uma representação de domínio de tempo do conteúdo de áudio com base em um conjunto configurado de forma espectral de coeficientes espectrais decodificados para uma porção do conteúdo de áudio codificada no modo de domínio de frequência.
25. Um método para fornecer uma representação codificada de um conteúdo de áudio com base em uma representação de entrada do conteúdo de áudio, o método caracterizado por compreender: processar a representação de entrada do conteúdo de áudio, para obter uma representação do conteúdo de áudio de domínio de frequência, caracterizado pelo fato de que a representação de domínio de frequência (122) compreende uma sequência de conjuntos de coeficientes espectrais; aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio a ser codificada no modo de previsão linear, para obter um conjunto configurado de forma espectral (132) de coeficientes espectrais; aplicar uma configuração espectral a um conjunto de coeficientes espectrais, ou sua versão pré-processada, em dependência de um conjunto de parâmetros de fator de escala para uma porção do conteúdo de áudio a ser codificada no modo de domínio de frequência, para obter um conjunto configurado de forma espectral (132) de coeficientes espectrais; fornecer uma representação codificada de um conjunto configurado de forma espectral de coeficientes espectrais para a porção do conteúdo de áudio a ser codificada no modo de previsão linear usando uma codificação de quantização; e fornecer uma versão codificada de um conjunto configurado de forma espectral de coeficientes espectrais para a porção do conteúdo de áudio a ser codificada no modo de domínio de frequência usando uma codificação de quantização.
BR112012007803-8A 2009-10-08 2010-10-06 Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear BR112012007803B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24977409P 2009-10-08 2009-10-08
US61/249,774 2009-10-08
PCT/EP2010/064917 WO2011042464A1 (en) 2009-10-08 2010-10-06 Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping

Publications (2)

Publication Number Publication Date
BR112012007803A2 BR112012007803A2 (pt) 2020-08-11
BR112012007803B1 true BR112012007803B1 (pt) 2022-03-15

Family

ID=43384656

Family Applications (2)

Application Number Title Priority Date Filing Date
BR112012007803-8A BR112012007803B1 (pt) 2009-10-08 2010-10-06 Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
BR122021023896-0A BR122021023896B1 (pt) 2009-10-08 2010-10-06 Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR122021023896-0A BR122021023896B1 (pt) 2009-10-08 2010-10-06 Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear

Country Status (18)

Country Link
US (1) US8744863B2 (pt)
EP (1) EP2471061B1 (pt)
JP (1) JP5678071B2 (pt)
KR (1) KR101425290B1 (pt)
CN (1) CN102648494B (pt)
AR (1) AR078573A1 (pt)
AU (1) AU2010305383B2 (pt)
BR (2) BR112012007803B1 (pt)
CA (1) CA2777073C (pt)
ES (1) ES2441069T3 (pt)
HK (1) HK1172727A1 (pt)
MX (1) MX2012004116A (pt)
MY (1) MY163358A (pt)
PL (1) PL2471061T3 (pt)
RU (1) RU2591661C2 (pt)
TW (1) TWI423252B (pt)
WO (1) WO2011042464A1 (pt)
ZA (1) ZA201203231B (pt)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
MX2011000366A (es) * 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR101411780B1 (ko) * 2009-10-20 2014-06-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
JP5773502B2 (ja) 2010-01-12 2015-09-02 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム
ES2935911T3 (es) * 2010-04-09 2023-03-13 Dolby Int Ab Descodificación estéreo de predicción compleja basada en MDCT
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
GB2487399B (en) * 2011-01-20 2014-06-11 Canon Kk Acoustical synthesis
AU2012246799B2 (en) 2011-04-21 2016-03-03 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
CN105336337B (zh) * 2011-04-21 2019-06-25 三星电子株式会社 针对语音信号或音频信号的量化方法以及解码方法和设备
SI2774145T1 (sl) * 2011-11-03 2020-10-30 Voiceage Evs Llc Izboljšane negovorne vsebine v celp dekoderju z nizko frekvenco
US20190373312A1 (en) 2012-02-21 2019-12-05 Gracenote, Inc. Media Content Identification on Mobile Devices
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
BR112015014217B1 (pt) * 2012-12-21 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
AU2014211520B2 (en) * 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
KR101877906B1 (ko) * 2013-01-29 2018-07-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 노이즈 채움 개념
CN110232929B (zh) 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
JP6146069B2 (ja) 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
IL294836A (en) 2013-04-05 2022-09-01 Dolby Int Ab Audio encoder and decoder
EP3011556B1 (en) * 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
PT3011561T (pt) 2013-06-21 2017-07-25 Fraunhofer Ges Forschung Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830060A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
RU2641253C2 (ru) 2013-08-23 2018-01-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
JP6385433B2 (ja) * 2013-10-18 2018-09-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
RU2643646C2 (ru) 2013-11-13 2018-02-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
EP3091536B1 (en) * 2014-01-15 2019-12-11 Samsung Electronics Co., Ltd. Weight function determination for a quantizing linear prediction coding coefficient
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
ES2689120T3 (es) * 2014-03-24 2018-11-08 Nippon Telegraph And Telephone Corporation Método de codificación, codificador, programa y soporte de registro
JP6035270B2 (ja) 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
US9666210B2 (en) * 2014-05-15 2017-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal classification and coding
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
PT3000110T (pt) * 2014-07-28 2017-02-15 Fraunhofer Ges Forschung Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos.
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
ES2911515T3 (es) * 2017-04-10 2022-05-19 Nokia Technologies Oy Codificación de audio
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019121980A1 (en) 2017-12-19 2019-06-27 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
KR102250835B1 (ko) * 2019-08-05 2021-05-11 국방과학연구소 수동 소나의 협대역 신호를 탐지하기 위한 lofar 또는 demon 그램의 압축 장치
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
RU2500043C2 (ru) * 2004-11-05 2013-11-27 Панасоник Корпорэйшн Кодер, декодер, способ кодирования и способ декодирования
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
KR100923156B1 (ko) * 2006-05-02 2009-10-23 한국전자통신연구원 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8041578B2 (en) * 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
EP2101318B1 (en) * 2006-12-13 2014-06-04 Panasonic Corporation Encoding device, decoding device and corresponding methods
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
PT2165328T (pt) * 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
EP2063417A1 (en) * 2007-11-23 2009-05-27 Deutsche Thomson OHG Rounding noise shaping for integer transform based encoding and decoding
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
ES2401487T3 (es) 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
MX2011000366A (es) 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
BR112013020587B1 (pt) * 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral

Also Published As

Publication number Publication date
EP2471061B1 (en) 2013-10-02
HK1172727A1 (en) 2013-04-26
TWI423252B (zh) 2014-01-11
KR20120063543A (ko) 2012-06-15
MX2012004116A (es) 2012-05-22
RU2012119291A (ru) 2013-11-10
JP5678071B2 (ja) 2015-02-25
MY163358A (en) 2017-09-15
BR122021023896B1 (pt) 2023-01-10
PL2471061T3 (pl) 2014-03-31
WO2011042464A1 (en) 2011-04-14
JP2013507648A (ja) 2013-03-04
ZA201203231B (en) 2013-01-30
AU2010305383A1 (en) 2012-05-10
US20120245947A1 (en) 2012-09-27
AR078573A1 (es) 2011-11-16
RU2591661C2 (ru) 2016-07-20
CA2777073A1 (en) 2011-04-14
CN102648494A (zh) 2012-08-22
TW201137860A (en) 2011-11-01
AU2010305383B2 (en) 2013-10-03
EP2471061A1 (en) 2012-07-04
KR101425290B1 (ko) 2014-08-01
CA2777073C (en) 2015-11-24
ES2441069T3 (es) 2014-01-31
US8744863B2 (en) 2014-06-03
BR112012007803A2 (pt) 2020-08-11
CN102648494B (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
BR112012007803B1 (pt) Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
TWI430263B (zh) 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法
CA2871252C (en) Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
ES2526767T3 (es) Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador
TWI545559B (zh) 解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式
BR112015007649B1 (pt) Codificador, decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial
BRPI0612987A2 (pt) dispositivo de codificaÇço/decodificaÇço hierÁrquica
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
KR20230160960A (ko) 오디오 신호의 고주파 재구성을 위한 하모닉 트랜스포저의 하위호환형 통합
Fuchs et al. MDCT-based coder for highly adaptive speech and audio coding
Quackenbush Coding of natural audio in MPEG-4
CN107924683A (zh) 正弦编码和解码的方法和装置

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/02 , G10L 19/14

Ipc: G10L 19/022 (2013.01)

B09Y Publication of grant cancelled [chapter 9.1.2 patent gazette]

Free format text: ANULADA A PUBLICACAO CODIGO 9.1 NA RPI NO 2607 DE 22/12/2020 POR TER SIDO INDEVIDA.

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 06/10/2010, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.