BR122022012517B1 - Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo - Google Patents

Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo Download PDF

Info

Publication number
BR122022012517B1
BR122022012517B1 BR122022012517-4A BR122022012517A BR122022012517B1 BR 122022012517 B1 BR122022012517 B1 BR 122022012517B1 BR 122022012517 A BR122022012517 A BR 122022012517A BR 122022012517 B1 BR122022012517 B1 BR 122022012517B1
Authority
BR
Brazil
Prior art keywords
spectral
audio signal
decoded
signal
frequency
Prior art date
Application number
BR122022012517-4A
Other languages
English (en)
Inventor
Sascha Disch
Martin Dietz
Markus Multrus
Guillaume Fuchs
Emmanuel RAVELLI
Matthias Neusinger
Markus Schnell
Benjamin SCHUBERT
Bernhard Grill
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Publication of BR122022012517B1 publication Critical patent/BR122022012517B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

um codificador de áudio para codificação de um sinal de áudio, compreendendo: um primeiro processador de codificação (600) de uma primeira parte do sinal de áudio em um domínio de frequência, caracterizado pelo primeiro processador de codificação (600) compreender: um conversor de tempo-frequência (602) para a primeira parte do sinal de áudio em uma representação de domínio de frequência, tendo linhas espectrais até uma frequência máxima da primeira parte do sinal de áudio; um analisador (604) da representação do domínio de frequência até a frequência máxima para determinar as partes espectrais primárias a serem codificadas com uma primeira resolução espectral e as regiões espectrais secundárias a serem codificadas com uma segunda resolução espectral, a segunda resolução espectral sendo mais baixa do que a primeira resolução espectral; um codificador espectral (606) para das partes espectrais primárias da representação do domínio de frequência com a primeira resolução espectral e para codificação das partes espectrais secundárias com a segunda resolução espectral; um segundo processador de codificação (610) para uma segunda parte do sinal de áudio diferente no domínio de tempo; um controlador (620) configurado para análise do sinal de áudio e para determinação de qual parte do sinal de áudio é a primeira parte do sinal de áudio codificada no domínio de frequência e qual parte do sinal de áudio é a segunda parte do sinal de áudio codificada no domínio de tempo; e um modulador de sinal codificado (630) para modulação de um sinal de áudio, compreendendo uma primeira parte do sinal codificado para a primeira parte do sinal e uma segunda parte do sinal codificado para a segunda parte do sinal.

Description

PEDIDO DIVIDIDO DO BR 11 2017 001297-9 depositado em 24/07/2015. RELATÓRIO DESCRITIVO
[0001] A presente invenção refere-se à codificação e decodificação do sinal de áudio e, em particular, ao processamento do sinal de áudio utilizando processadores de codificadores/decodificadores paralelos de domínio de frequência e domínio de tempo.
[0002] A codificação perceptual de sinais de áudio com a finalidade de redução de dados para armazenamento ou transmissão eficiente desses sinais é uma prática amplamente utilizada. Em particular, quando taxas de bit mais baixas tiverem de ser obtidas, a codificação empregada leva a uma redução da qualidade de áudio que é frequente e principalmente causada por uma limitação no lado do codificador da largura de banda do sinal de áudio a ser transmitido. Aqui, tipicamente o sinal de áudio é de filtragem de passa baixa, de modo que nenhum conteúdo de forma de onda espectral permaneça acima de certa frequência de corte predeterminada.
[0003] Em codecs modernos, há métodos bem conhecidos para a restauração do sinal do lado do decodificador através da Extensão de Largura de Banda (BWE | Bandwidth Extension) do sinal de áudio, p.ex., Replicação da Banda Espectral (SBR | Spectral Band Replication) que opera em domínio de frequência ou a assim chamada Extensão da Largura de Banda do Domínio de Tempo (TD-BWE | Time Domain Bandwidth Extension), sendo um pós-processador em codificadores de discurso que opera em domínio de tempo.
[0004] Adicionalmente, vários conceitos de codificação do domínio de frequência/domínio de tempo combinados existem como conceitos conhecidos sob o termo AMR- WB+ ou USAC.
[0005] Todos esses conceitos de codificação/domínio de tempo combinados têm em comum que o codificador do domínio de frequência depende das tecnologias de extensão de largura de banda que incorrem uma limitação de banda no sinal de áudio de entrada e a parte acima de uma frequência de cruzada ou frequência de limite é codificado com um conceito de codificação de baixa resolução e sintetizado no lado do decodificador. Assim, tais conceitos dependem principalmente de uma tecnologia de pré-processador no lado do codificador e uma funcionalidade pós-processamento correspondente no lado do decodificador.
[0006] Tipicamente, o codificador do domínio de tempo é selecionado para que os sinais úteis sejam decodificados no domínio de tempo, como o sinal de fala, e o codificador do domínio de frequência é selecionado para sinais de não fala, sinais de música, e etc. Entretanto, especificamente para sinais de não fala tendo harmônicas proeminentes na banda de alta frequência, os codificadores de domínio de frequência da técnica anterior têm uma precisão reduzida e, portanto, uma qualidade de áudio reduzida devido ao fato de que tais harmônicas proeminentes podem somente ser codificadas parametricamente separadamente ou são completamente eliminadas no processo de codificação/decodificação.
[0007] Além disso, há conceitos em que a ramificação de codificação/decodificação do domínio de tempo depende adicionalmente da extensão da largura de banda que também codifica parametricamente uma série de frequência superior, enquanto uma série de frequência inferior é tipicamente codificada utilizando uma ACELP ou qualquer outro tipo de codificador relacionado ao CELP, por exemplo, um codificador de fala. Essa funcionalidade da extensão da largura de banda aumenta a eficiência da velocidade de bits, mas, por outro lado, introduz ainda inflexibilidade, devido ao fato de que ambas as ramificações de codificação, por exemplo, a ramificação de codificação do domínio de frequência e a ramificação de codificação do domínio de tempo são de banda limitada devido ao procedimento de extensão de largura de banda ou o procedimento de replicação da banda espectral operando acima de certa frequência de cruzada substancialmente menor que a frequência máxima incluída no sinal de áudio de entrada.
[0008] Tópicos relevantes no estado da técnica compreendem: - SBR como um pós-processador para decodificação da forma de onda [1-3]; - Comutação central USAC MPEG-D [4]; - MPEG-H 3D IGF [5].
[0009] Os documentos e patentes a seguir descrevem os métodos que são considerados como constituintes da técnica prévia para o pedido:
[0010] [1] M. Dietz, L. Liljeryd, K. Kjorling e O. Kunz, “Spectral Band Replication, a novel approach in audio coding”, na 112a Convenção AES, Munique, Alemanha, 2002.
[0011] [2] S. Meltzer, R. Bohm e F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM)”, na 112a Convenção AES, Munique, Alemanha, 2002.
[0012] [3] T. Ziegler, A. Ehret, P. Ekstrand e M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm”, na 112a Convenção AES, Munique, Alemanha, 2002.
[0013] [4] Padrão USAC MPEG-D.
[0014] [5] PCT/EP2014/065109.
[0015] Em USAC MPEG-D, um codificador central comutável é descrito. No entanto, em USAC, a central limitada à banda é restrita para sempre transmitir um sinal de filtro passa baixa. Portanto, certos sinais de música que contêm conteúdo de alta frequência proeminentes, por exemplo, varreduras de banda completa, sons de triângulo, etc., não podem ser fielmente reproduzidos.
[0016] É um objeto da presente invenção fornecer um conceito melhorado para codificação de áudio.
[0017] Esse objeto é alcançado por um o codificador de áudio de acordo com a reivindicação 1, um o decodificador de áudio de acordo com a reivindicação 11, um método de codificação de áudio de acordo com a reivindicação 20, um método de decodificação de áudio de acordo com a reivindicação 21 ou um programa de computador de acordo com a reivindicação 22.
[0018] A presente invenção se baseia na constatação que um processador de codificação/decodificação de domínio de tempo pode ser combinado com um processador de codificação/decodificação do domínio de frequência, tendo uma funcionalidade de preenchimento de lacuna, mas essa funcionalidade de preenchimento de lacuna para preencher orifícios espectrais é operada por toda a banda do sinal de áudio ou, pelo menos, acima de certa frequência do preenchimento de lacuna. Essencialmente, o processador de codificação / decodificação do domínio de frequência está particularmente na posição de realizar codificação / decodificação precisa ou de forma de onda ou de valor espectral até a frequência máxima e não somente até uma frequência cruzada. Além disso, a capacidade de banda completa do codificador do domínio de frequência para codificação com a resolução alta permite uma integração da funcionalidade de preenchimento de lacuna ao codificador do domínio de frequência.
[0019] Assim, de acordo com a presente invenção, ao utilizar o processador do codificador/decodificador espectral de banda completa, os problemas relacionados à separação da extensão da largura de banda, por um lado, e a codificação central, por outro, pode ser abordada e ultrapassada realizando a extensão da largura de banda no mesmo domínio espectral no qual o decodificador central opera. Portanto, um decodificador central de taxa completa é fornecido que codifica e decodifica a taxa de sinal de áudio completa. Isso não exige a necessidade de um redutor de taxa de amostragem no lado do codificador e um amplificador de taxa de amostragem no lado do decodificador. Ao invés disso, todo o processamento é realizado no domínio de largura de banda completa ou de taxa de amostragem completa. Para obter um alto ganho de codificação, o sinal de áudio é analisado para encontrar um primeiro conjunto de partes espectrais que tem que ser codificados com uma alta resolução, onde esse primeiro conjunto de partes espectrais primárias podem incluir, em uma aplicação, partes tonais do sinal de áudio. Por outro lado, componentes não tonais ou com ruído no sinal de áudio constituindo um segundo conjunto de partes espectrais são parametricamente codificados com resolução espectral baixa. O sinal de áudio codificado então exige somente o primeiro conjunto das partes espectrais primárias codificadas de uma maneira de preservação da forma de onda com uma alta resolução espectral e, adicionalmente, o segundo conjunto das partes espectrais secundárias codificadas parametricamente com uma resolução baixa utilizando “porções” de frequência provenientes do primeiro conjunto. No lado do decodificador, o decodificador central, que é um decodificador de banda completa, reconstrói o primeiro conjunto das partes espectrais primárias de uma maneira de preservação da forma de onda, isto é, sem qualquer conhecimento de que haja qualquer regeneração de frequência adicional. Entretanto, o espectro então gerado tem muitas lacunas espectrais. Essas lacunas são subsequentemente preenchidas com a tecnologia de Preenchimento de Lacuna Inteligente (IGF | Intelligent Gap Filling) inventiva ao utilizar uma regeneração de frequência aplicando dados paramétricos por um lado e utilizando uma faixa espectral de fonte, por exemplo, partes espectrais reconstruídas pelo decodificador de áudio de taxa completa por outro lado.
[0020] Em outras aplicações, as partes espectrais, que são reconstruídas somente por preenchimento de ruído ao invés de replicação de largura de banda ou preenchimento de porção de frequência, constituem um terceiro conjunto de terceiras partes espectrais. Devido ao fato de que o conceito de codificação opera em um domínio único para a codificação/decodificação central por um lado e a regeneração de frequência por outro lado, o IGF não está restrito a preencher uma faixa de frequência mais alta, mas pode preencher séries de frequência inferior, por preenchimento de ruído sem regeneração de frequência ou por regeneração de frequência utilizando uma porção de frequência em uma faixa de frequência diferente.
[0021] Além disso, é enfatizado que uma informação sobre energias espectrais, uma informação sobre energias individuais ou uma informação de energia individual, uma informação sobre uma energia de sobrevivência ou uma informação de energia de sobrevivência, uma informação sobre uma energia de porção ou uma informação de energia de porção, ou uma informação sobre uma energia em falta ou uma informação de energia em falta pode compreender não somente um valor de energia, mas também um valor de amplitude (por exemplo, absoluta), um valor de nível ou qualquer outro valor, a partir do qual um valor de energia final pode ser derivado. Assim, as informações sobre uma energia podem, por exemplo, compreender o próprio valor de energia, e/ou um valor de um nível e/ou de uma amplitude e/ou de uma amplitude absoluta.
[0022] Um aspecto adicional se baseia na constatação de que a situação de correlação não é somente importante para a faixa de origem, mas também é importante para a faixa alvo. Além disso, a presente invenção reconhece a situação de que situações de correlação diferentes podem ocorrer na faixa de origem e na faixa alvo. Quando, por exemplo, um sinal de fala com ruído de alta frequência é considerado, a situação pode ser que a banda de baixa frequência compreende o sinal de fala com um pequeno número de implicações está altamente correlacionada no canal esquerdo e no canal direito, quando o alto-falante é colocado no meio. A parte de alta frequência, entretanto, pode ser fortemente não correlacionada devido ao fato de que pode haver um ruído de alta frequência diferente no lado esquerdo comparado a outro ruído de alta frequência no lado direito. Assim, quando uma operação de preenchimento de lacuna de modo direto é realizada, que ignora essa situação, então a parte de alta frequência seria correlacionada também, e isso pode gerar sérios perturbações de segregação espacial no sinal reconstruído. Para resolver essa questão, dados paramétricos para uma banda de reconstrução ou, em geral, para o segundo conjunto de partes espectrais secundárias que tem que ser reconstruídas utilizando um primeiro conjunto espectral das partes espectrais primárias, são calculados para identificar se uma primeira ou uma segunda representação de dois canais diferentes para a segunda parte espectral ou, indicados de maneira diferente, para a banda de reconstrução. No lado do codificador, uma identificação de dois canais é, portanto, calculada para as partes espectrais secundárias, isto é, para as partes, para as quais, adicionalmente, informações de energia para as bandas de reconstrução são calculadas. Um regenerador de frequência no lado do decodificador então regenera uma segunda parte espectral dependendo de uma primeira parte do primeiro conjunto de partes espectrais primárias, por exemplo, a faixa de origem e os dados paramétricos para a segunda parte, como informações de energia do envelope espectral ou quaisquer outros dados do envelope espectral e, adicionalmente, dependentes da identificação de dois canais para a segunda parte, isto é, para essa banda de reconstrução sob reconsideração.
[0023] A identificação de dois canais é preferivelmente transmitida como um identificador para cada banda de reconstrução e esses dados são transmitidos a partir de um codificador para um decodificador e o decodificador então decodifica o sinal central conforme indicado pelos identificadores preferivelmente calculados para as bandas central. Então, em uma implementação, o sinal central é armazenado em ambas as representações estéreo (p.ex., esquerda/direita e média/lateral) e, para o preenchimento de porção de frequência de IGF, a representação da porção de origem é escolhida para encaixar a representação de porção alvo, conforme indicado, pelos identificadores de identificação de dois canais para o preenchimento de lacuna inteligente ou bandas de reconstrução, isto é, para a faixa alvo.
[0024] É enfatizado que esse procedimento não somente trabalha para sinais estéreo, isto é, para um canal esquerdo e para um canal direito, mas também opera para sinais de canais múltiplos. No caso dos sinais de canais múltiplos, vários pares de canais diferentes podem ser processados como um canal direito e um canal esquerdo como o primeiro par, um canal de margem esquerdo e um canal de margem direito como o segundo par e um canal central e um canal LFE como o terceiro par. Outros pareamentos podem ser determinados para formatos de canais de saída mais altos, como 7,1, 11,1 entre outros.
[0025] Um aspecto adicional se baseia na constatação de que a qualidade de áudio do sinal reconstruído pode ser melhorada através de IGF, visto que todo o espectro é acessível ao codificador central, de modo que, por exemplo, partes tonais perceptivelmente importantes em uma faixa espectral alta possam ainda ser codificadas pelo codificador central ao invés da substituição paramétrica. Adicionalmente, uma operação de preenchimento de lacuna utilizando porções de frequência a partir de um primeiro conjunto de partes espectrais primárias que é, por exemplo, um conjunto de partes tonais tipicamente a partir de uma série de frequência inferior, mas também a partir de uma faixa de frequência mais alta, se disponível, é realizada. Para o ajuste do envelope espectral do lado do decodificador, entretanto, as partes espectrais a partir do primeiro conjunto de partes espectrais localizadas na banda de reconstrução não são mais pós-processadas, por exemplo, pelo ajuste do envelope espectral. Somente os valores espectrais restantes na banda de reconstrução que não se originam do decodificador central devem ser envelopes ajustados utilizando informações de envelope. Preferivelmente, as informações de envelope são informações de envelope de banda complete contabilizando a energia do primeiro conjunto de partes espectrais primárias na banda de reconstrução e do segundo conjunto de partes espectrais secundárias na mesma banda de reconstrução, onde os últimos valores espectrais no segundo conjunto de partes espectrais secundárias são indicados como zero e não são, portanto, codificados pelo codificador central, mas são parametricamente codificados com informações de energia de baixa resolução.
[0026] Constatou-se que os valores de energia absolutos normalizados ou não com relação à largura de banda da banda correspondente são úteis e muito eficientes em uma aplicação no lado do decodificador. Isso se aplica especialmente quando fatores de ganho tem que ser calculados baseados na energia residual na banda de reconstrução, a energia em falta na banda de reconstrução e nas informações de porção de frequência na banda de reconstrução.
[0027] Além disso, é preferível que o fluxo de bits codificado não somente cubra informações de energia para as bandas de reconstrução, mas, adicionalmente, fatores de escala para bandas de fator de escala até a frequência máxima. Isso garante que para cada banda de reconstrução, para as quais certa parte tonal, isto é, uma primeira parte espectral, é disponível, esse primeiro conjunto da primeira parte espectral pode, na verdade, ser decodificada com uma amplitude direita. Além disso, além do fator de escala para cada banda de reconstrução, uma energia para essa banda de reconstrução é gerada em um codificador e transmitida a um decodificador. Além disso, é preferível que as bandas de reconstrução coincidam com as bandas de fator de escala ou, no caso de agrupamento de energia, pelo menos os limites da banda de reconstrução coincidam com limites de bandas de fator de escala.
[0028] Um aspecto adicional se baseia na constatação de que certas deficiências na qualidade do áudio podem ser remediadas ao aplicar um esquema de preenchimento de porção de frequência adaptativa de sinal. Para esse fim, uma análise no lado do codificador é realizada para encontrar o melhor candidato de região de origem correspondente para uma determinada região alvo. Uma informação correspondente que identifica uma região alvo de uma determinada região de origem junto com opcionalmente algumas informações adicionais é gerada e transmitida como informação adicional ao decodificador. O decodificador, então, aplica uma operação de preenchimento de porção de frequência utilizando a informação correspondente. Para essa finalidade, o decodificador lê a informação correspondente da corrente de dados transmitida ou arquivo de dados e acessa a região de origem identificada para uma certa banda de reconstrução e, se indicado na informação correspondente, realiza adicionalmente algum processamento desses dados da região de origem para gerar os dados espectrais brutos para a banda de reconstrução. Então, esse resultado da operação de preenchimento de porção de frequência, ou seja, os dados espectrais brutos para a banda de reconstrução, é modelado utilizando a informação de envelope espectral a fim de finalmente obter uma banda de reconstrução que compreende as partes espectrais primárias como partes tonais também. Essas partes tonais, entretanto, não são geradas pelo esquema de preenchimento de porção adaptativo, mas essas partes espectrais primárias são emitidas pelo decodificador de áudio ou decodificador central diretamente.
[0029] O esquema de seleção de porção espectral adaptativa pode operar com uma baixa granularidade. Nessa implementação, uma região de origem é subdividida em tipicamente regiões de origem de sobreposição e a região alvo ou as bandas de reconstrução são dadas pelas regiões alvo de frequência não sobrepostas. Então, as similaridades entre cada região de origem e cada região alvo são determinadas no lado do codificador e o melhor par correspondente de uma região de origem e a região alvo é identificado pela informação correspondente e, no lado do decodificador, a região de origem identificada na informação correspondente é utilizada para gerar os dados espectrais brutos para a banda de reconstrução.
[0030] Com a finalidade de obter uma granularidade mais alta, é permitida a cada região de origem alternar-se, a fim de obter um certo atraso onde as similaridades são máximas. Esse atraso pode ser tão fino quanto uma posição de frequência e possibilita uma correspondência ainda melhor entre uma região de origem e a região alvo.
[0031] Ademais, além de apenas identificar um melhor par de identificação, esse atraso de correlação também pode ser transmitido dentro da informação correspondente e, adicionalmente, mesmo um sinal pode ser transmitido. Quando o sinal é determinado como negativo no lado do codificador, então um sinal correspondente também é transmitido dentro da informação correspondente e, no lado do decodificador, os valores espectrais da região de origem são multiplicados por “-1” ou, em uma representação complexa, são “girados” a 180 graus.
[0032] Uma implementação adicional dessa invenção é aplicada a uma operação de branqueamento de porção. Branqueamento de um espectro remove a informação de envelope espectral grosseira e enfatiza a estrutura fina espectral que é de interesse primordial para avaliar similaridade de porção. Portanto, uma porção de frequência por um lado e/u o sinal de fonte por outros lados são branqueados antes de calcular uma medida de correlação cruzada. Quando somente a porção é branqueada utilizando um procedimento predefinido, um identificador de branqueamento é transmitido indicando ao decodificador que o mesmo processo de branqueamento predefinido deverá ser aplicado à porção de frequência dentro do IGF.
[0033] Com relação à seleção de porção, prefere-se utilizar o identificador da correlação para trocar espectralmente o espectro regenerado por um número inteiro de unidade de transformada. Dependendo da transformada subjacente, a troca espectral pode exigir a adição de correções. No caso de atrasos estranhos, a porção é adicionalmente modulada através da multiplicação por uma sequência temporal alternante de -1/1 para compensar a representação de frequência invertida de todas as outras bandas dentro da MDCT. Além disso, o sinal do resultado de correlação é aplicado quando gerar a porção de frequência.
[0034] Ademais, é preferível utilizar remoção e estabilização de porção para certificar-se de que as perturbações criadas pela rápida alteração das regiões de origem para a mesma região de reconstrução ou região alvo são evitadas. Para essa finalidade, uma análise de similaridade entre diferentes regiões de origem identificadas é realizada e quando uma porção de origem é similar a outras porções de origem com uma similaridade acima de um limiar, então essa porção de origem pode ser descartada do conjunto de porções de origem em potencial visto que está altamente correlacionada com outras porções de origem. Além disso, como um tipo de estabilização de seleção de porção, prefere-se manter a ordem de porção a partir do quadro anterior, se nenhuma das porções de origem no quadro atual se correlaciona (melhor que um dado limiar) com as porções alvo no quadro atual.
[0035] Um aspecto adicional se baseia na constatação de que uma qualidade melhorada e uma velocidade de bits reduzida, especificamente para sinais compreendendo partes transitórias como elas ocorrem muito frequentemente em sinais de áudio, é obtida combinando a tecnologia de Modulação de Ruído Temporal (TNS | Temporal Noise Shaping) ou Modulação de Porção Temporal (TTS | Temporal Tile Shaping) com a reconstrução de alta frequência. O processamento de TNS/TTS no lado do codificador sendo implementado por uma previsão sobre frequência reconstrói o envelope de tempo do sinal de áudio. Dependendo da implementação, por exemplo, quando o filtro de modulação de ruído temporal é determinado dentro de uma faixa de frequência não somente cobrindo a faixa de frequência de origem, mas também a faixa de frequência alvo a ser reconstruída em um decodificador de regeneração de frequência, o envelope temporal não é somente aplicado ao sinal de áudio central até uma frequência inicial de preenchimento de lacuna, mas o envelope temporal é também aplicado às faixas espectrais de partes espectrais secundárias reconstruídas. Assim, pré- ecos e pós-ecos que ocorreriam sem modulação de porção temporal são reduzidos ou eliminados. Isso é alcançado aplicando uma previsão inversa sobre a frequência não somente dentro da faixa de frequência central até certa frequência de início de preenchimento de lacuna, mas também dentro de uma faixa de frequência acima da faixa de frequência central. Com essa finalidade, a regeneração de frequência ou geração de porção de frequência é realizada no lado do decodificador antes de aplicar uma previsão sobre a frequência. Entretanto, a previsão sobre a frequência pode ser aplicada antes ou subsequente à modulação de envelope espectral dependendo de se o cálculo da informação de energia foi realizado nos valores residuais espectrais subsequentes à filtragem ou nos valores espectrais (completos) antes da modulação do envelope.
[0036] O processamento de TTS sobre uma ou mais porções de frequência adicionalmente estabelece uma continuidade de correlação entre a faixa de origem e a taxa de reconstrução ou em duas taxas de reconstrução ou porções de frequência adjacentes.
[0037] Em uma implementação, prefere-se utilizar a filtragem complexa de TNS/TTS. Dessa forma, as perturbações de distorção de largura de banda (temporais) de uma representação real criticamente amostrada, como MDCT, são evitadas. Um filtro complexo de TNS pode ser calculado no lado do codificador aplicando não somente uma transformada de cosseno discreto modificado, mas também uma transformada de seno discreto modificado além de obter uma transformada complexa modificada. Independentemente, somente os valores de transformada de cosseno discreto modificado, por exemplo, a parte real da transformada complexa, são transmitidos. No lado do decodificador, entretanto, é possível estimar a parte imaginária da transformada utilizando o espectro MDCT de quadros anteriores ou subsequentes, de modo que, no lado do decodificador, o filtro complexo possa ser novamente aplicado na previsão inversa sobre a frequência e, especificamente, a previsão sobre o limite entre a faixa de origem e a taxa de reconstrução e também sobre o limite entre porções de frequência de frequência adjacente dentro da taxa de reconstrução.
[0038] O sistema de codificação de áudio inventivo codifica eficientemente sinais de áudio arbitrários em uma ampla faixa de taxas de bit. Enquanto, para as taxas de bit altas, o sistema inventivo converge para transparência, para taxas de bit baixas o incômodo perceptível é minimizado. Portanto, a parte principal da velocidade de bits disponível está acostumada à codificação de formas de onda somente para as estruturas perceptivelmente mais relevantes do sinal no codificador, e as lacunas espectrais resultantes são preenchidas no decodificador com conteúdo de sinal que se aproxima sensivelmente do espectro original. Um montante muito limitado de bit é consumido para controlar o parâmetro conduzido, também chamado de Preenchimento de Lacuna Inteligente (IGF) pela informação do lado dedicado transmitida do codificador ao decodificador.
[0039] Em outras aplicações, o processador de codificação/decodificação de domínio de tempo depende de uma taxa de amostragem inferior e da funcionalidade de extensão da largura de banda correspondente.
[0040] Em aplicações adicionais, um processador cruzado é fornecido para inicializar o codificador / decodificador de domínio de tempo com dados de inicialização derivados do sinal de codificador / decodificador de domínio de frequência atualmente processado. Isso permite que quando a parte do sinal de áudio atualmente processada for processada pelo codificador de domínio de frequência, o codificador de domínio de tempo paralelo é inicializado de modo que, quando uma comutação do codificador de domínio de frequência a um codificador de domínio de tempo acontece, esse codificador de domínio de tempo pode iniciar o processamento visto que todos os dados de inicialização relacionados aos sinais anteriores já estão lá devido ao processador cruzado. O processador cruzado é preferivelmente aplicado no lado do codificador, adicionalmente, no lado do decodificador e preferivelmente utiliza uma transformada de tempo de frequência que adicionalmente realiza uma redução da taxa de amostragem muito eficiente a partir da saída mais alta ou da taxa de amostragem de entrada à taxa de amostragem do codificador central de domínio de tempo inferior selecionando apenas certa parte de banda baixa do sinal do domínio juntamente com certo tamanho reduzido de transformada. Assim, uma conversão de taxa de amostragem da taxa de amostragem alta à taxa de amostragem baixa é muito eficientemente realizada e esse sinal obtido pela transformada com o tamanho reduzido de transformada pode então ser utilizado para inicializar o codificador / decodificador de domínio de tempo de modo que o codificador / decodificador de domínio de tempo esteja pronto para realizar imediatamente a codificação domínio de tempo quando essa situação é assinalada pelo controlador e a parte do sinal de áudio imediatamente precedente foi codificada no domínio de frequência.
[0041] Assim, aplicações preferidas da presente invenção possibilitam uma comutação integrada de um codificador de áudio perceptual compreendendo o preenchimento de lacuna espectral e um codificador de domínio de tempo com ou sem extensão de largura de banda.
[0042] Assim, a presente invenção depende dos métodos que não são restritos à remoção do conteúdo de alta frequência acima de uma frequência de corte no codificador de domínio de frequência do sinal de áudio, mas de forma adaptativa o sinal remove as regiões espectrais de passa-banda deixando lacunas espectrais no codificador e subsequentemente reconstrói essas lacunas espectrais no decodificador. Preferivelmente, uma solução integrada como preenchimento de lacuna inteligente é utilizada que combina eficientemente a codificação de áudio de largura de banda completa e preenchimento de lacuna espectral particularmente no domínio de transformada de MDCT.
[0043] Assim, a presente invenção fornece um conceito melhorado para combinação de codificação de fala e uma extensão da largura de banda do domínio de tempo subsequente com uma decodificação de forma de onda de banda completa compreendendo o preenchimento de lacuna espectral em um codificador/decodificador perceptual comutável.
[0044] Assim, em contrapartida aos métodos já existentes, o novo conceito utiliza a codificação da forma de onda do sinal de áudio de banda completa no codificador de domínio de transformada e ao mesmo tempo possibilita uma comutação integrada a um codificador de fala preferivelmente seguido por uma extensão da largura de banda do domínio de tempo.
[0045] Aplicações adicionais da presente invenção evitam que os problemas explicados ocorram devido à limitação de banda fixa. O conceito permite a combinação comutável de um codificador de forma de onda de banca completa no domínio de frequência equipado com um preenchimento de lacuna espectral e um codificador de fala de taxa de amostragem inferior e uma extensão da largura de banda do domínio de tempo. Tal codificador é capaz de codificar a forma de forma dos sinais problemáticos supracitados fornecendo largura de banda de áudio completo até a frequência de Nyquist do sinal de áudio de entrada. Não obstante, a comutação contínua entre ambas as estratégias de codificação é garantida particularmente pelas aplicações tendo o processador cruzado. Para essa comutação integrada, o processador cruzado representa uma conexão cruzada em ambos o codificador e o decodificador entre o codificador de taxa completa capaz de banda completa (taxa de amostragem de entrada) de domínio de frequência e o codificador de ACELP de taxa baixa tendo uma taxa de amostragem inferior para inicializar corretamente os parâmetros de ACELP e buffers particularmente dentro do livro de códigos adaptativo, o filtro de LPC ou o estágio de reamostragem, na comutação do codificador do domínio de frequência como TCX ao codificador de domínio de tempo como ACELP.
[0046] A presente invenção é subsequentemente discutida com relação aos desenhos anexos, nos quais:
[0047] A figura 1a ilustra um aparelho para codificação de um sinal de áudio;
[0048] A figura 1b ilustra um decodificador para decodificação de um sinal de áudio codificado que combina com o codificador da figura 1a;
[0049] A figura 2a ilustra uma implementação preferida do decodificador;
[0050] A figura 2b ilustra uma implementação preferida do codificador;
[0051] A figura 3a ilustra uma representação esquemática de um espectro, conforme gerado pelo decodificador de domínio espectral da figura 1b;
[0052] A figura 3b ilustra uma tabela, indicando a relação entre os fatores de escala para as bandas do fator de escala e energias para as bandas de reconstrução e informação de enchimento de ruído para uma banda de enchimento de ruído;
[0053] A figura 4a ilustra a funcionalidade do codificador de domínio espectral para aplicação da seleção de partes espectrais ao primeiro e segundo conjuntos de partes espectrais;
[0054] A figura 4b ilustra uma implementação da funcionalidade da figura 4a;
[0055] A figura 5a ilustra uma funcionalidade de um codificador de MDCT;
[0056] A figura 5b ilustra uma funcionalidade do decodificador com uma tecnologia de MDCT;
[0057] A figura 5c ilustra uma implementação do regenerador de frequência;
[0058] A figura 6 ilustra uma implementação de um codificador de áudio;
[0059] A figura 7a ilustra um processador cruzado dentro do codificador de áudio;
[0060] A figura 7b ilustra uma implementação de uma transformada inversa ou de tempo-frequência que fornece adicionalmente uma redução da taxa de amostragem dentro do processador cruzado;
[0061] A figura 8 ilustra uma implementação preferida do controlador da figura 6;
[0062] A figura 9 ilustra uma aplicação adicional do codificador de domínio de tempo tendo funcionalidades de extensão da largura de banda;
[0063] A figura 10 ilustra uma utilização preferida de um pré-processador;
[0064] A figura 11a ilustra uma implementação esquemática do decodificador de áudio;
[0065] A figura 11b ilustra um processador cruzado dentro do decodificador para fornecimento de dados de inicialização para o decodificador de domínio de tempo;
[0066] A figura 12 ilustra uma implementação preferida do processador de decodificação do domínio de tempo da figura 11a;
[0067] A figura 13 ilustra uma implementação adicional da extensão da largura de banda do domínio de tempo;
[0068] A figura14a ilustra uma implementação preferida de um codificador de áudio;
[0069] A figura14b ilustra uma implementação preferida de um decodificador de áudio;
[0070] A figura 14c ilustra uma implementação inventiva de um decodificador de domínio de tempo com conversão de taxa de amostragem e extensão de largura de banda.
[0071] A figura 6 ilustra um codificador de áudio para codificação de um sinal de áudio, compreendendo um primeiro processador de codificação 600 para codificação de uma primeira parte do sinal de áudio em um domínio de frequência. O primeiro processador de codificação 600 compreende um conversor de tempo-frequência 602 para conversão da primeira parte do sinal de entrada de áudio em uma representação de domínio de frequência, tendo linhas espectrais até uma frequência máxima do sinal de entrada. Além disso, o primeiro processador de codificação 600 compreende um analisador 604 para análise da representação de domínio de frequência até a frequência máxima para determinar as regiões espectrais primárias a serem codificadas com uma primeira representação espectral e para determinar as regiões espectrais secundárias a serem codificadas com uma segunda resolução espectral sendo menor do que a primeira resolução espectral. Em particular, o analisador de banda total 604 determina quais linhas de frequência ou valores espectrais no espectro do conversor de tempo- frequência devem ser codificados por linha espectral e quais outras partes devem ser codificadas em uma forma paramétrica e esses valores espectrais posteriores são, então, reconstruídos no lado do decodificador com o procedimento de preenchimento de folga. A operação de codificação real é realizada por um codificador espectral 606 para codificação das regiões espectrais primárias ou partes espectrais com a primeira resolução e para codificar parametricamente as regiões espectrais secundárias ou as partes com a segunda resolução espectral.
[0072] O codificador de áudio da figura 6 compreende, adicionalmente, um segundo processador de codificação 610 para codificação da parte do sinal de áudio em um domínio de tempo. Adicionalmente, o codificador de áudio compreende um controlador 620 configurado para análise do sinal de áudio em uma entrada do sinal de áudio 601 e para determinação de qual parte do sinal de áudio é a primeira parte codificada do sinal de áudio no domínio de frequência e qual parte do sinal de áudio é a segunda parte codificada do sinal de áudio no domínio de tempo. Além disso, um modulador de sinal codificado 630 que pode ser, por exemplo, implementado como um multiplexador do fluxo de bits é fornecido sendo configurado para modulação de um sinal de áudio codificado compreendendo uma primeira parte codificada do sinal para a primeira parte do sinal de áudio e uma segunda parte do sinal codificado para a segunda parte do sinal de áudio. De forma importante, o sinal codificado tem apenas uma representação de domínio de frequência ou uma representação de domínio de tempo de uma e da mesma parte do sinal de áudio.
[0073] Assim, o controlador 620 garante que, para uma única parte do sinal de áudio, apenas uma representação de domínio de tempo ou uma representação de domínio de frequência está no sinal codificado. Isso pode ser realizado pelo controlador 620 em várias formas. Uma forma seria que, para uma e para a mesma parte do sinal de áudio, ambas as representações chegam no bloco 630 e o controlador 620 controla o modulador de sinal codificado 630 para introduzir apenas uma de ambas as representações ao sinal codificado. De modo alternativo, entretanto, o controlador 620 pode controlar uma entrada ao primeiro processador de codificação e uma entrada ao segundo processador de codificação de modo que, com base na análise da parte do sinal correspondente, apenas um de ambos os blocos 600 ou 610 é ativado para, de fato, realizar a operação de codificação completa e o outro bloco é desativado.
[0074] Essa desativação pode ser uma desativação ou, conforme ilustrado com relação à, por exemplo, figura 7a, é apenas um tipo de modo de “inicialização” onde o outro processador de codificação é apenas ativo para receber e processar os dados de inicialização a fim de inicializar as memórias internas, mas qualquer operação de codificação específica não é realizada de nenhuma forma. Essa ativação pode ser feita por um determinado comutador na entrada que não é ilustrado na figura 6 ou, preferivelmente, por linhas de controle 621 e 622. Assim, nessa aplicação, o segundo processador de codificação 610 não emite nada quando o controlador 620 determinou que a parte do sinal de áudio atual deveria ser codificada pelo primeiro processador de codificação, mas o segundo processador de codificação é, entretanto, fornecido com os dados de inicialização para serem ativos para uma comutação imediata no futuro. Por outro lado, o primeiro processador de codificação é configurado para não precisar de quaisquer dados do passado para atualizar quaisquer memórias internas e, portanto, quando a parte do sinal de áudio atual deve ser codificada pelo segundo processador de codificação 610, então o controlador 620 pode controla o primeiro processador de codificação final 600 através da linha de controle 621 a ser inativada completamente. Isso significa que o primeiro processador de codificação 600 não precisa estar em um estado de inicialização ou estado de espera, mas pode estar em um estado de desativação completa. Isso é preferível particularmente, para os dispositivos móveis onde o consumo de potência e, portanto, a vida da bateria é um problema.
[0075] Na implementação específica adicional do segundo processador de codificação que opera no domínio de tempo, o segundo processador de codificação compreende um redutor da taxa de amostragem 900 ou conversor da taxa de amostragem para conversão da parte do sinal de áudio em uma representação com uma taxa de amostragem inferior, em que a taxa de amostragem inferior é menor do que uma taxa de amostragem na entrada ao primeiro processador de codificação. Isso é ilustrado na figura 9. Em particular, quando o sinal de entrada de áudio compreende uma banda baixa e uma banda alta, prefere-se que a representação da taxa de amostragem inferior na saída do bloco 900 tem apenas a banda baixa da parte do sinal de entrada de áudio e essa banda baixa é, então, codificada por um codificador de banda baixa do domínio de tempo 910 que é configurado para codificação de domínio de tempo da representação da taxa de amostragem inferior fornecida pelo bloco 900. Além disso, a codificador de extensão da largura de banda do domínio de tempo 920 é fornecido para parametricamente codificar a banda alta. Para este fim, o codificador de extensão da largura de banda do domínio de tempo 920 recebe pelo menos a banda alta do sinal de entrada de áudio ou a banda baixa e a banda alta do sinal de entrada de áudio.
[0076] Em uma aplicação adicional da presente invenção, o codificador de áudio compreende, adicionalmente, embora não ilustrado na figura 6, mas ilustrado na figura 10, um pré-processador 1000 configurado para pré-processamento da primeira parte do sinal de áudio e da segunda parte do sinal de áudio. Em uma aplicação, este pré-processador compreende um analisador de previsão para determinação de coeficientes de previsão. Este analisador de previsão pode ser implementado como um analisador de LPC (linear prediction coding | codificação de previsão linear) para determinação dos coeficientes de LPC. Entretanto, outros analisadores também podem ser implementados. Além disso, o pré-processador, também ilustrado na figura 14a, compreende um quantizador do coeficiente de previsão 1010, caracterizado pelo dispositivo ilustrado na figura 14a receber dados do coeficiente de previsão a partir do analisador de previsão, também ilustrado na figura 14a, em 1002.
[0077] Além disso, o pré-processador compreende, adicionalmente, um codificador por entropia para geração de uma versão codificada dos coeficientes de previsão quantizados. É importante observar que o modulador de sinal codificado 630 ou a implementação específica, ou seja, o multiplexador do fluxo de bits 613 garante que a versão codificada dos coeficientes de previsão quantizados está incluída no sinal de áudio codificado 632. Preferivelmente, os coeficientes de LPC não são diretamente quantizados, mas são convertidos em uma ISF, por exemplo, ou qualquer ou representação mais bem adequada para a quantização. Essa conversão é preferivelmente realizada pela determinação do bloco 1002 dos coeficientes de LPC ou é realizada dentro do bloco 1010 para quantização dos coeficientes de LPC.
[0078] Além disso, o pré-processador pode compreender um reamostrador 1004 para reamostragem de um sinal de áudio de entrada em uma taxa de amostragem de entrada em uma taxa de amostragem inferior para o codificador de domínio de tempo. Quando o codificador de domínio de tempo é um codificador ACELP tendo uma certa taxa de amostragem de ACELP, então a redução da taxa de amostragem é realizada para preferivelmente 12,8 kHz ou 16 kHz. A taxa de amostragem de entrada pode ser qualquer uma de um número específico de taxas de amostragem como 32 kHz ou, ainda, taxa de amostragem mais alta. Por outro lado, a taxa de amostragem do codificador de domínio de tempo será predeterminada por certas restrições e o reamostrador 1004 realiza essa reamostragem e emite a representação da taxa de amostragem inferior do sinal de entrada. Assim, o reamostrador 1004 pode realizar uma funcionalidade similar e pode ainda ser um ou o mesmo elemento que o redutor da taxa de amostragem 900 ilustrado no contexto da figura 9.
[0079] Além disso, é preferível aplicar uma pré- ênfase no bloco de pré-ênfase 1005 na figura 14a. O processamento de pré-ênfase é bem conhecido na técnica de codificação do domínio de tempo e é descrito na literatura com referência ao processamento AMR-WB+ e a pré-ênfase é particularmente configurada para a compensação de uma inclinação espectral e, portanto, possibilita um cálculo melhor dos parâmetros de LPC em uma dada ordem de LPC.
[0080] Além disso, o pré-processador pode compreender, adicionalmente, uma extração do parâmetro TCX-LTP para controlar um pós-filtro de LTP em 1420 na figura 14b. Esse bloco é ilustrado em 1006 na figura 14a. Além disso, o pré-processador pode compreender, adicionalmente, outras funcionalidades ilustradas em 1007 e essas outras funcionalidades podem compreender uma funcionalidade de pesquisa de tom, uma funcionalidade de detecção de atividade por voz (VAD) ou quaisquer outras funcionalidades conhecidas na técnica de domínio de tempo ou codificação de fala.
[0081] Conforme ilustrado, o resultado do bloco 1006 é inserido ao sinal codificado, ou seja, está na aplicação da figura 14a, inserido no multiplexador do fluxo de bits 630. Além disso, se necessário, os dados do bloco 1007 também podem ser introduzidos no multiplexador do fluxo de bits ou podem, alternativamente, ser utilizados para fins de codificação de domínio de tempo no codificador de domínio de tempo.
[0082] Assim, para resumir, é comum a ambas as passagens uma operação de pré-processamento 1000 na qual as operações de processamento de sinal geralmente utilizadas são realizadas. Essas compreendem uma reamostragem para uma taxa de amostragem de ACELP (12,8 ou 16 kHz) para uma passagem paralela e essa reamostragem é sempre realizada. Além disso, uma extração do parâmetro TCX-LTP ilustrada no bloco 1006 é realizada e, adicionalmente, uma pré-ênfase e uma determinação de coeficientes de LPC são realizadas. Conforme descrito, a pré-ênfase compensa a inclinação espectral e, portanto, torna o cálculo dos parâmetros de LPC em uma dada ordem de LPC mais eficiente.
[0083] Subsequentemente, referência é feita à figura 8, a fim de ilustrar uma implementação preferida do controlador 620. O controlador recebe, em uma entrada, a parte do sinal de áudio em consideração. Preferivelmente, conforme ilustrado na figura 14a, o controlador recebe qualquer sinal disponível no pré-processador 1000 que pode ser o sinal de entrada original na taxa de amostragem de entrada ou uma versão reamostrada na taxa de amostragem do codificador de domínio de tempo inferior ou um sinal obtido subsequente ao pré-processamento da pré- ênfase no bloco 1005.
[0084] Com base nessa parte do sinal de áudio, o controlador 620 direciona um simulador do codificador do domínio de frequência 621 e um simulador do codificador de domínio de tempo 622 a fim de calcular para cada codificador a possibilidade de uma relação estimada do sinal para o ruído. Subsequentemente, o seletor 623 seleciona o codificador que forneceu a melhor relação sinal ruído, naturalmente em consideração de uma taxa de bit predefinida. O seletor então identifica o codificador correspondente através da saída de controle. Quando se determina que a parte do sinal de áudio em consideração deve ser codificada utilizando o codificador de domínio de frequência, o codificador de domínio de tempo é definido em um estado de inicialização ou em outras aplicações que não requerem uma comutação muito imediata em um estado completamente desativado. Entretanto, quando é determinado que a parte do sinal de áudio em consideração deve ser codificada pelo codificador de domínio de tempo, o codificador de domínio de frequência é então desativado.
[0085] Subsequentemente, uma implementação preferida do controlador ilustrado na figura 8 é ilustrada. A decisão se a passagem de ACELP ou TCX deve ser escolhida é realizada na decisão de comutação por meio da simulação do codificador de ACELP e TCX e comutar para a melhor ramificação em realização. Para isso, a SNR da ramificação de ACELP e TCX é estimada com base em uma simulação do codificador/decodificador de ACELP e TCX. A simulação do codificador/decodificador de TCX é realizada sem a análise de TNS/TTS, codificador de IGF, codificador de circuito por quantização/aritmético, ou sem qualquer decodificador de TCX. Em vez disso, a SNR de TCX é estimada utilizando uma estimativa da distorção do quantizador no domínio de MDCT modulado. A simulação do codificador/decodificador de ACELP é realizada utilizando apenas uma simulação do livro de códigos adaptativo e livro de códigos inovador. A SNR de ACELP é simplesmente estimada pela computação da distorção introduzida por um filtro de LTP no domínio de sinal ponderado (livro de códigos adaptativo) e pela escala da distorção por um fator constante (livro de códigos inovador). Assim, a complexidade é muito reduzida em comparação a uma abordagem onde a codificação de TCX e ACELP é executada paralelamente. A ramificação com a SNR mais alta é escolhida para a execução subsequente da codificação completa.
[0086] No caso em que a ramificação de TCX é escolhida, um decodificador de TCX é executado em cada estrutura que emite um sinal na taxa de amostragem de ACELP. Isso é utilizado para atualizar as memórias utilizadas para a passagem de codificação de ACELP (LPC residual, Mem w0, de- ênfase de memória), para permitir a comutação imediata de TCX para ACELP. A atualização de memória é realizada em cada passagem de TCX.
[0087] De modo alternativo, uma análise completa por processo de síntese pode ser realizada, ou seja, ambos os simuladores do codificador 621, 622 implementam as operações de codificação real e os resultados são comparados pelo seletor 623. De modo alternativo, novamente, um cálculo de alimentação de avanço completo pode ser feito por meio da realização de uma análise do sinal. Por exemplo, quando se determina que o sinal é um sinal de fala por um classificador do sinal, o codificador de domínio de tempo é selecionado e quanto determina-se que o sinal é um sinal de música, então o codificador de domínio de frequência é selecionado. Outros procedimentos, a fim de distinguir entre ambos os codificadores com base em uma análise do sinal da parte do sinal de áudio em consideração, também podem ser aplicados.
[0088] Preferivelmente, o codificador de áudio compreende, adicionalmente, um processador cruzado 700 ilustrado na figura 7a. Quando o codificador de domínio de frequência 600 é ativo, o processador cruzado 700 fornece dados de inicialização ao codificador de domínio de tempo 610 de modo que o codificador de domínio de tempo esteja pronto para um comutador integrado em uma parte do sinal futuro. Em outras palavras, quando a parte do sinal de corrente é determinada para ser codificada utilizando o codificador de domínio de frequência, e quando se determina pelo controlador que a parte do sinal de áudio imediatamente seguinte deve ser codificada pelo codificador de domínio de tempo 610 então, sem o processador cruzado, tal comutador integrado imediato não seria possível. O processador cruzado, entretanto, fornece um sinal derivado do codificador de domínio de frequência 600 ao codificador de domínio de tempo 610 para fins de inicializar as memórias no codificador de domínio de tempo visto que o codificador de domínio de tempo 610 tem uma dependência de uma estrutura atual da entrada ou do sinal codificado de uma estrutura imediatamente precedente no tempo.
[0089] Assim, o codificador de domínio de tempo 610 é configurado para ser inicializado pelos dados de inicialização a fim de codificar uma parte do sinal de áudio seguindo uma parte codificada do sinal de áudio anterior pelo codificador de domínio de frequência 600 de forma eficiente.
[0090] Em particular, o processador cruzado compreende um conversor de tempo para conversão de uma representação de domínio de frequência em uma representação de domínio de tempo que pode ser encaminhada ao codificador de domínio de tempo diretamente ou após algum processamento adicional. Este conversor é ilustrado na figura 14a como um bloco de IMDCT (inverse modified discrete cosine transform | transformada discreta de cosseno modificada inversa). Este bloco 702, entretanto, tem um tamanho diferente de transformada em comparação com o bloco do conversor de tempo-frequência 602 indicado no bloco da figura 14a (bloco de transformada de cosseno discreto modificado). Conforme indicado no bloco 602, o conversor de tempo-frequência 602 opera na taxa de amostragem de entrada e a transformada discreta de cosseno modificada inversa 702 opera na taxa de amostragem de ACELP inferior.
[0091] A relação da taxa de amostragem do codificador de domínio de tempo ou a taxa de amostragem de ACELP e a taxa de amostragem do codificador de domínio de frequência ou a taxa de amostragem de entrada pode ser calculada e ser um fator de redução da taxa de amostragem DS ilustrado na figura 7b. O bloco 602 tem um grande tamanho de transformada e o bloco de IMDCT 702 tem um pequeno tamanho de transformada. Conforme ilustrado na figura 7b, o bloco de IMDCT 702, portanto, compreende um seletor 726 para seleção da parte espectral inferior de uma entrada ao bloco de IMDCT 702. A parte do espectro de banda completa é definida pelo fator de redução da taxa de amostragem DS. Por exemplo, quando a taxa de amostragem inferior é 16 kHz e a taxa de amostragem de entrada é 32 kHz, então o fator de redução da taxa de amostragem é 0,5 e, portanto, o seletor 726 seleciona a metade inferior do espectro de banda completa. Quando o espectro tem, por exemplo, 1024 linhas de MDCT, então o seletor seleciona as 512 linhas de MDCT inferiores.
[0092] Esta parte de baixa frequência do espectro de banda completa é inserida em uma transformada de tamanho pequeno e bloco desdobrável 720, conforme ilustrado na figura 7b. O tamanho da transformada é também selecionado de acordo com o fator de redução da taxa de amostragem e é 50% do tamanho da transformada no bloco 602. Um janelamento de síntese com uma janela com um pequeno número de coeficientes é então realizado. O número de coeficientes da janela de síntese é igual ao fator de redução da taxa de amostragem multiplicado pelo número de coeficientes da janela de análise utilizada pelo bloco 602. Finalmente, uma operação de adição por sobreposição é realizada com um pequeno número de operações por bloco e o número de operações por bloco é novamente o número de operações por bloco em uma MDCT de implementação de taxa total multiplicada pelo fator de redução da taxa de amostragem.
[0093] Assim, uma operação muito eficiente de redução da taxa de amostragem pode ser aplicada visto que a redução da taxa de amostragem está incluída na implementação de IMDCT. Neste contexto, é enfatizado que o bloco 702 pode ser implementado por uma IMDCT, mas também pode ser implementado por qualquer outra transformada ou implementação do banco de filtro que pode ser adequadamente dimensionado no núcleo da transformada real e outras operações relacionadas à transformada.
[0094] Em uma aplicação adicional ilustrada na figura 14a, o conversor de frequência de tempo compreende funcionalidades adicionais além do analisador. O analisador 604 da figura 6 pode compreender na aplicação da figura 14a um bloco de análise de modulação de ruído temporal/modulação de porção temporal 604a que opera conforme discutido no contexto da figura 2b, bloco 222, para o bloco de análise de TNS/TTS 604a e ilustrado com relação à figura 2b para a máscara tonal 226 que corresponde ao codificador IGF 604b na figura 14a.
[0095] Além disso, o codificador de domínio de frequência compreende, preferivelmente, um bloco de modulação de ruído 606a. O bloco de modulação de ruído 606a é controlado pelos coeficientes de LPC quantizados, conforme gerado pelo bloco 1010. Os coeficientes de LPC quantizados utilizados para modulação de ruído 606a realizam uma modulação espectral dos valores espectrais de alta resolução ou linhas espectrais diretamente codificadas (em vez de parametricamente codificadas) e o resultado do bloco 606a é similar ao espectro de um sinal subsequente a um estágio de filtragem de LPC que opera no domínio de tempo como um bloco de filtragem de análise de LPC 704 a ser descrito posteriormente. Além disso, o resultado do bloco de modulação de ruído 606a é então quantizado e codificado por entropia conforme indicado pelo bloco 606b. O resultado do bloco 606b corresponde à primeira parte codificada do sinal de áudio ou uma parte codificada do sinal de áudio de domínio de frequência (junto com a informação adicional).
[0096] O processador cruzado 700 compreende um decodificador espectral para cálculo de uma versão decodificada da primeira parte codificada do sinal. Na aplicação da figura 14a, o decodificador espectral 701 compreende um bloco de modulação de ruído inversa 703, um decodificador de enchimento de lacuna 704, um bloco de síntese de TNS/TTS 705 e o bloco de IMDCT 702 discutido previamente. Estes blocos desfazem as operações específicas realizadas pelos blocos 602 a 606b. Em particular, um bloco de modulação de ruído 703 desfaz a modulação de ruído realizada pelo bloco 606a com base nos coeficientes de LPC quantizados 1010. O decodificador de IGF 704 opera conforme discutido com relação à figura 2A, os blocos 202 e 206 e o bloco de síntese de TNS/TTS 705 opera conforme discutido no contexto do bloco 210 da figura 2A e o decodificador espectral compreende, adicionalmente, o bloco de IMDCT 702. Além disso, o processador cruzado 700 na figura 14a, de modo adicional ou alternativo, compreende um estágio de atraso 707 para inserir uma versão atrasada da versão decodificada obtida pelo decodificador espectral 701 em um estágio de de-ênfase 617 do segundo processador de codificação para fins de inicialização do estágio de de-ênfase 617.
[0097] Além disso, o processador cruzado 17 pode compreender, de modo adicional ou alternativo, um estágio de filtragem de análise de coeficiente de previsão ponderada 708 para filtrar a versão decodificada e para inserir uma versão decodificada filtrada para um determinador do livro de códigos 613 indicado como “MMSE” na figura 14a do segundo processador de codificação para inicializar este bloco. De modo adicional ou alternativo, o processador cruzado compreende o estágio de filtragem de análise de LPC para filtrar a versão decodificada da primeira parte codificada do sinal emitida pelo decodificador espectral 700 a um estágio adaptativo do livro de códigos 712 para inicialização do bloco 612. De modo adicional ou alternativo, o processador cruzado também compreende um estágio de pré-ênfase 709 para realização de um pré-processamento da pré-ênfase na versão decodificada emitida por um decodificador espectral 701 antes da filtragem de LPC. O estágio de pré-ênfase saída também pode ser inserido a um estágio de atraso adicional 710 para fins de inicialização de um bloco de filtragem da síntese de LPC 616 dentro do codificador de domínio de tempo 610 para fins de inicialização deste bloco de filtragem de análise de LPC 611.
[0098] O codificador de domínio de tempo processador 610 compreende, conforme ilustrado na figura 14a, uma pré- ênfase que opera na taxa de amostragem de ACELP inferior. Conforme ilustrado, esta pré-ênfase é a pré-ênfase realizada no estágio de pré-processamento 1000 e tem o número de referência 1005. Os dados de pré-ênfase são inseridos em um estágio de filtragem de análise de LPC 611 que opera no domínio de tempo e este filtro é controlado pelos coeficientes de LPC quantizados 1010 obtidos pelo estágio de pré-processamento 1000. Como conhecido a partir dos codificadores AMR-WB+ ou USAC ou outros codificadores CELP, o sinal residual gerado pelo bloco 611 é fornecido a um livro de códigos adaptativo 612 e, ainda, o livro de códigos adaptativo 612 é conectado a um estágio inovador do livro de códigos 614 e os dados do livro de códigos do livro de códigos adaptativo 612 e do livro de códigos inovador são inseridos no multiplexador de fluxo de bits conforme ilustrado.
[0099] Além disso, um estágio de ganho/codificação de ACELP 612 é fornecido em série ao estágio inovador do livro de códigos 614 e o resultado deste bloco é inserido em um determinador do livro de códigos 613 indicado como MMSE na figura 14a. Este bloco coopera com o bloco do livro de códigos inovador 614. Além disso, o codificador de domínio de tempo compreende, adicionalmente, uma parte do decodificador tendo um bloco de filtragem da síntese de LPC 616, um bloco de de- ênfase 617 e um estágio de pós-filtro de baixo adaptativo 618 para cálculo dos parâmetros para um pós-filtro de baixo adaptativo que é, entretanto, aplicado no lado do decodificador. Sem qualquer pós-filtragem de baixo adaptativo no lado do decodificador, blocos 616, 617, 618 não seriam necessários para o codificador de domínio de tempo 610.
[0100] Conforme ilustrado, vários blocos do decodificador de domínio de tempo dependem dos sinais prévios e estes blocos são o bloco do livro de códigos adaptativo, o determinador do livro de códigos 613, o bloco de filtragem da síntese de LPC 616 e o bloco de de-ênfase 617. Estes blocos são fornecidos com os dados do processador cruzado derivado dos dados do processador de codificação de domínio de frequência a fim de inicializar estes blocos para fins de estar pronto para uma comutação instantânea do codificador de domínio de frequência ao codificador de domínio de tempo. Como também pode ser visto a partir da figura 14a, qualquer dependência nos dados prévios não é necessária para o codificador de domínio de frequência. Portanto, o processador cruzado 700 não fornece quaisquer dados de inicialização da memória do codificador de domínio de tempo ao codificador de domínio de frequência. Entretanto, para outras implementações do codificador de domínio de frequência, onde as dependências do passado existem e onde os dados de inicialização da memória são necessários, o processador cruzado 700 é configurado para operar em ambas as direções.
[0101] Uma aplicação preferida de um codificador de áudio, portanto, compreende as seguintes partes:
[0102] O decodificado de áudio preferido é descrito a seguir: a parte do decodificador de forma de onda consiste em uma passagem do decodificador de TCX de banda completa com IGF ambos operando na taxa de amostragem de entrada do codec. Em paralelo, uma passagem alternativa do decodificador de ACELP na taxa de amostragem inferior existe que é reforçada, ainda, a jusante por um TD-BWE.
[0103] Para inicialização de ACELP ao comutar de TCX em ACELP, uma passagem cruzada (que consiste em um decodificador de TCX dividido frontend, mas adicionalmente fornecendo a saída na taxa de amostragem inferior e algum pós- processamento) existe que realiza a inicialização de ACELP inventivo. O compartilhamento da mesma taxa de amostragem e da ordem de filtro entre TCX e ACELP nas LPCs possibilita uma inicialização de ACELP mais fácil e mais eficiente.
[0104] Para visualização da comutação, dois comutadores são desenhados em 14b. Enquanto o segundo comutador a jusante escolhe entre a saída TCX/IGF ou ACELP/TD-BWE, o primeiro comutador pré-atualiza os buffers no estágio de QMF de reamostragem a jusante da passagem de ACELP pela saída da passagem cruzada ou simplesmente passa na saída de ACELP.
[0105] Subsequentemente, as implementações do decodificador de áudio, de acordo com os aspectos da presente invenção, são discutidas no contexto das figuras de 11a a 14c.
[0106] Um decodificador de áudio para decodificação de um sinal de áudio codificado 1101 compreende um primeiro processador de decodificação 1120 para decodificação de uma primeira parte codificada do sinal de áudio em um domínio de frequência. O primeiro processador de decodificação 1120 compreende um decodificador espectral 1122 para decodificação de regiões espectrais primárias com uma resolução espectral alta e para sintetização das regiões espectrais secundárias utilizando uma representação paramétrica das regiões espectrais secundárias e pelo menos uma primeira região espectral decodificada para obter uma representação espectral decodificada. A representação espectral decodificada é uma representação espectral decodificada de banda completa conforme discutido no contexto da figura 6 e conforme também discutido no contexto da figura 1a. De modo geral, o primeiro processador de decodificação, portanto, compreende uma implementação de banda completa com um procedimento de preenchimento de folga no domínio de frequência. O primeiro processador de decodificação 1120 ainda compreende um conversor de tempo-frequência 1124 para conversão da representação espectral decodificada em um domínio de tempo para obter uma primeira parte decodificada do sinal de áudio.
[0107] Além disso, o decodificador de áudio compreende um segundo processador de decodificação 1140 para decodificação da segunda parte codificada do sinal de áudio no domínio de tempo para obter uma segunda parte decodificada do sinal. Além disso, o decodificador de áudio compreende um combinador 1160 para combinação da primeira parte decodificada do sinal e da segunda parte decodificada do sinal para obter um sinal de áudio decodificado. As partes decodificadas do sinal são combinadas na sequência que é também ilustrada na figura 14b por uma implementação do comutador 1160 que representa uma aplicação do combinador 1160 da figura 11a.
[0108] Preferivelmente, o segundo processador de decodificação 1140 é um processador de extensão da largura de banda do domínio de tempo e compreende, conforme ilustrado na figura 12, um decodificador de banda baixa de domínio de tempo 1200 para decodificação de um sinal de domínio de tempo de banda baixa. Esta implementação, ainda, compreende um amplificador da taxa de amostragem 1210 para aumento da taxa de amostragem do sinal de domínio de tempo de banda baixa. Adicionalmente, um decodificador de extensão de largura de banda do domínio de tempo 1220 é fornecido para sintetização de uma banda alta do sinal de áudio de saída. Além disso, um misturador 1230 é fornecido para misturar uma banda alta sintetizada do sinal de saída de domínio de tempo e um sinal de domínio de tempo de banda baixa com taxa de amostragem amplificada para obter a saída do codificador de domínio de tempo. Assim, o bloco 1140 na figura 11a pode ser implementado pela funcionalidade da figura 12 em uma aplicação preferida.
[0109] A figura 13 ilustra uma aplicação preferida do decodificador de extensão de largura de banda do domínio de tempo 1220 da figura 12. Preferivelmente, um amplificador da taxa de amostragem do domínio de tempo 1221 é fornecido recebendo, como uma entrada, um sinal residual de LPC de um decodificador de banda baixa de domínio de tempo incluído dentro do bloco 1140 e ilustrado em 1200 na figura 12 e, ainda, ilustrado no contexto da figura 14b. O amplificador da taxa de amostragem do domínio de tempo 1221 gera uma versão com taxa de amostragem amplificada do sinal residual de LPC. Essa versão é então inserida em um bloco de distorção não linear 1222 que gera, com base em seu sinal de entrada, um sinal de saída tendo valores de frequência mais alta. Uma distorção não linear pode ser uma cópia, um reflexo, uma mudança de frequência ou um dispositivo não linear, tal como um diodo ou um transistor operado na região não linear. O sinal de saída do bloco 1222 é inserido em um bloco de filtragem da síntese de LPC 1223 que é controlado pelos dados de LPC utilizados para o decodificador de banda baixa bem como por dados de envelope específicos gerados pelo bloco de extensão da largura de banda do domínio de tempo 920 no lado do codificador da figura 14a, por exemplo. A saída do bloco de síntese de LPC é então inserida em um passa-banda ou filtro passa alta 1224 para finalmente obter a banda alta, que é então inserida ao misturador 1230, conforme ilustrado na figura 12.
[0110] Subsequentemente, uma implementação preferida do amplificador da taxa de amostragem 1210 da figura 12 é discutida no contexto da figura 14b. O amplificador da taxa de amostragem preferivelmente compreende um banco de filtro de análise que opera em uma primeira taxa de amostragem do decodificador de banda baixa de domínio de tempo. Uma implementação específica de tal banco de filtro de análise é um banco de filtro de análise de QMF 1471 ilustrado na figura 14b. Além disso, o amplificador da taxa de amostragem compreende um banco de filtro de síntese 1473 que opera em uma segunda taxa de amostragem de saída sendo mais alta do que a primeira taxa de amostragem de banda baixa do domínio de tempo. Assim, o banco de filtro de síntese de QMF 1473 que é uma implementação preferida do banco de filtro geral opera na taxa de amostragem de saída. Quando o fator de redução da taxa de amostragem DS, conforme discutido no contexto da figura 7b, for 5, então o banco de filtro de análise de QMF 1471 tem, por exemplo, apenas 32 canais do banco de filtro e o banco de filtro de síntese de QMF 1473 tem, por exemplo, 64 canais de QMF, mas a metade mais alta dos canais do banco de filtro, ou seja, os 32 canais do banco de filtro superiores são inseridos com zeros ou ruído, enquanto os 32 canais do banco de filtro inferiores são inseridos com os sinais correspondentes fornecidos pelo banco de filtro de análise de QMF 1471. Preferivelmente, entretanto, uma filtragem de passa-banda 1472 é realizada dentro do domínio de banco de filtro de QMF, a fim de certificar que a saída de síntese de QMF 1473 é uma versão com a taxa de amostragem amplificada da saída do decodificador de ACELP, mas sem quaisquer perturbações acima da frequência máxima do decodificador de ACELP.
[0111] Outras operações de processamento podem ser realizadas dentro do domínio de QMF além de, ou em vez da filtragem de passa-banda 1472. Se nenhum processamento for realizado de nenhuma forma, então a análise de QMF e a síntese de QMF constituem um amplificador da taxa de amostragem eficiente 1210.
[0112] Subsequentemente, a construção dos elementos individuais na figura 14b são discutidos em mais detalhes.
[0113] O decodificador do domínio de frequência de banda completa 1120 compreende um primeiro bloco de decodificação 1122a para decodificação dos coeficientes espectrais de alta resolução e para, adicionalmente, realizar o preenchimento do ruído na parte de banda baixa conforme conhecido, por exemplo, da tecnologia de USAC. Além disso, o decodificador de banda completa compreende um processador de IGF 1122b para preenchimento dos furos espectrais utilizando valores espectrais sintetizados que foram codificados apenas parametricamente e, portanto, codificados com uma baixa resolução no lado do codificador. Então, no bloco 1122c, uma modulação de ruído inversa é realizada e o resultado é inserido em um bloco de síntese de TNS/TTS 705 que fornece, como uma saída final, uma entrada em um conversor de tempo-frequência 1124, que é preferivelmente implementada como uma transformada discreta de cosseno modificada inversa que opera na saída, ou seja, alta taxa de amostragem.
[0114] Além disso, um pós-filtro harmônico ou LTP é utilizado sendo controlado por dados obtidos pelo bloco de extração do parâmetro TCX-LTP 1006 na figura 14b. O resultado é, então, a primeira parte decodificada do sinal de áudio na taxa de amostragem de saída e como pode ser visto da figura 14b, estes dados têm a alta taxa de amostragem e, portanto, qualquer intensificação de frequência adicional não é de nenhuma forma necessária devido ao fato que o processador de decodificação é um decodificador de banda completa de domínio de frequência preferivelmente que opera utilizando a tecnologia de preenchimento de lacuna inteligente discutida no contexto das figuras de 1a a 5C.
[0115] Vários elementos na figura 14b são bem similares aos blocos correspondentes no processador cruzado 700 da figura 14a, particularmente com relação ao decodificador de IGF 704 correspondente ao processamento de IGF 1122b e a operação de modulação de ruído inversa controlada pelos coeficientes de LPC quantizados 1145 corresponde à modulação de ruído inversa 703 da figura 14a e o bloco de síntese de TNS/TTS 705 na figura 14b corresponde à síntese do bloco TNS/TTS 705 na figura 14a. De forma importante, entretanto, o bloco de IMDCT 1124 na figura 14b opera na alta taxa de amostragem enquanto o bloco de IMDCT 702 na figura 14a opera em uma baixa taxa de amostragem. Assim, o bloco 1124 na figura 14b compreende a transformada de tamanho grande e o bloco desdobrável 710, a janela de síntese no bloco 712 e o estágio de adição por sobreposição 714 com o grande número de operações correspondente, grande número de coeficientes de janela e um grande tamanho da transformada em comparação com os recursos correspondentes 720, 722, 724, que são operados no bloco 702 e, conforme será descrito posteriormente, no bloco 1171 do processador cruzado 1170 na figura 14b também.
[0116] O processador de decodificação do domínio de tempo 1140 preferivelmente compreende o decodificador de banda baixa de domínio de tempo ou de ACELP 1200 compreendendo um estágio do decodificador de ACELP 1149 para obtenção dos ganhos decodificados e da informação do livro de códigos inovador. Adicionalmente, um estágio adaptativo do livro de códigos de ACELP 1141 é fornecido e um estágio de pós-processamento de ACELP subsequente 1142 e um filtro de síntese final como filtro de síntese de LPC 1143, que é novamente controlado pelos coeficientes de LPC quantizados 1145 obtidos do desmultiplexador de fluxo de bits 1100 correspondente ao analisador do sinal codificado 1100 na figura 11a. A saída do filtro de síntese de LPC 1143 é inserida em um estágio de de- ênfase 1144 para cancelamento ou anulação do processamento introduzido pelo estágio de pré-ênfase 1005 do pré-processador 1000 da figura 14a. O resultado é o sinal de saída de domínio de tempo em uma baixa taxa de amostragem e uma banda baixa e no caso em que a saída do domínio de frequência é necessária, o comutador 1480 está na posição indicada e a saída do estágio de de-ênfase 1144 é introduzida ao amplificador da taxa de amostragem 1210 e então misturada com as bandas altas do decodificador de extensão de largura de banda do domínio de tempo 1220.
[0117] De acordo com as aplicações da presente invenção, o decodificador de áudio compreende, adicionalmente, o processador cruzado 1170 ilustrado na figura 11b e na figura 14b para cálculo, a partir da representação espectral decodificada da primeira parte codificada do sinal de áudio, dos dados de inicialização do segundo processador de decodificação de modo que o segundo processador de decodificação seja inicializado para decodificar a segunda parte codificada do sinal de áudio seguindo no tempo a primeira parte do sinal de áudio no sinal de áudio codificado, ou seja, de modo que o processador de decodificação do domínio de tempo 1140 esteja pronto para uma comutação instantânea de uma parte do sinal de áudio para a próxima sem qualquer perda na qualidade ou eficiência.
[0118] Preferivelmente, o processador cruzado 1170 compreende um conversor de tempo-frequência adicional 1171 que opera em uma taxa de amostragem inferior do que o conversor de tempo-frequência do primeiro processador de decodificação a fim de obter uma primeira parte decodificada do sinal adicional no domínio de tempo a ser utilizada como o sinal de inicialização ou para o qual quaisquer dados de inicialização podem ser derivados. Preferivelmente, este conversor de tempo- frequência de IMDCT ou de baixa taxa de amostragem é implementado conforme ilustrado na figura 7b, o item 726 (seletor), o item 720 (transformada de pequeno tamanho e desdobrável), janelamento de síntese com um pequeno número de coeficientes de janela conforme indicado em 722 e um estágio de adição por sobreposição com um pequeno número de operações conforme indicado em 724. Assim, o bloco de IMDCT 1124 no decodificador de banda completa de domínio de frequência é implementado conforme indicado pelo bloco 710, 712, 714, e o bloco de IMDCT 1171 é implementado conforme indicado na figura 7b pelo bloco 726, 720, 722, 724. Novamente, o fator de redução da taxa de amostragem é a relação entre a taxa de amostragem do codificador de domínio de tempo ou a baixa taxa de amostragem e a taxa de amostragem mais alta de domínio de frequência ou taxa de amostragem de saída e este fator de redução da taxa de amostragem é menor que 1 e pode ser qualquer número maior do que 0 e menor do que 1.
[0119] Conforme ilustrado na figura 14b, o processador cruzado 1170 compreende, ainda, sozinho ou com outros elementos, um estágio de atraso 1172 para atrasar a primeira parte decodificada do sinal adicional e para inserir a primeira parte atrasada decodificada do sinal em um estágio de de-ênfase 1144 do segundo processador de decodificação para inicialização. Além disso, o processador cruzado compreende, de modo adicional ou alternativo, um filtro de pré-ênfase 1173 e um estágio de atraso 1175 para filtrar e atrasar a primeira parte decodificada do sinal adicional e para fornecimento da saída atrasada do bloco 1175 em um estágio de filtragem de síntese de LPC 1143 do decodificador de ACELP para fins de inicialização.
[0120] Além disso, o processador cruzado pode compreender, alternativamente ou além dos outros elementos mencionados, um filtro de análise de LPC 1174 para geração de um sinal residual de previsão da primeira parte decodificada do sinal adicional ou uma primeira parte decodificada pré- enfatizada do sinal adicional e para inserir os dados em um sintetizador de livro de códigos do segundo processador de decodificação e, preferivelmente, ao estágio adaptativo do livro de códigos 1141. Além disso, a saída do conversor de tempo-frequência 1171 com a baixa taxa de amostragem é também inserida ao estágio de análise de QMF 1471 do amplificador da taxa de amostragem 1210 para fins de inicialização, ou seja, quando a parte do sinal de áudio atualmente decodificada é entregue pelo decodificador de banda completa de domínio de frequência 1120.
[0121] O decodificador de áudio preferido é descrito a seguir: a parte do decodificador de forma de onda consiste em uma passagem do decodificador de TCX de banda completa com IGF que opera na taxa de amostragem de entrada do codec. Em paralelo, uma passagem alternativa do decodificador de ACELP na taxa de amostragem inferior existe sendo reforçada ainda a jusante por um TD-BWE.
[0122] Para a inicialização de ACELP ao comutar de TCX para ACELP, uma passagem cruzada (que consiste em um decodificador de TCX dividido frontend, mas adicionalmente fornece saída na taxa de amostragem inferior e algum pós- processamento) existe realizando a inicialização de ACELP inventiva. O compartilhamento da mesma taxa de amostragem e ordem do filtro entre TCX e ACELP nos LPCs possibilita uma inicialização de ACELP mais fácil e mais eficiente.
[0123] Para a visualização da comutação, dois comutadores são desenhados na figura 14b. Enquanto o segundo comutador a jusante escolhe entre saída de TCX/IGF ou ACELP/TD- BWE, o primeiro comutador pré-atualiza os buffers no de QMF de reamostragem a jusante da passagem de ACELP pela saída da passagem cruzada ou simplesmente passa na saída de ACELP.
[0124] Para resumir, os aspectos preferidos da invenção que podem ser utilizados sozinhos ou em combinação se referem a uma combinação de um codificador de ACELP e TD-BWE com uma tecnologia de TCX/IGF capaz de banda completa preferivelmente associada utilizando um sinal cruzado.
[0125] Um recurso específico adicional é uma passagem de sinal cruzado para a inicialização de ACELP permitir a comutação integrada.
[0126] Um aspecto adicional é que uma IMDCT curta é inserida com uma parte inferior de coeficientes de MDCT longos de taxa alta para implementar eficientemente uma conversão de taxa de amostragem na passagem cruzada.
[0127] Um recurso adicional é uma realização eficiente da passagem cruzada parcialmente dividida com um TCX/IGF de banda completa no decodificador.
[0128] Um recurso adicional é a passagem de sinal cruzado para a inicialização de QMF permitir a comutação integrada de TCX para ACELP.
[0129] Um recurso adicional é uma passagem de sinal cruzado à QMF possibilitando a compensação da lacuna de retardo entre a saída reamostrada de ACELP e uma saída de TCX/IGF do banco de filtro na comutação de ACELP para TCX.
[0130] Um aspecto adicional é que uma LPC é fornecida para ambos os codificadores de TCX e de ACELP na mesma taxa de amostragem e ordem de filtro, embora o codificador/decodificador de TCX/IGF seja capaz de banda completa.
[0131] Subsequentemente, a figura 14c é discutida como uma implementação preferida de um decodificador de domínio de tempo que opera como um decodificador independente ou em combinação com o decodificar de domínio de frequência capaz de banda completa.
[0132] De modo geral, o decodificador de domínio de tempo compreende um decodificador de ACELP, um reamostrador subsequentemente conectado ou amplificador da taxa de amostragem e uma funcionalidade da extensão da largura de banda do domínio de tempo. Particularmente, o decodificador de ACELP compreende um estágio de decodificação de ACELP para recuperar ganhos e o livro de códigos inovador 1149, um estágio adaptativo do livro de códigos por ACELP 1141, um pós- processador de ACELP 1142, um filtro de síntese de LPC 1143 controlado pelos coeficientes de LPC quantizados de um desmultiplexador de fluxo de bits ou analisador do sinal codificado e o estágio de de-ênfase subsequentemente conectado 1144. Preferivelmente, o sinal residual de domínio de tempo, estando em uma taxa de amostragem de ACELP, é inserido em um decodificador de extensão de largura de banda do domínio de tempo 1220, que fornece uma banda alta nas saídas.
[0133] A fim de amplificar a taxa de amostragem da saída de de-ênfase 1144, um amplificador da taxa de amostragem compreendendo o bloco de análise de QMF 1471 e o bloco de síntese de QMF 1473 são fornecidos. Dentro do domínio do banco de filtro definido pelos blocos 1471 e 1473, um filtro passa- banda é preferivelmente aplicado. Particularmente, como foi discutido previamente, as mesmas funcionalidades também podem ser utilizadas que foram discutidas com relação aos mesmos números de referência. Além disso, o decodificador de extensão de largura de banda do domínio de tempo 1220 pode ser implementado conforme ilustrado na figura 13 e, de modo geral, compreende um aumento da taxa de amostragem do sinal residual de ACELP ou sinal do domínio de tempo residual na taxa de amostragem de ACELP finalmente para uma taxa de amostragem de saída do sinal estendido da largura de banda.
[0134] Subsequentemente, detalhes adicionais com relação ao codificador de domínio de frequência e decodificador sendo capazes de banda completa são discutidos com relação às figuras de 1A a 5C.
[0135] A figura 1a ilustra um aparelho para codificação de um sinal de áudio 99. O sinal de áudio 99 é inserido em um conversor de espectro de tempo 100 para conversão de um sinal de áudio tendo uma taxa de amostragem em uma representação espectral 101 emitida pelo conversor de espectro de tempo. O espectro 101 é inserido em um analisador espectral 102 para análise da representação espectral 101. O analisador espectral 101 é configurado para determinação de um primeiro conjunto de partes espectrais primárias 103 a ser codificado com uma primeira resolução espectral e um segundo conjunto diferente de partes espectrais secundárias 105 a ser codificado com uma segunda resolução espectral. A segunda resolução espectral é menor do que a primeira resolução espectral. O segundo conjunto de partes espectrais secundárias 105 é inserido em uma calculadora de parâmetro ou codificador paramétrico 104 para cálculo da informação do envelope espectral tendo a segunda resolução espectral. Além disso, um codificador de áudio de domínio espectral 106 é fornecido para geração de uma primeira representação codificada 107 do primeiro conjunto de partes espectrais primárias tendo a primeira resolução espectral. Além disso, a calculadora de parâmetro/codificador paramétrico 104 é configurado para geração de uma segunda representação codificada 109 do segundo conjunto de partes espectrais secundárias. A primeira representação codificada 107 e a segunda representação codificada 109 são inseridas em um multiplexador do fluxo de bits ou modulador do fluxo de bits 108 e o bloco 108 finalmente emite o sinal de áudio codificado para transmissão ou armazenamento em um dispositivo de armazenamento.
[0136] Tipicamente, uma primeira parte espectral como 306 da figura 3a será envolvida por duas partes espectrais secundárias como 307a, 307b. Este não é o caso em HE-AAC, onde a faixa de frequência do codificador central é limitada por banda.
[0137] A figura 1b ilustra um decodificador que combina com o codificador da figura 1a. A primeira representação codificada 107 é inserida em um decodificador de domínio espectral de áudio 112 para geração de uma primeira representação decodificada de um primeiro conjunto de partes espectrais primárias, a representação decodificada tendo uma primeira resolução espectral. Além disso, a segunda representação codificada 109 é inserida em um decodificador paramétrico 114 para geração de uma segunda representação decodificada de um segundo conjunto de partes espectrais secundárias tendo uma segunda resolução espectral sendo menor do que a primeira resolução espectral.
[0138] O decodificador compreende, ainda, um regenerador de frequência 116 para regeneração de uma segunda parte espectral reconstruída, tendo a primeira resolução espectral utilizando uma primeira parte espectral. O regenerador de frequência 116 realiza uma operação de enchimento de porção, ou seja, utiliza uma porção ou parte do primeiro conjunto de partes espectrais primárias e copia este primeiro conjunto de partes espectrais primárias na faixa de reconstrução ou na banda de reconstrução tendo a segunda parte espectral e tipicamente realiza a modulação do envelope espectral ou outra operação, conforme indicado pela segunda representação decodificada emitida pelo decodificador paramétrico 114, ou seja, utilizando a informação sobre o segundo conjunto de partes espectrais secundárias. O primeiro conjunto de partes espectrais primárias decodificadas e o segundo conjunto de partes espectrais reconstruídas, conforme indicado na saída do regenerador de frequência 116 na linha 117, são inseridos em um conversor de espectro-tempo 118 configurado para conversão da primeira representação decodificada e da segunda parte espectral reconstruída em uma representação de tempo 119, a representação de tempo tendo uma certa alta taxa de amostragem.
[0139] A figura 2b ilustra uma implementação do codificador da figura 1a. Um sinal de áudio de entrada 99 é inserido em um banco de filtro de análise 220 correspondente ao conversor de espectro de tempo 100 da figura 1a. Então, uma operação da modulação de ruído temporal é realizada no bloco TNS 222. Portanto, a entrada ao analisador espectral 102 da figura 1a correspondente a uma máscara tonal do bloco 226 da figura 2b pode ser valores espectrais completos, quando a operação de modulação de ruído temporal/ modulação de porção temporal não é aplicada ou pode ser valores residuais espectrais, quando a operação de TNS, conforme ilustrado na figura 2b, bloco 222 for aplicada. Para os sinais de dois canais ou sinal multicanais, uma codificação de canal por junção 228 pode adicionalmente ser realizada, de modo que o codificador de domínio espectral 106 da figura 1a possa compreender o bloco 228 da codificação de canal por junção. Além disso, um codificador por entropia 232 para realizar a compressão de dados sem perda é fornecido sendo também uma parte do codificador de domínio espectral 106 da figura 1a.
[0140] O analisador espectral/máscara tonal 226 separa a saída de TNS do bloco 222 na banda central e nos componentes tonais correspondentes ao primeiro conjunto de partes espectrais primárias 103 e nos componentes residuais correspondentes ao segundo conjunto de partes espectrais secundárias 105 da figura 1a. O bloco 224 indicado como codificação de extração do parâmetro IGF corresponde ao codificador paramétrico 104 da figura 1a e o multiplexador de fluxo de bits 230 corresponde ao multiplexador de fluxo de bits 108 da figura 1a.
[0141] Preferivelmente, o banco de filtro de análise 222 é implementado como uma MDCT (banco de filtro da transformada de cosseno discreta modificada) e a MDCT é utilizada para transformar o sinal 99 em um domínio de tempo- frequência com a transformada de cosseno discreta modificada que age como a ferramenta de análise de frequência.
[0142] O analisador espectral 226 preferivelmente aplica uma máscara de tonalidade. Esse estágio de estimativa de máscara de tonalidade é utilizado para separar os componentes tonais dos componentes do tipo ruído no sinal. Isso possibilita que o codificador central 228 codifique todos os componentes tonais com um módulo físico-acústico. O estágio de estimativa da máscara de tonalidade pode ser implementado em várias formas diferentes e é preferivelmente similar em sua funcionalidade ao estágio de estimativa da faixa sinusoidal utilizado na modelagem do seno e do ruído para codificação da fala/do áudio [8, 9] ou um codificador de áudio com base no modelo HILN descrito em [10]. Preferivelmente, uma implementação é utilizada sendo fácil de implementar sem a necessidade de manter as trajetórias de inicialização- finalização, mas qualquer outro detector de tonalidade ou ruído pode ser utilizado também.
[0143] O módulo de IGF calcula a similaridade que existe entre uma região de origem e uma região alvo. A região alvo será representada pelo espectro a partir da região de origem. A medição da similaridade entre as regiões alvo e fonte é realizada utilizando uma abordagem de relação cruzada. A região alvo é dividida em porções de frequência não sobrepostas. Para cada porção na região alvo, as porções de origem são criadas a partir de uma frequência inicial fixa. Essas porções de origem sobrepõem-se por um fator entre 0 e 1, onde 0 significa 0% de sobreposição e 1 significa 100% de sobreposição. Cada uma dessas porções de origem está correlacionada com a porção alvo em vários atrasos para encontrar a porção de origem que melhor corresponde à porção alvo. O melhor número de porção correspondente é armazenado em o atraso no qual ele melhor se correlaciona com o alvo é armazenado em e o sinal da correlação é armazenado em . No caso em que a correlação é altamente negativa, a porção de origem precisa ser multiplicada por -1 antes do processo de preenchimento de porção no decodificador. O módulo de IGF também cuida de não sobrescrever os componentes tonais no espectro visto que os componentes tonais são preservados utilizando a máscara de tonalidade. Um parâmetro de energia por banda é utilizado para armazenar a energia da região alvopermitindo-nos reconstruir o espectro precisamente.
[0144] Este método tem certas vantagens sobre o SBR clássico [1] em que a grade harmônica de um sinal multitonal é preservado pelo codificador central enquanto apenas as lacunas entre os sinusoides são preenchidas com o melhor “ruído modulado” correspondente da região de origem. Outra vantagem desse sistema em comparação com a ASR (Substituição Espectral Precisa | Accurate Spectral Replacement) [2-4] é a ausência de um estágio de síntese do sinal que cria partes importantes do sinal no decodificador. Em vez disso, essa tarefa é assumida pelo codificador central, permitindo a preservação de componentes importantes do espectro. Outra vantagem do sistema proposto é a escalabilidade contínua que os recursos oferecem. Apenas utilizando, para cada porção é chamada correspondência de granularidade bruta e pode ser utilizada para baixas taxas de bit enquanto utiliza-se a variável para cada porção nos permite combinar os espectros alvo e de origem.
[0145] Além disso, uma técnica de estabilização de escolha é proposta removendo as perturbações de domínio de frequência como vibração e ruído musical.
[0146] No caso de pares de canal estéreo, um processamento estéreo de junção adicional é aplicado. Isso é necessário, porque por uma certa faixa de destino a faixa o sinal pode ser uma fonte sonora altamente dispersa e correlacionada. No caso de as regiões de origem escolhidas para essa região particular não estarem bem correlacionadas, embora as energias sejam combinadas para as regiões de destino, a imagem espacial pode sofrer devido às regiões de origem não correlacionadas. O codificador analisa cada banda de energia da região de destino, tipicamente realizando uma correlação cruzada dos valores espectrais e ser um certo limite for excedido, define um indicador de junção para essa banda de energia. No decodificador, as bandas de energia do canal direita e esquerda são tratadas individualmente se esse indicador estéreo de junção não for definido. No caso de indicador estéreo de junção ser definido, ambas as energias e a reparação são realizadas no domínio estéreo conjunto. A informação estéreo de junção para as regiões de IGF é sinalizada similar à informação estéreo de junção para a codificação central, incluindo um indicador indicando em caso de previsão da direção da previsão ser de downmix para residual ou vice-versa.
[0147] As energias podem ser calculadas a partir das energias transmitidas no domínio L/R.
[0148] sendo o índice de frequência no domínio de transformada.
[0149] Outra solução é calcular e transmitir as energias diretamente no domínio estéreo conjunto para bandas onde o estéreo conjunto está ativo, assim nenhuma transformação de energia adicional é necessária no lado do decodificador.
[0150] As porções de origem são sempre criadas de acordo com a Matriz Mediana/Lateral:
[0151] Ajuste de energia:
[0152] Ligação estéreo -> Transformação de LR:
[0153] Se nenhum parâmetro de predição adicional for codificado:
[0154] Se nenhum parâmetro de previsão adicional for codificado e se a direção sinalizada for do meio ao lado:
[0155] Se a direção sinalizada for do lado ao meio:
[0156] Este processamento garante que a partir das porções utilizadas para regeneração de regiões de destino altamente correlacionadas e regiões de destino deslocadas, os canais esquerdo e direito resultantes ainda representam uma fonte sonora correlacionada e deslocada mesmo se as regiões de origem não estiverem correlacionadas, preservando a imagem estéreo para tais regiões.
[0157] Em outras palavras, no fluxo de bits,indicadores de conjunto estéreo são transmitidos indicando se L/R ou M/S como um exemplo para a codificação do conjunto estéreo geral deve ser utilizada. No decodificador, primeiro, o sinal central é decodificado, conforme indicado pelos indicadores de conjunto estéreo para as bandas centrais. Segundo, o sinal central é armazenado na representação de ambos L/R e M/S. Para o preenchimento da porção de IGF, a representação da porção fonte é escolhida para ajustar a representação da porção alvo conforme indicado pela informação estéreo de junção para as bandas de IGF.
[0158] A Modulação de Ruído Temporal (TNS) é uma técnica padrão e parte da AAC [11 - 13]. A TNS pode ser considerada como uma extensão do esquema básico de um codificador de perceptual, inserindo uma etapa de processamento opcional entre o banco de filtro e o estágio de quantização. A principal tarefa do módulo de TNS é esconder o ruído de quantização produzido na região de mascaramento temporal de sinais similares transientes e, assim, leva ao um esquema de codificação mais eficiente. Primeiro, a TNS calcula um conjunto de coeficientes de previsão utilizando “previsão de avanço” no domínio de transformada, por exemplo, MDCT. Estes coeficientes são então utilizados para nivelamento do envelope temporal do sinal. Como a quantização afeta o espectro filtrado por TNS, ainda o ruído de quantização é temporariamente nivelado. Por meio da aplicação da filtragem de TNS inversa no lado do decodificador, o ruído de quantização é modulado de acordo com o envelope temporal do filtro de TNS e, portanto, o ruído de quantização fica marcado pelo transiente.
[0159] IGF se baseia em uma representação de MDCT. Para a codificação eficiente, preferivelmente blocos longos de aproximadamente 20 ms devem ser utilizados. Se o sinal dentro de tal bloco longo conter transientes, pré- e pós-ecos audíveis ocorrem nas bandas espectrais de IGF devido ao preenchimento da porção. A figura 7c mostra um efeito típico de pré-eco antes do início transiente devido ao IGF. No lado esquerdo, o espectrograma do sinal original é mostrado e no lado direito o espectrograma do sinal estendido da largura de banda sem filtragem por TNS é mostrado.
[0160] Este efeito de pré-eco é reduzido, utilizando a TNS no contexto de IGF. Aqui, a TNS é utilizada como uma ferramenta de modulação de porção temporal (TTS), pois a regeneração espectral no decodificador é realizada no sinal residual de TNS. Os coeficientes de TTS necessários de previsão são calculados e aplicados utilizando o espectro completo no lado do codificador, como habitualmente. As frequências de início e parada de TNS/TTS não são afetadas pela frequência inicial de IGF da ferramenta de IGF. Em comparação com a TNS de legado, a frequência de parada de TTS é aumentada para a frequência de parada da ferramenta de IGF, que é mais alta do que . No lado do decodificador, os coeficientes de TNS/TTS são aplicados no espectro completo novamente, ou seja, o espectro central mais o espectro referido mais os componentes tonais do mapa de tonalidade (vide figura 7e). A aplicação de TTS é necessária para formar o envelope temporal do espectro referido para combinar com o envelope do sinal original novamente. Assim os pré-ecos mostrados são reduzidos. Além disso, ainda modula o ruído de quantização no sinal abaixo como habitualmente com TNS.
[0161] Nos decodificadores de legado, a reparação espectral em um sinal de áudio corrompe a correlação espectral nas bordas de reparação e, assim, prejudica o envelope temporal do sinal de áudio introduzindo a dispersão. Assim, outro benefício da realização do preenchimento da porção de IGF no sinal residual é que, após a aplicação do filtro de modulação, as bordas da porção são continuamente correlacionadas, resultando em uma reprodução temporal mais fiel do sinal.
[0162] Em um codificador inventiva, o espectro tendo passado pela filtragem de TNS/TTS, o processamento da máscara de tonalidade e a estimativa do parâmetro de IGF é destituída de qualquer sinal acima da frequência inicial de IGF exceto para os componentes tonais. Este espectro esparso é agora codificado pelo codificador central utilizando os princípios de codificação aritmética e de previsão. Esses componentes codificados junto com os bits de sinalização forma o fluxo de bits do áudio.
[0163] A figura 2a ilustra a implementação correspondente do decodificador. O fluxo de bits na figura 2a correspondente ao sinal de áudio codificado é inserido no desmultiplexador/decodificador que seria conectado, com relação à figura 1b, aos blocos 112 e 114. O desmultiplexador de fluxo de bits separa o sinal de entrada de áudio na primeira representação codificada 107 da figura 1b e na segunda representação codificada 109 da figura 1b. A primeira representação codificada tendo o primeiro conjunto de partes espectrais primárias é inserida no bloco de decodificação do canal conjunto 204 correspondente ao decodificador de domínio espectral 112 da figura 1b. A segunda representação codificada é inserida no decodificador paramétrico 114 não ilustrado na figura 2a e, então, inserida ao bloco de IGF 202 correspondente ao regenerador de frequência 116 da figura 1b. O primeiro conjunto de partes espectrais primárias necessário para a regeneração de frequência é inserido ao bloco de IGF 202 através da linha 203. Além disso, subsequente à decodificação do canal conjunto 204 a decodificação central específica é aplicada no bloco de máscara tonal 206 de modo que a saída da máscara tonal 206 corresponda à saída do decodificador de domínio espectral 112. Então, uma combinação pelo combinador 208 é realizada, ou seja, uma construção de estrutura onde a saída do combinador 208 agora tem o espectro de faixa completa, mas ainda no domínio filtrado por TNS/TTS. Então, no bloco 210, uma operação inversa de TNS/TTS é realizada utilizando a informação do filtro de TNS/TTS fornecida através da linha 109, ou seja, a informação lateral de TTS é preferivelmente incluída na primeira representação codificada gerada pelo codificador de domínio espectral 106 que pode, por exemplo, ser um codificador direto central de AAC ou USAC, ou pode ser também incluído na segunda representação codificada. Na saída do bloco 210, um espectro completo até a frequência máxima ser fornecida sendo a frequência de faixa completa definida pela taxa de amostragem do sinal de entrada original. Então, uma conversão de espectro/tempo é realizada no banco de filtro de síntese 212 para finalmente obter o sinal de áudio de saída.
[0164] A figura 3a ilustra uma representação esquemática do espectro. O espectro é subdividido em bandas do fator de escala SCB onde há sete bandas do fator de escala SCB1 a SCB7 no exemplo ilustrado da figura 3a. As bandas do fator de escala podem ser bandas do fator de escala AAC que são definidas no padrão AAC e têm uma largura de banda crescente em frequências superiores, conforme ilustrado na figura 3a esquematicamente. Prefere-se realizar o preenchimento de lacuna inteligente não primeiro momento do espectro, ou seja, em frequências baixas, mas iniciar a operação de IGF em uma frequência inicial de IGF ilustrado em 309. Portanto, a banda de frequência central estende-se da frequência mais baixa para a frequência inicial de IGF. Acima da frequência inicial de IGF, a análise do espectro é aplicada para separar os componentes espectrais de alta resolução 304, 305, 306, 307 (o primeiro conjunto de partes espectrais primárias) dos componentes de baixa resolução representados pelo segundo conjunto de partes espectrais secundárias. A figura 3a ilustra um espectro que é, de forma exemplar, inserido ao codificador de domínio espectral 106 ou ao codificador de canal conjunto 228, ou seja, o codificador central opera na faixa completa, mas codifica uma quantidade significativa de valores espectrais de zero, ou seja, esses valores espectrais de zero são quantizados a zero ou são definidos a zero antes da quantização ou subsequente à quantização. De qualquer forma, o codificador central opera em faixa completa, ou seja, como se o espectro fosse conforme ilustrado, ou seja, o decodificador central não deve ser necessariamente consciente de qualquer preenchimento de lacuna inteligente ou codificação do segundo conjunto de partes espectrais secundárias com uma resolução espectral inferior.
[0165] Preferivelmente, a resolução alta é definida por uma codificação em linha de linhas espectrais como linhas de MDCT, enquanto a segunda resolução ou a baixa resolução é definida, por exemplo, pelo cálculo de apenas um único valor espectral por banda do fato de escala, onde uma banda do fator de escala abrange várias linhas de frequência. Assim, a segunda baixa resolução é, com relação a sua resolução espectral, muito menor do que a primeira ou a resolução alta definida pela codificação em linha tipicamente aplicada pelo codificador central como um codificador central de AAC ou USAC.
[0166] Com referência ao fator de escala ou cálculo de energia, a situação é ilustrada na figura 3b. Devido ao fato que o codificador é um codificador central e devido ao fato de que pode, mas não necessariamente tem que haver, componentes do primeiro conjunto de partes espectrais em cada banda, o codificador central calcula um fator de escala para cada banda não apenas na faixa central abaixo da frequência inicial de IGF 309, mas também acima da frequência inicial de IGF até a frequência máximaque é pequena ou igual à metade da frequência de amostragem, ou seja, fs/2. Assim, as partes codificadas tonais 302, 304, 305, 306, 307 da figura 3a e, nessa aplicação junto com os fatores de escala SCB1 a SCB7 correspondem aos dados espectrais de alta resolução. Os dados espectrais de baixa resolução são calculados iniciando da frequência inicial de IGF e correspondem aos valores da informação de energia E1, E2, E3, E4, que são transmitidos juntos com os fatores de escala SF4 a SF7.
[0167] Particularmente, quando o codificador central está sob uma condição de baixa taxa de bit, uma operação de preenchimento de ruído adicional na banda central, ou seja, menor na frequência do que na frequência inicial de IGF, ou seja, em bandas do fator de escala SCB1 a SCB3 pode ser aplicada ainda. No preenchimento de ruído, existem várias linhas espectrais adjacentes que foram quantizadas a zero. No lado do decodificador, esses valores espectrais quantizados a zero são ressintetizados e os valores espectrais ressintetizados são ajustados em sua magnitude utilizando uma energia de preenchimento de ruído como NF2 ilustrado em 308 na figura 3b. A energia de preenchimento de ruído, que pode ser dada em termos absolutos ou em termos relativos com relação ao fator de escala como em USAC corresponde à energia do conjunto de valores espectrais quantizados a zero. Essas linhas espectrais de preenchimento de ruído também podem ser consideradas como um terceiro conjunto de partes espectrais terciárias que são referidas pela síntese de preenchimento de ruído direta sem qualquer operação de IGF dependendo da regeneração de frequência utilizando as porções de frequência de outras frequências para reconstrução das porções da frequência utilizando valores espectrais de uma faixa de origem e a informação de energia E1, E2, E3, E4.
[0168] Preferivelmente, as bandas, para as quais a informação de energia é calculada coincidem com as bandas do fator de escala. Em outras aplicações, um agrupamento do valor da informação de energia é aplicado de modo que, por exemplo, para as bandas do fator de escala 4 e 5, apenas um único valor de informação de energia é transmitido, mas ainda nesta aplicação, as bordas das bandas de reconstrução agrupadas coincidem com as bordas das bandas do fator de escala. Se diferentes operações de banda são aplicadas, então certos recálculos ou cálculos de sincronização podem ser aplicados, e isso pode fazer sentido dependendo de certa implementação.
[0169] Preferivelmente, o codificador de domínio espectral 106 da figura 1a é um codificador psicoacusticamente acionado, conforme ilustrado na figura 4a. Tipicamente, como, por exemplo, ilustrado no padrão MPEG2/4 AAC ou MPEG1/2, o padrão da Camada 3, o sinal de áudio a ser codificado após ter sido transformado em faixa espectral (401 na figura 4a) é encaminhado a uma calculadora do fator de escala 400. A calculadora do fator de escala é controlada por um modelo psicoacústico que recebe, adicionalmente, o sinal de áudio a ser quantizado ou que recebe, como na Camada 3 de MPEG1/2 ou padrão de AAC para MPEG, uma representação espectral complexa do sinal de áudio. O modelo psicoacústico calcula, para cada banda do fator de escala, um fator de escala que representa o limite psicoacústico. Adicionalmente, os fatores de escala são, então, por cooperação dos circuitos de interação interno e externo bem conhecidos ou por qualquer procedimento de codificação adequado ajustado de modo que certas condições da taxa de bit sejam atendidas. Então, os valores espectrais a serem quantizados por um lado e os fatores de escala calculados por outro lado são inseridos em um processador quantizador 404. Na operação direta do codificador de áudio, os valores espectrais a serem quantizados são ponderados pelos fatores de escala e, os valores espectrais ponderados são, então, inseridos em um quantizador fixado tipicamente tendo uma funcionalidade de compressão em faixas superiores de amplitude. Então, na saída do processador quantizador existe os índices de quantização que são, então, encaminhados em um codificador por entropia tipicamente tendo codificação específica e muito eficiente para um conjunto de índices de quantização por zero para valores de frequência adjacentes ou,como também chamado na técnica, uma “execução” de valores de zero.
[0170] No codificador de áudio da figura 1a, entretanto, o processador quantizador tipicamente recebe informação sobre as partes espectrais secundárias do analisador espectral. Assim, o processador quantizador 404 certifica-se que, na saída do processador quantizador 404, as partes espectrais secundárias, conforme identificado pelo analisador espectral 102 são zero ou têm uma representação reconhecida por um codificador ou um decodificador como uma representação de zero que pode ser muito eficientemente codificada, especificamente quando existe “execuções” de valores zero no espectro.
[0171] A figura 4b ilustra uma implementação do processador quantizador. Os valores espectrais de MDCT podem ser inseridos em uma definição a zero no bloco 410. Então, as partes espectrais secundárias já são definidas a zero antes de uma ponderação pelos fatores de escala no bloco 412 ser realizada. Em uma implementação adicional, o bloco 410 não é fornecido, mas a cooperação de definição a zero é realizada no bloco 418 subsequente ao bloco de ponderação 412. Ainda em outra implementação adicional, a operação de definição a zero também pode ser realizada em um bloco de definição a zero 422 subsequente a uma quantização no bloco do quantizador 420. Nessa implementação, os blocos 410 e 418 não estariam presentes. De modo geral, pelo menos um dos blocos 410, 418, 422 é fornecido dependendo da implementação específica.
[0172] Então, na saída do bloco 422, um espectro quantizado é obtido correspondente ao o que é ilustrado na figura 3a. Esse espectro quantizado é, então, inserido a um codificador por entropia como 232 na figura 2b que pode ser um codificador Huffman ou um codificador aritmético como, por exemplo, definido no padrão USAC.
[0173] Os blocos de definição a zero 410, 418, 422, que são fornecidos alternativamente entre si ou paralelamente são controlados pelo analisador espectral 424. O analisador espectral preferivelmente compreende qualquer implementação de um detector de tonalidade bem conhecido ou compreende qualquer tipo diferente do detector operativo para separação de um espectro em componentes a serem codificados com uma resolução alta e componentes a serem codificados com uma baixa resolução. Outros desses algoritmos implementados no analisador espectral podem se detector de uma atividade por voz, um detector de ruído, um detector de fala ou qualquer outro detector que decide, dependendo da informação espectral ou metadados associados nas exigências de resolução para diferentes partes espectrais.
[0174] A figura 5a ilustra uma implementação preferida do conversor de espectro de tempo 100 da figura 1a como, por exemplo, implementado em AAC ou USAC. O conversor de espectro de tempo 100 compreende um janelador 502 controlado por um detector transiente 504. Quando o detector transiente 504 detecta um transiente, então uma transição de janelas longas para janelas curtas é sinalizada ao janelador. O janelador 502 então calcula, para blocos de sobreposição, as estruturas em janela, onde cada estrutura em janela tem tipicamente dois valores N como 2048 valores. Então, uma transformação dentro de um transformador de bloco 506 é realizada, e este transformador de bloco típica e adicionalmente fornece uma decimação, de modo que uma decimação/transformada combinada é realizada para obter uma estrutura espectral com valores N como valores espectrais de MDCT. Assim, para uma operação de janela longa, a estrutura na entrada do bloco 506 compreende dois valores N como 2048 valores e uma estrutura espectral, então, tem 1024 valores. Então, entretanto, uma comutação é realizada em blocos curtos, quando oito blocos curtos são realizados, onde cada bloco curto tem 1/8 valores do domínio de tempo em janela em comparação com uma janela longa e cada bloco espectral tem 1/8 valores espectrais em comparação com um bloco longo. Assim, quando essa decimação é combinada com 50% da operação de sobreposição do janelador, o espectro é uma versão criticamente amostrada do sinal de domínio de tempo de áudio 99.
[0175] Subsequentemente, referência é feita à figura 5b que ilustra uma implementação específica do regenerador de frequência 116 e o conversor de espectro-tempo 118 da figura 1b, ou da operação combinada de blocos 208, 212 da figura 2a. Na figura 5b, uma banda específica de reconstrução é considerada como banda do fator de escala 6 da figura 3a. A primeira parte espectral nessa banda de reconstrução, ou seja, a primeira parte espectral 306 da figura 3a é inserida no bloco criador/regulador de estrutura 510. Além disso, uma segunda parte espectral reconstruída para a banda do fator de escala 6 é, também, inserida no criador/regulador de estrutura 510. Além disso, a informação de energia como E3 da figura 3b para uma banda do fator de escala 6 é, também, inserida ao bloco 510. A segunda parte espectral reconstruída na banda de reconstrução já foi gerada pelo preenchimento de porção de frequência utilizando uma faixa de origem e a banda de reconstrução então corresponde à faixa alvo. Agora, um ajuste de energia da estrutura é realizado para, então, finalmente obter a estrutura reconstruída completa tendo os valores N como, por exemplo, obtidos na saída do combinador 208 da figura 2a. Então, no bloco 512, uma transformada/interpolação inversa do bloco é realizada para obter 248 valores do domínio de tempo para, por exemplo, os 124 valores espectrais na entrada do bloco 512, Então, uma operação do janelamento de síntese é realizada no bloco 514 que é novamente controlada por uma indicação de janela longa/janela curta transmitida no sinal de áudio codificado. Então, no bloco 516, uma operação de sobreposição/adição com um período prévio é realizada. Preferivelmente, a MDCT aplica 50% de sobreposição de modo que, para cada novo período de 2 valores N, N, os valores de domínio de tempo são finalmente emitidos. Uma sobreposição de 50% é pesadamente preferida devido ao fato que fornece amostragem crítica e um cruzamento de uma estrutura para a próxima estrutura devido à operação de sobreposição/adição no bloco 516.
[0176] Conforme ilustrado em 301 na figura 3a, uma operação de preenchimento de ruído pode adicionalmente ser aplicada não apenas abaixo da frequência inicial de IGF, mas também acima da frequência inicial de IGF como para a banda de reconstrução completa que coincide com a banda do fator de escala 6 da figura 3a. Então, os valores espectrais do preenchimento do ruído também podem ser inseridos no criador/regulador de estrutura 510 e o ajuste dos valores espectrais do preenchimento de ruído também pode ser aplicado dentro desse bloco ou os valores espectrais do preenchimento de ruído já podem ser ajustados utilizando a energia de preenchimento de ruído antes de ser inserida no criador/regulador de estrutura 510.
[0177] Preferivelmente, uma operação de IGF, ou seja, uma operação de enchimento de porção de frequência utilizando valores espectrais de outras partes pode ser aplicada no espectro completo. Assim, uma operação de enchimento de porção espectral pode não ser apenas aplicada na banda alta acima de uma frequência inicial de IGF, mas pode ser aplicada também na banda baixa. Além disso, o preenchimento do ruído sem preenchimento de porção de frequência pode também ser aplicado não apenas abaixo da frequência inicial de IGF, mas também acima da frequência inicial de IGF. Entretanto, constatou-se que a codificação de áudio de alta qualidade e alta eficiência pode ser obtida quando a operação de preenchimento de ruído é limitada à faixa de frequência abaixo da frequência inicial de IGF e quando a operação de enchimento de porção de frequência é restrita à faixa de frequência acima da frequência inicial de IGF, conforme ilustrado na figura 3a.
[0178] Preferivelmente, as porções alvo (TT | target tiles) (tendo frequências maiores do que a frequência inicial de IGF) são ligados às bordas da banda do fator de escala do codificador de taxa completa. As porções de origem (ST | source tiles), das quais a informação é tirada, ou seja, para frequências menores do que a frequência inicial de IGF não são ligadas pelas bordas da banda do fator de escala. O tamanho da ST deveria corresponder ao tamanho da TT associada. Isto é ilustrado utilizando o seguinte exemplo. TT[0] tem um comprimento de 10 Posições de MDCT. Isso corresponde exatamente ao comprimento de dois SCBs subsequentes (como 4 + 6). Então, toda ST possível que é correlacionada com TT[0] tem também um comprimento de 10 posições. Uma segunda porção alvo TT[1], sendo adjacente à TT[0], tem um comprimento de 15 posições l (SCB tendo um comprimento de 7 + 8). Então, a ST para esse tem um comprimento de 15 posições em vez de 10 posições como para TT[0].
[0179] Caso ocorra o fato de não se poder localizar uma TT para ST com o comprimento da porção alvo (quando, por exemplo, o comprimento de TT for maior do que a faixa de origem disponível), então uma correlação não é calculada e a faixa de origem é copiada várias vezes nessa TT (a cópia é feita uma após a outra de modo que uma linha de frequência para a frequência mais baixa da segunda cópia segue imediatamente - na frequência - a linha de frequência para a frequência mais alta da primeira cópia), até a TT da porção alvo estar completamente preenchida.
[0180] A seguir, referência é feita à figura 5c que ilustra uma aplicação preferida adicional do regenerador de frequência 116 da figura 1b ou do bloco de IGF 202 da figura 2a. O bloco 522 é um gerador da porção de frequência que recebe, não apenas, um ID da banda alvo, mas adicionalmente que recebe um ID da banda de origem. De forma exemplar, determinou-se no lado do codificador que a banda do fator de escala 3 da figura 3a é muito bem adequada para a reconstrução da banda do fator de escala 7. Assim, o ID da banca de origem seria 2 e o ID da banda alvo seria 7. Com base nessa informação, o gerador da porção de frequência 522 aplica uma cópia ou operação harmônica de enchimento de porção ou qualquer outra operação de enchimento de porção para gerar a segunda parte bruta dos componentes espectrais 523. A segunda parte bruta dos componentes espectrais tem uma resolução de frequência idêntica à resolução de frequência incluída no primeiro conjunto de partes espectrais primárias.
[0181] Então, a primeira parte espectral da banda de reconstrução como 307 da figura 3a é inserida em um criador de estrutura 524 e a segunda parte bruta 523 é também inserida no criador de estrutura 524. Então, a estrutura reconstruída é ajustada pelo regulador 526 utilizando um fator de ganho para a banda de reconstrução calculada pela calculadora do fator de ganho 528. De forma importante, a primeira parte espectral na estrutura não é influenciada pelo regulador 526, mas apenas a segunda parte bruta para a estrutura de reconstrução é influenciada pelo regulador 526. Para esta finalidade, a calculadora do fator de ganho 528 analisa a banda de origem ou a segunda parte bruta 523 e adicionalmente analisa a primeira parte espectral na banda de reconstrução para finalmente encontrar o fator de ganho 527 correto de modo que a energia da estrutura ajustada emitida pelo regulador 526 tenha a energia E4 quando uma banda do fator de escala 7 é contemplada.
[0182] Nesse contexto, é muito importante avaliar a precisão da reconstrução de alta frequência da presente invenção em comparação com HE-AAC. Isso é explicado com relação à banda do fator de escala 7 na figura 3a. Assume-se que um codificador da técnica anterior, conforme ilustrado na figura 13a detectaria a parte espectral 307 a ser codificada com uma alta resolução como uma “harmônica ausente”. Então, a energia desse componente espectral seria transmitida junto com uma informação de envelope espectral para a banda de reconstrução como a banda do fator de escala 7 ao decodificador. Então, o decodificador recriaria a harmônica ausente. Entretanto, o valor espectral, no qual a harmônica ausente 307 seria reconstruída pelo decodificador da técnica anterior da figura 13b estaria no meio da banda 7 em uma frequência indicada pela frequência de reconstrução 390. Assim, a presente invenção evita um erro de frequência 391 que seria introduzido pelo decodificador da técnica anterior da figura 13d.
[0183] Em uma implementação, o analisador espectral também é implementado nas similaridades de cálculo entre as partes espectrais primárias e as partes espectrais secundárias e para determinar, com base nas similaridades calculadas, para uma segunda parte espectral em uma faixa de reconstrução uma primeira parte espectral que corresponde com a segunda parte espectral o máximo possível. Então, nessa implementação da faixa de origem/faixa de destino variável, o codificador paramétrico introduzirá adicionalmente na segunda representação codificada uma informação correspondente, indicando para cada faixa de destino uma faixa de origem correspondente. No lado do decodificador, essa informação seria, então, utilizada por um gerador de porção de frequência 522 da figura 5c que ilustra uma geração de uma segunda parte bruta 523 com base em um ID de banda de origem e um ID de banda alvo
[0184] Além disso, conforme ilustrado na figura 3a, o analisador espectral é configurado para analisar a representação espectral até uma frequência de análise máxima sendo apenas uma pequena quantidade abaixo da metade da frequência de amostragem e preferivelmente sendo pelo menos um quarto da frequência de amostragem ou tipicamente mais alta.
[0185] Conforme ilustrado, o codificador opera sem redução da taxa de amostragem e o decodificador opera sem aumento da taxa de amostragem. Em outras palavras, o codificador de áudio de domínio espectral é configurado para gerar uma representação espectral tendo uma frequência Nyquist definida pela taxa de amostragem do sinal de áudio originalmente de entrada.
[0186] Além disso, conforme ilustrado na figura 3a, o analisador espectral é configurado para analisar a representação espectral que inicia com uma frequência inicial de preenchimento de lacuna e que termina com uma frequência máxima representada por uma frequência máxima incluída na representação espectral, em que uma parte espectral estendendo-se de uma frequência mínima até a frequência inicial de preenchimento de lacuna pertencer ao primeiro conjunto de partes espectrais e em que uma parte espectral adicional como 304, 305, 306, 307 tendo valores de frequência acima da frequência de preenchimento de lacuna adicionalmente é incluída no primeiro conjunto de partes espectrais primárias.
[0187] Conforme descrito, o decodificador de domínio espectral de áudio 112 é configurado de modo que uma frequência máxima representada por um valor espectral na primeira representação decodificada seja igual a uma frequência máxima incluída na representação de tempo tendo a taxa de amostragem em que o valor espectral para a frequência máxima no primeiro conjunto de partes espectrais primárias é zero ou diferente de zero. De qualquer forma, para essa frequência máxima no primeiro conjunto de componentes espectrais um fator de escala para a banda do fator de escala existe, que é gerado e transmitido independentemente se todos valores espectrais nesta banda do fator de escala são definidos a zero ou não, conforme discutido no contexto das figuras 3a e 3b.
[0188] A invenção é, portanto, vantajosa uma vez que, com relação a outras técnicas paramétricas para aumentar a eficiência de compressão, por exemplo, substituição de ruído e preenchimento de ruído (essas técnicas são exclusivamente para representação eficiente do conteúdo do sinal local do tipo ruído), a invenção possibilita uma reprodução de frequência precisa de componentes tonais. Até o momento, no estado da técnica, a técnica direciona a representação paramétrica eficiente do conteúdo de sinal arbitrário por preenchimento de lacuna espectral sem a restrição de uma divisão prévia fixada em banda baixa (LF | low band) e banda alta (HF | high band).
[0189] As aplicações do sistema inventivo melhoram as abordagens do estado da técnica e, assim, fornecem eficiência de alta compressão, nenhuma ou apenas uma pequena perturbação perceptual e largura de banda de áudio total mesmo para baixas taxas de bit.
[0190] O sistema geral consiste em • codificação central de banda total; • preenchimento inteligente de lacuna (preenchimento de porção ou preenchimento de ruído); • partes tonais esparsas no núcleo selecionado pela máscara tonal; • codificação de par estéreo conjunto para banda total, incluindo o preenchimento de porção; • TNS na porção; • clareamento espectral na faixa do IGF.
[0191] Uma primeira etapa em direção a um sistema mais eficiente é remover a necessidade de transformar dados espectrais em um segundo domínio de transformada diferente daquele do codificador central. Como a maioria dos codecs de áudio, como AAC por exemplo, utilizar a MDCT como transformada básica, é útil realizar a BWE no domínio de MDCT também. Uma segunda exigência para o sistema de BWE seria a necessidade de preservar a grade tonal pela qual componentes tonais HF são preservados e a qualidade do áudio codificado é, então, superior aos sistemas existentes. Para cuidar de ambas as exigências mencionadas acima para um esquema de BWE, um novo sistema é proposto chamado Preenchimento de Lacuna Inteligente (IGF). A figura 2b mostra o diagrama em blocos do sistema proposto no lado do codificador e a figura 2a mostra o sistema no lado do decodificador
[0192] Subsequentemente, recursos opcionais adicionais do primeiro processador de codificação de domínio de frequência de banda completa e do processador de decodificação de domínio de frequência de banda completa que incorpora a operação de preenchimento de lacuna, que podem ser implementados juntos ou separadamente, são discutidos e definidos.
[0193] Particularmente, o decodificador de domínio espectral 112 correspondente ao bloco 1122a é configurado para emitir uma sequência de estruturas decodificadas de valores espectrais, uma estrutura decodificada sendo a primeira representação decodificada, em que a estrutura compreende valores espectrais para o primeiro conjunto de partes espectrais e indicações de zero para as partes espectrais secundárias. O aparelho para decodificação compreende, ainda, um combinador 208. Os valores espectrais são gerados por um regenerador de frequência para o segundo conjunto de partes espectrais secundárias, onde ambos, o combinador e o regenerador de frequência são incluídos dentro do bloco 1122b. Assim, pela combinação das partes espectrais secundárias e das partes espectrais primárias, uma estrutura espectral reconstruída compreendendo valores espectrais para o primeiro conjunto de partes espectrais primárias e o segundo conjunto de partes espectrais são obtidos e o conversor de espectro- tempo 118 correspondente ao bloco de IMDCT 1124 na figura 14b então converte a estrutura espectral reconstruída em representação de tempo.
[0194] Conforme descrito, o conversor de espectro- tempo 118 ou 1124 é configurado para realizar uma transformada discreta de cosseno modificada inversa 512, 514 e compreende, ainda, um estágio de adição por sobreposição 516 para sobreposição e adição subsequentes às estruturas de domínio de tempo.
[0195] Particularmente, o decodificador de domínio espectral de áudio 1122a é configurado para gerar a primeira representação decodificada de modo que a primeira representação decodificada tenha uma frequência Nyquist que define uma taxa de amostragem sendo igual a uma taxa de amostragem da representação de tempo gerada pelo conversor de espectro-tempo 1124.
[0196] Além disso, o decodificador 1112 ou 1122a é configurado para gerar a primeira representação decodificada de modo que uma primeira parte espectral 306 seja colocada com relação à frequência entre duas partes espectrais secundárias 307a, 307b.
[0197] Em uma aplicação adicional, uma frequência máxima representada por um valor espectral para a frequência máxima na primeira representação decodificada é igual a uma frequência máxima incluída na representação de tempo gerada pelo conversor de espectro-tempo, em que o valor espectral para a frequência máxima na primeira representação é zero ou diferente de zero.
[0198] Além disso, conforme ilustrado na figura 3, a primeira parte codificada do sinal de áudio compreende, ainda, uma representação codificada de um terceiro conjunto de partes espectrais terciárias a serem reconstruídas pelo preenchimento de ruído e o primeiro processador de decodificação 1120 inclui, adicionalmente, um preenchedor de ruído incluído no bloco 1122b para extração da informação de enchimento de ruído 308 de uma representação codificada do terceiro conjunto de partes espectrais terciárias e para aplicação de uma operação de preenchimento de ruído no terceiro conjunto de partes espectrais terciárias sem utilizar uma primeira parte espectral em uma faixa de frequência diferente.
[0199] Além disso, o decodificador de domínio espectral de áudio 112 é configurado para gerar a primeira representação decodificada tendo as partes espectrais primárias com os valores de frequência sendo maiores do que a frequência sendo igual a uma frequência no meio da faixa de frequência coberta pela representação de tempo emitida pelo conversor de espectro-tempo 118 ou 1124.
[0200] Além disso, o analisador espectral ou analisador de banda total 604 é configurado para analisar a representação gerada pelo conversor de tempo-frequência 602 para determinação de um primeiro conjunto de partes espectrais primárias a ser codificada com a primeira resolução espectral alta e o segundo conjunto de partes espectrais secundárias diferente a ser codificado com uma segunda resolução espectral que é menor do que a primeira resolução espectral e, por meios do analisador espectral, uma primeira parte espectral 306 é determinada, com relação à frequência, entre as duas partes espectrais secundárias na figura 3 em 307a e 307b.
[0201] Particularmente, o analisador espectral é configurado para análise da representação espectral até uma frequência de análise máxima sendo pelo menos um quarto de uma frequência de amostragem do sinal de áudio.
[0202] Particularmente, o codificador de domínio espectral de áudio é configurado para processar uma sequência de estruturas de valores espectrais para uma quantização e codificação por entropia, em que, em uma estrutura, os valores espectrais do segundo conjunto de partes secundárias são definidos a zero, ou em que, na estrutura, os valores espectrais do primeiro conjunto de partes espectrais primárias e do segundo conjunto de partes espectrais secundárias estão presentes e em que, durante o processamento subsequente, os valores espectrais no segundo conjunto de partes espectrais são definidos a zero, conforme ilustrado de forma exemplar e, 410, 418, 422.
[0203] O codificador de domínio espectral de áudio é configurado para gerar uma representação espectral, tendo uma frequência Nyquist definida pela taxa de amostragem do sinal de áudio de entrada ou a primeira parte do sinal de áudio processado pelo primeiro processador de codificação que opera no domínio de frequência.
[0204] O codificador de domínio espectral de áudio 606 é, ainda, configurado para fornecer a primeira representação codificada de modo que, para uma estrutura de um sinal de áudio amostrado, a representação codificada compreenda o primeiro conjunto de partes espectrais primárias e o segundo conjunto de partes espectrais secundárias, em que os valores espectrais no segundo conjunto de partes espectrais são codificados como zero ou valores de ruído.
[0205] O analisador de banda completa 604 ou 102 é configurado para analisar a representação espectral que se inicia com a frequência inicial de preenchimento de lacuna 209 e que termina com uma frequência máxima fmax representada por uma frequência máxima incluída na representação espectral, e uma parte espectral estendendo-se de uma frequência mínima até a frequência inicial de preenchimento de lacuna 309 pertence ao primeiro conjunto de partes espectrais primárias.
[0206] Particularmente, o analisador é configurado para aplicar um processamento de máscara tonal de, pelo menos, uma parte da representação espectral, de modo que os componentes tonais e os componentes não tonais sejam separados entre si, caracterizado pelo primeiro conjunto de partes espectrais primárias compreender os componentes tonais e em que o segundo conjunto de partes espectrais secundárias compreende os componentes não tonais.
[0207] Embora a presente invenção tenha sido descrita no contexto de diagramas em blocos, em que os blocos representam componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado por computador. Neste último caso, os blocos representam etapas do método correspondentes onde estas etapas representam as funcionalidades executadas pelos blocos de hardware lógico ou físico correspondentes.
[0208] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou característica de uma etapa do método. De forma análoga, aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, tal como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais das etapas mais importantes do método podem ser executadas pelo referido aparelho.
[0209] O sinal codificado ou transmitido inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem frio ou um meio de transmissão cabeado, tal como a internet.
[0210] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou a memória flash, tendo sinais de controle eletronicamente legíveis armazenados nele, que cooperam (ou podem cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.
[0211] Algumas aplicações de acordo com a invenção compreendem um transportador de dados, tendo sinais de controle eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
[0212] Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador legível por máquina.
[0213] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em um transportador legível por máquina.
[0214] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador for executado em um computador.
[0215] Outra aplicação do método inventivos é, portanto, um transportador de dados (ou um meio de armazenamento não transitório, tal como um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. O transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.
[0216] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0217] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.
[0218] Outra aplicação compreende um computador, tendo instalado nele o programa de computador para realizar um dos métodos descrito aqui.
[0219] Outra aplicação, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos aqui a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.
[0220] Em algumas aplicações, um dispositivo de lógica programável (por exemplo, um arranjo de portas programáveis de campo) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas programáveis de campo pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware. [0221] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende- se que modificações e variações das disposições e os detalhes descritos serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento.

Claims (13)

1. Um codificador de áudio para codificação de um sinal de áudio, compreendendo: um primeiro processador de codificação (600) para codificação de uma primeira parte do sinal de áudio em um domínio de frequência, em que o primeiro processador de codificação (600) compreende: um conversor de tempo-frequência (602) para conversão da primeira parte do sinal de áudio em uma representação de domínio de frequência, tendo linhas espectrais até uma frequência máxima da primeira parte do sinal de áudio; um analisador (604) para análise da representação do domínio de frequência até a frequência máxima para determinar as partes espectrais primárias a serem codificadas com uma primeira resolução espectral e partes espectrais secundárias a serem codificadas com uma segunda resolução espectral, a segunda resolução espectral sendo mais baixa do que a primeira resolução espectral, em que o analisador (604) é configurado para determinar uma primeira parte espectral (306) a partir das partes espectrais primárias, a primeira parte espectral sendo colocada, com relação à frequência, entre as duas partes espectrais secundárias (307a, 307b) a partir das partes espectrais secundárias; um codificador espectral (606) para codificação das partes espectrais primárias com a primeira resolução espectral e para codificação das partes espectrais secundárias com a segunda resolução espectral, em que o codificador espectral compreende um codificador paramétrico para cálculo da informação de envelope espectral tendo a segunda resolução espectral a partir das partes espectrais secundárias; um segundo processador de codificação (610) para codificação de uma segunda parte diferente do sinal de áudio no domínio de tempo, caracterizado por o segundo processador de codificação (610) compreender: um conversor da taxa de amostragem (900) para conversão da segunda parte do sinal de áudio em uma representação da taxa de amostragem inferior, a taxa de amostragem inferior sendo menor do que uma taxa de amostragem do sinal de áudio, em que a representação da taxa de amostragem inferior não inclui a banda alta do sinal de entrada; um codificador de banda baixa do domínio de tempo (910) para o domínio de tempo que codifica a representação da taxa de amostragem inferior; e um codificador de extensão da largura de banda do domínio de tempo (920) para parametricamente codificar a banda alta; um controlador (620) configurado para análise do sinal de áudio e para determinação de qual parte do sinal de áudio é a primeira parte do sinal de áudio codificada no domínio de frequência e qual parte do sinal de áudio é a segunda parte do sinal de áudio codificada no domínio de tempo; um processador cruzado (700), em que o processador cruzado (700) compreende: um modulador de ruído (703) para modulação dos valores espectrais quantizados das partes espectrais primárias, utilizando coeficientes de LPC (1010) derivados da primeira parte do sinal de áudio; um decodificador espectral (704, 705) para decodificação das partes espectrais espectralmente moduladas da parte espectral primária com uma resolução espectral alta e para sincronização das partes espectrais secundárias utilizando uma representação paramétrica das partes espectrais secundárias e, pelo menos, uma primeira parte espectral decodificada para obter uma representação espectral decodificada; um conversor de tempo-frequência (702) para conversão da representação espectral em um domínio de tempo para obter uma primeira parte do sinal de áudio decodificado, em que uma taxa de amostragem associada à primeira parte do sinal de áudio decodificado é diferente de uma taxa de amostragem do sinal de áudio, e uma taxa de amostragem associada com um sinal de saída do conversor de tempo- frequência (702) é diferente de uma taxa de amostragem do sinal de áudio inserido no conversor de tempo-frequência (602), e um modulador de sinal codificado (630) para modulação de um sinal de áudio codificado, compreendendo uma primeira parte do sinal codificado para a primeira parte do sinal de áudio e uma segunda parte do sinal codificado para a segunda parte do sinal de áudio.
2. O codificador de áudio de acordo com a reivindicação 1, caracterizado por compreender, ainda: um pré-processador (1000) configurado para pré-processamento da primeira parte do sinal de áudio e da segunda parte do sinal de áudio, em que o pré-processador compreende: um analisador de previsão (1002) para determinação dos coeficientes de previsão; e em que o segundo processador de codificação compreende: um quantizador de coeficiente de previsão (1010) para geração de uma versão quantizada dos coeficientes de previsão; e um codificador de entropia para geração de uma versão codificada dos coeficientes de previsão quantizados em que o modulador de sinal codificado (630) é configurado para introduzir a versão codificada no sinal de áudio codificado.
3. O codificador de áudio de acordo com qualquer uma das reivindicações 1 ou 2, caracterizado por um pré-processador (1000) compreender um reamostrador (1004) para reamostragem do sinal de áudio em uma taxa de amostragem do segundo processador de codificação; e em que um analisador de previsão é configurado para determinar os coeficientes de previsão, utilizando um sinal de áudio reamostrado, ou em que o pré-processador (1000) compreende, ainda, um estágio de análise de previsão de longa duração (1006) para determinação de um ou mais parâmetro(s) de previsão de longa duração para a primeira parte do sinal de áudio.
4. O codificador de áudio de acordo com qualquer uma das reivindicações de 1 a 3 anteriores, caracterizado por compreender, ainda, um processador cruzado (700) para cálculo, a partir da representação espectral codificada da primeira parte do sinal de áudio, dos dados de inicialização do segundo processador de codificação (610), de modo que o segundo processamento de codificação (610) seja inicializado para codificar a segunda parte do sinal de áudio imediatamente após a primeira parte do sinal de áudio no tempo no sinal de áudio.
5. O codificador de áudio de acordo com a reivindicação 4, caracterizado pelo processador cruzado (700) compreender: um decodificador espectral (701) para cálculo de uma versão decodificada da primeira parte do sinal codificado; um estágio de atraso (707) para inserir uma versão atrasada da versão decodificada em um estágio de de- ênfase (617) do segundo processador de codificação para inicialização; um bloco de filtragem da análise do coeficiente de previsão ponderada (708) para inserção de uma saída do filtro em um determinador do livro de códigos (613) do segundo processador de codificação (610) para inicialização; um estágio de filtragem de análise (706) para filtrar a versão decodificada ou uma versão pré-enfatizada (709) e para inserir um filtro residual em um determinador do livro de códigos (612) adaptável do segundo processador de codificação para inicialização; ou um filtro de pré-ênfase (709) para filtragem da versão decodificada e para inserção de uma versão atrasada ou pré-enfatizada em um estágio de filtragem de síntese (616) do segundo processador de codificação (610) para inicialização.
6. O codificador de áudio de acordo com qualquer uma das reivindicações de 1 a 5 anteriores, caracterizado pelo segundo processador de codificação compreender, pelo menos, um bloco do seguinte grupo de blocos: um filtro de análise de previsão (611); um estágio adaptativo do livro de códigos (612); um estágio inovador do livro de códigos (614); um estimador (613) para estimar uma entrada inovadora do livro de códigos; um estágio de codificação de ganho/ACELP (615); um estágio de filtragem de síntese de previsão (616); um estágio de de-ênfase (617); e um estágio de análise de pós-filtro de baixo (618).
7. Um decodificador de áudio para decodificação de um sinal de áudio codificado compreendendo: um primeiro processador de decodificação (1120) para decodificação de uma primeira parte do sinal de áudio codificado em um domínio de frequência, o primeiro processador de decodificação (1120) compreendendo: um decodificador espectral (1122) para decodificação das partes espectrais primárias com uma resolução espectral alta e para sintetização das partes espectrais secundárias utilizando uma representação paramétrica das partes espectrais secundárias e, pelo menos, uma primeira parte espectral decodificada para obter uma representação espectral decodificada, em que o decodificador espectral (1122) é configurado para gerar a primeira representação decodificada de modo que uma primeira parte espectral (306) seja colocada com relação à frequência entre as duas partes espectrais secundárias (307a, 307b); e um conversor de frequência-tempo (1120) para conversão da representação espectral decodificada em um domínio de tempo para obter uma primeira parte do sinal de áudio decodificado; um segundo processador de decodificação (1140) para decodificação de uma segunda parte do sinal de áudio codificado no domínio de tempo para obter uma segunda parte do sinal de áudio decodificado; caracterizado por um processador cruzado (1170) para calcular, a partir da representação espectral decodificada da primeira parte do sinal de áudio codificado, dos dados de inicialização do segundo processador de decodificação (1140), de modo que o segundo processador de decodificação (1140) seja inicializado para decodificar a segunda parte do sinal de áudio codificado seguindo no tempo a primeira parte do sinal de áudio no sinal de áudio codificado; e um combinador (1160) para combinação da primeira parte espectral decodificada e da segunda parte espectral decodificada para obter um sinal de áudio decodificado.
8. O decodificador de áudio de acordo com a reivindicação 7, caracterizado pelo amplificador de taxa de amostragem (1210) compreender um banco de filtro de análise (1471) operando em uma primeira taxa de amostragem do decodificador de baixa banda de domínio de tempo e um banco de filtro de síntese (1473) que opera em uma segunda taxa de amostragem de saída sendo mais alta do que a primeira taxa de amostragem de banda baixa do domínio de tempo.
9. O decodificador de áudio de acordo com qualquer uma das reivindicações de 7 a 8, caracterizado pelo primeiro processador de decodificação (1120) compreender um pós-filtro adaptativo de previsão de longa duração (1420) para pós-filtragem da primeira parte do sinal decodificado, em que o filtro (1420) é controlado por um ou mais parâmetro(s) de previsão de longa duração incluído(s) no sinal de áudio codificado.
10. O decodificador de áudio de acordo com qualquer uma das reivindicações de 7 a 9, caracterizado pelo processador cruzado (1170) compreender: um estágio de atraso (1172) para atraso da primeira parte do sinal decodificado adicional e para inserção de uma versão atrasada da primeira parte do sinal decodificado em um estágio de de-ênfase (1144) do segundo processador de decodificação para inicialização; um filtro de pré-ênfase (1173) e um estágio de atraso (1175) para filtrar e atrasar a primeira parte do sinal decodificado adicional e para inserir um estágio de atraso emitido em um filtro de síntese de previsão (1143) do segundo processador de decodificação para inicialização; um filtro de análise de previsão (1174) para geração de um sinal residual de previsão da primeira parte espectral decodificada adicional ou uma primeira parte do sinal decodificado adicional pré-enfatizada (1173) e para inserção de um sinal residual de previsão em um sintetizador de livro de códigos (1141) do segundo processador de decodificação (1200); ou um comutador (1480) para inserção da primeira parte do sinal decodificado adicional em um estágio de análise (1471) de um reamostrador (1210) do segundo processador de decodificação para inicialização.
11. O decodificador de áudio de acordo com qualquer uma das reivindicações de 7 a 10, caracterizado pelo segundo processador de decodificação (1200) compreender, pelo menos, um bloco do grupo de blocos compreendendo: uma ACELP para decodificação de ganhos e um livro de códigos inovador; um estágio de síntese adaptativo do livro de códigos (1141); um pós-processador ACELP (1142); um filtro de síntese de previsão (1143); e um estágio de de-ênfase (1144).
12. Um método para codificação de um sinal de áudio, caracterizado por compreender: uma primeira codificação (600) de uma primeira parte do sinal de áudio em um domínio de frequência, em que a primeira codificação (600) compreende: conversão (602) da primeira parte do sinal de áudio em uma representação de domínio de frequência, tendo linhas espectrais até uma frequência máxima da primeira parte do sinal de áudio; análise (604) da representação do domínio de frequência até a frequência máxima para determinar as partes espectrais primárias a serem codificadas com uma primeira resolução espectral e partes espectrais secundárias a serem codificadas com uma segunda resolução espectral, a segunda resolução espectral sendo mais baixa do que a primeira resolução espectral, em que a análise (604) determina uma primeira parte espectral (306) a partir das partes espectrais primárias, a primeira parte espectral sendo colocada, com relação à frequência, entre as duas partes espectrais secundárias (307a, 307b) a partir das partes espectrais secundárias; codificação (606) das partes espectrais primárias com a primeira resolução espectral e para codificação das partes espectrais secundárias com a segunda resolução espectral, em que a codificação da segunda parte espectral compreende o cálculo, a partir das partes espectrais secundárias, da informação de envelope espectral tendo a segunda resolução espectral; segunda codificação (610) de uma segunda parte do sinal de áudio diferente no domínio de tempo, em que a segunda codificação (610) compreende; conversão (900) da segunda parte do sinal de áudio a uma representação da taxa de amostragem mais baixa, a taxa de amostragem mais baixa sendo mais baixa do que a taxa de amostragem do sinal de áudio, em que a representação da taxa de amostragem mais baixa não inclui a banda alta do sinal de entrada; codificação de domínio de tempo (910) da representação da taxa de amostragem mais baixa; e codificação paramétrica (920) da banda alta; análise (620) do sinal de áudio e determinação de qual parte do sinal de áudio é a primeira parte do sinal de áudio codificada no domínio de frequência e qual parte do sinal de áudio é a segunda parte do sinal de áudio codificada no domínio de tempo; realizar um processamento cruzado compreendendo modulação dos valores espectrais quantizados dos valores espectrais das partes espectrais primárias, utilizando coeficientes LPC (1010) derivados da primeira parte do sinal de áudio; decodificação espectralmente as partes espectrais moduladas da parte espectral primária com uma resolução espectral alta e para sincronização das partes espectrais secundárias utilizando uma representação paramétrica das partes espectrais secundárias e, pelo menos, uma primeira parte espectral decodificada para obter uma representação espectral decodificada; conversão da representação espectral em um domínio de tempo para obter uma primeira parte do sinal de áudio decodificado, em que uma taxa de amostragem associada à primeira parte do sinal de áudio decodificado é diferente de uma taxa de amostragem do sinal de áudio, e uma taxa de amostragem associada com um sinal de saída do conversor de tempo-frequência é diferente de uma taxa de amostragem do sinal de áudio inserido no conversor de tempo-frequência, e modulação (630) de um sinal de áudio codificado, compreendendo uma primeira parte do sinal codificado para a primeira parte do sinal de áudio e uma segunda parte do sinal codificado para a segunda parte do sinal de áudio.
13. Método de decodificação de um sinal de áudio codificado compreendendo: uma primeira decodificação (1120) de uma primeira parte do sinal de áudio codificado em um domínio de frequência, a primeira decodificação (1120) compreendendo: decodificação (1122) das partes espectrais primárias com uma resolução espectral alta e sintetização das partes espectrais secundárias, utilizando uma representação paramétrica das partes espectrais secundárias e, pelo menos, uma primeira parte espectral decodificada para obter uma representação espectral decodificada, em que a decodificação (1122) compreende a geração da primeira representação decodificada de modo que uma primeira parte espectral (306) seja colocada com relação à frequência entre as duas partes espectrais secundárias (307a, 307b); e conversão (1120) da representação espectral decodificada em um domínio de tempo para obter uma primeira parte do sinal de áudio decodificado; segunda decodificação (1140) de uma segunda parte do sinal de áudio codificado no domínio de tempo para obter uma segunda parte do sinal de áudio decodificado; caracterizado por calcular, a partir da representação espectral decodificada da primeira parte do sinal de áudio codificado, dos dados de inicialização do segundo processador de decodificação, de modo que o segundo processador de decodificação seja inicializado para decodificar a segunda parte do sinal de áudio codificado seguindo no tempo a primeira parte do sinal de áudio no sinal de áudio codificado; e combinação (1160) da primeira parte espectral decodificada e da segunda parte espectral decodificada para obter um sinal de áudio decodificado.
BR122022012517-4A 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo BR122022012517B1 (pt)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP14178817.4 2014-07-28
EP14178817.4A EP2980794A1 (en) 2014-07-28 2014-07-28 Audio encoder and decoder using a frequency domain processor and a time domain processor
PCT/EP2015/067003 WO2016016123A1 (en) 2014-07-28 2015-07-24 Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor
BR112017001297A BR112017001297A2 (pt) 2014-07-28 2015-07-24 codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo

Publications (1)

Publication Number Publication Date
BR122022012517B1 true BR122022012517B1 (pt) 2023-12-19

Family

ID=51224876

Family Applications (5)

Application Number Title Priority Date Filing Date
BR112017001297A BR112017001297A2 (pt) 2014-07-28 2015-07-24 codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012519-0A BR122022012519B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012700-2A BR122022012700B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012616-2A BR122022012616B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012517-4A BR122022012517B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo

Family Applications Before (4)

Application Number Title Priority Date Filing Date
BR112017001297A BR112017001297A2 (pt) 2014-07-28 2015-07-24 codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012519-0A BR122022012519B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012700-2A BR122022012700B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122022012616-2A BR122022012616B1 (pt) 2014-07-28 2015-07-24 Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo

Country Status (19)

Country Link
US (5) US10332535B2 (pt)
EP (4) EP2980794A1 (pt)
JP (4) JP6549217B2 (pt)
KR (1) KR102009210B1 (pt)
CN (6) CN113936675A (pt)
AR (1) AR101344A1 (pt)
AU (1) AU2015295605B2 (pt)
BR (5) BR112017001297A2 (pt)
CA (1) CA2955095C (pt)
ES (2) ES2972128T3 (pt)
MX (1) MX362424B (pt)
MY (1) MY187280A (pt)
PL (2) PL3186809T3 (pt)
PT (1) PT3186809T (pt)
RU (1) RU2671997C2 (pt)
SG (1) SG11201700685XA (pt)
TR (1) TR201908602T4 (pt)
TW (1) TWI570710B (pt)
WO (1) WO2016016123A1 (pt)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FI3696813T3 (fi) * 2016-04-12 2023-01-31 Audiokooderi audiosignaalin koodaamiseksi, menetelmä audiosignaalin koodaamiseksi ja tietokoneohjelma havaitulla huippuspektrialeella tarkastettuna ylemmällä taajuuskaistalla
JP6976277B2 (ja) 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
TW202341126A (zh) * 2017-03-23 2023-10-16 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
CN110998721B (zh) 2017-07-28 2024-04-26 弗劳恩霍夫应用研究促进协会 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
MX2020014077A (es) * 2018-07-04 2021-03-09 Fraunhofer Ges Forschung Codificador multise?al, decodificador multise?al, y metodos relacionados que utilizan blanqueado de se?al o post procesamiento de se?al.
US10911013B2 (en) 2018-07-05 2021-02-02 Comcast Cable Communications, Llc Dynamic audio normalization process
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
TWI703559B (zh) * 2019-07-08 2020-09-01 瑞昱半導體股份有限公司 音效編碼解碼電路及音頻資料的處理方法
CN110794273A (zh) * 2019-11-19 2020-02-14 哈尔滨理工大学 含有高压驱动保护电极的电位时域谱测试***
CN113192521B (zh) * 2020-01-13 2024-07-05 华为技术有限公司 一种音频编解码方法和音频编解码设备
KR20220046324A (ko) 2020-10-07 2022-04-14 삼성전자주식회사 인공 신경망을 이용한 추론을 위한 트레이닝 방법, 인공 신경망을 이용한 추론 방법, 및 추론 장치
TWI752682B (zh) * 2020-10-21 2022-01-11 國立陽明交通大學 雲端更新語音辨識系統的方法
CN113035205B (zh) * 2020-12-28 2022-06-07 阿里巴巴(中国)有限公司 音频丢包补偿处理方法、装置及电子设备
EP4120253A1 (en) * 2021-07-14 2023-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Integral band-wise parametric coder

Family Cites Families (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100458969B1 (ko) * 1993-05-31 2005-04-06 소니 가부시끼 가이샤 신호부호화또는복호화장치,및신호부호화또는복호화방법
JP3465697B2 (ja) 1993-05-31 2003-11-10 ソニー株式会社 信号記録媒体
CA2185745C (en) 1995-09-19 2001-02-13 Juin-Hwey Chen Synthesis of speech signals in the absence of coded parameters
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6968564B1 (en) 2000-04-06 2005-11-22 Nielsen Media Research, Inc. Multi-band spectral audio encoding
US6996198B2 (en) * 2000-10-27 2006-02-07 At&T Corp. Nonuniform oversampled filter banks for audio signal processing
DE10102155C2 (de) * 2001-01-18 2003-01-09 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms
FI110729B (fi) 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3876781B2 (ja) * 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
KR100940531B1 (ko) * 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
ATE550760T1 (de) * 2003-08-28 2012-04-15 Sony Corp Trellisdecodierung von lauflängenbegrenzten codes mit codetabelle variabler eingangslänge
JP4679049B2 (ja) 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100561869B1 (ko) * 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7596486B2 (en) 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
KR100634506B1 (ko) * 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
WO2006064460A1 (en) 2004-12-14 2006-06-22 Koninklijke Philips Electronics N.V. Programmable signal processing circuit and method of demodulating
US8170221B2 (en) * 2005-03-21 2012-05-01 Harman Becker Automotive Systems Gmbh Audio enhancement system and method
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
CA2603246C (en) 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
EP1829424B1 (en) 2005-04-15 2009-01-21 Dolby Sweden AB Temporal envelope shaping of decorrelated signals
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8050334B2 (en) * 2005-07-07 2011-11-01 Nippon Telegraph And Telephone Corporation Signal encoder, signal decoder, signal encoding method, signal decoding method, program, recording medium and signal codec method
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP4876574B2 (ja) 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US8271274B2 (en) 2006-02-22 2012-09-18 France Telecom Coding/decoding of a digital audio signal, in CELP technique
MX2008012324A (es) 2006-03-28 2008-10-10 Fraunhofer Ges Zur Foeerderung Metodo mejorado para la modulacion de señales en la reconstruccion de audio multicanal.
JP2008033269A (ja) * 2006-06-26 2008-02-14 Sony Corp デジタル信号処理装置、デジタル信号処理方法およびデジタル信号の再生装置
DE602006002739D1 (de) 2006-06-30 2008-10-23 Fraunhofer Ges Forschung Audiokodierer, Audiodekodierer und Audioprozessor mit einer dynamisch variablen Warp-Charakteristik
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CA2656423C (en) 2006-06-30 2013-12-17 Juergen Herre Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
WO2008046492A1 (en) * 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
EP2116997A4 (en) 2007-03-02 2011-11-23 Panasonic Corp AUDIO DECODING DEVICE AND AUDIO DECODING METHOD
KR101261524B1 (ko) 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
MY146431A (en) 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
BRPI0815972B1 (pt) * 2007-08-27 2020-02-04 Ericsson Telefon Ab L M método para recuperação de espectro em decodificação espectral de um sinal de áudio, método para uso em codificação espectral de um sinal de áudio, decodificador, e, codificador
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
US8392179B2 (en) * 2008-03-14 2013-03-05 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
EP2311032B1 (en) * 2008-07-11 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
KR101227729B1 (ko) 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
RU2621965C2 (ru) * 2008-07-11 2017-06-08 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
AU2013200679B2 (en) 2008-07-11 2015-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
EP2346030B1 (en) 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
KR20100007738A (ko) 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
WO2010017833A1 (en) * 2008-08-11 2010-02-18 Nokia Corporation Multichannel audio coder and decoder
JP5236006B2 (ja) 2008-10-17 2013-07-17 シャープ株式会社 音声信号調整装置及び音声信号調整方法
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
GB2466666B (en) * 2009-01-06 2013-01-23 Skype Speech coding
BR122019023704B1 (pt) * 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
TWI559679B (zh) * 2009-02-18 2016-11-21 杜比國際公司 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
EP2234103B1 (en) 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
KR20100136890A (ko) * 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
US8892427B2 (en) * 2009-07-27 2014-11-18 Industry-Academic Cooperation Foundation, Yonsei University Method and an apparatus for processing an audio signal
GB2473266A (en) * 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
ES2441069T3 (es) 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
KR101508819B1 (ko) * 2009-10-20 2015-04-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
PL3570278T3 (pl) * 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
MY194835A (en) * 2010-04-13 2022-12-19 Fraunhofer Ges Forschung Audio or Video Encoder, Audio or Video Decoder and Related Methods for Processing Multi-Channel Audio of Video Signals Using a Variable Prediction Direction
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN101964189B (zh) 2010-04-28 2012-08-08 华为技术有限公司 语音频信号切换方法及装置
WO2011156905A2 (en) * 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
EP2591470B1 (en) * 2010-07-08 2018-12-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
EP4016527B1 (en) * 2010-07-19 2023-02-22 Dolby International AB Processing of audio signals during high frequency reconstruction
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CA2813859C (en) * 2010-10-06 2016-07-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
EP2619758B1 (en) * 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
CN103262162B (zh) 2010-12-09 2015-06-17 杜比国际公司 用于有理重采样器的心理声学滤波器设计
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
MY186055A (en) * 2010-12-29 2021-06-17 Samsung Electronics Co Ltd Coding apparatus and decoding apparatus with bandwidth extension
JP2012242785A (ja) 2011-05-24 2012-12-10 Sony Corp 信号処理装置、信号処理方法、およびプログラム
JP2013015598A (ja) * 2011-06-30 2013-01-24 Zte Corp オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN102543090B (zh) * 2011-12-31 2013-12-04 深圳市茂碧信息科技有限公司 一种应用于变速率语音和音频编码的码率自动控制***
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103428819A (zh) 2012-05-24 2013-12-04 富士通株式会社 一种载波频点搜索方法和装置
WO2013186344A2 (en) * 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
SG11201506542QA (en) 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
EP3010018B1 (en) * 2013-06-11 2020-08-12 Fraunhofer Gesellschaft zur Förderung der Angewand Device and method for bandwidth extension for acoustic signals
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
ES2755166T3 (es) * 2013-10-31 2020-04-21 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US20150149157A1 (en) 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN103905834B (zh) 2014-03-13 2017-08-15 深圳创维-Rgb电子有限公司 音频数据编码格式转换的方法及装置
EP3117432B1 (en) * 2014-03-14 2019-05-08 Telefonaktiebolaget LM Ericsson (publ) Audio coding method and apparatus
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
FR3023036A1 (fr) * 2014-06-27 2016-01-01 Orange Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd

Also Published As

Publication number Publication date
BR122022012616B1 (pt) 2023-10-31
TW201610986A (zh) 2016-03-16
PT3186809T (pt) 2019-07-30
CA2955095A1 (en) 2016-02-04
CN113963705A (zh) 2022-01-21
ES2733207T3 (es) 2019-11-28
US20210287689A1 (en) 2021-09-16
CN113936675A (zh) 2022-01-14
JP2023053255A (ja) 2023-04-12
KR20170039245A (ko) 2017-04-10
CN113963706A (zh) 2022-01-21
EP4239634A1 (en) 2023-09-06
EP3186809A1 (en) 2017-07-05
CN107077858B (zh) 2021-10-26
US20190189143A1 (en) 2019-06-20
US20170256267A1 (en) 2017-09-07
US20230402046A1 (en) 2023-12-14
RU2017105448A (ru) 2018-08-30
EP3511936A1 (en) 2019-07-17
BR112017001297A2 (pt) 2017-11-14
US20230154476A1 (en) 2023-05-18
RU2017105448A3 (pt) 2018-08-30
JP7228607B2 (ja) 2023-02-24
JP6941643B2 (ja) 2021-09-29
RU2671997C2 (ru) 2018-11-08
PL3511936T3 (pl) 2024-03-04
PL3186809T3 (pl) 2019-10-31
US11929084B2 (en) 2024-03-12
SG11201700685XA (en) 2017-02-27
WO2016016123A1 (en) 2016-02-04
TR201908602T4 (tr) 2019-07-22
US10332535B2 (en) 2019-06-25
KR102009210B1 (ko) 2019-10-21
MX2017001235A (es) 2017-07-07
CN113948100A (zh) 2022-01-18
AU2015295605A1 (en) 2017-02-16
EP2980794A1 (en) 2016-02-03
AU2015295605B2 (en) 2018-09-06
MX362424B (es) 2019-01-17
JP2017523473A (ja) 2017-08-17
EP3186809B1 (en) 2019-04-24
BR122022012700B1 (pt) 2023-12-19
EP3511936C0 (en) 2023-09-06
BR122022012519B1 (pt) 2023-12-19
JP2019194721A (ja) 2019-11-07
EP3511936B1 (en) 2023-09-06
JP2021099507A (ja) 2021-07-01
CN107077858A (zh) 2017-08-18
JP6549217B2 (ja) 2019-07-24
AR101344A1 (es) 2016-12-14
CN113963704A (zh) 2022-01-21
US11049508B2 (en) 2021-06-29
MY187280A (en) 2021-09-18
CA2955095C (en) 2020-03-24
ES2972128T3 (es) 2024-06-11
TWI570710B (zh) 2017-02-11

Similar Documents

Publication Publication Date Title
US11929084B2 (en) Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor
RU2668397C2 (ru) Кодер и декодер аудиосигнала, использующие процессор частотной области, процессор временной области и кросспроцессор для непрерывной инициализации
AU2015295549A1 (en) Apparatus and method for generating an enhanced signal using independent noise-filling
BR122022012597B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo

Legal Events

Date Code Title Description
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 24/07/2015, OBSERVADAS AS CONDICOES LEGAIS