BR122021003398A2 - Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, método de decodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash otimizada - Google Patents

Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, método de decodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash otimizada Download PDF

Info

Publication number
BR122021003398A2
BR122021003398A2 BR122021003398-6A BR122021003398A BR122021003398A2 BR 122021003398 A2 BR122021003398 A2 BR 122021003398A2 BR 122021003398 A BR122021003398 A BR 122021003398A BR 122021003398 A2 BR122021003398 A2 BR 122021003398A2
Authority
BR
Brazil
Prior art keywords
value
context
values
spectral
hash
Prior art date
Application number
BR122021003398-6A
Other languages
English (en)
Inventor
Vignesh Subbaraman
Markus Multrus
Nikolaus Rettelbach
Matthias Hildenbrand
Oliver Weiss
Arthur Tritthart
Patrick Warmbold
Guillaume Fuchs
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Publication of BR122021003398A2 publication Critical patent/BR122021003398A2/pt

Links

Abstract

CODIFICADOR DE ÁUDIO, DECODIFICADOR DE ÁUDIO, MÉTODO DE CODIFICAÇÃO E INFORMAÇÃO DE ÁUDIO, MÉTODO DE DECODIFICAÇÃO DE UMA INFORMAÇÃO DE ÁUDIO E PROGRAMA DE COMPUTADOR QUE UTILIZA UMA TABELA HASH OTIMIZADA Um decodificador de áudio para prover uma informação de áudio decodificada com base em uma informação de áudio codificada compreende um decodificador aritmético para prover diversos valores espectrais decodificados com base em uma representação aritmeticamente codificada dos valores espectrais, e um conversor de domínio de frequência em domínio de tempo para prover uma representação de áudio de domínio de tempo utilizando os valores espectrais decodificados, para obter a informação de áudio decodificada.

Description

[0001] Pela transformação de uma parte em janela do sinal de áudio de entrada do domínio de tempo em domínio da frequência de tempo, uma compactação de energia é obtida em muitos casos, de modo que alguns dos valores espectrais compreendam uma magnitude significantemente maior que diversos outros valores espectrais. Assim, há, em muitos casos, um número comparavelmente pequeno de valores espectrais tendo uma magnitude, que está significantemente acima de uma magnitude média dos valores espectrais. Um exemplo típico de um domínio de tempo para transformação de domínio de frequência em domínio de tempo resultante em uma compactação de energia é chamada transformação de cosseno discreto modificado (MDCT).
[0002] Os valores espectrais são geralmente escalados e quantizados de acordo com um modelo psicoacústico, de modo que os erros de quantização sejam comparavelmente menores para valores espectrais psicoacusticamente mais importantes, e são comparavelmente maiores para valores espectrais psicoacusticamente menos importantes. Os valores espectrais escalados e quantizados são codificados para prover uma representação eficiente de sua taxa de bits.
[0003] Por exemplo, o uso da assim chamada codificação de Huffman de coeficientes espectrais quantizados é descrito no Padrão Internacional ISO/IEC 14496-3:2005(E), parte 3, subparte 4.
[0004] Entretanto, foi observado que a qualidade da codificação dos valores espectrais tem um impacto significativo na taxa de bits necessária. Ainda, foi observado que a complexidade de um decodificador de áudio, que é geralmente implementado em um dispositivo do consumidor portátil, e que deve ser então criado de forma barata e com baixo consumo de energia, é dependente da codificação utilizada na codificação dos valores espectrais.
[0005] Em vista desta situação, há uma necessidade de um conceito para codificar e decodificar um conteúdo de áudio, que provê uma mudança melhorada entre eficiência da taxa de bits e eficiência do recurso.
[0006] SUMÁRIO DA INVENÇÃO
[0007] Uma realização de acordo com a invenção cria um decodificador de áudio para prover diversos valores espectrais decodificados com base em uma representação aritmeticamente codificada dos valores espectrais. O decodificador de áudio também compreende um conversor de domínio de frequência em domínio de tempo para prover uma representação de áudio de domínio de tempo utilizando os valores espectrais decodificados, para obter a informação de áudio decodificada. O decodificador aritmético é configurado para selecionar uma regra de mapeamento que descreve um mapeamento de um valor de código representando um valor espectral, ou um plano de bits mais significativo de um valor espectral, em uma forma codificada, em um código de símbolo representando um valor espectral, ou um plano de bits mais significativo de um valor espectral, em uma forma decodificada, dependendo de um estado de contexto descrito por um valor de contexto corrente numérico. O decodificador aritmético é configurado para determinar o valor de contexto corrente numérico dependendo dos diversos valores espectrais previamente decodificados. O decodificador aritmético é configurado para avaliar a tabela hash, cujas entradas definem tanto os valores de estado significativo entre os valores de contexto numérico quanto os limites dos intervalos dos valores de contexto numérico, para selecionar a regra de mapeamento. O decodificador aritmético é configurado para avaliar a tabela hash para localizar um valor de índice da tabela hash i na qual o valor ari_hash_m[i]>>8 é igual ou maior do que c, enquanto, se o valor de índice da tabela hash i encontrado for maior do que 0, o valor ari_hash_m[i-1]>>8 é menor do que c. Além disso, o decodificador aritmético é configurado para selecionar a regra de mapeamento que é determinada por um índice de modelo de probabilidade (pki) que é igual a ari_hash_m[i]&&0xFF quando ari_hash_m[i]>>8 for igual a c, ou, caso contrário, igual a ari_lookup_m[i]. Na presente realização, a tabela hash ari_hash_m é definida conforme mostrado nas figuras 22(1), 22(2), 22(3) e 22(4). Além disso, a tabela de mapeamento ari lookup m é definida conforme mostrado na figura 21.
[0008] Foi observado que a combinação do algoritmo mencionado com a tabela hash das figuras 22(1) a 22(4) permite uma seleção particularmente eficiente de uma regra de mapeamento, como a tabela hash de acordo com a figura 22(1) a 22(4) define, de forma particularmente bem adequada, ambos os valores significantes do valor de contexto numérico e intervalos de estado. Além disso, a interação entre o dito algoritmo e a tabela hash de acordo com as figuras 22(1) a 22(4) mostrou trazer resultados particularmente bons enquanto mantém a complexidade computacional razoavelmente pequena. Além disso, a tabela de mapeamento definida na figura 21 também é particularmente bem adaptada ao dito algoritmo quando em combinação com a tabela hash mencionada acima. Para resumir, a utilização da tabela hash conforme mostrado nas figuras 22(1) a 22(4) e da tabela de mapeamento conforme definido na figura 22 em conexão com o algoritmo conforme descrito acima traz ao longo de uma boa eficiência de codificação/decodificação e uma baixa complexidade computacional.
[0009] Em uma realização preferida, o decodificador aritmético é configurado para avaliar a tabela hash utilizando o algoritmo conforme definido na figura 5e, em que c designa uma variável representando o valor de contexto corrente numérico ou uma versão escalada desta, em que i é uma variável que descreve um valor de índice corrente da tabela hash, em que in i_min é uma variável rubricada para designar um valor de índice da tabela hash de uma primeira entrada da tabela hash e seletivamente atualizada dependendo de uma comparação entre c e (j >>8). No algoritmo mencionado acima, uma condição “c<(j>>8)” define que um valor de estado descrito pela variável c é menor do que um valor de estado descrito pela entrada da tabela ari_hash_m[i]. Ainda, no algoritmo mencionado acima, “j&0xFF” descreve um valor do índice da regra de mapeamento descrito pela entrada da tabela ari_hash_m[i]. Ainda i_max é uma variável inicializada para designar um valor de índice da tabela hash de uma última entrada da tabela hash uma seletivamente atualizada dependendo de uma comparação entre c e (j>>8). Uma condição “c>(j>>8)” define que um valor de estado descrito pela variável c é maior do que um valor de estado descrito pela entrada da tabela ari_hash_m[i]. O valor de retorno do dito algoritmo designa um índice pki de um modelo de probabilidade e é um valor do índice da regra de mapeamento. “ari_hash_m” designa a tabela hash, e “ari_hash_m[i]” designa uma entrada da tabela hash ari_hash-m tendo valor de índice da tabela hash i. “ari_lookup_m” designa uma tabela de mapeamento, e “ari_lookup_m[i_max]” designa uma entrada da tabela de mapeamento ari_lookup_m tendo o valor do índice de mapeamento i_max.
[00010] Foi observado que a combinação do algoritmo mencionado acima, conforme mostrado na figura 5e, com a tabela hash das figuras 22(1) a 22(4) permite uma seleção particularmente eficiente de uma regra de mapeamento, como a hash de acordo com a figura 22(1) a 22(4) define, de forma particularmente bem adequada, ambos os valores significantes do valor de contexto numérico e intervalos de estado. Além disso, a interação entre o dito algoritmo de acordo com a figura 5e e a tabela hash de acordo com as figuras 22(1) a 22(4) mostrou trazer os resultados particularmente bons em combinação com um rápido algoritmo para a pesquisa da tabela. Além disso, a tabela de mapeamento definida na figura 21 também é particularmente bem adaptada ao dito algoritmo quando em combinação com a tabela hash mencionada acima. Para resumir, o uso da tabela hash conforme mostrado nas figuras 22(1) a 22(4) e da tabela de mapeamento conforme definido na figura 22 em conexão com o algoritmo conforme definido na figura 5e traz uma boa eficiência de codificação/decodificação e uma baixa complexidade computacional. Em outras palavras, foi observado que o algoritmo de duas seções da figura 5e é bem adequado para operar com as tabelas ari_hash_m e ari_lookup_m, conforme definido acima.
[00011] Entretanto, deve ser observado que pequenas mudanças (que são facilmente praticáveis) ou ainda mudanças significantes do algoritmo de pesquisa podem acontecer sem mudar o conceito de acordo com a presente invenção.
[00012] Em outras palavras, o método de pesquisa não está restrito aos métodos mencionados. Apesar do uso do método de duas seções (por exemplo, de acordo com a figura 5e) ainda melhora o desempenho, também seria possível realizar uma simples pesquisa completa, com, todavia trazer certo aumento de complexidade.
[00013] Em uma realização preferida, o decodificador aritmético é configurado para selecionar a regra de mapeamento que descreve um mapeamento de um valor de código em um código de símbolo com base no valor do índice da regra de mapeamento pki, que é, por exemplo, provido como um valor de retorno do algoritmo mostrado na figura 5e. O uso do dito valor do índice da regra de mapeamento pki é muito eficiente, pois a interação das tabelas mencionadas acima e do algoritmo mencionado acima é otimizada para prover um valor do índice da regra de mapeamento significativo.
[00014] Em uma realização preferida, o decodificador aritmético é configurado para utilizar o valor do índice da regra de mapeamento como um valor do índice da tabela para selecionar a regra de mapeamento que descreve um mapeamento de um valor de código em um código de símbolo. O uso do valor do índice da regra de mapeamento como um valor do índice da tabela permite uma eficiência computacional em uma seleção eficiente de memória da regra de mapeamento.
[00015] Em uma realização preferida, o decodificador aritmético é configurado para selecionar uma das subtabelas da tabela ari_cf_m[64][17], conforme definido na figura 23(1), 23(2), 23(3), como a regra de mapeamento selecionada. Este conceito tem como base o fato de que as regras de mapeamento definidas pelas subtabelas da tabela ari_cf_m[64][17], conforme definido na figura 23(1),(2), (3), são bem adaptadas aos resultados que podem ser atingidos pela execução do algoritmo mencionado acima de acordo com a figura 5e em combinação com a tabela de acordo com as figuras 21 e 22(1) a 22(4).
[00016] Em uma realização preferida, o decodificador aritmético é configurado para obter o valor de contexto numérico com base em um valor de contexto prévio numérico utilizando um algoritmo de acordo com a figura 5c, em que o algoritmo recebe, como valores de entrada, um valor de uma variável c representando um valor de contexto prévio numérico, um valor ou uma variável i representando um índice de tuplos duplos dos valores espectrais para decodificar em um vetor dos valores espectrais. Um valor ou uma variável N representa um comprimento da janela de uma janela de reconstrução do conversor de domínio de frequência em domínio de tempo. O algoritmo provê, como um valor de saída, um valor atualizado ou variável c representando o valor de contexto corrente numérico. No algoritmo, uma operação “c>>4” descreve uma mudança à direita por 4 bits do valor ou da variável c. Além disso, q[0][i+1] designa um valor da sub-região de contexto associado com uma estrutura de áudio passada e associado a um índice de frequência mais alta i+1, mais alto do que 1, do que um índice de frequência presente de um dos dois valores espectrais total a ser atualmente decodificados. Semelhantemente q[1][i-1] designa um valor da sub-região de contexto associado com uma estrutura de áudio presente e associado a um índice de frequência menor i-1, menor do que 1, então um índice de frequência presente de tuplos duplos dos valores espectrais a ser atualmente decodificados. q[1][i-2] designa um valor da sub-região de contexto associado com uma estrutura de áudio presente e associado ao índice de frequência menor i-2, menor do que 2, do que um índice de frequência presente de tuplos duplos dos valores espectrais a ser atualmente decodificados. q[1][i-3] designa um valor da sub-região de contexto associado com a estrutura de áudio presente e associado a um índice de frequência menor i-3, menor do que 3, do que um índice de frequência presente de tuplos duplos dos valores espectrais a ser atualmente decodificados. Foi observado que o algoritmo de acordo com a figura 5e quando em combinação com as tabelas da figura 21 e 22(1) a 22(4) é bem adaptado para prover o valor do índice da regra de mapeamento com base em um valor de contexto corrente numérico c obtido utilizando o algoritmo da figura 5c, em que obter o valor de contexto corrente numérico utilizando o algoritmo da figura 5c é particularmente eficiente de forma computacional, pois o algoritmo de acordo com a figura 5c requer apenas um cálculo muito simples.
[00017] Em uma realização preferida, o decodificador aritmético é configurado para atualizar um valor da sub-região de contexto q[1][i] associado com uma estrutura de áudio presente e associado ao índice de frequência presente dos tuplos duplos dos valores espectrais atualmente decodificados utilizando um algoritmo de acordo com a figura 5l, em que a designa um valor absoluto de um primeiro valor espectral dos tuplos duplos dos valores espectrais atualmente decodificados, e em que b designa um segundo valor espectral dos tuplos duplos dos valores espectrais atualmente decodificados. Pode ser visto que o algoritmo preferido é muito bem adequado para uma simples atualização do valor da sub- região de contextos.
[00018] Em uma realização preferida, o decodificador aritmético é configurado para prover um valor decodificado m representando tuplos duplos dos valores espectrais decodificados utilizando o algoritmo de decodificação aritmética de acordo com a figura 5g. Foi observado que o dito algoritmo de decodificação aritmética é muito bem adequado para a cooperação com os algoritmos descritos acima.
[00019] Outra realização de acordo com a invenção cria a decodificador para prover uma informação de áudio decodificada com base em uma informação de áudio codificada. O decodificador de áudio compreende um decodificador aritmético para prover diversos valores espectrais decodificados com base em uma representação aritmeticamente codificada dos valores espectrais. O decodificador de áudio também compreende um conversor de domínio de frequência em domínio de tempo para prover uma representação de áudio de domínio de tempo utilizando os valores espectrais decodificados, para obter a informação de áudio decodificada. O decodificador aritmético é configurado para selecionar uma regra de mapeamento que descreve um mapeamento de um valor de código representando um valor espectral, ou um plano de bits mais significativo de um valor espectral, em uma forma codificada, em um código de símbolo representando um valor espectral, ou um plano de bits mais significativo de um valor espectral, em uma forma decodificada, dependendo de um estado de contexto descrito por um valor de contexto corrente numérico. O decodificador aritmético é configurado para determinar o valor de contexto corrente numérico dependendo dos diversos valores espectrais previamente decodificados. O decodificador aritmético é configurado para avaliar a tabela hash, cujas entradas definem tanto os valores de estado significativo entre os valores de contexto numérico quanto os limites dos intervalos dos valores de contexto numérico, para selecionar a regra de mapeamento. A tabela hash ari hash m é definida conforme mostrado na figura 22(1), 22(2), 22(3) e 22(4). O decodificador aritmético é configurado para avaliar a tabela hash para determinar se o valor de contexto corrente numérico é idêntico a um valor de contexto da tabela descrito por uma entrada da tabela hash ou para determinar um intervalo descrito pelas entradas da tabela hash no qual o valor de contexto corrente numérico se encontra, e para derivar um valor do índice da regra de mapeamento que descreve uma regra de mapeamento selecionada dependendo de um resultado de uma avaliação. Foi observado que a tabela hash ari hash m é dada nas figuras 22(1) a 22(4) é bem adequada para a análise dos valores de contexto da tabela descritos pelas entradas da tabela hash e intervalos descritos pelas entradas da tabela hash, para assim derivar o valor do índice de mapeamento. Foi observado que a definição de ambos os valores de contexto da tabela e intervalos pela tabela hash de acordo com a figura 22(1) a 22(4) provê um mecanismo eficiente para a seleção da regra de mapeamento quando em combinação com um simples conceito para a avaliação da tabela hash que utiliza entradas da dita tabela hash para tanto verificar os valores de contexto da tabela quanto para determinar em qual intervalo definido pelas entradas da tabela hash dos valores de contexto da não tabela se encontra.
[00020] Em uma realização preferida, o decodificador aritmético é configurado para comparar o valor de contexto corrente numérico, ou uma versão escalada do valor de contexto corrente numérico, com uma série das entradas numericamente ordenadas ou subentradas da tabela hash, para iterativamente obter um valor de índice da tabela hash de uma entrada da tabela, de modo que o valor de contexto corrente numérico se encontre dentro de um intervalo definido pela entrada da tabela hash obtida designada pelo valor de índice obtido da tabela hash e uma entrada da tabela hash adjacente. Neste caso, o decodificador aritmético é configurado para determinar uma próxima entrada da série de entradas da tabela hash dependendo de um resultado de uma comparação entre o valor de contexto corrente numérico, ou uma versão escalada do valor de contexto corrente numérico, e uma entrada ou sub-entrada corrente. Foi reconhecido que este mecanismo permite uma avaliação da tabela hash particularmente eficiente de acordo com a figura 22(1) a 22(4).
[00021] Em uma realização preferida, o decodificador aritmético é configurado para selecionar uma regra de mapeamento definida por uma segunda sub-entrada da tabela hash designada pelo valor de índice corrente da tabela hash se for observado que o valor de contexto corrente numérico ou uma versão escalada deste é igual à primeira sub-entrada da tabela hash designada pelo valor de índice corrente da tabela hash. Certamente, as entradas da tabela hash, conforme definido de acordo com as figuras 22(1) a 22(4) assumem uma função dupla. Uma primeira sub-entrada (ou seja, uma primeira parte de uma entrada) da tabela hash é utilizada para identificar estado particularmente significativos do valor de contexto (corrente) numérico, enquanto uma segunda sub-entrada da tabela hash (ou seja, uma segunda parte de tal entrada) define uma regra de mapeamento, por exemplo, definindo um valor do índice da regra de mapeamento. Assim, as entradas da tabela hash são utilizadas de forma muito eficiente. Ainda, o mecanismo é particularmente eficiente ao prover o valor do índice das regras de mapeamento para os estados particularmente importantes dos valores de contexto corrente numérico, que são descritos pelas entradas da tabela hash, ou, mais precisamente, pelas sub-entradas da tabela hash. Assim, uma entrada completa da tabela hash, conforme definido nas figuras 22(1) a 22(4), define regras de um mapeamento de um estado particularmente importante do valor de contexto (corrente) numérico a uma regra de mapeamento e limites de intervalo das regiões (ou intervalos) de estados menos importantes do valor de contexto corrente numérico.
[00022] Em uma realização preferida, o decodificador aritmético é configurado para selecionar uma regra de mapeamento definida por uma entrada ou sub-entrada de uma tabela de mapeamento ari_lookup_m se não for observado que o valor de contexto corrente numérico é igual a uma sub-entrada da tabela hash. Neste caso, o decodificador aritmético é configurado para escolher a entrada ou sub-entrada da tabela de mapeamento dependendo do valor de índice da tabela hash iterativamente obtido. Assim, um mecanismo particularmente eficiente de duas tabelas é criado, permitindo prover eficientemente um valor do índice da regra de mapeamento tanto para estados particularmente importantes do valor de contexto corrente numérico quanto para os estados menos importantes do valor de contexto corrente numérico (em que os estados menos importantes do valor de contexto corrente numérico não são explicitamente, ou seja, individualmente, descritos pelas entradas ou sub-entradas da tabela hash).
[00023] Em uma realização preferida, o decodificador aritmético é configurado para seletivamente prover um valor do índice da regra de mapeamento definido pela entrada da tabela hash designada pelo valor do índice obtido da tabela hash se for observado que o valor de contexto corrente numérico é igual ao valor definido pela entrada da tabela hash designada pelo valor de índice corrente da tabela hash. Assim, há um mecanismo eficiente que permite a dupla utilização das entradas da tabela hash.
[00024] Outras realizações da invenção criam métodos para prover uma informação de áudio decodificada com base em uma informação de áudio codificada. Os ditos métodos cumprem a funcionalidade dos decodificadores de áudio discutidos acima. Certamente, os métodos têm como base as mesmas ideias e pensamentos quanto aos decodificadores de áudio, de modo que uma discussão seja omitida aqui para brevidade. Deve ser observado que os métodos podem ser suplementados por qualquer uma das características e funcionalidades dos decodificadores de áudio.
[00025] Outra realização de acordo com a invenção cria um decodificador de áudio para prover uma informação de áudio codificada com base em uma informação de áudio de entrada. O codificador de áudio compreende um conversor de domínio de tempo em domínio de frequência com compactação de energia para prover uma representação de áudio de domínio de frequência com base em uma representação de domínio de tempo da informação de áudio de entrada, de modo que a representação de áudio de domínio de frequência compreenda um conjunto de valores espectrais. O codificador de áudio também compreende um codificador aritmético configurado para codificar um valor espectral ou uma versão pré- processada desta utilizando um código de comprimento da variável. O codificador aritmético é configurado para mapear um valor espectral, ou um valor de um plano de bit mais significativo de um valor espectral, em um valor de código. O codificador aritmético também é configurado para selecionar uma regra de mapeamento que descreve um mapeamento de um valor espectral, ou um plano de bit mais significativo de um valor espectral, em um valor de código, dependendo de um estado de contexto descrito por um valor de contexto corrente numérico. O codificador aritmético é configurado para determinar o valor de contexto corrente numérico dependendo dos diversos valores espectrais previamente codificados. O codificador aritmético é também configurado para avaliar uma tabela hash, cujas entradas definem tanto os valores de estado significativo entre os valores de contexto numérico quanto os limites dos intervalos dos valores de contexto numérico, para selecionar a regra de mapeamento. A tabela hash ari_hash_m é definida conforme mostrado nas figuras 22(1) a 22(4). O codificador aritmético é configurado para avaliar a tabela hash para determinar se o valor de contexto corrente numérico é idêntico a um valor de contexto da tabela descrito por uma entrada da tabela hash ou para determinar um intervalo descrito pelas entradas da tabela hash no qual o valor de contexto corrente numérico se encontra, e para derivar um valor do índice da regra de mapeamento que descreve uma regra de mapeamento selecionada dependendo de um resultado da dita avaliação. Deve ser observado que a funcionalidade do codificador de áudio está em paralelo com a funcionalidade do decodificador de áudio discutido acima. Certamente, a referência é feita à discussão acima sobre as ideias principais do decodificador de áudio por questão de brevidade.
[00026] Além disso, deve ser observado que o codificador de áudio pode ser suplementado por qualquer uma das características e funcionalidades do decodificador de áudio. Em particular, qualquer uma das características referentes à seleção da regra de mapeamento podem ser implementadas no codificador de áudio também, em que os valores espectrais codificados tomam o lugar dos valores espectrais decodificados, e assim por diante.
[00027] Outra realização de acordo com a invenção cria um método para prover uma informação de áudio codificada com base em uma informação de áudio de entrada. O método realiza a funcionalidade do codificador de áudio descrito antes de ter como base as mesmas ideias.
[00028] Outra realização de acordo com a invenção cria um programa de computador para realizar pelo menos um dos métodos descritos anteriormente.
[00029] BREVE DESCRIÇÃO DAS FIGURAS
[00030] As realizações de acordo com a presente invenção serão subsequentemente descritas tendo como referência as figuras anexas, nas quais:
[00031] A figura 1 mostra um diagrama em blocos esquemático de um codificador de áudio, de acordo com uma realização da invenção;
[00032] A figura 2 mostra um diagrama em blocos esquemático de um decodificador de áudio, de acordo com uma realização da invenção:
[00033] A figura 3 mostra uma representação em código do pseudo-programa de um algoritmo “values_decode()” para decodificação dos valores espectrais;
[00034] A figura 4 mostra uma representação esquemática de um contexto para um cálculo de estado;
[00035] A figura 5a mostra uma representação em código do pseudo-programa de um algoritmo “arith_map_context()” para mapeamento de um contexto;
[00036] A figura 5b mostra uma representação em código do pseudo-programa de outro algoritmo “arith_map_context()” para mapeamento de um contexto;
[00037] A figura 5c mostra uma representação em código do pseudo-programa de um algoritmo “arith_get_context()” para obter um valor de estado de contexto;
[00038] A figura 5d mostra uma representação em código do pseudo-programa de outro algoritmo “arith_get_context()” para obter um valor de estado de contexto;
[00039] A figura 5e mostra uma representação em código do pseudo-programa de um algoritmo “arith_get_pk()” para derivar um valor do índice da tabela de frequências cumulativas “pki” de um valor de estado (ou uma variável de estado);
[00040] A figura 5f mostra uma representação em código do pseudo-programa de outro algoritmo “arith_get_pk()” para derivar um valor do índice da tabela de frequências cumulativas “pki” de um valor de estado (ou uma variável de estado);
[00041] A figura 5g mostra uma representação em código do pseudo-programa de um algoritmo “arith_decode()” para aritmeticamente decodificar um símbolo de um código de comprimento da variável;
[00042] A figura 5h mostra uma primeira parte de uma representação em código do pseudo-programa de outro algoritmo “arith_decode()” para aritmeticamente decodificar um símbolo a partir de um código de comprimento da variável;
[00043] A figura 5i mostra uma segunda parte de uma representação em código do pseudo-programa do outro algoritmo “arith_decode()” para aritmeticamente decodificar um símbolo a partir de um código de comprimento da variável;
[00044] A figura 5j mostra uma representação em código do pseudo-programa de um algoritmo para derivar os valores absolutos a,b dos valores espectrais de um valor comum m;
[00045] A figura 5k mostra uma representação em código do pseudo-programa de um algoritmo para inserir os valores decodificados a,b em uma matriz dos valores espectrais decodificados;
[00046] A figura 5l mostra uma representação em código do pseudo-programa de um algoritmo “arith_update_context()” para obter um valor da sub-região de contexto com base nos valores absolutos a,b dos valores espectrais decodificados;
[00047] A figura 5m mostra uma representação em código do pseudo-programa de um algoritmo “arith_finish()” para preencher as entradas de uma matriz dos valores espectrais decodificados e uma matriz dos valores da sub-região de contexto;
[00048] A figura 5n mostra uma representação em código do pseudo-programa de outro algoritmo para derivar valores absolutos a,b dos valores espectrais decodificados a partir de um valor comum m;
[00049] A figura 5o mostra uma representação em código do pseudo-programa de um algoritmo “arith_update_context()” para atualizar uma matriz dos valores espectrais decodificados e uma matriz de valores da sub-região de contexto;
[00050] A figura 5p mostra uma representação em código do pseudo-programa de um algoritmo “arith_save_context()” para preencher entradas de uma matriz dos valores espectrais decodificados e entradas de uma matriz de valores da sub-região de contexto;
[00051] A figura 5q mostra uma legenda das definições;
[00052] A figura 5r mostra outra legenda das definições;
[00053] A figura 6a mostra uma representação de sintaxe de um bloco de dados brutos da codificação de áudio e voz unificada (USAC);
[00054] A figura 6b mostra uma representação de sintaxe de um único elemento de canal;
[00055] A figura 6c mostra uma representação de sintaxe de um elemento do par de canais;
[00056] A figura 6d mostra uma representação de sintaxe de uma informação de controle “ICS”;
[00057] A figura 6e mostra uma representação de sintaxe de um fluxo de canal de domínio de frequência;
[00058] A figura 6f mostra uma representação de sintaxe de dados espectrais aritmeticamente codificados;
[00059] A figura 6g mostra uma representação de sintaxe para decodificar um conjunto de valores espectrais;
[00060] A figura 6h mostra outra representação de sintaxe para decodificar um conjunto de valores espectrais;
[00061] A figura 6i mostra uma legenda dos elementos de dados e variáveis;
[00062] A figura 6j mostra outra legenda de elementos de dados e variáveis;
[00063] A figura 6k mostra uma representação de sintaxe de um único elemento de canal USAC “UsacSingleChannelElement()”;
[00064] A figura 6l mostra uma representação de sintaxe de um Elemento do par de canal USAC “UsacChannelPairElement()”;
[00065] A figura 6m mostra uma representação de sintaxe de uma informação de controle “ICS”;
[00066] A figura 6n mostra uma representação de sintaxe dos dados do codificador central USAC “UsacCoreCoderData”;
[00067] A figura 6o mostra uma representação de sintaxe de um fluxo do canal de domínio de frequência “fd_channel_stream()”;
[00068] A figura 6p mostra uma representação de sintaxe dos dados espectrais aritmeticamente codificados “ac_spectral_data()”;
[00069] A figura 7 mostra um diagrama em blocos esquemático de um codificador de áudio, de acordo com o primeiro aspecto da invenção;
[00070] A figura 8 mostra um diagrama em blocos esquemático de um decodificador de áudio, de acordo com o primeiro aspecto da invenção;
[00071] A figura 9 mostra uma representação gráfica de um mapeamento de um valor de contexto corrente numérico em um valor do índice da regra de mapeamento, de acordo com o primeiro aspecto da invenção;
[00072] A figura 10 mostra um diagrama em blocos esquemático de um codificador de áudio, de acordo com um segundo aspecto da invenção;
[00073] A figura 11 mostra um diagrama em blocos esquemático de um decodificador de áudio, de acordo com o segundo aspecto da invenção;
[00074] A figura 12 mostra um diagrama em blocos esquemático de um codificador de áudio, de acordo com um terceiro aspecto da invenção;
[00075] A figura 13 mostra um diagrama em blocos esquemático de um decodificador de áudio, de acordo com o terceiro aspecto da invenção;
[00076] A figura 14a mostra uma representação esquemática de um contexto para um cálculo de estado, como é utilizado de acordo com o projeto de trabalho 4 do Padrão de Projeto USAC;
[00077] A figura 14b mostra uma visão geral das tabelas conforme utilizado no esquema de codificação aritmético de acordo com o projeto de trabalho 4 do Padrão de Projeto USAC;
[00078] A figura 15a mostra uma representação esquemática de um contexto para um cálculo de estado, como é utilizado nas realizações de acordo com a invenção;
[00079] A figura 15b mostra uma visão geral das tabelas conforme utilizado no esquema de codificação aritmético de acordo com um exemplo de comparação;
[00080] A figura 16a mostra uma representação gráfica de uma demanda de memória para somente leitura para o esquema de codificação silenciosa de acordo com um exemplo de comparação, e de acordo com o projeto de trabalho 5 do Padrão de Projeto USAC, e de acordo com a Codificação de Huffman AAC (codificação de áudio avançado);
[00081] A figura 16b mostra uma representação gráfica de uma demanda de memória para somente leitura dos dados do decodificador USAC total de acordo com um exemplo de comparação e de acordo com o conceito de acordo com o projeto de trabalho 5 do Padrão de Projeto USAC;
[00082] A figura 17 mostra uma representação esquemática de uma disposição para uma comparação de uma codificação silenciosa de acordo com o projeto de trabalho 3 ou projeto de trabalho 5 do Padrão de Projeto USAC com um esquema de codificação de acordo com o exemplo de comparação;
[00083] A figura 18 mostra uma representação em tabela das taxas de bits médios produzidos por um codificador aritmético USAC de acordo com o projeto de trabalho 3 do Padrão de Projeto USAC e de acordo com um exemplo de comparação;
[00084] A figura 19 mostra uma representação em tabela de níveis mínimo e máximo do reservatório de bits para um decodificador aritmético de acordo com o projeto de trabalho 3 do Padrão de Projeto USAC e para um decodificador aritmético de acordo com um exemplo de comparação;
[00085] A figura 20 mostra uma representação em tabela dos números da complexidade média para decodificar um fluxo de bits de 32-kbits de acordo com projeto de trabalho 3 do Padrão de Projeto USAC para diferentes versões do codificador aritmético;
[00086] A figura 21 mostra uma representação em tabela de um conteúdo de uma tabela “ari_lookup_m[742]”, de acordo com uma realização da invenção;
[00087] As figuras 22(1) a 22(4) mostram uma representação em tabela de um conteúdo de uma tabela “ari_hash_m[742]”, de acordo com uma realização da invenção;
[00088] As figuras 23(1) a 23(3) mostram uma representação em tabela de um conteúdo de uma tabela “ari_cf_m[64][17]”, de acordo com uma realização da invenção; e
[00089] A figura 24 mostra uma representação em tabela de um conteúdo de uma tabela “ari_cf_r[]”;
[00090] A figura 25 mostra uma representação esquemática de um contexto para um cálculo de estado;
[00091] A figura 26 mostra uma representação em tabela de um desempenho de codificação média para transcodificação dos fluxos de bits da qualidade de referência WD6 para um exemplo de comparação (“M17558”) e para uma realização de acordo com a invenção (“Nova Proposta”);
[00092] A figura 27 mostra uma representação em tabela de um desempenho da codificação para transcodificar os fluxos de bits da qualidade de referência WD6 por ponto operacional para um exemplo de comparação (“M17558”) e para uma realização de acordo com a invenção (“Tabelas retreinadas”)
[00093] A figura 28 mostra uma representação em tabela de uma comparação da Demanda de Memória do Codificador Silencioso para WD6, para um exemplo de comparação (“M17588”) e para uma realização de acordo com a invenção (“Nova Proposta”);
[00094] A figura 29 mostra uma representação em tabela das características das tabelas conforme utilizado em uma realização de acordo com a invenção (“Esquema de codificação retreinada”);
[00095] A figura 30 mostra uma representação em tabela de números da complexidade média para decodificar os fluxos de bits de 32kbits da qualidade de referência WD6 para as diferentes versões do codificador aritmético;
[00096] A figura 31 mostra uma representação em tabela de números da complexidade média para decodificar os fluxos de bits de 12 kbits da qualidade de referência WD6 para as diferentes versões do codificador aritmético;
[00097] A figura 32 mostra uma representação em tabela das taxas de bits médios produzidos pelo codificador aritmético em uma realização de acordo com a invenção e na WD6;
[00098] A figura 33 mostra uma representação em tabela das taxas de bits mínimos, máximos e médios de USAC em uma base utilizando o esquema proposto;
[00099] A figura 34 mostra uma representação em tabela das taxas de bits médios produzidos por um codificador USAC utilizando codificador aritmético WD6 e um codificador de acordo com uma realização de acordo com a invenção (“Nova Proposta”);
[000100] A figura 35 mostra uma representação em tabela dos melhores e piores casos para uma realização de acordo com a invenção;
[000101] A figura 36 mostra uma representação em tabela do limite de reservatório de bit para uma realização de acordo com a invenção;
[000102] A figura 37 mostra uma representação de sintaxe dos dados aritmeticamente codificados “arith_data”, de acordo com uma realização da invenção;
[000103] A figura 38 mostra uma legenda das definições dos elementos de ajuda;
[000104] A figura 39 mostra outra legenda das definições;
[000105] A figura 40a mostra uma representação em código do pseudo-programa de uma função ou algoritmo “arith_map_context”, de acordo com uma realização da invenção;
[000106] A figura 40b mostra uma representação em código do pseudo-programa de uma função ou algoritmo “arith_get_context”, de acordo com uma realização da invenção;
[000107] A figura 40c mostra uma representação em código do pseudo-programa de uma função ou algoritmo “arith_map_pk”, de acordo com uma realização da invenção;
[000108] A figura 40d mostra uma representação em código do pseudo-programa de uma primeira parte de uma função ou algoritmo “arith_decode”, de acordo com uma realização da invenção;
[000109] A figura 40e mostra uma representação em código do pseudo-programa de uma segunda parte de uma função ou algoritmo “arith_decode”, de acordo com uma realização da invenção;
[000110] A figura 40f mostra uma representação em código do pseudo-programa de uma função ou algoritmo para decodificar um ou mais bits menos significativos, de acordo com uma realização da invenção;
[000111] A figura 40g mostra uma representação em código do pseudo-programa de uma função ou algoritmo “arith_update_context”, de acordo com uma realização da invenção;
[000112] A figura 40h mostra uma representação em código do pseudo-programa de uma função ou algoritmo “arith_save_context”, de acordo com uma realização da invenção;
[000113] As figuras 41(1) e 41(2) mostram uma representação em tabela de um conteúdo de uma tabela “ari_lookup_m[742]”, de acordo com uma realização da invenção;
[000114] As figuras 42 (1) ,(2),(3),(4) mostram uma representação em tabela de um conteúdo de uma tabela “ari_hash_m[742]”, de acordo com uma realização da invenção;
[000115] As figuras 43 (1),(2),(3),(4),(5),(6) mostram uma representação em tabela de um conteúdo de uma tabela “ari_cf_m[96][17]”, de acordo com uma realização da invenção; e
[000116] A figura 44 mostra uma representação em tabela de uma tabela “ari_cf_r[4]”, de acordo com uma realização da invenção.
[000117] DESCRIÇÃO DETALHADA DAS REALIZAÇÕES
[000118] Codificador de áudio de acordo com a figura 7
[000119] A figura 7 mostra um diagrama em blocos esquemático de um codificador de áudio, de acordo com uma realização da invenção. O codificador de áudio 700 é configurado para receber uma informação de áudio de entrada 710 e para prover, com base nesta, uma informação de áudio codificada 712.
[000120] O codificador de áudio compreende um conversor de domínio de tempo em domínio de frequência com compactação de energia 720 que é configurado para prover uma representação de áudio de domínio de frequência 722 com base em uma representação de domínio de tempo da informação de áudio de entrada 710, de modo que a representação de áudio de domínio de frequência 722 compreende um conjunto de valores espectrais.
[000121] O codificador de áudio 700 também compreende um codificador aritmético 730 configurado para codificar um valor espectral (fora do conjunto dos valores espectrais que formam a representação de áudio de domínio de frequência 722), ou uma versão pré-processada desta, utilizando uma senha de comprimento variável para obter a informação de áudio codificada 712 (que pode compreender, por exemplo, diversas senhas de comprimento variável).
[000122] O codificador aritmético 730 é configurado para mapear um valor espectral, ou um valor de um plano de bits mais significativo de um valor espectral, em um valor de código (ou seja, em uma senha de comprimento variável) dependendo de um estado de contexto.
[000123] O codificador aritmético é configurado para selecionar uma regra de mapeamento que descreve um mapeamento de um valor espectral, ou de um plano de bits mais significativo de um valor espectral, em um valor de código, dependendo de um estado de contexto (corrente). O codificador aritmético é configurado para determinar o estado de contexto corrente, ou um valor de contexto corrente numérico que descreve o estado de contexto corrente, dependendo dos diversos valores espectrais previamente codificados (preferivelmente, mas não necessariamente, adjacente).
[000124] Para esta finalidade, o codificador aritmético é configurado para avaliar uma tabela hash, cujas entradas definem tanto os valores de estado significativo entre os valores de contexto numérico quanto os limites dos intervalos dos valores de contexto numérico.
[000125] A hash_table (também designada como “ari_hash_m” a seguir) é preferivelmente definida como dado na representação em tabela das figuras 22(1), 22(2), 22(3) e 22(4).
[000126] Além disso, o codificador aritmético é preferivelmente configurado para avaliar a tabela hash (ari_hash_m), para determinar se o valor de contexto corrente numérico é idêntico a um valor de contexto da tabela descrito pelas entradas da tabela hash (ari_hash_m) e/ou para determinar um intervalo descrito pelas entradas da tabela hash (ari_hash_m) no qual o valor de contexto corrente numérico se encontra, e para derivar um valor do índice da regra de mapeamento (por exemplo, designada com “pki” aqui) que descreve uma regra de mapeamento selecionada dependendo de um resultado da avaliação.
[000127] Em alguns casos, um valor do índice da regra de mapeamento pode ser individualmente associado a um valor de contexto (corrente) numérico sendo um valor de estado significativo. Ainda, um valor do índice da regra de mapeamento comum pode estar associado a diferentes valores de contexto (corrente) numérico que se encontram dentro de um intervalo ligado pelos limites de intervalo (em que os limites de intervalo são preferivelmente definidos pelas entradas da tabela hash).
[000128] Como pode ser visto, o mapeamento de um valor espectral (da representação de áudio de domínio de frequência 722), ou de um plano de bits mais significativo de um valor espectral, em um valor de código (da informação de áudio codificada 712) , pode ser realizado por uma codificação do valor espectral 740 utilizando uma regra de mapeamento 742 . Um rastreador de estado 750 pode ser configurado para rastrear o estado de contexto. O rastreador de estado 750 provê uma informação 754 que descreve o estado de contexto corrente. A informação 754 que descreve o estado de contexto corrente pode preferivelmente ter a forma de um valor de contexto corrente numérico. Um selecionador da regra de mapeamento 760 é configurado para selecionar uma regra de mapeamento, por exemplo, uma tabela de frequências cumulativas, que descreve um mapeamento de um valor espectral, ou de um plano de bits mais significativo de um valor espectral, em um valor de código. Certamente, o selecionador da regra de mapeamento 760 provê a informação da regra de mapeamento 742 para a codificação do valor espectral 740. A informação da regra de mapeamento 742 pode ter a forma de um valor do índice da regra de mapeamento ou de uma tabela de frequências cumulativas selecionada dependendo de um valor do índice da regra de mapeamento. O selecionador da regra de mapeamento 760 compreende (ou pelo menos avalia) uma tabela hash 752, cujas entradas definem tanto os valores de estado significativo entre os valores de contexto numérico e limites quanto os intervalos dos valores de contexto numérico. Preferivelmente, as entradas da tabela hash 762 (ari_hash_m[742]) são definidas como dado na representação em tabela das figuras 22(1) a 22(4). A tabela hash 762 é avaliada para selecionar a regra de mapeamento, ou seja, para prover a informação da regra de mapeamento 742.
[000129] Preferivelmente, mas não necessariamente, um valor do índice da regra de mapeamento pode ser individualmente associado a um valor de contexto numérico sendo um valor de estado significativo, e um valor do índice da regra de mapeamento comum pode ser associado a diferentes valores de contexto numérico que se encontra dentro de um intervalo ligado pelos limites de intervalo.
[000130] Para resumir o mencionado acima, o codificador de áudio 700 realiza uma codificação aritmética de uma representação de áudio de domínio de frequência provida pelo conversor de domínio de tempo em domínio de frequência. A codificação aritmética é dependente de contexto, de modo que uma regra de mapeamento (por exemplo, uma tabela de frequências cumulativas) seja selecionada dependendo dos valores espectrais previamente codificados. Certamente, os valores espectrais adjacentes em tempo e/ou frequência (ou, pelo menos, dentro de um ambiente predeterminado) um ao outro e/ou ao valor espectral atualmente codificado (ou seja, valores espectrais dentro de um ambiente predeterminado do valor espectral atualmente codificado) são considerados na codificação aritmética para ajustar a distribuição de probabilidade avaliada pela codificação aritmética. Ao selecionar uma regra de mapeamento apropriada, os valores de contexto corrente numérico 754 providos por um rastreador de estado 750 são avaliados. Como tipicamente, o número de diferentes regras de mapeamento é significantemente menor do que o número de possíveis valores dos valores de contexto corrente numérico 754, o selecionador da regra de mapeamento 760 aloca as mesmas regras de mapeamento (descritas, por exemplo, por um valor de índice de regra de mapeamento) a um número comparavelmente grande de diferentes valores de contexto numérico. Entretanto, há configurações espectrais tipicamente específicas (representadas por valores de contexto numérico específico) nos quais uma regra de mapeamento particular deve ser associada a fim de obter uma boa eficiência de codificação.
[000131] Foi observado que a seleção de uma regra de mapeamento dependendo de um valor de contexto corrente numérico pode ser realizada com eficiência computacional particularmente alta se as entradas de uma única tabela hash definir ambos os valores de estado significativo e limites dos intervalos dos valores de contexto (corrente) numérico. Além disso, foi observado que o uso da tabela hash conforme definido nas figuras 22(1), 22(2), 22(3), 22(4) traz uma eficiência de codificação particularmente alta. Foi observado que este mecanismo, em combinação com a dita tabela hash, é bem adaptado às exigências da seleção da regra de mapeamento, pois há muitos casos onde um único valor de estado significativo (ou valor de contexto numérico significativo) é embutido entre um intervalo esquerdo de diversos valores de estado não significativos (nos quais uma regra de mapeamento comum está associada) e um intervalo direito de diversos valores de estado não significativos (nos quais uma regra de mapeamento comum está associada). Ainda, o mecanismo da utilização de uma única tabela hash, cujas entradas são definidas nas tabelas das figuras 22(1), 22(2), 22(3), 22(4) e definem tanto os valores de estado significativo quanto os limites de intervalos dos valores de contexto (corrente) numérico podem eficientemente lidar com diferentes casos, onde, por exemplo, há dois intervalos de valores de estado não significativos adjacentes (também designados como valores de contexto não significativo numérico) sem um valor de estado significativo entre eles. Uma eficiência computacional particularmente alta é obtida devido a um número de acessos da tabela sendo mantidos pequenos. Por exemplo, uma única pesquisa de tabela iterativa é suficiente na maioria das realizações a fim de descobrir se o valor de contexto corrente numérico é igual a qualquer um dos valores de estado significativos, ou em quais dos intervalos de valores de estado não significativos o valor de contexto corrente numérico permanece. Consequentemente, o número de acessos da tabela que consomem tempo e energia pode ser mantido pequeno. Assim, o selecionador da regra de mapeamento 760, que utiliza a tabela hash 762, pode ser considerado como um selecionador da regra de mapeamento particularmente eficiente em termos de complexidade computacional, enquanto ainda permitem obter uma boa eficiência de codificação (em termos de taxa de bit).
[000132] Outros detalhes referentes à derivação da informação da regra de mapeamento 742 do valor de contexto corrente numérico 754 serão descritos abaixo.
[000133] Decodificador de áudio de acordo com a figura 8
[000134] A figura 8 mostra um diagrama em blocos esquemático de um decodificador de áudio 800. O decodificador de áudio 800 é configurado para receber uma informação de áudio codificada 810 e para prover, com base neste, uma informação de áudio decodificada 812.
[000135] O decodificador de áudio 800 compreende um decodificador aritmético 820 que é configurado para prover diversos valores espectrais 822 com base em uma representação aritmeticamente codificada 821 dos valores espectrais.
[000136] O decodificador de áudio 800 também compreende um conversor de domínio de frequência em domínio de tempo 830 que é configurado para receber os valores espectrais decodificados 822 e para prover a representação de áudio de domínio de tempo 812, que pode constituir a informação de áudio decodificada, utilizando os valores espectrais decodificados 822, para obter uma informação de áudio decodificada 812.
[000137] O decodificador aritmético 820 compreende um valor espectral determinador 824, que é configurado para mapear um valor de código da representação aritmeticamente codificada 821 dos valores espectrais em um código de símbolo representando um ou mais dos valores espectrais decodificados, ou pelo menos uma parte (por exemplo, um plano de bits mais significativo) de um ou mais dos valores espectrais decodificados. O valor espectral determinador 824 pode ser configurado para realizar um mapeamento dependendo de uma regra de mapeamento, que pode ser descrita por uma informação da regra de mapeamento 828a. A informação da regra de mapeamento 828a pode, por exemplo, ter a forma de um valor do índice da regra de mapeamento, ou de uma tabela de frequências cumulativas selecionada (selecionada, por exemplo, dependendo de um valor do índice da regra de mapeamento).
[000138] O decodificador aritmético 820 é configurado para selecionar uma regra de mapeamento (por exemplo, uma tabela de frequências cumulativas) que descreve um mapeamento do valor de códigos (descrito pela representação aritmeticamente codificada 821 dos valores espectrais) em um código de símbolo (que descreve um ou mais valores espectrais, ou um plano de bits mais significativo desta, em uma forma decodificada) dependendo de um estado de contexto (que pode ser descrito pela informação do estado de contexto 826a).
[000139] O decodificador aritmético 820 é configurado para determinar o estado de contexto corrente (descrito pelo valor de contexto corrente numérico) dependendo dos diversos valores espectrais previamente decodificados. Para esta finalidade, um rastreador de estado 826 pode ser utilizado, que recebe uma informação que descreve os valores espectrais previamente decodificados e que provê, com base neste, um valor de contexto corrente numérico 826a que descreve o estado de contexto corrente.
[000140] O decodificador aritmético também é configurado para avaliar uma tabela hash 829, cujas entradas definem tanto os valores de estado significativo entre os valores de contexto numérico quanto os limites dos intervalos dos valores de contexto numérico, para selecionar a regra de mapeamento. Preferivelmente, as entradas da tabela hash 829 (ari_hash_m[742]) são definidas como dado na representação em tabela das figuras 22(1) a 22(4). A tabela hash 829 é avaliada para selecionar a regra de mapeamento, ou seja, a fim de prover a informação da regra de mapeamento 829.
[000141] Preferivelmente, um valor do índice da regra de mapeamento é individualmente associado a um valor de contexto numérico sendo um valor de estado significativo, e um valor do índice da regra de mapeamento comum é associado a diferentes valores de contexto numérico que se encontram dentro de um intervalo ligado pelos limites de intervalo. A avaliação da tabela hash 829 pode, por exemplo, ser realizada utilizando um avaliador da tabela hash que pode ser parte do selecionador da regra de mapeamento 828. Certamente, uma informação da regra de mapeamento 828a, por exemplo, na forma de um valor do índice da regra de mapeamento, é obtido com base no valor de contexto corrente numérico 826a que descreve o estado de contexto corrente. O selecionador da regra de mapeamento 828 pode, por exemplo, determinar o valor do índice da regra de mapeamento 828a dependendo de um resultado da avaliação da tabela hash 829. De modo alternativo, a avaliação da tabela hash 829 pode prover diretamente o valor do índice da regra de mapeamento.
[000142] Referente à funcionalidade do decodificador de sinal de áudio 800, deve ser observado que o decodificador aritmético 820 é configurado para selecionar uma regra de mapeamento (por exemplo, a tabela de frequências cumulativas) que é, em média, bem adaptada aos valores espectrais a ser decodificados, conforme a regra de mapeamento é selecionada dependendo do estado de contexto corrente (descrito, por exemplo, pelo valor de contexto corrente numérico), que por sua vez é determinado dependendo dos diversos valores espectrais previamente decodificados. Assim, as dependências estatísticas entre os valores espectrais adjacentes a ser codificados podem ser explorados. Além disso, o decodificador aritmético 820 pode ser implementado eficientemente, com uma boa troca entre a complexidade computacional, tamanho da tabela, e eficiência da codificação, que utiliza o selecionador da regra de mapeamento 828. Pela avaliação de uma (única) tabela hash 829, nas entradas que descrevem ambos os valores de estado significativos e limites de intervalo dos intervalos de valores de estado não significativos, uma única pesquisa de tabela iterativa pode ser suficiente a fim de derivar a informação da regra de mapeamento 828a do valor de contexto corrente numérico 826a. Além disso, foi observado que o uso da tabela hash conforme definido nas figuras 22(1), 22(2), 22(3), 22(4) traz uma eficiência de codificação particularmente alta. Certamente, é possível mapear um número de possíveis valores de contexto (corrente) numérico diferentes comparavelmente grandes em um número de diferentes valores do índice da regra de mapeamento comparavelmente pequeno. Assim, é possível mapear um número comparavelmente grande de diferentes possíveis valores de contexto (corrente) numéricos em um número comparavelmente pequeno de diferentes valores de índice de regra de mapeamento. Utilizando a tabela hash 829, conforme descrito acima, e conforme definido na representação em tabela das figuras 22(1) a 22(4), é possível explicar a observação que, em muitos casos, um único valor de estado significativo isolado (valor de contexto significativo) é incorporado entre um intervalo esquerdo de valores de estado não significativos (valores de contexto não significativos) e um intervalo direito de valores de estado não significativos (valores de contexto não significativos), em que um diferente valor de índice de regra de mapeamento é associado ao valor de estado significativo (valor de contexto significativo), quando comparado aos valores de estado (valores de contexto) do intervalo esquerdo e os valores de estado (valores de contexto) do intervalo direito. Entretanto, o uso da tabela hash 829 é também bem adequado para situações em que os dois intervalos de valores de estado numérico são imediatamente adjacentes, sem um valor de estado significativo entre eles.
[000143] Para concluir, o selecionador da regra de mapeamento 828, que avalia a tabela hash 829 “ari_hash_m[742], traz uma eficiência particularmente boa ao selecionar uma regra de mapeamento (ou ao prover um valor do índice da regra de mapeamento) dependendo do estado de contexto corrente (ou dependendo do valor de contexto corrente numérico que descreve o estado de contexto corrente), pois o mecanismo de hashing é bem adaptado aos típicos cenários de contexto em um decodificador de áudio.
[000144] Outros detalhes serão descritos abaixo.
[000145] Mecanismo de Hashing do valor de contexto de acordo com a figura 9
[000146] A seguir, um mecanismo de hashing de contexto será revelado, que pode ser implementado no selecionador da regra de mapeamento 760 e/ou no selecionador da regra de mapeamento 828. A tabela hash 762 e/ou a tabela hash 829, conforme definido na representação em tabela das figuras 22(1) a 22(4), podem ser utilizadas para implementar o dito valor de mecanismo de hashing de contexto.
[000147] Agora com referência à figura 9, que mostra um cenário de hashing do valor de contexto corrente numérico, outros detalhes serão descritos. Na representação gráfica da figura 9, uma abscissa 910 descreve valores do valor de contexto corrente numérico (ou seja, valores de contexto numéricos). Uma ordenada 912 descreve valores de índice de regra de mapeamento. As marcações 914 descrevem valores de índice de regra de mapeamento para valores de contexto não significativos numéricos (que descrevem estados não significativos). As marcações 916 descrevem os valores de índice de regra de mapeamento para valores de contexto significativos numéricos “individuais” (verdadeiros) que descrevem estados significativos individuais (verdadeiros). As marcações 916 descrevem valores de índice de regra de mapeamento para valores de contexto numéricos “impróprios” que descrevem estados significativos “impróprios”, em que um estado significativo “impróprio” é um estado significativo no qual o mesmo valor de índice de regra de mapeamento está associado a um dos intervalos de contexto adjacentes de contextos não significativos numéricos.
[000148] Como pode ser visto, uma entrada da tabela hash “ari_hash_m[i1]” descreve um estado significativo individual (verdadeiro) tendo um valor de contexto numérico de c1. Como pode ser visto, o valor do índice da regra de mapeamento mriv1 está associado ao estado significativo individual (verdadeiro) tendo o valor de contexto numérico c1. Certamente, tanto o valor de contexto numérico c1 quanto o valor do índice da regra de mapeamento mriv1 podem ser descritos pela entrada da tabela hash “ari_hash_m[i1]”. Um intervalo 932 dos valores de contexto numérico é ligado pelo valor de contexto numérico c1, em que o valor de contexto numérico c1 não pertence ao intervalo 932, de modo que o maior valor de contexto numérico do intervalo 932 seja igual a cl — 1. Um valor do índice da regra de mapeamento de mriv4 (que é diferente de mriv1) é associado com os valores de contexto numérico do intervalo 932. O valor do índice da regra de mapeamento mriv4 pode, por exemplo, ser descrito pela entrada da tabela “ari_lookup_m[i1-1]” de uma tabela adicional “ari_lookup_m”.
[000149] Além disso, um valor do índice da regra de mapeamento mriv2 pode ser associado com os valores de contexto numérico que se encontram dentro de um intervalo 934. Uma ligação inferior do intervalo 934 é determinado pelo valor de contexto numérico c1, que é um valor de contexto numérico significativo, em que o valor de contexto numérico c1 não pertence ao intervalo 932. Certamente, o menor valor do intervalo 934 é igual a c1 + 1 (assumindo valores de número inteiro de contexto numérico). Outro limite do intervalo 934 é determinado pelo valor de contexto numérico c2, em que o valor de contexto numérico c2 não pertence ao intervalo 934, de modo que o maior valor do intervalo 934 é igual a c2 - 1. O valor de contexto numérico c2 é um assim chamado valor de contexto numérico “impróprio”, que é descrito por uma entrada da tabela hash “ari_hash_m[i2]”. Por exemplo, o valor do índice da regra de mapeamento mriv2 pode ser associado com o valor de contexto numérico c2, de modo que o valor de contexto numérico associado com o valor de contexto numérico “impróprio” significativo c2 seja igual ao valor do índice da regra de mapeamento associado com o intervalo 934 ligado pelo valor de contexto numérico c2. Além disso, um intervalo 936 do valor de contexto numérico também é ligado pelo valor de contexto numérico c2, em que o valor de contexto numérico c2 não pertence ao intervalo 936, de modo que o menor valor de contexto numérico do intervalo 936 é igual a c2 + 1. Um valor do índice da regra de mapeamento mriv3, que é tipicamente diferente do valor do índice da regra de mapeamento mriv2, é associado com os valores de contexto numérico do intervalo 936.
[000150] Como pode ser visto, o valor do índice da regra de mapeamento mriv4, que é associado ao intervalo 932 dos valores de contexto numérico, pode ser descrito por uma entrada “ari_lookup_m[i1-1]” de uma tabela “ari_lookup_m”, o índice da regra de mapeamento mriv2, que é associado com os valores de contexto numérico do intervalo 934, pode ser descrito por uma entrada da tabela “ari_lookup_m[i1]” da tabela “ari_lookup_m”, e o valor do índice da regra de mapeamento mriv3 pode ser descrito por uma entrada da tabela “ari_lookup_m[i2]” da tabela “ari_lookup_m”. No exemplo dado aqui, o valor do índice da tabela hash i2, pode ser maior, em 1, do que o valor do índice da tabela hash i1.
[000151] Como pode ser visto da figura 9, o selecionador da regra de mapeamento 760 ou o selecionador da regra de mapeamento 828 pode receber um valor de contexto corrente numérico 764, 826a, e decidir, avaliando as entradas da tabela “ari_hash_m”, se o valor de contexto corrente numérico é um valor de estado significativo (independente se for um valor de estado significativo “individual” ou um valor de estado significativo “impróprio”), ou se o valor de contexto corrente numérico dentro de um dos intervalos 932, 934, 936, que são delimitados pelos valores de estado significativos (“individuais” ou “impróprios”) c1, c2. Tanto a verificação se o valor de contexto corrente numérico é igual a um valor de estado significativo c1, c2 quanto uma avaliação dos intervalos 932, 934, 936 na qual o valor de contexto corrente numérico permanece (no caso em que o valor de contexto corrente numérico não é igual a um valor de estado significativo) podem ser realizadas utilizando uma única pesquisa comum da tabela hash.
[000152] Além disso, uma avaliação da tabela hash “ari_hash_m” pode ser utilizada para obter um valor do índice da tabela hash (por exemplo, i1-1, i1 ou i2). Assim, o selecionador da regra de mapeamento 760, 828 pode ser configurado para obter, avaliando uma única tabela hash 762, 829 (por exemplo, a tabela hash “ari_hash_m”), um valor do índice da tabela hash (por exemplo, i1-1, i1 ou i2) designando um valor de estado significativo (por exemplo, c1 ou c2) e/ou um intervalo (por exemplo, 932,934,936) e uma informação se o valor de contexto corrente numérico for um valor de contexto significativo (também designado como valor de estado significativo) ou não.
[000153] Além disso, se for observado em uma avaliação da tabela hash 762, 829, “ari_hash_m”, que o valor de contexto corrente numérico não é um valor de contexto “significativo” (ou valor de estado “significativo”), o valor do índice da tabela hash (por exemplo, i1-1, i1 ou i2) obtido de uma avaliação da tabela hash (“ari_hash_m”) pode ser utilizado para obter um valor de índice de regra de mapeamento associado a um intervalo 932, 934, 936 de valores de contexto numéricos. Por exemplo, o valor do índice da tabela hash (por exemplo, i1-1, i1 ou i2) pode ser utilizado para designar uma entrada da tabela de mapeamento adicional (por exemplo, “ari_lookup_m”), que descreve os valores de índice de regra de mapeamento associados aos intervalos 932, 934, 936 cujo valor de contexto corrente numérico se encontra.
[000154] Para mais detalhes, a referência é feita à discussão detalhada abaixo do algoritmo “arith_get_pk” (em que há diferentes opções para este algoritmo “arith_get_pk()”, exemplos dos quais são mostrados nas figuras 5e e 5f).
[000155] Além disso, deve ser observado que o tamanho dos intervalos pode diferir de um caso para outro. Em alguns casos, um intervalo de valores de contexto numéricos compreende um único valor de contexto numérico. Entretanto, em muitos casos, um intervalo pode compreender diversos valores de contexto numéricos.
[000156] Codificador de áudio de acordo com a figura 10
[000157] A figura 10 mostra um diagrama em blocos esquemático de um codificador de áudio 1000 de acordo com uma realização da invenção. O codificador de áudio 1000 de acordo com a figura 10 é semelhante ao codificador de áudio 700 de acordo com a figura 7, de modo que sinais e meios idênticos são designados com numerais de referência idênticos nas figuras 7 e 10.
[000158] O codificador de áudio 1000 é configurado para receber uma informação de áudio de entrada 710 e para prover, com base neste, uma informação de áudio codificada 712. O codificador de áudio 1000 compreende um conversor de domínio de tempo em domínio de frequência com compactação de energia 720, que é configurado para prover uma representação de domínio de frequência 722 com base em uma representação de domínio de tempo da informação de áudio de entrada 710, de modo que a representação de áudio de domínio de frequência 722 compreenda um conjunto de valores espectrais. O codificador de áudio 1000 também compreende um codificador aritmético 1030 configurado para codificar um valor espectral (fora do conjunto dos valores espectrais que formam a representação de áudio de domínio de frequência 722), ou uma versão pré-processada desta, utilizando uma senha de comprimento variável para obter a informação de áudio codificada 712 (que pode compreender, por exemplo, diversas senhas de comprimento variável).
[000159] O codificador aritmético 1030 é configurado para mapear um valor espectral, ou diversos valores espectrais, ou um valor de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código (ou seja, em uma senha de comprimento variável) dependendo de um estado de contexto. O codificador aritmético 1030 é configurado para selecionar uma regra de mapeamento que descreve um mapeamento de um valor espectral, ou de diversos valores espectrais, ou de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código dependendo de um estado de contexto. O codificador aritmético é configurado para determinar o estado de contexto corrente dependendo dos diversos valores espectrais previamente codificados (preferivelmente, não necessariamente adjacentes). Para esta finalidade, o codificador aritmético é configurado para modificar uma representação numérica de um valor de contexto prévio numérico, que descreve um estado de contexto associado com um ou mais valores espectrais previamente codificados (por exemplo, para selecionar uma regra de mapeamento correspondente), dependendo de um valor da sub-região de contexto, para obter uma representação numérica de um valor de contexto corrente numérico que descreve um estado de contexto associado com um ou mais valores espectrais a ser codificados (por exemplo, para selecionar uma regra de mapeamento correspondente).
[000160] Como pode ser visto, o mapeamento de um valor espectral, ou de diversos valores espectrais, ou de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código pode ser realizado por uma codificação do valor espectral 740 utilizando uma regra de mapeamento descrita por uma informação da regra de mapeamento 742. Um rastreador de estado 750 pode ser configurado para rastrear o estado de contexto. O rastreador de estado 750 pode ser configurado para modificar uma representação numérica de um valor de contexto prévio numérico, que descreve um estado de contexto associado com uma codificação de um ou mais valores espectrais previamente codificados, dependendo de um valor da sub-região de contexto, para obter uma representação numérica de um valor de contexto corrente numérico que descreve um estado de contexto associado com uma codificação de um ou mais valores espectrais a ser codificados. A modificação da representação numérica do valor de contexto prévio numérico pode, por exemplo, ser realizada por um modificador da representação numérica 1052, que recebe o valor de contexto prévio numérico e um ou mais valores da sub-região de contexto e provê o valor de contexto corrente numérico. Certamente, o rastreador de estado 1050 provê uma informação 754 que descreve o estado de contexto corrente, por exemplo, na forma de um valor de contexto corrente numérico. Um selecionador da regra de mapeamento 1060 pode selecionar uma regra de mapeamento, por exemplo, uma tabela de frequências cumulativas, que descreve um mapeamento de um valor espectral, ou de diversos valores espectrais, ou de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código. Certamente, o selecionador da regra de mapeamento 1060 provê a informação da regra de mapeamento 742 à codificação espectral 740.
[000161] Deve ser observado que, em algumas realizações, o rastreador de estado 1050 pode ser idêntico ao rastreador de estado 750 ou ao rastreador de estado 826. Também deve ser observado que o selecionador da regra de mapeamento 1060 pode, em algumas realizações, ser idêntico ao selecionador da regra de mapeamento 760, ou ao selecionador da regra de mapeamento 828. Preferivelmente, o selecionador da regra de mapeamento 828 pode ser configurado para utilizar uma tabela hash “ari_hash_m[742]”, conforme definido na representação em tabela das figuras 22(1) a 22(4), para a seleção da regra de mapeamento. Por exemplo, o selecionador da regra de mapeamento pode realizar a funcionalidade conforme descrito acima com referência às figuras 7 e 8.
[000162] Para resumir o mencionado acima, o codificador de áudio 1000 realiza uma codificação aritmética de uma representação de áudio de domínio de frequência provida pelo conversor de domínio de tempo em domínio de frequência. A codificação aritmética é dependente de contexto, de modo que uma regra de mapeamento (por exemplo, uma tabela de frequências cumulativas) seja selecionada dependendo dos valores espectrais previamente codificados. Certamente, os valores espectrais adjacentes em tempo e/ou frequência (ou pelo menos dentro de um ambiente predeterminado) um ao outro e/ou ao valor espectral atualmente codificado (ou seja, valores espectrais dentro de um ambiente predeterminado do valor espectral atualmente codificado) são considerados na codificação aritmética para ajustar a distribuição de probabilidade avaliada pela codificação aritmética.
[000163] Ao determinar o valor de contexto corrente numérico, uma representação numérica de um valor de contexto prévio numérico, que descreve um estado de contexto associado a um ou mais valores espectrais previamente codificados, é modificado dependendo de um valor da sub-região de contexto, para obter uma representação numérica de um valor de contexto corrente numérico que descreve um estado de contexto associado a um ou mais valores espectrais a ser codificados. Esta abordagem permite evitar um recálculo completo do valor de contexto corrente numérico, cujo recálculo completo consome uma quantidade significante de recursos nas abordagens convencionais. Uma grande variedade de possibilidades existe para a modificação da representação numérica do valor de contexto prévio numérico, incluindo uma combinação de um redimensionamento de uma representação numérica do valor de contexto prévio numérico, uma adição de um valor da sub-região de contexto ou um valor derivado deste para a representação numérica do valor de contexto prévio numérico ou a uma representação numérica processada do valor de contexto prévio numérico, uma substituição de uma parte da representação numérica (em vez de toda a representação numérica) do valor de contexto prévio numérico dependendo do valor da sub-região de contexto, e assim por diante. Assim, tipicamente a representação numérica do valor de contexto corrente numérico é obtida com base na representação numérica do valor de contexto prévio numérico e também com base em pelo menos um valor da sub-região de contexto, em que tipicamente uma combinação de operações é realizada para combinar o valor de contexto prévio numérico com um valor da sub-região de contexto, como, por exemplo, duas ou mais operações fora de uma operação de adição, uma operação de subtração, uma operação de multiplicação, uma operação de divisão, uma operação Boolean-AND, uma operação Boolean-OR, uma operação Boolean-NAND, uma operação Boolean NOR, uma operação Boolean-negation, uma operação complementar ou uma operação de mudança. Assim, pelo menos uma parte da representação numérica do valor de contexto prévio numérico é tipicamente mantida inalterada (exceto para uma mudança opcional em uma posição diferente) ao derivar o valor de contexto corrente numérico do valor de contexto prévio numérico. Em contrapartida, outras partes da representação numérica do valor de contexto prévio numérico são mudadas dependendo de um ou mais valores da sub-região de contexto. Assim, o valor de contexto corrente numérico pode ser obtido com um esforço computacional comparavelmente pequeno, enquanto evita um recálculo completo do valor de contexto corrente numérico.
[000164] Assim, um valor de contexto corrente numérico significativo pode ser obtido, que é bem adequado para o uso pelo selecionador da regra de mapeamento 1060, e que é particularmente bem adequado para uso em combinação com a tabela hash ari_hash_m conforme definido na representação em tabela das figuras 22(1),22(2),22(3),22(4).
[000165] Consequentemente, uma codificação eficiente pode ser obtida mantendo o cálculo de contexto suficientemente simples.
[000166] Decodificador de áudio de acordo com a figura 11
[000167] A figura 11 mostra um diagrama em blocos esquemático de um decodificador de áudio 1100. O decodificador de áudio 1100 é semelhante ao decodificador de áudio 800 de acordo com a figura 8, de modo que os sinais, meios e funcionalidades idênticos sejam designados com numerais de referência idênticos.
[000168] O decodificador de áudio 1100 é configurado para receber uma informação de áudio codificada 810 e para prover, com base neste, uma informação de áudio decodificada 812. O decodificador de áudio 1100 compreende um decodificador aritmético 1120 que é configurado para prover diversos valores espectrais decodificados 822 com base em uma representação aritmeticamente codificada 821 dos valores espectrais. O decodificador de áudio 1100 também compreende um conversor de domínio de frequência em domínio de tempo 830 que é configurado para receber os valores espectrais decodificados 822 e para prover a representação de áudio de domínio de tempo 812, que pode constituir a informação de áudio decodificada, utilizando os valores espectrais decodificados 822, para obter uma informação de áudio decodificada 812.
[000169] O decodificador aritmético 1120 compreende um determinador do valor espectral 824, que é configurado para mapear um valor de código da representação aritmeticamente codificada 821 dos valores espectrais em um código de símbolo representando um ou mais dos valores espectrais decodificados, ou pelo menos uma parte (por exemplo, um plano de bits mais significativo) de um ou mais dos valores espectrais decodificados. O determinador do valor espectral 824 pode ser configurado para realizar o mapeamento dependendo de uma regra de mapeamento, que pode ser descrito por uma informação da regra de mapeamento 828a. A informação da regra de mapeamento 828a pode, por exemplo, compreender um valor do índice da regra de mapeamento, ou pode compreender um conjunto de entradas selecionado de uma tabela de frequências cumulativas.
[000170] O decodificador aritmético 1120 é configurado para selecionar uma regra de mapeamento (por exemplo, uma tabela de frequências cumulativas) que descreve um mapeamento de um valor de código (descrito pela representação aritmeticamente codificada 821 dos valores espectrais) em um código de símbolo (que descreve um ou mais valores espectrais) dependendo de um estado de contexto, cujo estado de contexto pode ser descrito pela informação do estado de contexto 1126a. A informação do estado de contexto 1126a pode ter a forma de um valor de contexto corrente numérico. O decodificador aritmético 1120 é configurado para determinar o estado de contexto corrente dependendo dos diversos valores espectrais previamente decodificados 822. Para esta finalidade, um rastreador de estado 1126 pode ser utilizado, que recebe uma informação que descreve os valores espectrais previamente decodificados. O decodificador aritmético é configurado para modificar uma representação numérica do valor de contexto prévio numérico, que descreve um estado de contexto associado com um ou mais valores espectrais previamente decodificados, dependendo de um valor da sub-região de contexto, para obter uma representação numérica de um valor de contexto corrente numérico que descreve um estado de contexto associado com um ou mais valores espectrais a ser decodificado. Uma modificação da representação numérica do valor de contexto prévio numérico pode, por exemplo, ser realizada por um modificador da representação numérica 1127, que faz parte do rastreador de estado 1126. Certamente, a informação do estado de contexto corrente 1126a é obtida, por exemplo, na forma de um valor de contexto corrente numérico. A seleção da regra de mapeamento pode ser realizada por um selecionador da regra de mapeamento 1128, que deriva uma informação da regra de mapeamento 828a da informação do estado de contexto corrente 1126a, e que provê a informação da regra de mapeamento 828a ao determinador do valor espectral 824. Preferivelmente, o selecionador da regra de mapeamento 1128 pode ser configurado para utilizar uma tabela hash “ari_hash_m[742]”, conforme definido na representação em tabela das figuras 22(1) a 22(4), para a seleção da regra de mapeamento. Por exemplo, o selecionador da regra de mapeamento pode realizar a funcionalidade conforme descrito acima com referência às figuras 7 e 8.
[000171] Referente à funcionalidade do decodificador de sinal de áudio 1100, deve ser observado que o decodificador aritmético 1120 é configurado para selecionar uma regra de mapeamento (por exemplo, a tabela de frequências cumulativas) que é, em média, bem adaptada ao valor espectral a ser decodificado, conforme a regra de mapeamento é selecionada dependendo do estado de contexto corrente, que, por sua vez, é determinada dependendo de diversos valores espectrais previamente decodificados. Assim, as dependências estatísticas entre os valores espectrais adjacentes a ser decodificados podem ser explicadas.
[000172] Além disso, modificando uma representação numérica de um valor de contexto prévio numérico que descreve um estado de contexto associado a uma decodificação de um ou mais valores espectrais previamente decodificados, dependendo de um valor da sub-região de contexto, para obter uma representação numérica de um valor de contexto corrente numérico que descreve um estado de contexto associado a uma decodificação de um ou mais valores espectrais a ser decodificados, é possível obter uma informação significativa sobre o estado de contexto corrente, que é bem adequado para um mapeamento de um valor do índice da regra de mapeamento, e que é particularmente bem adequado para uso em combinação com a tabela hash ari_hash_m conforme definido na representação em tabela das figuras 22(1),22(2),22(3),22(4), com esforço computacional comparavelmente pequeno. Mantendo pelo menos uma parte de uma representação numérica do valor de contexto prévio numérico (possivelmente em um mudado por bit ou uma versão escalada) enquanto atualiza outra parte da representação numérica do valor de contexto prévio numérico dependendo dos valores da sub-região de contexto que não foram considerados no valor de contexto prévio numérico, mas que deve ser considerados no valor de contexto corrente numérico, um número de operações para derivar o valor de contexto corrente numérico pode ser mantido razoavelmente pequeno. Ainda, é possível explorar o fato de que os contextos utilizados para decodificar os valores espectrais adjacentes são tipicamente semelhantes ou correlacionados. Por exemplo, um contexto para uma decodificação de um primeiro valor espectral (ou de uma primeira pluralidade de valores espectrais) é dependente de um primeiro conjunto de valores espectrais previamente decodificados. Um contexto de decodificação de um segundo valor espectral (ou um segundo conjunto de valores espectrais), que é adjacente ao primeiro valor espectral (ou o primeiro conjunto de valores espectrais) pode compreender um segundo conjunto de valores espectrais previamente decodificados. Como o primeiro valor espectral e o segundo valor espectral são assumidos como adjacentes (por exemplo, com relação às frequências associadas), o primeiro conjunto de valores espectrais, que determina o contexto para a codificação do primeiro valor espectral, pode compreender certa sobreposição com o segundo conjunto de valores espectrais, que determina o contexto para a decodificação do segundo valor espectral. Assim, pode ser facilmente entendido que o estado de contexto para a decodificação do segundo valor espectral compreenda certa correlação com o estado de contexto para a decodificação do primeiro valor espectral. Uma eficiência computacional da derivação de contexto, ou seja, da derivação do valor de contexto corrente numérico, pode ser obtido explorando tais correlações. Foi observado que a correlação entre os estados de contexto para uma decodificação de valores espectrais adjacentes (por exemplo, entre o estado de contexto descrito pelo valor de contexto prévio numérico e pelo estado de contexto descrito pelo valor de contexto corrente numérico) pode ser explorada eficientemente modificando somente estas partes do valor de contexto prévio numérico que são dependentes dos valores da sub-região de contexto não considerados para a derivação do estado de contexto numérico anterior, e derivando o valor de contexto corrente numérico do valor de contexto prévio numérico.
[000173] Para concluir, os conceitos descritos aqui permitem uma eficiência computacional particularmente boa ao derivar o valor de contexto corrente numérico.
[000174] Outros detalhes serão descritos abaixo.
[000175] Codificador de áudio de acordo com a figura 12
[000176] A figura 12 mostra um diagrama em blocos esquemático de um codificador de áudio, de acordo com uma realização da invenção. O codificador de áudio 1200 de acordo com a figura 12 é semelhante ao codificador de áudio 700 de acordo com a figura 7, de modo que meios, sinais e funcionalidades idênticos sejam designados com numerais de referência idênticos.
[000177] O codificador de áudio 1200 é configurado para receber uma informação de áudio de entrada 710 e para prover, com base neste, uma informação de áudio codificada 712. O codificador de áudio 1200 compreende um conversor de domínio de tempo em domínio de frequência com compactação de energia 720 que é configurado para prover uma representação de áudio de domínio de frequência 722 com base em uma representação de áudio de domínio de tempo da informação de áudio de entrada 710, de modo que a representação de áudio de domínio de frequência 722 compreenda um conjunto de valores espectrais. O codificador de áudio 1200 também compreende um codificador aritmético 1230 configurado para codificar um valor espectral (fora do conjunto dos valores espectrais que forma a representação de áudio de domínio de frequência 722), ou diversos valores espectrais, ou uma versão pré-processada desta, utilizando uma senha de comprimento variável para obter a informação de áudio codificada 712 (que pode compreender, por exemplo, diversas senhas de comprimento variável.
[000178] O codificador aritmético 1230 é configurado para mapear um valor espectral, ou diversos valores espectrais, ou um valor de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código (ou seja, em uma senha de comprimento variável), dependendo de um estado de contexto. O codificador aritmético 1230 é configurado para selecionar uma regra de mapeamento que descreve um mapeamento de um valor espectral, ou de diversos valores espectrais, ou de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código, dependendo em um estado de contexto. O codificador aritmético é configurado para determinar o estado de contexto corrente dependendo dos diversos valores espectrais previamente codificados (preferivelmente, mas não necessariamente, adjacentes). Para esta finalidade, o codificador aritmético é configurado para obter diversos valores da sub-região de contexto com base nos valores espectrais previamente codificados, para armazenar os ditos valores da sub- região de contexto, e para derivar um valor de contexto corrente numérico associado a um ou mais valores espectrais a ser codificados dependendo dos valores de sub-região de contexto armazenados. Além disso, o codificador aritmético é configurado para calcular a norma de um vetor formado por diversos valores espectrais previamente codificados, para obter um valor comum da sub-região de contexto associado aos diversos valores espectrais previamente codificados.
[000179] Como pode ser visto, o mapeamento de um valor espectral, ou de diversos valores espectrais, ou de um plano de bits mais significativo de um valor espectral ou de diversos valores espectrais, em um valor de código pode ser realizado por uma codificação do valor espectral 740 utilizando uma regra de mapeamento descrita por uma informação da regra de mapeamento 742. Um rastreador de estado 1250 pode ser configurado para rastrear o estado de contexto e pode compreender um computador do valor da sub-região de contexto 1252, para calcular a norma de um vetor formado por diversos valores espectrais previamente codificados, para obter um valor comum da sub-região de contexto associado aos diversos valores espectrais previamente codificados. O rastreador de estado 1250 também é preferivelmente configurado para determinar o estado de contexto corrente dependendo de um resultado do dito cálculo de um valor da sub-região de contexto realizado pelo computador do valor da sub-região de contexto 1252. Certamente, o rastreador de estado 1250 provê uma informação 1254, que descreve o estado de contexto corrente. Um selecionador da regra de mapeamento 1260 pode selecionar uma regra de mapeamento, por exemplo, uma tabela de frequências cumulativas, que descreve um mapeamento de um valor espectral, ou de um plano de bits mais significativo de um valor espectral, em um valor de código. Certamente, o selecionador da regra de mapeamento 1260 provê a informação da regra de mapeamento 742 à codificação espectral 740. Preferivelmente, o selecionador da regra de mapeamento 1260 pode ser configurado para utilizar uma tabela hash “ari_hash_m[742]”, conforme definido na representação em tabela das figuras 22(1) a 22(4), para a seleção da regra de mapeamento. Por exemplo, o selecionador da regra de mapeamento pode realizar a funcionalidade conforme descrito acima com referência às figuras 7 e 8.
[000180] Para resumir o mencionado acima, o codificador de áudio 1200 realiza uma codificação aritmética de uma representação de áudio de domínio de frequência provida pelo conversor de domínio de tempo em domínio de frequência 720. A codificação aritmética é dependente do contexto, de modo que uma regra de mapeamento (por exemplo, uma tabela de frequências cumulativas) seja selecionada dependendo dos valores espectrais previamente codificados. Certamente, os valores espectrais adjacentes em tempo e/ou frequência (ou, pelo menos, dentro de um ambiente predeterminado) um ao outro e/ou ao valor espectral atualmente codificado (ou seja, valores espectrais dentro de um ambiente predeterminado do valor espectral atualmente codificado) são considerados na codificação aritmética para ajustar a distribuição de probabilidade avaliada pela codificação aritmética.
[000181] A fim de prover um valor de contexto corrente numérico, um valor da sub-região de contexto associado aos diversos valores espectrais previamente codificados é obtido com base em um cálculo de uma norma de um vetor formado pelos diversos valores espectrais previamente codificados. O resultado da determinação do valor de contexto corrente numérico é aplicado na seleção do estado de contexto corrente, ou seja, na seleção de uma regra de mapeamento.
[000182] Calculando a norma de um vetor formado por diversos valores espectrais previamente codificados, uma informação significativa que descreve uma parte do contexto de um ou mais valores espectrais a serem codificados pode ser obtida, em que a norma de um vetor de valores espectrais previamente codificados pode tipicamente ser representada com um número comparavelmente pequeno de bits. Assim, a quantidade da informação de contexto, que precisa ser armazenada para uso futuro na derivação de um valor de contexto corrente numérico, pode ser mantida suficientemente pequena aplicando a abordagem discutida acima para o cálculo dos valores da sub-região de contexto. Foi observado que a norma de um vetor dos valores espectrais previamente codificados tipicamente compreende a informação mais significativa referente ao estado do contexto. Em contraste, foi observado que o sinal dos ditos valores espectrais previamente codificados tipicamente compreende um impacto subordinado no estrado do contexto, de modo que faz sentido negar o sinal dos valores espectrais previamente decodificados a fim de reduzir a quantidade de informação a ser armazenada para uso futuro. Ainda, foi observado que o cálculo de uma norma de um vetor de valores espectrais previamente codificados é uma abordagem razoável para a derivação de um valor da sub-região de contexto, como o efeito médio, que é tipicamente obtido pelo cálculo da norma, deixa a informação mais importante sobre o estado de contexto substancialmente não afetado. Para resumir, o valor da sub-região de contexto cálculo realizado pelo computador do valor da sub- região de contexto 1252 permite prover uma informação da sub- região de contexto compacto para armazenamento e reuso futuro, em que a informação mais relevante sobre o estado de contexto é preservada em vez da redução da quantidade de informação.
[000183] Além disso, foi observado que um valor de contexto corrente numérico obtido conforme discutido acima é muito bem adequado para uma seleção de uma regra de mapeamento utilizando a tabela hash “ari_hash_m[742]”, conforme definido na representação em tabela das figuras 22(1) a 22(4). Por exemplo, o selecionador da regra de mapeamento pode realizar a funcionalidade conforme descrito acima com referência às figuras 7 e 8
[000184] Certamente, uma codificação eficiente da informação de áudio de entrada 710 pode ser obtida, enquanto mantém o esforço computacional e a quantidade de dados a ser armazenada pelo codificador aritmético 1230 suficientemente pequena.
[000185] Decodificador de áudio de acordo com a figura 13
[000186] A figura 13 mostra um diagrama em blocos esquemático de um decodificador de áudio 1300. Como o decodificador de áudio 1300 é semelhante ao decodificador de áudio 800 de acordo com a figura 8, e ao decodificador de áudio 1100 de acordo com a figura 11, meios, sinais e funcionalidades idênticos são designados com números idênticos.
[000187] O decodificador de áudio 1300 é configurado para receber uma informação de áudio codificada 810 e para prover, com base neste, uma informação de áudio decodificada 812. O decodificador de áudio 1300 compreende um decodificador aritmético 1320 que é configurado para prover diversos valores espectrais decodificados 822 com base em uma representação aritmeticamente codificada 821 dos valores espectrais. O decodificador de áudio 1300 também compreende um conversor de domínio de frequência em domínio de tempo 830 que é configurado para receber os valores espectrais decodificados 822 e para prover a representação de áudio de domínio de tempo 812, que pode constituir a informação de áudio decodificada, utilizando os valores espectrais decodificados 822, para obter uma informação de áudio decodificada 812.
[000188] O decodificador aritmético 1320 compreende um determinador do valor espectral 824 que é configurado para mapear um valor de código da representação aritmeticamente codificada 821 dos valores espectrais em um código de símbolo representando um ou mais dos valores espectrais decodificados, ou pelo menos uma parte (por exemplo, um plano de bits mais significativo) de um ou mais dos valores espectrais decodificados. O determinador do valor espectral 824 pode ser configurado para realizar um mapeamento dependendo de uma regra de mapeamento, que é descrita por uma informação da regra de mapeamento 828a. A informação da regra de mapeamento 828a pode, por exemplo, compreender um valor do índice da regra de mapeamento, ou um conjunto selecionado de entradas da tabela de frequências cumulativas.
[000189] O decodificador aritmético 1320 é configurado para selecionar uma regra de mapeamento (por exemplo, a tabela de frequências cumulativas) que descreve um mapeamento de um valor de código (descrito pela representação aritmeticamente codificada 821 dos valores espectrais) em um código de símbolo (que descreve um ou mais valores espectrais) dependendo de um estado de contexto (que pode ser descrito pela informação do estado de contexto 1326a). Preferivelmente, o decodificador aritmético 1320 pode ser configurado para utilizar uma tabela hash “ari_hash_m[742]”, conforme definido na representação em tabela das figuras 22(1) a 22(4), para a seleção da regra de mapeamento. Por exemplo, o decodificador aritmético 1320 pode realizar a funcionalidade conforme descrito acima com referência às figuras 7 e 8. O decodificador aritmético 1320 é configurado para determinar o estado de contexto corrente dependendo dos diversos valores espectrais previamente decodificados 822. Para esta finalidade, um rastreador de estado 1326 pode ser utilizado, que recebe uma informação que descreve os valores espectrais previamente decodificados. O decodificador aritmético também é configurado para obter diversos valores da sub-região de contexto com base nos valores espectrais previamente decodificados e para armazenar os ditos valores da sub-região de contexto. O decodificador aritmético é configurado para derivar um valor de contexto corrente numérico associado com um ou mais valores espectrais a ser codificado dependendo nos valores armazenados da sub-região de contexto. O decodificador aritmético 1320 é configurado para calcular a norma de um vetor formado pelos diversos valores espectrais previamente decodificados, para obter um valor comum da sub-região de contexto associado com diversos valores espectrais previamente decodificados.
[000190] O cálculo da norma de um vetor formado pelos diversos valores espectrais previamente codificados, para obter um valor comum da sub-região de contexto associado aos diversos valores espectrais previamente decodificados, pode, por exemplo, ser realizado pelo computador do valor da sub-região de contexto 1327, que faz parte do rastreador de estado 1326. Certamente, uma informação do estado de contexto corrente 1326a é obtida com base nos valores da sub-região de contexto, em que o rastreador de estado 1326 preferivelmente provê um valor de contexto corrente numérico associado a um ou mais valores espectrais a ser decodificado dependendo dos valores armazenados da sub-região de contexto. A seleção das regras de mapeamento pode ser realizada por um selecionador da regra de mapeamento 1328, que deriva uma informação da regra de mapeamento 828a da informação do estado de contexto corrente 1326a, e que provê a informação da regra de mapeamento 828a ao determinador do valor espectral 824.
[000191] Referente à funcionalidade do decodificador de sinal de áudio 1300, deve ser observado que o decodificador aritmético 1320 é configurado para selecionar uma regra de mapeamento (por exemplo, a tabela de frequências cumulativas) que é, em média, bem adaptada ao valor espectral a ser decodificado, conforme a regra de mapeamento é selecionada dependendo do estado de contexto corrente, que, por sua vez, é determinada dependendo de diversos valores espectrais previamente decodificados. Assim, as dependências estatísticas entre os valores espectrais adjacentes a ser decodificados podem ser exploradas.
[000192] Entretanto, foi observado que é eficiente, em termos de uso da memória, armazenar valores da sub-região de contexto, que têm como base o cálculo de uma norma de um vetor formado em diversos valores espectrais previamente decodificados, para uso futuro na determinação do valor de contexto numérico. Também foi observado que tais valores da sub-região de contexto ainda compreendem a informação de contexto mais relevante. Assim, o conceito utilizado pelo rastreador de estado 1326 constitui um bom compromisso entre a eficiência da codificação, a eficiência computacional e a eficiência de armazenamento.
[000193] Outros detalhes serão descritos abaixo.
[000194] Codificador de áudio de acordo com a figura 1
[000195] A seguir, um codificador de áudio de acordo com uma realização da presente invenção será descrito. A figura 1 mostra um diagrama em blocos esquemático de tal codificador de áudio 100.
[000196] O codificador de áudio 100 é configurado para receber uma informação de áudio de entrada 110 e para prover, com base neste, um fluxo de bits 112, que constitui uma informação de áudio codificada. O codificador de áudio 100 opcionalmente compreende um pré-processador 120, que é configurado para receber a informação de áudio de entrada 110 e para prover, com base neste, uma informação pré-processada de áudio de entrada 110a. O codificador de áudio 100 também compreende um transformador de sinal de domínio de tempo em domínio de frequência com compactação de energia 130, que também é designado como conversor de sinal. O conversor de sinal 130 é configurado para receber a informação de áudio de entrada 110, 110a e para prover, com base neste, uma informação de áudio de domínio de frequência 132, que preferivelmente toma a forma de um conjunto de valores espectrais. Por exemplo, o transformador de sinal 130 pode ser configurado para receber uma estrutura da informação de áudio de entrada 110, 110a (por exemplo, um bloco de amostras de domínio de tempo) e para prover um conjunto de valores espectrais representando o conteúdo de áudio da respectiva estrutura de áudio. Além disso, o transformador de sinal 130 pode ser configurado para receber diversas estruturas de áudio subsequentes, de sobreposição ou não sobreposição da informação de áudio de entrada 110, 110a e para prover, com base neste, uma representação de áudio de domínio de frequência de tempo, que compreende uma sequência de conjuntos subsequentes de valores espectrais, um conjunto de valores espectrais associados a cada estrutura.
[000197] O transformador de sinal de domínio de tempo em domínio de frequência com compactação de energia 130 pode compreender um banco de filtros com compactação de energia, que provê valores espectrais associados a diferentes faixas de frequência, de sobreposição ou não sobreposição. Por exemplo, o transformador de sinal 130 pode compreender um transformador MDCT de janelamento 130a, que é configurado para colocar em janelas a informação de áudio de entrada 110, 110a (ou a sua estrutura) que utiliza uma janela de transformação e para realizar uma transformação de cosseno discreto modificado da informação de áudio de entrada em janela 110, 110a (ou a sua estrutura em janela). Assim, a representação de áudio de domínio de frequência 132 pode compreender um conjunto de, por exemplo, 1024 valores espectrais na forma de coeficientes MDCT associados a uma estrutura da informação de áudio de entrada.
[000198] O codificador de áudio 100 pode ainda, opcionalmente, compreender um pós-processador espectral 140, que é configurado para receber a representação de áudio de domínio de frequência 132 e prover, com base neste, uma representação de áudio de domínio de frequência pós-processada 142. O pós- processador espectral 140 pode, por exemplo, ser configurado para realizar uma forma de ruído temporal e/ou uma previsão a longo prazo e/ou qualquer outro pós-processamento espectral conhecido na técnica. O codificador de áudio ainda compreende, opcionalmente, um multiplicador de frequências/quantificador 150, que é configurado para receber a representação de áudio de domínio de frequência 132 ou a sua versão pós-processada 142 e prover uma representação de áudio de domínio de frequência escalada e quantizada 152.
[000199] O codificador de áudio 100 ainda compreende, opcionalmente, um processador do modelo psicoacústico 160, que é configurado para receber a informação de áudio de entrada 110 (ou a versão pós-processada 110a deste) e prover, com base neste, uma informação de controle opcional, que pode ser utilizada para o controle do transformador de sinal de domínio de tempo em domínio de frequência com compactação de energia 130, para o controle do pós-processador espectral opcional 140 e/ou para o controle do multiplicador de frequências/quantificador opcional 150. Por exemplo, o processador do modelo psicoacústico 160 pode ser configurado para analisar a informação de áudio de entrada, para determinar quais componentes da informação de áudio de entrada 110, 110a são particularmente importantes para a percepção humana do conteúdo de áudio e quais componentes da informação de áudio de entrada 110, 110a são menos importantes para a percepção do conteúdo de áudio. Assim, o processador do modelo psicoacústico 160 pode prover informação de controle, que é utilizado pelo codificador de áudio 100 a fim de ajustar a escala da representação de áudio de domínio de frequência 132, 142 pelo multiplicador de frequências/quantificador 150 e/ou a resolução de quantização aplicada pelo multiplicador de frequências/quantificador 150. Consequentemente, faixas do fator de escala perceptualmente importantes (ou seja, grupos de valores espectrais adjacentes que são particularmente importantes para a percepção humana do conteúdo de áudio) são escaladas com um grande fator de escala e quantizadas com resolução comparavelmente alta, enquanto faixas do fator de escala perceptualmente menos importantes (ou seja, grupos de valores espectrais adjacentes) são escaladas com um fator de escala comparavelmente menor e quantizadas com uma resolução de quantização comparavelmente menor. Assim, os valores espectrais escalados de frequências perceptualmente mais importantes são tipicamente significantemente maiores que os valores espectrais de frequências perceptualmente menos importantes.
[000200] O codificador de áudio também compreende um codificador aritmético 170, que é configurado para receber a versão escalada e quantizada 152 da representação de áudio de domínio de frequência 132 (ou, de modo alternativo, a versão pós- processada 142 da representação de áudio de domínio de frequência 132, ou mesmo a própria representação de áudio de domínio de frequência 132) e prover informação da senha aritmética 172a com base neste, de modo que a informação da senha aritmética representa a representação de áudio de domínio de frequência 152.
[000201] O codificador de áudio 100 também compreende um formatador de payload do fluxo de bits 190, que é configurado para receber a informação da senha aritmética 172a. O formatador de payload do fluxo de bits 190 é também tipicamente configurado para receber informação adicional, como, por exemplo, a informação do fator de escala que descreve quais fatores de escala foi aplicada pelo multiplicador de frequências/quantificador 150. Além disso, o formatador de payload do fluxo de bits 190 pode ser configurado para receber outra informação de controle. O formatador de payload do fluxo de bits 190 é configurado para prover o fluxo de bits 112 com base na informação recebida montando o fluxo de bits de acordo com uma sintaxe do fluxo de bits desejada, que será discutida abaixo.
[000202] A seguir, detalhes referentes ao codificador aritmético 170 serão descritos. O codificador aritmético 170 é configurado para receber diversos valores espectrais pós- processados e escalados e quantizados da representação de áudio de domínio de frequência 132. O codificador aritmético compreende um extrator do plano de bits mais significante 174, ou mesmo de dois valores espectrais, que é configurado para extrair um plano de bits mais significativo m de um valor espectral. Deve ser observado aqui que o plano de bits mais significativo pode compreender um ou mais bits (por exemplo, dois ou três bits), que são os bits mais significativos do valor espectral. Assim, o extrator do plano de bits mais significativo 174 provê um valor do plano de bits mais significativo 176 de um valor espectral.
[000203] De modo alternativo, entretanto, o extrator do plano de bits mais significativo 174 pode prover um valor combinado do plano de bits mais significativo m que combina o plano de bits mais significativo de diversos valores espectrais (por exemplo, de valores espectrais a e b). O plano de bits mais significativo do valor espectral a é designado com m. De modo alternativo, o valor combinado do plano de bits mais significativo de diversos valores espectrais a,b é designado com m.
[000204] O codificador aritmético 170 também compreende um primeiro determinador de senha 180, que é configurado para determinar uma senha aritmética acod_m [pki][m] que representa o valor do plano de bits mais significativo m. Opcionalmente, o determinador de senha 180 pode também prover uma ou mais senhas de escape (também designada aqui como “ARITH_ESCAPE”) indicando, por exemplo, quantos planos de bits menos significativos estão disponíveis (e, consequentemente, indicando o peso numérico do plano de bits mais significativo). O primeiro determinador de senha 180 pode ser configurado para prover a senha associada a um valor do plano de bits mais significativo m que utiliza a tabela de frequências cumulativas selecionada tendo (ou sendo referenciada por) um índice da tabela de frequências cumulativas pki.
[000205] A fim de determinar em qual tabela de frequências cumulativas deve ser selecionado, o codificador aritmético preferivelmente compreende um rastreador de estado 182, que é configurado para rastrear o estado do codificador aritmético, por exemplo, observando quais valores espectrais foram codificados previamente. O rastreador de estado 182 consequentemente provê uma informação de estado 184, por exemplo, um valor de estado designado com “s” ou “t” ou “c”. O codificador aritmético 170 também compreende um selecionador da tabela de frequências cumulativas 186, que é configurado para receber a informação de estado 184 e prover uma informação 188 que descreve a tabela de frequências cumulativas selecionada ao determinador de senha 180. Por exemplo, o selecionador da tabela de frequências cumulativas 186 pode prover um índice da tabela de frequências cumulativas “pki” que descreve qual tabela de frequências cumulativas, fora de um conjunto de 96 tabelas de frequências cumulativas, é selecionado para uso pelo determinador de senha. De modo alternativo, o selecionador da tabela de frequências cumulativas 186 pode prover toda a tabela de frequências cumulativas selecionada ou uma sub-tabela ao determinador de senha. Assim, o determinador de senha 180 pode usar a tabela de frequências cumulativas selecionada ou sub-tabela para a provisão da senha acod_m[pki][m] do valor do plano de bits mais significativo m, de modo que a senha atual acod_m[pki][m] que codifica o valor do plano de bits mais significativo m seja dependente do valor de m e o índice da tabela de frequências cumulativas pki, e consequentemente na informação de estado corrente 184. Outros detalhes referentes ao processo de codificação e o formato de senha obtido serão descritos abaixo.
[000206] Deve ser observado, entretanto, que em algumas realizações, o rastreador de estado 182 pode ser idêntico a, ou tomar a funcionalidade, do rastreador de estado 750, do rastreador de estado 1050 ou do rastreador de estado 1250. Também deve ser observado que o selecionador da tabela de frequências cumulativas 186 pode, em algumas realizações, ser idêntico a, ou tomar a funcionalidade, do selecionador da regra de mapeamento 760, do selecionador da regra de mapeamento 1060, ou do selecionador da regra de mapeamento 1260. Além disso, o primeiro determinador de senha 180 pode, em algumas realizações, ser idêntico a, ou tomar a funcionalidade, da codificação do valor espectral 740.
[000207] O codificador aritmético 170 ainda compreende um extrator do plano de bits menos significativo 189a, que é configurado para extrair um ou mais planos de bits menos significativos da representação de áudio de domínio de frequência escalada e quantizada 152, se um ou mais dos valores espectrais a ser codificado exceder a faixa de valores que podem ser codificados utilizando o plano de bits mais significativo somente. Os planos de bits menos significativos podem compreender um ou mais bits, conforme desejado. Assim, o extrator do plano de bits menos significativo 189a provê uma informação do plano de bits menos significativo 189b. O codificador aritmético 170 também compreende um segundo determinador de senha 189c, que é configurado para receber a informação do plano de bits menos significativo 189d e prover, com base neste, 0, 1 ou mais senhas “acod_r” que representa o conteúdo de 0, 1 ou mais planos de bits menos significativos. O segundo determinador de senha 189c pode ser configurado para aplicar um algoritmo da codificação aritmética ou qualquer outro algoritmo de codificação a fim de derivar as senhas do plano de bit menos significativo “acod_r” da informação do plano de bits menos significativo 189b.
[000208] Deve ser observado aqui que o número de planos de bits menos significativos pode variar dependendo do valor dos valores espectrais escalados e quantizados 152, de modo que possa ter nenhum plano de bits menos significativo, se o valor espectral escalado e quantizado a ser codificado é comparavelmente pequeno, de modo que possa ter um plano de bits menos significativo se o valor espectral corrente escalado e quantizado a ser codificado for de uma faixa média e de modo que possa ter mais que um plano de bits menos significativo se o valor espectral escalado e quantizado a ser codificado tiver um valor comparavelmente grande.
[000209] Para resumir o mencionado acima, o codificador aritmético 170 é configurado para codificar valores espectrais escalados e quantizados, que são descritos pela informação 152, que utiliza um processo de codificação hierárquico. O plano de bits mais significativo (que compreende, por exemplo, um, dois ou três bits por valor espectral) de um ou mais valores espectrais, é codificado para obter uma senha aritmética “acod_m[pki][m]” de um valor do plano de bits mais significativo m. Um ou mais planos de bits menos significativos (cada um dos planos de bits menos significativos que compreende, por exemplo, um, dois ou três bits) de um ou mais valores espectrais são codificados para obter uma ou mais senhas “acod_r”. Ao codificar o plano de bits mais significativo, o valor m do plano de bits mais significativo é mapeado a uma senha acod_m[pki][m]. Para esta finalidade, 96 diferentes tabelas de frequências cumulativas estão disponíveis para a codificação do valor m dependendo de um estado do codificador aritmético 170, ou seja, dependendo de valores espectrais previamente codificados. Assim, a senha “acod_m[pki][m]” é obtida. Além disso, uma ou mais senhas “acod_r” são providas e incluídas no fluxo de bits se um ou mais planos de bits menos significativos estiverem presentes.
[000210] DESCRIÇÃO DE REDEFINIÇÃO
[000211] O codificador de áudio 100 pode opcionalmente ser configurado para decidir se uma melhoria na taxa de bit pode ser obtida redefinindo o contexto, por exemplo, definindo o índice de estado a um valor padrão. Assim, o codificador de áudio 100 pode ser configurado para prover uma informação de reset (por exemplo, chamada “arith_reset_flag”) indicando se o contexto para a codificação aritmética é redefinida, e também indicando se o contexto para a decodificação aritmética em um decodificador correspondente deve ser redefinido.
[000212] Detalhes referentes ao formato do fluxo de bits e às tabelas de frequência cumulativa aplicadas serão discutidos abaixo.
[000213] Decodificador de áudio de acordo com a figura 2
[000214] A seguir, um decodificador de áudio, de acordo com uma realização da invenção, será descrito. A figura 2 mostra um diagrama em blocos esquemático de tal decodificador de áudio 200.
[000215] O decodificador de áudio 200 é configurado para receber um fluxo de bits 210, que representa uma informação de áudio codificada e que pode ser idêntico ao fluxo de bits 112 provido pelo codificador de áudio 100. O decodificador de áudio 200 provê uma informação de áudio decodificada 212 com base no fluxo de bits 210.
[000216] O decodificador de áudio 200 compreende um deformatador de payload do fluxo de bits opcional 220, que é configurado para receber o fluxo de bits 210 e para extrair do fluxo de bits 210 uma representação codificada de áudio de domínio de frequência 222. Por exemplo, o deformatador de payload do fluxo de bits 220 pode ser configurado para extrair do fluxo de bits 210 dados espectrais aritmeticamente decodificados como, por exemplo, uma senha aritmética “acod_m [pki][m]” que representa o valor do plano de bits mais significativo m de um valor espectral a, ou de diversos valores espectrais a, b, e uma senha “acod_r” que representa um conteúdo de um plano de bits menos significativo do valor espectral a, ou de diversos valores espectrais a, b, da representação de áudio de domínio de frequência. Assim, a representação codificada de áudio de domínio de frequência 222 constitui (ou compreende) uma representação aritmeticamente codificada de valores espectrais. O deformatador de payload do fluxo de bits 220 é ainda configurado para extrair da informação adicional de controle do fluxo de bits, que não é mostrado na figura 2. Além disso, o deformatador de payload do fluxo de bits é opcionalmente configurado para extrair do fluxo de bits 210, uma informação de reset do estado 224, que é também designada como sinalizador de redefinição aritmético ou “arith_reset_flag”.
[000217] O decodificador de áudio 200 compreende um decodificador aritmético 230, que também é designado como “decodificador silencioso espectral”. O decodificador aritmético 230 é configurado para receber a representação codificada de áudio de domínio de frequência 220 e, opcionalmente, a informação de reset de estado 224. O decodificador aritmético 230 é também configurado para prover uma representação decodificada de áudio de domínio de frequência 232, que pode compreender uma representação decodificada de valores espectrais. Por exemplo, a representação decodificada de áudio de domínio de frequência 232 pode compreender uma representação decodificada de valores espectrais, que são descritos pela representação codificada de áudio de domínio de frequência 220.
[000218] O decodificador de áudio 200 também compreende um quantificador/remultiplicador de frequências inversas opcionais 240, que é configurado para receber a representação decodificada de áudio de domínio de frequência 232 e prover, com base neste, uma representação de áudio de domínio de frequência inversamente quantizada e redimensionada 242.
[000219] O decodificador de áudio 200 ainda compreende um pré-processador espectral opcional 250, que é configurado para receber a representação de áudio de domínio de frequência inversamente quantizada e redimensionada 242 e prover, com base neste, uma versão pré-processada 252 da representação de áudio de domínio de frequência inversamente quantizada e redimensionada 242. O decodificador de áudio 200 também compreende um transformador de sinal de domínio de frequência em domínio de tempo 260, que é também designado como um “conversor de sinal”. O transformador de sinal 260 é configurado para receber a versão pré-processada 252 da representação de áudio de domínio de frequência inversamente quantizada e redimensionada 242 (ou, de modo alternativo, a representação de áudio de domínio de frequência inversamente quantizada e redimensionada 242 ou a representação decodificada de áudio de domínio de frequência 232) e prover, com base neste, uma representação de domínio de tempo 262 da informação de áudio. O transformador de sinal de domínio de frequência em domínio de tempo 260 pode, por exemplo, compreender um transformador para realizar uma transformação de cosseno discreto modificado inverso (IMDCT) e um janelamento apropriado (bem como outras funcionalidades auxiliares, como, por exemplo, uma sobreposição e adição).
[000220] O decodificador de áudio 200 pode ainda compreender um pós-processador de domínio de tempo opcional 270, que é configurado para receber a representação de domínio de tempo 262 da informação de áudio e para obter a informação de áudio decodificada 212 que utiliza um pós-processamento de domínio de tempo. Entretanto, se o pós-processamento for omitido, a representação de domínio de tempo 262 pode ser idêntica à informação de áudio decodificada 212.
[000221] Deve ser observado aqui que o quantificador/remultiplicador de frequências inversas 240, o pré- processador espectral 250, o transformador de sinal de domínio de frequência em domínio de tempo 260 e o pós-processador de domínio de tempo 270 podem ser controlados dependendo da informação de controle, que é extraída do fluxo de bits 210 pelo deformatador de payload do fluxo de bits 220.
[000222] Para resumir toda a funcionalidade do decodificador de áudio 200, uma representação decodificada de áudio de domínio de frequência 232, por exemplo, um conjunto de valores espectrais associado a uma estrutura de áudio da informação de áudio codificada, pode ser obtido com base na representação codificada de domínio de frequência 222 que utiliza o decodificador aritmético 230. Subsequentemente, o conjunto de, por exemplo, 1024 valores espectrais, que pode ser de coeficientes MDCT, é inversamente quantizado, redimensionado e pré-processado. Assim, um conjunto de valores espectrais pré-processados espectralmente inversamente quantizados e redimensionados (por exemplo, 1024 coeficientes MDCT) é obtido. Posteriormente, uma representação de domínio de tempo de uma estrutura de áudio é derivada do conjunto pré-processado de forma espectral, inversamente quantizado e redimensionado de valores de domínio de frequência (por exemplo, coeficientes MDCT). Assim, uma representação de domínio de tempo de uma estrutura de áudio é obtida. A representação de domínio de tempo de uma dada estrutura de áudio pode ser combinada com as representações de domínio de tempo de estruturas de áudio prévias e/ou subsequentes. Por exemplo, uma sobreposição e adição entre as representações de domínio de tempo de estruturas de áudio subsequentes pode ser realizada a fim de suavizar as transações entre as representações de domínio de tempo das estruturas de áudio adjacentes e a fim de obter uma anulação de aliasing. Para detalhes referentes à reconstrução da informação de áudio decodificada 212 com base na representação decodificada de áudio de domínio de frequência de tempo 232, a referência é feita, por exemplo, ao Padrão Internacional ISO/IEC 14496-3, parte 3, subparte 4 onde uma discussão detalhada é dada. Entretanto, outros esquemas de sobreposição mais elaborada e anulação de aliasing podem ser utilizados.
[000223] A seguir, alguns detalhes referentes ao decodificador aritmético 230 serão descritos. O decodificador aritmético 230 compreende um determinador do plano de bits mais significativo 284, que é configurado para receber a senha aritmética acod_m [pki][m] que descreve o valor do plano de bits mais significativo m. O determinador do plano de bits mais significativo 284 pode ser configurado para utilizar a tabela de frequências cumulativas fora de um conjunto que compreende diversas 96 tabelas de frequências cumulativas para derivar o valor do plano de bits mais significativo m da senha aritmética “acod_m [pki][m]”.
[000224] O determinador do plano de bits mais significativo 284 é configurado para derivar valores 286 de um plano de bits mais significativo de um ou mais valores espectrais com base na senha acod_m. O decodificador aritmético 230 ainda compreende um determinador do plano de bits menos significativo 288, que é configurado para receber uma ou mais senhas “acod_r” que representa um ou mais planos de bits menos significativos de um valor espectral. Assim, o determinador do plano de bits menos significativo 288 é configurado para prover valores decodificados 290 de um ou mais planos de bits menos significativos. O decodificador de áudio 200 também compreende um combinador do plano de bits 292, que é configurado para receber os valores decodificados 286 do plano de bits mais significativo de um ou mais valores espectrais e os valores decodificados 290 de um ou mais planos de bits menos significativos dos valores espectrais se tais planos de bits menos significativos estão disponíveis para os valores correntes espectrais. Assim, o combinador do plano de bits 292 provê valores espectrais decodificados, que fazem parte da representação decodificada de áudio de domínio de frequência 232. Naturalmente, o decodificador aritmético 230 é tipicamente configurado para prover diversos valores espectrais a fim de obter um conjunto completo de valores espectrais decodificados associados a uma estrutura corrente do conteúdo de áudio.
[000225] O decodificador aritmético 230 ainda compreende um selecionador da tabela de frequências cumulativas 296, que é configurado para selecionar uma das 64 tabelas de frequências cumulativas ari_cf_m[64][17] (cada tabela ari_cf_m[pki][17], com 0<pki<63, tendo 17 entradas) dependendo de um índice de estado 298 que descreve um state do decodificador aritmético. Para selecionar uma das tabelas de frequências cumulativas, o selecionador da tabela de frequências cumulativas preferivelmente avalia a tabela hash ari_hash_m[742] conforme definido pela representação em tabela das figuras 22(1), 22(2), 22(3), 22(4). Detalhes referentes a esta avaliação da tabela hash ari_hash_m[742] serão descritos abaixo. O decodificador aritmético 230 ainda compreende um rastreador de estado 299, que é configurado para rastrear um estado do decodificador aritmético dependendo dos valores espectrais previamente decodificados. A informação de estado pode opcionalmente ser redefinida em uma informação padrão de estado em resposta à informação de reset do estado 224. Certamente, o selecionador da tabela de frequências cumulativas 296 é configurado para prover um índice (por exemplo, pki) de uma tabela de frequências cumulativas selecionada, ou uma tabela de frequências cumulativas selecionada ou a própria subtabela, para aplicação na decodificação do valor do plano de bits mais significativo m dependendo do código “acod_m”.
[000226] Para resumir a funcionalidade do decodificador de áudio 200, o decodificador de áudio 200 é configurado para receber uma representação eficientemente codificada de áudio de domínio de frequência da taxa de bits 222 e para obter uma representação decodificada de áudio de domínio de frequência com base neste. No decodificador aritmético 230, que é utilizado para obter a representação decodificada de áudio de domínio de frequência 232 com base na representação codificada de áudio de domínio de frequência 222, uma probabilidade de diferentes combinações de valores do plano de bits mais significativo de valores espectrais adjacentes é explorada utilizando um decodificador aritmético 280, que é configurado para aplicar a tabela de frequências cumulativas. Em outras palavras, as dependências estatísticas entre os valores espectrais são explorados selecionando diferentes tabelas de frequências cumulativas fora de um conjunto que compreende 64 diferentes tabelas de frequências cumulativas dependendo de um índice de estado 298, que é obtido observando os valores espectrais decodificados previamente calculados.
[000227] Deve ser observado que o rastreador de estado 299 pode ser idêntico a, ou pode tomar a funcionalidade, do rastreador de estado 826, do rastreador de estado 1126, ou do rastreador de estado 1326. O selecionador da tabela de frequências cumulativas 296 pode ser idêntico a ou pode tomar a funcionalidade, do selecionador da regra de mapeamento 828, do selecionador da regra de mapeamento 1128, ou do selecionador da regra de mapeamento 1328. O determinador do plano de bits mais significativo 284 pode ser idêntico a, ou pode tomar a funcionalidade, do determinador do valor espectral 824.
[000228] Visão geral da ferramenta de codificação espectral silenciosa
[000229] A seguir, detalhes referentes à codificação e decodificação do algoritmo, que é realizada, por exemplo, pelo codificador aritmético 170 e pelo decodificador aritmético 230, serão explicados.
[000230] O foco deve ser colocado na descrição da decodificação do algoritmo. Deve ser observado, entretanto, que uma codificação do algoritmo correspondente poder ser realizada de acordo com os ensinamentos da decodificação do algoritmo, em que mapeamentos entre valores espectrais codificados e decodificados são inversos, e em que o cálculo do valor de índice de regra de mapeamento é substancialmente idêntico. Em um codificador, os valores espectrais codificados assumem o lugar dos valores espectrais decodificados. Ainda, os valores espectrais a ser codificados assumem o lugar dos valores espectrais a ser decodificados.
[000231] Deve ser observado que a decodificação, que será discutida a seguir, é utilizada a fim de permitir a chamada “codificação espectral silenciosa” de valores espectrais escalados e quantizados tipicamente pós-processados. A codificação espectral silenciosa é utilizada em um conceito de codificação/decodificação de áudio (ou em qualquer outro conceito de codificação/decodificação) para ainda reduzir a redundância do espectro quantizado, que é obtido, por exemplo, por um transformador de domínio de tempo em domínio de frequência com compactação de energia. O esquema espectral de codificação silenciosa, que é utilizado nas realizações da invenção, tem como base uma codificação aritmética com um contexto dinamicamente adaptado.
[000232] Em algumas realizações, de acordo com a invenção, o esquema espectral de codificação silenciosa tem como base 2 tuplos, ou seja, dois coeficientes espectrais próximos são combinados. Cada tuplo duplo é dividido em sinal, o plano amplo de 3 bits mais significativo, e os planos de bits menos significativos restantes. A codificação silenciosa para o plano de bit a bit mais significativo m utiliza tabelas de frequências cumulativas dependentes de contexto derivadas de quatro tuplos duplos previamente decodificados. A codificação silenciosa é alimentada, por exemplo, pelos valores espectrais quantizados e utiliza as tabelas de frequências cumulativas dependentes de contexto derivadas de quatro tuplos duplos próximos previamente codificados. Aqui, próximo tanto em tempo quanto em frequência é preferivelmente considerado, conforme ilustrado na figura 4. As tabelas de frequências cumulativas (que serão explicadas abaixo) são então utilizadas pelo codificador aritmético para gerar um código binário de comprimento variável (e pelo decodificador aritmético para derivar valores decodificados de um código binário de comprimento variável).
[000233] Por exemplo, o codificador aritmético 170 produz um código binário para um determinado conjunto de símbolos e suas respectivas probabilidades (ou seja, dependendo das respectivas probabilidades). O código binário é gerado pelo mapeamento de um intervalo de probabilidade, onde o conjunto de símbolos se encontra em uma senha.
[000234] A codificação silenciosa para o plano de bits menos significativo r restante utiliza, por exemplo, uma única tabela de frequências cumulativas. As frequências cumulativas correspondem, por exemplo, a uma distribuição uniforme dos símbolos que ocorrem nos planos de bits menos significativos, ou seja, é esperado que haja a mesma probabilidade que um 0 ou um 1 ocorre nos planos de bits menos significativos. Entretanto, outras soluções para a codificação do plano de bits menos significativo restante ou planos de bits podem ser utilizados.
[000235] A seguir, outra breve visão geral da ferramenta de codificação espectral silenciosa será dada. A codificação espectral silenciosa é utilizada para ainda reduzir a redundância do espectro quantizado. O esquema espectral de codificação silenciosa tem como base uma codificação aritmética, com um contexto dinamicamente adaptado. A codificação silenciosa é alimentada pelos valores espectrais quantizados e utiliza as tabelas de frequências cumulativas dependentes de contexto derivadas de, por exemplo, quatro tuplos duplos próximos previamente decodificados de valores espectrais. Aqui, próximo, em tempo e frequência, é considerado conforme ilustrado na figura 4. As tabelas de frequências cumulativas são então utilizadas pelo codificador aritmético para gerar um código binário de comprimento variável.
[000236] O codificador aritmético produz um código binário para um determinado conjunto de símbolos e suas respectivas probabilidades. O código binário é gerado pelo mapeamento de um intervalo de probabilidade, onde o conjunto de símbolos permanece, em um código.
[000237] Processo de decodificação
[000238] 11.1 Visão geral do processo de decodificação
[000239] A seguir, uma visão geral do processo de codificação de um valor espectral será apresentada, tendo como referência a figura 3, que mostra uma representação do código do pseudo-programa do processo de decodificação de diversos valores espectrais.
[000240] O processo de decodificação de diversos valores espectrais compreende uma inicialização 310 de um contexto. A inicialização 310 do contexto compreende uma derivação do contexto corrente de um contexto prévio, que utiliza a função “arith_map_context(N, arith_reset_flag)”. A derivação do contexto corrente de um contexto prévio pode seletivamente compreender uma redefinição do contexto. A redefinição do contexto e a derivação do contexto corrente de um contexto prévio serão discutidas abaixo. Preferivelmente, a função “arith_map_context(N, arith_reset_flag)” de acordo com a figura 5a pode ser utilizada, mas de modo alternativo a função de acordo com a figura 5b pode ser utilizada.
[000241] A decodificação de diversos valores espectrais também compreende uma iteração de uma decodificação do valor espectral 312 e uma atualização de contexto 313, cuja atualização de contexto 313 é realizada pela função “arith_update_context(i, a,b)” que é descrita abaixo. A decodificação do valor espectral 312 e a atualização de contexto 312 são repetidas l g/2 vezes, em que l g/2 indica o número de 2 tuplos de valores espectrais a ser decodificados (por exemplo, para uma estrutura de áudio), a menos que o símbolo chamado “ARITH_STOP” seja detectado. Além disso, a decodificação de um conjunto de valores espectrais l g também compreende uma decodificação de sinais 314 e uma etapa de acabamento 315.
[000242] A decodificação 312 de um tuplo de valores espectrais compreende um cálculo do valor de contexto 312a, uma decodificação do plano de bits mais significativo 312b, uma detecção do símbolo de parada aritmética 312c, uma adição do plano de bits menos significativo 312d, e uma atualização da matriz 312e.
[000243] O cálculo do valor de estado 312a compreende uma chamada da função “arith_get_context(c,i,N)” conforme mostrado, por exemplo, na figura 5c ou 5d. Preferivelmente, a função “arith_get_context(c,i,N)” de acordo com a figura 5c é utilizada. Assim, um valor (de estado) de contexto corrente numérico c é provido como um valor de retorno da função chamada da função “arith_get_context(c,i,N)”. Como pode ser visto, o valor de contexto prévio numérico (também designado como “c”), que serve como uma variável de entrada na função “arith_get_context(c,i,N)”, é atualizada para obter, como um valor de retorno, o valor de contexto corrente numérico c.
[000244] A decodificação do plano de bits mais significativo 312b compreende uma execução iterativa de uma decodificação de algoritmo 312ba, e uma derivação 312bb de valores a,b do valor de resultado m do algoritmo 312ba. Na preparação do algoritmo 312ba, a variável lev é inicializada a zero. O algoritmo 312ba é repetido, até que uma instrução de “interrupção” (ou condição) seja atingida. O algoritmo 312ba compreende um cálculo de um índice de estado “pki” (que também serve como um índice da tabela de frequências cumulativas) dependendo do valor de contexto corrente numérico c, e também dependendo do valor de nível “esc_nb” que utiliza a função “arith_get_pk()”, que é discutido abaixo (e realizações destas são mostradas, por exemplo, nas figuras. 5e e 5f). Preferivelmente, a função “arith_get_pk(c)” de acordo com a figura 5e é utilizada. O algoritmo 312ba também compreende a seleção de uma tabela de frequências cumulativas dependendo do índice de estado “pki”, que é retornado pela chamada da função “arith_get_pk”, em que uma variável “cum_freq” pode ser definida a um endereço inicial de uma das 96 tabelas de frequências cumulativas (ou subtabelas) dependendo do índice de estado “pki”. Uma variável “cfl” pode também ser inicializada em um comprimento da tabela de frequências cumulativas selecionada (ou uma sub-tabela), que é, por exemplo, igual a um número de símbolos no alfabeto, ou seja, o número de diferentes valores que pode ser decodificado. O comprimento de todas as tabelas de frequências cumulativas (ou subtabelas) de “ari_cf_m[pki=0][17]” a “ari_cf_m[pki=95][17]” disponíveis para a decodificação do valor do plano de bits mais significativo m é 17, como 16 diferentes valores do plano de bits mais significativo e um símbolo de escape (“ARITH_ESCAPE”) podem ser decodificados. Preferivelmente, a tabela de frequências cumulativas ari_cf_m[64][17], conforme definido na representação em tabela de acordo com as figuras 23(1), 23(2), 23(3), que definem as tabelas de frequências cumulativas (ou subtabelas) “ari_cf_m[pki=0][17]” a “ari_cf_m[pki=63][17]”, é avaliada, para obter a tabela de frequências cumulativas selecionada (ou sub-tabela).
[000245] Subsequentemente, um valor do plano de bits mais significativo m pode ser obtido executando uma função “arith_decode()”, levando em consideração a tabela de frequências cumulativas selecionada (descrita pela variável “cum_freq” e a variável “cfl”). Ao derivar o valor do plano de bits mais significativo m, os bits chamados “acod_m” do fluxo de bits 210 podem ser avaliados (veja, por exemplo, a figura 6g ou a figura 6h). Preferivelmente, a função “arith_decode(cum_freq,cfl)” de acordo com a figura 5g é utilizada, mas de modo alternativo a função “arith_decode(cum_freq,cfl)” de acordo com as figuras 5h e 5i pode ser utilizada.
[000246] O algoritmo 312ba também compreende verificar se o valor do plano de bits mais significativo m é igual a um símbolo de escape “ARITH_ESCAPE”, ou não. Se o valor do plano de bits mais significativo m não for igual ao símbolo de escape aritmético, o algoritmo 312ba é abortado (condição de “interrupção”) e as instruções restantes do algoritmo 312ba são então puladas. Assim, a execução do processo é continuada com a definição do valor b e do valor a na etapa 312bb. Em contraste, se o valor do plano de bits mais significativo decodificado m for idêntico ao símbolo de escape aritmético, ou “ARITH_ESCAPE”, o valor de nível “lev” é aumentado por um. O valor de nível “esc_nb” é definido para ser igual ao valor de nível “lev”, a menos que a variável “lev” seja maior que sete, cujo caso, a variável “esc_nb” é definida para ser igual a sete. Conforme mencionado, o algoritmo 312ba é então repetido até que o valor do plano de bits mais significativo decodificado m seja diferente do símbolo de escape aritmético, em que um contexto modificado seja utilizado (por causa do parâmetro de entrada da função “arith_get_pk()” ser adaptado dependendo do valor da variável “esc_nb”).
[000247] Logo que o plano de bits mais significativo é decodificado utilizando execução de um período ou a execução iterativa do algoritmo 312ba, ou seja, um valor do plano de bits mais significativo m diferente do símbolo de escape aritmético foi decodificado, o variável do valor espectral “b” é definido para ser igual a diversos (por exemplo, 2) bits mais significativos do valor do plano de bits mais significativo m, e a variável do valor espectral “a” é definida (por exemplo, 2) nos bits menos significativos do valor do plano de bits mais significativo m. Detalhes referentes a esta funcionalidade podem ser vistos, por exemplo, no número de referência 312bb.
[000248] Subsequentemente, é verificado na etapa 312c, se um símbolo de parada aritmética está presente. Este é o caso se o valor do plano de bits mais significativo m for igual a zero e a variável “lev” for maior que zero. Assim, uma condição de parada aritmética é sinalizada por uma condição “incomum”, na qual o valor do plano de bits mais significativo m é igual a zero, enquanto a variável “lev” indica que um peso numérico aumentado está associado ao valor do plano de bits mais significativo m. Em outras palavras, uma condição de parada aritmética é detectada se o fluxo de bits indica que um peso numérico aumentado, maior que um peso numérico mínimo, deve ser dado a um valor do plano de bits mais significativo que é igual a zero, que é uma condição que não ocorre em uma situação de codificação normal. Em outras palavras, uma condição de parada aritmética é sinalizada se um símbolo de escape aritmético codificado for seguido por um valor do plano de bits mais significativo codificado de 0.
[000249] Depois de uma avaliação se houver uma condição de parada aritmética, que é realizada na etapa 212c, os planos de bits menos significativos são obtidos, por exemplo, conforme mostrado no número de referência 212d na figura 3. Para cada plano de bits menos significativo, dois valores binários são decodificados. Um dos valores binários está associado à variável a (ou o primeiro valor espectral de um tuplo de valores espectrais) e um dos valores binários está associado à variável b (ou um segundo valor espectral de um tuplo de valores espectrais). Um número de planos de bits menos significativos é designado pela variável lev.
[000250] Na decodificação de um ou mais planos de bits menos significativos (se houver) um algoritmo 212da é realizado de forma iterativa, em que um número de execuções do algoritmo 212da é determinado pela variável “lev”. Deve ser observado aqui que a primeira iteração do algoritmo 212da é realizada com base nos valores das variáveis a, b conforme definido na etapa 212bb. Outras iterações do algoritmo 212da devem ser realizadas com base nos valores da variável atualizada da variável a, b.
[000251] No início de uma iteração, uma tabela de frequências cumulativas é selecionada. Subsequentemente, uma decodificação aritmética é realizada para obter um valor de uma variável r, em que o valor da variável r descreve diversos bits menos significativos, por exemplo, um bit menos significativo associado à variável a e um bit menos significativo associado à variável b. A função “ARITH_DECODE” (por exemplo, conforme definido na figura 5g) é utilizada para obter o valor r, em que a tabela de frequências cumulativas “arith_cf_r” é utilizada para a decodificação aritmética.
[000252] Subsequentemente, os valores das variáveis a e b são atualizados. Para esta finalidade, a variável a é mudada à esquerda por um bit, e o bit menos significativo da variável mudada a é definido o valor definido pelo bit menos significativo do valor r. A variável b é mudada à esquerda por um bit, e o bit menos significativo da variável mudada b é definido o valor definido por bit 1 da variável r, em que o bit 1 da variável r tem um peso numérico de 2 na representação binária da variável r. O algoritmo 412ba é então repetido até que todos os bits menos significativos sejam decodificados.
[000253] Depois da decodificação dos planos de bits menos significativos, uma matriz “x_ac_dec” é atualizada em que os valores das variáveis a,b são armazenados nas entradas da dita matriz tendo índices da matriz 2*i e 2*i+1.
[000254] Subsequentemente, o estado de contexto é atualizado chamando a função “arith_update_context(i,a,b)”, detalhes que serão explicados abaixo tendo como referência a figura 5g. Preferivelmente, a função “arith_update_context(i,a,b)”, conforme definido na figura 5l, pode ser utilizada.
[000255] Subsequente à atualização do estado de contexto, que é realizada na etapa 313, os algoritmos 312 e 313 são repetidos, até que a variável de execução i atinja o valor de lg/2 ou uma condição de parada aritmética seja detectada.
[000256] Subsequentemente, um algoritmo de acabamento “arith_finish()” é realizado, como pode ser visto no número de referência 315. Detalhes do algoritmo de acabamento “arith_finish()” serão descritos abaixo tendo como referência a figura 5m.
[000257] Subsequente ao algoritmo de acabamento 315, os sinais dos valores espectrais são decodificados utilizando o algoritmo 314. Como pode ser visto, os sinais dos valores espectrais que são diferentes de zero são individualmente codificados. No algoritmo 314, os sinais são lidos para todos os valores espectrais tendo índices i entre i=0 e i=lg-1 que não são zero. Para cada valor espectral não zero tendo um índice do valor espectral i entre i=0 e i=lg-1, um valor (tipicamente um único bit) s é lido do fluxo de bits. Se o valor de s, que é lido do fluxo de bits é igual a 1, o sinal do dito valor espectral é invertido. Para esta finalidade, o acesso é feito à matriz “x_ac_dec”, para determinar se o valor espectral tendo o índice i é igual a zero e para atualizar o sinal dos valores espectrais decodificados. Entretanto, deve ser observado que os sinais das variáveis a, b não são mudados na decodificação de sinal 314.
[000258] Realizando o algoritmo de acabamento 315 antes da decodificação de sinais 314, é possível redefinir todos os bins necessários depois de um símbolo ARITH_STOP.
[000259] Deve ser observado aqui que o conceito para obter os valores dos planos de bits menos significativos não é de relevância particular em algumas realizações de acordo com a presente invenção. Em algumas realizações, a decodificação de quaisquer planos de bits menos significativos pode ser omitida. De modo alternativo, diferentes algoritmos de decodificação podem ser utilizados para esta finalidade.
[000260] 11.2 Ordem de decodificação de acordo com a figura 4
[000261] A seguir, a ordem de decodificação dos valores espectrais será descrita.
[000262] Os coeficientes espectrais quantizados “x_ac_dec[]” são silenciosamente codificados e transmitidos (por exemplo, no fluxo de bits) começando do coeficiente com frequência mais baixa e continuando até o coeficiente com frequência mais alta.
[000263] Consequentemente, os coeficientes espectrais quantizados “x_ac_dec[]” são silenciosamente codificados começando do coeficiente com frequência mais baixa e continuando ao coeficiente com frequência mais alta. Os coeficientes espectrais quantizados são decodificados por grupos de dois coeficientes sucessivos (por exemplo, adjacentes na frequência) a e b reunindo em um tuplo duplo (a,b) (também designado como {a,b}). Deve ser observado aqui que os coeficientes espectrais quantizados são às vezes designados como “qdec”.
[000264] Os coeficientes decodificados “x_ac_dec[]” para um modo de domínio de frequência (por exemplo, coeficientes decodificados para uma codificação de áudio avançado, por exemplo, obtido utilizando uma transformação de cosseno discreto modificado, conforme discutido em ISO/IEC 14496, parte 3, subparte 4) são então armazenados em uma matriz “x_ac_quant[g][win][sfb][bin]”. A ordem de transmissão das senhas de codificação silenciosa é de modo que quando elas são decodificadas na ordem recebida e armazenada na matriz, “bin” é o índice que aumenta mais rapidamente, e “g” é o índice que aumenta mais lentamente. Dentro de uma senha, a ordem da decodificação é a,b (ou seja, a, e então b).
[000265] Os coeficientes decodificados “x_ac_dec[]” para a excitação codificada por transformação (TCX) são armazenados, por exemplo, diretamente em uma matriz “x_tcx_invquant[win][bin]”, e uma ordem da transmissão da senha de codificação silenciosa é de modo que quando elas são decodificadas na ordem recebida e armazenada na matriz “bin” é o índice que aumenta mais rapidamente, e “win” é o índice que aumenta mais lentamente. Dentro de uma senha, uma ordem da decodificação é a, b. Em outras palavras, se os valores espectrais descrevem uma excitação codificada por transformação do filtro de previsão linear de um codificador de discurso, os valores espectrais a, b são associados às frequências adjacentes e de aumento da excitação codificada por transformação. Os coeficientes espectrais associados a uma frequência inferior são tipicamente codificados e decodificados antes de um coeficiente espectral associado a uma frequência mais alta.
[000266] Notavelmente, o decodificador de áudio 200 pode ser configurado para aplicar a representação decodificada de domínio de frequência 232, que é provida pelo decodificador aritmético 230, para uma geração “direta” de uma representação do sinal de áudio de domínio de tempo que utiliza uma transformação do sinal de domínio de frequência em domínio de tempo e para uma provisão “indireta” de uma representação do sinal de áudio de domínio de tempo que utiliza um decodificador de domínio de frequência em domínio de tempo e um filtro de previsão linear excitado pela saída do transformador de sinal de domínio de frequência em domínio de tempo.
[000267] Em outras palavras, o decodificador aritmético, a funcionalidade que é discutida aqui em detalhes, é bem adequada de valores espectrais de decodificação de uma representação de domínio de frequência de tempo de um conteúdo de áudio codificado no domínio de frequência, e para a provisão de uma representação de domínio de frequência de tempo de um sinal de estímulo para um filtro de previsão linear adaptado para decodificar (ou sintetizar) um sinal de discurso codificado no domínio de previsão linear. Assim, o decodificador aritmético é bem adequado para uso em um decodificador de áudio que pode lidar com o conteúdo de áudio codificado de domínio de frequência e conteúdo de áudio codificado de domínio de frequência previsivo linear (modo de excitação codificada por transformação-domínio de previsão linear).
[000268] 11.3 Inicialização de contexto de acordo com as figuras 5a e 5b
[000269] A seguir, a inicialização de contexto (também designada como um “mapeamento de contexto”), que é realizada em uma etapa 310, será descrita.
[000270] A inicialização de contexto compreende um mapeamento entre um contexto anterior e um contexto corrente de acordo com o algoritmo “arith_map_context()”, um primeiro exemplo do que é mostrado na figura 5a e um segundo exemplo do que é mostrado na figura 5b.
[000271] Como pode ser visto, o contexto corrente é armazenado em uma variável global “q[2][n_context]” que toma a forma de uma matriz tendo uma primeira dimensão de 2 e uma segunda dimensão de “n_context”. Um contexto anterior pode opcionalmente (mas não necessariamente) ser armazenado em uma variável “qs[n_context]” que toma a forma da tabela tendo uma dimensão de “n_context” (se for utilizado).
[000272] Tendo como referência o algoritmo de exemplo “arith_map_context” na figura 5a, a variável de entrada N descreve um comprimento de uma janela corrente e a variável de entrada “arith_reset_flag” indica se o contexto deve ser redefinido. Além disso, a variável global “previous_N” descreve um comprimento de uma janela prévia. Deve ser observado aqui que tipicamente um número de valores espectrais associado a uma janela é, pelo menos aproximadamente, igual à metade de um comprimento da dita janela em termos de amostras de domínio de tempo. Além disso, deve ser observado que um número de 2 tuplos de valores espectrais é, consequentemente, pelo menos aproximadamente igual a um quarto de um comprimento da dita janela em termos de amostras de domínio de tempo.
[000273] Primeiro, deve ser observado que o indicador “arith_reset_flag” determina se o contexto deve ser redefinido.
[000274] Tendo como referência o exemplo da figura 5a, o mapeamento do contexto pode ser realizado de acordo com o algoritmo “arith_map_context()”. Deve ser observado aqui que a função “arith_map_context()” define as entradas “q[0][j]” da matriz de contexto corrente q a zero para j=0 aj=N/4-1, se o indicador “arith_reset_flag” estiver ativo e consequentemente indica que o contexto deve ser redefinido. Caso contrário, ou seja, se o indicador “arith_reset_flag” estiver inativo, as entradas “q[0][j]” da matriz de contexto corrente q são derivadas das entradas “q[1][k]” da matriz de contexto corrente q. Deve ser observado que a função “arith_map_context()” de acordo com a figura 5a define as entradas “q[0][j]” da matriz de contexto corrente q aos valores “q[1][k]” da matriz de contexto corrente q, se o número de valores espectrais associado ao corrente (por exemplo, codificado pelo domínio de frequência) a estrutura de áudio for idêntico ao número de valores espectrais associado à estrutura de áudio anterior para j=k=0 a j=k=N/4-1.
[000275] Um mapeamento mais complicado é realizado se o número de valores espectrais que está associado à estrutura corrente de áudio presente for diferente do número de valores espectrais que está associado à estrutura de áudio anterior. Entretanto, detalhes referentes ao mapeamento neste caso não são particularmente relevantes para esta ideia principal da presente invenção, de modo que a referência é feita ao código do pseudo- programa da figura 5a para detalhes.
[000276] Além disso, um valor de inicialização para o valor de contexto corrente numérico c é retornado pela função “arith_map_context()”. Este valor de inicialização é, por exemplo, igual ao valor da entrada “q[0][0]” mudada à esquerda em 12 bits. Assim, o valor de contexto (corrente) numérico c é apropriadamente inicializado para uma atualização iterativa.
[000277] Além disso, a figura 5b mostra outro exemplo de um algoritmo “arith_map_context()” que pode de modo alternativo ser utilizado. Para detalhes, a referência é feita ao código do pseudo-programa na figura 5b.
[000278] Para resumir o mencionado acima, o indicador “arith_reset_flag” determina se o contexto deve ser redefinido. Se o indicador for verdadeiro, um sub-algoritmo de redefinição 500a do algoritmo “arith_map_context()” é chamado. De modo alternativo, entretanto, se o indicador “arith_reset_flag” estiver inativo (que indica que nenhuma redefinição do contexto deve ser realizada), o processo de decodificação começa com uma fase de inicialização onde o vetor do elemento de contexto (ou matriz) q é atualizado copiando e mapeando os elementos de contexto da estrutura prévia armazenados em q[1][] em q[0][]. Os elementos de contexto dentro de q são armazenados em 4 bits por 2 tuplos. A cópia e/ou mapeamento do elemento de contexto são realizados em um sub- algoritmo 500b.
[000279] Além disso, deve ser observado que se o contexto não pode ser confiavelmente determinado, por exemplo, se os dados da estrutura anterior não estiverem disponíveis, e se “arith_reset_flag” não for definida, então a decodificação dos dados espectrais não pode ser continuada e a leitura do elemento atual “arith_data()” deve ser pulada.
[000280] No exemplo da figura 5b, o processo de decodificação começa com uma fase de inicialização onde um mapeamento é feito entre o contexto anterior salvo armazenado em qs e o contexto da estrutura corrente q. O contexto anterior qs é armazenado em 2 bits por linha de frequência.
[000281] 11.4 Cálculo do valor de estado de acordo com as figuras 5c e 5d
[000282] A seguir, o cálculo do valor de estado 312a será descrito em mais detalhes.
[000283] Um primeiro algoritmo de exemplo será descrito tendo como referência a figura 5c e um segundo algoritmo de exemplo será descrito tendo como referência a figura 5d.
[000284] Deve ser observado que o valor de contexto corrente numérico c (conforme mostrado na figura 3) pode ser obtido como um valor de retorno da função “arith_get_context(c,i,N)”, uma representação do código do pseudo- programa que é mostrada na figura 5c. De modo alternativo, entretanto, o valor de contexto corrente numérico c pode ser obtido como um valor de retorno da função “arith_get_context(c,i)”, uma representação do código do pseudo- programa que é mostrada na figura 5d.
[000285] Referente ao cálculo do valor de estado, a referência é também feita à figura 4, que mostra o contexto utilizado para uma avaliação de estado, ou seja, para o cálculo de um valor de contexto corrente numérico c. A figura 4 mostra uma representação bidimensional de valores espectrais, sobre o tempo e frequência. Uma abscissa 410 descreve o tempo, e uma ordenada 412 descreve a frequência. Como pode ser visto na figura 4, um tuplo 420 de valores espectrais para decodificar (preferivelmente que utiliza o valor de contexto corrente numérico), é associado a um índice de tempo t0 e um índice de frequência i. Como pode ser visto, para o índice de tempo t0, os tuplos tendo índices de frequência i-1, i-2, e i-3 já são decodificados no tempo cujos valores espectrais do tuplo 120, tendo o índice de frequência i, devem ser decodificados. Como pode ser visto da figura 4, um valor espectral 430 tendo um índice de tempo t0 e um índice de frequência i-1 já é decodificado antes de o tuplo 420 de valores espectrais serem decodificados, e o tuplo 430 de valores espectrais é considerado para o contexto que é utilizado para a decodificação do tuplo 420 de valores espectrais. De forma semelhante, um tuplo 440 de valores espectrais tendo um índice de tempo t0-1 e um índice de frequência de i-1, um tuplo 450 de valores espectrais tendo um índice de tempo t0-1 e um índice de frequência de i, e um tuplo 460 de valores espectrais tendo um índice de tempo t0-1 e um índice de frequência de i+1, já é decodificado antes de o tuplo 420 de valores espectrais ser decodificado, e são considerados para a determinação do contexto, que é utilizado para decodificar o tuplo 420 de valores espectrais. Os valores espectrais (coeficientes) já decodificados no tempo quando os valores espectrais do tuplo 420 são decodificados e considerados para o contexto são mostrados por um quadrado sombreado. Em contraste, alguns outros valores espectrais já decodificados (no tempo quando os valores espectrais do tuplo 420 são decodificados), mas não considerados para o contexto (para a decodificação dos valores espectrais do tuplo 420) são representados por quadrados tendo linhas tracejadas, e outros valores espectrais (que ainda não são decodificados no tempo quando os valores espectrais do tuplo 420 são decodificados) são mostrados por círculos tendo linhas tracejadas. Os tuplos representados por quadrados tendo linhas tracejadas e os tuplos representados por círculos tendo linhas tracejadas não são utilizados para determinar o contexto de decodificação dos valores espectrais do tuplo 420.
[000286] Entretanto, deve ser observado que alguns destes valores espectrais, que não são utilizados para o cálculo “regular” ou “normal” do contexto de decodificação dos valores espectrais do tuplo 420 podem, entretanto, ser avaliados para a detecção de diversos valores espectrais adjacentes previamente decodificados que cumprem, individualmente ou juntos, uma condição predeterminada referente às suas magnitudes. Detalhes referentes a esta questão serão discutidos abaixo.
[000287] Agora com referência à figura 5c, detalhes do algoritmo “arith_get_context(c,i,N)” serão descritos. A figura 5c mostra a funcionalidade da dita função “arith_get_context(c,i,N)” na forma de um código do pseudo-programa, que utiliza as convenções da linguagem C e/ou linguagem C++ bem conhecidas. Assim, outros detalhes referentes ao cálculo do valor de contexto corrente numérico “c” que é realizado pela função “arith_get_context(c,i,N)” serão descritos.
[000288] Deve ser observado que a função “arith_get_context(c,i,N)” recebe, como variáveis de entrada, um “contexto de estado antigo”, que pode ser descrito por um valor de contexto prévio numérico c. A função “arith_get_context(c,i,N)” também recebe, como uma variável de entrada, um índice i de um tuplo duplo de valores espectrais para decodificar. O índice i é tipicamente um índice de frequência. Uma variável de entrada N descreve um comprimento da janela de uma janela, na qual os valores espectrais são decodificados.
[000289] A função “arith_get_context(c,i,N)” provê, como um valor de saída, uma versão atualizada da variável de entrada c, que descreve um contexto de estado atualizado, e que pode ser considerado como um valor de contexto corrente numérico. Para resumir, a função “arith_get_context(c,i,N)” recebe um valor de contexto prévio numérico c como uma variável de entrada e provê uma versão atualizada deste, que é considerada como um valor de contexto corrente numérico. Além disso, a função “arith_get_context” considera as variáveis i, N, e também avalia a matriz “global” q[][].
[000290] Referente aos detalhes da função “arith_get_context(c,i,N)”, deve ser observado que a variável c, que inicialmente representa o valor de contexto prévio numérico em uma forma binária, é mudada à direita em 4 bits em uma etapa 504a. Assim, os quatro bits menos significativos do valor de contexto prévio numérico (representado pela variável de entrada c) são descartados. Ainda, os pesos numéricos de outros bits dos valores de contexto prévios numéricos são reduzidos, por exemplo, um fator de 16.
[000291] Além disso, se o índice i do tuplo duplo for menor que N/4-1, ou seja, não assume um valor máximo, o valor de contexto corrente numérico é modificado em que o valor da entrada q[0][i+1] é adicionado aos bits 12 a 15 (ou seja, aos bits tendo um peso numérico de 212, 213, 214, e 215) do valor de contexto mudado que é obtido na etapa 504a. Para esta finalidade, a entrada q[0][i+1] da matriz q[][] (ou, mais precisamente, uma representação binária do valor representado pela dita entrada) é mudada à esquerda em 12 bits. A versão mudada do valor representado pela entrada q[0][i+1] é então adicionada ao valor de contexto c, que é derivado na etapa 504a, ou seja, a representação numérica do valor de contexto prévio numérico um mudado por bit (mudado à direita em 4 bits). Deve ser observado aqui que a entrada q [0][i+1] da matriz q[][] representa um valor da sub- região associado a uma parte prévia do conteúdo de áudio (por exemplo, uma parte do conteúdo de áudio tendo índice de tempo t0- 1, conforme definido com referência à figura 4), e com uma frequência mais alta (por exemplo, uma frequência tendo um índice de frequência i+1, conforme definido com referência à figura 4) que o tuplo de valores espectrais a ser atualmente decodificado (que utiliza o valor de contexto corrente numérico c emitido pela função “arith_get_context(c,i,N)”). Em outras palavras, se o tuplo 420 de valores espectrais deve ser decodificado utilizando o valor de contexto corrente numérico, a entrada q[0][i+1] pode ter como base o tuplo 460 de valores espectrais previamente decodificados.
[000292] Uma adição seletiva da entrada q[0][i+1] da matriz q[][] (mudada à esquerda em 12 bits) é mostrada no número de referência 504b. Como pode ser visto, a adição do valor representado pela entrada q[0][i+1] é naturalmente realizada somente se o índice de frequência i não designar um tuplo de valores espectrais tendo o índice de frequência mais alta i=N/4-1.
[000293] Subsequentemente, em uma etapa 504c, uma operação Boolean AND é realizada, na qual o valor da variável c é AND- combinado com um valor hexadecimal de 0xFFF0 para obter um valor atualizado da variável c. Realizando tal operação AND, os quatro bits menos significativos da variável c são efetivamente definidos a zero.
[000294] Em uma etapa 504d, o valor da entrada q[1][i-1] é adicionado ao valor da variável c, que é obtido pela etapa 504c, para então atualizar o valor da variável c. Entretanto, a dita atualização da variável c na etapa 504d é somente realizada se o índice de frequência i do tuplo duplo para decodificar for maior que zero. Deve ser observado que a entrada q[1][i-1] é um valor da sub-região de contexto com base em um tuplo de valores espectrais previamente decodificados da parte corrente do conteúdo de áudio para frequências menores que as frequências dos valores espectrais a ser decodificados que utilizam o valor de contexto corrente numérico. Por exemplo, a entrada q[1][i-1] da matriz q[][] pode ser associada ao tuplo 430 tendo o índice de tempo t0 e o índice de frequência i-1, se for assumido que o tuplo 420 de valores espectrais deve ser decodificado utilizando o valor de contexto corrente numérico retornado pela presente execução da função “arith_get_context(c,i,N)”.
[000295] Para resumir, os bits 0, 1, 2, e 3 (ou seja, uma parte de quatro bits menos significativos) do valor de contexto prévio numérico são descartados na etapa 504a alternando-os da representação numérica binária do valor de contexto prévio numérico. Além disso, os bits 12, 13, 14, e 15 da variável mudada c (ou seja, do valor de contexto mudado prévio numérico) são definidos para ter valores definidos pelo valor da sub-região de contexto q[0][i+1] na etapa 504b. Os bits 0, 1, 2, e 3 do valor de contexto mudado prévio numérico (ou seja, bits 4, 5, 6, e 7 do valor de contexto prévio numérico original) são sobrescritos pelo valor da sub-região de contexto q[1][i-1] nas etapas 504c e 504d.
[000296] Consequentemente, pode ser dito que os bits 0 a 3 do valor de contexto prévio numérico representam o valor da sub- região de contexto associado ao tuplo 432 de valores espectrais, os bits 4 a 7 do valor de contexto prévio numérico representam o valor da sub-região de contexto associado a um tuplo 434 de valores espectrais previamente decodificados, os bits 8 a 11 do valor de contexto prévio numérico representam o valor da sub- região de contexto associado ao tuplo 440 dos valores espectrais previamente decodificados e os bits 12 a 15 do valor de contexto prévio numérico representam um valor da sub-região de contexto associado ao tuplo 450 de valores espectrais previamente decodificados. O valor de contexto prévio numérico, que é inserido na função “arith_get_context(c,i,N)”, é associado a uma decodificação do tuplo 430 de valores espectrais.
[000297] O valor de contexto corrente numérico, que é obtido como uma variável de saída da função “arith_get_context(c,i,N)”, é associado a uma decodificação do tuplo 420 de valores espectrais. Assim, os bits 0 a 3 dos valores de contexto corrente numérico descrevem o valor da sub-região de contexto associado ao tuplo 430 dos valores espectrais, os bits 4 a 7 do valor de contexto corrente numérico descrevem o valor da sub-região de contexto associado ao tuplo 440 de valores espectrais, os bits 8 a 11 do valor de contexto corrente numérico descrevem o valor numérico da sub-região associado ao tuplo 450 de valor espectral e os bits 12 a 15 do valor de contexto corrente numérico descreveu o valor da sub-região de contexto associado ao tuplo 460 de valores espectrais. Assim, pode ser visto que uma parte do valor de contexto prévio numérico, a saber, os bits 8 a 15 do valor de contexto prévio numérico, são também incluídos no valor de contexto corrente numérico, como os bits 4 a 11 do valor de contexto corrente numérico. Em contraste, os bits 0 a 7 do valor de contexto corrente prévio numérico são descartados ao derivar a representação numérica do valor de contexto corrente numérico da representação numérica do valor de contexto prévio numérico.
[000298] Em uma etapa 504e, a variável c que representa o valor de contexto corrente numérico é seletivamente atualizada se o índice de frequência i do tuplo duplo para decodificar for maior que um número predeterminado de, por exemplo, 3. Neste caso, ou seja, se i for maior que 3, é determinado se a soma dos valores da sub-região de contexto q[1][i-3], q[1][i-2], e q[1][i-1] for menor que (ou igual a) um valor predeterminado de, por exemplo, 5. Caso seja descoberto que a soma dos ditos valores da sub-região de contexto for menor que o dito valor predeterminado, um valor hexadecimal de, por exemplo, 0x10000, é adicionado à variável c. Assim, a variável c é definida de modo que a variável c indica se há uma condição na qual os valores da sub-região de contexto q[1][i-3], q[1][i-2], e q[1][i-1] compreendem um valor de soma particularmente pequeno. Por exemplo, o bit 16 do valor de contexto corrente numérico pode agir como um indicador para indicar tal condição.
[000299] Para Concluir, O Valor De Retorno Da Função “arith_get_context(C,I,N)” É Determinado Pelas Etapas 504a, 504b, 504c, 504d, E 504e, Onde O Valor De Contexto Corrente Numérico É Derivado Do Valor De Contexto Prévio Numérico Nas Etapas 504a, 504b, 504c, E 504d, E Em Que Um Indicador Indicando Um Ambiente De Valores Espectrais Previamente Decodificados Tendo, Em Média, Valores Absolutos Particularmente Pequenos, É Derivado Na Etapa 504e E Adicionado À Variável C. Assim, O Valor Da Variável C Obtido Nas Etapas 504a, 504b, 504c, 504d É Retornado, Em Uma Etapa 504f, Como Um Valor De Retorno Da Função “arith_get_context(C,I,N)”, Se Uma Condição Avaliada Na Etapa 504e Não For Cumprida. Em Contraste, O Valor Da Variável C, Que É Derivado Nas Etapas 504a, 504b, 504c, E 504d, É Aumentado Pelo Valor Hexadecimal De 0x10000 E O Resultado Desta Operação De Aumento É Retornado, Na Etapa 504e, Se A Condição Avaliada Na Etapa 540e For Cumprida.
[000300] Para resumir o mencionado acima, deve ser observado que o decodificador silencioso emite 2 tuplos de coeficientes espectrais quantizados não assinados (conforme será descrito em mais detalhes abaixo). Primeiramente, o estado c do contexto é calculado com base nos coeficientes espectrais previamente decodificados “ao redor” do tuplo duplo para decodificar. Em uma realização preferida, o estado (que é, por exemplo, representado por um valor de contexto numérico) é adicionalmente atualizado utilizando o estado de contexto do último tuplo duplo decodificado (que é designado como um valor de contexto prévio numérico), considerando somente dois novos tuplos duplos (por exemplo, 2 tuplos 430 e 460). O estado é codificado nos 17 bits (por exemplo, utilizando uma representação numérica de um valor de contexto corrente numérico) e é retornado pela função “arith_get_context()”. Para detalhes, a referência é feita à representação do código do programa da figura 5c.
[000301] Além disso, deve ser observado que um código do pseudo-programa de uma realização alternativa da função “arith_get_context()” é mostrado na figura 5d. A função “arith_get_context(c,i)” de acordo com a figura 5d é semelhante à função “arith_get_context(c,i,N)” de acordo com a figura 5c. Entretanto, a função “arith_get_context(c,i)” de acordo com a figura 5d não compreende um manuseio especial ou decodificação de tuplos de valores espectrais que compreendem um índice mínimo de frequência de i=0 ou um índice máximo de frequência de i=N/4-1.
[000302] 11.5 Seleção da regra de mapeamento
[000303] A seguir, a seleção de uma regra de mapeamento, por exemplo, a tabela de frequências cumulativas que descreve um mapeamento de um valor de senha em um código de símbolo, será descrita. A seleção da regra de mapeamento é feita dependendo de um estado de contexto, que é descrito pelo valor de contexto corrente numérico c.
[000304] 11.5.1 Seleção da regra de mapeamento utilizando o algoritmo de acordo com a figura 5e
[000305] A seguir, a seleção de uma regra de mapeamento utilizando a função “arith_get_pk(c)” será descrita. Deve ser observado que a função “arith_get_pk()” é chamada no início do sub-algoritmo 312ba ao decodificar um valor de código “acod_m” para prover um tuplo de valores espectrais. Deve ser observado que a função “arith_get_pk(c)” é chamada com diferentes argumentos em diferentes iterações do algoritmo 312b. Por exemplo, em uma primeira iteração do algoritmo 312b, a função “arith_get_pk(c)” é chamada com um argumento que é igual ao valor de contexto corrente numérico c, provido pela prévia execução da função “arith_get_context(c,i,N)” na etapa 312a. Em contraste, em outras iterações do sub-algoritmo 312ba, a função “arith_get_pk(c)” é chamada com um argumento que é uma soma do valor de contexto corrente numérico c provida pela função “arith_get_context(c,i,N)” na etapa 312a, e uma versão de bit mudado do valor da variável “esc_nb”, em que o valor da variável “esc_nb” é mudado à esquerda em 17 bits. Assim, o valor de contexto corrente numérico c provido pela função “arith_get_context(c,i,N)” é utilizado como um valor de entrada da função “arith_get_pk()” na primeira iteração do algoritmo 312ba, ou seja, na decodificação de valores espectrais comparavelmente pequenos. Em contraste, ao decodificar valores espectrais comparavelmente maiores, a variável de entrada da função “arith_get_pk()” é modificada onde o valor da variável “esc_nb”, é levado em consideração, conforme é mostrado na figura 3.
[000306] Agora com referência à figura 5e, que mostra uma representação do código do pseudo-programa de uma primeira realização da função “arith_get_pk(c)”, deve ser observado que a função “arith_get_pk()” recebe a variável c como um valor de entrada, em que a variável c descreve o estado do contexto, e em que a variável de entrada c da função “arith_get_pk()” é igual ao valor de contexto corrente numérico provido como uma variável de retorno da função “arith_get_context()” pelo menos em algumas situações. Além disso, deve ser observado que a função “arith_get_pk()” provê, como uma variável de saída, a variável “pki”, que descreve um índice de um modelo de probabilidade e que pode ser considerado como um valor de índice de regra de mapeamento.
[000307] Tendo como referência a figura 5e, pode ser visto que a função “arith_get_pk()” compreende uma inicialização da variável 506a, em que a variável “i_min” é inicializada para ter o valor de -1. Semelhantemente, a variável i é definida para ser igual à variável “i_min”, de modo que a variável i também seja inicializada a um valor de -1. A variável “i_max” é inicializada para assumir um valor que é menor, em 1, do que o número de entradas da tabela “ari_lookup_m[]” (detalhes que serão descritos tendo como referência a figura 21). Assim, as variáveis “i_min” e “i_max” definem um intervalo. Por exemplo, i_max pode ser inicializada ao valor 741.
[000308] Subsequentemente, uma pesquisa 506b é realizada para identificar um valor de índice que designa uma entrada da tabela “ari_hash_m”, de modo que o valor da variável de entrada c da função “arith_get_pk()” dentro de um intervalo definido pela dita entrada e uma entrada adjacente.
[000309] Na pesquisa 506b, um sub-algoritmo 506ba é repetido, enquanto uma diferença entre as variáveis “i_max” e “i_min” for maior que 1. No sub-algoritmo 506ba, a variável i é definida para ser igual a um meio aritmético dos valores das variáveis “i_min” e “i_max”. Consequentemente, a variável i designa uma entrada da tabela “ari_hash_m[]” (conforme definido na representação em tabelas das figuras 22(1), 22(2), 22(3) e 22(4)) em um meio de um intervalo da tabela definido pelos valores das variáveis “i_min” e “i_max”. Subsequentemente, a variável j é definida para ser igual ao valor da entrada “ari_hash_m[i]” da tabela “ari_hash_m[]”.a variável j assume um valor definido por uma entrada da tabela “ari_hash_m[]”,cuja entrada permanece no meio de um intervalo da tabela definido pelas variáveis “i_min” e “i_max”. Subsequentemente, o intervalo definido pelas variáveis “i_min” e “i_max” é atualizado se o valor da variável de entrada c da função “arith_get_pk()” for diferente de um valor de estado definido pelos bits superiores da entrada de tabela “j=ari_hash_m[i]” da tabela “ari_hash_m[]”.Por exemplo, os “bits superiores” (bits 8 e acima) das entradas da tabela “ari_hash_m[]”descrevem valores de estado significativos. Assim, o valor “j>>8” descreve um valor de estado significativo representado pela entrada “j=ari_hash_m[i]” da tabela “ari_hash_m[]” designada pela tabela hash-valor de índice i. Assim, se o valor da variável c for menor que o valor “j>>8”, isto significa que o valor de estado descrito pela variável c é menor que um valor de estado significativo descrito pela entrada “ari_hash_m[i]” da tabela “ari_hash_m[]”. Neste caso, o valor da variável “i_max” é definido para ser igual ao valor da variável i, que por sua vez tem o efeito que um tamanho do intervalo definido por “i_min” e “i_max” é reduzido, em que o novo intervalo é aproximadamente igual à metade inferior do intervalo prévio. Se for observado que a variável de entrada c da função “arith_get_pk()” é maior que o valor “j>>8”, que significa que o valor de contexto descrito pela variável c é maior que um valor de estado significativo descrito pela entrada “ari_hash_m[i]” da matriz “ari_hash_m[]”, o valor da variável “i_min” é definido para ser igual ao valor da variável i. Assim, o tamanho do intervalo definido pelos valores das variáveis “i_min” e “i_max” é reduzido aproximadamente metade do tamanho do intervalo prévio, definido pelos valores prévios das variáveis “i_min” e “i_max”. Para ser mais preciso, o intervalo definido pelo valor atualizado da variável “i_min” e pelo valor prévio da variável (não mudado) “i_max” é aproximadamente igual à metade superior do intervalo prévio no caso em que o valor da variável c é maior que o valor de estado significativo definido pela entrada “ari_hash_m[i]”.
[000310] Se, entretanto, for observado que o valor de contexto descrito pela variável de entrada c do algoritmo “arith_get_pk()” é igual ao valor de estado significativo definido pela entrada “ari_hash_m[i]” (ou seja, c==(j>>8)), um valor de índice de regra de mapeamento definido pelos 8 bits mais inferiores da entrada “ari_hash_m[i]” é retornado como o valor de retorno da função “arith_get_pk()” (instrução “return (j&0xFF)”).
[000311] Para resumir o mencionado acima, uma entrada “ari_hash_m[i]”, os bits superiores (bits 8 e acima) dos quais descrevem um valor de estado significativo, é avaliada em cada iteração 506ba, e o valor de contexto (ou valor de contexto corrente numérico) descrito pela variável de entrada c da função “arith_get_pk()” é comparado com o valor de estado significativo descrito pela dita entrada de tabela “ari_hash_m[i]”. Se o valor de contexto representado pela variável de entrada c for menor que o valor de estado significativo representado pela entrada de tabela “ari_hash_m[i]”, o limite superior (descrito pelo valor “i_max”) do intervalo da tabela é reduzido, e se o valor de contexto descrito pela variável de entrada c é maior que o valor de estado significativo descrito pela entrada de tabela “ari_hash_m[i]”, o limite inferior (que é descrito pelo valor da variável “i_min”) do intervalo da tabela é aumentado. Em ambos os ditos casos, o sub-algoritmo 506ba é repetido, a menos que o tamanho do intervalo (definido pela diferença entre “i_max” e “i_min”) seja menor que, ou igual a, 1. Se, em contraste, o valor de contexto descrito pela variável c for igual ao valor de estado significativo descrito pela entrada de tabela “ari_hash_m[i]”, a função “arith_get_pk()” é abortada, em que o valor de retorno é definido pelos 8 bits mais inferiores da entrada de tabela “ari_hash_m[i]”.
[000312] Se, entretanto, a pesquisa 506b for finalizada por causa do tamanho do intervalo atingir seu valor mínimo (“i_max” - “i_min” é menor que, ou igual a, 1), o valor de retorno da função “arith_get_pk()” é determinado por uma entrada “ari_lookup_m[i_max]” da tabela “ari_lookup_m[]”, que pode ser vista no número de referência 506c. A tabela ari_lookup_m[] é preferivelmente escolhida conforme definido na representação em tabela da figura 21, e pode então ser igual à tabela ari_lookup_m[742]. Assim, as entradas da tabela “ari_hash_m[]” (que é preferivelmente igual à tabela ari_hash_m[742] conforme definido nas figuras 22(1), 22(2), 22(3), 22(4)) definem ambos os valores de estado significativo e limites dos intervalos. No sub- algoritmo 506ba, os limites de intervalo da pesquisa “i_min” e “i_max” são adaptados de forma iterativa, de modo que a entrada “ari_hash_m[i]” da tabela “ari_hash_m[]”, um índice da tabela hash i do qual permanece, pelo menos aproximadamente, no centro do intervalo da pesquisa definido pelos valores de limite de intervalo “i_min” e “i_max”, pelo menos aproxima um valor de contexto descrito pela variável de entrada c. É então atingido que o valor de contexto descrito pela variável de entrada c dentro de um intervalo definido por “ari_hash_m[i_min]” e “ari_hash_m[i_max]” depois da conclusão das iterações do sub- algoritmo 506ba, a menos que o valor de contexto descrito pela variável de entrada c seja igual a um valor de estado significativo descrito por uma entrada da tabela “ari_hash_m[]”.
[000313] Se, entretanto, a repetição iterativa do sub- algoritmo 506ba for terminada por causa do tamanho do intervalo (definido por “i_max” - i_min”) ela atinge ou excede seu valor mínimo, é assumido que o valor de contexto descrito pela variável de entrada c não é um valor de estado significativo. Neste caso, o índice “i_max”, que designa um limite superior do intervalo, é entretanto utilizado. O valor superior “i_max” do intervalo, que é atingido na última iteração do sub-algoritmo 506ba, é reutilizado como um valor do índice da tabela para um acesso à tabela “ari_lookup_m” (que pode ser igual à tabela ari_lookup_m[742] da figura 21). A tabela “ari_lookup_m[]” descreve os valores do índice da regra de mapeamento associados aos intervalos de diversos valores de contexto numérico adjacentes. Os intervalos, nos quais os valores de índice de regra de mapeamento descritos pelas entradas da tabela “ari_lookup_m[]” estão associados, são definidos pelos valores de estado significativos descritos pelas entradas da tabela “ari_hash_m[]”.As entradas da tabela “ari_hash_m” definem ambos os valores de estado significativos e os limites de intervalos de valores de contexto numéricos adjacentes. Na execução do algoritmo 506b, é determinado se o valor de contexto numérico descrito pela variável de entrada c é igual a um valor de estado significativo, e se este não for o caso, cujo intervalo de valores de contexto numéricos (dos diversos intervalos, limites dos quais são definidos pelos valores de estado significativo) o valor de contexto descrito pela variável de entrada c permanece. Assim, o algoritmo 506b cumpre uma funcionalidade dupla para determinar se a variável de entrada c descreve um valor de estado significativo e, se não for o caso, para identificar um intervalo, delimitado por valores de estado significativos, no qual o valor de contexto representado pela variável de entrada c permanece. Assim, o algoritmo 506e é particularmente eficiente e requer somente um número comparavelmente pequeno de acessos da tabela.
[000314] Para resumir o mencionado acima, o estado de contexto c determina a tabela de frequências cumulativas utilizada para decodificar o plano de bit a bit mais significativo m. O mapeamento de c ao índice da tabela de frequências cumulativas “pki” correspondente conforme realizado pela função “arith_get_pk()”. Uma representação do código do pseudo-programa da dita função “arith_get_pk()” foi explicado tendo como referência a figura 5e.
[000315] Para ainda resumir o mencionado acima, o valor m é decodificado utilizando a função “arith_decode()” (que é descrita em mais detalhes abaixo) chamada com a tabela de frequências cumulativas “arith_cf_m[pki][]”, onde “pki” corresponde ao índice (também designado como valor de índice de regra de mapeamento) retornado pela função “arith_get_pk()”, que é descrita com referência à figura 5e na forma de um pseudo código C.
[000316] 11.5.2 Seleção da regra de mapeamento utilizando o algoritmo de acordo com a figura 5f
[000317] A seguir, outra realização de uma seleção do algoritmo da regra de mapeamento “arith_get_pk()” será descrito com referência à figura 5f que mostra uma representação do código do pseudo-programa de tal algoritmo, que pode ser utilizado na decodificação de um tuplo de valores espectrais. O algoritmo, de acordo com a figura 5f, pode ser considerado uma versão otimizada (por exemplo, versão otimizada de velocidade) do algoritmo, “get_pk()” ou do algoritmo “arith_get_pk()”.
[000318] O algoritmo “arith_get_pk()” de acordo com a figura 5f recebe, como uma variável de entrada, uma variável c que descreve o estado do contexto. A variável de entrada c pode, por exemplo, representar um valor de contexto corrente numérico.
[000319] O algoritmo “arith_get_pk()” provê, como uma variável de saída, uma variável “pki”, que descreve o índice de uma distribuição de probabilidade (ou modelo de probabilidade) associado a um estado do contexto descrito pela variável de entrada c. A variável “pki” pode, por exemplo, ser um valor de índice de regra de mapeamento.
[000320] O algoritmo de acordo com a figura 5f compreende uma definição dos conteúdos da matriz “i_diff[]”. Como pode ser visto, uma primeira entrada da matriz “i_diff[]” (tendo um índice da matriz 0) é igual a 299 e outras entradas da matriz (tendo índices da matriz 1 a 8) tomam os valores de 149, 74, 37, 18, 9, 4, 2, e 1. Assim, o tamanho da etapa para a seleção de um valor do índice da tabela hash “i_min” é reduzido com cada iteração, como as entradas das matrizes “i_diff[]” definem os ditos tamanhos das etapas. Para detalhes, a referência é feita à discussão abaixo.
[000321] Entretanto, diferentes tamanhos das etapas, por exemplo, diferentes conteúdos da matriz “i_diff[]” podem geralmente ser escolhidos, em que os conteúdos da matriz “i_diff[]” podem naturalmente ser adaptados ao tamanho da tabela hash “ari_hash_m[i]”.
[000322] Deve ser observado que a variável “i_min” é inicializada para assumir um valor de 0 correto no início do algoritmo “arith_get_pk()”.
[000323] Em uma etapa de inicialização 508a, uma variável s é inicializada dependendo da variável de entrada c, em que uma representação numérica da variável c é mudada à esquerda em 8 bits a fim de obter a representação numérica da variável s.
[000324] Subsequentemente, uma pesquisa de tabela 508b é realizada, a fim de identificar um valor de índice da tabela hash “i_min” de uma entrada da tabela hash “ari_hash_m[]”, de modo que o valor de contexto descrito pelo valor de contexto c dentro de um intervalo que é delimitado pelo valor de contexto descrito pela entrada da tabela hash “ari_hash_m[i_min]” e um valor de contexto descrito por outra entrada da tabela hash “ari_hash_m” cuja outra entrada “ari_hash_m” seja adjacente (em termos de seu valor do índice da tabela hash) à entrada da tabela hash “ari_hash_m[i_min]”. Assim, o algoritmo 508b permite determinar um valor de índice da tabela hash “i_min” designando uma entrada “j=ari_hash_m[i_min]” da tabela hash “ari_hash_m[]”, de modo que a entrada da tabela hash “ari_hash_m[i_min]” pelo menos aproxime o valor de contexto descrito pela variável de entrada c.
[000325] A pesquisa de tabela 508b compreende uma execução iterativa de um sub-algoritmo 508ba, em que o sub-algoritmo 508ba é executado para um número predeterminado de, por exemplo, nove iterações. Na primeira etapa do sub-algoritmo 508ba, a variável i é definida a um valor que é igual a uma soma de um valor de uma variável “i_min” e um valor de uma entrada de tabela “i_diff[k]”. Deve ser observado aqui que k é uma variável de execução, que é aumentada, começando de um valor inicial de k=0, com cada iteração do sub-algoritmo 508ba. A matriz “i_diff[]” define predeterminar os valores de aumento, em que os valores de aumento diminuem com o aumento do índice da tabela k, ou seja, com aumento dos números de iterações.
[000326] Em uma segunda etapa do sub-algoritmo 508ba, um valor de uma entrada de tabela “ari_hash_m[]” é copiado em uma variável j. Preferivelmente, os bits superiores das entradas da tabela “ari_hash_m[]” descrevem valores de estado significativos de um valor de contexto numérico, e os bits mais inferiores (bits 0 a 7) das entradas da tabela “ari_hash_m[]”descrevem valores de índice de regra de mapeamento associado aos respectivos valores de estado significativos.
[000327] Em uma terceira etapa do sub-algoritmo 508ba, o valor da variável S é comparado com o valor da variável j, e a variável “i_min” é seletivamente definida ao valor “i+1” se o valor da variável s for maior que o valor da variável j. Subsequentemente, a primeira etapa, a segunda etapa, e a terceira etapa do sub-algoritmo 508ba são repetidas por um número predeterminado de vezes, por exemplo, nove vezes. Assim, em cada execução do sub-algoritmo 508ba, o valor da variável “i_min” é aumentado por i_diff[]+1, se, e somente se, o valor de contexto descrito pelo índice da tabela hash atualmente válido i_min + i_diff[] for menor que o valor de contexto descrito pela variável de entrada c. Assim, o valor de índice da tabela hash “i_min” é (de forma iterativa) aumentado em cada execução do sub-algoritmo 508ba se (e somente se) o valor de contexto descrito pela variável de entrada c e, consequentemente, pela variável s, for maior que o valor de contexto descrito pela entrada “ari_hash_m[i=i_min + diff[k]]”.
[000328] Além disso, deve ser observado que somente uma única comparação, a saber, a comparação como se o valor da variável s fosse maior que o valor da variável j, é realizada em cada execução do sub-algoritmo 508ba. Assim, o algoritmo 508ba é particularmente eficiente de forma computacional. Além disso, deve ser observado que há diferentes possíveis resultados com relação ao valor final da variável “i_min”. Por exemplo, é possível que o valor da variável “i_min” depois da última execução do sub- algoritmo 512ba seja de modo que o valor de contexto descrito pela entrada de tabela “ari_hash_m[i_min]” seja menor que o valor de contexto descrito pela variável de entrada c, e que o valor de contexto descrito pela entrada de tabela “ari_hash_m[i_min +1]” seja maior que o valor de contexto descrito pela variável de entrada c. De modo alternativo, pode acontecer que depois da última execução do sub-algoritmo 508ba, o valor de contexto descrito pela entrada da tabela hash “ari_hash_m[i_min -1]” seja menor que o valor de contexto descrito pela variável de entrada c, e que o valor de contexto descrito pela entrada “ari_hash_m[i_min]” seja maior que o valor de contexto descrito pela variável de entrada c. De modo alternativo, entretanto, pode acontecer que o valor de contexto descrito pela entrada da tabela hash “ari_hash_m[i_min]” seja idêntico ao valor de contexto descrito pela variável de entrada c.
[000329] Por esta razão, uma provisão do valor de retorno com base na decisão 508c é realizada. A variável j é definida para ter o valor da entrada da tabela hash “ari_hash_m[i_min]”. Subsequentemente, é determinado se o valor de contexto descrito pela variável de entrada c (e também pela variável s) é maior que o valor de contexto descrito pela entrada “ari_hash_m[i_min]” (primeiro caso definido por uma condição “s>j”), ou se o valor de contexto descrito pela variável de entrada c for menor que o valor de contexto descrito pela entrada da tabela hash “ari_hash_m[i_min]” (segundo caso definido por uma condição “c<j>>8”), ou se o valor de contexto descrito pela variável de entrada c é igual ao valor de contexto descrito pela entrada “ari_hash_m[i_min]” (terceiro caso).
[000330] No primeiro caso, (s>j), uma entrada “ari_lookup_m[i_min +1]” da tabela “ari_lookup_m[]” designada pelo valor de índice da tabela “i_min+1” é retornada como o valor de saída da função “arith_get_pk()”.No segundo caso (c<(j>>8)), uma entrada “ari_lookup_m[i_min]” da tabela “ari_lookup_m[]” designada pelo valor de índice da tabela “i_min” é retornado como o valor de retorno da função “arith_get_pk()”. No terceiro caso (ou seja, se o valor de contexto descrito pela variável de entrada c for igual ao valor de estado significativo descrito pela entrada de tabela “ari_hash_m[i_min]”), um valor de índice de regra de mapeamento descrito pelos 8 bits mais inferiores da entrada da tabela hash “ari_hash_m[i_min]” é retornado como o valor de retorno da função “arith_get_pk()”.
[000331] Para resumir o mencionado acima, uma pesquisa de tabela particularmente simples é realizada na etapa 508b, em que a pesquisa de tabela provê um valor da variável de uma variável “i_min” sem distinguir se o valor de contexto descrito pela variável de entrada c é igual a um valor de estado significativo definido por uma das entradas da tabela de estado “ari_hash_m[]” ou não. Na etapa 508c, que é realizada subsequente à pesquisa de tabela 508b, uma relação de magnitude entre o valor de contexto descrito pela variável de entrada c e um valor de estado significativo descrito pela entrada da tabela hash “ari_hash_m[i_min]” é avaliada, e o valor de retorno da função “arith_get_pk()” é selecionado dependendo de um resultado da dita avaliação, em que o valor da variável “i_min”, que é determinado na avaliação da tabela 508b, é considerado para selecionar um valor de índice de regra de mapeamento mesmo se o valor de contexto descrito pela variável de entrada c for diferente do valor de estado significativo descrito pela entrada da tabela hash “ari_hash_m[i_min]”.
[000332] Ainda deve ser observado que a comparação no algoritmo deve preferivelmente (ou de modo alternativo) ser feita entre o índice de contexto (valor de contexto numérico) c e j=ari_hash_m[i]>>8. Ainda, cada entrada da tabela “ari_hash_m[]” representa um índice de contexto, codificado além do 8° bit, e seu modelo de probabilidade correspondente codificado nos primeiros 8 bits (bits menos significativos). Na implementação corrente, estamos interessados principalmente no conhecimento se o presente contexto c é maior que ari_hash_m[i]>>8, que é equivalente à detecção se s=c<<8 for também maior que ari_hash_m[i].
[000333] Para resumir o mencionado acima, visto que o estado de contexto é calculado (que pode, por exemplo, ser obtido utilizando o algoritmo “arith_get_context(c,i,N)” de acordo com a figura 5c, ou o algoritmo “arith_get_context(c,i)” de acordo com a figura 5d, o plano de bit a bit mais significativo é decodificado utilizando o algoritmo “arith_decode” (que será descrito abaixo) chamado com a tabela de frequências cumulativas apropriada correspondente ao modelo de probabilidade correspondente ao estado de contexto. A correspondência é feita pela função “arith_get_pk()”, por exemplo, a função “arith_get_pk()” que foi discutida com referência à figura 5f.
[000334] 11.6 Decodificação aritmética
[000335] 11.6.1 Decodificação aritmética utilizando o algoritmo de acordo com a figura 5g
[000336] A seguir, a funcionalidade de uma implementação preferida da função “arith_decode()” será discutida em detalhes com referência à figura 5g. A figura 5g mostra um pseudo-código C que descreve o algoritmo utilizado.
[000337] Deve ser observado que a função “arith_decode()” utiliza a função de ajuda “arith_first_symbol (void)”, que retorna VERDADEIRA, se for o primeiro símbolo da sequência e FALSA caso contrário. A função “arith_decode()” também utiliza a função de ajuda “arith_get_next_bit(void)”, que obtém e provê o próximo bit do fluxo de bits.
[000338] Além disso, a função “arith_decode()” utiliza as variáveis globais “low” [baixa], “high” [alta] e “value” [valor]. Ainda, a função “arith_decode()” recebe, como uma variável de entrada, a variável “cum_freq[]”, que aponta em direção a uma primeira entrada ou elemento (tendo o índice de elemento ou índice de entrada 0) da tabela de frequências cumulativas selecionada ou sub-tabela de frequências cumulativas (preferivelmente, uma das subtabelas ari_cf_m[pki=0][17] a ari_cf_m[pki=63][17] da tabela ari_cf_m[64][17], conforme definido pela representação em tabela das figuras 23(1), 23(2), 23(3)). Ainda, a função “arith_decode()” utiliza a variável de entrada “cfl”, que indica o comprimento da tabela de frequências cumulativas selecionada ou sub-tabela de frequências cumulativas designada pela variável “cum_freq[]”.
[000339] A função “arith_decode()” compreende, como uma primeira etapa, uma inicialização da variável 570a, que é realizada se a função de ajuda “arith_first_symbol()” indicar que o primeiro símbolo de uma sequência de símbolos está sendo decodificado. A inicialização do valor 550a inicializa a variável “value” [valor] dependendo de diversos, por exemplo, 16 bits, que são obtidos do fluxo de bits utilizando a função de ajuda “arith_get_next_bit”, de modo que a variável “value” tenha o valor representado pelos ditos bits. Ainda, a variável “low” é inicializada para ter o valor de 0, e a variável “high” é inicializada para ter o valor de 65535.
[000340] Em uma segunda etapa 570b, a variável “range” [faixa] é definida a um valor, que é maior, em 1, que a diferença entre os valores das variáveis “high” e “low”. A variável “cum” é definida a um valor que representa uma posição relativa do valor da variável “value” entre o valor da variável “low” e o valor da variável “high”. Assim, a variável “cum” tem, por exemplo, um valor entre 0 e 216 dependendo do valor da variável “value”.
[000341] O apontador p é inicializado a um valor que é menor, em 1, do que o endereço inicial da tabela de frequências cumulativas selecionada ou da sub-tabela.
[000342] O algoritmo “arith_decode()” também compreende uma pesquisa iterativa da tabela de frequências cumulativas 570c. A pesquisa iterativa da tabela de frequências cumulativas é repetida até que a variável cfl seja menor que ou igual a 1. Na pesquisa iterativa da tabela de frequências cumulativas 570c, a variável do apontador q é definida a um valor, que é igual a uma soma do valor corrente da variável do apontador p e metade do valor da variável “cfl”. Se o valor da entrada *q da tabela de frequências cumulativas selecionada, cuja entrada é direcionada pela variável do apontador q, for maior que o valor da variável “cum”, a variável do apontador p é definida ao valor da variável do apontador q, e a variável “cfl” é aumentada. Finalmente, a variável “cfl” é mudada à direita por um bit, assim divide efetivamente o valor da variável “cfl” por 2 e ignora a parte do módulo.
[000343] Assim, a pesquisa iterativa da tabela de frequências cumulativas 570c efetivamente compara o valor da variável “cum” com diversas entradas da tabela de frequências cumulativas selecionada, a fim de identificar um intervalo dentro da tabela de frequências cumulativas selecionada, que é ligada pelas entradas da tabela de frequências cumulativas, de modo que o valor cum permaneça dentro do intervalo identificado. Assim, as entradas da tabela de frequências cumulativas selecionada definem os intervalos, em que um respectivo valor do símbolo está associado a cada um dos intervalos da tabela de frequências cumulativas selecionada. Ainda, as larguras dos intervalos entre dois valores adjacentes da tabela de frequências cumulativas definem as probabilidades dos símbolos associados aos ditos intervalos, de modo que a tabela de frequências cumulativas selecionada em sua totalidade defina uma distribuição de probabilidade de diferentes símbolos (ou valores de símbolos). Detalhes referentes às tabelas de frequências cumulativas disponíveis serão discutidos abaixo tendo como referência a figura 23.
[000344] Tendo como referência novamente a figura 5g, o valor do símbolo é derivado do valor da variável do apontador p, em que o valor do símbolo é derivado conforme mostrado no número de referência 570d. Assim, a diferença entre o valor da variável do apontador p e do endereço inicial “cum_freq” é avaliada a fim de obter o valor do símbolo, que é representado pela variável “symbol” [símbolo].
[000345] O algoritmo “arith_decode” também compreende uma adaptação 570e das variáveis “high” e “low”. Se o valor do símbolo representado pela variável “symbol” for diferente de 0, a variável “high” é atualizada, conforme mostrado no número de referência 570e. Ainda, o valor da variável “low” é atualizado, conforme mostrado no número de referência 570e. A variável “high” é definida a um valor que é determinado pelo valor da variável “low”, a variável “range” e a entrada tendo o índice “symbol -1” da tabela de frequências cumulativas selecionada. A variável “low” é aumentada, em que a magnitude do aumento é determinada pela variável “range” e a entrada da tabela de frequências cumulativas selecionada tendo o índice “symbol”. Assim, a diferença entre os valores das variáveis “low” e “high” é ajustada dependendo da diferença numérica entre as duas entradas adjacentes da tabela de frequências cumulativas selecionada.
[000346] Assim, se um valor do símbolo tendo uma baixa probabilidade for detectado, o intervalo entre os valores das variáveis “low” e “high” é reduzido à largura estreita. Em contraste, se o valor do símbolo detectado compreende uma probabilidade relativamente grande, a largura do intervalo entre os valores das variáveis “low” e “high” é ajustada ao valor comparavelmente grande. Novamente, a largura do intervalo entre os valores da variável “low” e “high” é dependente do símbolo detectado e as entradas da tabela de frequências cumulativas correspondentes.
[000347] O algoritmo “arith_decode()” também compreende uma renormalização do intervalo 570f, na qual o intervalo determinado na etapa 570e é de forma iterativa mudado e escalado até que a condição de “interrupção” seja atingida. Na renormalização do intervalo 570f, uma operação de mudança para baixo seletiva 570fa é realizada. Se a variável “high” for menor que 32768, nada é feito, e a renormalização do intervalo continua com uma operação de aumento do tamanho do intervalo 570fb. Se, entretanto, a variável “high” não for menor que 32768 e a variável “low” for maior ou igual a 32768, as variáveis “values”, “low” e “high” são todas reduzidas a 32768, de modo que um intervalo definido pelas variáveis “low” e “high” seja mudado para baixo, e de modo que o valor da variável “value” também seja mudado para baixo. Se, entretanto, for observado que o valor da variável “high” não é menor que 32768, e que a variável “low” não é maior ou igual a 32768, e que a variável “low” é maior ou igual a 16384 e que a variável “high” é menor que 49152, as variáveis “value”, “low” e “high” são todas reduzidas a 16384, assim reduzindo o intervalo entre os valores das variáveis “high” e “low” e também o valor da variável “value”. Se, entretanto, nenhuma das condições acima for cumprida, a renormalização do intervalo é abortada.
[000348] Se, entretanto, qualquer uma das condições mencionadas acima, que são avaliadas na etapa 570fa, for cumprida, a operação de aumento do intervalo 570fb é executada. Na operação de aumento do intervalo 570fb, o valor da variável “low” é dobrado. Ainda, o valor da variável “high” é dobrado, e o resultado da operação de dobrar é aumentado em 1. Ainda, o valor da variável “value” é dobrado (mudada à esquerda por um bit), e um bit do fluxo de bits, que é obtido pela função de ajuda “arith_get_next_bit” é utilizado como o bit menos significativo. Assim, o tamanho do intervalo entre os valores das variáveis “low” e “high” é aproximadamente dobrado, e a precisão da variável “value” é aumentada utilizando um novo bit do fluxo de bits. Conforme mencionado acima, as etapas 570fa e 570fb são repetidas até que a condição de “interrupção” seja atingida, ou seja, até que o intervalo entre os valores das variáveis “low” e “high” seja grande suficiente.
[000349] Com referência à funcionalidade do algoritmo “arith_decode()”, deve ser observado que o intervalo entre os valores das variáveis “low” e “high” é reduzido na etapa 570e dependendo de duas entradas adjacentes da tabela de frequências cumulativas referenciadas pela variável “cum_freq”. Se um intervalo entre dois valores adjacentes da tabela de frequências cumulativas selecionada for pequeno, ou seja, se os valores adjacentes são comparavelmente juntos, o intervalo entre os valores das variáveis “low” e “high”, que é obtido na etapa 570e, será comparavelmente pequeno. Em contraste, se duas entradas adjacentes da tabela de frequências cumulativas são mais espaçadas, o intervalo entre os valores das variáveis “low” e “high”, que é obtido na etapa 570e, será comparavelmente grande.
[000350] Consequentemente, se o intervalo entre os valores das variáveis “low” e “high”, que é obtido na etapa 570e, for comparavelmente pequeno, um grande número de renormalização das etapas de intervalo será executado para redimensionar o intervalo ao tamanho “sufficient” (de modo que nenhuma das condições de uma avaliação de condição 570fa seja cumprida). Assim, um número comparavelmente grande de bits do fluxo de bits será utilizado a fim de aumentar a precisão da variável “value”. Se, em contraste, o tamanho do intervalo obtido na etapa 570e for comparavelmente grande, somente um número menor de repetições das etapas de normalização do intervalo 570fa e 570fb será necessário a fim de renormalizar o intervalo entre os valores das variáveis “low” e “high” ao tamanho “sufficient”. Assim, somente um número comparavelmente pequeno de bits do fluxo de bits será utilizado para aumentar a precisão da variável “value” e para preparar uma decodificação do próximo símbolo.
[000351] Para resumir o mencionado acima, se um símbolo é decodificado, que compreende uma probabilidade comparavelmente alta, e no qual um grande intervalo é associado pelas entradas da tabela de frequências cumulativas selecionada, somente um número comparavelmente pequeno de bits será lido do fluxo de bits a fim de permitir uma decodificação de um símbolo subsequente. Em contraste, se um símbolo é decodificado, que compreende uma probabilidade comparavelmente pequena e no qual um pequeno intervalo é associado pelas entradas da tabela de frequências cumulativas selecionada, um número comparavelmente grande de bits será considerado do fluxo de bits a fim de preparar uma decodificação do próximo símbolo.
[000352] Assim, as entradas das tabelas de frequências cumulativas refletem as probabilidades dos diferentes símbolos e também refletem um número de bits necessários para a decodificação de uma sequência de símbolos. Pela variação da tabela de frequências cumulativas dependendo de um contexto, ou seja, dependendo dos símbolos previamente decodificados (ou valores espectrais), por exemplo, selecionando diferentes tabelas de frequências cumulativas dependendo do contexto, as dependências estocásticas entre os diferentes símbolos podem ser exploradas, que permitem uma codificação eficiente da taxa de bits particular dos símbolos subsequentes (ou adjacentes).
[000353] Para resumir o mencionado acima, a função “arith_decode()”, que foi descrita com referência à figura 5g, é chamada com a tabela de frequências cumulativas “arith_cf_m[pki][]”, correspondente ao índice “pki” retornado por uma função “arith_get_pk()” para determinar o valor do plano de bits mais significativo m (que pode ser definido ao valor do símbolo representado pela variável de retorno “symbol”).
[000354] Para resumir o mencionado acima, o decodificador aritmético é uma implementação de número inteiro utilizando o método da geração de identificação com escala. Para detalhes, a referência é feita ao livro “Introduction to Data Compression” de K. Sayood, Terceira Edição, 2006, Elsevier Inc.
[000355] O código do programa de computador de acordo com a figura 5g descreve o algoritmo utilizado de acordo com uma realização da invenção.
[000356] 11.6.2 Decodificação aritmética utilizando o algoritmo de acordo com as figuras 5h e 5i
[000357] As figuras 5h e 5i mostram uma representação do código do pseudo-programa de outra realização do algoritmo “arith_decode()”, que pode ser utilizado como uma alternativa para o algoritmo “arith_decode” descrito com referência à figura 5g.
[000358] Deve ser observado que os algoritmos de acordo com a figura 5g e as figuras 5h e 5i podem ser utilizados no algoritmo “values_decode()” de acordo com a figura 3.
[000359] Para resumir, o valor m é decodificado utilizando a função “arith_decode()” chamada com a tabela de frequências cumulativas “arith_cf_m[pki][]” (que é, preferivelmente, uma sub- tabela da tabela ari_cf_m[67][17] definida na representação em tabelas das figuras 23(1), 23(2), 23(3)) em que “pki” corresponde ao índice retornado pela função “arith_get_pk()”.O codificador (ou decodificador) aritmético é uma implementação de número inteiro utilizando o método de geração de identificação com escala. Para detalhes, a referência é feita ao livro “Introduction to Data Compression” de K. Sayood, Terceira Edição, 2006, Elsevier Inc. O código do programa de computador de acordo com a figura 5h e 5i descreve o algoritmo utilizado.
[000360] 11.7 Mecanismo de escape
[000361] A seguir, o mecanismo de escape, que é utilizado na decodificação do algoritmo “values_decode()” de acordo com a figura 3, será brevemente discutido.
[000362] Quando o valor decodificado m (que é provido como um valor de retorno da função “arith_decode()”) for o símbolo de escape “ARITH_ESCAPE”, as variáveis “lev” e “esc_nb” são aumentadas em 1, e o outro valor m é decodificado. Neste caso, a função “arith_get_pk()” (ou “get_pk()”)é chamada mais uma vez com o valor “c+ esc_nb<<17” como argumento de entrada, onde a variável “esc_nb” descreve o número de símbolos de escape previamente decodificados para o mesmo tuplo duplo e delimitado a 7.
[000363] Para resumir, se um símbolo de escape for identificado, assume-se que o valor do plano de bits mais significativo m compreende um peso numérico aumentado. Além disso, a decodificação numérica corrente é repetida, em que um valor de contexto corrente numérico modificado “c+ esc_nb<<17” é utilizado como uma variável de entrada à função “arith_get_pk()”. Assim, um valor de índice de regra de mapeamento diferente “pki” é tipicamente obtido nas diferentes iterações do sub-algoritmo 312ba.
[000364] 11.8 Mecanismo de parada aritmética
[000365] A seguir, o mecanismo de parada aritmética será descrito. O mecanismo de parada aritmética permite a redução do número de bits necessários no caso em que a parte da frequência superior é completamente quantizada a 0 em um codificador de áudio.
[000366] Em uma realização, um mecanismo de parada aritmética pode ser implementado como segue: visto que o valor m não é o símbolo de escape, “ARITH_ESCAPE”, o decodificador verifica se o m sucessivo forma um símbolo “ARITH_STOP”. Se uma condição “(esc_nb >0&&m==0)” for verdadeira, o símbolo “ARITH_STOP” é detectado e o processo de decodificação é finalizado. Neste caso, o decodificador vai diretamente para a decodificação de sinal descrita abaixo ou a função “arith_finish()” que será descrita abaixo. Uma condição significa que o restante da estrutura é composto por valores 0.
[000367] 11.9 Decodificação do plano de bits menos significativo
[000368] A seguir, a decodificação de um ou mais planos de bits menos significativos será descrita. A decodificação do plano de bits menos significativo, é realizada, por exemplo, na etapa 312d mostrada na figura 3. De modo alternativo, entretanto, os algoritmos conforme mostrados nas figuras 5j e 5n podem ser utilizados, em que o algoritmo da figura 5j é um algoritmo preferido.
[000369] 11.9.1 Decodificação do plano de bits menos significativo de acordo com a figura 5j
[000370] Agora com referência à figura 5j, pode ser visto que os valores das variáveis a e b são derivados do valor m. Por exemplo, a representação numérica do valor m é mudada à direita em 2 bits para obter a representação numérica da variável b. Além disso, o valor da variável a é obtido subtraindo uma versão mudada do bit do valor da variável b, mudado por bit à esquerda em 2 bits, do valor da variável m.
[000371] Subsequentemente, uma decodificação aritmética dos valores do plano de bits menos significativo r é repetida, em que o número de repetições é determinado pelo valor da variável “lev”. Um valor do plano de bits menos significativo r é obtido utilizando a função “arith_decode”, em que a tabela de frequências cumulativas adaptada à decodificação do plano de bit menos significativo é utilizada (tabela de frequências cumulativas “arith_cf_r”). Um bit menos significativo (tendo um peso numérico de 1) da variável r descreve um plano de bits menos significativo do valor espectral representado pela variável a, e um bit tendo um peso numérico de 2 da variável r descreve um bit menos significativo do valor espectral representado pela variável b. Assim, a variável a é atualizada mudando a variável a para a esquerda em 1 bit e adicionando o bit tendo o peso numérico de 1 da variável r como o bit menos significativo. De forma semelhante, a variável b é atualizada mudando a variável b à esquerda por um bit e adicionando o bit tendo o peso numérico de 2 da variável r.
[000372] Assim, os dois bits que carregam informação mais significativa das variáveis a,b são determinados pelo valor do plano de bits mais significativo m, e um ou mais bits menos significativos (se houver) dos valores a e b são determinados por um ou mais valores do plano de bits menos significativo r.
[000373] Para resumir o mencionado acima, se o símbolo “ARITH_STOP” não for encontrado, os planos de bits restantes são então decodificados, se houver algum, para o tuplo duplo presente. Os planos de bits restantes são decodificados do nível mais significativo ao menos significativo chamando a função “arith_decode()” lev várias vezes com a tabela de frequências cumulativas “arith_cf_r[]”. Os planos de bits decodificados r permitem a refinação do valor previamente decodificado m de acordo com o algoritmo, um código do pseudo-programa que é mostrado na figura 5j.
[000374] 11.9.2 Decodificação da faixa de bit menos significativo de acordo com a figura 5n
[000375] De modo alternativo, entretanto, o algoritmo de uma representação do código do pseudo-programa que é mostrada na figura 5n pode também ser utilizado para a decodificação do plano de bits menos significativo. Neste caso, se o símbolo “ARITH_STOP” não for encontrado, os planos de bits restantes são então decodificados, se houver algum, para o presente tuplo duplo. Os planos de bits restantes são decodificados do nível mais significativo ao menos significativo chamando “lev” vezes “arith_decode()” com a tabela de frequências cumulativas “arith_cf_r()”. Os planos de bits decodificados r permitem a refinação do valor previamente decodificado m de acordo com o algoritmo mostrado na figura 5n.
[000376] 11.10 Atualização de contexto
[000377] 11.10.1 Atualização de contexto de acordo com a figura 5k, 5l, e 5m
[000378] A seguir, as operações utilizadas para concluir a decodificação do tuplo de valores espectrais serão descritas, tendo como referência as figuras 5k e 5l. Além disso, uma operação será descrita que é utilizada para concluir uma decodificação de um conjunto de tuplos de valores espectrais associados a uma parte corrente (por exemplo, uma estrutura corrente) de um conteúdo de áudio.
[000379] Deve ser observado que os algoritmos de acordo com as figuras 5k, 5l e 5m são preferidos, mesmo em algoritmos podem ser utilizados.
[000380] Agora com referência à figura 5k, pode ser visto que a entrada tendo o índice de entrada 2*i da matriz “x_ac_dec[]” é definida para ser igual a a, e que a entrada tendo o índice de entrada “2*i+1” da matriz “x_ac_dec[]” é definida para ser igual a b depois da decodificação de bit menos significativo 312d. Em outras palavras, no ponto depois da decodificação de bit menos significativo 312d, o valor não sinalizado do tuplo duplo (a,b), é completamente decodificado. É salvo no elemento (por exemplo, a matriz “x_ac_dec[]”) que mantém os coeficientes espectrais de acordo com o algoritmo mostrado na figura 5k.
[000381] Subsequentemente, o contexto “q” também é atualizado para o próximo tuplo duplo. Deve ser observado que esta atualização de contexto também deve ser realizada para o último tuplo duplo. Esta atualização de contexto é realizada pela função “arith_update_context()”, uma representação do código do pseudo- programa do qual é mostrado na figura 5l.
[000382] Agora com referência à figura 5l, pode ser visto que a função “arith_update_context(i,a,b)” recebe, como variáveis de entrada, coeficientes espectrais quantizados decodificados não sinalizados (ou valores espectrais) a, b do tuplo duplo. Além disso, a função “arith_update_context” também recebe, como uma variável de entrada, um índice i (por exemplo, um índice de frequência) do coeficiente espectral quantizado para decodificar. Em outras palavras, a variável de entrada i pode, por exemplo, ser um índice do tuplo de valores espectrais, valores absolutos que são definidos pelas variáveis de entrada a, b. Como pode ser visto, a entrada “q[1][i]” da matriz “q[][]” pode ser definida a um valor que é igual a a+b+1. Além disso, o valor da entrada “q[1][i]” da matriz “q[][]” pode ser limitado ao valor hexadecimal de “0xF”. Assim, a entrada “q[1][i]” da matriz “q[][]” é obtida calculando uma soma de valores absolutos do tuplo atualmente decodificados {a,b} de valores espectrais tendo o índice de frequência i, e adicionando 1 ao resultado da dita soma.
[000383] Deve ser observado aqui que a entrada “q[1][i]” da matriz “q[][]” pode ser considerada como um valor da sub-região de contexto, pois descreve uma sub-região do contexto que é utilizado para uma decodificação subsequente de valores espectrais adicionais (ou tuplos de valores espectrais).
[000384] Deve ser observado aqui que a soma dos valores absolutos a e b dos dois valores espectrais atualmente decodificados (versões assinadas que são armazenadas nas entradas “x_ac_dec[2*i]” e “x_ac_dec[2*i+1]” da matriz “x_ac_dec[]”), pode ser considerada como o cálculo de uma norma (por exemplo, uma norma L1) dos valores espectrais decodificados.
[000385] Foi observado que os valores da sub-região de contexto (ou seja, entradas da matriz “q[][]”), que descrevem uma norma de um vetor formado por diversos valores espectrais previamente decodificados são particularmente significativos e com memória eficiente. Foi observado que tal norma, que é calculada com base em diversos valores espectrais previamente decodificados, compreende informação significativa de contexto em uma forma compacta. Foi observado que o sinal dos valores espectrais não é tipicamente particularmente relevante para a escolha do contexto. Também foi observado que a formação de uma norma através dos diversos valores espectrais previamente decodificados tipicamente mantém a informação mais importante, embora alguns detalhes sejam descartados. Além disso, foi observado que uma limitação do valor de contexto corrente numérico ao valor máximo tipicamente não resulta em uma perda grave de informação. Preferivelmente, foi observado que é mais eficiente utilizar o mesmo estado de contexto para valores espectrais significativos que são maiores que um valor limite predeterminado. Assim, a limitação dos valores da sub-região de contexto traz consigo mais melhoria da eficiência da memória. Além disso, foi observado que a limitação dos valores da sub-região de contexto a certo valor máximo permite uma atualização eficiente computacional e particularmente simples do valor de contexto corrente numérico, que foi descrito, por exemplo, com referência às figuras 5c e 5d. Limitando os valores da sub-região de contexto ao valor comparavelmente pequeno (por exemplo, a um valor de 15), um estado de contexto que tem como base diversos valores da sub-região de contexto pode ser representado na forma eficiente, que foi discutida tendo como referência as figuras 5c e 5d.
[000386] Além disso, foi observado que uma limitação dos valores da sub-região de contexto dos valores entre 1 e 15, traz consigo um compromisso particularmente bom entre precisão e eficiência da memória, pois 4 bits são suficientes a fim de armazenar tal valor da sub-região de contexto.
[000387] Entretanto, deve ser observado que em outras realizações, um valor da sub-região de contexto pode ter como base um único valor decodificado espectral somente. Neste caso, a formação de uma norma pode opcionalmente ser omitida.
[000388] O próximo tuplo duplo da estrutura é decodificado depois da conclusão da função “arith_update_context” aumentando i em 1 e refazendo o mesmo processo conforme descrito acima, começando pela função “arith_get_context()”.
[000389] Quando os 2 tuplos lg/2 são decodificados dentro da estrutura, ou com o símbolo de parada de acordo com “ARITH_STOP” ocorre, o processo de decodificação da amplitude espectral termina e a decodificação dos sinais começa.
[000390] Detalhes referentes à decodificação dos sinais foram discutidos com referência à figura 3, em que a decodificação dos sinais é mostrada em número de referência 314.
[000391] Visto que todos os coeficientes espectrais quantizados não sinalizados são decodificados, o sinal de acordo é adicionado. Para cada valor quantizado não nulo de “x_ac_dec”, um bit é lido. Se o valor de bit de leitura for igual a 0, o valor quantizado é positivo, nada é feito e o valor sinalizado é igual ao valor não sinalizado previamente decodificado. Caso contrário (ou seja, se o valor de bit de leitura é igual a 1), o coeficiente decodificado (ou valor espectral) é negativo e o complemento de dois é considerado do valor não sinalizado. Os bits do sinal são lidos das frequências baixa a mais alta. Para detalhes, a referência é feita às figuras 3 e as explicações referentes à decodificação de sinais 314.
[000392] A decodificação é finalizada chamando a função “arith_finish()”. Os coeficientes espectrais restantes são definidos a 0. Os respectivos estados de contexto são atualizados correspondentemente.
[000393] Para detalhes, a referência é feita à figura 5m, que mostra uma representação do código do pseudo-programa da função “arith_finish()”. Como pode ser visto, a função “arith_finish()” recebe uma variável de entrada lg que descreve os coeficientes espectrais quantizados decodificados. Preferivelmente, a variável de entrada lg da função “arith_finish” descreve um número de coeficientes espectrais atualmente decodificados, deixando os coeficientes espectrais desconsiderados, onde um valor 0 foi alocado em resposta à detecção de um símbolo “ARITH_STOP”. Uma variável de entrada N da função “arith_finish” descreve um comprimento da janela de uma janela corrente (ou seja, uma janela associada à parte corrente do conteúdo de áudio). Tipicamente, um número de valores espectrais associado a uma janela de comprimento N é igual a N/2 e um número de 2 tuplos de valores espectrais associado a uma janela de comprimento da janela N é igual a N/4.
[000394] A função “arith_finish” também recebe, como um valor de entrada, um vetor “x_ac_dec” de valores espectrais decodificados, ou pelo menos uma referência a tal vetor de coeficientes decodificados espectrais.
[000395] A função “arith_finish” é configurada para definir as entradas da matriz (ou vetor) “x_ac_dec”, para as quais nenhum valor espectral foi decodificado devido à presença de uma condição de parada aritmética, a 0. Além disso, a função “arith_finish” define valores da sub-região de contexto “q[1][i]”, que são associados a um valor espectral para qual nenhum valor foi decodificado devido à presença de uma condição de parada aritmética, ao valor predeterminado de 1. O valor predeterminado de 1 corresponde ao tuplo dos valores espectrais em que ambos os valores espectrais são iguais a 0.
[000396] Assim, a função “arith_finish()” permite atualizar toda a matriz (ou vetor) “x_ac_dec[]” de valores espectrais e também toda a matriz de valores da sub-região de contexto “q[1][i]”, mesmo em uma presença de uma condição de parada aritmética.
[000397] 11.10.2 Atualização de contexto de acordo com as figuras 5o e 5p
[000398] A seguir, outra realização da atualização de contexto será descrita tendo como referência as figuras 5o e 5p. No ponto em que o valor não sinalizado do tuplo duplo (a,b) for completamente decodificado, o contexto q é então atualizado para o próximo tuplo duplo. A atualização também é realizada se o tuplo duplo presente for o último tuplo duplo. Ambas as atualizações são feitas pela função “arith_update_context()”, a representação do código do pseudo-programa que é mostrada na figura 5o.
[000399] O próximo tuplo duplo da estrutura é então decodificado aumentando i em 1 e chamando a função arith_decode(). Se os 2 tuplos lg/2 já foram decodificados com a estrutura, ou se o símbolo de parada “ARITH_STOP” ocorreu, a função “arith_finish()” é chamada. O contexto é salvo e armazenado na matriz (ou vetor) “qs” para a próxima estrutura. Um código do pseudo-programa da função “arith_save_context()” é mostrado na figura 5p.
[000400] Visto que todos os coeficientes espectrais quantizados não sinalizados são decodificados, o sinal é então adicional. Para cada valor não quantizado de “qdec”, um bit é lido. Se o valor de bit de leitura for igual a 0, o valor quantizado é positivo, nada é feito e o valor sinalizado é igual ao valor não sinalizado previamente decodificado. Caso contrário, o coeficiente decodificado é negativo e o complemento de dois é considerado do valor não sinalizado. Os bits sinalizados são lidos das frequências baixas às altas.
[000401] 11.11 Sumário do processo de decodificação
[000402] A seguir, o processo de decodificação será brevemente resumido. Para detalhes, a referência é feita à discussão acima e também às figuras 3, 4, 5a, 5c, 5e, 5g, 5j, 5k, 5l, e 5m. Os coeficientes espectrais quantizados “x_ac_dec[]” são silenciosamente decodificados começando do coeficiente com frequência mais baixa e continuando ao coeficiente com frequência mais alta. Eles são decodificados por grupos de dois coeficientes sucessivos a,b reunindo em um assim chamado tuplo duplo (a,b) (também designado com{a,b}).
[000403] Os coeficientes decodificados “x_ac_dec[]” para o domínio de frequência (ou seja, para um modo de domínio de frequência) são então armazenados na matriz “x_ac_quant[g][win][sfb][bin]”. Uma ordem de transmissão das senhas de codificação silenciosa é de modo que quando elas são decodificadas na ordem recebida e armazenada na matriz, “bin” é o índice que aumenta mais rapidamente e “g” é o índice que aumenta mais lentamente. Dentro de uma senha, uma ordem de decodificação é a, depois b. Os coeficientes decodificados “x_ac_dec[]” para “TCX” (ou seja, para uma decodificação de áudio que utiliza uma excitação codificada por transformação) são armazenados (por exemplo, diretamente) na matriz “x_tcx_invquant[win][bin]” e uma ordem da transmissão das senhas de codificação silenciosa é de modo que quando eles são decodificados na ordem recebida e armazenada na matriz, “bin” é o índice que aumenta mais rapidamente e “win” é o índice que aumenta mais lentamente. Dentro de uma senha, a ordem de decodificação é a, depois b.
[000404] Primeiro, o indicador “arith_reset_flag” determina se o contexto deve ser redefinido. Se o indicador for verdadeiro, isto é considerado na função “arith_map_context”.
[000405] O processo de decodificação começa com uma fase de inicialização onde o vetor do elemento de contexto “q” é atualizado copiando e mapeando os elementos de contexto da estrutura prévia armazenada em “q[1][]” em “q[0][]”. Os elementos de contexto dentro de “q” são armazenados em um bit com 4 por 2 tuplos. Para detalhes, a referência é feita ao código do pseudo- programa da figura 5a.
[000406] O decodificador silencioso emite 2 tuplos de coeficientes espectrais quantizados não sinalizados. Primeiramente, o estado c do contexto é calculado com base nos coeficientes espectrais previamente decodificados ao redor do tuplo duplo para decodificar. Desta forma, o estado é adicionalmente atualizado utilizando o estado de contexto do último tuplo duplo decodificado considerando somente dois novos tuplos duplos. O estado é decodificado em 17 bits e é retornado pela função “arith_get_context”. Uma representação do código do pseudo-programa da função “arith_get_context” é mostrada na figura 5c.
[000407] O estado de contexto c determina a tabela de frequências cumulativas utilizada para decodificar o plano de bit a bit mais significativo m. O mapeamento de c ao índice da tabela de frequências cumulativas correspondente “pki” é realizado por uma função “arith_get_pk()”. Uma representação do código do pseudo-programa da função “arith_get_pk()” é mostrada na figura 5e.
[000408] O valor m é decodificado utilizando a função “arith_decode()” chamada com a tabela de frequências cumulativas, “arith_cf_m[pki][]”, onde “pki” corresponde ao índice retornado por “arith_get_pk()”. O codificador (e decodificador) aritmético é uma implementação do número inteiro utilizando um método de geração de identificação com escala. O código do pseudo-programa de acordo com a figura 5g descreve o algoritmo utilizado.
[000409] Quando o valor decodificado m for o símbolo de escape “ARITH_ESCAPE”, as variáveis “lev” e “esc_nb” são aumentadas em 1 e outro valor m é decodificado. Neste caso, a função “get_pk()” é chamada mais uma vez com o valor “c+ esc_nb<<17” como argumento de entrada, onde “esc_nb” é o número de símbolos de escape previamente decodificados para o mesmo tuplo duplo e delimitado a 7.
[000410] Visto que o valor m não é o símbolo de escape “ARITH_ESCAPE”, o decodificador verifica se o m sucessivo forma um símbolo “ARITH_STOP”. Se a condição “(esc_nb>0&&m==0)” for verdadeira, o símbolo “ARITH_STOP” é detectado e o processo de decodificação é finalizado. O decodificador vai diretamente para a decodificação do sinal descrita posteriormente. A condição significa que o restante da estrutura é composto por 0 valores.
[000411] Se o símbolo “ARITH_STOP” não for encontrado, os planos de bits restantes são então decodificados, se houver algum, para o presente tuplo duplo. Os planos de bits restantes são decodificados do nível mais significativo ao menos significativo, chamando “arith_decode()” lev várias vezes com a tabela de frequências cumulativas “arith_cf_r[]”. Os planos de bits decodificados r permitem a refinação do valor previamente decodificado m, de acordo com o algoritmo de um código do pseudo- programa que é mostrado na figura 5j. Neste ponto, o valor não sinalizado do tuplo duplo (a,b) é completamente decodificado. É salvo no elemento que mantém os coeficientes espectrais de acordo com o algoritmo, uma representação do código do pseudo-programa que é mostrada na figura 5k.
[000412] O contexto “q” é também atualizado para o próximo tuplo duplo. Deve ser observado que esta atualização de contexto também deve ser realizada para o último tuplo duplo. Esta atualização de contexto é realizada pela função “arith_update_context()”, uma representação do código do pseudo- programa que é mostrada na figura 5l.
[000413] O próximo tuplo duplo da estrutura é então decodificado aumentando i em 1 e refazendo o mesmo processo conforme descrito acima, começando pela função “arith_get_context()”. Quando os 2 tuplos lg/2 são decodificados dentro da estrutura, ou quando o símbolo de parada “ARITH_STOP” ocorre, o processo de decodificação da amplitude espectral termina e a decodificação dos sinais começa.
[000414] A decodificação é finalizada chamando uma função “arith_finish()”. Os coeficientes espectrais restantes são definidos a 0. Os respectivos estados de contexto são atualizados correspondentemente. Uma representação do código do pseudo- programa da função “arith_finish” é mostrada na figura 5m.
[000415] Visto que todos os coeficientes espectrais quantizados não sinalizados são decodificados, o sinal de acordo é adicionado. Para cada valor quantizado não nulo de “x_ac_dec”, um bit é lido. Se o valor de bit de leitura for igual a 0, o valor quantizado é positivo, e nada é feito, e o valor sinalizado é igual ao valor não sinalizado previamente decodificado. Caso contrário, o coeficiente decodificado é negativo e o complemento de dois é considerado do valor não sinalizado. Os bits sinalizados são lidos das frequências baixas às altas.
[000416] 11.12 Legendas
[000417] A figura 5q mostra uma legenda das definições que está relacionada aos algoritmos de acordo com as figuras 5a, 5c, 5e, 5f, 5g, 5j, 5k, 5l, e 5m.
[000418] A figura 5r mostra uma legenda das definições que está relacionada aos algoritmos de acordo com as figuras 5b, 5d, 5f, 5h, 5i, 5n, 5o, e 5p.
[000419] Tabelas de mapeamento
[000420] Em uma realização, de acordo com a invenção, as tabelas particularmente vantajosas “ari_lookup_m”, “ari_hash_m”, e “ari_cf_m” são utilizadas para a execução da função “arith_get_pk()” de acordo com a figura 5e ou a figura 5f, e para a execução da função “arith_decode()” conforme discutido com referência às figuras 5g, 5h e 5i. Entretanto, deve ser observado que diferentes tabelas podem ser utilizadas em algumas realizações de acordo com a invenção..
[000421] 12.1 Tabela “ari hash m[742]” de acordo com as figuras 22(1), 22(2), 22(3) e 22(4)
[000422] Um conteúdo de uma implementação particularmente vantajosa da tabela “ari_hash_m”, que é utilizado pela função “arith_get_pk”, uma primeira realização preferida que foi descrita com referência à figura 5e, e uma segunda realização que foi descrita com referência à figura 5f, é mostrada na tabela das figuras 22(1) a 22(4). Deve ser observado que a tabela das figuras 22(1) a 22(4) lista as 742 entradas da tabela (ou matriz) “ari_hash_m[742]”. Também deve ser observado que a representação em tabela das figuras 22(1) a 22(4) mostra os elementos na ordem dos índices do elemento, de modo que o primeiro valor “0x00000104UL” corresponde a uma entrada da tabela “ari_hash_m[0]” tendo um índice do elemento (ou índice da tabela) 0, e de modo que o último valor “0xFFFFFF00UL” corresponda a uma entrada da tabela “ari_hash_m[741]” tendo o índice do elemento ou índice da tabela 741. Ainda deve ser observado que “0x” indica que as entradas da tabela da tabela “ari_hash_m[]” são representadas em um formato hexadecimal. Além disso, deve ser observado aqui que o sufixo “UL” indica que as entradas da tabela da tabela “ari_hash_m[]” são representadas como valores de número inteiro “longos” não sinalizados (tendo uma precisão de 32-bits).
[000423] Além disso, deve ser observado que as entradas de tabela da tabela “ari_hash_m[]” de acordo com as figuras 22(1) a 22(4) são dispostas em uma ordem numérica, a fim de permitir a execução da pesquisa da tabela 506b, 508b, 510b da função “arith_get_pk()”.
[000424] Ainda deve ser observado que os 24 bits mais significativos das entradas de tabela da tabela “ari_hash_m” representam certos valores de estado significativos (e podem ser considerados como uma primeira sub-entrada), enquanto os 8 bits menos significativos representam valores de índice de regra de mapeamento “pki” (e podem ser considerados como uma segunda sub- entrada). Assim, as entradas da tabela “ari_hash_m[]” descrevem um mapeamento de “impacto direto” de um valor de contexto em um valor de índice de regra de mapeamento “pki”.
[000425] Entretanto, os 24 bits mais altos das entradas da tabela “ari_hash_m[]” representam, ao mesmo tempo, limites de intervalos de valores de contexto numéricos, no quais o mesmo valor de índice de regra de mapeamento está associado. Detalhes referentes a este conceito já foram discutidos acima.
[000426] 12.2 Tabela “ari lookup m” de acordo com a figura 21
[000427] Um conteúdo de uma realização particularmente vantajosa da tabela “ari_lookup_m” é mostrado na tabela da figura 21. Deve ser observado aqui que a tabela da figura 21 lista as entradas da tabela “ari_lookup_m”. As entradas são referenciadas por um índice de entrada do tipo número inteiro unidimensional (também designado como “índice de elemento” ou “índice da matriz” ou “índice da tabela”) que é, por exemplo, designado como “i_max” ou “i_min” ou “i”. Deve ser observado que a tabela “ari_lookup_m”, que compreende um total de 742 entradas, é bem adequada para uso pela função “arith_get_pk” de acordo com a figura 5e ou a figura 5f. Também deve ser observado que a tabela “ari_lookup_m” de acordo com a figura 21 é adaptada para cooperar com a tabela “ari_hash_m” de acordo com a figura 22.
[000428] Deve ser observado que as entradas da tabela “ari_lookup_m[742]” são listadas em ordem crescente do índice da tabela “i” (por exemplo, “i_min” ou “i_max”) entre 0 e 741. O termo “0x” indica que as entradas da tabela são descritas em um formato hexadecimal. Assim, a primeira entrada de tabela “0x01” corresponde à entrada de tabela “ari_lookup_m[0]” tendo o índice da tabela 0 e a última entrada de tabela “0x27” corresponde à entrada de tabela “ari_lookup_m[741]” tendo o índice da tabela 741.
[000429] Também deve ser observado que as entradas da tabela “ari_lookup_m[]” são associadas aos intervalos definidos pelas entradas adjacentes da tabela “arith_hash_m[]”. Assim, as entradas da tabela “ari_lookup_m” descrevem valores de índice de regra de mapeamento associados aos intervalos de valores de contexto numéricos, em que os intervalos são definidos pelas entradas da tabela “arith_hash_m”.
[000430] 12.3. Tabela “ari cf m[64][17]” de acordo com as figuras 23(1), 23(2) e 23(3)
[000431] A figura 23 mostra um conjunto de 64 tabelas de frequências cumulativas (ou subtabelas) “ari_cf_m[pki][17]”, uma que é selecionada pelo codificador de áudio 100, 700 ou um decodificador de áudio 200, 800, por exemplo, para a execução da função “arith_decode()”, ou seja, para uma decodificação do valor do plano de bits mais significativo. A selecionada das 64 tabelas de frequências cumulativas (ou subtabelas) mostradas nas figuras 23(1) a 23(3) considera uma função da tabela “cum_freq[]” na execução da função “arith_decode()”.
[000432] Como pode ser visto das figuras 23(1) a 23(3), cada sub-bloco ou linha representa a tabela de frequências cumulativas tendo 17 entradas. Por exemplo, um primeiro sub-bloco 2310 representa as 17 entradas da tabela de frequências cumulativas para “pki=0”. Um segundo sub-bloco ou linha 2312 representa as 17 entradas da tabela de frequências cumulativas para “pki=1”. Finalmente, um 64° sub-bloco ou linha 2364 representa as 17 entradas da tabela de frequências cumulativas para “pki=63”. Assim, as figuras 23(1) a 23(3) efetivamente representam as 64 diferentes tabelas de frequências cumulativas (ou subtabelas) de “pki=0” para “pki=95”, em que cada uma das 64 tabelas de frequências cumulativas é representada por um sub-bloco (envolvido por suportes enrolados) ou linha, e em que cada uma das ditas tabelas de frequências cumulativas compreende 17 entradas.
[000433] Dentro de um sub-bloco ou linha (por exemplo, um sub-bloco ou linha 2310 ou 2312, ou um sub-bloco ou linha 2396), um primeiro valor (por exemplo, um primeiro valor 708 do primeiro sub-bloco 2310) descreve uma primeira entrada da tabela de frequências cumulativas (tendo um índice da matriz ou índice da tabela de 0) representada pelo sub-bloco ou linha, e um último valor (por exemplo, um último valor 0 do primeiro sub-bloco ou linha 2310) descreve uma última entrada da tabela de frequências cumulativas (tendo um índice da matriz ou índice da tabela de 16) representada pelo sub-bloco ou linha.
[000434] Assim, cada sub-bloco 2310, 2312, 2364 da representação da tabela da figura 23 representa as entradas da tabela de frequências cumulativas para uso pela função “arith_decode” de acordo com a figura 5g, ou de acordo com as figuras 5h e 5i. A variável de entrada “cum_freq[]” da função “arith_decode” descreve qual das 64 tabelas de frequências cumulativas (representadas pelos sub-blocos individuais de 17 entradas da tabela “arith_cf_m”) deve ser utilizada para a decodificação dos coeficientes espectrais correntes.
[000435] 12.4 Tabela “ari cf r[]” de acordo com a figura 24
[000436] A figura 24 mostra um conteúdo da tabela “ari_cf_r[]”.
[000437] As quatro entradas da dita tabela são mostradas na figura 24. Entretanto, deve ser observado que a tabela “ari_cf_r” pode eventualmente ser diferente em outras realizações.
[000438] Visão geral, avaliação de desempenho e vantagens
[000439] As realizações de acordo com a invenção utilizam as funções atualizadas (ou algoritmos) e um conjunto de tabelas atualizadas, conforme discutido acima, para obter uma desvantagem melhorada entre a complexidade computacional, exigência de memória e eficiência da codificação.
[000440] Falando de forma geral, as realizações, de acordo com a invenção, criam uma codificação espectral silenciosa melhorada. As realizações, de acordo com a presente invenção, descrevem uma melhoria da codificação espectral silenciosa em USAC (codificação de áudio e voz unificada).
[000441] As realizações, de acordo com a invenção, criam uma proposta atualizada para CE na codificação espectral silenciosa melhorada de coeficientes espectrais, com base nos esquemas conforme apresentado nos papéis de entrada MPEG m16912 e m17002. Ambas as propostas foram avaliadas, resultados potenciais eliminados e as forças combinadas. Além disso, as realizações da invenção compreendem uma atualização das tabelas de codificação espectral silenciosa para aplicação em uma especificação USAC atual.
[000442] 13.1. Visão geral
[000443] A seguir, uma breve visão geral será dada. No decorrer da padronização contínua da USAC (Unified Speech e Audio Coding), um esquema espectral de codificação silenciosa (esquema de codificação de entropia aka) em USAC foi proposto. Este esquema espectral de codificação silenciosa ajuda a codificar mais eficientemente os coeficientes espectrais quantizados de forma sem perda. Desta forma, os coeficientes espectrais são mapeados às senhas correspondentes de comprimento variável. Este esquema de codificação de entropia tem como base um esquema de codificação aritmético com base em contexto: O contexto (ou seja, os coeficientes espectrais próximos) de um coeficiente espectral determina uma distribuição de probabilidade (tabela de frequência cumulativa), que é utilizada para a codificação aritmética do coeficiente espectral.
[000444] As realizações de acordo com a presente invenção utilizam um conjunto de tabelas atualizado para o esquema espectral de codificação, conforme previamente proposto no contexto de USAC. Como base, deve ser observado que a tecnologia convencional da codificação espectral silenciosa consiste primeiramente em um algoritmo e segundo em um conjunto de tabelas treinadas (ou, pelo menos, compreende um algoritmo e um conjunto de tabelas treinadas). Este conjunto de tabelas treinadas convencionais tem como base os fluxos de bit WD4 USAC. Visto que USAC agora avançou para WD7, e mudanças significantes foram aplicadas à especificação de USAC, entretanto, um novo conjunto de tabelas retreinadas é utilizado nas realizações de acordo com a invenção, que tem como base a versão mais recente de USA WD7. O próprio algoritmo permanece inalterado. Como um efeito lateral, as tabelas retreinadas provêm o desempenho de compressão melhor do que qualquer um dos esquemas apresentados previamente.
[000445] De acordo com a presente invenção, é proposto substituir as tabelas treinadas convencionais pelas tabelas retreinadas conforme apresentado aqui, que resulta em um desempenho da codificação aumentado.
[000446] 13.2. Introdução
[000447] A seguir, uma introdução será provida.
[000448] Para o item do trabalho de USAC, várias propostas sobre a atualização do esquema de codificação silenciosa foram trazidas durante as últimas reuniões de forma colaborativa. Entretanto, este trabalho foi basicamente iniciado na 89a reunião. Assim tem sido uma prática comum para todas as propostas na codificação do coeficiente espectral para mostrar os resultados de desempenho com base nos fluxos de bits de qualidade de referência WD4 de USAC e treinamento em um banco de dados de treinamento de WD 4.
[000449] Entretanto, grandes melhorias em outros campos de USAC, em particular ao processamento e janelamento de estéreo, foram incorporadas na especificação de USAC até agora. Foi observado que estas melhorias também afetam levemente as estatísticas para a codificação espectral silenciosa. Os resultados mostrados para a codificação silenciosa CEs podem desta forma ser referidos como subideais, desde que não correspondam à ultima revisão de WD.
[000450] Certamente, as tabelas da codificação espectral silenciosa são sugeridas como melhores adaptadas aos algoritmos atualizados e às estatísticas dos valores espectrais a ser codificados e decodificados.
[000451] 13.3. Breve descrição do algoritmo
[000452] A seguir, uma breve descrição do algoritmo será provida.
[000453] Para superar a questão de consumo de memória e a complexidade computacional, um esquema de codificação silenciosa melhorado é proposto para substituir o esquema como no projeto de trabalho 6/7 (WD6/7). O foco principal no desenvolvimento foi colocado na redução da demanda de memória, enquanto mantém a eficiência de compressão e não aumenta a complexidade computacional. Mais especificamente a meta era atingir a melhor desvantagem no espaço de complexidade multidimensional das exigências desempenho de compressão, complexidade e exigências de memória.
[000454] A proposta do novo esquema de codificação empresta a característica principal do codificador silencioso WD6/7, a saber, a adaptação do contexto. O contexto é derivado utilizando coeficientes espectrais previamente decodificados, tão próximo quanto em WD6/7 da estrutura passada e presente. Entretanto, os coeficientes espectrais são agora codificados combinando dois coeficientes juntos para formar um tuplo duplo. Outra diferença permanece no fato de que os coeficientes espectrais são agora divididos em três partes, o sinal, os bits mais significativos (MSBs) e os bits menos significativos (LSBs). O sinal é codificado independentemente da magnitude que é ainda dividida em duas partes, os dois bits mais significativos e o restante dos bits, se existirem. Os 2 tuplos nos quais a magnitude dos dois elementos é inferior ou igual a 3 são codificados diretamente pela codificação de MSBs. Caso contrário, uma senha de escape é transmitida primeiramente para sinalizar qualquer plano de bits adicional. Na versão base, a informação ausente, os LSBs e o sinal, são ambos codificados utilizando a distribuição uniforme de probabilidade. De modo alternativo, uma diferente distribuição de probabilidade pode ser utilizada.
[000455] A redução do tamanho da tabela é ainda possível, visto que:
[000456] somente probabilidades para 17 símbolos precisam ser armazenadas: símbolo {[0;+3], [0;+3]}+ESC;
[000457] não há necessidade em armazenar uma tabela de agrupamento (grupos e, grupos d, vetores dg);
[000458] o tamanho da tabela hash pode ser reduzido com um treinamento realizado.
[000459] 13.3.1 Codificação de MSBs
[000460] A seguir, uma codificação de MSBs será descrita.
[000461] Conforme já mencionado, a principal diferença entre WD6/7, propostas prévias e a proposta atual, é a dimensão dos símbolos. Em WD6/7 4-tuplos foram considerados para a geração de contexto e a codificação silenciosa. Nas submissões anteriores, 1 tuplo foi utilizado em vez de reduzir as exigências de ROM. No decorrer de nosso desenvolvimento, os 2 tuplos foram considerados o melhor compromisso para reduzir as exigências de ROM sem aumentar a complexidade computacional. Em vez de considerar quatro 4-tuplos para a derivação de contexto, agora quatro tuplos duplos são considerados. Conforme mostrado na figura 25, três tuplos duplos vêm da estrutura anterior e um da estrutura presente.
[000462] A redução no tamanho da tabela é feita devido a três fatores principais. Primeiro, somente probabilidades para 17 símbolos precisam ser armazenadas (ou seja, símbolo {[0;+3], [0;+3]} + ESC). As tabelas de agrupamento (ou seja, grupos e, grupos d, e vetores dg) não são mais necessárias. Finalmente, o tamanho da tabela hash foi reduzido realizando um treinamento apropriado.
[000463] Embora a dimensão fosse reduzida de quatro para dois, a complexidade foi mantida na faixa em WD6/7 do Padrão de Projeto USAC. Foi obtido simplificando tanto a geração de contexto como o acesso da tabela hash.
[000464] As diferentes simplificações e otimizações foram feitas de forma que o desempenho da codificação não foi afetado, e mais levemente melhorado.
[000465] 13.3.2 Codificação de LSBs
[000466] Os LSBs são codificados com uma distribuição uniforme de probabilidade. Comparado ao WD6/7, os LSBs são agora considerados dentro de tuplos duplos em vez de 4 t-tuplos. Entretanto, a codificação diferente dos bits menos significativos é possível.
[000467] 13.3.3 Codificação do sinal
[000468] O sinal é codificado sem utilizar o codificador de núcleo aritmético para redução de complexidade. O sinal é transmitido em 1 bit apenas quando a magnitude corresponde for não nula. 0 significa um valor positivo e 1 significa um valor negativo.
[000469] 13.4. Atualização das tabelas propostas
[000470] Esta contribuição provê um conjunto de tabelas atualizado para o esquema de esquema espectral de codificação silenciosa de USAC. As tabelas foram retreinadas com base nos fluxos de bits atuais WD6/7 de USA. Longe das tabelas atuais, que resultam de um processo de treinamento, o algoritmo permanece inalterado.
[000471] Para investigar o efeito do retreinamento, a eficiência do código e a exigência de memória das novas tabelas são comparados com a proposta anterior (M17558) e o WD6. WD6 é selecionado como um ponto de referência desde que a) os resultados na 92a reunião foram dados com relação a esta referência e b) as diferenças entre WD6 e WD7 são apenas muito pequenas (bugs de segurança apenas, com nenhum efeito na codificação de entropia ou distribuição de coeficientes espectrais).
[000472] 13.4.1 Eficiência da codificação
[000473] Primeiramente, a eficiência da codificação do novo conjunto de tabelas proposto é comparada com USAC WD6 e CE conforme proposto em M17558. Como pode ser visto na representação em tabela da figura 26, por um simples retreinamento a média aumentou na eficiência da codificação (comparada a WD6) poderia ser aumentado de 1,74% (M17558) a 2,45% (nova proposta, de acordo com uma realização da invenção). Comparado a M17558, o ganho de compressão poderia então ser elevado aproximadamente 0,7% nas realizações de acordo com a invenção.
[000474] A figura 27 visualiza o ganho de compressão para todos os pontos operacionais. Como pode ser visto, um ganho mínimo de compressão de pelo menos 2% pode ser atingido utilizando as realizações de acordo com a invenção comparado a WD6. Para taxas baixas, como 12 kbit/s e 16 kbit/s, o ganho de compressão é ainda levemente aumentado. O bom desempenho também é retido nas taxas de bits mais altas como 64 kbit/s, onde um aumento significativo na eficiência da codificação de mais do que 3% pode ser observado.
[000475] Deve ser observado que uma trancodificação sem perda de todos os fluxos de bits da qualidade de referência WD6 comprovou ser possível sem violar as restrições do reservatório de bit. Resultados mais detalhados serão dados na seção 13.6.
[000476] 13.4.2 Demanda e complexidade da memória
[000477] Depois, a demanda e complexidade da memória são comparadas com USAC WD6 e CE conforme proposto em M17558. A tabela da figura 28 compara a demanda de memória para o codificador silencioso como em WD6, proposto em M17558 e a Nova Proposta de acordo com uma realização da invenção. Como pode ser claramente visto, a demanda de memória é significantemente reduzida adotando o novo algoritmo, conforme proposto em M17558. Ainda pode ser visto que para a Nova Proposta o tamanho total da tabela poderia ainda ser levemente reduzido em aproximadamente 80 palavras (32 bit), resultando em uma demanda de ROM total de 1441 palavras, e uma demanda de RAM total de 64 palavras (32 bit) por canal de áudio. A pequena economia na demanda de ROM é o resultado de uma melhor troca entre o número de modelos de probabilidade e o tamanho da tabela hash, encontrado pelo algoritmo de treinamento automático com base nos novos fluxos de bits de treinamento do conjunto de WD6. Para mais detalhes a referência é feita à tabela da figura 29.
[000478] Em termos de complexidade, a complexidade computacional dos esquemas propostos mais recentes foi comparada com uma versão otimizada do silêncio corrente no USAC. Foi observado por um método “caneta e papel” e pela instrução do código que o novo esquema de codificação tem a mesma ordem de complexidade que o esquema atual. Conforme informado na tabela da figura 30 para o estéreo de 32 kbps e a tabela da figura 31 para os pontos operacionais mono de 12 kbps, a complexidade estimada mostra um aumento de 0,006 em peso MOPS e 0,024 em peso MOPS respectivamente sobre uma implementação otimizada do decodificador silencioso de WD6. Comparado à complexidade geral de aproximadamente 11,7 PCU [2], estas diferenças podem ser consideradas insignificantes.
[000479] 13.5. Conclusão
[000480] A seguir, algumas conclusões serão providas.
[000481] Um novo conjunto de tabelas para o esquema espectral de codificação silenciosa de USAC foi apresentado. Em contraste à proposta anterior, que é o resultado de um treinamento com base nos fluxos de bits mais antigos, as novas tabelas propostas são agora treinadas nos fluxos de bits WD USAC atuais, em que um conceito de treinamento avançado foi utilizado. Por este retreinamento, a eficiência da codificação nos fluxos de bits atuais de USAC poderiam ser melhorados, sem sacrificar a baixa demanda de memória ou aumentar a complexidade comparada às propostas anteriores. Comparado ao USAC WD6, a demanda de memória poderia ser significantemente reduzida.
[000482] 13.6. Informação detalhada sobre a transcodificação dos fluxos de bits WD6
[000483] A informação detalhada sobre a transcodificação dos fluxos de bits do Projeto de trabalho 6 (WD6) pode ser vista na representação em tabelas das figuras 32, 33, 34, 35 e 36.
[000484] A figura 32 mostra uma representação em tabela das taxas de bits médios produzidos pelo codificador aritmético em uma realização de acordo com a invenção e no WD6.
[000485] A figura 33 mostra uma representação em tabela das taxas de bits mínimas, máximas e médias de USAC em uma base da estrutura utilizando o esquema proposto.
[000486] A figura 34 mostra uma representação em tabela das taxas de bits médios produzidos por um codificador USAC utilizando codificador aritmético WD6 e um codificador de acordo com uma realização de acordo com a invenção (“Nova Proposta”).
[000487] A figura 35 mostra uma representação em tabelados melhores e dos piores casos para uma realização de acordo com a invenção.
[000488] A figura 36 mostra uma representação em tabela do limite de reservatório de bit para uma realização de acordo com a invenção.
[000489] 14. Mudanças quando comparadas ao projeto de trabalho 6 ou projeto de trabalho 7
[000490] A seguir, mudanças da codificação silenciosa quando comparadas a uma codificação silenciosa convencional será descrita. Certamente, uma realização é definida em termos de modificações quando comparadas ao projeto de trabalho 6 ou projeto de trabalho 7do Padrão de Projeto USAC.
[000491] Em particular, mudanças no texto de WD serão descritas. Em outras palavras, esta seção lista o conjunto completo de mudanças contra a especificação de USAC WD7.
[000492] 14.1. Mudanças na descrição técnica
[000493] A nova codificação silenciosa proposta gera as modificações no MPEG USAC WD que será descrito a seguir. As principais diferenças são marcadas.
[000494] 14.1.1. Mudanças da sintaxe e payload
[000495] A figura 7 mostra uma representação de uma sintaxe dos dados aritmeticamente codificados “arith_data()”. As principais diferenças são marcadas.
[000496] A seguir, as mudanças com relação aos Payloads do codificador espectral silencioso serão descritas.
[000497] Coeficientes espectrais do sinal codificado do “domínio de previsão linear” e do sinal codificado do “domínio de frequência” são escalar quantizados e então codificados silenciosamente por uma codificação aritmética de forma adaptável dependente do contexto. Os coeficientes quantizados são unidos em 2 tuplos antes de ser transmitidos da frequência mais baixa à frequência mais alta. Deve ser observado que o uso de 2 tuplos constitui uma mudança quando comparado às versões anteriores da codificação espectral silenciosa.
[000498] Entretanto, é ainda uma mudança que cada 2 tuplos é dividido em sinal s, o plano de bit a bit mais significativo, m, e os planos de bits menos significativos restantes, r. Ainda, é uma mudança que o valor m é codificado de acordo com a proximidade do coeficiente, e que os planos de bits menos significativos restantes, r, são codificados por entropia sem considerar o contexto. Ainda, é uma mudança com relação a algumas versões anteriores que os valores m e r formam os símbolos do codificador aritmético. Finalmente, é uma mudança com relação a algumas versões anteriores que os sinais s são codificados fora do codificador aritmético utilizando 1 bit por coeficiente quantizado não nulo.
[000499] Um procedimento da decodificação aritmética detalhada é descrito abaixo na seção 14.2.3.
[000500] 14.1.2 Mudanças das definições e elementos de ajuda
[000501] Mudanças nas definições e elementos de ajuda são mostrados na representação das definições e elementos de ajuda na figura 38.
[000502] 14.2 Codificação espectral silenciosa
[000503] A seguir, a codificação espectral silenciosa de acordo com uma realização será resumida.
[000504] 14.2.1 Descrição da ferramenta
[000505] A codificação espectral silenciosa é utilizada para reduzir mais a redundância do espectro quantizado.
[000506] O esquema espectral de codificação silenciosa tem como base uma codificação aritmética em conjunto com um contexto dinamicamente adaptado. A codificação silenciosa é inserida pelo valores espectrais quantizados e utiliza as tabelas de frequências cumulativas dependente de contexto derivadas das quatro próximas previamente decodificadas. Aqui, proximidade em tempo e frequência é considerada, conforme ilustrado na figura 25. As tabelas de frequências cumulativas são então utilizadas pelo codificador aritmético para gerar um código binário do comprimento variável.
[000507] O codificador aritmético produz um código binário para um dado conjunto de símbolos e suas respectivas probabilidades. O código binário é gerado pelo mapeamento de um intervalo de probabilidade, onde o conjunto de símbolos se encontra, em um código.
[000508] 14.2.2 Definições
[000509] Definições e elementos de ajuda são descritos na figura 39. Mudanças quando comparadas às versões anteriores da codificação aritmética são marcadas.
[000510] 14.2.3 Processo de codificação
[000511] Os coeficientes espectrais quantizados qdec são silenciosamente codificados começando do coeficiente de frequência mais baixa e continuando ao coeficiente de frequência mais alta. Eles são decodificados por grupos de dois coeficientes sucessivos a e b unindo em um assim chamado 2 tuplos {a,b}.
[000512] Os coeficientes decodificados para AAC são então armazenados na matriz x_ac_quant[g][win][sfb][bin]. A ordem da transmissão dos códigos da codificação silenciosa é de modo que quando são decodificadas na ordem recebida e armazenada na matriz, bin é o índice adicional mais rápido e g é o índice adicional mais lento. Dentro de um código da ordem de decodificação é a e então b.
[000513] Os coeficientes decodificados para TCX são armazenados na matriz x_tcx_invquant[win][bin], e a ordem da transmissão dos códigos da codificação silenciosa é de modo que quando são decodificados na ordem recebida e armazenada na matriz, o bin é o índice adicional mais rápido e win é o índice adicional mais lento. Dentro de um código a ordem da decodificação é a e então b.
[000514] O processo de codificação começa com uma fase de inicialização onde um mapeamento é feito entre o contexto anterior salvo armazenado em qs e o contexto da estrutura corrente q. O contexto anterior qs é armazenado em 2 bits por linha de frequência.
[000515] Para detalhes, a referência é feita à representação do código do pseudo-programa do algoritmo “arith_map_context” na figura 40a.
[000516] O decodificador silencioso emite 2 tuplos de coeficientes não assinados espectrais quantizados. Primeiramente, o estado c do contexto é calculado com base nos coeficientes espectrais previamente decodificados circundante dos 2 tuplos para decodificar. O estado é gradualmente atualizado utilizando o estado de contexto dos últimos tuplos duplos decodificados considerando apenas os dois novos tuplos duplos. O estado é codificado em17 bits e é retornado pela função arith_get_context().
[000517] Uma representação do código do pseudo-programa da função “arith_get_context()” é mostrada na figura 40b.
[000518] Visto que o estado de contexto c é calculado, o plano de bit a bit mais significativo m é decodificado utilizando o arith_decode() inserido com a tabela de frequências cumulativas apropriada correspondente ao modelo de probabilidade correspondente ao estado de contexto. A correspondência é feita pela função arith_get_pk().
[000519] Uma representação do código do pseudo-programa da função arith_get_pk() é mostrada na figura 40c.
[000520] O valor m é decodificado utilizando a função arith_decode() chamada com a tabela de frequências cumulativas, arith_cf_m[pki][], onde pki corresponde ao índice retornado por arith_get_pk(). O codificador aritmético é uma implementação de número inteiro utilizando o método de geração de tag com escala. O pseudo-código C mostrado nas figuras 40d e 40e descreve o algoritmo utilizado.
[000521] Quando o valor decodificado m é o símbolo de escape, ARITH_ESCAPE, as variáveis lev e esc_nb são adicionadas em um e outro valor m é codificado. Neste caso, a função get_pk() é chamada mais uma vez com o valor c&esc_nb<<17 como o argumento de entrada, onde esc_nb é o número de símbolos de escape previamente decodificados para os mesmos tuplos duplos delimitados a 7.
[000522] Visto que o valor m não é o símbolo de escape, ARITH_ESCAPE, o decodificador verifica se o m sucessivo forma um símbolo ARITH_STOP. Se uma condição (esc_nb>0 && m==0) for verdadeira, o símbolo ARITH_STOP é detectado e o processo de codificação é finalizado. O decodificador vai diretamente para a função arith_save_context(). Uma condição significa que o resto da estrutura é composta por valores zero.
[000523] Se o símbolo ARITH_STOP não for atingido, os planos de bit restantes então são decodificados se existir para o presente tuplo duplo. Os planos de bit restantes são decodificados do nível mais significativo ao menos significativo chamando os períodos lev arith_decode() com a tabela de frequências cumulativas arith_cf_r[]. Os planos de bit decodificados r permitem refinar o valor previamente decodificado m pela função ou algoritmo de uma representação do código do pseudo-programa na qual é mostrada na figura 40f.
[000524] Neste ponto, o valor não assinado dos tuplos duplos {a,b} é completamente decodificado. O contexto q é então atualizado para os próximos tuplos duplos. Se for os últimos tuplos duplos, também. Ambas as atualizações são feitas pela função arith_update_context(), uma representação do código do pseudo-programa da qual é mostrada na figura 40g.
[000525] Os próximos tuplos duplos da estrutura são então decodificados pelo aumento i em um e chamando a função. Se os tuplos duplos lg/2 já foram decodificados com a estrutura ou se o símbolo de parada ARITH_STOP ocorreu, a função arith_save_context() é chamada. O contexto é salvo e armazenado em qs para a próxima estrutura. Uma representação do código do pseudo-programa da função ou algoritmo arith_save_context() é mostrada na figura 40h.
[000526] Visto que todos os coeficientes espectrais quantizados não assinados são decodificados, o sinal é então adicionado. Para cada valor quantizado não nulo de qdec um bit é lido. Se o valor de bit lido for igual a zero, o valor quantizado é positivo, nada é feito e o valor assinado é igual ao valor previamente decodificado não assinado. Caso contrário, o coeficiente decodificado é negativo e o componente dos dois é do valor não assinado. Os bits do sinal são lidos das frequências baixa à alta.
[000527] 14.2.4 Tabelas atualizadas
[000528] Um conjunto de tabelas retreinadas para uso com os algoritmos descritos acima é mostrado nas figuras 41(1), 41(2), 42(1), 42(2), 42(3), 42(4), 43(1), 43(2), 43(3), 43(4), 43(5), 43(6) e 44.
[000529] As figuras 41(1) e 41(2) mostram uma representação em tabela de um conteúdo de uma tabela “ari_lookup_m[742]”, de acordo com uma realização da invenção;
[000530] As figuras 42 (1),(2),(3),(4) mostram uma representação em tabela de um conteúdo de uma tabela “ari_hash_m[742]”, de acordo com uma realização da invenção;
[000531] As figuras 43 (1),(2),(3),(4),(5),(6) mostram uma representação em tabela de um conteúdo de uma tabela “ari_cf_m[96][17]”, de acordo com uma realização da invenção; e
[000532] A figura 44 mostra uma representação em tabela de uma tabela “ari_cf_r[4]”, de acordo com uma realização da invenção.
[000533] Para resumir o mencionado acima, pode ser visto que realizações, de acordo com a presente invenção, provêm uma boa troca entre complexidade computacional, exigências de memória e eficiência da codificação.
[000534] 15. Sintaxe do fluxo de bits
[000535] 15.1 Payloads do codificador espectral silencioso
[000536] A seguir, alguns detalhes referentes aos payloads do codificador espectral silencioso serão descritos. Em algumas realizações, há diversos modos diferentes de codificação como, por exemplo, o modo de codificação de “domínio de previsão linear” e o modo de codificação de “domínio de frequência”. No modo de codificação de domínio de previsão linear, uma forma de ruído é realizada com base em uma análise de previsão linear do sinal de áudio, e um sinal em forma de ruído é codificado no domínio de frequência. No modo de codificação de domínio de frequência, uma forma de ruído é realizada com base em uma análise psicoacústica e uma versão em forma de ruído do conteúdo de áudio é codificada no domínio de frequência.
[000537] Coeficientes espectrais do sinal codificado do “domínio de previsão linear” e do sinal codificado do “domínio de frequência” são quantizados por escala e então silenciosamente codificados por uma codificação aritmética dependente de contexto de forma adaptativa. Os coeficientes quantizados são unidos em 2 tuplos antes de serem transmitidos da frequência mais baixa para a frequência mais alta. Cada tuplo duplo é dividido em um sinal s, o plano de bit a bit mais significativo m, e um ou mais planos de bits menos significativos r restantes (se houver). O valor m é codificado de acordo com um contexto definido pelos coeficientes espectrais próximos. Em outras palavras, m é codificado de acordo com os coeficientes próximos. Os planos de bits menos significativos restantes r são codificados por entropia sem considerar o contexto. Por meios de m e r, a amplitude destes coeficientes espectrais pode ser reconstruída no lado do decodificador. Para todos os símbolos não nulos, os sinais s são codificados fora do codificador aritmético utilizando 1 bit. Em outras palavras, os valores m e r formam os símbolos do codificador aritmético. Finalmente, os sinais s, são codificados fora do codificador aritmético utilizando 1 bit por coeficiente quantizado não nulo.
[000538] Um procedimento detalhado da codificação aritmética será descrito aqui.
[000539] 15.2 Elementos de sintaxe de acordo com as figuras 6a a 6j
[000540] A seguir, a sintaxe do fluxo de bits de um fluxo de bits que carrega a informação espectral aritmeticamente codificada será descrita tendo como referência as figuras 6a a 6j.
[000541] A figura 6a mostra uma representação de sintaxe do bloco de dados brutos USAC (“usac_raw_data_block()”).
[000542] O bloco de dados brutos USAC compreende um ou mais elementos de canal único (“single_channel_element()”) e/ou um ou mais elementos do par de canal (“channel_pair_element()”).
[000543] Agora com referência à figura 6b, a sintaxe de um elemento de canal único é descrita. Os elementos de canal único compreendem um fluxo de canal do domínio de previsão linear (“lpd_channel_stream ()”) ou um fluxo de canal de domínio de frequência (“fd_channel_stream ()”) dependendo do modo de núcleo.
[000544] A figura 6c mostra uma representação de sintaxe de um elemento do par de canal. Um elemento do par de canal compreende informação do modo de código (“core_mode0”, “core_mode1”). Além disso, o elemento do par de canal pode compreender uma informação de configuração “ics_info()”. Adicionalmente, dependendo da informação do modo de código, o elemento do par de canal compreende um fluxo de canal do domínio de previsão linear ou um fluxo de canal de domínio de frequência associado a um primeiro dos canais, e o elemento do par de canal também compreende um fluxo de canal do domínio de previsão linear ou um fluxo de canal de domínio de frequência associado a um segundo dos canais.
[000545] A informação de configuração “ics_info()”, uma representação de sintaxe que é mostrada na figura 6d, compreende diversos itens diferentes de informação de configuração, que não são de relevância particular para a presente invenção.
[000546] Um fluxo de canal de domínio de frequência (“fd_channel_stream ()”), uma representação de sintaxe que é mostrada na figura 6e, compreende uma informação de ganho (“global_gain”) e uma informação de configuração (“ics_info ()”). Além disso, o fluxo de canal de domínio de frequência compreende dados do fator de escala (“scale_factor_data ()”), que descrevem fatores de escala utilizados para a escala de valores espectrais de diferentes faixas de fator de escala, e que é aplicado, por exemplo, pelo multiplicador de frequências 150 e pelo remultiplicador de frequências 240. O fluxo de canal de domínio de frequência também compreende dados espectrais aritmeticamente codificados (“ac_spectral_data ()”), que representam valores espectrais aritmeticamente codificados.
[000547] Os dados espectrais aritmeticamente codificados (“ac_spectral_data()”), uma representação de sintaxe que é mostrada na figura 6f, compreendem um sinalizador de redefinição aritmético opcional (“arith_reset_flag”), que é utilizado para seletivamente redefinir o contexto, conforme descrito acima. Além disso, os dados espectrais aritmeticamente decodificados compreendem diversos blocos de dados aritméticos (“arith_data”), que carregam os valores espectrais aritmeticamente codificados. A estrutura dos blocos de dados aritmeticamente codificados depende do número das faixas de frequência (representado pela variável “num_bands”) e também do estado do sinalizador de redefinição aritmético, conforme serão discutidos a seguir.
[000548] A seguir, a estrutura do bloco de dados aritmeticamente codificado será descrita tendo como referência a figura 6g, que mostra uma representação de sintaxe dos ditos blocos de dados aritmeticamente codificados. A representação de dados dentro do bloco de dados aritmeticamente codificados depende do número lg de valores espectrais a ser codificado, do status do sinalizador de redefinição aritmético e também do contexto, ou seja, os valores espectrais previamente codificados.
[000549] O contexto para a codificação do conjunto corrente (por exemplo, 2 tuplos) de valores espectrais é determinado de acordo com o algoritmo de determinação de contexto mostrado no número de referência 660. Detalhes com relação ao algoritmo de determinação de contexto foram explicados acima, tendo como referência as figuras 5a e 5b. O bloco de dados aritmeticamente codificados compreende lg/2 para definição das senhas, cada conjunto de senhas que representa diversos (por exemplo, um tuplo duplo) valores espectrais. Um conjunto de senhas compreende uma senha aritmética “acod_m[pki][m]” que representa um valor do plano de bits mais significativo m do tuplo de valores espectrais utilizando entre 1 e 20 bits. Além disso, o conjunto de senhas compreende uma ou mais senhas “acod_r[r]” se o tuplo de valores espectrais requerer mais planos de bits que o plano de bits mais significativo para uma representação correta. A senha “acod_r[r]” representa um plano de bits menos significativo utilizando entre 1 e 14 bits.
[000550] Se, entretanto, um ou mais planos de bits menos significativos são necessários (além do plano de bits mais significativo) para uma representação correta dos valores espectrais, isto é sinalizado utilizando uma ou mais senhas aritméticas de escape (“ARITH_ESCAPE”). Assim, pode ser geralmente dito que para um valor espectral, é determinado quantos planos de bits (o plano de bits mais significativo e, possivelmente, um ou mais planos de bits menos significativos adicionais) são necessários. Se um ou mais planos de bits menos significativos são necessários, isto é sinalizado por uma ou mais senhas aritméticas de escape “acod_m[pki][ARITH_ESCAPE]”, que são codificadas de acordo com uma tabela de frequências cumulativas atualmente selecionada, um índice da tabela de frequências cumulativas que é dado pela variável “pki”. Além disso, o contexto é adaptado, como pode ser visto nos números de referência 664, 662, se uma ou mais senhas aritméticas de escape estiverem incluídas no fluxo de bits. Seguindo uma ou mais senhas aritméticas de escape, uma senha aritmética “acod_m[pki][m]” está incluída no fluxo de bits, conforme mostrado no número de referência 663, em que “pki” designa o índice atualmente válido do modelo de probabilidade (considerando a adaptação do contexto causada pela inclusão das senhas aritméticas de escape em consideração) e em que m designa o valor do plano de bits mais significativo do valor espectral a ser codificado ou decodificado (em que m é diferente da senha “ARITH_ESCAPE”).
[000551] Conforme discutido acima, a presença de qualquer plano de bits menos significativo resulta em uma presença de uma ou mais senhas “acod_r[r]”, cada uma representa 1 bit de um plano de bits menos significativo de um primeiro valor espectral e cada um que também representa 1 bit de um plano de bits menos significativo de um segundo valor espectral. Uma ou mais senhas “acod_r[r]” são codificadas de acordo com uma tabela de frequências cumulativas correspondente, que pode, por exemplo, ser constante e independente de contexto. Entretanto, diferentes mecanismos para a seleção da tabela de frequências cumulativas para uma decodificação de uma ou mais senhas “acod_r[r]” são possíveis.
[000552] Além disso, deve ser observado que o contexto é atualizado depois da codificação de cada tuplo de valores espectrais, conforme mostrado no número de referência 668, de modo que o contexto seja tipicamente diferente da codificação e decodificação de tuplos duplos de valores espectrais subsequente.
[000553] A figura 6i mostra uma legenda de definições e elementos de ajuda que definem a sintaxe do bloco de dados aritmeticamente codificado.
[000554] Além disso, uma sintaxe alternativa dos dados aritméticos “arith_data()” é mostrada na figura 6h, com uma legenda correspondente de definições e elementos de ajuda mostrada na figura 6j.
[000555] Para resumir o mencionado acima, um formato do fluxo de bits foi descrito, que pode ser provido pelo codificador de áudio 100 e que pode ser avaliado pelo decodificador de áudio 200. O fluxo de bits dos valores espectrais aritmeticamente codificados é codificado de modo que se encaixe no algoritmo de decodificação discutido acima.
[000556] Além disso, geralmente deve ser observado que a codificação é a operação inversa da decodificação, de modo que possa geralmente ser assumido que o codificador realiza uma consulta de tabela utilizando as tabelas mencionadas acima, que é aproximadamente inversa à consulta de tabela realizada pelo decodificador. Geralmente, pode ser dito que um técnico no assunto que conhece o algoritmo de decodificação e/ou a sintaxe do fluxo de bits desejada poderá facilmente desenhar um codificador aritmético, que provê os dados definidos na sintaxe do fluxo de bits e necessários por um decodificador aritmético.
[000557] Além disso, deve ser observado que os mecanismos para determinar o valor de contexto corrente numérico e para derivar um valor de índice de regra de mapeamento podem ser idênticos em um codificador de áudio e um decodificador de áudio, pois é tipicamente desejado que o decodificador de áudio utilize o mesmo contexto ao codificador de áudio, de modo que a decodificação seja adaptada à codificação.
[000558] 15.3. Elementos de sintaxe de acordo com as figuras 6k, 6l, 6m, 6n, 6o e 6p
[000559] A seguir, uma extração de uma sintaxe do fluxo de bits alternativo será descrita com referência às figuras 6k, 6l, 6m, 6n, 6o e 6p.
[000560] A figura 6k mostra uma representação de sintaxe de um elemento do fluxo de bits “UsacSingleChannelElement(indepFlag)”. O dito elemento de sintaxe “UsacSingleChannelElement(indepFlag)” compreende um elemento de sintaxe “UsacCoreCoderData” que descreve um canal do codificador de núcleo.
[000561] A figura 6l mostra uma representação de sintaxe de um elemento do fluxo de bits “UsacChannelPairElement(indepFlag)”. O dito elemento de sintaxe “UsacChannelPairElement(indepFlag)” compreende um elemento de sintaxe “UsacCoreCoderData” que descreve um ou dois canais do codificador de núcleo, dependendo de uma configuração estéreo.
[000562] A figura 6m mostra uma representação de sintaxe de um elemento do fluxo de bits “ics_info()”, que compreende definições de um número de parâmetros, como pode ser visto na figura 6m.
[000563] A figura 6n mostra uma representação de sintaxe de um elemento do fluxo de bits “UsacCoreCoderData()”. O elemento do fluxo de bits “UsacCoreCoderData()” compreende um ou mais fluxos do canal de domínio de previsão linear “lpd_channel_stream()” e/ou um ou mais fluxo do canal de domínio de frequências “fd_channel_stream()”. Outra informação de controle pode opcionalmente também ser incluída no elemento do fluxo de bits “UsacCoreCoderData()”, como pode ser visto na figura 6n.
[000564] A figura 6o mostra uma representação de sintaxe de um elemento do fluxo de bits “fd_channel_stream()”. O elemento do fluxo de bits “fd_channel_stream()” compreende, entre outros elementos do fluxo de bits opcionais, um elemento do fluxo de bits “scale_factor_data()” e um elemento do fluxo de bits “ac_spectral_data()”.
[000565] A figura 6p mostra uma representação de sintaxe de um elemento do fluxo de bits “ac_spectral_data()”. O elemento do fluxo de bits “ac_spectral_data()” compreende opcionalmente um elemento do fluxo de bits “arith_reset_flag”. Além disso, o elemento do fluxo de bits também compreende um número de dados aritmeticamente codificados “arith_data()”. Os dados aritmeticamente codificados podem, por exemplo, seguir a sintaxe do fluxo de bits descrita com referência à figura 6g.
[000566] 16. Implementações alternativas
[000567] Embora alguns aspectos foram descritos no contexto de um aparelho, é claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma equivalente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas realizações, uma ou mais das etapas mais importantes do método podem ser executadas por tal aparelho.
[000568] O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão como um meio de transmissão sem fio ou um meio de transmissão com fio como a Internet.
[000569] Dependendo de certas exigências de implementação, as realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blue-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletricamente legíveis armazenados nele, que coopera (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Desta forma, o meio de armazenamento digital pode ser legível por computador.
[000570] Algumas realizações, de acordo com a invenção, compreendem um carregador de dados tendo sinais de controle eletricamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
[000571] Geralmente, as realizações da presente invenção podem ser implementadas como um produto de programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto de programa de computador opera em um computador. O código do programa pode, por exemplo, ser armazenado em um carregador legível por máquina.
[000572] Outras realizações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenados em um carregador legível pela máquina.
[000573] Em outras palavras, uma realização do método inventivo é, desta forma, um programa de computador tendo um código do programa para realizar um dos métodos descrito aqui, quando o programa de computador for executado em um computador.
[000574] Outra realização do método inventivo é, desta forma, um carregador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) que compreende, registrado nele, o programa de computador para realizar um dos métodos descritos aqui. O carregador de dados, o meio de armazenamento digital ou o meio registrado são tipicamente tangíveis e/ou não transitórios.
[000575] Outra realização do método inventivo é, desta forma, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[000576] Outra realização compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos aqui.
[000577] Outra realização compreende um computador tendo o programa de computador instalado nele para realizar um dos métodos descritos aqui.
[000578] Outra realização, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou opticamente) um programa de computador para realizar um dos métodos descritos aqui a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.
[000579] Em algumas realizações, um dispositivo lógico programável (por exemplo, uma matriz de portas programáveis em campo) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas realizações, uma matriz de portas programáveis em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[000580] As realizações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações das disposições e os detalhes descritos aqui serão evidentes a outros técnicos no assunto. É o objetivo, desta forma, ser limitado somente pelo escopo das reivindicações da patente iminente e não pelos detalhes específicos apresentados em forma de descrição e explicação das realizações aqui.
[000581] 17. Conclusões
[000582] Para concluir, as realizações, de acordo com a invenção, compreendem um ou mais dos aspectos a seguir, em que os aspectos podem ser utilizados individualmente ou em combinação.
[000583] Estado de mecanismo de contexto de hashing
[000584] De acordo com um aspecto da invenção, os estados na tabela hash são considerados como estados significativos e limites de grupo. Isto permite reduzir significantemente o tamanho das tabelas necessárias.
[000585] Atualização adicional de contexto
[000586] De acordo com um aspecto, algumas realizações, de acordo com a invenção, compreendem uma forma computacionalmente eficiente para atualizar o contexto. Algumas realizações utilizam uma atualização adicional de contexto na qual um valor de contexto corrente numérico é derivado de um valor de contexto prévio numérico
[000587] Derivação de contexto
[000588] De acordo com um aspecto da invenção, utilizando uma soma de dois valores absolutos espectrais está a associação de um truncamento. É um tipo de quantização do vetor de ganho dos coeficientes espectrais (como a oposição à quantização do vetor de ganho convencional). Objetiva limitar a ordem do contexto, enquanto transporta a informação mais significativa do próximo.
[000589] Tabelas atualizadas
[000590] De acordo com um aspecto da invenção, as tabelas otimizadas ari_hash_m[742], ari_lookup_m[742] e ari_cf_m[64][17], que provêm um compromisso particularmente bom entre a eficiência da codificação e a complexidade computacional são aplicados.
[000591] Outras tecnologias, que são aplicadas nas realizações, de acordo com a invenção, são descritas nos pedidos de patente não pré-publicados PCT EP2101/065725, PCT EP2010/065726, e PCT EP 2010/065727. Além disso, em algumas realizações, de acordo com a invenção, um símbolo de parada é utilizado. Além disso, em algumas realizações, somente os valores não sinalizados são considerados para o contexto.
[000592] Entretanto, os pedidos de patente Internacional não pré-publicados revelam os aspectos que estão ainda em algumas realizações de acordo com a invenção.
[000593] Por exemplo, uma identificação de região zero é utilizada em algumas realizações da invenção. Assim, o chamado “indicador de pequeno valor” é definido (por exemplo, bit 16 do valor de contexto corrente numérico c).
[000594] Em algumas realizações, o cálculo de contexto dependente da região pode ser utilizado. Entretanto, em outras realizações, um cálculo de contexto dependente da região pode ser omitido a fim de manter a complexidade e o tamanho das tabelas razoavelmente pequenas.
[000595] Além disso, o contexto de hashing utilizando uma função hash é um aspecto importante da invenção. O contexto de hashing pode ter como base o conceito de duas tabelas que é descrito nos pedidos de patente Internacional não pré-publicados referenciados acima. Entretanto, adaptações específicas do contexto de hashing podem ser utilizadas em algumas realizações a fim de aumentar a eficiência computacional. Entretanto, em outras realizações, de acordo com a invenção, o contexto de hashing que é descrito nos pedidos de patente Internacional não pré-publicados referenciados acima pode ser utilizado.
[000596] Além disso, deve ser observado que o contexto hashing adicional é bastante simples e computacionalmente eficiente. Ainda, a independência de contexto dos sinais de valores, que é utilizada em algumas realizações da invenção, ajuda a simplificar o contexto, assim mantendo as exigências de memória razoavelmente baixas.
[000597] Em algumas realizações da invenção, uma derivação de contexto utilizando uma soma de dois valores espectrais e uma limitação de contexto é utilizada. Estes dois aspectos podem ser combinados. Ambos objetivam limitar a ordem de contexto transportando a informação mais significativa do próximo.
[000598] Em algumas realizações, um indicador de pequeno valor é utilizado que pode ser semelhante a uma identificação de um grupo de diversos valores zero.
[000599] Em algumas realizações, de acordo com a invenção, um mecanismo de parada aritmética é utilizado. O conceito é semelhante ao uso de um símbolo “fim do bloco” em JPEG, que tem uma função comparável. Entretanto, em algumas realizações da invenção, o símbolo (“ARITH_STOP”) não é incluído explicitamente no codificador de entropia. Ainda, uma combinação de símbolos já existentes, que não poderia ocorrer previamente, é utilizada, ou seja, “ESC+0”. Em outras palavras, o decodificador de áudio é configurado para detectar uma combinação de símbolos existentes, que não são normalmente utilizados para representar um valor numérico, e para interpretar a ocorrência de tal combinação de símbolos já existentes como uma condição de parada aritmética.
[000600] Uma realização, de acordo com a invenção, utiliza um mecanismo de hashing de contexto de duas tabelas.
[000601] Para resumir, algumas realizações, de acordo com a invenção, podem compreender um ou mais dos cinco aspectos principais.
[000602] Tabelas melhoradas;
[000603] contexto estendido para detectar tanto as regiões zero quanto as regiões de pequena amplitude no próximo;
[000604] contexto de hashing;
[000605] geração do estado de contexto: atualização adicional do estado de contexto; e
[000606] derivação de contexto: quantização específica dos valores de contexto incluindo a soma das amplitudes e limitação.
[000607] Para concluir, um aspecto das realizações, de acordo com a presente invenção, permanece em uma atualização adicional de contexto. As realizações, de acordo com a invenção, compreendem um conceito eficiente para a atualização do contexto, que evita os cálculos extensivos do projeto de trabalho (por exemplo, do projeto de trabalho 5). Ainda, as operações simples de mudança e operações lógicas são utilizadas em algumas realizações. A atualização simples de contexto facilita o cálculo do contexto significantemente.
[000608] Em algumas realizações, o contexto é independente do sinal dos valores (por exemplo, os valores espectrais decodificados). Esta independência do contexto a partir do sinal dos valores traz consigo uma complexidade reduzida do contexto variável. Este conceito tem como base a observação que uma negação do sinal no contexto não traz consigo uma degradação severa da eficiência da codificação.
[000609] De acordo com um aspecto da invenção, o contexto é derivado utilizando a soma de dois valores espectrais. Assim, as exigências de memória para armazenamento do contexto são significantemente reduzidas. Assim, o uso de um valor de contexto, que representa a soma de dois valores espectrais, pode ser considerado como vantajoso em alguns casos.
[000610] Ainda, a limitação do contexto traz uma melhoria significativa em alguns casos. Além da derivação do contexto utilizando a soma de dois valores espectrais, as entradas da matriz de contexto “q” são limitadas a um valor máximo de “0xF” em algumas realizações que, por sua vez, resulta em uma limitação das exigências de memória. Esta limitação da matriz dos valores do contexto matriz “q” traz algumas vantagens.
[000611] Em algumas realizações, o chamado “indicador de pequeno valor” é utilizado. Ao obter o contexto variável c (que é também designado como um valor de contexto corrente numérico), um indicador é definido se os valores de algumas entradas “q[1][i-3]” a “q[1][i-1]” forem muito pequenos. Assim, o cálculo do contexto pode ser realizado com alta eficiência. Valores de contexto particularmente significativos (por exemplo, valor de contexto corrente numérico) podem ser obtidos.
[000612] Em algumas realizações, um mecanismo de parada aritmética é utilizado. O mecanismo “ARITH_STOP” permite uma parada eficiente da codificação aritmética ou decodificação se há somente zeros valores deixados. Assim, a eficiência da codificação pode ser melhorada a custos moderados em termos de complexidade.
[000613] De acordo com um aspecto da invenção, um mecanismo de contexto de hashing de duas tabelas é utilizado. O mapeamento do contexto é realizado utilizando um algoritmo de divisão de intervalo que avalia a tabela “ari_hash_m” em combinação com uma avaliação da tabela de consulta subsequente da tabela “ari_lookup_m”. Este algoritmo é mais eficiente que o algoritmo WD3.
[000614] A seguir, alguns detalhes adicionais serão discutidos.
[000615] Deve ser observado aqui que as tabelas “arith_hash_m[742]” e “arith_lookup_m[742]” são duas tabelas distintas . A primeira é utilizada para mapear um único índice de contexto (por exemplo, valor de contexto numérico) no índice do modelo de probabilidade (por exemplo, valor de índice de regra de mapeamento) e a segunda é utilizada para mapear um grupo de contextos consecutivos, delimitados pelos índices de contexto em “arith_hash_m[]”, no único modelo de probabilidade.
[000616] Ainda deve ser observado que a tabela “arith_cf_msb[64][16]” pode ser utilizada como uma alternativa à tabela “ari_cf_m[64][17]”, embora as dimensões sejam levemente diferentes. “ari_cf_m[][]” e “ari_cf_msb[][]” podem se referir à mesma tabela, pois os 17o coeficientes do modelo de probabilidades são sempre zero. Às vezes não é levado em consideração ao contar o espaço necessário para armazenar as tabelas.
[000617] Para resumir o mencionado acima, algumas realizações, de acordo com a invenção, provêm uma nova codificação silenciosa proposta (codificação ou decodificação), que geram modificações no projeto de trabalho USAC MPEG (por exemplo, no projeto de trabalho USAC MPEG 5). As ditas modificações podem ser vistas nas figures anexas e também na descrição relacionada.
[000618] Como um marco de conclusão, deve ser observado que o prefixo “ari” e o prefixo “arith” nos nomes das variáveis, matrizes, funções, e assim por diante, são utilizados de forma permutável.

Claims (1)

1. MÉTODO PARA PROVER UMA INFORMAÇÃO DE ÁUDIO DECODIFICADA (212; 812) com base em uma informação de áudio codificada (210; 810), o método é caracterizado por compreender: prover diversos valores espectrais decodificados (232; 822) com base em uma representação aritmeticamente codificada (222; 821) dos valores espectrais compreendidos na informação de áudio codificada (210; 810); e prover uma representação de áudio de domínio de tempo (262; 812) utilizando os valores espectrais decodificados (232; 822), para obter a informação de áudio decodificada (212; 812); em que prover diversos valores espectrais decodificados compreende selecionar uma regra de mapeamento (297; cum_freq[]) que descreve um mapeamento de um valor de código (value) da representação aritmeticamente codificada dos valores espectrais representando um ou mais dos valores espectrais, ou um plano de bits mais significativo de um ou mais dos valores espectrais, em uma forma codificada, em um código de símbolo (symbol) representando um ou mais dos valores espectrais, ou um plano de bit mais significativo de um ou mais dos valores espectrais, em uma forma decodificada, na dependência de um estado de contexto (s) descrito por um valor de contexto corrente numérico (c); em que o valor de contexto corrente numérico (c) é determinado na dependência dos diversos valores espectrais previamente decodificados; em que uma tabela hash (ari_hash_m[]), cujas entradas define tanto os valores de estado significativo entre os valores de contexto numérico quanto os limites dos intervalos dos valores de estado não significativo entre os valores de contexto numérico, é avaliada para selecionar a regra de mapeamento, em que a tabela hash é avaliada utilizando o algoritmo i = i_min; while ((i_max-i_min)>1) { i = i_min+((i_max-i_min)/2); j = ari_hash_m[i]; if (c<(j>>8)) i_max = i; else if (c>(j>>8)) i_min=i; else return(j&0xFF); } return ari_lookup_m[i_max]; em que c designa uma variável representando o valor de contexto corrente numérico ou uma versão escalada deste; em que i é uma variável que descreve um valor de índice corrente da tabela hash; em que i_min é uma variável que é seletivamente atualizada na dependência de uma comparação entre c e (j >> 8); em que uma condição "c<(j>>8)" define que um valor de estado descrito pela variável c é menor do que um valor de estado descrito pela entrada da tabela ari_hash_m[i]; em que "j&0xFF" descreve um valor do índice da regra de mapeamento descrito pela entrada da tabela ari_hash_m[i]; em que i_max é uma variável inicializada para designar um valor de índice da tabela hash de uma última entrada da tabela hash e seletivamente atualizada na dependência de uma comparação entre c e (j>>8); em que uma condição "c>(j>>8)" define que um valor de estado descrito pela variável c é maior do que um valor de estado descrito pela entrada da tabela ari_hash_m[i]; em que j é uma variável; em que o valor de retorno designa um índice pki de um modelo de probabilidade, e é um valor do índice da regra de mapeamento; em que ari_hash_m designa a tabela hash; em que ari_hash_m[i] designa uma entrada da tabela hash ari_hash_m tendo valor de índice da tabela hash i; em que ari_lookup_m designa uma tabela de mapeamento; em que ari_lookup_m[i_max] designa uma entrada da tabela de mapeamento ari_lookup_m tendo valor do índice da tabela de mapeamento i_max; em que a tabela hash ari_hash_m é definida conforme mostrado nas figuras 22(1), 22(2), 22(3), 22(4); e em que um valor do índice da regra de mapeamento é individualmente associado a um valor de contexto numérico sendo um valor de estado significativo.
BR122021003398-6A 2011-07-20 Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, método de decodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash otimizada BR122021003398A2 (pt)

Publications (1)

Publication Number Publication Date
BR122021003398A2 true BR122021003398A2 (pt) 2023-09-05

Family

ID=

Similar Documents

Publication Publication Date Title
ES2937066T3 (es) Decodificador de audio, procedimiento y programa informático para decodificación de audio
ES2532203T3 (es) Codificador de audio, decodificador de audio, método para codificar y decodificar una información de audio y programa de computación que obtiene un valor de contexto de sub-región basado en una norma de valores espectrales previamente decodificados
RU2605677C2 (ru) Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала
BR122021003398A2 (pt) Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, método de decodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash otimizada
BR122021003390A2 (pt) Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, método de decodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash otimizada