BRPI0617447A2 - codificador de transformada e método de codificação de transformada - Google Patents

codificador de transformada e método de codificação de transformada Download PDF

Info

Publication number
BRPI0617447A2
BRPI0617447A2 BRPI0617447-7A BRPI0617447A BRPI0617447A2 BR PI0617447 A2 BRPI0617447 A2 BR PI0617447A2 BR PI0617447 A BRPI0617447 A BR PI0617447A BR PI0617447 A2 BRPI0617447 A2 BR PI0617447A2
Authority
BR
Brazil
Prior art keywords
section
spectrum
distortion
scaling factor
scaling
Prior art date
Application number
BRPI0617447-7A
Other languages
English (en)
Inventor
Masahiro Oshikiri
Tomofumi Yamanashi
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Publication of BRPI0617447A2 publication Critical patent/BRPI0617447A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CODIFICADOR DE TRANSFORMADA E MéTODO DE CODIFICAçãO DE TRANSFORMADA. Um codificador de transformada que leva a uma redução de degradação de qualidade perceptiva de som mesmo se um número de bits adequado não for atribuído. Os candidatos de um fator de escala de correção armazenados em um livro de código de fator de escala de correção (123) são extraídos um a um, e um sinal de erro é gerado ao se submeter o candidato e os fatores de escala extraidos a partir das seções de computação de fator de escala (121, 122) a uma operação predeterminada. Uma seção de julgamento (126) determina um vetor de peso dado a uma seção de computação de erro ponderado (127), dependendo do sinal do sinal de erro. A seção de computação de erro ponderado (127) computa o quadrado do sinal de erro, multiplica o quadrado do sinal de erro pelo vetor de peso dado a partir da seção de julgamento (126) e computa um erro ao quadrado ponderado E. Uma seção de busca (128) determina os candidatos do fator de escala de correção os quais minimizem o erro ao quadrado ponderado E por um processamento de laço fechado.

Description

Relatório Descritivo da Patente de Invenção para "CODIFICA- DOR DE TRANSFORMADA E MÉTODO DE CODIFICAÇÃO DE TRANS- FORMADA"
Camoo Técnico
A presente invenção se refere a um aparelho de codificação de transformada e a um método de codificação de transformada para a codifi- cação de sinais de entrada no domínio de freqüência.
Técnica Antecedente
É requerido que um sistema de comunicação móvel comprima sinais de fala em taxas de bit baixas para uso efetivo de recursos de rádio. Ainda, um melhoramento na qualidade de fala de comunicação e uma reali- zação de um serviço de comunicação de alta qualidade são demandados. Para adequação a estas demandas, é preferível tornar a qualidade de sinais de fala alta e codificar outros sinais além de sinais de fala, tais como sinais de áudio em bandas mais largas, com alta qualidade. Por esta razão, uma técnica de integração de uma pluralidade de técnicas de codificação em ca- madas é considerada como promissora.
Por exemplo, esta técnica se refere à integração em camadas da primeira camada em que sinais de entrada de acordo com modelos adequa- dos para sinais de fala são codificados a taxas de bit baixas e da segunda camada em que sinais de erro entre sinais de entrada e os sinais decodifica- dos de primeira camada são codificados de acordo com um modelo adequa- do para outros sinais além dos de fala (por exemplo, veja o Documento Não de Patente 1). Aqui, é mostrado um caso em que uma codificação escaloná- vel é realizada usando-se uma técnica padronizada com MPEG-4 (Grupo de Especialistas em Filmes de fase 4). Para se ser mais específico, uma CELP (predição linear excitada por código) adequada para sinais de fala é usada na primeira camada e uma codificação de transformada, tais como AAC (co- dificador de áudio avançado) e TwinVQ (quantificação de vetor de entrela- çamento ponderado de domínio de transformada), é usada na segunda ca- mada, quando da codificação de sinais residuais obtidos pela remoção dos sinais decodificados de primeira camada dos sinais originais. A propósito, a codificação de transformada de TwinVQ se refere a uma técnica para a realização de uma MDCT (Transformada de Co-seno Discreta Modificada) de sinais de entrada e a normalização do coeficiente de MDCT obtido usando-se uma envoltória espectral e uma amplitude média pela escala de Bark (por exemplo, Documento Não de Patente 2). Aqui, os coeficientes de LPC representando a envoltória espectral e o valor de ampli- tude média pela escala de Bark são codificados, cada um, separadamente, e os coeficientes de MDCT normalizados são entrelaçados, divididos em sub- vetores e submetidos a uma quantificação de vetor. Particularmente, a en- voltória espectral e a amplitude média pela escala de Bark são referidas co- mo "fatores de escala" e, se os coeficientes de MDCT normalizados forem referidos como "estrutura fina espectral" (a partir deste ponto, o "espectro fino"), TwinVQ é uma técnica para separação dos coeficientes de MDCT pa- ra os fatores de escala e o espectro fino e a codificação do resultado. Na codificação de transformada, tal como TwinVQ, fatores de escala são usa- dos para controle da energia do espectro fino. Por esta razão, a influência de fatores de escala sobre uma qualidade subjetiva (isto é, uma qualidade per- ceptiva humana) é significativa e, quando uma distorção de codificação de fatores de escala é grande, a qualidade subjetiva é deteriorada grandemen- te. Portanto, uma performance de codificação alta de fatores de escala é importante.
Documento Não de Patente 1: "Everything about MPEG-4" (MPEG-4 no subete), a primeira edição, escrita e editada por Sukeichi MIKI, Kogyo Chosakai Publishing, Inc., 30 de setembro de 1998, páginas 126 a 127.
Documento Não de Patente 2: "Audio Coding Using Transform- Domain Weighted Interleave Vector Quantization (TwinVQ)," escrito por Na- oki IWAKAMI, Takehiro MORIYA, Satoshi MIKI, Kazunaga IKEDA e Akio JIN, The Transactions of the Institute of Electronics, Information and Communica- tion Engineers. A, maio de 1997, vol. J80-A, No. 5, pp. 830-837.
Exposição da Invenção
Problemas a Serem Resolvidos pela Invenção Em TwinVQ, uma informação equivalente a fatores de escala é representada pela envoltória espectral e pela amplitude média pela escala de Bark. Por exemplo, para se concentrar na amplitude média pela escala de Bark, a técnica mostrada no Documento Não de Patente 2 determina um vetor de amplitude média pela escala de Bark que minimize o erro quadrado ponderado d representado pela equação a seguir, pela escala de Bark.
[1]
<formula>formula see original document page 4</formula> (Equação 1)
Aqui, i é o número de escala de Bark, Ei é a i-ésima amplitude média de Bark e Ci(m) é o m-ésimo vetor de amplitude média gravado no livro de código de amplitude média.
Uma função de peso w, representada pela equação 1 acima é a função pela escala de Bark, isto é, a função de freqüência, e quando a esca- la de Bark i é a mesma, o peso w, multiplicado pela (Ei - Ci(m)) entre um fator de escala de entrada e um candidato a quantificação é o mesmo em todos os momentos.
Ainda, Wi é o peso associado à escala de Bark, e é calculado com base no tamanho da envoltória espectral. Por exemplo, o peso para a amplitude média para uma banda de uma envoltória espectral pequena é um valor pequeno, e o peso para a amplitude média com respeito a uma banda de uma envoltória espectral grande é um valor grande. Portanto, o peso para a amplitude média com respeito a uma banda de uma envoltória espectral grande é regulado maior e, como resultado, uma codificação é realizada co- locando-se significância nesta banda. Em contraste com isto, o peso para a amplitude média com respeito a uma banda de uma envoltória espectral pe- quena é regulado mais baixo, e, assim, a significância desta banda é baixa.
Geralmente, a influência de uma banda de uma envoltória es- pectral grande sobre a qualidade de fala é significativa, e, então, é importan- te representar de forma acurada o espectro pertencente a esta banda, de modo a se melhorar a qualidade de fala. Contudo, com a técnica mostrada no Documento Não de Patente 2, se o número de bits alocados para quanti- ficação da amplitude média for diminuído para a realização de taxas de bit mais baixas, o número de bits será insuficiente, o que limita o número de candidatos de vetor de amplitude média C(m). Portanto, mesmo se um vetor de amplitude média satisfazendo à equação 1 acima for determinado, sua distorção de quantificação aumentará e haverá um problema de a qualidade de fala ser deteriorada.
Portanto, é um objetivo da presente invenção prover um apare- lho de codificação de transformada e um método de codificação de transfor- mada que sejam capazes de reduzirem uma deterioração de qualidade de fala, mesmo quando o número de bits atribuídos for insuficiente.
Meios para Resolução do Problema
O aparelho de codificação de transformada de acordo com a presente invenção emprega uma configuração que inclui: uma seção de cál- culo de fator de escala de entrada que calcula uma pluralidade de fatores de escala de entrada associados a um espectro de entrada; um livro de código que armazena uma pluralidade de fatores de escala e extrai um da plurali- dade de fatores de escala; uma seção de cálculo de distorção que calcula uma distorção entre um da pluralidade de fatores de escala de entrada e o fator de escala extraído a partir do livro de código; uma seção de cálculo de distorção ponderada que calcula a distorção ponderada, de modo que a dis- torção de quando um da pluralidade de fatores de escala for menor do que o fator de escala extraído a partir do livro de código seja maior do que o fator de escala extraído a partir do livro de código; e uma seção de busca que busca um fator de escala que minimize a distorção ponderada no livro de código.
Efeito Vantajoso da Invenção
A presente invenção é capaz de reduzir uma deterioração de qualidade de fala perceptiva sob um ambiente de taxa de bit baixa. Breve Descrição dos Desenhos
A FIG. 1 é um diagrama de blocos que mostra a configuração principal de um aparelho de codificação escalonável de acordo com a Moda- lidade 1;
a FIG. 2 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada de acordo com a Modalidade 1;
a FIG. 3 é um diagrama de blocos que mostra a configuração principal dentro de uma seção de codificação de fator de escala de correção de acordo com a Modalidade 1;
a FIG. 4 é um diagrama de blocos que mostra a configuração principal de um aparelho de decodificação escalonável de acordo com a Mo- dalidade 1;
a FIG. 5 é um diagrama de blocos que mostra a configuração principal dentro da seção de decodificação de segunda camada de acordo com a Modalidade 1;
a FIG. 6 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada de acordo com a Modalidade 2;
a FIG. 7 é um diagrama de blocos que mostra a configuração principal dentro da seção de decodificação de segunda camada de acordo com a Modalidade 2;
a FIG. 8 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada de acordo com a Modalidade 3;
a FIG. 9 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação de transformada de acordo com a Mo- dalidade 4;
a FIG. 10 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala de acordo com a Modalidade 4;
a FIG. 11 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação de transformada de acordo com a Modalidade 4;
a FIG. 12 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação escalonável de acordo com a Modalida- de 5;
a FIG. 13 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada de acordo com a Modalidade 5;
a FIG. 14 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala de correção de acordo com a Modalidade 5;
a FIG. 15 é um diagrama de blocos que mostra a configuração principal dentro da seção de decodificação de segunda camada de acordo com a Modalidade 5;
a FIG. 16 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada de acordo com a Modalidade 6;
a FIG. 17 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala de correção de acordo com a Modalidade 6;
a FIG. 18 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação escalonável de acordo com a Modali- dade 7;
a FIG. 19 é um diagrama de blocos que mostra a configuração principal dentro da seção de cálculo de LPC corrigido de acordo com a Mo- dalidade 7;
a FIG. 20 é um diagrama esquemático que mostra uma banda de sinal e uma qualidade de fala de cada camada de acordo com a Modali- dade 7;
a FIG. 21 mostra as características espectrais mostrando como um espectro de potência é corrigido pelo primeiro método de realização de acordo com a Modalidade 7;
a FIG. 22 mostra características espectrais mostrando como um espectro de potência é corrigido pelo segundo método de realização de a- cordo com a Modalidade 7; a FIG. 23 mostra características espectrais de um pós-filtro for- mado usando-se coeficientes de LPC corrigidos de acordo com a Modalida- de 7;
a FIG. 24 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação escalonável de acordo com a Modali- dade 8; e
a FIG. 25 é um diagrama de blocos que mostra a configuração principal dentro da seção de cálculo de informação de redução de acordo com a Modalidade 8.
Melhor Modo para Realização da Invenção
Dois casos são classificados em que a presente invenção é apli- cada a uma codificação escalonável e em que a presente invenção é aplica- da a uma codificação de camada única. Aqui, uma codificação escalonável se refere a um esquema de codificação com uma estrutura de camada for- mada com uma pluralidade de camadas, e tem um recurso que os parâme- tros de codificação gerados em cada camada têm escalonabilidade. Isto é, uma codificação escalonável tem um recurso que os sinais decodificados com um certo nível de qualidade podem ser obtidos a partir dos parâmetros de codificação de parte das camadas (isto é, as camadas inferiores) dentre os parâmetros de codificação de uma pluralidade de camadas e sinais deco- dificados de alta qualidade podem ser obtidos pela realização de uma deco- dificação usando-se mais parâmetros de codificação.
Então, serão descritos casos com as Modalidades 1 a 3 e 5 a 8 em que a presente invenção é aplicada a uma codificação escalonável e se- rá descrito um caso com a Modalidade 4 em que a presente invenção é apli- cada a uma codificação de camada única. Ainda, nas Modalidades 1 a 3 e 5 a 8, serão descritos os casos a seguir como exemplos.
(1) Uma codificação escalonável de uma estrutura de duas ca- madas formada com a primeira camada e a segunda camada, a qual é mais alta do que a primeira camada, isto é, a camada inferior e a camada superi- or, é realizada.
(2) Uma codificação escalonável de banda em que os parâme- tros de codificação têm escalonabilidade no domínio de freqüência é realizada.
(3) Na segunda camada, uma codificação no domínio de fre- qüência, isto é, uma codificação de transformada, é realizada, e uma MDCT (Transformada de Co-seno Discreta Modificada) é usada como o esquema de transformada.
Ainda, serão descritos casos com todas as modalidades como exemplos em que a presente invenção é aplicada a uma codificação de sinal de fala. A partir deste ponto, as modalidades da presente invenção serão descritas com referência aos desenhos anexados.
(Modalidade 1)
A FIG. 1 é um diagrama de blocos que mostra a configuração principal de um aparelho de codificação escalonável que tem um aparelho de codificação de transformada de acordo com a Modalidade 1 da presente invenção.
O aparelho de codificação escalonável de acordo com esta mo- dalidade tem uma seção de redução de amostragem 101, uma seção de co- dificação de primeira camada 102, uma seção de multiplexação 103, uma seção de decodificação de primeira camada 104, uma seção de atraso 105 e uma seção de codificação de segunda camada 106, e estas seções realizam as operações a seguir.
A seção de redução de amostragem 101 gera um sinal de taxa de amostragem F1 (F1 < F2) a partir de um sinal de entrada de taxa de a- mostragem F2, e extrai o sinal para a seção de codificação de primeira ca- mada 102. A seção de codificação de primeira camada 102 codifica o sinal de taxa de amostragem F1 extraído a partir da seção de redução de amos- tragem 101. Os parâmetros de codificação obtidos na seção de codificação de primeira camada 102 são proporcionados para a seção de multiplexação 103 e para a seção de decodificação de primeira camada 104. A seção de decodificação de primeira camada 104 gerenciamento uma sinal decodifica- do de primeira camada a partir dos parâmetros de codificação extraídos a partir da seção de codificação de primeira camada 102. Por outro lado, a seção de atraso 105 proporciona um atraso de uma duração predeterminada para o sinal de entrada. Este atraso é usado para a correção do atraso de tempo que ocorre na seção de redução de a- mostragem 101, na seção de codificação de primeira camada 102 e na se- ção de decodificação de primeira camada 104. Usando o sinal decodificado de primeira camada gerado na seção de decodificação de primeira camada 104, a seção de codificação de segunda camada 106 realiza uma codifica- ção de transformada do sinal de entrada que é atrasado por um tempo pre- determinado e que é extraído a partir da seção de atraso 105, e extrai os parâmetros de codificação gerados para a seção de multiplexação 103.
A seção de multiplexação 103 multiplexa os parâmetros de codi- ficação determinados na seção de codificação de primeira camada 102 e os parâmetros de codificação determinados na seção de codificação de segun- da camada 106, e extrai o resultado como parâmetros de codificação final.
A FIG. 2 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada 106.
A seção de codificação de segunda camada 106 tem as seções de análise de MDCT 111 e 112, a seção de estimativa de espectro de banda alta 113 e a seção de codificação de fator de escala de correção 114, e es- tas seções realizam as operações a seguir.
A seção de análise de MDCT 111 realiza uma análise de MDCT do sinal decodificado de primeira camada, calcula um espectro de banda baixa (isto é, um espectro de banda estreita) de uma banda de sinal (isto é, uma banda de freqüência) de 0 a FL, e extrai o espectro de banda baixa pa- ra a seção de estimativa de espectro de banda alta 113.
A seção de análise de MDCT 112 realiza uma análise de MDCT de um sinal de fala, o qual é o sinal original, calcula um espectro de banda larga de uma banda de sinal de 0 a FH, e extrai um espectro de banda alta incluindo a mesma largura de banda que o espectro de banda estreita e a banda alta FL a FH como a banda de sinal para a seção de estimativa de espectro de banda alta 113 e a seção de codificação de fator de escala de correção 114. Aqui, há uma relação de FL < FH entre a banda de sinal e o espectro de banda estreita e a banda de sinal do espectro de banda larga.
A seção de estimativa de espectro de banda alta 113 estima o espectro de banda alta da banda de sinal FL a FH utilizando um espectro de banda baixa de uma banda de sinal de 0 a FL1 e obtém um espectro estima- do. De acordo com este método de derivação de um espectro estimado, um espectro estimado que maximize a similaridade com o espectro de banda alta é determinado pela modificação do espectro de banda baixa. A seção de estimativa de espectro de banda alta 113 codifica uma informação (isto é, uma informação de estimativa) relacionada a este espectro estimado, extrai o parâmetro de codificação obtido e proporciona o espectro estimado para a seção de codificação de fator de escala de correção 114.
Na descrição a seguir, o espectro estimado extraído a partir da seção de estimativa de espectro de banda alta 113 será referido como o "primeiro espectro" e o espectro de banda alta extraído a partir da seção de análise de MDCT 112 será referido como o "segundo espectro".
Aqui, os vários espectros acima associados a bandas de sinal são representados conforme se segue.
Espectro de banda estreita (espectro de banda baixa)... O a FL
Espectro de banda larga ... O a FH
Primeiro espectro (espectro estimado)... FL a FH
Segundo espectro (espectro de banda alta)... FL a FH
A seção de codificação de fator de escala de correção 114 corri- ge o fator de escala para o primeiro espectro de modo que o fator de escala para o primeiro espectro se torne mais próximo do fator de escala para o segundo espectro, codifica uma informação relacionada a este fator de esca- la de correção e extrai o resultado.
A FIG. 3 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala de correção 114.
A seção de codificação de fator de escala de correção 114 tem as seções de cálculo de fator de escala 121 e 122, o livro de código de fator de escala de correção 123, o multiplicador 124, o subtraidor 125, a seção de decisão 126, a seção de cálculo de erro ponderado 127 e a seção de busca 128, e estas seções realizam as operações a seguir.
A seção de cálculo de fator de escala 121 divide a banda de si- nal FL a FH do segundo espectro introduzido em uma pluralidade de sub- bandas, encontra o tamanho do espectro incluído em cada sub-banda e ex- tral o resultado para o subtraidor 125. Para se ser mais específico, a banda de sinal é dividida em sub-bandas associadas às bandas críticas e é dividida em intervalos regulares de acordo com a escala de Bark. Ainda, a seção de cálculo de fator de escala 121 encontra uma amplitude média do espectro incluído em cada sub-banda e usa isto como um segundo fator de escala SF2(k) {0 < k < NB}. Aqui, NB é o número de sub-bandas. Ainda, o valor de amplitude máxima pode ser usado, ao invés da amplitude média.
A seção de cálculo de fator de escala 122 divide a banda de si- nal FL a FH do primeiro espectro introduzido em uma pluralidade de sub- bandas, calcula o primeiro fator de escala SF1 (k) {0 < k < NB} de cada sub- banda e extrai o primeiro fator de escala para o multiplicador 124. Ainda, de modo similar à seção de cálculo de fator de escala 121, a seção de cálculo de fator de escala 122 pode usar o valor de amplitude máxima, ao invés da amplitude média.
Em um processamento subseqüente, os parâmetros para uma pluralidade de sub-bandas são combinados em um valor de vetor. Por e- xemplo, os NB fatores de escala são representados por um vetor. Então, será descrito um caso como um exemplo em que cada processamento é realizado em uma base por vetor, isto é, um caso em que uma quantificação de vetor é realizada.
O livro de código de fator de escala de correção 123 armazena uma pluralidade de candidatos a fator de escala de correção e extrai um fa- tor de escala de correção dos candidatos a fator de escala de correção ar- mazenados, seqüencialmente, para o multiplicador 124, de acordo com um comando da seção de busca 128. Uma pluralidade de candidatos a fator de escala de correção armazenados no livro de código de fator de escala de correção 123 pode ser representada por vetores.
O multiplicador 124 multiplica o primeiro fator de escala extraído a partir da seção de cálculo de fator de escala 122 pelo candidato a fator de escala de correção extraído a partir do livro de código de fator de escala de correção 123 e proporciona o resultado de multiplicação para o subtraidor 125.
O subtraidor 125 subtrai a saída do multiplicador 124, isto é, o produto do primeiro fator de escala e de um candidato a fator de escala de correção, do segundo fator de escala extraído a partir da seção de cálculo de fator de escala 121, e proporciona o sinal de erro resultante para a seção de cálculo de erro ponderado 127 e a seção de decisão 126.
A seção de decisão 126 determina um vetor de peso proporcio- nado para a seção de cálculo de erro ponderado 127 com base no sinal do sinal de erro dado pelo subtraidor 125. Para se ser mais específico, o sinal de erro d(k) extraído a partir do subtraidor 125 é representado pela equação (2) a seguir.
[2]
<formula>formula see original document page 13</formula> (Equação 2)
Aqui, Vj(k) é o iésimo candidato a fator de escala de correção. A seção de decisão 126 checa o sinal de d(k). Quando o sinal é positivo, a se- ção de decisão 126 seleciona Wpos para o peso. Quando o sinal é negativo, a seção de decisão 126 seleciona wneg para o peso e extrai o vetor de peso w(k) compreendido processamento pesos para a seção de cálculo de erro ponderado 127. Há a relação representada pela equação 3 a seguir entre estes pesos.
[3]
<formula>formula see original document page 13</formula> (Equação3)
Por exemplo, se o número de sub-bandas NB for quatro e o sinal de d(k) for {+, -, -, +}, o vetor de peso w(k) extraído para a seção de cálculo de erro ponderado 127 será representado como w(k) = (Wpos, Wneg, Wneg, Wpos}. Em primeiro lugar, a seção de cálculo de erro ponderado 127 calcula o valor ao quadrado do sinal de erro dado a partir da seção de sub- tração 125, então, calcula o erro ao quadrado ponderado E pela multiplica- ção do valor ao quadrado do sinal de erro pelo vetor de peso w(k) dado a 5 partir da seção de decisão 126, e extrai o resultado de cálculo para a seção de busca 128. Aqui, o erro ao quadrado ponderado E é representado pela equação 4 a seguir.
[4]
NB-1
E = £ W(Jfc) ·d{kf ... (Equação 4)
k=0
A seção de busca 128 controla o livro de código de fator de es- cala de correção 123 para seqüencialmente extrair os candidatos a fator de escala de correção armazenados, e encontra o candidato a fator de escala de correção que minimiza o erro ao quadrado ponderado E extraído a partir da seção de cálculo de erro ponderado 127 no processamento de laço fe- chado. A seção de busca 128 extrai o índice iopt do candidato a fator de es- cala de correção determinado como um parâmetro de codificação.
Conforme descrito acima, o peso para cálculo do erro ao qua- drado ponderado de acordo com o sinal do sinal de erro é regulado, e, quando o peso tiver a relação representada pela equação 2, o efeito a seguir pode ser adquirido. Isto é, um caso em que um sinal de erro d(k) é positivo significa que um valor de decodificação (isto é, um valor obtido pela multipli- cação do primeiro fator de escala por um candidato a fator de escala de cor- reção no lado de codificação) que é menor do que o segundo fator de esca- la, o qual é o valor alvo, é gerado no lado de decodificação. Ainda, um caso em que um sinal de erro d(k) é negativo significa que o valor de decodifica- ção que é maior do que o segundo fator de escala, o qual é o valor alvo, é gerado no lado de decodificação. Conseqüentemente, pela regulagem do peso para quando o sinal de erro d(k) é positivo menor do que o peso para quando o sinal de erro d(k) é negativo, quando o erro ao quadro é substan- cialmente o mesmo valor, um candidato a fator de escala de correção que produz um valor de decodificação menor do que o segundo fator de escala tem maior probabilidade de ser selecionado.
Por meio disto, é possível obter o melhoramento a seguir. Por exemplo, conforme nesta modalidade, se um espectro de banda alta for es- timado utilizando-se um espectro de banda baixa, geralmente será possível realizar taxas de bit mais baixas. Contudo, embora seja possível realizar ta- xas de bit mais baixas, a acurácia do espectro estimado, isto é, a similarida- de entre o espectro estimado e o espectro de banda alta, não é alta o bas- tante, conforme descrito acima. Neste caso, se o valor de decodificação de um fator de escala se tornar maior do que o valor alvo e o fator de escala quantificado trabalhar em direção a uma ênfase do espectro estimado, a di- minuição na acurácia do espectro estimado se tornará mais perceptível para ouvidos humanos como uma deterioração de qualidade. Em contraste com isto, se o valor de decodificação de um fator de escala se tornar menor do que o valor alvo e o fator de escala quantificado trabalhar em direção a uma atenuação deste espectro estimado, a diminuição na acurácia do espectro estimado se tornará menos distinta, de modo que seja possível adquirir o efeito de melhoria da qualidade de som de sinais decodificados. Ainda, esta tendência pode ser confirmada em uma simulação em computador também.
Em seguida, o aparelho de decodificação escalonável de acordo com esta modalidade suportando o aparelho de codificação escalonável a- cima será descrito. A FIG. 4 é um diagrama de blocos que mostra a configu- ração principal deste aparelho de decodificação escalonável.
A seção de demultiplexação 151 separa um fluxo de bit de en- trada representando um parâmetro de codificação e gera parâmetros de co- dificação para a seção de decodificação de primeira camada 152 e parâme- tros de codificação para a segunda seção de decodificação 153.
A seção de decodificação de primeira camada 152 decodifica um sinal decodificado de uma banda de sinal de 0 a FL usando-se os parâme- tros de codificação obtidos na seção de demultiplexação 151 e extrai este sinal decodificado. Ainda, a seção de decodificação de primeira camada 152 proporciona o sinal decodificado obtido para a segunda seção de decodifica- ção de segunda camada 153.
Os parâmetros de codificação separados na seção de demulti- plexação 151 e o sinal decodificado de primeira camada da seção de decodi- ficação de primeira camada 152 são enviados para a seção de decodificação de segunda camada 153. A seção de decodificação de segunda camada 153 decodifica e converte o espectro em um sinal de domínio de tempo, e gera e extrai um sinal decodificado de banda larga de uma banda de sinal de O a FH.
A FIG. 5 é um diagrama de blocos que mostra a configuração principal dentro da seção de decodificação de segunda camada 153. Ainda, a seção de decodificação de segunda camada 153 é um componente que suporta a seção de codificação de segunda camada 106 no aparelho de co- dificação de transformada de acordo com esta modalidade.
A seção de análise de MDCT 161 realiza uma análise de MDCT do sinal decodificado de primeira camada, calcula o primeiro espectro da banda de sinal de 0 a FL, e então extrai o primeiro espectro para a seção de decodificação de espectro de banda alta 162.
A seção de decodificação de espectro de banda alta 162 decodi- fica um espectro estimado (isto é, um espectro fino) de uma banda de sinal de FL a FH usando parâmetros de codificação (isto é, uma informação de estimativa) transmitidos a partir do aparelho de codificação de transformada de acordo com esta modalidade e o primeiro espectro. O espectro estimado obtido é proporcionado para o multiplicador 164.
A seção de decodificação de fator de escala de correção 163 decodifica um fator de escala de correção usando um parâmetro de codifica- ção (isto é, um fator de escala de correção) transmitido a partir do aparelho de codificação de transformada de acordo com esta modalidade. Para se ser mais específico, a seção de decodificação de fator de escala de correção 163 se refere a um livro de código de fator de escala de correção embutido (não mostrado) e extrai um fator de escala de correção aplicável para o mul- tiplicador 164.
O multiplicador 164 multiplica o espectro estimado extraído a partir da seção de decodificação de espectro de banda alta 162 pelo fator de escala de correção extraído a partir da seção de decodificação de fator de escala de correção 163, e extrai o resultado de multiplicação para a seção de conexão 165.
A seção de conexão 165 conecta no domínio de freqüência o primeiro espectro com o agente de pesquisa extraído a partir do multiplica- dor 164, gera um espectro decodificado de banda larga de uma banda de sinal de O a FH e extrai o espectro decodificado de banda larga para a seção de transformação de domínio de tempo 166.
A seção de transformação de domínio de tempo 166 realiza um processamento de MDCT inversa do espectro decodificado extraído a partir da seção de conexão 165, multiplica o sinal decodificado por uma função de janela adequada e, então, adiciona os domínios correspondentes do sinal decodificado e do sinal do quadro prévio após uma criação de janela, e gera e extrai um sinal decodificado de segunda camada.
Conforme descrito acima, de acordo com esta modalidade, na codificação de domínio de freqüência de uma camada alta, quando fatores de escala são quantificados pela conversão de um sinal de entrada para co- eficientes de domínio de freqüência, os fatores de escala são quantificados usando-se medidas de distorção ponderadas que fazem com que candidatos a quantificação que diminuam os fatores de escala sejam selecionados mais provavelmente. Isto é, o candidato a quantificação que torne fatores de esca- la após uma quantificação menores do que os fatores de escala antes de uma quantificação têm maior probabilidade de serem selecionados. Portan- to, quando o número de bits alocados à quantificação de fatores de escala é insuficiente, é possível reduzir a deterioração da qualidade subjetiva.
Ainda, de acordo com a técnica mostrada no Documento Não de Patente 2, se uma escala de Bark i for a mesma, a função de peso Wi repre- sentada pela equação 1 acima será a mesma em todos os momentos. Con- tudo, de acordo com esta modalidade, mesmo se a escala de Bark i for a mesma, o peso multiplicado pela diferença (Ei - Ci(m)) entre um sinal de en- trada e um candidato a quantificação é mudado de acordo com a diferença. Isto é, o peso é regulado de modo que um candidato a quantificação Ci(m), o qual torne Ej - Ci(m) positivo, tenha maior probabilidade de ser selecionado do que um candidato a quantificação Ci(m), o qual torne Ei - Ci(m) negativo. Em outras palavras, o peso é regulado de modo que os fatores de escala quantificados sejam menores do que os fatores de escala originais.
Ainda, embora tenha sido descrito um caso com esta modalida- de em que uma quantificação de vetor é usada, um processamento pode ser realizado separadamente por sub-banda ao invés de se realizar uma quanti- ficação de vetor, isto é, ao invés de se realizar um processamento por vetor.
Neste caso, por exemplo, os candidatos a fator de escala de correção incluí- dos no livro de código de fator de escala de correção são representados por escalares. (Modalidade 2)
A configuração básica do aparelho de codificação escalonável que tem o aparelho de codificação de transformada de acordo com a Moda- lidade 2 da presente invenção é a mesma que na Modalidade 1. Por esta razão, uma repetição de descrição será omitida aqui, e a seção de codifica- ção de segunda camada 206, a qual tem uma configuração diferente da Mo- dalidade 1 será descrita abaixo.
A FIG. 6 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de segunda camada 206. A seção de codificação de segunda camada 206 tem a mesma configuração básica que a seção de codificação de segunda camada 106 descrita na Modalidade 1 e, assim, aos mesmos componentes serão atribuídos os mesmos números de referência e uma repetição de descrição será omitida. Ainda, a operação básica é a mesma, mas a componentes tendo diferenças nos detalhes serão atribuídos os mesmos números de referência com letras de alfabeto minús- culas e serão descritos conforme apropriado. Mais ainda, quando outros componentes forem descritos, a mesma representação será empregada. 30 A seção de codificação de segunda camada 206 ainda tem a
seção de cálculo de máscara perceptiva 211 e a seção de determinação de alocação de bit 212, e a seção de codificação de fator de escala de correção 114a codifica os fatores de escala de correção com base na alocação de bit determinada na seção de determinação de alocação de bit 212.
Para se ser mais específico, a seção de cálculo de máscara per- ceptiva 211 analisa um sinal de entrada, calcula um valor de máscara per- ceptiva mostrando um valor permitido de distorção quantificada e extrai este valor para a seção de determinação de alocação de bit 212.
A seção de alocação de bit 212 determina para quais sub- bandas os bits são alocados até que extensão, com base no valor de másca- ra perceptiva calculado na seção de cálculo de máscara perceptiva 211, e extrai esta informação de alocação de bit para o lado externo e para a seção de codificação de fator de escala de correção 114a.
A seção de codificação de fator de escala de correção 114a quantifica um candidato a fator de escala de correção usando o número de bits determinado com base na informação de alocação de bit extraída a par- tir da seção de determinação de alocação de bit 212, e extrai seu índice co- mo um parâmetro de codificação, e regula a magnitude de peso para a sub- banda, com base no número de bits quantificados do fator de escala de cor- reção. Para se ser mais específico, a seção de codificação de fator de esca- la de correção 114a regula a magnitude de peso para aumento da diferença entre dois pesos para o fator de escala de correção para uma sub-banda com um número pequeno de bits de quantificação, isto é, a diferença entre o peso Wpos para quando o sinal de erro d(k) é positivo e o peso wneg para quando o sinal de erro d(k) é negativo. Por outro lado, para os dois pesos acima para uma sub-banda com um número grande de bits de quantificação, a seção de codificação de fator de escala de correção 114a regula a magni- tude do peso para diminuição da diferença entre estes dois pesos.
Pelo emprego da configuração acima, o candidato a quantifica- ção o qual torna os fatores de escala após uma quantificação menores do que os fatores de escala antes da quantificação têm maior probabilidade de serem selecionados para o fator de escala de correção para as sub-bandas com um número menor de bits de quantificação, de modo que seja possível reduzir a deterioração de qualidade perceptiva. Em seguida, o aparelho de decodificação escalonável de acordo com esta modalidade será descrito. Contudo, o aparelho de decodificação escalonável de acordo com esta modalidade tem a mesma configuração bá- sica que o aparelho de codificação escalonável descrito na Modalidade 1, e, então, a seção de decodificação de segunda camada 253, a qual tem uma configuração diferente da Modalidade 1, será descrita mais tarde.
A FIG. 7 é um diagrama de blocos que mostra a configuração principal dentro da seção de decodificação de segunda camada 253.
A seção de decodificação de alocação de bit 261 decodifica o número de bits de cada sub-banda usando parâmetros de codificação (isto é, uma informação de alocação de bit) transmitida a partir do aparelho de codificação escalonável de acordo com esta modalidade, e extrai o número de bits obtido para a seção de decodificação de fator de escala de correção 163a.
A seção de decodificação de fator de escala de correção 163a decodifica um fator de escala de correção usando o número de bits de cada sub-banda e os parâmetros de codificação (isto é, os fatores de escala de correções) e extrai o fator de escala de correção obtido para o multiplicador 164. Os outros processamentos são os mesmos que na Modalidade 1.
Desta forma, de acordo com esta modalidade, o peso é mudado de acordo com o número de bits quantificados alocados para o fator de es- cala para cada banda. Esta mudança de peso é realizada de modo que quando o número de bits alocados à sub-banda é pequeno, a diferença entre o peso Wpos para quando o sinal de erro d(k) for positivo e o peso wneg para quando o sinal de erro d(k) for negativo aumente.
Pelo emprego da configuração acima, o candidato a quantifica- ção o qual torna os fatores de escala menores após uma quantificação do que os fatores de escala antes de uma quantificação têm maior probabilida- de de serem selecionados para os fatores de escala com um número pe- queno de bits de quantificação, de modo que seja possível reduzir uma dete- rioração de qualidade perceptiva produzida na banda. (Modalidade 3) A configuração básica do aparelho de codificação escalonável que tem o aparelho de codificação de transformada de acordo com a Moda- lidade 3 da presente invenção é a mesma que na Modalidade 1. Por esta razão, uma repetição de descrição será omitida e a seção de codificação de segunda camada 306 que tem uma configuração diferente da Modalidade 1 será descrita.
A operação básica da seção de codificação de segunda camada 306 é similar à operação da seção de codificação de segunda camada 206 descrita na Modalidade 2 e difere no uso da similaridade, descrita mais tar- de, ao invés de uma informação de alocação de bit usada na Modalidade 2. A FIG. 8 é um diagrama de blocos que mostra a configuração principal den- tro da seção de codificação de segunda camada 306.
A seção de cálculo de similaridade 311 calcula a similaridade entre um segundo espectro de uma banda de sinal de FL a FH, isto é, o es- pectro do sinal original e um espectro estimado de uma banda de sinal de FL a FH, e extrai a similaridade obtida para a seção de codificação de fator de escala de correção 114b. Aqui, a similaridade é definida, por exemplo, pela SNR (relação de sinal para ruído) do espectro estimado para o segundo es- pectro.
A seção de codificação de fator de escala de correção 114b quantifica um candidato a fator de escala de correção com base na similari- dade extraída a partir da seção de cálculo de similaridade 311, extrai seu índice como um parâmetro de codificação, e regula a magnitude do peso da sub-banda com base na similaridade da sub-banda. Para se ser mais espe- cífico, a seção de codificação de fator de escala de correção 114b regula a magnitude do peso para aumentar a diferença entre os dois pesos para o fator de escala de correção para as sub-bandas com uma similaridade baixa, isto é, a diferença entre o peso Wpos para quando o sinal de erro d(k) é posi- tivo e o peso para quando o sinal de erro d(k) é negativo. Por outro lado, pa- ra os dois pesos acima para o fator de escala de correção para sub-bandas com uma similaridade alta, a seção de codificação de fator de escala de cor- reção 114b regula a magnitude do peso para diminuição da diferença entre estes dois pesos.
As configurações básicas do aparelho de decodificação escalo- nável e do aparelho de decodificação de transformada de acordo com esta modalidade são as mesmas que na Modalidade 1 e, então, uma repetição de descrição será omitida.
Desta forma, de acordo com esta modalidade, o peso é mudado de acordo com a acurácia (por exemplo, a similaridade e a SNR) do formato do espectro estimado de cada banda com respeito ao espectro do sinal ori- ginal. Esta mudança de peso é realizada de modo que quando a similaridade da sub-banda é pequena, a diferença entre o peso wpos para quando o sinal de erro d(k) é positivo e o peso para quando o sinal de erro d(k) é negativo aumente.
Pelo emprego da configuração acima, o candidato a quantifica- ção o qual torna os fatores de escala após uma quantificação menores do que os fatores de escala antes de uma quantificação têm maior probabilida- de de serem selecionados para os fatores de escala suportando as sub- bandas com uma SNR baixa do espectro estimado, de modo que seja possí- vel reduzir a deterioração de qualidade perceptiva produzida na banda.
(Modalidade 4)
Foram descritos casos com as Modalidades 1 a 3 como exem- plos em que uma entrada das seções de codificação de fator de escala de correção 114, 114a e 114b é de dois espectros de características diferentes, o primeiro espectro e o segundo espectro. Contudo, de acordo com a pre- sente invenção, uma entrada de seções de codificação de fator de escala de correção 114, 114a e 114b pode ser um espectro. A modalidade deste caso será descrita abaixo.
De acordo com a Modalidade 4 da presente invenção, a presen- te invenção é aplicada a um caso em que o número de camadas é um, isto é, um caso em que uma codificação escalonável não é realizada.
A FIG. 9 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação de transformada de acordo com esta modalidade. Ainda, será descrito um caso aqui como um exemplo em que uma MDCT é usada como o esquema de transformada.
O aparelho de codificação de transformada de acordo com esta modalidade tem uma seção de análise de MDCT 401, uma seção de codifi- cação de fator de escala 402, uma seção de codificação de espectro fino 403 e uma seção de multiplexação 404, e estas seções realizam as opera- ções a seguir.
A seção de análise de MDCT 401 realiza uma análise de MDCT de um sinal de fala, o qual é o sinal original, e extrai o espectro obtido para a seção de codificação de fator de escala 402 e a seção de codificação de es- pectro fino 403.
A seção de codificação de fator de escala 402 divide a banda de sinal do espectro determinada na seção de análise de MDCT 401 em uma pluralidade de sub-bandas, calcula o fator de escala para cada sub-banda e quantifica estes fatores de escala. Os detalhes desta quantificação serão descritos mais tarde. A seção de codificação de fator de escala 402 extrai parâmetros de codificação (isto é, um fator de escala) obtidos pela quantifi- cação para a seção de multiplexação 404 e extrai o fator de escala decodifi- cado como ele estiver para a seção de codificação de espectro fino 403.
A seção de codificação de espectro fino 403 normaliza o espec- tro dado a partir da seção de análise de MDCT 401 usando o fator de escala decodificado extraído a partir da seção de codificação de fator de escala 402 e codifica o espectro normalizado. A seção de codificação de espectro fino 403 extrai os parâmetros de codificação obtidos (isto é, o espectro fino) para a seção de multiplexação 404.
A FIG. 10 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala 402. Ainda, esta seção de codificação de fator de escala 402 tem a mesma configuração bá- sica que a seção de codificação de fator de escala 114 descrita na Modali- dade 1 e, assim, aos mesmos componentes serão atribuídos os mesmos números de referência e uma repetição de descrição será omitida.
Embora na Modalidade 1 o multiplicador 124 multiplique o fator de escala SF1 (k) para o primeiro espectro pelo candidato a fator de escala de correção Vi (k) e o subtraidor 125 encontre um sinal de erro d(k), esta modalidade difere na extração do candidato a fator de escala Xj (k) direta- mente para o subtraidor 125 e encontrando-se o sinal de erro d(k). Isto é, nesta modalidade, a equação 2 descrita na Modalidade 1 é representada conforme se segue.
[5]
d(k) = SF2(k)-Xi(Ic) (0 < k < NB)... (Equação 5)
A FIG. 11 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação de transformada de acordo com esta modalidade.
A seção de demultiplexação 451 separa um fluxo de bit de en- trada representando parâmetros de codificação e gera parâmetros de codifi- cação (isto é, um fator de escala) para a seção de decodificação de fator de escala 452 e parâmetros de codificação (isto é, um espectro fino) para a se- ção de decodificação de espectro fino 453.
A seção de decodificação de fator de escala 452 decodifica o fator de escala usando os parâmetros de codificação (isto é, o fator de esca- la) obtidos na seção de demultiplexação 451 e extrai o fator de escala para o multiplicador 454.
A seção de decodificação de espectro fino 453 decodifica o es- pectro fino usando os parâmetros de codificação (isto é, o espectro fino) ob- tidos na seção de demultiplexação 451 e extrai o espectro fino para o multi- plicador 454.
O multiplicador 454 multiplica o espectro fino extraído a partir da seção de decodificação de espectro fino 453 pelo fator de escala extraído a partir da seção de decodificação de fator de escala 452 e gera um espectro decodificado. Este espectro decodificado é extraído para a seção de trans- formação de domínio de tempo 455.
A seção de transformação de domínio de tempo 455 realiza uma conversão de domínio de tempo do espectro decodificado extraído a partir do multiplicador 454 e extrai o sinal de domínio de tempo obtido como o sinal decodificado final.
Desta forma, de acordo com esta modalidade, a presente inven- ção pode ser aplicada a uma codificação de camada única.
Ainda, a seção de codificação de fator de escala 402 pode ter uma configuração para atenuação de antemão de fatores de escala para o espectro dado a partir da seção de análise de MDCT 401, de acordo com índices, tais como a informação de alocação de bit descrita na Modalidade 2 e a similaridade descrita na Modalidade 3, e então para realização de uma quantificação de acordo com uma medida de distorção normal sem pondera- ção. Por meio disto, é possível uma deterioração da qualidade de fala sob um ambiente de taxa de bit baixa.
(Modalidade 5)
A FIG. 12 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação escalonável que tem o aparelho de codi- ficação de transformada de acordo com a Modalidade 5 da presente inven- ção.
O aparelho de codificação escalonável de acordo com a Modali- dade 5 da presente invenção é formado principalmente com a seção de re- dução de amostragem 501, a seção de codificação de primeira camada 502, a seção de multiplexação 503, a seção de decodificação de primeira camada 504, a seção de aumento de amostragem 505, a seção de atraso 507, a se- ção de decodificação de segunda camada 508 e a seção de análise de ruído de fundo 506.
A seção de redução de amostragem 501 gera um sinal de taxa de amostragem F1 (F1 < F2) a partir de um sinal de entrada de taxa de a- mostragem F2, e proporciona o sinal para a seção de codificação de primei- ra camada 502. A seção de codificação de primeira camada 502 codifica o sinal de taxa de amostragem F1 extraído a partir da seção de redução de amostragem 501. Os parâmetros de codificação obtidos na seção de codifi- cação de primeira camada 502 são proporcionados para a seção de multi- plexação 503 e para a seção de decodificação de primeira camada 504. A seção de decodificação de primeira camada 504 gera um sinal decodificado de primeira camada a partir dos parâmetros de codificação extraídos a partir da seção de codificação de primeira camada 502 e extrai este sinal para a seção de análise de ruído de fundo 506 e a seção de aumento de amostra- gem 505. A seção de aumento de amostragem 505 modifica a amostragem da taxa de amostragem para o sinal decodificado de primeira camada de F1 para F2 e extrai o sinal decodificado de primeira camada da taxa de amos- tragem F2 para a seção de decodificação de segunda camada 508.
A seção de análise de ruído de fundo 506 recebe o sinal decodi- ficado de primeira camada e decide se o sinal contém ou não um ruído de fundo. Se a seção de análise de ruído de fundo 506 decidide que o ruído de fundo está contido nos sinais decodificados de primeira camada, a seção de análise de ruído de fundo 506 analisará as características de freqüência de ruído de fundo pela realização, por exemplo, de um processamento de MDCT do ruído de fundo e extrairá as características de freqüência analisa- das como uma informação de ruído de fundo para a seção de decodificação de segunda camada 508. Por outro lado, se a seção de análise de ruído de fundo 506 decidide que um ruído de fundo não está contido no sinal decodi- ficado de primeira camada, a seção de análise de ruído de fundo 506 extrai- rá uma informação de ruído de fundo mostrando que o ruído de fundo não está contido no sinal decodificado de primeira camada para a seção de de- codificação de segunda camada 508. Ainda, como um método de decodifi- cação de ruído de fundo, esta modalidade pode empregar um método de análise de sinais de entrada de um certo período, calculando o valor de po- tência máximo e o valor de potência mínimo dos sinais de entrada e usando o valor de potência mínimo como ruído, quando a relação do valor de potên- cia máximo para o valor mínimo ou a diferença entre o valor de potência má- ximo e o valor de potência mínimo for igual a ou maior do que um limite, bem como outros métodos de detecção de ruído de fundo gerais.
A seção de atraso 507 adiciona um atraso de uma duração pre- determinada ao sinal de entrada. Este atraso é usado para correção do atra- so de tempo que ocorre na seção de redução de amostragem 501, na seção de codificação de primeira camada 502 e na seção de decodificação de pri- meira camada 504.
A seção de decodificação de segunda camada 508 realiza uma codificação de transformada do sinal de entrada que é atrasado por um tem- po predeterminado e que é extraído a partir da seção de atraso 507, usando o sinal decodificado de primeira camada com amostragem aumentada obtido a partir da seção de aumento de amostragem 505 e uma informação de fun- do obtida a partir da seção de análise de ruído de fundo 506, e extrai os pa- râmetros de codificação gerados para a seção de multiplexação 503.
A seção de multiplexação 503 multiplexa os parâmetros de codi- ficação determinados na seção de codificação de primeira camada 502 e os parâmetros de codificação determinados na seção de decodificação de se- gunda camada 508 e extrai o resultado como os parâmetros de codificação definitivos.
A FIG. 13 é um diagrama de blocos que mostra a configuração principal dentro da seção de decodificação de segunda camada 508. A se- ção de decodificação de segunda camada 508 tem seções de análise de MDCT 511 e 512, uma seção de estimativa de espectro de banda alta 513 e uma seção de codificação de fator de escala de correção 514, e estas se- ções realizam as operações a seguir.
A seção de análise de MDCT 511 realiza uma análise de MDCT dos sinais decodificados de primeira camada, calcula um espectro de banda baixa (isto é, um espectro de banda estreita) de uma banda de sinal (isto é, uma banda de freqüência) de 0 a FL e extrai o espectro de banda baixa para a seção de estimativa de espectro de banda alta 513.
A seção de análise de MDCT 512 realiza uma análise de MDCT de um sinal de fala, o qual é o sinal original, calcula um espectro de banda larga de uma banda de sinal de 0 a FH e extrai um espectro de banda alta incluindo a mesma largura de banda que o espectro de banda estreita e a banda alta FL a FH como a banda de sinal para a seção de estimativa de espectro de banda alta 513 e a seção de codificação de fator de escala de correção 514. Aqui, há uma relação de FL < FH entre a banda de sinal do espectro de banda estreita e a banda de sinal do espectro de banda larga. A seção de estimativa de espectro de banda alta 513 estima o espectro de banda alta da banda de sinal de FL a FH utilizando um espectro de banda baixa de uma banda de sinal de 0 a FL, e obtém um espectro es- timado. De acordo com este método de derivação de um espectro estimado, um espectro estimado que maximize a similaridade com o espectro de ban- da alta é determinado pela modificação do espectro de banda baixa. A seção de estimativa de espectro de banda alta 513 codifica uma informação (isto é, uma informação de estimativa) relacionada ao espectro estimado, e extrai os parâmetros de codificação obtidos.
Na descrição a seguir, o espectro estimado extraído a partir da seção de estimativa de espectro de banda alta 513 será referido como o "primeiro espectro", e o espectro de banda alta extraído a partir da seção de análise de MDCT 512 será referido como o "segundo espectro".
Aqui, os vários espectros acima associados a bandas de sinal são representados conforme se segue.
Espectro de banda estreita (espectro de banda baixa)... 0 a FL
Espectro de banda larga ... 0 a FH
Primeiro espectro (espectro estimado)... FL a FH
Segundo espectro (espectro de banda alta)... FL a FH
A seção de codificação de fator de escala de correção 514 codi- fica e extrai uma informação relacionada ao fator de escala para o segundo espectro usando uma informação de ruído de fundo.
A FIG. 14 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala de correção 514. A seção de codificação de fator de escala de correção 514 tem uma seção de cálculo de fator de escala 521, um livro de código de fator de escala de correção 522, um subtraidor 523, uma seção de decisão 524, uma seção de cálculo de erro ponderado 525 e uma seção de busca 526, e estas seções realizam as operações a seguir.
A seção de cálculo de fator de escala 521 divide a banda de si- nal de FL a FH do segundo espectro introduzido em uma pluralidade de sub- bandas, encontra o tamanho do espectro incluído em cada sub-banda e ex- trai o resultado para o subtraidor 523. Para se ser mais específico, a banda de sinal é dividida nas sub-bandas associadas às bandas críticas e é dividi- da em intervalos regulares de acordo com a escala de Bark. Ainda, a seção de cálculo de fator de escala 521 encontra uma amplitude média do espectro incluído em cada sub-banda e usa isto como um segundo fator de escala SF2(k) {0 < k < NB}. Aqui, NB é o número de sub-bandas. Ainda, o valor de amplitude máxima pode ser usado, ao invés da amplitude média.
Em um processamento subseqüente, os parâmetros para uma pluralidade de sub-bandas são combinados em um valor de vetor. Por e- xemplo, os NB fatores de escala são representados por um vetor. Então, será descrito um caso como um exemplo em que cada processamento é realizado em uma base por vetor, isto é, um caso em que uma quantificação de vetor é realizada.
O livro de código de fator de escala de correção 522 armazena de antemão uma pluralidade de candidatos a fator de escala de correção e extrai um fator de escala de correção a partir dos candidatos a fator de esca- la de correção armazenados, seqüencialmente, para o subtraidor 523, de acordo com um comando da seção de busca 526. Uma pluralidade de can- didatos a fator de escala de correção armazenados no livro de código de fator de escala de correção 522 pode ser representada por vetores.
O subtraidor 523 subtrai o candidato a fator de escala de corre- ção, o qual é a saída do fator de escala de correção, a partir do segundo fator de escala extraído a partir da seção de cálculo de fator de escala 521, e extrai o sinal de erro resultante para a seção de cálculo de erro ponderado 525 e a seção de decisão 524.
A seção de decisão 524 determina um vetor de peso proporcio- nado para a seção de cálculo de erro ponderado 525 com base no sinal do sinal de erro dado a partir do subtraidor e da informação de ruído de fundo.
A partir deste ponto, os fluxos de processamentos detalhados na seção de decisão 524 serão descritos.
A seção de decisão 524 analisa uma informação de ruído de fundo introduzida. Ainda, a seção de decisão 524 inclui um indicador de rui- do de fundo BNF (k) {0 < k < NB}, onde o número de elementos eqüivale ao número de sub-bandas NB. Quando uma informação de ruído de fundo mos- tra que o sinal de entrada (isto é, o primeiro sinal decodificado) não contém um ruído de fundo, a seção de decisão 524 regula todos os valores de indi- cador de ruído de fundo BNF (k) para zero. Ainda, quando a informação de ruído de fundo mostra que o sinal de entrada (isto é, o primeiro sinal decodi- ficado) contém um ruído de fundo, a seção de decisão 524 analisa as carac- terísticas de freqüência de ruído de fundo mostradas na informação de ruído de fundo e converte as características de freqüência de ruído de fundo em características de freqüência de cada sub-banda. Ainda, para facilidade de descrição, a informação de ruído de fundo é assumida como mostrando o valor de potência médio de cada sub-banda. A seção de decisão 524 com- para o valor de potência médio SP (k) do espectro de cada sub-banda com um limite ST (k) de cada sub-banda regulado dentro de antemão e, quando SP (k) é ST (k) ou maior, o valor do indicador de ruído de fundo BNF (k) da sub-banda aplicável será regulado para um.
Aqui, o sinal de erro d(k) dado a partir do subtraidor é represen- tado pela equação 6 a seguir.
{6]
d(k) = SF2(k) - vf(Jt) (0 < k < NB)... (Equação 6)
Aqui, Vi (k) é o i-ésimo candidato a fator de escala de correção.
Se o sinal de d(k) for positivo, a seção de decisão 524 selecionará Wpos para o peso. Ainda, se o sinal de d(k) for negativo e o valor de BNF (k) for um, a seção de decisão 524 selecionará wpos para o peso. Ainda, se o sinal de d(k) for negativo e o valor de indicador de ruído de fundo BNF (k) for zero, a se- ção de decisão 524 selecionará wneg para o peso. Em seguida, a seção de decisão 524 extrai o vetor de peso w(k) compreendido pelos pesos para a seção de cálculo de erro ponderado 525. Há a relação representada pela equação 7 a seguir entre estes pesos.
[7]
0< Wpoi < wnes ... (Equação 7) Por exemplo, se o número de sub-bandas NB for quatro, o sinal de d(k) for {+, -, -, +} e o indicador de ruído de fundo BNF (k) for {0, 0,1,1}, o vetor de peso w(k) extraído para a seção de cálculo de erro ponderado 525 será representado como w(k) = (Wpos, wneg, Wp0s, WpoS}.
Em primeiro lugar, a seção de cálculo de erro ponderado 525 calcula o valor ao quadrado do sinal de erro dado a partir do subtraidor 523, então calcula o erro ao quadrado ponderado E pela multiplicação dos valo- res ao quadrado do sinal de erro pelo vetor de peso w(k) dado a partir da seção de decisão 524 e extrai o resultado de cálculo para a seção de busca 526. Aqui, o erro ao quadrado ponderado E é representado pela equação 8 a seguir.
[8]
<formula>formula see original document page 31</formula>
A seção de busca 526 controla o livro de código de fator de es- cala de correção 522 para seqüencialmente extrair os candidatos a fator de escala de correção armazenados, e encontra o candidato a fator de escala de correção que minimiza o erro ao quadrado ponderado E extraído a partir da seção de cálculo de erro ponderado 525 em um processamento de laço fechado. A seção de busca 526 extrai o índice iopt do candidato a fator de escala de correção determinado como o parâmetro de codificação.
Conforme descrito acima, o peso para cálculo do erro ao qua- drado ponderado de acordo com o sinal do sinal de erro é regulado e, quan- do o peso tem a relação representada pela equação 7, o efeito a seguir pode ser adquirido. Isto é, um caso em que um sinal de erro d(k) é positivo signifi- ca que um valor de decodificação (isto é, o valor obtido pela normalização do primeiro fator de escala e multiplicação do valor normalizado por um candi- dato a fator de escala de correção no lado de codificação) que é menor do que o segundo fator de escala, o qual é o valor alvo, é gerado no lado de decodificação. Ainda, um caso em que um sinal de erro d(k) é negativo signi- fica que o valor de decodificação que é maior do que o segundo fator de es- cala, o qual é o valor alvo, é gerado no lado de decodificação. Conseqüen- temente, pela regulagem do peso para quando o sinal de erro d(k) é positivo menor do que o peso para quando o sinal de erro d(k) é negativo, quando o erro ao quadrado é substancialmente o mesmo valor, um candidato a fator de escala de correção que produza um valor de decodificação menor do que o segundo fator de escala tem maior probabilidade de ser selecionado.
Por meio disto, é possível obter o melhoramento a seguir. Por exemplo, como nesta modalidade, se um espectro de banda alta for estima- do utilizando-se um espectro de banda baixa, geralmente será possível rea- lizar taxas de bit mais baixas. Contudo, embora seja possível realizar taxas de bit mais baixas, a acurácia do espectro estimado, isto é, a similaridade entre o espectro estimado e o espectro de banda alta, não é alta o bastante, conforme descrito acima. Neste caso, se o valor de decodificação de um fa- tor de escala se tornar maior do que o valor alvo e o fator de escala quantifi- cado trabalhar em direção a enfatizar o espectro estimado, a diminuição na acurácia do espectro estimado se tornará mais perceptível para os ouvidos humanos como uma deterioração de qualidade. Em contraste com isto, se os valores de decodificação de fatores de escala se tornarem menores do que o valor alvo e o fator de escala quantificado trabalhar em direção a uma atenuação deste espectro estimado, a diminuição na acurácia do espectro estimado se tornará menos distinta, de modo que seja possível obter o efeito de melhoria da qualidade de som de sinais decodificados. Ainda, pelo ajuste do grau do efeito acima de acordo com se o sinal de entrada (isto é, os si- nais decodificados de primeira camada) contém um ruído de fundo, é possí- vel obter sinais decodificados com qualidade perceptiva. Ainda, esta tendên- cia pode ser confirmada em uma simulação em computador também.
Em seguida, o aparelho de decodificação escalonável de acordo com esta modalidade suportando o aparelho de codificação escalonável a- cima será descrito. Ainda, a configuração do aparelho de decodificação es- calonável é a mesma que na FIG. 4 descrita na Modalidade 1, e, assim, uma repetição de descrição será omitida.
Apenas a configuração dentro da seção de decodificação de se- gunda camada 153 do aparelho de decodificação de acordo com esta moda- lidade é diferente da Modalidade 1. Aqui adiante, a configuração principal da seção de decodificação de segunda camada 153 de acordo com esta moda- lidade será descrita com referência à FIG. 15. Ainda, a seção de decodifica- ção de segunda camada 153 é o componente que suporta a seção de deco- dificação de segunda camada 508 no aparelho de codificação de transfor- mada de acordo com esta modalidade.
A seção de análise de MDCT 561 realiza uma análise de MDCT do sinal decodificado de primeira camada, calcula o primeiro espectro da banda de sinal de 0 a FL e, então, extrai o primeiro espectro para a seção de decodificação de espectro de banda alta 562.
A seção de decodificação de espectro de banda alta 562 decodi- fica um espectro estimado (isto é, um espectro fino) de uma banda de sinal de FL a FH usando os parâmetros de codificação (isto é, uma informação de estimativa) transmitida a partir do aparelho de codificação de transformada de acordo com esta modalidade e o primeiro espectro. O espectro estimado obtido é proporcionado para a seção de normalização de espectro de banda alta 563.
A seção de decodificação de fator de escala de correção 564 decodifica um fator de escala de correção usando um parâmetro de codifica- ção (isto é, um fator de escala de correção) transmitido a partir do aparelho de codificação de transformada de acordo com esta modalidade. Para se ser mais específico, a seção de decodificação de fator de escala de correção 564 se refere a um livro de código de fator de escala de correção embutido 522 (não mostrado) posicionado no interior e extrai um fator de escala de correção aplicável para o multiplicador 565.
A seção de normalização de espectro de banda alta 563 divide a banda de sinal de FL a FH do espectro estimado extraído a partir da seção de decodificação de espectro de banda alta 562 em uma pluralidade de sub- bandas e encontra o tamanho de espectro incluído em cada sub-banda. Pa- ra se ser mais específico, a banda de sinal é dividida nas sub-bandas asso- ciadas às bandas críticas e é dividida em intervalos regulares de acordo com a escala de Bark. Ainda, a seção de cálculo de fator de escala 521 encontra uma amplitude média do espectro incluído em cada sub-banda e usa isto como um segundo fator de escala SF2(k) {0 < k < NB}. Aqui, NB é o número de sub-bandas. Ainda, o valor de amplitude máxima pode ser usado, ao in- vés da amplitude média. Em seguida, a seção de normalização de espectro de banda alta 563 divide um valor de espectro estimado (isto é, um valor de MDCT) por um primeiro fator de escala SF1 (k) da sub-banda e extrai o valor de espectro estimado dividido para o multiplicador 565 como um espectro estimado normalizado.
O multiplicador 565 multiplica o espectro estimado normalizado extraído a partir da seção de normalização de espectro de banda alta 563 pelo fator de escala de correção extraído a partir da seção de decodificação de fator de escala de correção 564 e extrai o resultado de multiplicação para a seção de conexão 566.
A seção de conexão 566 conecta no domínio de freqüência o primeiro espectro com o espectro estimado normalizado extraído a partir do multiplicador, gera um espectro decodificado de banda larga de uma banda de sinal de 0 a FH e extraí o espectro decodificado de banda larga para a seção de transformação de domínio de tempo 166.
A seção de transformação de domínio de tempo 567 realiza um processamento de MDCT inversa do espectro decodificado extraído a partir da seção de conexão 566, multiplica o espectro decodificado por uma função de janela adequada e, então, adiciona domínios correspondentes do espec- tro decodificado e o sinal do quadro prévio após uma criação de janela, gera e extrai um sinal decodificado de segunda camada.
Conforme descrito acima, de acordo com esta modalidade, na codificação de domínio de freqüência de uma camada alta, quando os fato- res de escala são quantificados pela conversão de um sinal de entrada em coeficientes de domínio de freqüência, os fatores de escala são quantifica- dos usando-se medidas de distorção ponderadas que tornam os candidatos a quantificação que diminuem os fatores de escala mais prováveis de serem selecionados. Isto é o candidato a quantificação que diminui os fatores de escala mais provavelmente será selecionado. Isto é, o candidato a quantifi- cação que torna os fatores de escala após uma quantificação menores do que os fatores de escala antes de uma quantificação têm maior probabilida- de de serem selecionados. Portanto, quando o número de bits alocados à quantificação dos fatores de escala é insuficiente, é possível reduzir uma deterioração de qualidade subjetiva.
Ainda, embora tenha sido descrito um caso com esta modalida- de em que uma quantificação de vetor é usada, um processamento pode ser realizado separadamente por sub-banda, ao invés da realização de uma quantificação de vetor, isto é, ao invés de uma realização de processamento por vetor. Neste caso, por exemplo, os candidatos a fator de escala de cor- reção incluídos no livro de código de fator de escala de correção 522 são representados por escalares.
Ainda, com esta modalidade, embora o valor de indicador de ruído de fundo BNF (k) seja determinado por uma comparação do valor de potência médio de cada sub-banda com um limite, a presente invenção não está limitada a isto, e é aplicada da mesma forma ao método de utilização da relação de valor de potência médio de ruído de fundo em cada sub-banda para o valor de potência médio do primeiro sinal decodificado (isto é, a parte de fala).
Ainda, com esta modalidade, embora uma configuração do apa- relho de codificação tendo uma seção de aumento de amostragem 505 den- tro tenha sido descrita, a presente invenção não está limitada a isto, e pode ser aplicada da mesma forma a um caso em que sinais decodificados de primeira camada de banda estreita são introduzidos na seção de codificação de segunda camada.
Ainda, embora tenha sido descrito um caso com esta modalida- de em que uma quantificação é realizada em todos os momentos de acordo com o método acima, independentemente das características de sinal de entrada (por exemplo, uma parte incluindo fala e uma parte não incluindo fala), a presente invenção não está limitada a isto, e pode ser aplicada da mesma forma a um caso em que se é ou não para utilizar o método acima é comutado de acordo com características de sinal de entrada (por exemplo, parte de voz ou parte não de voz). Por exemplo, um método de realização de uma quantificação de vetor com respeito a uma parte em que a fala está incluída no sinal de entrada de acordo com um cálculo de distância aplican- do o peso acima e uma realização de quantificação de vetor acordo com os métodos descritos nas Modalidades 1 a 4 com respeito a uma parte em que a fala não está incluída no sinal de entrada pode ser possível, ao invés da realização de uma quantificação de vetor de acordo com o cálculo de distân- cia aplicando o peso acima. Desta forma, pela comutação no domínio de tempo dos métodos de cálculo de distância para uma quantificação de vetor de acordo com as características do sinal de entrada, é possível obter sinais decodificados com qualidade melhor.
(Modalidade 6)
A Modalidade 6 da presente invenção difere da Modalidade 5 na configuração dentro da seção de codificação de segunda camada do apare- lho de codificação. A FIG. 16 é um diagrama de blocos que mostra a confi- guração principal dentro da seção de decodificação de segunda camada 508 de acordo com esta modalidade. Se comparado com a FIG. 13, na seção de decodificação de segunda camada 508 mostrada na FIG. 16, o feito da se- ção de codificação de fator de escala de correção 614 é diferente da seção de codificação de fator de escala de correção 514.
A seção de estimativa de espectro de banda alta 513 proporcio- na o espectro estimado como estiver para a seção de codificação de fator de escala de correção 614.
A seção de codificação de fator de escala de correção 614 corri- ge o fator de escala para o primeiro espectro usando uma informação de ruído de fundo, de modo que o fator de escala para o primeiro espectro se torne mais próximo do fator de escala para o segundo espectro, codifica uma informação relacionada a estes fatores de escala de correções e extrai o resultado.
A FIG. 17 é um diagrama de blocos que mostra a configuração principal dentro da seção de codificação de fator de escala de correção 614 na FIG. 16. A seção de codificação de fator de escala de correção 614 tem as seções de cálculo de fator de escala 621 e 622, o livro de código de fator de escala de correção 623, o multiplicador 624, o subtraidor 625, a seção de decisão 626, a seção de cálculo de erro ponderado 627 e a seção de busca 628, e estas seções realizam as operações a seguir.
A seção de cálculo de fator de escala 621 divide a banda de si- nal de FL a FH no segundo espectro introduzido em uma pluralidade de sub- bandas, encontra o tamanho do espectro incluído em cada sub-banda e ex- trai o resultado para o subtraidor 625. Para se ser mais específico, a banda de sinal é dividido nas sub-bandas associadas às bandas críticas e é dividi- da em intervalos regulares de acordo com a escala de Bark. Ainda, a seção de cálculo de fator de escala 621 encontra uma amplitude média do espectro incluído em cada sub-banda e usa isto como um segundo fator de escala SF2(k) {0 < k < NB}. Aqui, NB é o número de sub-bandas. Ainda, o valor de amplitude máximo pode ser usado, ao invés da amplitude média.
Em um processamento subseqüente, os parâmetros para uma pluralidade de sub-bandas são combinados em um valor de vetor. Por e- xemplo, os NB fatores de escala são representados por um vetor. Então, será descrito um caso como um exemplo em que cada processamento é realizado em uma base por vetor, isto é, um caso em que uma quantificação de vetor é realizada.
A seção de cálculo de fator de escala 622 divide a banda de si- nal de FL a FH do primeiro espectro introduzido em uma pluralidade de sub- bandas, calcula o primeiro fator de escala SF1(k) {0 < k < NB} de cada sub- banda e extrai o primeiro fator de escala para o multiplicador 624. O valor de amplitude máximo pode ser usado pode ser usado, ao invés da amplitude média, de modo similar à seção de cálculo de fator de escala 621.
O livro de código de fator de escala de correção 623 armazena de antemão uma pluralidade de candidatos a fator de escala de correção e extrai um fator de escala de correção a partir dos candidatos a fator de esca- la de correção armazenados, seqüencialmente, para o multiplicador 624, de acordo com um comando da seção de busca 628. Uma pluralidade de can- didatos a fator de escala de correção armazenados no livro de código de fator de escala de correção 623 pode ser representada por vetores. O multiplicador 624 multiplica o primeiro fator de escala extraído a partir da seção de cálculo de fator de escala 622 pelo candidato a fator de escala de correção extraído a partir do livro de código de fator de escala de correção 623, e proporciona o resultado de multiplicação para o subtraidor 125.
O subtraidor 625 subtrai a saída do multiplicador 624, isto é, o produto do primeiro fator de escala e de um candidato a fator de escala de correção, a partir do segundo fator de escala extraído a partir da seção de cálculo de fator de escala 621, e proporciona o sinal de erro resultante para a seção de decisão 626 e a seção de cálculo de erro ponderado 627.
A seção de decisão 626 determina um vetor de peso proporcio- nado para a seção de cálculo de erro ponderado com base no sinal do sinal de erro e em uma informação de ruído de fundo dada pelo subtraidor 625. A partir deste ponto, os fluxos de processamentos detalhados na seção de de- cisão 626 serão descritos.
A seção de decisão 626 analisa uma informação de ruído de fundo introduzida. Ainda, a seção de decisão 626 inclui um indicador de ruí- do de fundo BNF (k) {0 < k < NB}, onde o número de elementos eqüivale ao número de sub-bandas NB. Quando uma informação de ruído de fundo mos- tra que o sinal de entrada (isto é, o primeiro sinal decodificado) não contém um ruído de fundo, a seção de decisão 626 regula todos os valores de indi- cador de ruído de fundo BNF (k) para zero. Ainda, quando a informação de ruído de fundo mostra que o sinal de entrada (isto é, o primeiro sinal decodi- ficado) contém um ruído de fundo, a seção de decisão 626 analisa as carac- terísticas de freqüência de ruído de fundo mostradas na informação de ruído de fundo e converte as características de freqüência de ruído de fundo em características de freqüência de cada sub-banda. Ainda, para facilidade de descrição, a informação de ruído de fundo é assumida como mostrando o valor de potência médio de cada sub-banda. A seção de decisão 626 com- para o valor de potência médio SP (k) do espectro de cada sub-banda com um limite ST (k) de cada sub-banda regulado dentro de antemão e, quando SP (k) é ST (k) ou maior, os valores do indicador de ruído de fundo BNF (k) da sub-banda aplicável serão regulados para um.
Aqui, o sinal de erro d(k) dado a partir do subtraidor é represen- tado pela equação 9 a seguir.
[9]
<formula>formula see original document page 39</formula>
Aqui, Vi (k) é o i-ésimo candidato a fator de escala de correção.
Se o sinal de d(k) for positivo, a seção de decisão 626 selecionará Wpos para o peso. Ainda, se o sinal de d(k) for negativo e o valor de BNF (k) for um, a seção de decisão 626 selecionará wpos para o peso. Ainda, se o sinal de d(k) for negativo e o valor de indicador de ruído de fundo BNF (k) for zero, a se- ção de decisão 626 selecionará wneg para o peso. Em seguida, a seção de decisão 626 extrai o vetor de peso w(k) compreendido pelos pesos para a seção de cálculo de erro ponderado 627. Há a relação representada pela equação 10 a seguir entre estes pesos.
[10]
0< wpos<wneg ... (Equação 10)
Por exemplo, se o número de sub-bandas NB for quatro, o sinal de d(k) for {+, -, -, +} e o indicador de ruído de fundo BNF (k) for {0, 0,1,1}, o vetor de peso w(k) extraído para a seção de cálculo de erro ponderado 525 será representado como w(k) = {wpos, Wneg, Wpos, WposJ.
Em primeiro lugar, a seção de cálculo de erro ponderado 627 calcula o valor ao quadrado do sinal de erro dado a partir do subtraidor 625, então calcula o erro ao quadrado ponderado E pela multiplicação dos valo- res ao quadrado do sinal de erro pelo vetor de peso w(k) dado a partir da seção de decisão 626 e extrai o resultado de cálculo para a seção de busca 628. Aqui, o erro ao quadrado ponderado E é representado pela equação 8 a seguir.
[11]
<formula>formula see original document page 39</formula> A seção de busca 628 controla o livro de código de fator de es- cala de correção 623 para seqüencialmente extrair os candidatos a fator de escala de correção armazenados, e encontra o candidato a fator de escala de correção que minimiza o erro ao quadrado ponderado E extraído a partir da seção de cálculo de erro ponderado 627 em um processamento de laço fechado. A seção de busca 628 extrai o índice iopt do candidato a fator de escala de correção determinado como os parâmetros de codificação.
Conforme descrito acima, o peso para cálculo do erro ao qua- drado ponderado de acordo com o sinal do sinal de erro é regulado e, quan- do o peso tem a relação representada pela equação 10, o efeito a seguir pode ser adquirido. Isto é, um caso em que um sinal de erro d(k) é positivo significa que um valor de decodificação (isto é, o valor obtido pela normali- zação do primeiro fator de escala e multiplicação do valor normalizado por um candidato a fator de escala de correção no lado de codificação) que é menor do que o segundo fator de escala, o qual é o valor alvo, é gerado no lado de decodificação. Ainda, um caso em que um sinal de erro d(k) é nega- tivo significa que o valor de decodificação que é maior do que o segundo fator de escala, o qual é o valor alvo, é gerado no lado de decodificação. Conseqüentemente, pela regulagem do peso para quando o sinal de erro d(k) é positivo menor do que o peso para quando o sinal de erro d(k) é nega- tivo, quando o erro ao quadrado é substancialmente o mesmo valor, um candidato a fator de escala de correção que produza um valor de decodifica- ção menor do que o segundo fator de escala tem maior probabilidade de ser selecionado.
Por meio disto, é possível obter o melhoramento a seguir. Por exemplo, como nesta modalidade, se um espectro de banda alta for estima- do utilizando-se um espectro de banda baixa, geralmente será possível rea- lizar taxas de bit mais baixas. Contudo, embora seja possível realizar taxas de bit mais baixas, a acurácia do espectro estimado, isto é, a similaridade entre o espectro estimado e o espectro de banda alta, não é alta o bastante, conforme descrito acima. Neste caso, se o valor de decodificação de um fa- tor de escala se tornar maior do que o valor alvo e o fator de escala quantifi- cado trabalhar em direção a enfatizar o espectro estimado, a diminuição na acurácia do espectro estimado se tornará mais perceptível para os ouvidos humanos como uma deterioração de qualidade. Em contraste com isto, se os valores de decodificação de fatores de escala se tornarem menores do que o valor alvo e o fator de escala quantificado trabalhar em direção a uma atenuação deste espectro estimado, a diminuição na acurácia do espectro estimado se tornará menos distinta, de modo que seja possível obter o efeito de melhoria da qualidade de som de sinais decodificados. Ainda, pelo ajuste do grau do efeito acima de acordo com se o sinal de entrada (isto é, os si- nais decodificados de primeira camada) contém um ruído de fundo, é possí- vel obter sinais decodificados com qualidade perceptiva. Ainda, esta tendên- cia pode ser confirmada em uma simulação em computador também.
Ainda, embora tenha sido descrito um caso com esta modalida- de em que uma quantificação é realizada em todos os momentos de acordo com o método acima, independentemente das características de sinal de entrada (por exemplo, uma parte incluindo fala e uma parte não incluindo fala), a presente invenção não está limitada a isto, e pode ser aplicada da mesma forma a um caso em que se é ou não para utilizar o método acima é comutado de acordo com características de sinal de entrada (por exemplo, parte de voz ou parte não de voz). Por exemplo, um método de realização de uma quantificação de vetor com respeito a uma parte em que a fala está incluída no sinal de entrada de acordo com um cálculo de distância aplican- do o peso acima e uma realização de quantificação de vetor acordo com os métodos descritos nas Modalidades 1 a 4 com respeito a uma parte em que a fala não está incluída no sinal de entrada pode ser possível, ao invés da realização de uma quantificação de vetor de acordo com o cálculo de distân- cia aplicando o peso acima. Desta forma, pela comutação no domínio de tempo dos métodos de cálculo de distância para uma quantificação de vetor de acordo com as características do sinal de entrada, é possível obter sinais decodificados com qualidade melhor. (Modalidade 7)
A FIG. 18 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação escalonável de acordo com a Modalida- de 7 da presente invenção. Na FIG. 18, uma seção de demultiplexação 701 recebe um fluxo de bit transmitido a partir do aparelho de codificação (não mostrado), separa o fluxo de bit com base em uma informação de camada gravada no fluxo de bit recebido e extrai uma informação de camada para a seção de comutação 705 e a seção de cálculo de LPC corrigido de um pós- filtro.
Quando a informação de camada mostra a camada 3, isto é, quando uma informação de codificação de todas as camadas (da primeira camada à terceira camada) é incluída no fluxo de bit, a seção de demultiple- xação 701 separa a informação de codificação de primeira camada, a infor- mação de codificação de segunda camada e a informação de codificação de terceira camada. A informação de codificação de primeira camada, a infor- mação de codificação de segunda camada e a informação de codificação de primeira camada separadas são extraídas para a seção de decodificação de primeira camada 702, a seção de decodificação de segunda camada 703 e a seção de decodificação de terceira camada 704, respectivamente.
Ainda, quando a informação de camada mostra a camada 2, isto é, quando uma informação de codificação da primeira camada e da segunda camada é incluída no fluxo de bit, a seção de demultiplexação 701 separa a informação de codificação de primeira camada e a informação de codifica- ção de segunda camada do fluxo de bit. A informação de codificação de pri- meira camada e a informação de codificação de segunda camada separadas são extraídas para a seção de decodificação de primeira camada 702 e a seção de decodificação de segunda camada 703, respectivamente.
Quando a informação de camada mostra a camada 1, isto é, quando apenas uma informação de codificação da primeira camada é incluí- da no fluxo de bit, a seção de demultiplexação 701 separa a informação de codificação de primeira camada do fluxo de bit e extrai a informação de codi- ficação de primeira camada para a seção de decodificação de primeira ca- mada 702.
A seção de decodificação de primeira camada 702 gera sinais decodificados de primeira camada de qualidade padrão, onde a banda de sinal k é 0 ou maior e menor do que FH1 usando-se a informação de codifi- cação de primeira camada extraída a partir da seção de demultiplexação 701, e extrai os sinais decodificados de primeira camada gerados para a se- ção de comutação 705, a seção de decodificação de segunda camada 703 e a seção de detecção de ruído de fundo 706.
Quando a seção de demultiplexação 701 extrai a informação de codificação de segunda camada, a seção de decodificação de segunda ca- mada 703 gera sinais decodificados de segunda camada de qualidade me· lhorada, onde a banda de sinal k é de 0 ou maior e menor do que FL e os sinais decodificados de segunda camada de qualidade padrão em que a banda de sinal é FL ou maior e menor do que FH1 usando esta informação de codificação de segunda camada e os sinais decodificados de primeira camada extraídos a partir da seção de decodificação de primeira camada 702. Os sinais decodificados de segunda camada gerados são extraídos para a seção de comutação 705 e a seção de decodificação de terceira ca- mada 704. Ainda, quando a informação de camada mostra a camada 1, a informação de codificação de segunda camada não pode ser obtida, e, as- sim, a seção de decodificação de segunda camada 703 não opera de forma alguma ou atualiza variáveis providas na seção de decodificação de segun- da camada 703.
Quando a seção de demultiplexação 701 extrai a informação de codificação de primeira camada, a seção de decodificação de terceira cama- da 704 gera os sinais decodificados de terceira camada de qualidade melho- rada, em que a banda de sinal k é 0 ou maior e menor do que FH, usando a informação de codificação de primeira camada e os sinais decodificados de segunda camada extraídos a partir da seção de decodificação de segunda camada 703. Os sinais decodificados de terceira camada gerados são extra- ídos para a seção de comutação 705. Ainda, quando a informação de cama- da mostra a camada 1 ou a camada 2, a informação de codificação de se- gunda camada não pode ser obtida, e, assim, a seção de decodificação de terceira camada 704 não opera de todo ou atualiza as variáveis providas na seção de decodificação de terceira camada 704.
A seção de detecção de ruído de fundo 706 recebe os sinais de- codificados de primeira camada e decide se estes sinais contêm ou não um ruído de fundo. Se a seção de detecção de ruído de fundo 706 decidie que um ruído de fundo está contido nos sinais decodificados de primeira cama- da, a seção de detecção de ruído de fundo 706 analisará as características de freqüência do ruído de fundo pela realização, por exemplo, de um pro- cessamento de MDCT do ruído de fundo e extrairá as características de fre- qüência analisadas como uma informação de ruído de fundo para a seção de codificação de segunda camada 708. Ainda, se a seção de detecção de ruído de fundo 706 decide que um ruído de fundo não está contido no sinal decodificado de primeira camada, a seção de detecção de ruído de fundo 706 extrairá a informação de ruído de fundo mostrando que o sinal decodifi- cado de primeira camada não contém o ruído de fundo para a seção de cál- culo de LPC corrigido 708. Ainda, como um método de detecção de ruído de fundo, esta modalidade pode empregar um método de análise de sinais de entrada de um certo período, calculando-se o valor de potência máximo e o valor de potência mínimo dos sinais de entrada e usando-se o valor de po- tência mínimo como ruído, quando a relação do valor de potência máximo para o valor mínimo ou a diferença entre o valor de potência máximo e o va- lor de potência mínimo for igual a ou maior do que um limite, bem como ou- tros métodos de detecção de ruído de fundo. Ainda, com esta modalidade, embora a seção de detecção de ruído de fundo 706 decida se o sinal decodi- ficado de primeira camada contém ou não um ruído de fundo, a presente invenção não está limitada a isto, e pode ser aplicada da mesma forma a um caso em que é detectado se o sinal decodificado de segunda camada e ou sinal decodificado de terceira camada contêm um ruído de fundo ou quando uma informação de ruído de fundo contida no sinal de entrada é transmitida a partir do aparelho de codificação e a informação de ruído de fundo transmi- tida é utilizada.
A seção de comutação 705 decide se os sinais decodificados de qual camada podem ou não ser obtidos, com base em uma informação de camada extraída a partir da seção de demultiplexação 701 e extrai os sinais decodificados na camada da ordem mais alta para a seção de cálculo de LPC corrigido 708 e a seção de filtro 707.
O pós-filtro tem a seção de cálculo de LPC corrigido 708 e a se- ção de filtro 707, calcula coeficientes de LPC corrigido usando uma informa- ção de camada extraída a partir da seção de demultiplexação 701, os sinais decodificados extraídos a partir da seção de comutação 705 e a informação de ruído de fundo obtida na seção de detecção de ruído de fundo 706, e ex- trai os coeficientes de LPC corrigido calculados para a seção de filtro 707.
Os detalhes da seção de cálculo de LPC corrigido 708 serão descritos.
A seção de filtro 707 forma um filtro com os coeficientes de LPC corrigido extraídos a partir da seção de cálculo de LPC corrigido 708, realiza um processamento de pós-filtro dos sinais decodificados extraídos a partir da seção de comutação 705 e extrai os sinais decodificados submetidos ao processamento de pós-filtro.
A FIG. 19 é um diagrama de blocos que mostra a configuração dentro da seção de cálculo de LPC corrigido 708 mostrada na FIG. 18. Nesta figura, a seção de transformação de freqüência 711 realiza uma análise de freqüência dos sinais decodificados extraídos a partir da seção de comuta- ção 705, encontrando o espectro dos sinais decodificados (a partir deste ponto, simplesmente o "espectro decodificado") e extraindo o espectro de- codificado determinado para a seção de cálculo de espectro de potência 712.
A seção de cálculo de espectro de potência 712 calcula a potên- cia do espectro decodificado (a partir deste ponto, simplesmente o "espectro de potência") extraído a partir da seção de transformação de freqüência 711 e extrai o espectro de potência calculado para a seção de correção de es- pectro de potência 713.
A seção de determinação de banda de correção 714 determina bandas (a partir desde ponto, simplesmente "bandas de correção") para cor- reção do espectro de potência, com base em uma informação de camada extraída a partir da seção de demultiplexação 701, e extrai as bandas de- terminadas para a seção de correção de espectro de potência 713 como uma informação de banda de correção.
Nesta modalidade, as camadas mostradas na FIG. 20 suportam bandas de sinal e qualidade de fala, e a seção de determinação de banda de correção 714 gera a informação de banda de correção com base na banda de correção eqüivalendo a 0 (não corrigida), quando a informação de cama- da mostrar a camada 1, a banda de correção entre 0 e FL quando a informa- ção de camada mostrar a camada 2 e a banda de correção entre 0 e FH1 quando a informação de camada mostrar a camada 3.
A seção de correção de espectro de potência 713 corrige o es- pectro de potência extraído a partir da seção de cálculo de espectro de po- tência 712 com base na informação de banda de correção e na informação de ruído de fundo extraídas a partir da seção de determinação de banda de correção 714, e extrai o espectro de potência corrigido para a seção de transformação inversa 715.
Aqui, uma "correção de espectro de potência" se refere a quan- do uma informação de ruído de fundo mostra que "o primeiro sinal decodifi- cado não contém um ruído de fundo", características de pós-filtro de regula- gem ruins, de modo que o espectro seja menos modificado. Para se ser mais específico, uma correção de espectro de potência se refere à realiza- ção de uma modificação de modo que mudanças no espectro de potência no domínio de freqüência sejam reduzidas. Por meio disto, quando a informa- ção de camada mostra a camada 2, as características de pós-filtro na banda entre 0 e FL são reguladas ruins, e quando a informação de camada mostra a camada 3, as características de pós-filtro na banda entre 0 e FH são regu- ladas ruins. Ainda, quando a informação de ruído de fundo mostra que "o primeiro sinal decodificado contém ruído de fundo", a seção de correção de espectro de potência 713 não realiza um processamento conforme descrito acima, de modo a regular características de pós-filtro ruins ou realiza um processamento de modo que o grau de regulagem das características de pós-filtro seja regulado para menos até alguma extensão. Desta forma, pela comutação do processamento de pós-filtro de acordo com se o primeiro sinal decodificado contém ou não um ruído de fundo (se o sinal de entrada con- tém um ruído de fundo), quando o sinal não contém um ruído de fundo, um ruído no sinal decodificado pode ser tornado menos distinto e, quando o si- nal contém um ruído de fundo, a qualidade de banda dos sinais decodifica- dos pode ser aumentada tanto quanto possível, de modo que seja possível gerar os sinais decodificados com melhor qualidade subjetiva.
A seção de transformação inversa 715 inverte o espectro de po- tência corrigido extraído a partir da seção de correção de espectro de potên- cia 713 e encontra uma função de autocorrelação. A função de autocorrela- ção determinada é extraída para a seção de análise de LPC 716. Ainda, a seção de transformação inversa 715 é capaz de reduzir a quantidade de cál- culo pela utilização da FFT (Transformada Rápida de Fourier). Neste mo- mento, quando a ordem do espectro de potência corrigido não pode ser re- presentada por 2n, o espectro de potência corrigido pode ter a média calcu- lada de modo que a análise seja 2N, ou o espectro de potência corrigido po- de ser perfurado.
A seção de análise de LPC 716 encontra coeficientes de lenços de papel pela aplicação de um método de autocorrelação à função de auto- correlação extraída a partir da seção de transformação inversa 715 e extrai os coeficientes de LPC determinados para a seção de filtro 707 como os co- eficientes de LPC corrigido.
Em seguida, os métodos de implementação da seção de corre- ção de espectro de potência 713 serão descritos em detalhes. Em primeiro lugar, um método de suavização do espectro de potência na banda de cor- reção será descrito como o primeiro método de realização. Este método se refere ao cálculo de um valor médio de um espectro de potência na banda de correção e à substituição do espectro antes de uma suavização com o valor médio calculado.
A FlG. 21 mostra como o espectro de potência é corrigido de acordo com o primeiro método de realização. Esta figura mostra como o es- pectro de potência da parte de voz (/o/) da mulher é corrigido quando a in- formação de camada mostra a camada 2 (as características de pós-filtro na banda entre O e FL são reguladas ruins) e mostra a substituição da banda entre 0 e FL por um espectro de potência de aproximadamente 22 dB. Neste momento, é preferível corrigir o espectro de potência de modo que o espec- tro não mude de forma descontínua em uma porção que conecta a banda a ser corrigida e a banda a não ser corrigida. Os detalhes deste método inclu- em, por exemplo, encontrar um valor médio de mudanças no espectro de potência da fronteira e sua vizinhança e substituir o espectro de potência alvo pelo valor médio de mudanças. Como resultado, é possível encontrar os coeficientes de LPC corrigido refletindo as características espectrais mais acuradas.
Em seguida, um segundo método de realização de seção de cor- reção de espectro de potência 713 será descrito. O segundo método de rea- lização se refere a encontrar uma envoltória espectral do espectro de potên- cia da banda de correção e substituir o espectro da banda pela envoltória espectral. Aqui, a "envoltória espectral" se refere à envoltória geral do espec- tro de potência da banda. Por exemplo, as características espectrais de um filtro digital formado por um coeficiente de PARCOR (isto é, um coeficiente de reflexão) da primeira ordem de um sinal decodificado ou pela multiplica- ção do coeficiente de PARCOR por uma constante. O espectro de potência da banda é substituído por estas características espectrais multiplicadas por coeficientes calculados de modo que a energia do espectro de potência na banda seja armazenada.
A FIG. 22 mostra como o espectro de potência é corrigido de acordo com o segundo método de realização. Nesta figura, o espectro de potência da banda entre O e FL é substituído pelo espectro de potência incli- nado entre aproximadamente 23 dB e 26 dB.
Aqui, a função de transferência PF de um pós-filtro típico é re- presentada pela equação 12 a seguir. Aqui, α (i) na equação 12 é um coefi- ciente de LPC (codificação de predição linear) do sinal decodificado, NP é a ordem dos coeficientes de LPC, γη e Yd são valores de regulagem (0 < γη < Yd < 1) para a determinação do grau para redução de ruído pelo pós-filtro e μ é um valor de regulagem para compensação de uma envoltória espectral ge- rada pelo filtro de ênfase de formante.
[12]
<formula>formula see original document page 49</formula>
Pela substituição do espectro de potência da banda de correção por uma envoltória espectral conforme descrito acima, os efeitos de ênfase da banda alta por um filtro de compensação de inclinação (isto é, U(z) da equação 12) do pós-filtro se cancelam dentro da banda. Isto é, as caracterís- ticas espectrais eqüivalendo às características opostas das características espectrais U(z) da equação 12 são dadas. Por meio disto, as características espectrais da banda incluindo o pós-filtro podem ser adicionalmente suavi- zadas.
Ainda, um terceiro método de realização de seção de correção de espectro de potência 713 pode usar a α-ésima potência (0 < α < 1) do espectro de potência da banda de correção. Este método permite um projeto mais flexível das características de pós-filtro, se comparado com o método acima de suavização do espectro de potência.
Em seguida, as características espectrais do pós-filtro formado com o coeficiente de LPC corrigido acima calculado pela seção de cálculo de LPC corrigido 708 serão descritas com referência à FIG. 23. Aqui, será des- crito um caso com as características espectrais como um exemplo em que o coeficiente de LPC corrigido é determinado usando-se o espectro mostrado na FIG. 22, e os valores regulados do pós-filtro são γη = 0,6, Yd = 0,8 e μ = 0,4. Ainda, os coeficientes de LPC têm a décima oitava ordem.
A linha contínua mostrada na FIG. 23 mostra as características espectrais quando o espectro de potência é corrigido e a linha pontilhada mostra as características espectrais quando o espectro de potência não é corrigido (isto é, os valores regulados são os mesmos que os acima). Con- forme mostrado na FIG. 23, quando o espectro de potência é corrigido, as características de pós-filtro se tornam quase suavizadas na banda entre 0 e FL e se tornam as mesmas características espectrais na banda entre FL e FH que no caso em que o espectro de potência não é corrigido.
Por outro lado, embora nas vizinhanças da freqüência de Ny- quist, quando o espectro de potência é corrigido, as características espec- trais se tornam atenuadas, um pouco comparado às características espec- trais quando o espectro de potência não é corrigido, a componente de sinal nesta banda é menor do que as componentes de sinal em outras bandas e, assim, esta influência pode ser quase ignorada.
Desta forma, de acordo com a Modalidade 7, o espectro de po- tência de uma banda combinando com uma informação de camada é corri- gido, os coeficientes de LPC corrigido são calculados com base no espectro de potência corrigido e um pós-filtro é formado usando-se o coeficiente de LPC corrigido calculado, de modo que, mesmo quando uma qualidade de fala variar entre bandas suportadas por camadas, seja possível realizar uma pós-filtração de sinais decodificados com base nas características espectrais de acordo com a qualidade de fala e, conseqüentemente, melhorar a quali- dade de fala.
Ainda, foi descrito um caso com esta modalidade em que, quan- do uma informação de camada mostra qualquer uma de uma camada 1 a uma camada 3, os coeficientes de LPC corrigido são calculados. Quando uma camada processa todas as bandas, o que realiza uma codificação, para aproximadamente a mesma qualidade de fala (nesta modalidade, a camada 1 processando bandas plenas para uma qualidade padrão e a camada 3 processando bandas plenas para qualidade melhorada), os coeficientes de LPC corrigidos não precisam ser calculados por banda. Neste caso, os valo- res regulados (Yd, γη e μ) especificando o grau do pós-filtro podem ser prepa- rados por camada de antemão e o pós-filtro pode ser formado diretamente pela comutação dos valores regulados preparados. Por meio disto, é possí- vel reduzir a quantidade e o tempo de processamento requeridos para o cál- culo dos coeficientes de LPC corrigidos.
Ainda, com esta modalidade, embora a seção de correção de espectro de potência 713 realize um processamento comum à banda plena de acordo com o sinal decodificado de primeira camada conter ou não um ruído de fundo, a presente invenção não está limitada a isto, e pode ser apli- cada da mesma forma a um caso em que a seção de detecção de ruído de fundo 706 calcula as características de freqüência de ruído de fundo contido no sinal decodificado de primeira camada e a seção de correção de espectro de potência 713 comuta os métodos de correção de espectro de potência usando o resultado em uma base por sub-banda. (Modalidade 8)
A FIG. 24 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação escalonável de acordo com a Modali- dade 8 da presente invenção. Apenas as seções diferentes da FIG. 18 serão descritas aqui. Nesta figura, a segunda seção de comutação 806 adquire uma informação de camada a partir da seção de demultiplexação 801, dèci- de o espectro decodificado a partir do qual a camada pode ser obtida com base na informação de camada adquirida e extrai os coeficientes de LPC decodificados na camada da ordem mais alta para a seção de cálculo de informação de redução 808. Contudo, os coeficientes de LPC decodificados podem não ter probabilidade de serem gerados no processo de decodifica- ção e, neste caso, um coeficiente de LPC decodificado dentre os coeficien- tes de decodificação adquiridos na segunda seção de comutação 806 é se- lecionado.
A seção de detecção de ruído de fundo 807 recebe o sinal deco- dificado de primeira camada e decide se o sinal contém ou não um ruído de fundo. Se a seção de detecção de ruído de fundo 807 decide que o ruído de fundo está contido nos primeiros sinais decodificados, a seção de análise de ruído de fundo 807 analisa as características de freqüência do ruído de fun- do pela realização, por exemplo, de um processamento de MDCT do ruído de fundo, e extrairá uma informação de ruído de fundo como as característi- cas de freqüência analisadas para a seção de cálculo de informação de re- dução 808. Ainda, se a seção de detecção de ruído de fundo 807 decide que um ruído de fundo não está contido no sinal decodificado de primeira camada, a seção de análise de ruído de fundo 807 extrai uma informação de ruído de fundo mostrando que o ruído de fundo não está contido no sinal decodificado de primeira camada para a seção de cálculo de informação de redução 808. Mais ainda, como um método de detecção de ruído de fundo, esta modalidade pode empregar um método de análise de sinais de entrada de um certo período, calculando o valor de potência máxima e o valor de potência mínimo dos sinais de entrada e usando o valor de potência mínimo como ruído, quando a relação do valor de potência máximo para o valor mí- nimo ou a potência mínima ou a diferença entre o valor de potência máximo e o valor de potência mínimo for igual a ou maior do que um limite, bem co- mo outros métodos gerais de detecção de ruído de fundo. Ainda, com esta modalidade, embora a seção de detecção de ruído de fundo 706 decida se o sinal decodificado de primeira camada contém ou não um ruído de fundo, a presente invenção não está limitada a isto, e pode ser aplicada da mesma forma a um caso em que se o sinal decodificado de segunda camada e o sinal decodificado de terceira camada contêm ou não um ruído de fundo é detectado ou quando uma informação de ruído de fundo contido nos sinais de entrada é transmitida a partir do aparelho de codificação e a informação de ruído de fundo transmitida é utilizada.
A seção de cálculo de informação de redução 808 calcula uma informação de redução usando uma informação de camada extraída a partir da seção de demultiplexação 801, os coeficientes de LPC extraídos a partir da segunda seção de comutação 806 e a informação de ruído de fundo ex- traída a partir da seção de análise de ruído de fundo 807, e extrai a informa- ção de redução calculada para a seção de cálculo de informação de redução 809. Os detalhes da seção de cálculo de informação de redução 808 serão descritos.
O multiplicador 809 multiplica o espectro decodificado extraído a partir da seção de comutação 805 pela informação de redução extraída a partir da seção de cálculo de informação de redução 808 e extrai o espectro decodificado multiplicado pela informação de redução para a seção de trans- formação de domínio de tempo 810. A seção de transformação de domínio de tempo 810 realiza um processamento de MDCT inversa do espectro decodificado extraído a partir do multiplicador 809, multiplica o espectro decodificado por uma função de janela adequada, e, então, adiciona os domínios correspondentes do espec- tro decodificado e o sinal do quadro prévio após uma criação de janela, e gera e extrai um sinal decodificado de segunda camada.
A FIG. 25 é um diagrama de blocos que mostra a configuração na seção de cálculo de informação de redução 808 mostrada na FIG. 24.
Nesta figura, a seção de cálculo de espectro de LPC 821 realiza uma trans- formada de Fourier discreta dos coeficientes de LPC decodificados extraídos a partir da segunda seção de comutação 806, calcula a energia de cada es- pectro complexo e extrai a energia calculada para a seção de correção de espectro de LPC 822 como um espectro de LPC. Isto é, quando o coeficien- te de LPC decodificado é representado por a (i), um filtro representado pela equação 13 a seguir é formado.
<formula>formula see original document page 53</formula>
A seção de cálculo de espectro de LPC 821 calcula as caracte- rísticas espectrais do filtro representado pela equação 13 acima e extrai o resultado para a seção de correção de espectro de LPC 822. Aqui, NP é a ordem do coeficiente de LPC decodificado.
Ainda, as características espectrais de um filtro podem ser calcu- ladas (0 < Yn < Yd < 1) pela formação deste filtro representado pela equação 14 a seguir, usando-se os parâmetros predeterminados γη e Yd para ajuste do grau de redução de ruído.
[14] <formula>formula see original document page 54</formula>
Ainda, embora possam ocorrer casos em que os filtros represen- tados pela equação 13 e pela equação 14 tenham características que a ban- da baixa (ou a banda alta) seja excessivamente enfatizada, se comparada com a banda alta (ou a banda baixa) (estas características são geralmente referidas como uma "envoltória espectral"), um filtro (isto é, um filtro antiincli- nação) para compensação pelas características pode ser usado em conjunto.
De modo similar à seção de correção de espectro de potência 713 na Modalidade 7, a seção de correção de espectro de LPC 822 corrige o espectro de LPC extraído a partir da seção de cálculo de espectro de LPC 821, com base na informação de banda de correção extraída a partir da se- ção de determinação de banda de correção 823, e extrai o espectro de LPC corrigido para a seção de cálculo de coeficiente de redução 824.
A seção de cálculo de coeficiente de redução 824 calcula os co- eficientes de redução de acordo com o método a seguir.
Isto é, a seção de cálculo de coeficiente de redução 824 divide o espectro de LPC de correção extraído a partir da seção de correção de es- pectro de LPC 822 em sub-bandas de uma largura de banda predeterminada e encontra um valor médio por sub-banda dividida. Então, a seção de cálculo de coeficiente de redução 824 seleciona uma sub-banda que tem o valor médio determinado menor do que um valor de limite, e calcula os coeficien- tes (isto é, os valores de vetor) das sub-bandas selecionadas para redução de um espectro decodificado. Por meio disto, é possível atenuar as sub- bandas incluindo as bandas de vales espectrais. Mais ainda, os coeficientes de redução são calculados com base no valor médio das sub-bandas sele- cionadas. Para se ser mais específico, o método de cálculo se refere, por exemplo, ao cálculo dos coeficientes de redução pela multiplicação do valor médio das sub-bandas pelos coeficientes predeterminados. Ainda, com res- peito às sub-bandas tendo valores médios iguais a ou maiores do que um valor de limite predeterminado, os coeficientes que não mudam o espectro decodificado são calculados.
Ainda, os coeficientes de redução não precisam ser coeficientes de LPC e podem ser coeficientes multiplicados pelo espectro decodificado diretamente. Por meio disto, não é necessário realizar um processamento de inversão e um processamento de análise de LPC, de modo que seja possí- vel reduzir a quantidade de cálculo requerida para estes processamentos.
A seção de cálculo de coeficiente de redução 824 pode calcular coeficientes de redução com base no método com base no método a seguir. Isto é, a seção de cálculo de coeficiente de redução 824 divide o espectro de LPC corrigido extraído a partir da seção de correção de espectro de LPC 822 em sub-bandas de uma largura de banda predeterminada e encontra o valor médio por sub-banda dividida. Então, a seção de cálculo de coeficiente de redução 824 encontra a sub-banda tendo o valor médio máximo das sub- bandas e normaliza o valor médio das sub-bandas usando o valor médio das sub-bandas. Os valores médios das sub-bandas após uma normalização são extraídos como coeficientes de redução.
Embora tenha sido descrito um método de extração dos coefici- entes de redução após o espectro ser dividido em sub-bandas predetermi- nadas, os coeficientes de redução podem ser calculados e extraídos por fre- qüência para determinação dos coeficientes de redução mais especificamen- te. Neste caso, a seção de cálculo de coeficiente de redução 824 encontra a freqüência máxima dentre os espectros de LPC corrigido extraídos a partir da seção de correção de espectro de LPC 822 e normaliza o espectro de cada freqüência usando o espectro desta freqüência. O espectro normaliza- do é extraído como coeficientes de redução.
Ainda, quando uma informação de ruído de fundo introduzida a partir da seção de cálculo de coeficiente de redução 824 mostra que "o sinal decodificado de primeira camada contém um ruído de fundo", os coeficientes de redução definitivos calculados conforme descrito acima são determina- dos, de modo que o efeito de atenuação das sub-bandas incluindo as ban- das de vales espectrais diminua de acordo com o nível de ruído de fundo.
Desta forma, pela comutação do processamento de pós-filtro de acordo com se o primeiro sinal decodificado contém ou não um ruído de fundo (se o sinal de entrada contém um ruído de fundo), quando o sinal não contém o ruído de fundo, um ruído no sinal decodificado pode ser tornado menos distinto e, quando o sinal contém um ruído de fundo, a qualidade de banda dos sinais decodificados pode ser aumentada tanto quanto possível, de modo que seja possível gerar os sinais decodificados com melhor qualidade subjetiva.
Desta forma, de acordo com a Modalidade 8, o espectro de LPC calculado a partir dos coeficientes de LPC decodificados é uma envoltória espectral a partir da qual uma informação fina dos sinais decodificados é removida e, ao se encontrarem diretamente os coeficientes de redução com base nesta envoltória espectral, um pós-filtro acurado pode ser realizado por uma quantidade menor de cálculo, de modo que seja possível melhorar a qualidade de fala. Ainda, pela comutação dos coeficientes de redução de- pendendo de o sinal conter ou não um ruído de fundo (isto é, no sinal deco- dificado de primeira camada), é possível gerar sinais decodificados de boa qualidade subjetiva, quando o sinal contiver um ruído de fundo e quando o ruído de fundo não estiver contido.
As modalidades da presente invenção foram descritas.
Ainda, embora tenham sido descritos casos com as Modalidades 1 a 3 e 5 a 8 como exemplos em que o número de camadas é dois ou três, a presente invenção pode ser aplicada a uma codificação escalonável de qualquer número de camadas, desde que o número de camadas seja dois ou mais.
Mais ainda, embora uma codificação escalonável tenha sido descrita com as Modalidades 1 a 3 e 5 a 8 como exemplos, a presente in- venção pode ser aplicada a uma outra codificação em camadas, tal como uma codificação embutida.
Mais ainda, nesta descrição, embora tenham sido descritos ca- sos com as modalidades acima como exemplos em que os sinais de fala são o alvo de codificação, a presente invenção não está limitada a isto e, por exemplo, sinais de áudio podem ser possíveis.
Ainda, nesta descrição, embora tenham sido descritos casos como exemplos em que uma MDCT é usada como uma conversão de fre- qüência, a transformada rápida de Fourier (FFT), a Transformada Discreta de Fourier (DFT), DCT e filtros de sub-banda podem ser usados.
O aparelho de codificação de transformada e o método de codi- ficação de transformada de acordo com a presente invenção não estão limi- tados às modalidades acima e podem ser realizados pela realização de vá- rias modificações.
O aparelho de decodificação escalonável de acordo com a pre- sente invenção pode ser provido em um aparelho de terminal de comunica- ção e um aparelho de estação base em um sistema de comunicação móvel, de modo que seja possível prover um aparelho de terminal de comunicação, um aparelho de estação base e um sistema de comunicação móvel tendo as mesmas vantagens e efeitos conforme descrito acima.
Também, embora tenham sido descritos casos com a modalida- de acima como exemplos em que a presente invenção é configurada por hardware, contudo, a presente invenção também pode ser realizada por software. Por exemplo, é possível implementar as mesmas funções que no aparelho de codificação de transformada da presente invenção pela descri- ção de algoritmos do método de codificação de transformada de acordo com a presente invenção usando-se a linguagem de programação, e executando- se este programa com uma seção de processamento de informação por ar- mazenamento em memória.
Cada bloco de função empregado na descrição de cada uma das modalidades mencionadas anteriormente pode ser implementado, tipi- camente, como um LSI constituído por um circuito integrado. Estes podem ser chips individuais ou estar contidos parcial ou totalmente em um chip único.
"LSI" é adotado aqui, mas isto também pode ser referido como o "IC", o "sistema de LSI", "super-LSI", ou "ultraLSI", dependendo de diferen- tes extensões de integração.
Ainda, o método de integração de circuito não está limitado a LSIs, e uma implementação usando um circuito dedicado ou processadores de finalidade geral também é possível. Após uma fabricação de LSI, a utili- zação de um FPGA (Arranjo de Porta Programável de Campo) ou um pro- cessador reconfigurável em que conexões e regulagens de células de circui- to em um LSI podem ser reconfiguradas também é possível.
Ainda, se uma tecnologia de circuito integrado vier a substituir os LSIs, como resultado do avanço da tecnologia de semicondutor ou um deri- vado de uma outra tecnologia, naturalmente também é possível realizar a integração de bloco de função usando esta tecnologia. Uma aplicação de biotecnologia também é possível.
O presente pedido é baseado no Pedido de Patente Japonesa Ne 2005-300778, depositado em 14 de outubro de 2005 e no Pedido de Pa- tente Japonesa N9 2006-272251, depositado em 3 de outubro de 2006, cujos conteúdos inteiros são expressamente incorporados como referência aqui. Aplicabilidade Industrial
O aparelho de codificação de transformada e o método de codi- ficação de transformada de acordo com a presente invenção podem ser apli- cados a um aparelho de terminal de comunicação e um aparelho de estação base em um sistema de comunicação móvel.

Claims (10)

1. Aparelho de codificação de transformada compreendendo: uma seção de cálculo de fator de escala de entrada que calcula uma pluralidade de fatores de escala de entrada associados a um espectro de entrada; um livro de código que armazena uma pluralidade de fatores de escala e extrai um da pluralidade de fatores de escala; uma seção de cálculo de distorção que calcula distorção entre um da pluralidade de fatores de escala de entrada e o fator de escala extraí- do a partir do livro de código; uma seção de cálculo de distorção ponderada que calcula dis- torção ponderada de modo que a distorção de quando um da pluralidade de fatores de escala de entrada é menor do que o fator de escala extraído a partir do livro de código, é adicionado mais peso do que a distorção de quando um da pluralidade de fatores de escala de entrada é maior do que o fator de escala extraído a partir do livro de código; e uma seção de busca que busca por um fator de escala que mi- nimiza a distorção ponderada no livro de código.
2. Aparelho de codificação de transformada, de acordo com a reivindicação 1, adicionalmente compreendendo uma seção de determina- ção que determina de forma adaptativa um número de bits atribuído na codi- ficação dos fatores de escala de entrada, em que a seção de cálculo de distorção ponderada calcula dis- torção ponderada usando o peso com mais peso, com respeito a um fator de escala de entrada atribuído com um número de bits menor.
3. Aparelho de codificação de transformada, de acordo com a reivindicação 1, adicionalmente compreendendo uma seção de detecção de ruído de fundo que detecta se o espectro de entrada contém ou não um ruído, em que a seção de cálculo de distorção ponderada adiciona mais peso à distorção de quando um da pluralidade de fatores de escala de entrada é menor do que o fator de escala extraído a partir do livro de código do que à distorção de quando um da pluralidade de fatores de escala de en- trada é maior do que os fatores de escala extraídos a partir do livro de códi- go, e calcula a distorção ponderada de modo que menos peso é aplicado conforme um nível de ruído de fundo detectado na seção de detecção de ruído de fundo aumenta.
4. Aparelho de codificação de transformada compreendendo: uma seção de cálculo de primeiro fator de escala que calcula uma pluralidade de primeiros fatores de escala associados a um primeiro espectro; uma seção de cálculo de segundo fator de escala que calcula uma pluralidade de segundos fatores de escala associados a um segundo espectro; um livro de código que armazena uma pluralidade de coeficien- tes de correção e extrai um da pluralidade de coeficientes de correção; uma seção de multiplicação que multiplica um da pluralidade de primeiros fatores de escala pelo coeficiente de correção extraído a partir do livro de código e extrai um da pluralidade de primeiros fatores de escala; uma seção de cálculo de distorção que calcula uma distorção entre um da pluralidade de segundos fatores de escala e o primeiro fator de escala extraído a partir da seção de multiplicação; uma seção de cálculo de distorção ponderada que calcula uma distorção ponderada de modo que à distorção de quando um da pluralidade de segundos fatores de escala é menor do que o primeiro fator de escala extraído a partir da seção de multiplicação é adicionado mais peso do que à distorção de quando um da pluralidade de segundos fatores de escala é maior do que o primeiro fator de escala extraído a partir da seção de multi- plicação; e uma seção de busca que busca por um coeficiente de correção que minimize a distorção ponderada no livro de código.
5. Aparelho de codificação de transformada, de acordo com a reivindicação 4, adicionalmente compreendendo uma seção de cálculo de similaridade que calcula uma similaridade entre o primeiro espectro e o se- gundo espectro, em que a seção de cálculo de distorção ponderada calcula uma distorção ponderada usando o peso com mais peso, com respeito a um se- gundo fator de escala de uma similaridade menor.
6. Aparelho de codificação de transformada, de acordo com a reivindicação 4, adicionalmente compreendendo uma seção de detecção de ruído de fundo que detecta se um ou ambos o primeiro espectro e o segundo espectro contêm ou não um ruído, em que a seção de cálculo de distorção ponderada adiciona mais peso à distorção de quando um da pluralidade de segundos fatores é menor do que o primeiro fator de escala extraído a partir da seção de multi- plicação do que à distorção de quando um da pluralidade de segundos fato- res de escala de entrada é maior do que o primeiro fator de escala extraído a partir da seção de multiplicação, e calcula a distorção ponderada de modo que menos peso seja aplicado conforme um nível de ruído de fundo detecta- do na seção de detecção de ruído de fundo aumenta.
7. Aparelho de terminal de comunicação compreendendo o apa- relho de codificação de transformada conforme definido na reivindicação 1.
8. Aparelho de estação base compreendendo o aparelho de co- dificação de transformada conforme definido na reivindicação 1.
9. Método de codificação de transformada compreendendo s etapas de: calcular uma pluralidade de fatores de escala de entrada associ- ados a um espectro de entrada; selecionar um da pluralidade de fatores de escala a partir de um livro de código que armazena a pluralidade de fatores de escala; calcular distorção entre um da pluralidade de fatores de escala de entrada e o fator de escala selecionado; calcular distorção ponderada, de modo que a distorção de quan- do um da pluralidade de fatores de escala de entrada é menor do que o fator de escala selecionado, é adicionado mais peso do que quando a distorção de um da pluralidade de fatores de escala de entrada é maior do que o fato- res de escala; e buscar por um fator de escala que minimize a distorção ponde- rada no livro de código.
10. Método de codificação de transformada compreendendo as etapas de: calcular uma pluralidade de fatores de escala de entrada associ- ados a um espectro de entrada; selecionar um de uma pluralidade de fatores de escala a partir de um livro de código que armazena a pluralidade de fatores de escala; detectar se o espectro de entrada contém ou não ruído; calcular uma distorção entre um da pluralidade de fatores de es- cala de entrada e o fator de escala selecionado; adicionar mais peso à distorção de quando um da pluralidade de fatores de escala de entrada é menor do que o fator de escala selecionado do que à distorção de quando um da pluralidade de fatores de escala de en- trada é maior do que o fator de escala selecionado, e o cálculo da distorção ponderada de modo que menos peso seja aplicado conforme um nível de ruído de fundo detectado na seção de detecção de ruído de fundo aumentar; e buscar por um fator de escala que minimize a distorção ponde- rada no livro de código.
BRPI0617447-7A 2005-10-14 2006-10-13 codificador de transformada e método de codificação de transformada BRPI0617447A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2005-300778 2005-10-14
JP2005300778 2005-10-14
JP2006272251 2006-10-03
JP2006-272251 2006-10-03
PCT/JP2006/320457 WO2007043648A1 (ja) 2005-10-14 2006-10-13 変換符号化装置および変換符号化方法

Publications (1)

Publication Number Publication Date
BRPI0617447A2 true BRPI0617447A2 (pt) 2012-04-17

Family

ID=37942869

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0617447-7A BRPI0617447A2 (pt) 2005-10-14 2006-10-13 codificador de transformada e método de codificação de transformada

Country Status (8)

Country Link
US (2) US8135588B2 (pt)
EP (1) EP1953737B1 (pt)
JP (1) JP4954080B2 (pt)
KR (1) KR20080047443A (pt)
CN (2) CN101283407B (pt)
BR (1) BRPI0617447A2 (pt)
RU (1) RU2008114382A (pt)
WO (1) WO2007043648A1 (pt)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
CN102804263A (zh) * 2009-06-23 2012-11-28 日本电信电话株式会社 编码方法、解码方法、利用了这些方法的装置、程序
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2500901B1 (en) 2009-11-12 2018-09-19 III Holdings 12, LLC Audio encoder apparatus and audio encoding method
EP2525354B1 (en) * 2010-01-13 2015-04-22 Panasonic Intellectual Property Corporation of America Encoding device and encoding method
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US20130101028A1 (en) * 2010-07-05 2013-04-25 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, device, program, and recording medium
EP2573766B1 (en) * 2010-07-05 2015-03-18 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoding device, decoding device, program, and recording medium
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20130108281A (ko) * 2010-09-10 2013-10-02 파나소닉 주식회사 부호화 장치 및 부호화 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US9558752B2 (en) 2011-10-07 2017-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method
EP2770506A4 (en) * 2011-10-19 2015-02-25 Panasonic Ip Corp America CODING DEVICE AND CODING METHOD
SI2774145T1 (sl) * 2011-11-03 2020-10-30 Voiceage Evs Llc Izboljšane negovorne vsebine v celp dekoderju z nizko frekvenco
WO2013067465A1 (en) * 2011-11-04 2013-05-10 Ess Technology, Inc. Down-conversion of multiple rf channels
JP6179087B2 (ja) * 2012-10-24 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
ES2709329T3 (es) * 2014-04-25 2019-04-16 Ntt Docomo Inc Dispositivo de conversión de coeficiente de predicción lineal y procedimiento de conversión de coeficiente de predicción lineal
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
US10263765B2 (en) * 2016-11-09 2019-04-16 Khalifa University of Science and Technology Systems and methods for low-power single-wire communication
CN108418612B (zh) * 2017-04-26 2019-03-26 华为技术有限公司 一种指示及确定预编码向量的方法和设备
US11133891B2 (en) 2018-06-29 2021-09-28 Khalifa University of Science and Technology Systems and methods for self-synchronized communications
US10951596B2 (en) * 2018-07-27 2021-03-16 Khalifa University of Science and Technology Method for secure device-to-device communication using multilayered cyphers
US11380345B2 (en) * 2020-10-15 2022-07-05 Agora Lab, Inc. Real-time voice timbre style transform
US11457224B2 (en) * 2020-12-29 2022-09-27 Qualcomm Incorporated Interlaced coefficients in hybrid digital-analog modulation for transmission of video data
US11431962B2 (en) 2020-12-29 2022-08-30 Qualcomm Incorporated Analog modulated video transmission with variable symbol rate
US11553184B2 (en) 2020-12-29 2023-01-10 Qualcomm Incorporated Hybrid digital-analog modulation for transmission of video data

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5664054A (en) * 1995-09-29 1997-09-02 Rockwell International Corporation Spike code-excited linear prediction
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3353267B2 (ja) 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法及び復号化方法
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
JP3335605B2 (ja) * 2000-03-13 2002-10-21 日本電信電話株式会社 ステレオ信号符号化方法
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US6842761B2 (en) * 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
JP3952939B2 (ja) * 2001-11-28 2007-08-01 日本ビクター株式会社 可変長符号化データ受信方法及び可変長符号化データ受信装置
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
CN1275222C (zh) * 2001-12-25 2006-09-13 株式会社Ntt都科摩 信号编码装置和信号编码方法
US6947886B2 (en) * 2002-02-21 2005-09-20 The Regents Of The University Of California Scalable compression of audio and other signals
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
CA2464408C (en) * 2002-08-01 2012-02-21 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method for band expansion with aliasing suppression
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
CN1420487A (zh) * 2002-12-19 2003-05-28 北京工业大学 1kb/s线谱频率参数的一步插值预测矢量量化方法
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
JP4365722B2 (ja) 2004-04-08 2009-11-18 株式会社リコー 光り走査装置の製造方法
TWI231656B (en) * 2004-04-08 2005-04-21 Univ Nat Chiao Tung Fast bit allocation algorithm for audio coding
US7490044B2 (en) * 2004-06-08 2009-02-10 Bose Corporation Audio signal processing
JP4774223B2 (ja) 2005-03-30 2011-09-14 株式会社モノベエンジニアリング ストレーナーシステム
AU2006232364B2 (en) * 2005-04-01 2010-11-25 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
TWI271703B (en) * 2005-07-22 2007-01-21 Pixart Imaging Inc Audio encoder and method thereof
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US7873514B2 (en) * 2006-08-11 2011-01-18 Ntt Docomo, Inc. Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns

Also Published As

Publication number Publication date
CN102623014A (zh) 2012-08-01
EP1953737A1 (en) 2008-08-06
EP1953737A4 (en) 2011-11-09
US20090281811A1 (en) 2009-11-12
CN101283407A (zh) 2008-10-08
US8311818B2 (en) 2012-11-13
US8135588B2 (en) 2012-03-13
EP1953737B1 (en) 2012-10-03
JP4954080B2 (ja) 2012-06-13
US20120136653A1 (en) 2012-05-31
JPWO2007043648A1 (ja) 2009-04-16
KR20080047443A (ko) 2008-05-28
CN101283407B (zh) 2012-05-23
RU2008114382A (ru) 2009-10-20
WO2007043648A1 (ja) 2007-04-19

Similar Documents

Publication Publication Date Title
BRPI0617447A2 (pt) codificador de transformada e método de codificação de transformada
JP6570151B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
JP7214726B2 (ja) ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
JP5247826B2 (ja) 復号化音調音響信号を増強するためのシステムおよび方法
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
McLoughlin Line spectral pairs
BR122022010960B1 (pt) Aparelho e método para codificar e decodificar um sinal de áudio codificado utilizando modulação de correção/ruído temporal
BRPI0721079A2 (pt) Dispositivo de codificação, dispositivo de decodificação e método dos mesmos
KR20110085939A (ko) 오디오 신호의 디코딩 방법 및 장치
CN110853659B (zh) 用于对音频信号进行编码的量化装置
WO2005111568A1 (ja) 符号化装置、復号化装置、およびこれらの方法
BR122020017853B1 (pt) Sistema e aparelho para codificar um sinal de voz em um fluxo de bits, e método e aparelho para decodificar sinal de áudio
KR101801758B1 (ko) 낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 오디오 분류
BRPI0808202A2 (pt) Dispositivo de codificação e método de codificação.
JPWO2008084688A1 (ja) 符号化装置、復号装置及びこれらの方法
CN111968656A (zh) 信号编码方法和装置以及信号解码方法和装置
CN111105807B (zh) 对线性预测编码系数进行量化的加权函数确定装置和方法
US20100280830A1 (en) Decoder
Ragot et al. Low complexity LSF quantization for wideband speech coding
WO2022147615A1 (en) Method and device for unified time-domain / frequency domain coding of a sound signal
WO2023198925A1 (en) High frequency reconstruction using neural network system

Legal Events

Date Code Title Description
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE AS 4A E 5A ANUIDADES.

B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]

Free format text: REFERENTE AO DESPACHO 8.6 PUBLICADO NA RPI 2161 DE 05/06/2012.