BRPI0808202A2 - Dispositivo de codificação e método de codificação. - Google Patents

Dispositivo de codificação e método de codificação. Download PDF

Info

Publication number
BRPI0808202A2
BRPI0808202A2 BRPI0808202-2A BRPI0808202A BRPI0808202A2 BR PI0808202 A2 BRPI0808202 A2 BR PI0808202A2 BR PI0808202 A BRPI0808202 A BR PI0808202A BR PI0808202 A2 BRPI0808202 A2 BR PI0808202A2
Authority
BR
Brazil
Prior art keywords
coding
fixed waveform
fixed
amplitude
section
Prior art date
Application number
BRPI0808202-2A
Other languages
English (en)
Inventor
Toshiyuki Morii
Masahiro Oshikiri
Tomofumi Yamanashi
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Publication of BRPI0808202A2 publication Critical patent/BRPI0808202A2/pt
Publication of BRPI0808202A8 publication Critical patent/BRPI0808202A8/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

Relatório Descritivo da Patente de Invenção para "DISPOSITIVO DE CODIFICAÇÃO E MÉTODO DE CODIFICAÇÃO".
Campo Técnico
A presente invenção refere-se a um aparelho de codificação e a um método de codificação para a codificação de sinais de fala e de sinais de áudio.
Técnica Antecedente
Em comunicações móveis, é necessário comprimir e codificar uma informação digital, tal como fala e imagens para uso eficiente de uma capacidade de canal de rádio e meios de armazenamento para ondas de rádio, e muitos esquemas de codificação e de decodificação foram desenvolvidos até agora.
Dentre estes, a performance de uma tecnologia de codificação de fala tem sido melhorada significativamente pelo esquema fundamental de 15 "CELP (Code Excited Linear Prediction -predição linear excitada por código)", a qual adota de forma hábil uma quantificação de vetor pela modelagem do sistema de trato vocal de fala. Ainda, a performance de uma tecnologia de codificação de som, tal como uma codificação de áudio foi melhorada significativamente por técnicas de codificação de transformada (tais como 20 ACC de MPEG-padrão e MP3).
Em uma codificação de sinal de fala com base no esquema de CELP e outros, um sinal de fala frequentemente é representado por uma excitação e um filtro de síntese. Se um vetor tendo um formato similar a um sinal de excitação, o qual é uma seqüência de vetor de domínio de tempo, 25 puder ser decodificado, será possível produzir uma forma de onda similar a uma fala introduzida através de um filtro de síntese, e obter uma boa qualidade perceptiva. Isto é a característica qualitativa que levou ao sucesso do livro de código algébrico usado em CELP.
Por outro lado, em um Codec (codificador - decodificador) escalável, cuja padronização está em andamento pela ITU-T (União de Telecomunicação Internacional - Setor de Padronização de Telecomunicação) e outros, é projetado para cobrir da banda de fala convencional (300 Hz a 3,4 kHz) até uma banda larga (de até 7 kHz), com sua taxa de bit regulada tão alta quanto até aproximadamente 32 kbps. Isto é, um codificador - decodificador de banda larga tem que aplicar uniformemente um certo grau de codificação a um áudio e, portanto, não pode ser suportado apenas por mé5 todos convencionais de codificação de fala de taxa de bit baixa, com base no modelo de voz humana, tal como CELP. Agora, a norma da ITU-T G.729.1, declarada anteriormente como uma recomendação, usa um esquema de codificação de Codec (codificador - decodificador) de áudio de codificação de transformada, para a codificação da fala de uma banda larga e acima.
O Documento de Patente 1 mostra um esquema de codificação
de um espectro de frequência que utiliza parâmetros espectrais e parâmetros tonais, por meio do que uma transformada ortogonal e uma codificação de um sinal adquirido por uma filtração inversa de um sinal de fala são realizadas com base em parâmetros espectrais, e mostra, mais ainda, como um 15 exemplo de codificação, um método de codificação com base em livros de código de estrutura algébricas.
Documento de Patente 1: Pedido de Patente Japonesa Aberta N0 em inspeção pública HE110-260698.
Exposição da Invenção Problemas a Serem Resolvidos pela Invenção
Contudo, em um esquema convencional de codificação de um espectro de frequência, uma informação de bit limitada é alocada à informação de posição de pulso. Por outro lado, esta informação de bit limitada não é alocada a uma informação de amplitude dos pulsos, e a amplitude de to25 dos os pulsos é fixada. Consequentemente, permanece uma distorção de codificação.
Portanto, é um objetivo da presente invenção prover um aparelho de codificação e um método de codificação que possam reduzir uma distorção de codificação média se comparado a um esquema convencional e obter uma boa qualidade perceptiva, em um esquema de codificação de um espectro de frequência.
Meios para Resolução do Problema O aparelho de codificação da presente invenção que modela e codifica um espectro de frequência com uma pluralidade de formas de onda fixas, emprega uma configuração que tem: uma seção de quantificação de formato que busca e codifica posições e polaridades das formas de onda 5 fixas; e uma seção de quantificação de ganho que codifica ganhos das formas de onda fixas, e na qual, mediante uma busca pelas posições das formas de onda fixas, a seção de quantificação de formato regula uma amplitude de uma forma de onda fixa a buscar mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa buscada anterior10 mente.
O método de codificação da presente invenção inclui de modelagem e codificação de um espectro de frequência com uma pluralidade de formas de onda fixas inclui: uma etapa de quantificação de formato de busca e codificação de posições e polaridades das formas de onda fixas; e uma 15 etapa de quantificação de ganho de codificação de ganhos das formas de onda fixas, e no qual, mediante uma busca pelas posições das formas de onda fixas, a etapa de quantificação de formato compreende a regulagem de uma amplitude de uma forma de onda fixa para busca mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa bus20 cada anteriormente.
Efeitos Vantajosos da Invenção
De acordo com a presente invenção, em um esquema de codificação de um espectro de frequência, pela regulagem da amplitude de um pulso para busca mais tarde, para ser igual a ou mais baixo do que a ampli25 tude de um pulso buscado anteriormente, é possível reduzir a distorção de codificação média, se comparado a um esquema convencional, e prover uma qualidade de aparelho de obturação mecânica alta, mesmo em uma taxa de bit baixa.
Breve Descrição dos Desenhos A figura 1 é um diagrama de blocos que mostra a configuração
de um aparelho de codificação de fala de acordo com uma modalidade da presente invenção; a figura 2 é um diagrama de blocos que mostra a configuração de um aparelho de decodificação de fala de acordo com uma modalidade da presente invenção;
a figura 3 é um fluxograma que mostra o algoritmo de busca de uma seção de quantificação de formato de acordo com uma modalidade da presente invenção; e
a figura 4 é um diagrama de exemplo representado por pulsos a buscar por uma seção de quantificação de formato de acordo com uma modalidade da presente invenção.
Melhor Modo para Realização da Invenção
Em uma codificação de sinal de fala com base no esquema de CELP e outros, um sinal de fala frequentemente é representado por uma excitação e um filtro de síntese. Se um vetor tendo um formato similar a um sinal de excitação, o qual é uma seqüência de vetor de domínio de tempo, 15 puder ser decodificado, será possível produzir uma forma de onda similar a uma fala introduzida através de um filtro de síntese, e obter uma boa qualidade perceptiva. Isto é a característica qualitativa que levou ao sucesso do livro de código algébrico usado em CELP.
Por outro lado, no caso de uma codificação de espectro de fre20 quência (vetor), um filtro de síntese tem ganhos espectrais como seus componentes e, portanto, a distorção das frequências (isto é, posições) de componentes de potência grande) é mais significativa do que a distorção destes ganhos. Isto é, pela busca por posições de energia alta e pela decodificação dos pulsos nas posições de energia alta, ao invés de uma decodificação de 25 um vetor tendo um formato similar para um espectro de entrada, é mais provável de obter uma boa qualidade perceptiva.
Portanto, uma codificação de espectro de frequência emprega um modelo de codificação de uma frequência por um número pequeno de pulsos e emprega um método de busca por pulsos em um laço aberto no intervalo de frequência do alvo de codificação.
Os presentes inventores se concentraram no ponto em que, uma vez que os pulsos são selecionados em ordem de pulsos que reduzem uma distorção, um pulso a buscar mais tarde tem um valor de expectativa mais baixo, e chegaram à presente invenção. Isto é, um recurso da presente invenção está na regulagem da amplitude de um pulso a buscar mais tarde, para ser igual a ou menor do que a amplitude de um pulso buscado anteri5 ormente.
Uma modalidade da presente invenção será explicada abaixo, usando-se os desenhos associados.
A figura 1 é um diagrama de blocos que mostra a configuração do aparelho de codificação de fala de acordo com a presente modalidade. O 10 aparelho de codificação de fala mostrado na figura 1 é provido com uma seção de análise de LPC 101, uma seção de quantificação de LPC 102, um filtro inverso 103, uma seção de transformada ortogonal 104, uma seção de codificação de espectro 105 e uma seção de multiplexação 106. A seção de codificação de espectro 105 é provida com uma seção de quantificação de 15 formato 111 e uma seção de quantificação de ganho 112.
A seção de análise de LPC 101 realiza uma análise de predição linear de um sinal de fala de entrada e extrai um parâmetro de envoltória espectral para a seção de quantificação de LPC 102 como um resultado de análise. A seção de quantificação de LPC 102 realiza um processamento de 20 quantificação do parâmetro de envoltória espectral (LPC: coeficiente de predição linear) extraído a partir da seção de análise de LPC 101, e extrai um código que representa o LPC de quantificação para a seção de multiplexação 106. Ainda, a seção de quantificação de LPC 102 extrai parâmetros decodificados adquiridos pela decodificação do código que representa o LPC 25 quantificação para o filtro inverso 103. Aqui, a quantificação de parâmetro pode empregar uma quantificação de vetor ("VQ"), uma quantificação de predição, uma VQ de estágio múltiplo, uma VQ dividida e outros modos.
O filtro inverso 103 filtra ao inverso uma fala de entrada usando os parâmetros decodificados e extrai a componente residual resultante para a seção de transformada ortogonal 104.
A seção de transformada ortogonal 104 aplica uma janela de combinação, tal como uma janela seno, à componente residual, realiza uma transformada ortogonal usando MDCT, e extrai um espectro transformado em um espectro de domínio de frequência (a partir deste ponto, um "espectro de entrada") para a seção de codificação de espectro 105. Aqui, a transformada ortogonal pode empregar outras transformadas, tais como FFT, KLT 5 e transformada de ondulação, e, embora seu uso varie, é possível transformar a componente residual em um espectro de entrada usando-se qualquer uma destas.
Aqui, a ordem de processamento entre o filtro inverso 103 e a seção de transformada ortogonal 104 pode ser revertida. Isto é, pela divisão da fala de entrada submetida a uma transformada ortogonal pelo espectro de frequência de um filtro inverso (isto é, uma subtração no eixo logarítmico), é possível produzir o mesmo espectro de entrada.
A seção de codificação de espectro 105 divide o espectro de entrada pela quantificação do formato e do ganho do espectro separada15 mente, e extrai os códigos de quantificação resultantes para a seção de multiplexação 106. A seção de quantificação de formato 111 quantifica o formato do espectro de entrada usando um número pequeno de posições de pulso e polaridades, e a seção de quantificação de ganho 112 calcula e quantifica os ganhos dos pulsos buscados pela seção de quantificação de formato 111, 20 em uma base por banda. A seção de quantificação de formato 111 e a seção de quantificação de ganho 112 serão descritas mais tarde em detalhes.
A seção de multiplexação 106 recebe como uma entrada um código que representa o LPC de quantificação da seção de quantificação de LPC 102 e um código que representa o espectro de entrada quantificado da seção de codificação de espectro 105, multiplexa esta informação e extrai o resultado para o canal de transmissão como uma informação de codificação.
A figura 2 é um diagrama de blocos que mostra a configuração do aparelho de decodificação de fala de acordo com a presente modalidade. O aparelho de decodificação de fala mostrado na figura 2 é provido com a 30 seção de demultiplexação 201, a seção de decodificação de parâmetro 202, a seção de decodificação de espectro 203, a seção de transformada ortogonal 204 e o filtro de síntese 205. Na figura 2, uma informação de codificação é demultiplexada em códigos individuais na seção de demultiplexação 201. O código que representa o LPC quantificado é extraído para a seção de decodificação de parâmetro 202, e o código do espectro de entrada é extraído para a seção de decodificação de espectro 203.
A seção de decodificação de parâmetro 202 decodifica o parâmetro de espectro de entrada e extrai o parâmetro decodificado resultante para o filtro de síntese 205.
A seção de decodificação de espectro 203 decodifica o vetor de 10 formato e o ganho pelo método que suporta o método de codificação na seção de codificação de espectro 105 mostrada na figura 1, adquire um espectro decodificado pela multiplicação do vetor de formato decodificado pelo ganho decodificado, e extrai o espectro decodificado para a seção de transformada ortogonal 204.
A seção de transformada ortogonal 204 realiza uma transforma
da inversa do espectro decodificado extraído a partir da seção de decodificação de espectro 203 comparada à seção de transformada ortogonal 104 mostrada na figura 1, e extrai o sinal residual decodificado de série no tempo resultante para o filtro de síntese 205.
O filtro de síntese 205 produz uma fala de saída pela aplicação
de uma filtração de síntese ao sinal residual decodificado extraído a partir da seção de transformada ortogonal 204, usando-se o parâmetro decodificado extraído a partir da seção de decodificação de parâmetro 202.
Aqui, para se reverter a ordem de processamento entre o filtro 25 inverso 103 e a seção de transformada ortogonal 104 mostrados na Flg. 1, o aparelho de decodificação de fala na figura 2 multiplica o espectro decodificado por um espectro de frequência do parâmetro decodificado (isto é, uma adição no eixo logarítmico) e realiza uma transformada ortogonal do espectro resultante.
Em seguida, a seção de quantificação de formato 111 e a seção
de quantificação de ganho 112 serão explicadas em detalhes.
A seção de quantificação de formato 111 busca a posição e a polaridade (+/-) de um pulso em uma base um a um pela totalidade de um intervalo de busca predeterminado.
A equação 1 a seguir provê uma referência para a busca. Aqui, na equação 1, E representa a distorção de codificação, Sj representa o es5 pectro de entrada, g é o ganho ótimo, δ é a função delta, p representa a posição de pulso, Yb representa a amplitude de pulso, e b representa o número de pulso. A seção de quantificação de formato 111 regula a amplitude de um pulso para busca mais tarde, para ser igual a ou mais baixo do que a amplitude de um pulso buscado anteriormente.
[1]
ε = Σ ί*ί~Σ S/bW-Pb)}2 ...(Equação 1)
i b
A partir da equação 1 acima, a posição de pulso para minimização da função de custo é a posição na qual o valor absoluto |sp| do espectro de entrada em cada banda é máximo, e sua polaridade é a polaridade do valor de espectro de entrada na posição daquele pulso.
De acordo com a presente modalidade, a amplitude de um pulso
a buscar é determinada de antemão, com base na busca de pulsos. A amplitude de pulso é regulada de acordo com, por exemplo, as etapas a seguir. (1) Em primeiro lugar, as amplitudes de todos os pulsos são reguladas para "1,0".
Ainda, "n" é regulado para "2" como o valor inicial. (2) Pela redu
ção da amplitude do enésimo pulso pouco a pouco e pela codificação / decodificação de dados de aprendizado, o valor no qual o desempenho (tal como uma relação S/N e SD (distância de espectro)), é um pico. Neste caso, assuma que as amplitudes dos (n+1)-ésimos pulsos posteriores são as mes25 mas que aquela do enésimo pulso. (3) Todas as amplitudes com a melhor performance são fixadas, e n = n+1 se mantém. (4) O processamento de (2) acima a (3) é repetido até n ser igual ao número de pulsos.
Um caso de exemplo será explicado abaixo, onde o comprimento de vetor de um espectro de entrada é de sessenta e quatro amostras (seis bits) e o espectro é codificado com cinco pulsos. Neste exemplo, seis bits são requeridos para se mostrar a posição de pulso (entradas de posição: 16) e um bit é requerido para se mostrar uma polaridade (+/-) requerendo trinta e cinco bits de bits de informação no total.
O fluxo do algoritmo de busca da seção de quantificação de formato 111 é mostrado na figura 3. Aqui, os símbolos usados no fluxograma 5 da figura 3 significam os conteúdos a seguir:
c: posição de pulso pos[b]: resultado de busca (posição) Pol[b]: resultado de busca (polaridade) s[i]: espectro de frequência x: termo de numerador Y- termo de denominador dn_mx: termo de numerador máximo cc:mx termo de denominador máximo dn: termo de numerador buscado anteriormente cc: termo de denominador buscado anteriormente b: número de posição Y[b]: amplitude de pulso A figura 3 ilustra o algoritmo de busca pela posição da energia mais alta e elevação de um pulso na posição primeiramente e, então, a busca por um próximo pulso não para elevação de dois pulsos na mesma posição (veja a marca na figura 3). Aqui, no algoritmo da figura 3, o denominador "y" depende apenas do número "b" e, consequentemente, pelo cálculo deste valor de antemão, é possível simplificar o algoritmo da figura 3.
Um exemplo de um espectro representando pelos pulsos busca25 dos pela seção de quantificação de formato 111 será mostrado na figura 4. Aqui, a figura 4 ilustra um caso em que os pulsos P1 a P5 são buscados em ordem. Conforme mostrado na figura 4, a presente modalidade regula a amplitude de um pulso a buscar mais tarde, para ser igual a ou mais baixo do que a amplitude buscada anteriormente. As amplitudes de pulsos a buscar 30 são determinadas de antemão com base na ordem de busca dos pulsos, de modo que é necessário usar os bits de informação para representação das amplitudes, e é possível tornar a quantidade geral de bits de informação a mesma que no caso de fixação de amplitudes.
A seção de quantificação de ganho 112 analisa a correlação entre uma seqüência de pulso decodificada e um espectro de entrada, e calcula um ganho ideal. O ganho ideal "g" é calculado pela equação 2 a seguir.
Aqui, na equação 2, s(i) representa o espectro de entrada e v(i) representa um vetor adquirido pela decodificação do formato.
[2]
YjS(I)XV(J)
£ = · · (Equação 2)
2^ν0)χν(ζ)
i
Ainda, a seção de quantificação de ganho 112 calcula os ganhos ideais e, então, realiza uma codificação por uma quantificação de escalar 10 ("SQ") ou realiza uma quantificação de vetor. No caso da realização de uma quantificação de vetor, é possível realizar uma codificação eficiente por uma quantificação de predição, uma VQ de estágio múltiplo, uma VQ dividida e assim por diante. Aqui, o ganho pode ser ouvido de forma perceptiva com base em uma escala logarítmica e, consequentemente, pela realização de 15 uma SQ ou de uma VQ após a realização da transformada logarítmica de ganho, é possível produzir um som de síntese perceptivamente bom.
Assim, de acordo com a presente modalidade, em um esquema de codificação de um espectro de frequência, pela regulagem da amplitude de um pulso a buscar mais tarde para ser igual a ou mais baixa do que a 20 amplitude de um pulso buscado anteriormente, é possível reduzir a distorção de codificação média, se comparado a um esquema convencional e obter uma boa qualidade de som, mesmo no caso de uma taxa de bit baixa.
Ainda, pela aplicação da presente invenção a um caso de agrupamento de amplitudes de pulso e busca pelos grupos de uma maneira a25 berta, é possível melhorar o desempenho. Por exemplo, quando oito pulsos no total são agrupados em cinco pulsos e três pulsos, cinco pulsos são buscados e fixados primeiramente e, então, o restante dos três pulsos é buscado, as amplitudes dos três últimos pulsos sendo igualmente reduzidas. É provado experimentalmente que, pela regulagem das amplitudes dos cinco 30 pulsos buscados primeiramente para [1,0, 1,0, 1,0, 1,0, 1,0] e pela regulagem dos três pulsos buscados mais tarde para [0,8, 0,8, 0,8], é possível melhorar o desempenho, se comparada a um caso de regulagem de todos os pulsos para "1,0".
Ainda, pela regulagem das amplitudes dos cinco pulsos busca5 dos primeiramente para "1,0", a multiplicação das amplitudes não é necessária, desse modo se suprimindo a quantidade de cálculos.
Ainda, embora tenha sido descrito acima um caso com a presente modalidade em que uma codificação de ganho é realizada após uma codificação de formato, a presente invenção pode prover o mesmo desempenho se uma codificação de formato for realizada após uma codificação de ganho.
Ainda, embora um caso de exemplo tenha sido descrito com a modalidade acima, em que o comprimento de um espectro é de sessenta e quadro e o número de pulsos é cinco quando da quantificação de formato do espectro, a presente invenção não depende dos valores numéricos acima e pode prover os mesmos efeitos com outros valores numéricos.
Ainda, pode ser possível empregar um método de realização de uma codificação de ganho em uma base por banda e, então, uma normalização do espectro pelos ganhos decodificados, e realizar uma codificação de formato da presente invenção. Por exemplo, se o processamento de 20 s[pos[b]]=0, dn=dn_mx e cc=cc_mx não for realizado, é possível elevar uma pluralidade de pulsos na mesma posição. Contudo, se uma pluralidade de pulsos ocorrer na mesma posição, suas amplitudes poderão aumentar e, portanto, será necessário checar o número de pulsos em cada posição e calcular o termo de denominador de forma acurada.
Ainda, embora uma codificação por pulsos seja realizada para
um espectro submetido a uma transformada ortogonal na presente modalidade, a presente invenção não está limitada a isto, e também é aplicável a outros vetores. Por exemplo, a presente invenção pode ser aplicada a vetores de número complexo na FFT ou DCT complexa, e pode ser aplicada a 30 uma seqüência de vetor de domínio de tempo na transformada de ondulação, ou similar. Ainda, a presente invenção também é aplicável a uma seqüência de vetor de domínio de tempo como formas de onda de excitação de CELP. Como formas de onda de excitação de CELP, um filtro de síntese está envolvido e, portanto, uma função de custo envolve um cálculo de matriz. Aqui, o desempenho não é suficiente por uma busca em um laço aberto, quando um filtro estiver envolvido e, portanto, uma busca de laço fechado 5 precisará ser realizada em algum grau. Quando há muitos pulsos, é efetivo usar uma busca de feixe ou similar, para redução dos cálculos.
Ainda, de acordo com a presente invenção, uma forma de onda para busca não está limitada a um pulso (impulso), e é igualmente possível buscar mesmo outras formas de onda fixas (tal como um pulso duplo, uma 10 onda triangular, uma onda finita de resposta de impulso, um coeficiente de filtro e formas de onda fixas que mudam o formato de forma adaptativa) e produzir o mesmo efeito.
Ainda, embora tenha sido descrito um caso como a presente modalidade em que a presente invenção é aplicada a CELP, a presente invenção não está limitada a isto, mas é efetiva com outros Codecs (codificadores - decodificadores).
Ainda, não apenas um sinal de fala, mas também um sinal de áudio pode ser usado como o sinal de acordo com a presente invenção. Também é possível empregar uma configuração na qual a presente invenção é aplicada um sinal residual de predição de LPC, ao invés de um sinal de entrada.
O aparelho de codificação e o aparelho de decodificação de acordo com a presente invenção podem ser montados em um aparelho de terminal de comunicação e um aparelho de estação base em um sistema de 25 comunicação móvel, de modo que seja possível prover um aparelho de terminal de comunicação, um aparelho de estação base e um sistema de comunicação móvel tendo o mesmo efeito operacional que acima.
Embora tenha sido descrito um caso com a modalidade acima como um exemplo em que a presente invenção é implementada com hardware, a presente invenção pode ser implementada com software. Por exemplo, pela descrição do algoritmo de acordo com a presente invenção em uma linguagem de programação, pelo armazenamento deste programa em uma memória e se fazendo com que a seção de processamento de informação execute este programa, é possível implementar a mesma função como no aparelho de codificação de acordo com a presente invenção.
Mais ainda, cada bloco de função empregado na descrição de 5 cada uma das modalidades mencionadas anteriormente tipicamente pode ser implementado como um LSI constituído por um circuito integrado. Estes podem ser chips individuais ou contidos parcial ou totalmente em um chip único.
"LSI" é adotado aqui, mas também pode ser referido como "IC", "LSI de sistema", "super-LSI" ou "ultra-LSI", dependendo de extensões diferentes de integração.
Ainda, o método de integração de circuito não está limitado aos LSIs e uma implementação usando um circuito dedicado ou processadores de finalidade geral também é possível. Após uma fabricação de LSI, a utili15 zação de um FPGA (arranjo de porta programável de campo) ou de um processador reconfigurável em que conexões e regulagens de células de circuito em um LSI podem ser reconfiguradas também é possível.
Ainda, se uma tecnologia de circuito integrado vier a substituir os LSIs como resultado do avanço na tecnologia de semicondutor ou um derivado de outra tecnologia, naturalmente também é possível realizar a integração de bloco de função usando esta tecnologia. Uma aplicação em biotecnologia também é possível.
A descrição do Pedido de Patente Japonesa N0 2007-053500, depositado em 2 de março de 2007, incluindo o relatório descritivo, os desenhos e o resumo, é incorporada aqui como referência em sua totalidade. Aplicabilidade Industrial
A presente invenção é adequada para um aparelho de codificação que codifica sinais de fala e sinais de áudio, e um aparelho de decodificação que decodifica estes sinais codificados.

Claims (5)

1. Aparelho de codificação que modela e codifica um espectro de frequência com uma pluralidade de formas de onda fixas, o aparelho compreendendo: uma seção de quantificação de formato que busca e codifica posições e polaridades das formas de onda fixas; e uma seção de quantificação de ganho que codifica ganhos das formas de onda fixas, em que, mediante uma busca pelas posições das formas de onda fixas, a seção de quantificação de formato regula uma amplitude de uma forma de onda fixa a buscar mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa buscada anteriormente.
2. Aparelho de codificação, de acordo com a reivindicação 1, em que a seção de quantificação de formato busca pelas formas de onda fixas pela avaliação de uma distorção de codificação por um ganho ideal.
3. Aparelho de codificação, de acordo com a reivindicação 1, em que mediante uma busca por posições das formas de onda fixas em grupos, a seção de quantificação de formato regula amplitudes de um grupo de forma de onda fixa a buscar mais tarde para serem iguais a ou mais baixas do que amplitudes de um grupo de forma de onda fixa buscado anteriormente.
4. Aparelho de codificação, de acordo com a reivindicação 1, em que a seção de quantificação de formato busca pelas posições das formas de onda fixas usando uma amplitude predeterminada.
5. Método de codificação de modelagem e codificação de um espectro de frequência com uma pluralidade de formas de onda fixas, o método compreendendo: uma etapa de quantificação de formato de busca e codificação de posições e polaridades das formas de onda fixas; e uma etapa de quantificação de ganho de codificação de ganhos das formas de onda fixas, em que, mediante uma busca pelas posições das formas de onda fixas, a etapa de quantificação de formato compreende a regulagem de uma amplitude de uma forma de onda fixa para busca mais tarde, para ser igual a ou mais baixa do que uma amplitude de uma forma de onda fixa buscada anteriormente.
BRPI0808202A 2007-03-02 2008-02-29 Dispositivo de codificação e método de codificação. BRPI0808202A8 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007-053500 2007-03-02
JP2007053500 2007-03-02
PCT/JP2008/000400 WO2008108078A1 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Publications (2)

Publication Number Publication Date
BRPI0808202A2 true BRPI0808202A2 (pt) 2014-07-01
BRPI0808202A8 BRPI0808202A8 (pt) 2016-11-22

Family

ID=39737976

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0808202A BRPI0808202A8 (pt) 2007-03-02 2008-02-29 Dispositivo de codificação e método de codificação.

Country Status (11)

Country Link
US (1) US8306813B2 (pt)
EP (1) EP2120234B1 (pt)
JP (1) JP5241701B2 (pt)
KR (1) KR101414341B1 (pt)
CN (2) CN101622665B (pt)
AU (1) AU2008222241B2 (pt)
BR (1) BRPI0808202A8 (pt)
MY (1) MY152167A (pt)
RU (1) RU2462770C2 (pt)
SG (1) SG179433A1 (pt)
WO (1) WO2008108078A1 (pt)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2729751C (en) * 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
WO2010093224A2 (ko) * 2009-02-16 2010-08-19 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
CN103620672B (zh) 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
MY164797A (en) 2011-02-14 2018-01-30 Fraunhofer Ges Zur Foederung Der Angewandten Forschung E V Apparatus and method for processing a decoded audio signal in a spectral domain
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
EP2676266B1 (en) 2011-02-14 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CN103946918B (zh) * 2011-09-28 2017-03-08 Lg电子株式会社 语音信号编码方法、语音信号解码方法及使用其的装置
KR102083450B1 (ko) 2012-12-05 2020-03-02 삼성전자주식회사 페이지 버퍼를 포함하는 불휘발성 메모리 장치 및 그것의 동작 방법
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL153045B (nl) * 1966-03-05 1977-04-15 Philips Nv Filter voor analoge signalen.
JPH0738116B2 (ja) * 1986-07-30 1995-04-26 日本電気株式会社 マルチパルス符号化装置
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
JP3041325B1 (ja) * 1992-09-29 2000-05-15 三菱電機株式会社 音声符号化装置及び音声復号化装置
JP3024455B2 (ja) 1992-09-29 2000-03-21 三菱電機株式会社 音声符号化装置及び音声復号化装置
US5568588A (en) * 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
US5642241A (en) * 1994-10-31 1997-06-24 Samsung Electronics Co., Ltd. Digital signal recording apparatus in which interleaved-NRZI modulated is generated with a lone 2T precoder
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
JP3360545B2 (ja) * 1996-08-26 2002-12-24 日本電気株式会社 音声符号化装置
CA2213909C (en) * 1996-08-26 2002-01-22 Nec Corporation High quality speech coder at low bit rates
JP3266178B2 (ja) * 1996-12-18 2002-03-18 日本電気株式会社 音声符号化装置
JP3147807B2 (ja) 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
US6208962B1 (en) 1997-04-09 2001-03-27 Nec Corporation Signal coding system
JP3185748B2 (ja) * 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
WO1999021174A1 (en) * 1997-10-22 1999-04-29 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder
JP3180762B2 (ja) * 1998-05-11 2001-06-25 日本電気株式会社 音声符号化装置及び音声復号化装置
US6973424B1 (en) * 1998-06-30 2005-12-06 Nec Corporation Voice coder
JP3319396B2 (ja) * 1998-07-13 2002-08-26 日本電気株式会社 音声符号化装置ならびに音声符号化復号化装置
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP2001075600A (ja) * 1999-09-07 2001-03-23 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP3954050B2 (ja) * 2004-07-09 2007-08-08 三菱電機株式会社 音声符号化装置及び音声符号化方法
BRPI0607303A2 (pt) * 2005-01-26 2009-08-25 Matsushita Electric Ind Co Ltd dispositivo de codificação de voz e método de codificar voz
CN101167124B (zh) * 2005-04-28 2011-09-21 松下电器产业株式会社 语音编码装置和语音编码方法
RU2007139784A (ru) * 2005-04-28 2009-05-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство кодирования звука и способ кодирования звука
JP2007053500A (ja) 2005-08-16 2007-03-01 Oki Electric Ind Co Ltd 信号発生回路
JP5025485B2 (ja) * 2005-10-31 2012-09-12 パナソニック株式会社 ステレオ符号化装置およびステレオ信号予測方法
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007119368A1 (ja) * 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法

Also Published As

Publication number Publication date
EP2120234A4 (en) 2011-08-03
MY152167A (en) 2014-08-15
CN102682778B (zh) 2014-10-22
JP5241701B2 (ja) 2013-07-17
EP2120234A1 (en) 2009-11-18
CN101622665A (zh) 2010-01-06
US20100106496A1 (en) 2010-04-29
JPWO2008108078A1 (ja) 2010-06-10
SG179433A1 (en) 2012-04-27
KR20090117876A (ko) 2009-11-13
WO2008108078A1 (ja) 2008-09-12
US8306813B2 (en) 2012-11-06
EP2120234B1 (en) 2016-01-06
AU2008222241A1 (en) 2008-09-12
BRPI0808202A8 (pt) 2016-11-22
CN102682778A (zh) 2012-09-19
AU2008222241B2 (en) 2012-11-29
KR101414341B1 (ko) 2014-07-22
CN101622665B (zh) 2012-06-13
RU2009132937A (ru) 2011-03-10
RU2462770C2 (ru) 2012-09-27

Similar Documents

Publication Publication Date Title
BRPI0808202A2 (pt) Dispositivo de codificação e método de codificação.
BR112020008216A2 (pt) aparelho e seu método para gerar um sinal de áudio intensificado, sistema para processar um sinal de áudio
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
ES2705589T3 (es) Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia
BRPI0808198A2 (pt) Dispositivo de codificação e método de codificação
JP6470857B2 (ja) 音声処理のための無声/有声判定
BRPI0715516A2 (pt) sistemas, mÉtodos e equipamentos para limitar fator de ganho
BRPI0923749B1 (pt) Aparelho que decodifica um sinal de áudio, métodos para a decodificação e para a codificação de um sinal de áudio
BRPI0720266A2 (pt) Dispositivo de decodificação de aúdio e método de ajuste de potência
US20190214031A1 (en) Vector quantization of algebraic codebook with high-pass characteristic for polarity selection
CA2810995A1 (en) Quantization device and quantization method
US20100049508A1 (en) Audio encoding device and audio encoding method
JPWO2008072733A1 (ja) 符号化装置および符号化方法
US9230553B2 (en) Fixed codebook searching by closed-loop search using multiplexed loop
KR20170008319A (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
KR20160007681A (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
JP2013068847A (ja) 符号化方法及び符号化装置

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA (US)

Owner name: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AME

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements