PT2951819T

PT2951819T - Aparelho, método e meio computacional para sintetizar um sinal de áudio

Info

Publication number: PT2951819T
Application number: PT147025118T
Authority: PT
Inventors: Geiger Ralf; Jaegers Wolfgang; Ravelli Emmanuel; Fuchs Guillaume; Bäckström Tom
Original assignee: Fraunhofer Ges Forschung
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2017-06-06
Also published as: ZA201506318B; CN105009210B; EP2951819A1; US11996110B2; SG11201505903UA; BR112015018023A2; CA2899059A1; TW201435862A; US20220293114A1; EP2951819B1; MY183444A; RU2015136788A; US20150332694A1; KR101737254B1; RU2618919C2; BR112015018023B1; US20190378528A1; KR20150112028A; AU2014211524B2; HK1217564A1

Description

DESCRIÇÃO

APARELHO, MÉTODO E MEIO COMPUTACIONAL PARA SINTETIZAR UM SINAL

DE ÁUDIO A presente invenção refere-se ao campo de codificação de áudio, mais especificamente ao campo de sintetização de um sinal de áudio. As formas de realização referem-se à codificação da fala, particularmente à técnica de codificação da fala chamada codificação preditiva linear excitada por código (CELP | code excited linear predictive) . As formas de realização fornecem uma abordagem para a compensação de inclinação adaptativa na modelação dos códigos de uma CELP num codebook inovador ou fixo. 0 esquema de codificação de CELP é amplamente utilizado nas comunicações de fala e é uma forma eficiente para codificar a fala. CELP sintetiza um sinal de áudio pela passagem num filtro preditivo linear (por exemplo, filtro de síntese de LPC 1/A(z)) a soma de duas excitações. Uma excitação é oriunda do passado codificado, que é chamada de codebook adaptativo, e a outra contribuição é oriunda de um codebook fixo ou inovador que é povoado por códigos fixos. Um problema com o esquema de codificação de CELP é que em baixas taxas de bit o codebook inovador não é povoado suficientemente para modelar eficientemente a estrutura fina da fala de tal modo que a qualidade perceptual fica degradada e o sinal de saída sintetizado apresenta ruído.

Para mitigar os artefactos de codificação, diferentes soluções foram já propostas e são descritas na referência [1] e na referência [2]. Nestas referências, os códigos do codebook inovador são adaptativamente e espectralmente modelados pela enfatização das regiões espectrais correspondentes aos formantes do frame atual do sinal de áudio. As posições dos formantes e as suas modelações podem ser deduzidas diretamente dos coeficientes de LPC que são coeficientes disponíveis tanto no codificador como no descodificador. A melhoria dos formantes dos códigos c(n) do codebook inovador são feitos por uma operação simples de filtragem:

Neste processo de filtragem fe(n) é a resposta de impulso do filtro que tem a seguinte função de transferência:

onde wl e w2 são duas constantes de ponderação que enfatizam mais ou menos a estrutura formântica da função de transferência Fe(z). Os códigos modelados resultantes do codebook inovador herdam uma característica do sinal de fala e o sinal sintetizado apresenta menos ruído.

No esquema de codificação CELP é ainda comum adicionar uma inclinação espectral aos códigos do codebook inovador, que é feito pela filtragem dos códigos do codebook inovador como se segue:

0 fator β é relacionado com a vocalização do frame de áudio anterior, e a vocalização pode ser estimada da contribuição de energia do codebook adaptativo. Por exemplo, se o frame anterior contém voz, espera-se que o frame atual também tenha voz e que os códigos terão mais energia nas frequências baixas, isto é, o espectro tem uma inclinação negativa. É um objeto da presente invenção fornecer uma abordagem melhorada para sintetizar um sinal de áudio.

Este objeto é obtido por um aparelho, de acordo com a reivindicação 1, e por um método, de acordo com a reivindicação 15. A presente invenção fornece um aparelho para sintetizar um sinal de áudio que compreende uma unidade de processamento configurada para aplicar uma inclinação espectral ao código de codebook utilizado para sintetizar um frame atual do sinal de áudio, em que a inclinação espectral é baseada na inclinação espectral do frame atual do sinal de áudio. A presente invenção fornece um método para sintetizar um sinal de áudio, o método compreendendo aplicar uma inclinação espectral ao código de um codebook utilizado para sintetizar uma estrutura atual do sinal de áudio, em que a inclinação espectral é determinada com base na inclinação espectral do frame atual do sinal de áudio. A inclinação espectral do frame atual do sinal de áudio é determinada com base na informação do envelope espectral para o frame atual do sinal de áudio, em que a informação do envelope espectral pode ser definida pelos coeficientes LPC. Isto é vantajoso dado que permite determinar a inclinação espectral em função da informação disponível imediatamente tanto no codificador como no descodificador, nomeadamente os coeficientes LPC. A inclinação espectral determinada é aplicada ao respetivo código pela filtragem do código a partir do codebook baseado na função de transferência que inclui a inclinação espectral. Isto é vantajoso dado que através de uma simples filtragem o melhoramento pode ser alcançado.

Os inventores do presente pedido observaram que a sintetização de um sinal de áudio pode ser ainda melhorada tanto em taxas de bit baixas quanto em mais altas explorando a natureza da inclinação espectral do sinal de áudio na sintetização do sinal para melhorar o ganho de codificação alcançável. De acordo com as formas de realização, a presente invenção fornece uma codificação de fala, por exemplo, utilizando a técnica de codificação de fala de CELP, que permite melhorar o ganho de codificação de CELP, dessa forma melhorando a qualidade perceptual do sinal descodificado ou sintetizado. A abordagem inventiva é baseada na constatação dos inventores de que esta melhoria pode ser obtida adaptando a inclinação espectral dos códigos de um codebook, por exemplo, os códigos do codebook inovador de CELP, como uma função da inclinação espectral do sinal de entrada real atualmente processado. A abordagem inventiva é vantajosa por, além do ganho de codificação melhorado, em baixas taxas de bit, onde o codebook inovador não é povoado suficiente para modelar eficientemente a estrutura fina da fala, também permite a uma melhoria adicional do formante. Em taxas de bit mais altas, onde o codebook inovador é suficientemente povoado, aplicar a abordagem inventiva melhorará o ganho de codificação. Mais especificamente, em taxas de bit mais altas a melhoria do formante pode não ser necessária, pois o codebook inovador é grande o suficiente para modelar corretamente a estrutura fina da fala, e outro melhoramento do formante tornará o som do sinal sintetizado muito sintético. Contudo, os códigos ótimos não são espectralmente planos e adicionar uma inclinação espectral melhorará o ganho de codificação. De acordo com as formas de realização a inclinação ideal para aplicar aos códigos do codebook inovador é estimada mais precisamente, mais especificamente, está correlacionada com a inclinação do frame atual do sinal de entrada.

De acordo com outras formas de realização, a inclinação espectral do frame atual do sinal de áudio, com base nos coeficientes de LPC, pode ser determinada com base numa resposta de impulso infinito truncada do filtro de síntese de LPC. De acordo com as formas de realização, o truncamento pode ser determinado pelo tamanho do codebook inovador, isto é, pelo número de códigos no codebook inovador. Esta abordagem é vantajosa, pois permite a relação direta da determinação da inclinação espectral ao tamanho real do codebook inovador.

De acordo com outras formas de realização, a resposta de impulso infinito pode ser de um filtro de síntese de LPC tendo uma função de transferência não ponderada ou uma função de transferência ponderada. A Utilização da função de transferência não ponderada permite uma determinação simplificada da inclinação espectral, ao passo que a utilização da função de transferência ponderada é vantajoso, dado que permite uma inclinação espectral tendo um declive mais próximo da inclinação ideal.

De acordo com ainda outra forma de realização, a inclinação espectral do frame atual pode ser combinada com um fator relacionado a vocalização do frame anterior do sinal de áudio, por exemplo, pela filtragem do código do codebook com base numa função de transferência incluindo a inclinação espectral e o fator. Esta abordagem é vantajosa, pois fornece uma possibilidade de obter uma ainda melhor estimativa da inclinação ótima. A presente invenção fornece um descodificador de áudio compreendendo o aparelho inventivo para sintetizar um sinal de áudio. A presente invenção fornece um descodificador de áudio para descodificar um sinal de áudio, em que o descodificador de áudio é configurado para aplicar uma inclinação espectral ao código de um codebook utilizado para sintetizar um frame atual do sinal de áudio, em que a inclinação espectral é baseada na inclinação espectral do frame atual do sinal de áudio. A presente invenção fornece um codificador para codificar um sinal de áudio, em que o codificador de áudio é configurado para determinar a partir de uma inclinação espectral de um frame atual do sinal de áudio uma inclinação espectral para um código de um codebook que representa um frame atual do sinal de áudio. A presente invenção fornece um sistema, compreendendo o descodificador de áudio inventivo e o codificador de áudio inventivo. A presente invenção fornece um meio computacional não transitório que armazena instruções para realizar, ao ser executado num computador, o método inventivo para sintetizar um sinal de áudio. As formas de realização da presente invenção serão agora descritas com mais detalhes com referência aos desenhos anexos, nos quais: A Figura 1 mostra uma representação esquemática do aparelho inventivo para sintetizar um sinal de áudio de acordo com uma primeira forma de realização; A Figura 2 mostra um diagrama de blocos simplificado de um sintetizador de sinal de acordo com uma segunda forma de realização da invenção, que opera com base no esquema de CELP; A Figura 3 mostra um diagrama de blocos simplificado de um sintetizador de sinal de acordo com outra forma de realização da presente invenção, novamente aplicando o esquema de codificação de CELP que incorpora a vocalização de um frame anterior; A Figura 4 mostra uma forma de realização de um descodificador, por exemplo, um descodificador de fala operando de acordo com os ensinamentos da presente invenção; e A Figura 5 mostra uma forma de realização de um codificador, por exemplo, um codificador de fala operando de acordo com os ensinamentos da presente invenção.

No que se segue, as formas de realização da abordagem inventiva serão descritas. É observado que na descrição subsequente elementos/etapas semelhantes são referidos pelos mesmos sinais de referência. A figura 1 mostra uma representação esquemática do aparelho inventivo para sintetizar um sinal de áudio de acordo com uma primeira forma de realização. 0 aparelho 100 recebe numa entrada 102 um sinal codificado, por exemplo, um sinal de áudio codificado, como um sinal de fala. Para codificar o sinal de áudio, o aparelho 100 compreende um codebook 104 incluindo uma pluralidade de códigos. Para sintetizar o sinal, ao processar um frame atual, com base no sinal codificado recebido na entrada 102, um código ou palavra código apropriado é selecionado do codebook 104 e fornecido ao sintetizador ou filtro de síntese 106. De acordo com a presente invenção, o aparelho compreende a unidade de processamento 108 que determina, com base na inclinação espectral do frame atual do sinal de áudio, isto é, o frame do sinal de áudio atualmente processado pelo aparelho 100, uma inclinação espectral a ser aplicada ao código c (n) lido do codebook 104, como é esquematicamente representado em 110. O código modificado c(η)*γ é aplicado ao filtro de síntese 106 que gera com base no código modificado um sinal sintetizado que é fornecido à saida 112 do aparelho 100. A unidade de processamento 108 pode determinar a inclinação espectral com base na informação do envelope espectral para o frame atual, por exemplo, coeficientes de filtro para o filtro de síntese 106 que estão disponíveis no aparelho 100.

De acordo com outras formas de realização, uma compensação de

inclinação adaptativa para formar os códigos de um codebook inovador de CELP será descrita. A figura 2 mostra um diagrama de blocos simplificado de um sintetizador de sinal 200 de acordo com uma segunda forma de realização da invenção, que opera com base no esquema de CELP. De acordo com o esquema de CELP, o sintetizador 200 inclui um codebook fixo ou inovador 202 e um codebook adaptativo 204. Dependente do sinal codificado, para um frame atual que é atualmente processado pelo sintetizador 200, um código é emitido dos respetivos codebooks 202 e 204. O sintetizador 200 compreende um somador ou combinador 206 para combinar os códigos recebidos dos respetivos codebooks 202 e 204. A saída do somador 206 é conectada a um filtro de síntese de LPC 208 para sintetizar o sinal de áudio de saída e emitir numa saída 210. De acordo com as formas de realização, o sintetizador 200 pode incluir um primeiro amplificador 212 para multiplicar uma contribuição do codebook fixo 202 por um ganho de código desejado. Ainda, um segundo amplificador 214 pode ser fornecido para multiplicar a contribuição do codebook adaptativo 204 de acordo com um ganho de tom, pois a contribuição do codebook adaptativo modela o tom da fala. De acordo com outra forma de realização ainda um armazenamento do coeficiente de LPC 216, como uma memória ou semelhante, pode ser fornecido para armazenar os coeficientes de LPC que estão disponíveis no descodificador incluindo o sintetizador 200. Os coeficientes de LPC são fornecidos ao filtro de síntese 208 para fornecer a filtragem de síntese de LPC desejada. O sintetizador 200 inclui o filtro 218 que é conectado entre o codebook fixo 202 e o primeiro amplificador 212. O filtro 218 recebe do armazenamento 216 os coeficientes de LPC para o frame atual. Por meios da estrutura inventiva a inclinação do frame de áudio que é atualmente processado é recuperada dos coeficientes de LPC já transmitidos que são armazenados no armazenamento 216. De acordo com a forma de realização da figura 2, assume-se que fs(n) é a resposta de impulso do filtro de síntese de LPC 208 tendo a função de transferência Fs(z) = lA4(z), e a inclinação é determinada como se segue pelo filtro 218:

onde N é o tamanho do truncamento da resposta de impulso

infinito fs (n) . De acordo com uma forma de realização, N é igual ao tamanho do codebook inovador, ou seja, N é igual ao número de códigos ou palavras código armazenados no codebook inovador. A inclinação espectral é aplicada, de acordo com a forma de realização da figura 2, ao código c(n) recuperado do codebook fixo 202 por uma operação de filtragem fornecida no filtro 218. A operação de filtragem é definida como se segue:

onde fti (n) é a resposta de impulso da seguinte função de transferência:

A forma de realização da figura 2 é vantajosa, pois permite melhorar a qualidade perceptual do sinal descodificado pelo melhoramento do ganho de codificação. A melhoria do ganho de codificação é obtida pela filtragem de uma palavra código ou código recuperado do codebook fixo 202 por uma função de transferência incluindo uma inclinação espectral que é determinada com base na resposta de impulso da função de transferência do filtro de síntese de LPC 208.

De acordo com uma terceira forma de realização, para melhorar ainda mais a inclinação espectral de forma a estar mais próxima a uma inclinação ideal, isto é, para estar mais próxima da inclinação do frame atual real do sinal de entrada, o filtro de síntese de LPC 208 tem a seguinte função de transferência:

com wl = 0,8 e w2 = 0,9. Neste caso, a inclinação espectral é definida como se segue:

As constantes de ponderação wl e w2 são utilizados para controlar a dinâmica do envelope espectral. Por exemplo, se wl = 0 e w2 = 1, então Fe(z) segue de forma próxima o envelope do sinal verdadeiro. A inclinação espectral resultante γ mostrará uma alta dinâmica e pode flutuar muito. Essa pode ser a solução para taxas de bit muito baixas onde o codebook definitivamente não possui estrutura de inclinação. Entretanto, foi observado perceptualmente que é melhor deduzir a inclinação espectral γ de uma versão amaciada do envelope espectral. Um bom amaciamento foi observado ser obtido com os valores acima wl = 0,8 e w2 = 0,9, que mostra um bom equilíbrio para uma qrande faixa de taxas de bit. De acordo com as formas de realização, wl e w2 são dependentes da taxa de bit. Em taxas muito altas se o codebook for qrande o suficiente e puder modelar quaisquer inclinações espectrais γ, pode desligar-se a influência da inclinação espectral γ definindo wl = w2 = 1.

Quando comparado com a segunda forma de realização, que produz uma inclinação tendo um declive mais íngreme do que a inclinação ideal teria, a terceira forma de realização utilizando uma função de transferência "ponderada" fornece uma inclinação que é mais próxima à inclinação real do frame atual. A figura 3 mostra outro diagrama de blocos simplificado de um sintetizador de sinal 200' de acordo com uma quarta forma de realização da presente invenção, novamente aplicando o esquema de codificação de CELP. Quando comparado às formas de realização descritas em relação à figura 2, a forma de realização descrita em relação à figura 3 aplica ainda o fator mencionado acima relacionado com a vocalização de um frame anterior. Como pode ser visto pela figura 3, o frame do sintetizador 200' é substancialmente o mesmo que o frame do sintetizador 200 da figura 2, exceto que adicionalmente um estimador de voz 220 é fornecido que recebe a saída no amplificador 214 e as contribuições combinadas dos codebooks adaptativos e inovadores emitidos pelo somador 206. O estimador de voz emite um sinal ao filtro 280 de modo que o código ou palavra código obtido do codebook inovador 202 seja modificado com base numa inclinação determinada (veja a figura 2 e a descrição acima) combinada com um fator de voz. Mais especificamente, de acordo com a forma de realização da figura 3, a inclinação espectral determinada é combinada com o fator β que se refere a voz do frame anterior. A abordagem descrita com relação à figura 3 é vantajosa, pois permite obter uma estimativa ainda melhor da inclinação a ser aplicada à palavra código quando comparada às formas de realização descritas em relação às figuras 1 e 2. A modificação do código ou formação do código podem ainda ser consideradas como uma operação de filtragem utilizando uma função de transferência como se segue:

onde a e b são constantes. Numa forma de realização preferida, a = 0,5 e b = 0,25. O fator β pode ser deduzido da voz de um frame anterior como se segue:

e o fator real β pode ser determinado como se segue:

As constantes a e b são aplicadas para controlar a mistura de inclinação de voz β e a inclinação espectral γ. Conforme mencionado acima em relação às constantes de ponderação wl e w2, para taxas de bit médias ou baixas, pode ser relevante modelar o codebook afinando as baixas frequências ou altas frequências com base na inclinação espectral γ. Também foi observado que quanto mais vocal for o sinal melhor é para afinar as altas frequências. As constantes a e b podem ser utilizadas para normalizar os fatores de inclinação β e γ e ponderar as suas tensões de forma a combinar os dois efeitos conforme desejado. De acordo com as formas de realização, as constantes a e b podem ser encontradas empiricamente avaliando a qualidade perceptual. Isto fornece aproximadamente a mesma tensão a ambos os fatores: γ é limitado entre -1 e 1, assim b-γ está entre -0,25 e 0,25 e β é limitado entre 0 e 0,5 assim a-β é limitado entre 0 e 0,25. Como para as constantes de ponderação wl e w2, ainda as constantes a e b podem tornar-se dependentes da taxa de bit.

De acordo com a quarta forma de realização, a síntese de áudio conforme mostrado na figura 3 é de tal modo que a contribuição do codebook adaptativo é multiplicada por um ganho designado por ganho de tom dado que a contribuição modela o tom da fala. O código inovador é primeiro filtrado por Ft2(z) para adicionar a inclinação espectral ao código, em que a inclinação, conforme descrito acima, é correlacionada a inclinação do frame atual do sinal a ser sintetizado. A saída do filtro 218 é multiplicada pelo ganho de código, e as duas contribuições, a contribuição multiplicada do codebook adaptativo e a contribuição multiplicada modificada do codebook inovador são adicionadas pelo somador 206 antes de serem filtrados pelo filtro de síntese para gerar o sinal de saída sintetizado na saída 210. A figura 4 mostra uma forma de realização de um descodificador, por exemplo um descodif icador de fala operando de acordo com os ensinamentos da presente invenção. O descodificador 300 inclui um sintetizador 100, 200, 200' de acordo com uma das formas de realização descritas acima. O descodificador tem uma entrada 302 que recebe um sinal codificado que é processado pelo descodificador e o sintetizador para gerar numa saída 304 do descodificador 300 um sinal descodificado. A figura 5 mostra uma forma de realização de um codificador, por exemplo, um codificador de fala operando de acordo com os ensinamentos da presente invenção. O codificador 400 inclui uma unidade de processamento 402 para codificar um sinal de áudio. Adicionalmente, a unidade de processamento determina a partir de uma inclinação espectral de um frame atual da informação do sinal de áudio (por exemplo, dos coeficientes de LPC disponíveis no codificador) informação que representa uma inclinação espectral para um código de um codebook no descodificador que representa um frame atual do sinal de áudio. Esta informação pode ser transmitida conjuntamente com os códigos do sinal de áudio para o lado do descodif icador onde pode ser aplicada na sintetização do sinal de áudio. A inclinação espectral pode ser determinada no codificador de uma forma descrita acima com relação às figuras de 1 a 3 e pode ser aplicada no descodificador conforme descrito acima em relação às figuras de 1 a 3. Portanto, as formas de realização da invenção fornecem o codificador de áudio acima conforme mostrado na figura 5 em conjunto com um descodificador de áudio para descodificar um sinal de áudio, em que o descodif icador de áudio não precisa necessariamente de determinar a inclinação espectral, ao invés, é configurado para aplicar a inclinação espectral recebida do codificador ao código de um codebook utilizado para sintetizar um frame atual do sinal de áudio. Por exemplo, o descodificador pode ter um sintetizador como o das figuras de 1 a 3, exceto que a unidade de processamento 108 ou filtro 218 recebem a

inclinação calculada no e transmitida do codificador. A inclinação recebida pode ser armazenada, por exemplo, no armazenamento 216 ou noutro armazenamento.

Embora alguns aspetos tenham sido descritos no contexto de um aparelho, é claro que estes aspetos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. Analogamente, os aspetos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrónico. Nalgumas formas de realização, uma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.

Dependendo de certas exigências da implementação, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento não transitório como um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, e EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controlo eletronicamente legíveis armazenados nelas, que cooperam (ou podem cooperar) com um sistema de computador programável de modo a que o respetivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.

Algumas formas de realização de acordo com a invenção compreendem um transportador de dados tendo sinais de controlo eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.

Geralmente, as formas de realização da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado num computador. 0 código do programa pode, por exemplo, ser armazenado num transportador legível por máquina.

Outras formas de realização compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados num transportador legível por máquina.

Por outras palavras, uma forma de realização do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos aqui descritos, quando o programa de computador é executado num computador.

Outra forma de realização do método inventivo é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos aqui descritos. 0 transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitório.

Outra forma de realização do método inventivo é, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos aqui. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da internet.

Outra forma de realização compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para, ou programado, para realizar um dos métodos descritos aqui.

Outra forma de realização compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos aqui.

Outra forma de realização de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou opticamente) um programa de computador para realizar um dos métodos aqui descritos a um recetor. 0 recetor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. 0 aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o recetor.

Nalgumas formas de realização, um dispositivo lógico programável (por exemplo, uma matriz de campo de portas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Nalgumas formas de realização, uma matriz de campo de portas programáveis pode cooperar com um microprocessador a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

As formas de realização descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e detalhes descritos aqui serão evidentes aos técnicos versados na arte. É a intensão, assim, ser limitada apenas pelo âmbito das reivindicações da patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento.

REFERÊNCIAS

[1] Recomendation ITU-T G.718 : "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s" [2] Patente Norte-Americana 6,678,651 B2, "Short-Term

Enhancement in CELP Speech Coding"

REFERÊNCIAS CITADAS NA DESCRIÇÃO A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado que foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa quaisquer responsabilidades nesse sentido.

Documentos de Patente Citados na Descrição US 6678651 B2

Claims

REIVINDICAÇÕES

1. Um aparelho para sintetizar um sinal de áudio, compreendendo: uma unidade de processamento (108, 110, 218) configurada para aplicar uma inclinação espectral ao código de um codebook (104, 202) utilizado para sintetizar um frame atual do sinal de áudio, caracterizado por a inclinação espectral ser baseada na inclinação espectral do frame atual do sinal de áudio, em que o aparelho está configurado para determinar a inclinação espectral do frame atual do sinal de áudio com base na informação do envelope espectral para o frame atual do sinal de áudio, e em que a unidade de processamento (108, 110, 218) está configurada para aplicar uma inclinação espectral pela filtragem do código do codebook (104, 202) baseada numa função de transferência incluindo a inclinação espectral.
2. O aparelho, de acordo com a reivindicação 1, caracterizado por a informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral γ do frame atual do sinal de áudio é definida como se segue:

com: fs(n) a resposta de impulso infinito de um filtro de síntese de LPC (106, 208) tendo a função de transferência Fs(.z) = 1/A (z), e N o tamanho do truncamento da resposta de impulso infinito fs(n). 3. 0 aparelho, de acordo com a reivindicação 1, caracterizado por a informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral γ do frame atual do sinal de áudio é definida como se segue:

com: fe(n) a resposta de impulso infinito de um filtro de síntese de LPC (106, 208) tendo a função de transferência

N o tamanho do truncamento da resposta de impulso infinito fs(n), e wl, w2 constantes de ponderação para definir a estrutura formântica da função de transferência Fe(z) ·
4. O aparelho, de acordo com a reivindicação 2 ou 3, caracterizado por N ser igual ao número de códigos no codebook (104, 202).
5. O aparelho, de acordo com a reivindicação 1, caracterizado por a função de transferência incluindo a inclinação espectral ser definida como se segue:

com inclinação espectral y.
6. O aparelho, de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado por a unidade de processamento (108, 110, 218) ser ainda configurada para combinar a inclinação espectral determinada do frame atual do sinal de áudio com um fator relacionado com a vocalização do frame anterior do sinal de áudio.
7. O aparelho, de acordo com a reivindicação 6, caracterizado por o fator relacionado com a vocalização do frame anterior do sinal de áudio ser definido como se segue:

com:
8. O aparelho, de acordo com a reivindicação 6 ou 7, caracterizado por a unidade de processamento (108, 110, 218) ser configurada para aplicar a inclinação espectral pela filtragem do código do codebook (104, 202) com base numa função de transferência incluindo a inclinação espectral e o fator relacionado com a vocalização do frame anterior do sinal de áudio.
9. O aparelho, de acordo com a reivindicação 8, caracterizado pela função de transferência incluindo a inclinação espectral ser definida como se segue:

com: a, b constantes.
10. O aparelho, de acordo com qualquer uma das reivindicações de 1 a 9, caracterizado por o sinal de áudio ser um sinal de fala, em que a unidade de processamento para aplicar a inclinação espectral compreende um filtro (218), e em que o aparelho ainda compreende: um codebook adaptativo (204), um codebook fixo (202), o filtro (218) emparelhado ao codebook fixo (202), o filtro (218) sendo configurado para aplicar a inclinação espectral determinada ao código do codebook fixo (202) para obter um código filtrado do codebook fixo (202) , um somador (206) emparelhado ao codebook adaptativo (204) e ao filtro (218), o somador (206) configurado para combinar um código do codebook adaptativo (204) e o código filtrado do codebook fixo (202) para obter um código combinado, e um filtro de síntese de LPC (208) emparelhado ao somador (206) .
13. O aparelho, de acordo com a reivindicação 10, caracterizado por compreender também: um amplificador de ganho de tom (214) emparelhado entre o codebook adaptativo (204) e o somador (206), o amplificador de ganho de tom (214) configurado para multiplicar o código do codebook adaptativo (204) com um ganho de tom, e um amplificador de ganho de código (212) emparelhado entre o filtro (218) e o somador (206), o amplificador de ganho de código (212) configurado para multiplicar o código filtrado do codebook fixo (202) com um ganho de código.

12. O aparelho, de acordo com a reivindicação 10 ou 11, caracterizado por compreender também: um estimador de voz (220) emparelhado ao codebook adaptativo (204) e ao somador (206), o estimador de voz (220) configurado para emitir um fator relacionado com a vocalização do frame anterior do sinal de áudio ao filtro (218), e um armazenamento (216) configurado para armazenar coeficientes de LPC que descrevem a informação do envelope espectral para o frame atual do sinal de áudio, o armazenamento (216) sendo emparelhado ao filtro (218).

13. Um descodificador de áudio caracterizado por compreender um aparelho para sintetizar um sinal de áudio, de acordo com qualquer uma das reivindicações 1 ou 12.
14. Um sistema, caracterizado por compreender: um descodificador de áudio, de acordo com a reivindicação 13, e um codificador de áudio configurado para determinar a partir de uma inclinação espectral de um frame atual do sinal de áudio uma inclinação espectral para um código de um codebook (104, 202) que representa o frame atual do sinal de áudio.
15. Um método para sintetizar um sinal de áudio, o método compreendendo: aplicar uma inclinação espectral ao código de um codebook (104, 202) utilizado para sintetizar um frame atual do sinal de áudio, em que a inclinação espectral é determinada com base na inclinação espectral do frame atual do sinal de áudio, em que a inclinação espectral do frame atual do sinal de áudio é determinada com base na informação do envelope espectral para o frame atual do sinal de áudio, e em que a aplicação da inclinação espectral compreende a filtragem de um código do codebook (104, 202) baseado numa função de transferência que inclui a inclinação espectral. 16. 0 método de acordo com a reivindicação 15, caracterizado por a informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral y do frame atual do sinal de áudio é determinada como se segue:

com: fs(n) a resposta de impulso infinito de um filtro de síntese de LPC (106, 208) tendo a função de transferência Fs(.z) = 1/A (z), e N o tamanho do truncamento da resposta de impulso infinito fs(n).
17. O método, de acordo com a reivindicação 15, caracterizado por a informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral do frame atual do sinal de áudio é determinada como se segue:

com: fe(n)a resposta de impulso infinito de um filtro de síntesede LPC (106, 208) tendo a função de transferência

N o tamanho do truncamento da resposta de impulso infinito fs(n)r e wl, w2 constantes de ponderação para definir a estrutura formântica da função de transferência Fe O). 18. 0 método, de acordo com a reivindicação 16 ou 17, caracterizado por N ser igual ao número de códigos no codebook (104, 202).
19. O método, de acordo com a reivindicação 15, caracterizado por a função de transferência incluindo a inclinação espectral ser determinada como se segue:

com: inclinação espectral y.
20. O método, de acordo com qualquer uma das reivindicações de 15 a 19, caracterizado por compreender ainda a combinação da inclinação espectral determinada da estrutura atual do sinal de áudio com um fator relacionado com a vocalização do frame anterior do sinal de áudio.
21. O método, de acordo com a reivindicação 20, caracterizado por o fator relacionado com a vocalização do frame anterior do sinal de áudio ser determinado como se segue:

com:
22. O método, de acordo com a reivindicação 20 ou 21, caracterizado por a aplicação da inclinação espectral compreender a filtragem do código do codebook (104, 202) com base numa função de transferência incluindo a inclinação espectral e o fator relacionado com a vocalização do frame anterior do sinal de áudio. 23. 0 método, de acordo com a reivindicação 22, caracterizado por a função de transferência incluindo a inclinação espectral ser determinada como se segue:

com: a, b constantes. 24. 0 método, de acordo com qualquer uma das reivindicações de 15 a 23, caracterizado por o sinal de áudio ser um sinal de fala, e em que a síntese do sinal de áudio compreende para um frame do sinal de áudio: aplicar a inclinação espectral determinada ao código de um codebook fixo (202) para obter um código filtrado do codebook fixo (202), combinar um código de um codebook adaptativo (204) e o código filtrado do codebook fixo (202) para obter um código combinado, e filtrar o código combinado por um filtro de síntese de LPC (208) .
25. O método, de acordo com a reivindicação 24, caracterizado por compreender ainda multiplicar o código do codebook adaptativo (204) com um ganho de tom, e multiplicar o código filtrado do codebook fixo (202) com um ganho de código.
26. O método, de acordo com a reivindicação 24 ou 25, caracterizado por compreender ainda: com base no código do codebook adaptativo (204) e no código combinado, gerar um fator relacionado com a vocalização do frame anterior do sinal de áudio, e armazenar coeficientes de LPC que descrevem a informação do envelope espectral para o frame atual do sinal de áudio.
27. Um meio computacional não transitório que armazena as instruções para realizar, caracterizado por executar num computador, um método para sintetizar um sinal de áudio, de acordo com qualquer uma das reivindicações de 15 a 26.