ES2238860T3

ES2238860T3 - Codificacion a baja velocidad de bit de segmentos de voz sordos.

Info

Publication number: ES2238860T3
Application number: ES99958940T
Authority: ES
Inventors: Amitava Das; Sharath Manjunath
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2005-09-01
Anticipated expiration: 2019-11-12
Also published as: JP2002530705A; US6820052B2; ATE286617T1; HK1042370B; WO2000030074A1; US20020184007A1; US20050043944A1; CN1241169C; DE69923079T2; US6463407B2; EP1129450B1; DE69923079D1; AU1620700A; KR20010080455A; CN1815558B; CN1342309A; KR100592627B1; US7146310B2; HK1042370A1; CN1815558A

Abstract

Un método de codificación de segmentos sordos de voz que comprende: extraer (304) coeficientes de energía de subbandas de una trama de voz; cuantificar (308) los coeficientes de energía; y generar (310) una envolvente de energía a partir de los coeficientes de energía cuantificados; caracterizado por: reconstituir (312) una señal de residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

Description

Codificación a baja velocidad de bit de segmentos de voz sordos.

Antecedentes de la invención I. Ámbito de la invención

La presente invención se refiere de modo general al ámbito del proceso de voz y más específicamente a un método y a un aparato para codificación a baja velocidad de bit de segmentos de voz sordos.

II. Antecedentes técnicos

La transmisión de voz mediante técnicas digitales se ha extendido especialmente en aplicaciones de larga distancia y radioteléfono digital. Esto, a su vez, ha creado interés en determinar la menor cantidad de información que se puede enviar sobre un canal al tiempo que se mantiene la calidad percibida de la voz reconstruida. Si se transmite la voz simplemente muestreando y digitalizando, se requiere una velocidad de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para conseguir una calidad de voz de telefonía analógica convencional. No obstante, mediante al análisis de la voz, seguida de una adecuada codificación, transmisión y resíntesis en el receptor, se puede lograr una significativa reducción en la velocidad de datos.

Los dispositivos que emplean técnicas para comprimir voz mediante extracción de parámetros que la relacionan con un modelo de generación de voz humana se denominan codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo o tramas de análisis. Los codificadores de voz comprenden típicamente un codificador y un decodificador, o un codec. El codificador analiza la trama de voz entrante para extraer parámetros relevantes y luego cuantifica los parámetros en representación binaria, es decir, en un conjunto de bits o paquete de datos binarios. Los paquetes de datos se transmiten sobre el canal de comunicación hasta un receptor y un decodificador. El decodificador procesa los paquetes de datos, los cuantifica para producir los parámetros y luego resintetiza las tramas de voz empleando los parámetros cuantificados.

La función del codificador de voz es comprimir la señal de voz digitalizada hasta una señal de baja velocidad de bits mediante la eliminación de redundancias naturales inherentes a la voz. La compresión digital se consigue representando la trama de voz entrante con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz entrante tiene un número de bits N_{i} y el paquete de datos producido por el codificador de voz tiene un número de bits N_{o},el factor de compresión alcanzado por el codificador de voz es C = N_{i} / N_{o}. El reto es mantener la calidad de voz alta de la voz decodificada al tiempo que se logra el factor de compresión objetivo. El rendimiento de un codificador de voz depende de (1) cómo funciona el modelo de voz o combinación del proceso de análisis y síntesis antes descrito y (2) cómo funciona el proceso de cuantificación de parámetros a la velocidad objetivo de N_{o} bits por trama. La meta del modelo de voz es por tanto captar la esencia de la señal de voz o la calidad de voz objetivo con un conjunto pequeño de parámetros para cada trama.

Una técnica efectiva para codificar voz de forma eficiente en baja tasa de bits es la codificación multimodo. Un codificador multimodo aplica diferentes modos o algoritmos de codificación-decodificación a diferentes tipos de tramas de voz entrantes. Cada modo o proceso de codificación-decodificación se personaliza para representar a cierto tipo de segmento de voz (es decir, con habla, sordo o ruido de fondo) de la forma más eficiente. Un mecanismo externo de decisión de modo examina la trama de voz entrante y toma una decisión respecto a qué modo aplicar a la trama. Típicamente, la decisión de modo se realiza de forma de bucle abierto mediante extracción de varios parámetros de la trama entrante y evaluándolos para tomar una decisión sobre qué modo aplicar. Por tanto, la decisión del modo se toma sin conocer por adelantado el estado exacto de la voz saliente, es decir, de cómo será de similar la voz saliente a la voz entrante en términos de calidad de voz o cualquier otra medida de funcionamiento. En la Patente U.S. No. 5,414,796, asignada al cesionario de la presente invención, se describe un ejemplar de decisión de modo en bucle abierto para un codificador de voz.

La codificación multimodo puede ser a velocidad fija, empleando el mismo número de bits N_{o} para cada trama, o a velocidad variable en la que se usan diferentes velocidades de bits para distintos modos. La meta en la codificación de velocidad variable es usar solo la cantidad de bits necesaria para codificar los parámetros del codec hasta un nivel adecuado para obtener la calidad objetivo. Como resultado se puede obtener la misma calidad de voz objetivo que la de una velocidad fija con codificador a mayor velocidad a una velocidad promedio significativamente inferior empleando técnicas de velocidad de bits variable (VBR). En la Patente U.S. No. 5,414,796, asignada el cesionario de la presente invención, se describe un ejemplar de codificador de velocidad media variable.

Actualmente hay una ola de interés investigador y de fuertes necesidades comerciales para desarrollar un codificador de voz de alta calidad operando a velocidades de medias a bajas (es decir, en el intervalo de 2.4 a 4 kbps y por debajo). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía en Internet, varias aplicaciones multimedia y de flujo vocal, correo vocal y otros sistemas de almacenamiento de voz. Las fuerzas conducentes son la necesidad de alta capacidad y la demanda de un rendimiento robusto en situaciones de pérdidas de paquetes. Otra fuerza actuante son varios recientes esfuerzos de estandarización de codificación de voz que impulsan la investigación y desarrollo de algoritmos de codificación de voz a baja velocidad. Un codificador de voz a baja velocidad crea más canales, o usuarios por ancho de banda admisible de aplicación y un codificador de voz a baja velocidad acoplado con una capa adicional de codificación adecuada de canal pueden ajustar el presupuesto total de bits de especificación de codificador y proporcionar un funcionamiento robusto en condiciones de error de
canal.

La codificación de voz multimodo VBR es por tanto un mecanismo efectivo para codificar voz a baja velocidad. Los esquemas multimodo convencionales requieren el diseño de eficientes esquemas o modos de codificación para varios segmentos de velocidad (p. ej. sordo, con voz, transición) así como un modo de ruido de fondo o silencio. El rendimiento total del codificador de voz depende de las velocidades de bit de los distintos modos para segmentos sordos, con voz y otros. Con el fin de conseguir la calidad objetivo, es necesario diseñar modos eficientes de alto rendimiento, algunos de los cuales deben funcionar a velocidades bajas de bits. Típicamente, los segmentos de habla con voz y sordos se capturan a altas velocidades de bits y los segmentos de ruido de fondo y silencio se representan con modos que funcionan a velocidad significativamente menor. Por tanto hay necesidad de una técnica de codificación a baja velocidad de bits que capte con precisión los segmentos sordos del habla al tiempo que emplean un número mínimo de bits por trama.

La WO-A-95/28824 describe un método para codificar una señal que contiene voz en un sistema de comunicación Predictor Lineal Excitado de Libro de Códigos de velocidad de bits. El sistema incluye un predictor que organiza una señal que contiene voz en tramas de 40 milisegundos de duración y clasifica cada trama en uno de tres modos: con voz y estacionario, sordo o transitorio y ruido de fondo.

Resumen de la invención

La presente invención va dirigida a una técnica de codificación de baja velocidad de bits que capta con precisión segmentos sordos de voz al tiempo que emplea un número mínimo de bits por trama. Consecuentemente, en un aspecto de la invención, un método de codificación de segmentos sordos de voz incluye extraer coeficientes de energía de subbandas de una trama de voz; cuantificar los coeficientes de energía; generar una envolvente de energía a partir de los coeficientes de energía cuantificados; y reconstituir una señal residual mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

En otro aspecto de la invención, un codificador de voz para cuantificar segmentos sordos de habla incluye medios para extraer coeficientes de energía a partir de subbandas de una trama de habla; medios para cuantificar los coeficientes de energía; medios para generar una envolvente de energía a partir de los coeficientes de energía cuantificados y medios para reconstituir una señal residual mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

En una realización preferida, el codificador de voz incluye un módulo configurado extraer los coeficientes de energía de una trama de voz; un módulo configurado para cuantificar los coeficientes de energía; un módulo configurado para generar la envolvente de energía a partir de los coeficientes de energía cuantificados; y un módulo configurado para reconstituir una señal residual mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

Breve descripción de los dibujos

La Fig. 1 es un diagrama de bloques de un canal de comunicación terminado en cada extremo con codificadores de voz.

La Fig. 2 es un diagrama de bloques de un codificador.

La Fig. 3 es un diagrama de bloques de un decodificador.

La Fig. 4 es un diagrama de flujo que ilustra los pasos de una técnica de codificación de baja velocidad de bits para segmentos sordos de habla.

Las Figs. 5A-E son gráficos de amplitud de señal en función de un índice discreto de tiempo.

La Fig. 6 es un diagrama funcional que representa un proceso de codificación por cuantificación de vector piramidal.

La Fig. 7 es un diagrama funcional que representa un proceso de decodificación por cuantificación de vector piramidal.

Descripción detallada de las realizaciones preferidas

En la Fig. 1, un primer codificador 10 recibe muestras digitalizadas de voz s(n) y codifica las muestras para transmisión sobre un medio de transmisión 12 o canal de comunicación 12 hasta un primer decodificador 14. El decodificador 14 decodifica las muestras codificadas de voz y sintetiza una señal saliente de voz s_{SINT} (n). Para su transmisión en sentido opuesto, un segundo codificador 16 codifica muestras de voz digitalizadas s(n), que se transmiten sobre un canal de comunicación 18. Un segundo decodificador 20 recibe y decodifica las muestras de voz codificadas, generando una señal sintetizada de voz saliente s_{SINT} (n).

Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y cuantificadas según cualquiera de los varios métodos conocidos en la técnica incluyendo, p. ej., modulación por codificación de pulso (PCM), compresión por ley \mu o ley A. Como se conoce en la técnica, las muestras de voz s(n) se organizan en tramas de datos entrantes donde cada trama comprende un número determinado de muestras digitalizadas de voz s(n). En una realización ejemplar, se emplea una velocidad de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más abajo, puede ser variada convenientemente sobre una base de trama a trama desde 8 kbps (velocidad total) hasta 4 kbps (velocidad media) hasta 2 kbps (velocidad cuarto) hasta 1 kbps (velocidad octavo). La variación de la velocidad de transmisión de datos es ventajosa porque pueden emplearse selectivamente velocidades de bit inferiores para tramas que contienen menos información de voz relativamente. Como comprenderán aquellos con experiencia en la técnica, se pueden emplear otras velocidades de muestreo, tamaños de trama y velocidades de transmisión.

El primer codificador 10 y el segundo decodificador 20 juntos comprenden un primer codificador de voz o codec de voz. Igualmente el segundo codificador 16 y el primer decodificador 14 comprenden conjuntamente un segundo codificador de voz. Se entenderá por aquellos con experiencia en la técnica que los codificadores de voz se pueden implementar mediante un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discretas, firmware o cualquier módulo convencional de software programable y un microprocesador. El módulo software puede residir en memoria RAM, memoria flash, registros, o cualquier forma de medio de almacenamiento grabable conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador o máquina de estados podría sustituirse por el microprocesador. En la Patente U.S. No. 5,727,123, asignada al cesionario de la presente invención, se describen ASICs ejemplares diseñados específicamente para codificación de voz así como en la Patente U.S. No. 5,784, 532, asignada al cesionario de la presente invención.

En la Fig. 2, un codificador 100 que puede emplearse en un codificador de voz incluye un módulo de decisión de modo 102, un módulo de estimación de tono 104, un módulo de análisis LP 106, un filtro de análisis LP 108 y un módulo de cuantificación LP 110 y un módulo de cuantificación residual 112. Al módulo de decisión de modo 102, al módulo de estimación de tono 104, al módulo de análisis LP 106, y al filtro de análisis LP 108 se suministran tramas de voz entrantes s(n). El módulo de decisión de modo 102 produce un índice de modo I_{M} y un modo M basado en la periodicidad de cada trama de voz entrante s(n). En la Patente U.S. No. 5,911,128, asignada al cesionario de la presente invención, se describen varios métodos para clasificar tramas de voz según su periodicidad. Estos métodos también están incorporados a los Estándares Provisionales Industriales de la Asociación de Industrias de Telecomunicación TIA/EIA IS-127 y TIA/EIA IS-733.

El módulo de estimación de tono 104 produce un índice de tono I_{P} y un valor de retardo P_{O} basado en cada trama de voz entrante s(n). El módulo de análisis LP 106 realiza análisis predictivo lineal sobre cada trama de voz entrante s(n) para generar un parámetro LP a. El parámetro a se suministra al módulo de cuantificación LP 110. El módulo de cuantificación LP recibe también el modo M. El módulo de cuantificación LP 110 produce un índice I_{LP} y un parámetro LP cuantificado â. El filtro de análisis LP 108 recibe el parámetro LP cuantificado â además de las tramas de voz entrantes s(n). El filtro de análisis LP 108 genera una señal residual LP R[n], que representa el error entre las tramas de voz entrantes s(n) y los parámetros cuantificados lineales predichos â. Al módulo de cuantificación de residuo 112 se proporcionan el residuo LP R[n], el modo M y el parámetro LP cuantificado â. Basándose en estos valores, el módulo de cuantificación de residuo 112 produce un índice de residuo I_{R} y una señal de residuo cuantificado \check{R}[n].

En la Fig. 3, un decodificador 200 que se puede usar en un codificador de voz incluye un módulo decodificador de parámetro LP 202, un módulo decodificador de residuo 204, un módulo decodificador de modo 206 y un filtro de síntesis LP 208. El módulo de decodificación de modo 206 recibe y decodifica un índice de modo I_{M}, generando a partir del mismo un modo M. El módulo de decodificación de parámetros 202 recibe el modo M y un índice I_{LP}. El módulo de decodificación de parámetros 202 decodifica los valores recibidos para producir un parámetro cuantificado LP â. El módulo decodificador de residuo 204 recibe un índice de residuo I_{R}, un índice de tono I_{P} y el índice de modo I_{M}. El módulo de decodificación de residuo 204 decodifica los valores recibidos para generar una señal de residuo cuantificado \check{R}[n]. La señal de residuo cuantificado \check{R}[n] y el parámetro cuantificado â se suministran al filtro de síntesis LP 208, que sintetiza una señal de voz saliente decodificada \hat{s}[n] a partir de los mismos.

El funcionamiento e implementación de los distintos módulos del codificador 100 de la Fig. 2 y del decodificador de la Fig. 3 son conocidos en la técnica y se describen con detalle en Proceso Digital de Señales de Voz 396-453 (1978) de L.B. Rabiner & R.W. Schafer. En la antes mencionada Patente U.S. No. 5,414,796 se describe un ejemplo de codificador y un ejemplo de decodificador.

El diagrama de flujo de la Fig. 4 ilustra una técnica de codificación a baja velocidad de bits para segmentos sordos de habla según una realización. El modo de codificación sordo de baja velocidad mostrado en la realización de la Fig. 4 ofrece ventajosamente codificadores de voz multimodo a velocidad de bit media inferior al tiempo que conserva la alta calidad total de voz mediante captura con precisión de segmentos sordos con un bajo número de bits por trama.

En el paso 300 el codificador realiza una decisión de velocidad externa, identificando tramas entrantes de voz bien como sordas o no sordas. La decisión de velocidad se toma mediante consideración de varios de los parámetros extraídos de la trama de voz S[n], donde n = 1,2,3,...,N, como la energía de la trama (E), la periodicidad de la trama (R_{p}) y la inclinación espectral (T_{s}). Los parámetros se comparan con un conjunto de umbrales definidos. Se toma una decisión sobre si la trama presente es sorda basándose en los resultados de las comparaciones. Si la trama presente es sorda, se codifica como trama sorda como se describe más abajo.

La energía de trama se puede determinar convenientemente según la siguiente ecuación:

E = \frac{1}{N} * \sum\limits^{N}_{m=1} S[m|*S[m|

La periodicidad de trama se puede determinar convenientemente de acuerdo con la siguiente ecuación:

Rp = max para cualquier k {\overline{h}(S[n], S[n+k])}, para k =1,2,...,N

donde \overline{h}(x[n], x[n+k]) es una función de autocorrelación de x. La inclinación espectral se puede determinar convenientemente de acuerdo con la siguiente ecuación:

Ts = (Eh/El),

donde Eh y EI son valores de energía de SI[n] y Sh[n] siendo SI y Sh los componentes de paso bajo y paso alto de la trama de voz original S[n], los cuales componentes se pueden generar convenientemente mediante un conjunto de filtro paso bajo y paso alto.

En el paso 302 se realiza análisis LP para crear el residuo predictivo lineal de la trama sorda. El análisis predictivo lineal (LP) se realiza mediante técnicas que son conocidas en la ciencia, como se describe en la antes mencionada Patente U.S. No. 5,414,796 y en Proceso Digital de Señales de Voz 396-453 (1978) de L.B. Rabiner & R.W. Schafer. La muestra N, residuo sordo LP, R[n], donde n=1,2,...,N, se crea a partir de la trama de voz entrante S[n], donde n= 1,2,...,N. Los parámetros LP se cuantifican en el dominio de pareja espectral de línea (LSP) con técnicas de cuantificación LSP conocidas como se describe en cualquiera de las referencias arriba listadas. En la Fig. 5A se representa un gráfico de amplitud de señal de voz original en función de un índice de tiempo discreto. En la Fig. 5B se representa un gráfico de amplitud de señal de voz sorda cuantificada en función de un índice de tiempo discreto. En la Fig. 5C se representa un gráfico de amplitud de señal residuo sorda original en función de un índice temporal discreto. En la Fig. 5D se representa un gráfico de amplitud de envolvente de energía en función de un índice discreto de tiempo. En la Fig. 5E se representa un gráfico de amplitud de señal residuo sorda cuantificada en función de un índice

\hbox{temporal 
discreto. }

E = \frac{1}{N} * \sum\limits^{N}_{m=1} S[m|*S[m|

En el paso 304 se extraen del residuo sordo parámetros de energía con resolución temporal fina. Del residuo sordo R[n] se extrae un número (M) de parámetros de energía local E_{i}, donde i=1,2,3,...,M, mediante la realización de los pasos siguientes. La muestra N de residuo R[n] se divide en M-2 subbloques X_{i}, donde i=1,2,3,...,M-1, teniendo cada bloque X_{i} una longitud L=N/(M-2). El bloque de residuo X_{l} pasada la muestra L se obtiene a partir del residuo cuantificado pasado de la trama previa. (El bloque de residuo X_{l} pasada la muestra L incorpora las últimas L muestras del residuo de muestra N de la última trama de voz). El bloque de residuo futuro X_{M} de muestra L se obtiene a partir del residuo LP de la siguiente trama. (El bloque de residuo futuro X_{M} de muestra L incorpora las primeras L muestras del residuo de muestra N de la próxima trama de voz). Se crea un número de parámetros de energía local E_{i}, donde 1=1,2,...,M, a partir de cada uno de los M bloques X_{i} donde i=1,2,...,M, de acuerdo con la siguiente ecuación:

E_{i} = \frac{1}{L} * \sum\limits^{L}_{m=1} X_{i} [m| * X_{i} [m|

En el paso 306 los parámetros de energía M se codifican con N_{r} bits según un método de cuantificación de vector piramidal (PVQ). Así los M-1 valores de energía local E_{i}, donde i=2,3,...,M, se codifican con N_{r} bits para formar valores cuantificados de energía W_{i}, donde i=2,3,...,M. Se emplea un paso K de esquema de codificación PVQ con bits N_{1}, N_{2},..., N_{k} de manera que N_{1} + N_{2} +...+ N_{k} = N_{r}, el número total de bits disponibles para cuantificar el residuo sordo R[n]. Para cada k etapas, donde k = 1,2,...,K, se realizan los pasos siguientes. Para la primera etapa (es decir k=1), el número de banda se ajusta a B_{k} = B_{1} = 1, y la longitud de banda se fija a L_{k} = 1. Para cada banda B_{k}, el valor medio medio_{j}, donde j=1,2,...,B_{k}, está de acuerdo con la siguiente ecuación:

medio_{j} = \frac{1}{L_{j}} * \sum\limits^{I_{g}}_{m=1} E_{m}

Los B_{k} valores medios medio_{j}, donde j=1,2,...,B_{k}, se cuantifican con N_{k} = N_{1} bits para formar el conjunto cuantificado de valores medios qmedio_{j}, donde j=1,2,...,B_{k}. La energía perteneciente a cada banda B_{k} se divide por el valor medio cuantificado asociado qmedio_{j}, generando un nuevo conjunto de valores de energía {E_{k,i}} = {E_{1,i}}, donde i=1,2,...,M. En el caso de la primera etapa (es decir para k=1) para cada i, donde i=1,2,3,...,M,:

E_{1,i}= E_{i} /qmedio_{1}

El proceso de dividir en subbandas, extraer la media para cada banda, cuantificar la media con bits disponibles para la etapa y luego dividir los componentes de la subbanda por la media cuantificada se repite para cada etapa siguiente k, donde k=2,3,...,K-1.

En la etapa K, los subvectores para cada una de las B_{k} subbandas se cuantifican con VQs diseñados para cada banda, empleando un total de N_{k} bits. El proceso de codificación PVQ para M=8 y la etapa 4 se ilustra por medio de ejemplo en la Fig. 6.

En el paso 308 se forman M vectores cuantificados de energía. Los M vectores cuantificados de energía se forman a partir de libros de claves y los N_{r} bits que representan la información PVQ invirtiendo el proceso de codificación PVQ antes descrito con los subvectores de residuo final y medias cuantificadas. El proceso de decodificación PVQ para M=3 y etapa k=3 se ilustra por medio de ejemplo en la Fig. 7. Como comprenderán aquellos con experiencia en la técnica, se puede cuantificar la ganancia sorda (UV) con cualquier técnica de codificación convencional. El esquema de codificación no necesita restringirse al esquema PVQ de la realización descrita en relación con las Figs. 4-7.

En el paso 310 se forma una envolvente de energía de alta resolución. Se forma una envolvente de energía de alta resolución temporal de N muestras (es decir, la longitud de la trama de voz) ENV[n], donde n=1,2,3,...,N, a partir de los valores decodificados de energía W_{i}, donde i=1,2,3,...,M, de acuerdo con los cálculos descritos más abajo. Los M valores de energía representan las energías de M-2 subtramas del actual residuo de voz, teniendo cada trama una longitud L = N/M. Los valores W_{1} y W_{M} representan la energía de las L muestras pasadas de la última trama de residuo y la energía de las L muestras futuras de la próxima trama de residuo, respectivamente.

Si W_{m-1}, W_{m} y W_{m+1} son representativas de las energías de las subbandas (m-1), m y (m+1), respectivamente, entonces las muestras de la envolvente de energía ENV [n], para n=m*L-L/2 hasta n=m*L+L/2 que representa la trama emésima se calcula como sigue: Para n=m*L-L/2, hasta n=m*L,

ENV [n| = \sqrt{W_{m-1}} + (1/L) * (n-m * L + L) * (\sqrt{W_{m}} - \sqrt{W_{m-1}})

Y para n=m*L hasta n=m*L+L/2,

ENV [n| = \sqrt{W_{m}} + (1/L) * (n-m * L) * (\sqrt{W_{m-1}} - \sqrt{W_{m}})

Los pasos para calcular la envolvente de energía ENV[n] se repiten para cada una de las M-1 bandas, haciendo m=2,3,4,...,M, para estimar la envolvente de energía completa ENV[n], donde n=1,2,...,N para la trama de residuo actual.

En el paso 312 se forma un residuo sordo cuantificado tiñendo ruido aleatorio con la envolvente de energía ENV[n]. El residuo sordo cuantificado qR[n] se forma de acuerdo con la siguiente ecuación:

qR[n] = Ruido[n] * ENV[n], para n=1,2,...,N,

donde Ruido[n] es una señal aleatoria de ruido blanco con varianza unidad, que se genera convenientemente de modo artificial mediante un generador de números aleatorios en sincronismo con el codificador y el decodificador.

En el paso 314 se forma una trama de voz sorda cuantificada. El residuo sordo cuantificado qS[n] se genera por filtrado inverso LP de la voz sorda cuantificada con técnicas convencionales de síntesis LP, tal como es conocido en la técnica y se describe en al antes mencionada Patente U.S. No. 5,414,796 y en Proceso Digital de Señales de Voz 396-453 (1978) de L.B. Rabiner & R.W. Schafer.

En una realización se puede realizar un paso de control de calidad mediante una medición de error porcentual como p. ej., relación porcentual señal-ruido (PSNR), que se define como:

PSNE = 10 * log10 \frac{\sum\limits^{N}_{n=1} (x[n|-e[n|)^{2}}{\sum\limits^{N}_{n=1} e[n| * e[n|}

donde x[n] = h[n]*R[n], y e[n] = h[n]*qR[n], con "*" significando una operación de convolución o filtrado, siendo h[n] un filtro ponderado porcentualmente y siendo R[n] y qR[n], respectivamente, el residuo sordo original y cuantificado. El PSNR se compara con un umbral prefijado. Si el PSNR es menor que el umbral, el esquema de codificación sordo no funciona adecuadamente y se puede aplicar un modo de codificación de mayor velocidad en vez de captar con más precisión la trama actual. Por otra parte, si el PSNR excede el umbral predefinido el esquema de codificación sordo ha funcionado bien y se mantiene el modo de decisión.

Las realizaciones preferidas de la presente invención han sido por tanto mostradas y descritas. No obstante, sería evidente para uno con experiencia corriente en la técnica que al las realizaciones aquí descritas se pueden hacer numerosas alteraciones sin apartarse del alcance de la invención. Por tanto la presente invención no se limita excepto de acuerdo con las siguientes reivindicaciones.

Claims

1. Un método de codificación de segmentos sordos de voz que comprende:

extraer (304) coeficientes de energía de subbandas de una trama de voz;

cuantificar (308) los coeficientes de energía; y

generar (310) una envolvente de energía a partir de los coeficientes de energía cuantificados; caracterizado por:

reconstituir (312) una señal de residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

2. El método de la reivindicación 1, donde la cuantificación (308) se realiza de acuerdo con un esquema de cuantificación de vector piramidal.

3. El método de la reivindicación 1, donde la generación (310) se lleva a cabo con interpolación lineal.

4. El método de la reivindicación 1, que comprende además obtener una medición de rendimiento postproceso y comparar la medición de rendimiento postproceso con un umbral predeterminado.

5. El método de la reivindicación 1, donde la generación (310) comprende generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras pasadas de una trama previa de residuo.

6. El método de la reivindicación 1, donde la generación (310) comprende generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras futuras de una próxima trama de residuo.

7. Un codificador de voz (10, 16) para codificar segmentos sordos de habla, que comprende:

medios (102, 104, 106) para extraer coeficientes de energía a partir de subbandas de una trama de voz;

medios (110) para cuantificar los coeficientes de energía;

medios para generar una envolvente de energía a partir de los coeficientes de energía cuantificados, caracterizado por

medios (112) para reconstituir una señal residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

8. El codificador de voz de la reivindicación 7, donde los medios (110) para cuantificar comprenden medios para cuantificar de acuerdo con un esquema de cuantificación de vector piramidal.

9. El codificador de voz de la reivindicación 7, donde los medios para generar comprenden un módulo de interpolación lineal.

10. El codificador de voz de la reivindicación 7, que comprende además medios para obtener una medición de rendimiento postproceso y comparar la medición de rendimiento postproceso con un umbral predeterminado.

11. El codificador de voz de la reivindicación 7, donde los medios para generar comprenden medios para generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras pasadas de una trama previa de residuo.

12. El codificador de voz de la reivindicación 7, donde los medios para generar comprenden medios para generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras futuras de una próxima trama de residuo.