ES2259453T3

ES2259453T3 - Sistema de transmision de voz con velocidad de transferencia de bits variable.

Info

Publication number: ES2259453T3
Application number: ES98904327T
Authority: ES
Inventors: Rakesh Taori; Andreas Johannes Gerrits
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-04-07
Filing date: 1998-03-05
Publication date: 2006-10-01
Anticipated expiration: 2018-03-05
Also published as: PL330398A1; US6012026A; WO1998045833A1; CN1140894C; CN1222993A; DE69834093D1; EP0922278A1; EP0922278B1; BR9804811A; PL193825B1; DE69834093T2; JP2000516356A

Abstract

LA PRESENTE INVENCION SE REFIERE A UN CODIFICADOR VOCAL (4) CON CAUDAL BINARIO VARIABLE DEL CUAL SE DERIVAN TRAMAS DE MUESTRA VOCAL DESDE UNA SEÑAL DE ENTRADA VOCAL POR UN DISPOSITIVO DE ENCUADRADO (20). SE DETERMINAN UNOS PARAMETROS DE ANALISIS DE CODIFICACION CON PREDICCION LINEAL (LPC), COMO POR EJEMPLO PARAMETROS LPC, MEDIANTE UN ORGANO ANALIZADOR (22), Y LUEGO SE DETERMINA UNA SEÑAL DE EXCITACION REPRESENTADA POR INDICES DE TABLAS DE CODIGO Y GANANCIAS DE TABLA DE CODIGO MEDIANTE UN DISPOSITIVO DE BUSQUEDA (36). SE TRANSMITEN ESTOS COEFICIENTES LPC Y ESTOS PARAMETROS DE EXCITACION A UN RECEPTOR (12) EN FORMA DE TRAMAS. PARA VARIAR EL CAUDAL BINARIO DEL CODIFICADOR VOCAL EN FUNCION DE UNA DEFINICION R DE CAUDAL BINARIO, EL CODIFICADOR VOCAL ESTA PROVISTO DE UN DISPOSITIVO REGULADOR (30) QUE DETERMINA LA PROPORCION DE TRAMAS TRANSMITIDAS AFECTADAS DE COEFICIENTES LPC, QUE VARIAN ENTRE 0,5 Y 1. SE DETERMINAN LOS COEFICIENTES LPC DE LAS TRAMAS RESTANTES POR INTERPOLACION A TRAVES DE UN DISPOSITIVO INTERPOLADOR (85) DEL RECEPTOR. SEGUN OTRO MODO DE REALIZACION, SON LOS COEFICIENTES LPC, QUE SE APARTAN MAS DE LOS VALORES INTERPOLADOS DE SUS ELEMENTOS PROXIMOS, LOS QUE SE TRANSMITEN AL RECEPTOR (12).

Description

Sistema de transmisión de voz con velocidad de transferencia de bits variable.

La presente invención se refiere a un codificador de voz que comprende medios de análisis para determinar coeficientes de análisis a partir de una señal de voz de entrada, y medios de generación para generar cuadros de datos que representan la señal de voz de entrada.

La presente invención también se refiere a un método de codificación de voz, un transmisor y un sistema de transmisión.

Un sistema de transmisión que comprende un codificador de voz de acuerdo con el preámbulo es conocido de la Patente U.S. Nº 4,379,949.

Sistemas de transmisión como este son utilizados en aplicaciones en las que se deben transmitir señales de voz a través de un medio de transmisión con una capacidad de transmisión limitada, o tienen que ser almacenadas en medios de almacenamiento con una capacidad de almacenamiento limitada. Ejemplos de aplicaciones como estas son la transmisión de señales de voz a través de Internet, la transmisión de señales de voz desde un teléfono móvil a una estación base y viceversa y el almacenamiento de señales de voz en un CD-ROM, en una memoria de estado sólido o en un disco duro.

En un codificador de voz, la señal de voz es analizada mediante medios de análisis, que determinan una pluralidad de coeficientes de análisis para un bloque de muestras de voz, también conocido como cuadro. Un grupo de estos coeficientes de análisis describe el espectro a corto plazo de la señal de voz. Otro ejemplo de un coeficiente de análisis es un coeficiente que representa la altura tonal de una señal de voz. Los coeficientes de análisis son transmitidos a través del medio de transmisión hasta el receptor, donde estos coeficientes de análisis se usan como coeficientes para un filtro de síntesis.

Además de los parámetros de análisis, el codificador de voz también determina un número de secuencias de excitación (por ejemplo, 4) por cuadro de muestras de voz. El intervalo de tiempo cubierto por dicha secuencia de excitación se llama un sub-cuadro. El codificador de voz está preparado para encontrar la señal de excitación que resulte en la mejor calidad de voz cuando el filtro de síntesis, utilizando los coeficientes de análisis arriba mencionados, es excitado con dichas secuencias de excitación. Una representación de dichas secuencias de excitación es transmitida a través del canal de transmisión al receptor. En el receptor, las secuencias de excitación son recuperadas de la señal recibida y aplicadas a una entrada del filtro de síntesis. A la salida del filtro de síntesis se dispone de una señal de voz
sintética.

La velocidad de transferencia de bits requerida para describir una señal de voz con una cierta calidad depende del contenido de la voz. En caso de que los coeficientes de análisis sean sustancialmente constantes a lo largo de un período de tiempo prolongado, la velocidad de transferencia de bits necesaria para transmitirlos se podría reducir. Esta posibilidad es utilizada en el sistema de transmisión de acuerdo con la patente U.S. mencionada arriba. Esta patente describe un sistema de transmisión con un codificador de voz en el que los coeficientes de análisis no se transmiten cada cuadro. Sólo se transmiten si la diferencia entre al menos uno de los coeficientes de análisis reales en un cuadro y un coeficiente de análisis correspondiente obtenido por interpolación de los coeficientes de análisis a partir de cuadros vecinos supera un valor umbral predeterminado. Esto resulta en una reducción de la velocidad de transferencia de bits requerida para transmitir la señal de voz. En el sistema de transmisión conocido, la velocidad de transferencia de bits se puede establecer en valores arbitrarios elevando o disminuyendo el valor umbral, lo que da como resultado un aumento o disminución de la velocidad de transferencia de bits. Sin embargo, la velocidad de transferencia de bits media todavía depende fuertemente del contenido de la voz.

Un objetivo de la presente invención es proporcionar un sistema de transmisión de acuerdo con el preámbulo en el que se pueda establecer la velocidad de transferencia de bits en valores arbitrarios, siendo sustancialmente independiente del contenido de la voz.

Por tanto, el codificador de voz de acuerdo con la invención se caracteriza porque el codificador de voz comprende medios de control para calcular, a partir de una configuración de la velocidad de transferencia de bits, una fracción de los cuadros de datos para transportar más información acerca de dichos coeficientes de análisis que un número restante de los cuadros de datos y para controlar la transmisión de la fracción de los cuadros de datos y el número restante de los cuadros de datos. Al especificar una configuración de la velocidad de transferencia de bits y controlar la fracción real de los cuadros que transportan información acerca de los coeficientes de análisis en respuesta a dicha configuración de la velocidad de transferencia de bits, es posible obtener una velocidad de transferencia de bits media sustancialmente independiente del contenido de voz. Es incluso posible cambiar la velocidad de transferencia de bits media durante el tiempo de ejecución cambiando la configuración de la velocidad de transferencia de bits.

La fracción real se puede controlar de diferentes maneras. Un primer modo es utilizar un contador módulo-M que se incrementa N pasos para cada cuadro. Cada vez que el contador se desborda, los coeficientes de análisis son incluidos en el cuadro. En consecuencia, la fracción de cuadros que transportan coeficientes de análisis es N/M.

En la Patente U.S. Nº 5,414,796 se describe un aparato y un método para la codificación de tasa variable de cuadros de muestras de voz digitalizadas: primero, se determina el nivel de actividad de voz para cada cuadro de muestras de voz digitalizadas. Después, basándose en el nivel determinado, se selecciona una tasa de paquetes de datos de salida de entre un conjunto de tasas. Cada cuadro es entonces codificado de acuerdo a un formato de codificación predeterminado para la tasa seleccionada.

Una realización de la invención se caracteriza porque los medios de control comprenden medios de comparación para comparar una medida de una velocidad de transferencia de bits real con una medida de la configuración de la velocidad de transferencia de bits, estando dispuestos los medios de control para aumentar la fracción real de cuadros que transportan más información acerca de dichos coeficientes de análisis que los cuadros restantes si la medida para la velocidad de transferencia de bits real es menor que la medida de la configuración de la velocidad de transferencia de bits, y para disminuir la fracción real de cuadros que transportan más información acerca de dichos coeficientes de análisis que los cuadros restantes, si la medida de la velocidad de transferencia de bits real es mayor que la medida de la configuración de la velocidad de transferencia de bits. De acuerdo con esta realización, se asegura siempre que la velocidad de transferencia de bits media de la señal de voz codificada es sustancialmente igual que la configuración de la velocidad de transferencia de bits.

Otra realización de la invención se caracteriza porque los medios de control están dispuestos para indicar los parámetros de análisis que tienen una medida de distancia a partir de valores interpolados a partir de parámetros de análisis transmitidos en cuadros cercanos que superan un valor umbral, para disminuir el umbral si la medida de la velocidad de transferencia de bits real es menor que la medida de la configuración de la velocidad de transferencia de bits, y para elevar el umbral si la medida real de la velocidad de transferencia de bits es mayor que la medida de la configuración de la velocidad de transferencia de bits. En esta realización se transmiten los parámetros de análisis que más difieren de los valores interpolados. Al elevar el valor umbral, si la velocidad de transferencia de bits real es mayor que la configuración de la velocidad de transferencia de bits, y disminuir el valor umbral en caso contrario, se obtiene que la velocidad de transferencia de bits media es sustancialmente igual que la configuración de la velocidad de transferencia de bits.

Otra realización de la invención se caracteriza porque la fracción de cuadros que transportan más información acerca de dichos coeficientes de análisis que el número restante de cuadros es mayor o igual que 0,5 y es menor que 1. Los experimentos han mostrado que las fracciones de referencia entre 0,5 y 1 dan como resultado un rango de control suficiente sin una pérdida sustancial de calidad de codificación.

Otra realización de la invención está caracterizada porque el codificador de voz está dispuesto para seleccionar, en respuesta a una configuración aproximada de la velocidad de transferencia de bits, una longitud de cuadro de entre una pluralidad de longitudes de cuadro y un número de sub-cuadros de excitación por cuadro de entre una pluralidad de números de sub-cuadros de excitación por cuadro. Al seleccionar la longitud de cuadro y el número de sub-cuadros de entre una pluralidad de posibles valores en respuesta a la configuración de la velocidad de transferencia de bits, es posible obtener una velocidad de transferencia de bits continua variable con un rango de velocidad de transferencia de bits sustancialmente aumentado.

Otra realización de la invención está caracterizada porque la longitud de cuadro seleccionada es de 10 ms y porque el número seleccionado de sub-cuadros de excitación por cuadro es 4. Otra realización de la invención está caracterizada porque la longitud de cuadro seleccionada es de 15 ms y porque el número seleccionado de sub-cuadros de excitación por cuadro es 6, 8 ó 10. Al utilizar los parámetros mencionados arriba, se hace posible obtener un codificador de voz que tiene una velocidad de transferencia de bits continua variable que se puede hacer variar desde 13,6 kbit/s hasta 21,8 kbit/s.

La invención se explicará ahora haciendo referencia a las Figuras de los dibujos. En el presente documento muestran:

La Fig. 1, un sistema de transmisión en el que se puede utilizar la invención;

La Fig. 2, una realización del codificador 4 de voz de acuerdo con la invención;

La Fig. 3, una primera realización del controlador 30 de velocidad de transferencia de bits, de acuerdo con la Fig. 2;

La Fig. 4, una segunda realización del controlador 30 de velocidad de transferencia de bits, de acuerdo con la Fig. 2;

La Fig. 5 una realización del decodificador 18 de voz de la Fig. 1.

En el sistema de transmisión de acuerdo con la Fig. 1, la señal de voz a codificar está aplicada a una entrada de un codificador 4 de voz de un transmisor 2. Una primera salida del codificador 2 de voz, que transporta una señal LPC de salida que representa los coeficientes de análisis, está conectada a una primera entrada de un multiplexor 6. Una segunda salida del codificador 4 de voz, que transporta una señal F de salida, está conectada a una segunda entrada de un multiplexor 6. La señal F representa una marca que indica si la señal LPC tiene que ser transmitida o no. Una tercera salida del codificador 4 de voz, que transporta una señal EX, está conectada a una tercera entrada del multiplexor 6. La señal EX representa una señal de excitación para el filtro de síntesis en un decodificador de voz. Una señal R de control de velocidad de transferencia de bits está aplicada a una segunda entrada del codificador 4 de voz.

Una salida del multiplexor 6 está conectada a una entrada del medio 8 de transmisión. Una salida del medio 8 de transmisión está conectada a un receptor 12 a través de un medio 10 de transmisión.

En el receptor 12, la salida del medio 10 de transmisión está conectada a una entrada del medio 14 de receptor. Una salida del medio 14 de receptor está conectada a una entrada de un demultiplexor 16. Una primera salida del demultiplexor 16, que transporta la señal LPC, está conectada a una primera entrada del medio 18 de decodificación de voz y una segunda salida del demultiplexor 16, que transporta la señal EX, está conectada a una segunda entrada del medio 18 de decodificación de voz. En la salida del medio 18 de decodificación de voz está disponible la señal de voz reconstruida. La combinación del demultiplexor 16 y el medio 18 de decodificación de voz constituye el decodificador de voz de acuerdo con el concepto de la presente invención.

El funcionamiento del sistema de transmisión de acuerdo con la invención se explica suponiendo que se utiliza un codificador de voz del tipo CELP, pero debe observar que el alcance de la presente invención no se limita al mismo.

El codificador 4 de voz está dispuesto para obtener una señal de voz codificada a partir de cuadros de muestras de una señal de voz. El codificador de voz calcula coeficientes de análisis que representan, por ejemplo, el espectro a corto plazo de la señal de voz a partir de los cuadros de muestras de señales de voz. En general se utilizan coeficientes LPC o una representación transformada de los mismos. Representaciones útiles son Relaciones de Área de Log (LARs), arcosenos de coeficientes de reflexión o Frecuencias de Espectro de Línea (LSFs), también llamadas Pares de Espectro de Línea (LSPs). La representación de los coeficientes de análisis está disponible como la señal LPC en la primera salida del codificador 4 de voz.

En el codificador 4 de voz la señal de excitación es igual a una suma de señales de salida ponderadas de uno o más libros de codificación fijos y un libro de codificación adaptativo. Las señales de salida del libro de codificación fijo se indican por medio de un índice de libro de codificación fijo, y el factor de ponderación para el libro de codificación fijo se indica mediante una ganancia de libro de codificación fijo. Las señales de salida del libro de codificación adaptativo se indican mediante un índice de libro de codificación adaptativo, y el factor de ponderación para el libro de codificación adaptativo se indica mediante una ganancia de libro de codificación adaptativo.

Los índices y ganancias de libro de codificación se determinan mediante un análisis por el método de síntesis, es decir, los índices y ganancias de libro de codificación son determinados de forma que una diferencia de medida entre la señal de voz original y una señal de voz sintetizada con base en los coeficientes de excitación y los coeficientes de análisis tenga un valor mínimo. La señal F indica si los parámetros de análisis correspondientes al cuadro actual de muestras de señal de voz son transmitidos o no. Estos coeficientes pueden ser transmitidos en el cuadro de datos actual o en un cuadro de datos anterior.

El multiplexor 6 ensambla cuadros de datos con una cabecera y los datos que representan la señal de voz. La cabecera comprende un primer indicador (la marca F) que indica si el cuadro de datos actual es un cuadro de datos incompleto o no. La cabecera opcionalmente comprende un segundo indicador que indica si el cuadro de datos actual transporta parámetros de análisis. El cuadro también comprende los parámetros de excitación para una pluralidad de sub-cuadros. El número de sub-cuadros es dependiente de la velocidad de transferencia de bits elegida por la señal R en la entrada de control del codificador 4 de voz. El número de sub-cuadros por cuadro y la longitud de cuadro también se pueden codificar en la cabecera del cuadro, pero es también posible que el número de sub-cuadros por cuadro y la longitud de cuadro se acuerden durante la configuración de la conexión. En la salida del multiplexor 6, están disponibles los cuadros completados que representan la señal de voz.

En el medio 8 de transmisión, los cuadros en la salida del multiplexor 6 se transforman en una señal que se puede transmitir a través del medio 10 de transmisión. Las operaciones efectuadas en el medio de transmisión implican la modulación, intercalación y codificación de corrección de error.

El receptor 12 está preparado para recibir la señal transmitida por el transmisor 2 desde el medio 10 de transmisión. El medio 14 de receptor está preparado para la demodulación, de-intercalación y decodificación de corrección de error. El demultiplexor extrae las señales LPC, F y EX de la señal de salida del medio 14 de receptor. Si es necesario, el demultiplexor 16 lleva a cabo una interpolación entre dos grupos de conjuntos de coeficientes recibidos subsecuentemente. Se proporcionan al medio 18 de decodificación de voz los conjuntos completos de coeficientes LPC y EX. En la salida del medio 18 de decodificación de voz está disponible la señal de voz reconstruida.

En el codificador de voz de acuerdo con la Fig. 2, la señal de entrada está aplicada a una entrada del medio 20 de cuadro. Una salida del medio 20 de cuadro, que transporta una señal S_{k+1} de salida, está conectada a una entrada del medio de análisis, que es aquí un analizador 22 predictivo lineal, y a una entrada de un elemento 28 de retardo. La salida del analizador 22 predictivo lineal, que transporta una señal \alpha_{k+1}, está conectada a una entrada de un cuantificador 24. Una primera salida del cuantificador 24, que transporta una señal C_{k+1} de salida, está conectada a una entrada de un elemento 26 de retardo, y a una primera salida del codificador 6 de voz. Una salida del elemento 26 de retardo, que transporta una señal C_{k} de salida, está conectada a una segunda salida del codificador de voz.

Una segunda salida del cuantificador 24 que transporta una señal \hat{\alpha}_{k+1}, está conectada a una entrada del medio 30 de control. Una señal R de entrada, que representa una configuración de la velocidad de transferencia de bits, está aplicada a una segunda entrada del medio 30 de control. Una primera salida del medio 30 de control, que transporta una señal F de salida, está conectada a una salida del codificador 4 de voz.

Una tercera salida del medio 30 de control, que transporta una señal \alpha'_{k}, está conectada a un interpolador 32. Una salida del interpolador 32, que transporta una señal de salida \alpha'_{k}[m], está conectada a una entrada de control de un filtro 32 de ponderación perceptual.

La salida del medio 20 de cuadro también está conectada a una entrada de un elemento 28 de retardo. Una salida del elemento 28 de retardo, que transporta una señal S_{k}, está conectada a una segunda entrada del filtro 34 de ponderación perceptual. La salida del filtro 34 de ponderación perceptual, que transporta una señal rs[m], está conectada a una entrada del medio 36 de búsqueda de excitación. En la salida del medio 36 de búsqueda de excitación una representación de la señal EX de excitación, que comprende el índice de libro de codificación fijo, la ganancia de libro de codificación fijo, el índice de libro de codificación adaptativo y la ganancia de libro de codificación adaptativo, están disponibles en la salida del medio 36 de búsqueda de excitación.

El medio de cuadro calcula, a partir de la señal de entrada del codificador 4 de voz, cuadros que comprenden una pluralidad de muestras de entrada. El número de muestras en un cuadro se puede modificar de acuerdo con la configuración R de velocidad de transferencia de bits. El analizador 22 predictivo lineal calcula una pluralidad de coeficientes de análisis que comprenden coeficientes \alpha_{k+1}[p] de predicción, a partir de los cuadros o muestras de entrada. Estos coeficientes de predicción se pueden encontrar por medio del bien conocido algoritmo Levinson-Durbin. El cuantificador 24 transforma los coeficientes \alpha_{k+1}[p] en otra representación, y cuantifica los coeficientes de predicción transformados en coeficientes C_{k+1}[p] cuantificados, que se pasan a la salida a través del elemento 26 de retardo como coeficientes C_{k}[p]. El objetivo del elemento de retardo es asegurar que los coeficientes C_{k}[p] y la señal EX de excitación correspondiente al mismo cuadro de muestras de entrada de voz se presentan simultáneamente en el multiplexor 6. El cuantificador 24 proporciona una señal \hat{\alpha}_{k+1} al medio 30 de control. La señal \hat{\alpha}_{k+1} se obtiene por medio de una transformada inversa de los coeficientes C_{k+1} cuantificados. La transformada inversa es la misma que se efectúa en el decodificador de voz del receptor. La transformada inversa de los coeficientes cuantificados es efectuada en el codificador de voz, para proporcionar al codificador de voz para la síntesis local exactamente los mismos coeficientes que están disponibles para un decodificador en el receptor.

El medio 30 de control está preparado para calcular la fracción de los cuadros en los que se transmite más información acerca de los coeficientes de análisis que en los otros cuadros. En el codificador 4 de voz de acuerdo con la presente invención, los cuadros transportan la información completa acerca de los coeficientes de análisis o no transportan ninguna información acerca de los coeficientes de análisis. La unidad 30 de control proporciona una señal F de salida que indica si el multiplexor 6 tiene o no que introducir la señal LPC en el cuadro actual. Sin embargo, se observa que es posible que el número de parámetros de análisis transportado por cada cuadro pueda variar.

La unidad 30 de control proporciona coeficientes \alpha'_{k} de predicción al interpolador 32. Los valores de \alpha'_{k} son iguales a los coeficientes de predicción más recientemente determinados (cuantificados) si dichos coeficientes LPC para el cuadro actual son transmitidos. Si los coeficientes LPC para el cuadro actual no se transmiten, el valor de \alpha'_{k} se calcula interpolando los valores de \alpha'_{k-1} y \alpha'_{k+1}.

El interpolador 32 proporciona valores \alpha'_{k}[m] interpolados linealmente a partir de \alpha'_{k-1} y \alpha'_{k} para cada uno de los sub-cuadros en el cuadro actual. Los valores de \alpha'_{k}[m] se aplican al filtro 34 de ponderación perceptual para calcular una "señal residual" rs[m] a partir del sub-cuadro m actual de la señal S_{k} de entrada. El medio 36 de búsqueda está preparado para encontrar el índice de libro de codificación fijo, la ganancia de libro de codificación fijo, el índice de libro de codificación adaptativo y la ganancia de libro de codificación adaptativo, dando como resultado una señal de excitación se ajusta mejor con el sub-cuadro m actual de la "señal residual" rs[m]. Para cada sub-cuadro m los parámetros de excitación índice de libro de codificación fijo, ganancia de libro de codificación fijo, índice de libro de codificación adaptativo y ganancia de libro de codificación adaptativo están disponibles en la salida EX del codificador 4 de voz.

Un ejemplo de codificador de voz de acuerdo con la Fig. 2 es un codificador de voz de banda ancha para codificar señales de voz con un ancho de banda de 7 kHz con una velocidad de transferencia de bits que varía desde 13,6 kbit/s a 24 kbit/s. El codificador de voz se puede fijar en cuatro de las llamadas velocidades de transferencia de bits de anclaje. Estas velocidades de transferencia de bits de anclaje son valores de inicio a partir de los cuales puede disminuirse la velocidad de transferencia de bits reduciendo la fracción de cuadros que transportan parámetros de predicción. En la tabla de abajo se proporcionan las cuatro velocidades de transferencia de bits de anclaje y los correspondientes valores de duración de cuadro, el número de muestras en un cuadro y los números de sub-cuadros por cuadro.

\newpage

Velocidad de transferencia	Tamaño de cuadro (ms)	Nº muestras por cuadro	Nº sub-cuadros/cuadro
de bits (kbit/s)
15,8	15	240	6
18,2	10	160	4
20,1	15	240	8
24,0	10	240	10

Al reducir el número de cuadros en que están presentes los coeficientes LPC, se puede controlar la velocidad de transferencia de bits en pequeños escalones. Si la fracción de cuadros que transportan coeficientes LPC varía de 0,5 a 1, y el número de bits requeridos para transmitir los coeficientes LPC para un cuadro es 66, se puede calcular la reducción de velocidad de transferencia de bits máxima posible. Con un tamaño de cuadro de 10 ms, la velocidad de transferencia de bits para los coeficientes LPC puede variar desde 3,3 kbit/s hasta 6,6 kbit/s. Con un tamaño de cuadro de 15 ms, la velocidad de transferencia de bits para los coeficientes LPC puede variar desde 2,2 kbit/s hasta 4,4 kbit/s. En la tabla de abajo se proporcionan la máxima reducción de velocidad de transferencia de bits y la mínima velocidad de transferencia de bits para las cuatro velocidades de transferencia de bits de anclaje.

Velocidad de transferencia	Máxima reducción de velocidad	Mínima velocidad de
de bits de anclaje (kbit/s)	de transferencia de bits (kbit/s)	transferencia de bits (kbit/s)
15,8	2,2	13,6
18,2	3,3	14,9
20,1	2,2	17,9
24,0	2,2	21,8

En el medio 30 de control de acuerdo con la Fig. 3, una primera entrada que transporta la señal \hat{\alpha}_{k+1} está conectada a una entrada de un elemento 40 de retardo y a una entrada de un convertidor 44. Una salida del elemento 40 de retardo, que transporta la señal \hat{\alpha}_{k}, está conectada a una entrada de un elemento 42 de retardo y a una entrada de un convertidor 50. Una salida del elemento 42 de retardo, que transporta una señal \hat{\alpha}_{k-1} de salida, está conectada a una entrada de un convertidor 46. Una salida del convertidor 44, que transporta una señal i_{k+1} de salida, está conectada a una primera entrada de un interpolador 48. Una salida del convertidor 46, que transporta una señal i_{k-1} de salida, está conectada a una segunda entrada del interpolador 48. La salida del interpolador 48, que transporta una señal \hat{i}_{k}, está conectada a una primera entrada de un selector 52. Una salida del convertidor 50, que transporta una señal i_{k} de salida, está conectada a una segunda entrada del selector 52. En la salida del selector 52 se encuentra disponible una señal \tilde{i}_{k}. La salida del selector 52 está conectada a una entrada de un convertidor 53. La salida del convertidor 53, que transporta la señal \alpha'_{k} a utilizar por el interpolador 32 en la Fig. 2, está conectada a la salida del medio 30 de control.

Una segunda entrada del medio 30 de control, que transporta la señal R, está aplicada al medio 54 de cálculo. La salida del medio 54 de cálculo está conectada a una entrada de un sumador 56. Una salida del sumador 56 está conectada a una entrada de un acumulador 58. Una primera salida del acumulador 58, que transporta el valor acumulado, está conectada a una segunda entrada del sumador 56. Una segunda salida del acumulador 58, que transporta una señal de desbordamiento, está conectada a una entrada de control de En el medio 30 de control, el medio de cálculo determina, a partir de la señal R de configuración de velocidad de transferencia de bits, la velocidad de transferencia de bits de anclaje, y la fracción de cuadros que transportan información LPC. En caso de que una cierta velocidad de transferencia de bits R se pueda conseguir partiendo de dos velocidades de transferencia de bits de anclaje diferentes, se elige la velocidad de transferencia de bits de anclaje que de cómo resultado la mejor calidad de voz. Es conveniente almacenar el valor de la velocidad de transferencia de bits de anclaje como función como la señal R en una tabla. Si se ha elegido la velocidad de transferencia de bits de anclaje, se puede determinar la fracción de los cuadros que transportan coeficientes LPC.

Primero se determinan los valores B_{MAX} y B_{MIN}, que representan el valor máximo y el valor mínimo de números de bit por cuadro de acuerdo con:

(1)B_{MAX} = b_{CABECERA} + b_{EXCITACIÓN} + b_{LPC}

(2)B_{MIN} = b_{CABECERA} + b_{EXCITACIÓN}

En (1) y (2) b_{CABECERA} es el número de bits de cabecera en un cuadro, b_{EXCITACIÓN} es el número de bits que representan la señal de excitación, y b_{LPC} es el número de bits que representan los coeficientes de análisis. Si la señal R representa una velocidad de transferencia de bits B_{REQ} requerida, para la fracción de cuadros r que transporta parámetros LPC se puede escribir:

\hskip6cm

r = \frac{B_{REQ} - B_{MIN}}{B_{MAX} - B_{MIN}}

\hskip7cm

(3)

Se observa que en la presente realización, el valor mínimo de r es 0,5.

Un número FR que representa la fracción de cuadros que transportan parámetros LPC es aplicado al sumador 56. El sumador 56 está preparado para sumar cada intervalo de cuadro el número FR al contenido del acumulador 58. El número FR y el contenido A máximo del acumulador 58 se eligen de forma que FR/A = r. Consecuentemente, el acumulador se desbordará para una fracción r de los intervalos de cuadro. Al utilizar una señal de desbordamiento del acumulador 58 para controlar el multiplexor 6 en la Fig. 2, se obtiene que una fracción r de los cuadros en la salida del multiplexor 6 transporta coeficientes LPC.

Los elementos 40 y 42 de retardo proporcionan conjuntos retardados de coeficientes \hat{\alpha}_{k} y \hat{\alpha}_{k-1} de reflexión a partir del conjunto de coeficientes \hat{\alpha}_{k+1} de reflexión. Los convertidores 44, 50 y 46 calculan los coeficientes i_{K+1} e i_{K-1} que están mejor adaptados para la interpolación que los coeficientes \hat{\alpha}_{k+1}, \hat{\alpha}_{k} y \hat{\alpha}_{k-1}. Coeficientes útiles son Relaciones de Área Log, Arcosenos de coeficientes de reflexión o Pares de Espectro de Línea. El interpolador 48 calcula valores interpolados \hat{i}_{k}[n] a partir de los valores i_{K+1}[n] e i_{K-1}[n] según la expresión (i_{K+1}[n] + i_{K-1}[n])/2.

Si el acumulador 58 de desborda, se transmiten los coeficientes LPC, y el selector 52 estará preparado para pasar el conjunto de coeficientes i_{K} de predicción al convertidor 53. Si no se transmite ningún coeficiente LPC, el selector 52 estará preparado para pasar el valor \hat{i}_{k} interpolado al convertidor 53. El convertidor 53 convierte el conjunto de coeficientes \tilde{i}_{k} de predicción en un conjunto de coeficientes \alpha'_{K} de predicción, adecuado para el filtro 34. Según se explicó anteriormente, la interpolación local en el codificador 4 de voz se efectúa para obtener, para cada sub-cuadro, exactamente los mismos coeficientes de predicción en el codificador 4 y en el decodificador 6.

En el medio 30 de control de acuerdo con la Fig. 4, una primera entrada que transporta la señal \hat{\alpha}_{k+1} está conectada a una entrada de un elemento 60 de retardo y a una entrada de un convertidor 64. Una salida del elemento 60 de retardo, que transporta la señal \hat{\alpha}_{k}, está conectada a una entrada de un elemento 62 de retardo y a una entrada de un convertidor 70. Una salida del convertidor 64, que transporta una señal i_{k+1} de salida, está conectada a una primera entrada de un interpolador 68. Una salida del convertidor 66, que transporta una señal i_{k-1} de salida, está conectada a una segunda entrada del interpolador 68. La salida el interpolador 68, que transporta una señal \hat{i}_{k} de salida, está conectada a una primera entrada una calculadora 72 de distancia y a una primera entrada de un selector 80. Una salida del convertidor 70, que transporta una señal i_{k} de salida, está conectada a una segunda entrada de la calculadora 72 de distancia y a una segunda entrada del selector 80.

Una señal R de entrada del medio 30 de control está conectada a una entrada del medio 74 de cálculo. Una primera salida del medio 74 de cálculo está conectada a una unidad 76 de control. La señal en la primera salida del medio 74 de cálculo representa la fracción r de cuadros que transportan parámetros LPC. Consecuentemente, dicha señal es una señal que representa la configuración de velocidad de transferencia de bits. Una segunda y una tercera salida del medio de cálculo transportan señales que representan la velocidad de transferencia de bits de anclaje que se establece dependiendo de la señal R. Una salida de la unidad 76 de control, que transporta la señal umbral t, está conectada a una primera entrada de un comparador 78. Una salida de la calculadora 72 de distancia está conectada a una segunda entrada del comparador 78. Una salida del comparador 78 está conectada a una entrada de control del selector 80, a una entrada de la unidad 76 de control y a una salida del medio 30 de control.

En el medio de control de acuerdo con la Fig. 3, los elementos 60 y 62 de retardo proporcionan conjuntos retardados de coeficientes \hat{\alpha}_{k} y \hat{\alpha}_{k-1} de reflexión a partir del conjunto de coeficientes \hat{\alpha}_{k+1} de reflexión. Los convertidores 64, 70 y 66 calculan los coeficientes i_{K+1}, i_{K} e i_{K-1} que son más adecuados para la interpolación que los coeficientes \hat{\alpha}_{k+1}, \hat{\alpha}_{k} y \hat{\alpha}_{k-1}. El interpolador 68 calcula un valor \hat{i}_{k} interpolado a partir de los valores i_{K+1} e i_{K-1}.

La calculadora 72 de distancia determina una medida d de distancia entre el conjunto de parámetros de predicción in y el conjunto de parámetros \hat{i}_{k} de predicción interpolado a partir de i_{K+1} e i_{K+1}. Una medida d de distancia adecuada se obtiene mediante:

\hskip4cm

d = \left[\frac{1}{2\pi} \int\limits^{2\pi}_{0} \left(10 log H (\omega) - 10 log \hat{H} (\omega)\right)^2 d\omega \right]^{\tfrac{1}{2}}

\hskip5.5cm

(4)

En (4), H(w) es el espectro descrito por los coeficientes i_{K} y \hat{H}(\omega) es el espectro descrito por los coeficientes \hat{i}_{k}. La medida d es comúnmente utilizada, pero los experimentos han mostrado que la norma L1 más fácilmente calculable proporciona resultados comparables. Para esta norma L1 se puede escribir:

(5)d = \frac{1}{p} \sum\limits^{p}_{n = 1} \left\bracevert i_{k}[n] - \hat{i}_{k}[n]\right\bracevert

En (5), P es el número de coeficientes de predicción determinado por el medio 22 de análisis. La medida d de distancia es comparada por el comparador 78 con el umbral t. Si la distancia d es mayor que el umbral t, la señal c de salida del comparador 78 indica que los coeficientes LPC del cuadro actual se deben transmitir. Si la medida d de distancia es menor que el umbral t, la señal c de salida del comparador 78 indica que los coeficientes LPC del cuadro actual no se transmiten. Al contar a lo largo de un período de tiempo predeterminado (por ejemplo, a lo largo de k cuadros, teniendo k un valor típico de 100) el número de veces a que la señal c indicaba la transmisión de los coeficientes LPC, se obtiene una medida a para la fracción real de cuadros que comprenden parámetros LPC. Dados los parámetros correspondientes a la velocidad de transferencia de bits de anclaje elegida, esta medida a también es una medida para la velocidad de transferencia de bits real.

El medio 30 de control está preparado para comparar una medida de la velocidad de transferencia de bits real con una medida de la configuración de la velocidad de transferencia de bits, y para ajustar la velocidad de transferencia de bits real si es necesario. El medio 74 de cálculo determina a partir de la señal R, la velocidad de transferencia de bits de anclaje y la fracción r. La unidad 76 de control determina la diferencia entre la fracción r y la fracción real a de los cuadros que transportan parámetros LPC. Para ajustar la velocidad de transferencia de bits de acuerdo con la diferencia entre la configuración de la velocidad de transferencia de bits y la velocidad de transferencia de bits real, se eleva o disminuye el umbral t. Si se eleva el umbral t, la medida d de diferencia excederá dicho umbral para un número menor de cuadros, y la velocidad de transferencia de bits real disminuirá. Si disminuye el umbral t, la medida d de diferencia excederá de dicho umbral para un mayor número de cuadros, y se aumentará la velocidad de transferencia de bits real. La actualización del umbral t en función de la medida r para la configuración de la velocidad de transferencia de bits y la medida b para la velocidad de transferencia de bits real es efectuada por la unidad 76 de control de acuerdo con:

10

En (6), t' es el valor original del umbral, y c_{1} y c_{2} son constantes.

En el medio 18 de decodificación de acuerdo con la Fig. 8, una entrada que transporta una señal LPC está conectada a una entrada de un interpolador 89 de sub-cuadro. La salida del interpolador 87 de sub-cuadro está conectada a una entrada de un filtro 88 de síntesis.

Una entrada del medio 18 de decodificación de voz, que transporta una señal EX de entrada, está conectada a una entrada de un demultiplexor 89. Una primera salida del demultiplexor 89, que transporta una señal FI que representa el índice de libro de codificación fijo, está conectada a una entrada de un libro de codificación 90 fijo. Una salida del libro de codificación 90 fijo está conectada a una primera entrada de un multiplicador 92. Una segunda salida del multiplexor, que transporta una señal FCBG (Ganancia de Libro de Codificación Fijo) está conectada a una segunda entrada del multiplicador 92.

Una tercera salida del demultiplexor 89, que transporta una señal AI que representa el índice de libro de codificación adaptativo, está conectada a una entrada de un libro de codificación 91 adaptativo. Una salida del libro de codificación 91 adaptativo está conectada a una primera entrada de un multiplicador 93. Una segunda salida del demultiplexor 89, que transporta una señal ACBG (Ganancia de Libro de codificación Adaptativo) está conectada a una segunda entrada del multiplicador 93. Una salida del multiplicador 92 está conectada a una primera entrada de un sumador 94, y una salida del multiplicador 93 está conectada a una segunda entrada del sumador 94. La salida del sumador 94 está conectada a una entrada del libro de codificación adaptativo, y a una entrada del filtro 88 de síntesis.

En el medio 18 de decodificación de voz de acuerdo con la Fig. 8, el interpolador 89 de sub-cuadro proporciona coeficientes de predicción interpolados para cada uno de los sub-cuadros, y pasa estos coeficientes de predicción al filtro 88 de síntesis.

La señal de excitación para el filtro de síntesis es igual a una suma ponderada de las señales de salida del libro de codificación 90 fijo y el libro de codificación 91 adaptativo. La ponderación es efectuada por los multiplicadores 92 y 93. Los índices de libro de codificación FI y AI son extraídos de la señal EX por el demultiplexor 89. Los factores de ponderación FCBG (Ganancia de Libro de codificación Fijo) y ACBG (Ganancia de Libro de codificación Adaptativo) también son extraídos de la señal EX por el demultiplexor 89. La señal de salida del sumador 94 es desplazada al libro de codificación adaptativo para proporcionar la adaptación.

Claims

1. Un codificador (4) de voz, que comprende:

- medios (22) de análisis para determinar coeficientes de análisis a partir de una señal de voz de entrada;

- medios (20) de generación para generar cuadros de datos que representan la señal de voz de entrada;

caracterizado porque el codificador (4) de voz comprende medios (30) de control para calcular a partir de una configuración de la velocidad de transferencia de bits una fracción de los cuadros de datos para transportar más información acerca de dichos coeficientes de análisis que un número restante de cuadros de datos y para controlar la transmisión de la fracción de los cuadros de datos y el número restante de cuadros de datos.

2. Un codificador (4) de voz de acuerdo con la reivindicación 1, donde el medio (30) de control comprende medios (76) de comparación para comparar una medida de una velocidad de transferencia de bits real con una medida de la configuración de la velocidad de transferencia de bits, estando preparado el medio (30) de control para aumentar la fracción real de cuadros que transportan más información acerca de dichos coeficientes de análisis que los cuadros restantes si la medida de la velocidad de transferencia de bits real es menor que la medida de la configuración de la velocidad de transferencia de bits, y para disminuir la fracción real de cuadros que transportan más información acerca de dichos coeficientes de análisis que los cuadros restantes, si la medida de la velocidad de transferencia de bits real es mayor que la medida de la configuración de la velocidad de transferencia de
bits.

3. Un codificador (4) de voz de acuerdo con la reivindicación 2, donde el medio (30) de control está preparado para indicar los parámetros de análisis que tienen una medida de distancia de valores interpolados de parámetros de análisis transmitidos en cuadros vecinos que exceden un valor umbral, para disminuir el umbral si la medida de la velocidad de transferencia de bits real es menor que la medida de la configuración de la velocidad de transferencia de bits, y para aumentar el umbral si la medida real de la velocidad de transferencia de bits es mayor que la medida de la configuración de la velocidad de transferencia de bits.

4. Un codificador (4) de voz de acuerdo con la reivindicación 1, donde la fracción de los cuadros que transportan más información acerca de dichos coeficientes de análisis que el número restante de cuadros es mayor o igual que 0,5 y es menor que 1.

5. Un codificador (4) de voz de acuerdo con la reivindicación 1, donde el codificador (4) de voz está preparado para seleccionar, en respuesta a una configuración de la velocidad de transferencia de bits aproximada, una longitud de cuadro de entre una pluralidad de longitudes de cuadro y un número de sub-cuadros de excitación por cuadro de entre una pluralidad de números de sub-cuadros de excitación por cuadro.

6. Un codificador de voz de acuerdo con la reivindicación 5, donde la longitud de cuadro seleccionada es 10 ms y donde el número de sub-cuadros de excitación por cuadro seleccionado es 4.

7. Un codificador de voz de acuerdo con la reivindicación 5, donde la longitud de cuadro seleccionada es 15 ms y donde el número de sub-cuadros de excitación por cuadro seleccionado es 6, 8 ó 10.

8. Un método de codificación de voz, que comprende:

- determinar coeficientes de análisis a partir de una señal de voz de entrada;

- generar cuadros de datos que representan la señal de voz de entrada;

caracterizado porque el método de codificación de voz comprende además:

- calcular a partir de una configuración de la velocidad de transferencia de bits una fracción de los cuadros de datos para transportar más información acerca de dichos coeficientes de análisis que un número restante de cuadros de datos; y

- controlar la transmisión de la fracción de cuadros de datos y el número restante de cuadros de datos.

9. Un transmisor (2) para transmitir cuadros de datos que representan una señal de voz, comprendiendo dicho transmisor (2):

un codificador (4) de voz de acuerdo con cualquiera de las reivindicaciones 1 a 7 para calcular los cuadros de datos a partir de una señal de voz de entrada.

\newpage

10. Un sistema de transmisión que comprende:

- un transmisor (2) de acuerdo con la reivindicación 9; y

- un receptor (12) para recibir los cuadros de datos a través de un medio (10) de transmisión, comprendiendo el receptor (12) un decodificador (18) de voz para calcular una señal de voz reconstruida a partir de los cuadros de datos.