ES2267176T3 - Sistema de transmision de voz. - Google Patents
Sistema de transmision de voz. Download PDFInfo
- Publication number
- ES2267176T3 ES2267176T3 ES98903258T ES98903258T ES2267176T3 ES 2267176 T3 ES2267176 T3 ES 2267176T3 ES 98903258 T ES98903258 T ES 98903258T ES 98903258 T ES98903258 T ES 98903258T ES 2267176 T3 ES2267176 T3 ES 2267176T3
- Authority
- ES
- Spain
- Prior art keywords
- frame
- frames
- coefficients
- voice
- incomplete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005540 biological transmission Effects 0.000 title claims description 34
- 238000000034 method Methods 0.000 claims description 14
- 230000005284 excitation Effects 0.000 abstract description 30
- 230000001755 vocal effect Effects 0.000 abstract 2
- 230000003044 adaptive effect Effects 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003918 fraction a Anatomy 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
EN UN CODIFICADOR VOCAL (4), LAS TRAMAS (100) DE MUESTRAS DE PALABRAS SE CODIFICAN EN TRAMAS DE DATOS (104) QUE COMPRENDEN UNA SERIE DE COEFICIENTES DE LPC Y UNA SERIE DE COEFICIENTES DE EXCITACION. PARA REDUCIR LA VELOCIDAD DE TRAFICO BINARIO DE LA SEÑAL VOCAL CODIFICADA, LOS COEFICIENTES DE LPC SOLO SE INTRODUCEN EN LAS TRAMAS DE DATOS SEGUN SEA LA DIFERENCIA ENTE LOS COEFICIENTES DE LPC REALES Y LOS COEFICIENTES DE LPC OBTENIDOS MEDIANTE LA INTERPOLACION DE LOS COEFICIENTES DE LPC DE LAS TRAMAS PREVIAS Y LAS POSTERIORES DE LAS MUESTRAS DE PALABRAS. PARA REDUCIR EL RETARDO DE DECODIFICACION, SE PROPONE SEGUN LA PRESENTE INVENCION TRANSMITIR LOS PARAMETROS DE LPC DE LA TRAMA SIGUIENTE YA EN LA TRAMA ACTUAL SI TODAVIA NO SE HAN TRANSMITIDO LOS COEFICIENTES LPC DE LA TRAMA ACTUAL. LA INTERPOLACION UTILIZADA PARA OBTENER LOS PARAMETROS DE LPC DE LA TRAMA DE PALABRA ACTUAL SE PUEDEN EJECUTAR YA AL PRINCIPIO DE LA TRAMA DE DATOS ACTUAL.
Description
Sistema de transmisión de voz.
El presente invento se refiere a un método de
codificación de voz de derivación a partir de tramas ordenadas
temporalmente de tramas de datos de muestras de señal de voz con
coeficientes que representan dichas tramas de muestras de señal de
voz.
El presente invento está también relacionado con
un codificador de voz, transmisor, un método de descodificación de
voz, un descodificador de voz un receptor, un sistema de
transmisión, una señal de voz codificada y un medio de
almacenamiento que tiene almacenada tal señal.
Un sistema de transmisión que emplea tal método
de codificación de voz es conocido a partir de la patente
norteamericana nº 4.379.949.
Tales sistemas de transmisión son usados en
aplicaciones en los que las señales de voz han de ser transmitidas
sobre un medio de transmisión con una capacidad de transmisión
limitada o han de ser almacenados en medios de almacenamiento con
una capacidad de almacenamiento limitada. Ejemplos de tales
aplicaciones son la transmisión de señales de voz en Internet, la
transmisión de señales de voz desde un teléfono móvil a una estación
de base y viceversa y el almacenamiento de señales de voz en un
CD-ROM, en una memoria de estado sólido o en una
unidad de disco duro.
Un codificador de voz deriva a partir de una
trama de tramas de datos de muestras de voz que comprenden
coeficientes que representan dichas tramas de muestras de señal de
voz. Estos coeficientes comprenden coeficientes de análisis y
coeficientes de excitación. Un grupo de estos coeficientes de
análisis describe el espectro de breve tiempo de la señal de voz.
Otro ejemplo de un coeficiente de análisis es un coeficiente que
representa el paso de una señal de voz. Los coeficientes de análisis
son transmitidos a través del medio de transmisión al receptor donde
estos coeficientes de análisis son usados como coeficientes para un
filtro de síntesis.
Además de los parámetros de análisis, el
codificador de voz también determina un número de secuencias de
excitación (por ejemplo 4) por trama de muestras de voz. El
intervalo de tiempo cubierto por tal secuencia de excitación es
denominado un subtrama. El codificador de voz está previsto para
encontrar la señal de excitación resultante en la mejor calidad de
voz cuando el filtro de síntesis, usando los coeficientes de
análisis antes mencionados, es excitado con dichas secuencias de
excitación. Una representación de dichas secuencias de excitación es
transmitida como coeficientes en las tramas de datos a través del
canal de transmisión al receptor. En el receptor, las secuencias de
excitación son recuperadas de la señal recibida y aplicadas a una
entrada del filtro de síntesis. A la salida del filtro de síntesis
está disponible una señal de voz sintética.
La relación de bits requerida para describir una
señal de voz con una cierta calidad depende del contenido de la voz.
Es posible que algunos de los coeficientes llevados por las tramas
de datos sean sustancialmente constantes durante un periodo de
tiempo prolongado, por ejemplo en vocales sostenidas. Esta propiedad
puede ser explotada transmitiendo en tales casos tramas de datos
incompletas que comprenden un conjunto incompleto de
coeficientes.
Esta posibilidad es usada en el sistema de
transmisión de acuerdo con la patente norteamericana antes
mencionada. Esta patente describe un sistema de transmisión con un
codificador de voz en el que los coeficientes de análisis no son
transmitidos en cada trama. Estos coeficientes de análisis son sólo
transmitidos si la diferencia entre al menos uno de los coeficientes
de análisis real en una trama de datos y un coeficiente de análisis
correspondiente obtenido por interpolación de los coeficientes de
análisis de las tramas de datos contiguas excede de un valor de
umbral predeterminado. Esto da como resultado una reducción de la
relación de bits requerida para transmitir la señal de
voz.
voz.
Una desventaja del sistema de transmisión de
acuerdo con la patente norteamericana antes mencionada y el método
de codificación de voz empleado en ella es que la señal de voz está
siempre retrasada varias tramas debido a la interpolación que ha de
ser realizada.
El objeto del presente invento es proporcionar
un método de codificación de voz de acuerdo con el preámbulo en el
que el retraso de la señal de voz ha sido reducido.
Por ello el método de codificación de voz de
acuerdo con el invento comprende:
- -
- derivar de una primera trama de dichas tramas ordenadas temporalmente de muestras de señal de voz un conjunto incompleto de coeficientes que representan dicha primera trama de muestras de señal de voz; y
- -
- derivar desde una segunda trama de dichas tramas ordenadas temporalmente de muestras de señal de voz un conjunto completo de coeficientes que representan dicha segunda trama de muestras de señal de voz, siendo dicha segunda trama posterior en el tiempo en dichas tramas ordenadas temporalmente a dicha primera trama; y
- -
- derivar una trama de datos incompleta que comprende dicho conjunto incompleto de coeficientes y al menos un coeficiente de dicho conjunto completo de coeficientes; y
- -
- derivar una trama de datos completa que comprende dicho conjunto completo de coeficientes pero sin al menos dicho coeficiente.
Transmitiendo los coeficientes adicionales que
representan tramas posteriores de muestras de señal de voz en las
tramas de datos incompletos, estos coeficientes adicionales están
disponibles al menos un intervalo de tramas anterior en el de
codificador. Debido a que estos coeficientes adicionales son usados
para completar el conjunto incompleto de coeficientes por
interpolación, esta interpolación puede ser también realizada al
menos un intervalo de tramas antes. Consiguientemente la síntesis de
la señal de voz reconstruida puede tener lugar más pronto y el
retraso de señal es reducido con al menos un intervalo de
tramas.
En una realización del invento el método de
codificación comprende además introducir en las tramas de datos un
primer indicador para indicar si una trama de datos es una trama de
datos incompleta y un segundo indicador para indicar si una trama de
datos lleva al menos dicho coeficiente adicional.
La introducción del primer y segundo
indicadores, permite una descodificación muy fácil en el receptor.
Los medios de terminación en el receptor pueden extraer fácilmente
las tramas incompletas a partir de la señal de entrada, y comenzar
con la terminación (por interpolación) tan pronto como una trama
incompleta que lleva coeficientes adicionales esté disponible. Si
solamente hay presente un indicador el descodificador de voz
necesita que los indicadores correspondientes a la trama de datos
previa sean capaces de descodificar la señal. Esto requiere una
comunicación muy fiable para impedir errores en las tramas de datos
o perderlos.
El presente invento será explicado continuación
con referencia a los dibujos. En ellos muestra:
La fig. 1 un sistema de transmisión en el que
puede ser aplicado el invento;
La fig. 2 una realización de medios de
codificación que entregan tramas de señales de voz codificadas que
pueden ser usadas en el presente invento;
La fig. 3 una realización de los medio de
control 30 que han de ser usados en los medios de codificación de
acuerdo con la fig. 2.
La fig. 4 un diagrama que muestra una secuencia
de tramas de voz de entrada, las tramas de datos derivados de ellos
y las tramas de voz reconstruidas a partir de dichas tramas de datos
en el receptor;
La fig. 5 un diagrama de flujo de un programa
para un procesador programable para implantar el multiplexador
6;
La fig. 6 un diagrama de flujo de un programa
para un procesador programa hable para implantar el desmultiplexador
16;
La fig. 7 un diagrama de flujo de una
implantación alternativa de la instrucción 138 en la fig. 6.
La fig. 8 medios 18 de descodificación de voz
que han de ser usados en el sistema de transmisión de acuerdo a la
fig. 1.
En el sistema de transmisión de acuerdo con la
fig. 1, la señal de voz que ha de ser codificada es aplicada a una
entrada de un codificador de voz 4 en un transmisor 2. Una primera
salida del codificador de voz 2, que lleva una señal de salida LPC
que representa los coeficientes de análisis, está conectada a una
primera entrada de un multiplexador 6. Una segunda salida del
codificador de voz 4, que lleva una señal de salida F, está
conectada a una segunda entrada de un multiplexador 6. La señal F
representa una banderola que indica si la señal LPC ha de ser
transmitida o no. Una tercera salida del codificador de voz 4, que
lleva una señal EX está conectada a una tercera entrada del
multiplexador 6. La señal EX representa una señal de excitación
para el filtro de síntesis en un descodificador de voz. Una señal R
de control de relación de bits es aplicada a una segunda entrada del
codificador de voz
4.
4.
Una salida del multiplexador 6 está conectada a
una entrada del medio de transmisión 8. Una salida del medio de
transmisión 8 está conectada a un receptor 12 a través de un medio
de transmisión 10.
En el receptor 12, la salida del medio de
transmisión 10 está conectada a una entrada del medio de recepción
14. Una salida del medio de recepción 14 está conectada a una
entrada de un desmultiplexador 16. Una primera salida del
desmultiplexador 16, que lleva la señal LPC está conectada a una
primera entrada del medio 18 de descodificación de voz y una segunda
salida del desmultiplexador 16, que lleva la señal EX está conectada
a la segunda entrada del medio 18 de descodificación de voz. A la
salida del medio 18 de descodificación de voz la señal de voz
reconstruida está disponible. La combinación del desmultiplexador 16
y el medio 18 de descodificación de voz constituye el descodificador
de voz de acuerdo con el concepto del presente invento.
El funcionamiento del sistema de transmisión de
acuerdo con este invento es explicado bajo la suposición de que es
usado un codificador de voz del tipo CELP, pero se ha observado que
el marco del presente invento no está limitado a ello.
El codificador de voz 4 está previsto para
derivar una señal de voz codificada desde tramas de muestras de una
señal de voz. El codificador de voz deriva coeficientes de análisis
que representan por ejemplo el espectro a corto término de la señal
de voz. En general son usados coeficientes LPC, o una representación
transformada de los mismos. Representaciones útiles son Relaciones
de Área Logarítmica (LAR), arco-senos de
coeficientes de reflexión o Frecuencias Espectrales de Línea (LSF)
también llamados Pares Espectrales de Línea (LPS). La representación
de los coeficientes de análisis está disponible como la señal LPC en
la primera salida del codificador de voz 4.
En el codificador de voz 4 la señal de
excitación a es igual a una suma de las señales de salida ponderadas
de uno o más libros de códigos fijos y un libro de código
adaptativo. Las señales de salida del libro de códigos fijo están
indicadas por un índice de libro de códigos fijo, y el factor de
ponderación para el libro de códigos fijo, está indicado por una
ganancia del libro de códigos fijo. Las señales de salida del libro
de códigos adaptativo están indicadas por un índice del libro de
códigos adaptativo, y el factor de ponderación al libro de códigos
adaptativo está indicado por una ganancia del libro de códigos
adaptativo.
Los índices y ganancias del libro de códigos son
determinados por un análisis por método de síntesis, es decir los
índices y ganancias del libro de códigos son determinados de tal
modo que una medida de la diferencia entre la señal de voz original
y una señal de voz sintetizada sobre la base de los coeficientes de
excitación y los coeficientes de análisis, tiene un valor mínimo. La
señal F indica si los parámetros de análisis correspondientes a la
trama corriente de muestras de señal de voz son transmitidos o no.
Estos coeficientes pueden ser transmitidos en la trama de datos
corriente o en una trama de datos anterior.
El multiplexador 6 ensambla tramas de datos con
un encabezamiento y los datos que representan la señal de voz. El
encabezamiento comprende un primer indicador (la banderola F) que
indica si la trama de datos corriente es una trama de datos
incompleto o no. El encabezamiento comprende opcionalmente un
segundo indicador (una banderola L) que indica si la trama de datos
corriente lleva parámetros de análisis o no. La trama comprende
además los parámetros de excitación para una pluralidad de
subtramas. El número de subtramas es dependiente de la relación de
bits elegida por la señal R en la entrada de control del codificador
de voz 4. El número de subtramas por trama y la longitud de la trama
pueden ser también codificados en el encabezamiento de la trama,
pero es también posible que el número de subtramas por trama y la
longitud de la trama sean acordados durante el ajuste de conexión. A
la salida del multiplexador 6, las tramas completadas que
representan la señal de voz están disponibles.
En los medios de transmisión 8, las tramas a la
salida del multiplexador 6 son transformadas a una señal que puede
ser transmitida a través del medio de transmisión 10. Las
operaciones realizadas en el medio de transmisión implican
entrelazado, modulación y codificación de corrección de error.
El receptor 12 está previsto para recibir la
señal transmitida por el transmisor 2 desde el medio de transmisión
10. El medio de recepción 14 está dispuesto para desmodulación,
desentrelazado y descodificación de corrección de error. El
desmultiplexador extrae las señales LPC, F y EX de la señal de
salida del medio de recepción 14. Si fuera necesario, el
desmultiplexador 16 realiza una interpolación entre dos conjuntos de
conjuntos de coeficientes recibidos secuencialmente. Los conjuntos
completados de coeficientes LPC y EX son proporcionados al medio 18
de descodificación de voz. A la salida del medio 18 de
descodificación de voz, está disponible la señal de voz
reconstruida.
En el codificador de voz de acuerdo a la fig. 2,
la señal de entrada es aplicada a una entrada de medios 20 de
formación de tramas. Una salida de los medios 20 de formación de
tramas, que lleva una señal de salida S_{k+1}, está conectada a
una entrada del medio de análisis, que es aquí un analizador 22
predictivo lineal, y a una entrada de un elemento de retardo 28. La
salida del analizador 22 predictivo lineal, que lleva una señal
\alpha_{k+1} está conectada a una entrada de un cuantificador
24. Una primera salida del cuantificador 24, que lleva una señal de
salida C_{k+1} está conectada a una entrada de un elemento de
retardo 26. Una salida del elemento de retardo 26, que lleva una
señal de salida C_{k}, está conectada a una segunda salida del
codificador de voz.
Una segunda salida del cuantificador 24 que
lleva una señal \hat{\alpha}_{k+1}, está conectada a una entrada
del medio de control 30. Una señal de entrada R, que representa un
ajuste de relación de bits, es aplicada a una segunda entrada del
medio de control 30. Una primera salida del medio de control 30, que
lleva una señal de salida F, está conectada a una salida del
codificador de voz 4.
Una tercera salida del medio de control 30, que
lleva una señal de salida \alpha'_{k} está conectada a un
interpolador 32. Una salida del interpolador 32, que lleva una señal
de salida \alpha'_{k}[m] está conectada a una entrada de
control de un filtro 34 de ponderación perceptivo.
La salida del medio 20 de formación de tramas
está también conectada a una entrada de un elemento de retardo 28.
Una salida del elemento de retardo 28, que lleva una señal S_{k},
está conectada a una segunda entrada del filtro 34 de ponderación
perceptivo. La salida del filtro 34 de ponderación perceptivo, que
lleva una señal rs[m], está conectada a una entrada de un
medio 36 de búsqueda de excitación. A la salida del medio 36 de
búsqueda de excitación una representación de la señal de excitación
EX que comprende el índice del libro de códigos fijo, la ganancia
del libro de códigos fijo, el índice del libro de códigos adaptativo
y la ganancia del libro de códigos adaptativo está disponible a la
salida del medio 36 de búsqueda de excitación.
El medio de formación de tramas deriva a partir
de la señal de entrada del codificador de voz 4, tramas que
comprenden una pluralidad de muestras de entrada. El número de
muestras dentro de una trama puede ser cambiado de acuerdo con el
ajuste R de relación de bits. El analizador 22 predictivo lineal
deriva una pluralidad de coeficientes de análisis que comprenden
coeficientes de predicción \alpha_{k+1}[p], desde las
tramas de muestras de entrada. Estos coeficientes de predicción
pueden ser encontrados por el bien conocido algoritmo de
Levinson-Durbin. El cuantificador 24 transforma los
coeficientes \alpha_{k+1}[p] en otra representación, y
cuantifica los coeficientes de predicción transformados en
coeficientes cuantificados C_{k+1}[p], que son hechos
pasar a la salida a través del elemento de retardo 26 como
coeficientes C_{k}[p]. El propósito del elemento de
retardo es asegurar que los coeficientes C_{k}[p] y la
señal de excitación EX correspondiente a la misma trama de muestras
de entrada de voz son presentados simultáneamente al multiplexador
6. El cuantificador 24 proporciona una señal \hat{\alpha}_{k+1}
a los medios de control 30. La señal \hat{\alpha}_{k+1}, es
obtenida por una transformación inversa de los coeficientes
cuantificados C_{k+1}. Esta transformación inversa es la misma que
se ha realizado en el descodificador de voz en el receptor. La
transformación inversa de los coeficientes cuantificados es
realizada en el codificador de voz, a fin de proporcionar al
codificador de voz para la síntesis local exactamente los mismos
coeficientes que están disponibles en un descodificador en el
receptor.
Los medios de control 30 están dispuestos para
derivar la fracción de las tramas en las que es transmitida más
información acerca de los coeficientes de análisis que en las otras
tramas. En el codificador de voz 4 de acuerdo con la presente
realización las tramas llevan la información completa acerca de los
coeficientes de análisis o no llevan ninguna información acerca de
los coeficientes de análisis. La unidad de control 30 proporciona
una señal de salida F que indica si el multiplexador 6 ha de
introducir o no la señal LPC en la trama corriente. Se ha observado
sin embargo que es posible que el número de parámetros de análisis
llevados por cada trama puede variar.
La unidad de control 30 proporciona coeficientes
de predicción \alpha'_{k} al interpolador 32. Los valores de
\alpha'_{k} son iguales a los coeficientes de predicción
determinados (cuantificados) más recientemente si dichos
coeficientes LPC para la trama corriente son transmitidos. Si los
coeficientes LPC para la trama corriente no son transmitidos, el
valor de \alpha'_{k} es encontrado interpolando los valores de
\alpha'_{k-1} y \alpha'_{k+1}.
El interpolador 32 proporciona valores
\alpha'_{k}[m] interpolados linealmente desde
\alpha'_{k-1} y \alpha'_{k} para cada uno de
los subtramas en la trama presente. Los valores de
\alpha'_{k}[m] son aplicados al filtro 34 de ponderación
perceptivo para derivar una "señal residual" rs[m] desde
el subtrama corriente m de la señal de entrada S_{k}. Los medios
de búsqueda 36 están previstos para encontrar el índice de libro de
códigos fijo, la ganancia de libro de códigos fijo, el índice de
libro de códigos adaptativo y la ganancia de libro de códigos
adaptativo resultante en una señal de excitación que da la mejor
coincidencia con el subtrama m corriente de la "señal residual"
rs[m]. Para cada subtrama m los parámetros de excitación,
índice de libro de códigos fijo, ganancia de libro de códigos fijo,
índice de libro de códigos adaptativo y ganancia de libro de códigos
adaptativo están disponibles a la salida EX del codificador de voz
4.
Un codificador de voz ejemplar de acuerdo con la
fig. 2, es un codificador de voz de banda ancha para codificar
señales de voz con un ancho de banda de 7 KHz con una relación de
bits que varía desde 13,6 Kbit/s a 24 Kbit/s. El codificador de voz
puede ser ajustado a cuatro velocidades de bits así llamados de
anclaje. Estas velocidades de bit de anclaje son valores de partida
desde los que las velocidades de bits pueden ser disminuidas
reduciendo la fracción de tramas que llevan parámetros de
predicción. En la tabla siguiente se han dado las cuatro velocidades
de bits de anclaje y los valores correspondientes de la duración de
trama, el número de muestras en una trama y los números de subtramas
por trama.
Relación de bit | Tamaño de la trama | # de muestras por | # de subtramas/trama |
(Kbit/s) | (ms) | trama | |
15,8 | 15 | 240 | 6 |
18,2 | 10 | 160 | 4 |
20,1 | 15 | 240 | 8 |
24,0 | 15 | 240 | 10 |
Reduciendo el número de tramas en las que hay
presentes coeficientes LPC, la relación de bits puede ser controlada
en pequeños pasos o escalones. Si la fracción de tramas que llevan
coeficientes LPC varía desde 0,5 a 1, y el número de bits requeridos
para transmitir los coeficientes LPC de una trama es 66, la máxima
reducción de relación de bits obtenible puede ser calculada. Con un
tamaño de trama de 10 ms, la relación de bits para los coeficientes
LPC puede variar desde 3,3 Kbit/s a 6,6 Kbit/s. Con un tamaño de
trama de 15 ms, la relación de bits para los coeficientes LPC puede
variar desde 2,2 Kbit/s a 4,4 Kbit/s. En la tabla siguiente se han
dado la máxima reducción de relación de bits y la relación de bits
mínima para las cuatro velocidades de bits de anclaje.
\newpage
Relación de bit de anclaje | Máxima reducción de relación | Mínima relación de bit |
(Kbit/s) | de bit (Kbit/s) | (Kbit/s) |
15,8 | 2,2 | 13,6 |
18,2 | 3,3 | 14,9 |
20,1 | 2,2 | 17,9 |
24,0 | 2,2 | 21,8 |
\vskip1.000000\baselineskip
En el medio de control 30 de acuerdo con la Fig.
3, una primera entrada que lleva la señal \hat{\alpha}_{k+1}
está conectada a una entrada de un elemento de retardo 60 y a una
entrada de un convertidor 64. Una salida del elemento de retardo 60,
que lleva la señal \hat{\alpha}_{k}, está conectada a una
entrada de un elemento de retardo 62 y a una entrada de un
convertidor 70. Una salida del convertidor 64, que lleva una señal
de salida i_{k+1}, está conectada a una primera entrada de un
interpola-
dor 68. Una salida del convertidor 66, que lleva una señal de salida i_{k-1}, está conectada a una segunda entrada del interpolador 68. La salida del interpolador 68, que lleva una señal de salida \hat{i}_{k}, está conectada a una primera entrada de un calculador de distancia 72 y a una primera entrada de un selector 80. Una salida del convertidor 70, que lleva una señal de salida i_{k} está conectada a una segunda entrada del calculador de distancia 72 y a una segunda entrada del selector 80.
dor 68. Una salida del convertidor 66, que lleva una señal de salida i_{k-1}, está conectada a una segunda entrada del interpolador 68. La salida del interpolador 68, que lleva una señal de salida \hat{i}_{k}, está conectada a una primera entrada de un calculador de distancia 72 y a una primera entrada de un selector 80. Una salida del convertidor 70, que lleva una señal de salida i_{k} está conectada a una segunda entrada del calculador de distancia 72 y a una segunda entrada del selector 80.
Una señal de entrada R del medio de control 30
está conectada a una entrada de los medios de cálculo 74. Una
primera salida de los medios de cálculo 74 está conectada a una
unidad de control 76. La señal en la primera salida del medio de
cálculo 74 representa una facción r de las tramas que llevan
parámetros LPC. Consiguientemente dicha señal es una señal que
representa el ajuste de la relación de bits.
Una segunda y tercera salidas de los medios de
cálculo llevan señales que representan una relación de bits de
anclaje que es ajustada dependiendo de la señal R. Una salida de la
unidad de control 76, que lleva la señal de umbral t, está conectada
a una primera entrada de un comparador 78. Una salida del calculador
de distancia 72 está conectada a una segunda entrada del comparador
78. Una salida del comprador 78 está conectada a una entrada de
control del sector 80, a una entrada de la unidad de control 76 y a
una salida del medio de control
30.
30.
En el medio de control de acuerdo con la fig. 3,
los elementos de retardo 60 y 62 proporcionan conjuntos de
coeficientes de reflexión retardados \hat{\alpha}_{k+1} y
\hat{\alpha}_{k+1} a partir del conjunto de coeficientes de
reflexión \hat{\alpha}_{k+1}. Los convertidores 64, 70 y 66
calculan coeficientes i_{k+1}, i_{k} e
i_{k-1} que son más adecuados para interpolación
que los coeficientes \hat{\alpha}_{k+1}, \hat{\alpha}_{k} y
\hat{\alpha}_{k-1}. El interpolador 68 deriva un
valor interpolado \hat{i}_{k} a partir de los valores i_{k+1}
e i_{k-1}.
El calculador de distancias 72 determina una
medida de distancia d entre el conjunto de parámetros de predicción
i_{k} y el conjunto de parámetros de predicción \hat{i}_{k}
interpolado a partir de i_{k+1} e i_{k-1}. Una
medida de distancia adecuada d está dada por:
(1)d =
\left[\frac{1}{2\pi}\int\limits^{2\pi}_{0}(10logH(\omega)-10log\hat{H}(\omega))^{2}d\omega\right]^{\tfrac{1}{2}}
En (1) H(\omega) es el espectro
descrito por los coeficientes i_{K} y
\hat{H}(\omega) es el espectro descrito por los
coeficientes \hat{H}i_{k}. La medida d es comúnmente usada, pero
unos experimentos han mostrado que la norma L1 más fácilmente
calculable da resultados comparables. Para esta norma L1 puede
escribirse:
(2)d =
\frac{1}{P}\sum\limits^{P}_{n=1}\left\bracevert
i_{k}[n]-\hat{i}_{k}[n]\right\bracevert
En (2) P es el número de coeficientes de
predicción determinado por los medios de análisis 22. La medida de
distancia d es comparada por el comparador 78 con el umbral t. Si la
distancia d es mayor que el umbral t, la señal de salida b del
comparador 78 indica que los coeficientes LPC de la trama corriente
han de ser transmitidos. Si la medida d es menor que el umbral t, la
señal de salida b del comparador 78 indica que los coeficientes LPC
de la trama corriente no han de ser transmitidos. Contando durante
un periodo de tiempo predeterminado (por ejemplo durante k tramas,
teniendo k un valor típico de 100) el número de veces a que la señal
b ha indicado la transmisión de los coeficientes LPC, se obtiene una
medida a para la fracción real de las tramas que comprenden
parámetros de LPC. Dados Los parámetros correspondientes a la
relación de bits de anclaje elegida, esta medida a es también una
medida para la relación de bits real.
Los medios de control 30 están dispuestos para
comparar una medida a para una relación de bits real con una medida
para el ajuste de la relación de bits, y para ajustar la relación de
bits real si se requiere. Los medios de cálculo 74 determinan a
partir de la señal R, la relación de bits de anclaje y la fracción
r. En caso de que pueda conseguirse una cierta relación de bits R
partiendo de dos velocidades de bits de anclaje diferentes, se elige
la relación de bits de anclaje que da como resultado la mejor
calidad de voz. Es conveniente almacenar el valor de la relación de
bits de anclaje cuando funciona como la señal R en una tabla. Si la
relación de bits de anclaje ha sido elegida, puede determinarse la
fracción de las tramas que llevan coeficientes LPC.
En primer lugar los valores B_{MAX} y
B_{MIN} que representan el valor máximo y el valor mínimo para los
números de bits por trama son determinados de acuerdo con:
(4)B_{MAX} =
b_{ENCABEZAMIENTO} +b_{EXCITACIÓN}
+b_{LPC}
(5)B_{MIN} =
b_{ENCABEZAMIENTO}
+b_{EXCITACIÓN}
En (4) y (5) b_{ENCABEZAMIENTO} es el número
de bits de encabezamiento en una trama, b_{EXCITACIÓN} es el
número de bits que representa la señal de excitación, y b_{LPC} es
el número de bits que representa los coeficientes de análisis. Si la
señal R representa una relación de bits requerida B_{REQ} para la
fracción de tramas r que lleva parámetros LPC, puede escribirse:
(6)r =
\frac{B_{REQ}-B_{MIN}}{B_{MAX}-B_{MIN}}
Se ha observado que en la presente realización,
el valor mínimo de r es 0,5.
La unidad de control 76 determina la diferencia
entre la fracción r y la fracción real a de las tramas que llevan
parámetros LPC. A fin de ajustar la relación de bits de acuerdo con
la diferencia entre el ajuste de relación de bits y la relación de
bits real, el umbral t es aumentado o disminuido. Si el umbral t es
aumentado, la medida de diferencia d excederá de dicho umbral
durante un número de tramas menor, y la relación de bits real será
disminuida. Si el umbral t es disminuido, la medida de diferencias d
excederá de dicho umbral durante un mayor número de tramas, y la
relación de bits real será aumentada. La actualización del umbral t
dependiendo de la medida r para el ajuste de relación de bits y la
medida b para la relación de bits real es realizada por la unidad de
control 76 de acuerdo con:
En (3) t' es el valor original de umbral, y
c_{1} y c_{2} son constantes.
La fig. 4 muestra en el gráfico 101 una
secuencia de tramas 1.....8 que comprenden muestras de señal de voz.
El gráfico 101 muestra tramas con coeficientes correspondientes a
las tramas de señales de voz del gráfico 100. Para cada una de las
tramas 1.....8 de muestras de señal de voz, se determinan
coeficientes L de LPC y coeficientes de excitación EX.
El gráfico 102 muestra las tramas de datos
cuando son transmitidas por un sistema de transmisión de acuerdo con
la técnica anterior. Se ha supuesto que en la mitad promedio de las
tramas de datos hay tramas de datos completas que llevan
coeficientes de LPC y de excitación correspondientes a sus tramas de
muestras de señal de voz. En el ejemplo del gráfico 102, las tramas
de datos 1, 3, 5 y 7 son tramas de datos completas. Las tramas de
datos restantes (incompletas) 0, 2, 4 y 6 llevan solamente los
coeficientes de excitación correspondientes a sus tramas de muestras
de voz. El retraso entre las tramas de datos de acuerdo con el
gráfico 101 y el gráfico 102 está presente para permitir la decisión
de si una trama de datos que ha de ser transmitida ha de ser una
trama de datos completa o incompleta. Para tomar esta decisión los
coeficientes LPC de la siguiente trama de muestras de señal de voz
han de estar disponibles.
El encabezamiento H_{1} podría comprender
señales de sincronización de tramas, y comprende el primer y segundo
indicadores como se ha explicado antes.
En el gráfico 103 se ha mostrado la secuencia de
tramas de muestras de señal de voz descodificada a partir de las
tramas de datos de acuerdo con el gráfico 102. Puede verse que un
retraso de más de tres intervalos de tramas está presente entre las
tramas transmitidas y recibidas de muestras de señal de voz. En el
receptor este retraso es causado porque una trama de muestras de voz
correspondiente a una trama de datos incompleto no puede ser
reconstruido antes de que sea recibida la siguiente trama que lleva
coeficientes LPC. En el gráfico 103, la trama 0 de muestras de señal
de voz no puede ser reconstruida antes de que los parámetros L1 de
LPC correspondientes a la trama de voz 1 sean recibidos. Lo mismo es
válido para las tramas de voz 2 y 4.
En el sistema de transmisión de acuerdo con el
presente invento, las tramas de datos son transmitidas como se ha
mostrado en el gráfico 104. Ahora las tramas incompletas 0, 2 y 4
llevan los coeficientes LPC desde la siguiente trama completa 1, 3 y
5 respectivamente. La transmisión anterior de los coeficientes LPC
de la siguiente trama completa, permite la interpolación que ha de
ser realizada para obtener los coeficientes LPC de la trama
incompleto que ha de ser iniciado un intervalo de tramas antes. En
el gráfico 104 la reconstrucción de la trama de voz 0 puede ser ya
iniciada tan pronto como la trama de datos correspondientes a la
trama 0 (incluyendo los parámetros LPC de la trama de voz 1) sea
recibida. Como puede verse en el gráfico 105 esto da como resultado
una reducción considerable del retraso de las tramas de muestras de
señal de voz.
En el diagrama de flujo de la fig. 5 las
instrucciones numeradas tienen el significado de acuerdo con la
siguiente tabla:
- Nº {}\hskip1cm Etiqueta
- Significado
- 110 {}\hskip0.5cm INICIO
- El programa es iniciado y las variables usadas son inicializadas.
- 112 {}\hskip0.5cm ESCRIBIR F(K)
- La banderola F(K) es escrita en el encabezamiento de la trama de datos corriente.
- 114 {}\hskip0.5cm F(K)=1?
- El valor de la banderola F(K) es comparado con "1".
- 115* {}\hskip0.3cm ESCRIBIR L(K)=1
- La banderola L(K) es ajustada a 1 y es escrita en la trama de datos corriente.
- 116 {}\hskip0.5cm F(K-1)=1?
- El valor de la banderola F(K-1) es comparado con "1".
- 117* {}\hskip0.3cm ESCRIBIR L(K)=1
- La banderola L(K) es ajustada a 1 y es escrita en la trama de datos corriente.
- 118 {}\hskip0.5cm ESCRIBIR LPC(K)=1
- Los coeficientes LPC correspondientes a la siguiente trama de voz son escritos en la trama de datos corriente.
- 119* {}\hskip0.3cm ESCRIBIR L(K)=0
- La banderola L(K) es ajustada a 0 y es escrita en la trama de datos corriente.
- 120 {}\hskip0.5cm ESCRIBIR LPC(K)
- Los coeficientes LPC correspondientes a la trama de voz corriente son escritos en la trama de datos corriente.
- 122 {}\hskip0.5cm ESCRIBIR EX(K)
- Los coeficientes de excitación son escritos en la trama de datos corriente.
- 124 {}\hskip0.5cm ALMACENAR F(K)
- El valor de la banderola F(K) es almacenado.
- 126 {}\hskip0.5cm FINAL
- El programa ha terminado.
El programa de acuerdo con el diagrama de flujo
de la fig. 5 es ejecutado una vez por intervalo de tramas, y
ensambla las tramas de datos a partir de las señales de salida como
son proporcionadas por el codificador de voz 4. Se ha observado que
el programa comienza ensamblando la trama de datos K^{ésimo} si
los coeficientes LPC de la trama K+1^{ésimo} de muestras de voz
están ya disponibles. Se ha supuesto que sólo la banderola F está
presente para indicar si la trama corriente es una trama completo.
Si se ha de usar también una banderola L para indicar si la trama
corriente lleva algún coeficiente LPC, las instrucciones 115, 117 y
119 indicadas tendrán que ser añadidas.
En la instrucción 110 el programa es iniciado, y
las variables usadas son ajustadas a sus valores iniciales si se
requiere. En la instrucción 112 la banderola F(K) tal y como
es recibida desde el codificador de voz 6, es escrita en el
encabezamiento de la trama de datos corriente.
En la instrucción 114 el valor de la banderola
F(K) es comparado con 1. Si F(K) = 1, la trama de
datos corriente es una trama de datos incompleto. En este caso, en
la instrucción 118, los parámetros LPC(K+1) de LPC de la
siguiente trama de muestras de señal de voz son escritos en la trama
de datos corriente. Si se ha de incluir una banderola L, en la
instrucción 115 la banderola L es ajustada a 1 y escrita en el
encabezamiento de la trama de datos corriente, a fin de indicar la
presencia de coeficientes LPC en la trama de datos corriente.
Subsiguientemente el programa continúa hasta la instrucción 122.
Si F(K)=0, la trama de datos corriente es
una trama de datos incompleto. En la instrucción 116 el valor de
F(K-1) es comparado con 1. Un valor de 1
indica que la trama de datos previo era una trama de datos
incompleto. En este caso los coeficientes LPC de la trama de datos
completo han sido ya transmitidos en dicha trama de datos previa
(incompleta). Consiguientemente no serán transmitidos coeficientes
LPC en la trama de datos corriente. Si ha de ser incluida una
banderola L, en la instrucción 119 la banderola L es ajustada a 0 y
escrita en el encabezamiento de la trama de datos corriente, a fin
de indicar la ausencia de coeficientes LPC en la trama de datos
corriente. Subsiguientemente el programa continúa hasta la
instrucción 122.
Si el valor de F(K-1) es
igual a 0, los coeficientes LPC de la trama de datos corriente
(completo) no han de ser transmitidos aún, y son escritos en la
trama de datos corriente en la instrucción 120. Si se ha de incluir
la banderola L, en la instrucción 117 la banderola L es ajustada a 1
y escrita en el encabezamiento de la trama de datos corriente, a fin
de indicar la presencia de coeficientes LPC en la trama de datos
corriente.
En la instrucción 122 los coeficientes de
excitación EX(K) son descritos en la trama de datos
corriente. En la resolución 124 el valor de la banderola F(K)
es almacenado para usar como F(K-1) cuando el
programa es ejecutado la siguiente vez. En la instrucción 126 el
programa ha terminado.
En el diagrama de flujo de la fig. 6 Las
instrucciones numeradas tienen significado de acuerdo con la
siguiente tabla:
- Nº {}\hskip1cm Etiqueta
- Significado
- 130 {}\hskip0.5cm INICIO
- El programa es iniciado.
- 132 {}\hskip0.5cm LEER F(K)
- La banderola F(K) es leída a partir de la trama de datos corriente.
- 134 {}\hskip0.5cm F(K)=1?
- El valor de la banderola F(K) es comparado con "1".
- 136 {}\hskip0.5cm F(K-1)=1?
- El valor de la banderola F(K-1) es comparado con "1".
- 138 {}\hskip0.5cm CARGAR LPC(K)
- El conjunto de coeficientes LPC para la trama corriente es leído de la memoria.
- 140 {}\hskip0.5cm LEER LPC(K)
- El conjunto de coeficientes LPC para la trama corriente es leído de la trama de datos corriente.
- 142 {}\hskip0.5cm ALMACENAR LPC(K)
- El conjunto de coeficientes LPC leído de la trama de datos es almacenado en memoria.
- 144 {}\hskip0.5cm LEER LPC(K+1)
- El conjunto de coeficientes LPC para la siguiente trama corriente es leído de la trama de datos corriente.
- 146 {}\hskip0.5cm CALCULAR LPC(K)
- Los valores de los coeficientes LPC para la trama corriente son calculados.
- 148 {}\hskip0.5cm ALMACENAR LPC(K+1)
- Los valores de los coeficientes LPC para la siguiente trama son almacenados en memoria.
- 150 {}\hskip0.5cm LEER EX(K)
- La señal de excitación para la trama corriente es leída de la trama de datos corriente.
- 152 {}\hskip0.5cm ALMACENAR F(K)
- La banderola F(K) es almacenada en memoria.
- 154 {}\hskip0.5cm FINAL
- La ejecución del programa ha terminado.
El programa de acuerdo con el diagrama de flujo
de la fig. 6 está destinado a llevar a la práctica la función del
desmultiplexador en el caso de que sólo se ha usado la banderola F.
Modificaciones requeridas para actuar también con la banderola L son
descritas posteriormente.
En la instrucción 130 el programa es iniciado.
En la instrucción 132 el valor de la banderola F(K) es leído
de la trama de datos corriente. En la instrucción 134 el valor de la
banderola F(K) es comparado con 1.
Si la banderola F(K) es igual a 0,
indicando que la trama presente es una trama completo, en la
instrucción 136 el valor de F(K-1) es
comparado con 1. Si F(K-1) es igual a 1, la
trama de datos previo era una trama de datos incompleto que lleva
los coeficientes LPC para la trama corriente. Estos coeficientes
fueron almacenados en memoria la vez anterior en la que el programa
fue ejecutado. Subsiguientemente en la instrucción 138 los
coeficientes LPC(K) son cargados desde la memoria y hechos
pasar a los medios 18 de descodificación de voz. Después de la
ejecución de la instrucción 138 el programa continúa con la
instrucción 150.
Si la banderola F(K-1) es
igual a 0, la trama de datos previo era una trama de datos completo,
y los coeficientes LPC de la trama corriente son llevados en la
trama de datos actual. Consiguientemente en la instrucción 142 los
coeficientes LPC(K) son leídos a partir de la trama de datos
actual. En la instrucción 142 los coeficientes LPC(K)
obtenidos en la instrucción 142 son escritos en la memoria para usar
cuando el programa es ejecutado para la siguiente trama de datos.
Además los coeficientes LPC(K) son hechos pasar a los medios
18 de descodificación de voz. Subsiguientemente el programa continúa
con la instrucción 150.
En la instrucción 134 el valor de la banderola
F(K) es igual a 1, la trama de datos corriente es una trama
de datos incompleto que lleva los coeficientes LPC(K+1)
correspondientes a la siguiente trama de datos. En la instrucción
146 los coeficientes LPC(K) son calculados a partir de los
coeficientes LPC(K-1) y LPC(K+1) de
acuerdo con:
(4)LPC[K]_{I} =
\frac{LPC[K-1]_{I} +
LPC[K+1]_{I}}{2};
\hskip0,5cm0 < I \leq P
en (4) I es un parámetro de
ejecución y P es el número de coeficientes de predicción
transmitidos. En la instrucción 148 el coeficiente LPC(K)
calculado en la instrucción 146 es almacenado en memoria para usar
con la siguiente trama de
datos.
En la instrucción 150 los coeficientes de
excitación EX(K) son leídos de la trama de datos corriente y
hechos pasar a los medios 18 de descodificación de voz. En la
instrucción 152 la banderola F(K) es almacenada en memoria
para usar con la siguiente trama de datos. En la instrucción 154 la
ejecución del programa es terminada.
La fig. 7 muestra la modificación de la
instrucción 136 en el programa de acuerdo con la fig. 6 a fin de
funcionar con la banderola L. La ventaja de usar la banderola
L(K) además de la banderola F(K) es que es aún es
posible volver a iniciar la descodificación de las tramas de datos
después de que una o más tramas de datos son erróneas debido a un
error de transmisión o se han perdido completamente, porque ahora no
se requieren valores de banderola de las tramas previas, como sucede
cuando sólo se ha usado la banderola F. Las instrucciones numeradas
en la fig. 7 tienen significado de acuerdo con la tabla presentada a
continuación:
- Nº {}\hskip1cm Etiqueta
- Significado
- 131 {}\hskip0.5cm LEER L(K)
- La banderola L(K) es leída a partir de la trama de datos corriente.
- 133 {}\hskip0.5cm L(K)=1?
- El valor de la banderola L(K) es comparado con "1".
En la instrucción 131 el valor L(K) es
leído de la trama de datos corriente, y en la instrucción 133 el
valor de L(K) es comparado con 1. Si el valor de L(K)
es 1, significa que la trama de datos corriente lleva coeficientes
LPC. El programa continúa con la instrucción 140 para leer los
coeficientes LPC a partir de la trama de datos. Si el valor de
L(K) es igual a 0, significa que las tramas de datos
corrientes no llevan ningún coeficiente LPC. Por tanto el programa
continúa con la instrucción 138 para cargar los coeficientes LPC
recibidos previamente desde la memoria.
En los medios descodificadores 18 de acuerdo con
la fig. 8, una entrada que lleva una señal LPC está conectada a una
entrada de un interpolador 87 de subtramas. La salida del
interpolador 87 de subtramas está conectada a una entrada de un
filtro de síntesis 88.
Una entrada de los medios 18 de decodificación
de voz, que lleva la señal de entrada EX, está conectada a una
entrada de un desmultiplexador 89. Una primera salida del
desmultiplexador 89, que lleva una señal F1 que representa el índice
del libro de códigos fijo, está conectada a una entrada de un libro
de códigos fijo 90. Una salida del libro de códigos fijo 90 está
conectada a una primera entrada de un multiplicador 92. Una segunda
salida del desmultiplexador que lleva una señal FCBG (Ganancia de
Libro de Códigos Fijo) está conectada a una segunda entrada del
multiplicador 92.
Una tercera salida del desmultiplexador 89, que
lleva una señal A1 que representa el índice de libro de códigos
adaptativo, está conectada a una entrada de un libro de códigos
adaptativo 91. Una salida del libro de códigos adaptativo 91 está
conectada a una primera entrada de un multiplicador 93. Una segunda
salida del desmultiplexador 89, que lleva una señal ACBG (Ganancia
de Libro de Códigos Adaptativo) está conectada a una segunda entrada
del multiplicador 93. Una salida del multiplicador 92 está conectada
a una primera entrada de un sumador 94, y una salida del
multiplicador 93 está conectada a una segunda entrada del sumador
94. La salida del sumador 94 está conectada a una entrada de libro
de códigos adaptativo, y a una entrada del filtro de síntesis
88.
En los medios 18 de descodificación de voz de
acuerdo con la fig. 8, el interpolador 87 de subtramas proporciona
coeficientes de predicción interpolados para cada uno de los
subtramas, y pasa estos coeficientes de predicción al filtro de
síntesis 88.
La señal de excitación para el filtro de
síntesis es igual a la suma ponderada de las señales de salida del
libro de códigos fijo 90 y el libro de códigos adaptativo 91. La
ponderación es realizada por los multiplicadores 92 y 93. Los
índices de libro de códigos F1 y A1 son extraídos de la señal EX por
el desmultiplexador 89. Los factores de ponderación FCBG (Ganancia
de Libro de Códigos Fijo) y ACBG (Ganancia de Libro de Códigos
Adaptativo) son también extraídos de la señal EX por el
desmultiplexador 89. La señal de salida del sumador 94 está
desplazada en el libro de códigos adaptativo a fin de proporcionar
la adaptación.
Claims (10)
1. Un método de codificación de voz de
derivación a partir de tramas ordenadas temporalmente de tramas de
datos de muestras (100) de señal de voz coeficientes que representan
dichas tramas de muestras de señal de voz (104), comprendiendo dicho
método: derivar desde una primera trama de dichas tramas ordenadas
temporalmente de muestras de señal de voz un conjunto incompleto de
coeficientes (EX0) que representan dicha primera trama de muestras
de señal de voz; y derivar desde una segunda trama de dichas tramas
ordenadas temporalmente de muestras de señal de voz un conjunto
completo de coeficientes (L1, EX1) que representan dicha segunda
trama de muestras de señal de voz, siendo dicha segunda trama
posterior en el tiempo en dichas tramas ordenadas temporalmente a
dicha primera trama; caracterizado dicho método porque
comprende: derivar (114, 118, 122) una trama de datos incompleto
que comprende dicho conjunto incompleto de coeficientes (EX0) y al
menos un coeficiente (L1) de dicho conjunto completo de coeficientes
(L1, EX1); y derivar (114, 116, 122) una trama de datos completa que
comprende dicho conjunto completo de coeficientes (L1, EX1) pero sin
al menos dicho coeficiente (L1).
2. Un método de codificación de voz según la
reivindicación 1ª, comprendiendo además el método: introducir (112)
en las tramas de datos un primer indicador (F) para indicar si una
trama de datos es una trama de datos incompleta y un segundo
indicador para indicar si una trama de datos lleva al menos dicho
coeficiente adicional (L1).
3. Un codificador de voz (4, 5) para derivar a
partir de tramas ordenadas temporalmente de tramas de datos de
muestras (100) de señal de voz con coeficientes que representan
dichas tramas de muestras (104) de señal de voz, comprendiendo dicho
codificador de voz (4): medios (4) para derivar a partir de una
primera trama de dichas tramas ordenadas temporalmente de muestras
de señal de voz un conjunto incompleto de coeficientes (EX0) que
representan a dicha primera trama de muestras de señal de voz; y
medios (4) para derivar a partir de una segunda trama de dichas
tramas ordenadas temporalmente de muestras de señal de voz un
conjunto completo de coeficientes (L1, EX1) que representan dicha
segunda trama de muestras de señal de voz, siendo dicha segunda
trama posterior en el tiempo en dichas tramas ordenadas
temporalmente a dicha primera trama; caracterizado dicho
codificador de voz porque comprende: medios (6) para derivar una
trama de datos incompleta que comprende dicho conjunto incompleto de
coeficientes (EX0) y al menos un coeficiente (L1) de dicho conjunto
completo de coeficientes (L1, EX1); y medios (6) para derivar una
trama de datos completa que comprende dicho conjunto completo de
coeficientes (L1, EX1) pero sin al menos dicho coeficiente (L1).
4. Un transmisor (2) con un codificador de voz
(4) según la reivindicación 3ª, comprendiendo además dicho
transmisor (2) medios de transmisión (8) para transmitir dichas
tramas de datos derivadas a un receptor (12).
5. Un método de descodificación de voz para
descodificar una señal (104) que comprende tramas de datos completas
e incompletas que representan tramas ordenadas temporalmente de
muestras (100) de señal de voz, comprendiendo una trama de datos
incompleta de dichas tramas de datos incompletas un conjunto
incompleto de coeficientes (EX0) que representa una primera trama
de muestras de señales de voz a partir del que dicho conjunto
incompleto ha sido derivado y al menos un coeficiente (L1) que
representa una segunda trama de muestras de señal de voz, siendo
dicha segunda trama de muestras de señales de voz posterior en el
tiempo en dichas tramas ordenadas temporalmente a dicha primera
trama, comprendiendo una trama de datos completa de dichas tramas de
datos completas un conjunto completo de coeficientes (L1, EX1) que
representa dicha segunda trama de muestras de señal de voz pero sin
al menos un coeficiente (L1), comprendiendo dicho método de
descodificación de voz: completar (146) un conjunto incompleto de
coeficientes recibido con coeficientes interpolados obtenidos a
partir de coeficientes recibidos que representan otras tramas de
muestras de señales de voz que dicha primera trama, rodeando dichas
otras tramas a dicha primera trama e incluyendo dicha segunda
trama.
6. Un descodificador de voz (16, 18) para
descodificar una señal (104) que comprende tramas de datos completas
e incompletas que representan tramas ordenadas temporalmente de
muestras (100) de señal de voz, comprendiendo una trama de datos
incompleta de dichas tramas de datos incompletas un conjunto
incompleto de coeficientes (EX0) que representa una primera trama
de muestras de señales de voz a partir de la que dicho conjunto
incompleto ha sido derivado y al menos un coeficiente (L1) que
representa una segunda trama de muestras de señal de voz, siendo
dicha segunda trama de muestras de señales de voz posterior en el
tiempo en dichas tramas ordenadas temporalmente a dicha primera
trama, comprendiendo una trama de datos completa de dichas tramas de
datos completas un conjunto completo de coeficientes (L1, EX1) que
representa dicha segunda trama de muestras de señal de voz pero sin
al menos dicho coeficiente (L1), comprendiendo dicho descodificador
de voz medios de terminación (16) para completar un conjunto
incompleto de coeficientes recibido con coeficientes interpolados
obtenidos a partir de coeficientes recibidos que representan otras
tramas de muestras de señal de voz distintas de dicha primera trama,
rodeando dichas otras tramas a dicha primera trama e incluyendo
dicha segunda trama.
7. Un receptor (12) con medios de recepción (14)
y un descodificador de voz (16, 18) según la reivindicación 6ª.
8. Un sistema de transmisión que comprende: un
transmisor (2) según la reivindicación 4ª y un receptor (12) según
la reivindicación 7ª.
9. Una señal (104) que comprende tramas de datos
con coeficientes que representan tramas ordenadas temporalmente de
muestras (200) de señales de voz, comprendiendo dicha señal (104)
tramas de datos incompletas y tramas de datos completas, estando
caracterizada dicha señal porque una trama de datos
incompleta de dichas tramas de datos incompletas que comprenden un
conjunto incompleto de coeficientes (EX0) que representa una primera
trama de muestras de señales de voz y al menos un coeficiente (L1)
de un conjunto completo de coeficientes (L1, EX1) que representa una
segunda trama de muestras de señales de voz, siendo dicha segunda
trama posterior en el tiempo en dichas tramas ordenadas
temporalmente a dicha primera trama, comprendiendo una trama
completa de datos de dichas tramas de datos completos dicho conjunto
completo de coeficientes (L1, EX1) pero sin al menos dicho
coeficiente (L1).
10. Un medio de almacenamiento que tiene
almacenada en él una señal (104) según la reivindicación 9ª.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97200999 | 1997-04-07 | ||
EP97200999 | 1997-04-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2267176T3 true ES2267176T3 (es) | 2007-03-01 |
Family
ID=8228172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES98903258T Expired - Lifetime ES2267176T3 (es) | 1997-04-07 | 1998-03-05 | Sistema de transmision de voz. |
Country Status (10)
Country | Link |
---|---|
US (1) | US6292774B1 (es) |
EP (1) | EP0906664B1 (es) |
JP (1) | JP4346689B2 (es) |
KR (1) | KR100668247B1 (es) |
CN (2) | CN1104093C (es) |
BR (1) | BR9804809B1 (es) |
DE (1) | DE69834993T2 (es) |
ES (1) | ES2267176T3 (es) |
PL (1) | PL193723B1 (es) |
WO (1) | WO1998045951A1 (es) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8326609B2 (en) * | 2006-06-29 | 2012-12-04 | Lg Electronics Inc. | Method and apparatus for an audio signal processing |
KR101418248B1 (ko) | 2007-04-12 | 2014-07-24 | 삼성전자주식회사 | 정현파 성분의 진폭 코딩 및 디코딩 방법과 그 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4379949A (en) * | 1981-08-10 | 1983-04-12 | Motorola, Inc. | Method of and means for variable-rate coding of LPC parameters |
US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5351338A (en) * | 1992-07-06 | 1994-09-27 | Telefonaktiebolaget L M Ericsson | Time variable spectral analysis based on interpolation for speech coding |
US5479559A (en) * | 1993-05-28 | 1995-12-26 | Motorola, Inc. | Excitation synchronous time encoding vocoder and method |
US5504834A (en) * | 1993-05-28 | 1996-04-02 | Motrola, Inc. | Pitch epoch synchronous linear predictive coding vocoder and method |
-
1998
- 1998-03-05 KR KR1020037003302A patent/KR100668247B1/ko not_active IP Right Cessation
- 1998-03-05 ES ES98903258T patent/ES2267176T3/es not_active Expired - Lifetime
- 1998-03-05 EP EP98903258A patent/EP0906664B1/en not_active Expired - Lifetime
- 1998-03-05 CN CN98800430A patent/CN1104093C/zh not_active Expired - Lifetime
- 1998-03-05 PL PL98330399A patent/PL193723B1/pl unknown
- 1998-03-05 JP JP52930098A patent/JP4346689B2/ja not_active Expired - Lifetime
- 1998-03-05 DE DE69834993T patent/DE69834993T2/de not_active Expired - Lifetime
- 1998-03-05 BR BRPI9804809-0A patent/BR9804809B1/pt not_active IP Right Cessation
- 1998-03-05 WO PCT/IB1998/000277 patent/WO1998045951A1/en active IP Right Grant
- 1998-03-31 US US09/052,292 patent/US6292774B1/en not_active Expired - Lifetime
-
2002
- 2002-08-09 CN CN02128551A patent/CN1426049A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN1426049A (zh) | 2003-06-25 |
BR9804809B1 (pt) | 2011-05-31 |
JP4346689B2 (ja) | 2009-10-21 |
PL330399A1 (en) | 1999-05-10 |
EP0906664A1 (en) | 1999-04-07 |
WO1998045951A1 (en) | 1998-10-15 |
BR9804809A (pt) | 1999-08-17 |
DE69834993T2 (de) | 2007-02-15 |
JP2000511653A (ja) | 2000-09-05 |
CN1223034A (zh) | 1999-07-14 |
CN1104093C (zh) | 2003-03-26 |
KR20040004372A (ko) | 2004-01-13 |
US6292774B1 (en) | 2001-09-18 |
PL193723B1 (pl) | 2007-03-30 |
EP0906664B1 (en) | 2006-06-21 |
KR100668247B1 (ko) | 2007-01-16 |
DE69834993D1 (de) | 2006-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2797525T3 (es) | Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC | |
ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
ES2266312T3 (es) | Indexacion de posiciones y señales de pulso en codigos de cifrado y descifrado algebraicos para la codificacion de señales de banda ancha. | |
ES2207643T3 (es) | Sintesis de señal de excitacion durante borrado de tramas o perdida de paquetes. | |
ES2212642T3 (es) | Dispositivo de codificacion perceptual y metodo para la codificacion eficaz de señales de banda ancha. | |
ES2752213T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo | |
ES2928307T3 (es) | Remuestreo por interpolación de una señal de audio para una codificación/decodificación de bajo retardo | |
ES2250197T3 (es) | Codificador de voz armonico-lpc con estructura de supertrama. | |
CN1989548B (zh) | 语音解码装置及补偿帧生成方法 | |
RU2543302C2 (ru) | Аудио декодер, аудио кодер, способ для декодирования аудио сигнала, способ кодирования звукового сигнала, компьютерная программа и аудио сигнал | |
ES2266003T3 (es) | Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha. | |
US20060173675A1 (en) | Switching between coding schemes | |
ES2302754T3 (es) | Procedimiento y aparato para codificacion de habla sorda. | |
ES2287150T3 (es) | Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz. | |
ES2274812T3 (es) | Codificador predictivo de voz usando pautas de seleccion de esquemas de codificacion para reducir la sensilibidad de errores de trama. | |
ES2145737T5 (es) | Codificador digital de voz con predictor a largo plazo mejorado por resolucion de submuestreos. | |
ES2303129T3 (es) | Transcodificacion entre indices de diccionarios de multi-impulsos utilizados en la codificacion en compresion de señales digitales. | |
ES2267176T3 (es) | Sistema de transmision de voz. | |
EP1130576A1 (en) | Error protection for multimode speech encoders | |
JP2002509294A (ja) | 暗騒音条件下における音声符号化の方法 | |
EP1103953A2 (en) | Method for concealing erased speech frames | |
KR102594160B1 (ko) | 필터뱅크를 이용한 오디오 신호 부호화/복호화 장치 및 방법 | |
JPH10222197A (ja) | 音声合成方法およびコード励振線形予測合成装置 | |
JPH028900A (ja) | 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置 | |
KR100587721B1 (ko) | 음성전송시스템 |