ES2238860T3 - Codificacion a baja velocidad de bit de segmentos de voz sordos. - Google Patents
Codificacion a baja velocidad de bit de segmentos de voz sordos.Info
- Publication number
- ES2238860T3 ES2238860T3 ES99958940T ES99958940T ES2238860T3 ES 2238860 T3 ES2238860 T3 ES 2238860T3 ES 99958940 T ES99958940 T ES 99958940T ES 99958940 T ES99958940 T ES 99958940T ES 2238860 T3 ES2238860 T3 ES 2238860T3
- Authority
- ES
- Spain
- Prior art keywords
- energy
- voice
- coefficients
- envelope
- deaf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 206010011878 Deafness Diseases 0.000 title claims description 39
- 238000000034 method Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 13
- 238000007493 shaping process Methods 0.000 claims abstract description 3
- 238000011002 quantification Methods 0.000 claims description 12
- 239000002699 waste material Substances 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Error Detection And Correction (AREA)
- Detection And Correction Of Errors (AREA)
Abstract
Un método de codificación de segmentos sordos de voz que comprende: extraer (304) coeficientes de energía de subbandas de una trama de voz; cuantificar (308) los coeficientes de energía; y generar (310) una envolvente de energía a partir de los coeficientes de energía cuantificados; caracterizado por: reconstituir (312) una señal de residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.
Description
Codificación a baja velocidad de bit de segmentos
de voz sordos.
La presente invención se refiere de modo general
al ámbito del proceso de voz y más específicamente a un método y a
un aparato para codificación a baja velocidad de bit de segmentos
de voz sordos.
La transmisión de voz mediante técnicas digitales
se ha extendido especialmente en aplicaciones de larga distancia y
radioteléfono digital. Esto, a su vez, ha creado interés en
determinar la menor cantidad de información que se puede enviar
sobre un canal al tiempo que se mantiene la calidad percibida de la
voz reconstruida. Si se transmite la voz simplemente muestreando y
digitalizando, se requiere una velocidad de datos del orden de
sesenta y cuatro kilobits por segundo (kbps) para conseguir una
calidad de voz de telefonía analógica convencional. No obstante,
mediante al análisis de la voz, seguida de una adecuada
codificación, transmisión y resíntesis en el receptor, se puede
lograr una significativa reducción en la velocidad de datos.
Los dispositivos que emplean técnicas para
comprimir voz mediante extracción de parámetros que la relacionan
con un modelo de generación de voz humana se denominan codificadores
de voz. Un codificador de voz divide la señal de voz entrante en
bloques de tiempo o tramas de análisis. Los codificadores de voz
comprenden típicamente un codificador y un decodificador, o un
codec. El codificador analiza la trama de voz entrante para extraer
parámetros relevantes y luego cuantifica los parámetros en
representación binaria, es decir, en un conjunto de bits o paquete
de datos binarios. Los paquetes de datos se transmiten sobre el
canal de comunicación hasta un receptor y un decodificador. El
decodificador procesa los paquetes de datos, los cuantifica para
producir los parámetros y luego resintetiza las tramas de voz
empleando los parámetros cuantificados.
La función del codificador de voz es comprimir la
señal de voz digitalizada hasta una señal de baja velocidad de bits
mediante la eliminación de redundancias naturales inherentes a la
voz. La compresión digital se consigue representando la trama de
voz entrante con un conjunto de parámetros y empleando
cuantificación para representar los parámetros con un conjunto de
bits. Si la trama de voz entrante tiene un número de bits N_{i} y
el paquete de datos producido por el codificador de voz tiene un
número de bits N_{o},el factor de compresión alcanzado por el
codificador de voz es C = N_{i} / N_{o}. El reto es mantener la
calidad de voz alta de la voz decodificada al tiempo que se logra el
factor de compresión objetivo. El rendimiento de un codificador de
voz depende de (1) cómo funciona el modelo de voz o combinación del
proceso de análisis y síntesis antes descrito y (2) cómo funciona
el proceso de cuantificación de parámetros a la velocidad objetivo
de N_{o} bits por trama. La meta del modelo de voz es por tanto
captar la esencia de la señal de voz o la calidad de voz objetivo
con un conjunto pequeño de parámetros para cada trama.
Una técnica efectiva para codificar voz de forma
eficiente en baja tasa de bits es la codificación multimodo. Un
codificador multimodo aplica diferentes modos o algoritmos de
codificación-decodificación a diferentes tipos de
tramas de voz entrantes. Cada modo o proceso de
codificación-decodificación se personaliza para
representar a cierto tipo de segmento de voz (es decir, con habla,
sordo o ruido de fondo) de la forma más eficiente. Un mecanismo
externo de decisión de modo examina la trama de voz entrante y toma
una decisión respecto a qué modo aplicar a la trama. Típicamente, la
decisión de modo se realiza de forma de bucle abierto mediante
extracción de varios parámetros de la trama entrante y evaluándolos
para tomar una decisión sobre qué modo aplicar. Por tanto, la
decisión del modo se toma sin conocer por adelantado el estado
exacto de la voz saliente, es decir, de cómo será de similar la voz
saliente a la voz entrante en términos de calidad de voz o
cualquier otra medida de funcionamiento. En la Patente U.S. No.
5,414,796, asignada al cesionario de la presente invención, se
describe un ejemplar de decisión de modo en bucle abierto para un
codificador de voz.
La codificación multimodo puede ser a velocidad
fija, empleando el mismo número de bits N_{o} para cada trama, o a
velocidad variable en la que se usan diferentes velocidades de bits
para distintos modos. La meta en la codificación de velocidad
variable es usar solo la cantidad de bits necesaria para codificar
los parámetros del codec hasta un nivel adecuado para obtener la
calidad objetivo. Como resultado se puede obtener la misma calidad
de voz objetivo que la de una velocidad fija con codificador a
mayor velocidad a una velocidad promedio significativamente inferior
empleando técnicas de velocidad de bits variable (VBR). En la
Patente U.S. No. 5,414,796, asignada el cesionario de la presente
invención, se describe un ejemplar de codificador de velocidad
media variable.
Actualmente hay una ola de interés investigador y
de fuertes necesidades comerciales para desarrollar un codificador
de voz de alta calidad operando a velocidades de medias a bajas (es
decir, en el intervalo de 2.4 a 4 kbps y por debajo). Las áreas de
aplicación incluyen telefonía inalámbrica, comunicaciones por
satélite, telefonía en Internet, varias aplicaciones multimedia y
de flujo vocal, correo vocal y otros sistemas de almacenamiento de
voz. Las fuerzas conducentes son la necesidad de alta capacidad y
la demanda de un rendimiento robusto en situaciones de pérdidas de
paquetes. Otra fuerza actuante son varios recientes esfuerzos de
estandarización de codificación de voz que impulsan la
investigación y desarrollo de algoritmos de codificación de voz a
baja velocidad. Un codificador de voz a baja velocidad crea más
canales, o usuarios por ancho de banda admisible de aplicación y un
codificador de voz a baja velocidad acoplado con una capa adicional
de codificación adecuada de canal pueden ajustar el presupuesto
total de bits de especificación de codificador y proporcionar un
funcionamiento robusto en condiciones de error de
canal.
canal.
La codificación de voz multimodo VBR es por tanto
un mecanismo efectivo para codificar voz a baja velocidad. Los
esquemas multimodo convencionales requieren el diseño de eficientes
esquemas o modos de codificación para varios segmentos de velocidad
(p. ej. sordo, con voz, transición) así como un modo de ruido de
fondo o silencio. El rendimiento total del codificador de voz
depende de las velocidades de bit de los distintos modos para
segmentos sordos, con voz y otros. Con el fin de conseguir la
calidad objetivo, es necesario diseñar modos eficientes de alto
rendimiento, algunos de los cuales deben funcionar a velocidades
bajas de bits. Típicamente, los segmentos de habla con voz y sordos
se capturan a altas velocidades de bits y los segmentos de ruido de
fondo y silencio se representan con modos que funcionan a velocidad
significativamente menor. Por tanto hay necesidad de una técnica de
codificación a baja velocidad de bits que capte con precisión los
segmentos sordos del habla al tiempo que emplean un número mínimo
de bits por trama.
La WO-A-95/28824
describe un método para codificar una señal que contiene voz en un
sistema de comunicación Predictor Lineal Excitado de Libro de
Códigos de velocidad de bits. El sistema incluye un predictor que
organiza una señal que contiene voz en tramas de 40 milisegundos de
duración y clasifica cada trama en uno de tres modos: con voz y
estacionario, sordo o transitorio y ruido de fondo.
La presente invención va dirigida a una técnica
de codificación de baja velocidad de bits que capta con precisión
segmentos sordos de voz al tiempo que emplea un número mínimo de
bits por trama. Consecuentemente, en un aspecto de la invención, un
método de codificación de segmentos sordos de voz incluye extraer
coeficientes de energía de subbandas de una trama de voz;
cuantificar los coeficientes de energía; generar una envolvente de
energía a partir de los coeficientes de energía cuantificados; y
reconstituir una señal residual mediante conformación de un vector
de ruido generado aleatoriamente con valores cuantificados de la
envolvente de energía.
En otro aspecto de la invención, un codificador
de voz para cuantificar segmentos sordos de habla incluye medios
para extraer coeficientes de energía a partir de subbandas de una
trama de habla; medios para cuantificar los coeficientes de
energía; medios para generar una envolvente de energía a partir de
los coeficientes de energía cuantificados y medios para
reconstituir una señal residual mediante conformación de un vector
de ruido generado aleatoriamente con valores cuantificados de la
envolvente de energía.
En una realización preferida, el codificador de
voz incluye un módulo configurado extraer los coeficientes de
energía de una trama de voz; un módulo configurado para cuantificar
los coeficientes de energía; un módulo configurado para generar la
envolvente de energía a partir de los coeficientes de energía
cuantificados; y un módulo configurado para reconstituir una señal
residual mediante conformación de un vector de ruido generado
aleatoriamente con valores cuantificados de la envolvente de
energía.
La Fig. 1 es un diagrama de bloques de un canal
de comunicación terminado en cada extremo con codificadores de
voz.
La Fig. 2 es un diagrama de bloques de un
codificador.
La Fig. 3 es un diagrama de bloques de un
decodificador.
La Fig. 4 es un diagrama de flujo que ilustra los
pasos de una técnica de codificación de baja velocidad de bits para
segmentos sordos de habla.
Las Figs. 5A-E son gráficos de
amplitud de señal en función de un índice discreto de tiempo.
La Fig. 6 es un diagrama funcional que representa
un proceso de codificación por cuantificación de vector
piramidal.
La Fig. 7 es un diagrama funcional que representa
un proceso de decodificación por cuantificación de vector
piramidal.
En la Fig. 1, un primer codificador 10 recibe
muestras digitalizadas de voz s(n) y codifica las muestras
para transmisión sobre un medio de transmisión 12 o canal de
comunicación 12 hasta un primer decodificador 14. El decodificador
14 decodifica las muestras codificadas de voz y sintetiza una señal
saliente de voz s_{SINT} (n). Para su transmisión en sentido
opuesto, un segundo codificador 16 codifica muestras de voz
digitalizadas s(n), que se transmiten sobre un canal de
comunicación 18. Un segundo decodificador 20 recibe y decodifica
las muestras de voz codificadas, generando una señal sintetizada de
voz saliente s_{SINT} (n).
Las muestras de voz s(n) representan
señales de voz que han sido digitalizadas y cuantificadas según
cualquiera de los varios métodos conocidos en la técnica incluyendo,
p. ej., modulación por codificación de pulso (PCM), compresión por
ley \mu o ley A. Como se conoce en la técnica, las muestras de voz
s(n) se organizan en tramas de datos entrantes donde cada
trama comprende un número determinado de muestras digitalizadas de
voz s(n). En una realización ejemplar, se emplea una
velocidad de muestreo de 8 kHz, comprendiendo cada trama de 20 ms
160 muestras. En las realizaciones descritas más abajo, puede ser
variada convenientemente sobre una base de trama a trama desde 8
kbps (velocidad total) hasta 4 kbps (velocidad media) hasta 2 kbps
(velocidad cuarto) hasta 1 kbps (velocidad octavo). La variación de
la velocidad de transmisión de datos es ventajosa porque pueden
emplearse selectivamente velocidades de bit inferiores para tramas
que contienen menos información de voz relativamente. Como
comprenderán aquellos con experiencia en la técnica, se pueden
emplear otras velocidades de muestreo, tamaños de trama y
velocidades de transmisión.
El primer codificador 10 y el segundo
decodificador 20 juntos comprenden un primer codificador de voz o
codec de voz. Igualmente el segundo codificador 16 y el primer
decodificador 14 comprenden conjuntamente un segundo codificador de
voz. Se entenderá por aquellos con experiencia en la técnica que
los codificadores de voz se pueden implementar mediante un
procesador digital de señal (DSP), un circuito integrado de
aplicación específica (ASIC), lógica de puertas discretas, firmware
o cualquier módulo convencional de software programable y un
microprocesador. El módulo software puede residir en memoria RAM,
memoria flash, registros, o cualquier forma de medio de
almacenamiento grabable conocido en la técnica. Alternativamente,
cualquier procesador convencional, controlador o máquina de estados
podría sustituirse por el microprocesador. En la Patente U.S. No.
5,727,123, asignada al cesionario de la presente invención, se
describen ASICs ejemplares diseñados específicamente para
codificación de voz así como en la Patente U.S. No. 5,784, 532,
asignada al cesionario de la presente invención.
En la Fig. 2, un codificador 100 que puede
emplearse en un codificador de voz incluye un módulo de decisión de
modo 102, un módulo de estimación de tono 104, un módulo de
análisis LP 106, un filtro de análisis LP 108 y un módulo de
cuantificación LP 110 y un módulo de cuantificación residual 112. Al
módulo de decisión de modo 102, al módulo de estimación de tono
104, al módulo de análisis LP 106, y al filtro de análisis LP 108
se suministran tramas de voz entrantes s(n). El módulo de
decisión de modo 102 produce un índice de modo I_{M} y un modo M
basado en la periodicidad de cada trama de voz entrante
s(n). En la Patente U.S. No. 5,911,128, asignada al
cesionario de la presente invención, se describen varios métodos
para clasificar tramas de voz según su periodicidad. Estos métodos
también están incorporados a los Estándares Provisionales
Industriales de la Asociación de Industrias de Telecomunicación
TIA/EIA IS-127 y TIA/EIA
IS-733.
El módulo de estimación de tono 104 produce un
índice de tono I_{P} y un valor de retardo P_{O} basado en cada
trama de voz entrante s(n). El módulo de análisis LP 106
realiza análisis predictivo lineal sobre cada trama de voz entrante
s(n) para generar un parámetro LP a. El parámetro a
se suministra al módulo de cuantificación LP 110. El módulo de
cuantificación LP recibe también el modo M. El módulo de
cuantificación LP 110 produce un índice I_{LP} y un parámetro LP
cuantificado â. El filtro de análisis LP 108 recibe el parámetro LP
cuantificado â además de las tramas de voz entrantes s(n).
El filtro de análisis LP 108 genera una señal residual LP
R[n], que representa el error entre las tramas de voz
entrantes s(n) y los parámetros cuantificados lineales
predichos â. Al módulo de cuantificación de residuo 112 se
proporcionan el residuo LP R[n], el modo M y el parámetro LP
cuantificado â. Basándose en estos valores, el módulo de
cuantificación de residuo 112 produce un índice de residuo I_{R}
y una señal de residuo cuantificado \check{R}[n].
En la Fig. 3, un decodificador 200 que se puede
usar en un codificador de voz incluye un módulo decodificador de
parámetro LP 202, un módulo decodificador de residuo 204, un módulo
decodificador de modo 206 y un filtro de síntesis LP 208. El módulo
de decodificación de modo 206 recibe y decodifica un índice de modo
I_{M}, generando a partir del mismo un modo M. El módulo de
decodificación de parámetros 202 recibe el modo M y un índice
I_{LP}. El módulo de decodificación de parámetros 202 decodifica
los valores recibidos para producir un parámetro cuantificado LP â.
El módulo decodificador de residuo 204 recibe un índice de residuo
I_{R}, un índice de tono I_{P} y el índice de modo I_{M}. El
módulo de decodificación de residuo 204 decodifica los valores
recibidos para generar una señal de residuo cuantificado
\check{R}[n]. La señal de residuo cuantificado
\check{R}[n] y el parámetro cuantificado â se suministran
al filtro de síntesis LP 208, que sintetiza una señal de voz
saliente decodificada \hat{s}[n] a partir de los
mismos.
El funcionamiento e implementación de los
distintos módulos del codificador 100 de la Fig. 2 y del
decodificador de la Fig. 3 son conocidos en la técnica y se
describen con detalle en Proceso Digital de Señales de Voz
396-453 (1978) de L.B. Rabiner & R.W. Schafer.
En la antes mencionada Patente U.S. No. 5,414,796 se describe un
ejemplo de codificador y un ejemplo de decodificador.
El diagrama de flujo de la Fig. 4 ilustra una
técnica de codificación a baja velocidad de bits para segmentos
sordos de habla según una realización. El modo de codificación
sordo de baja velocidad mostrado en la realización de la Fig. 4
ofrece ventajosamente codificadores de voz multimodo a velocidad de
bit media inferior al tiempo que conserva la alta calidad total de
voz mediante captura con precisión de segmentos sordos con un bajo
número de bits por trama.
En el paso 300 el codificador realiza una
decisión de velocidad externa, identificando tramas entrantes de voz
bien como sordas o no sordas. La decisión de velocidad se toma
mediante consideración de varios de los parámetros extraídos de la
trama de voz S[n], donde n = 1,2,3,...,N, como la energía de
la trama (E), la periodicidad de la trama (R_{p}) y la
inclinación espectral (T_{s}). Los parámetros se comparan con un
conjunto de umbrales definidos. Se toma una decisión sobre si la
trama presente es sorda basándose en los resultados de las
comparaciones. Si la trama presente es sorda, se codifica como
trama sorda como se describe más abajo.
La energía de trama se puede determinar
convenientemente según la siguiente ecuación:
E =
\frac{1}{N} * \sum\limits^{N}_{m=1}
S[m|*S[m|
La periodicidad de trama se puede determinar
convenientemente de acuerdo con la siguiente ecuación:
Rp = max para
cualquier k {\overline{h}(S[n], S[n+k])},
para k
=1,2,...,N
donde
\overline{h}(x[n], x[n+k]) es una función de
autocorrelación de x. La inclinación espectral se puede determinar
convenientemente de acuerdo con la siguiente
ecuación:
Ts =
(Eh/El),
donde Eh y EI son valores de
energía de SI[n] y Sh[n] siendo SI y Sh los
componentes de paso bajo y paso alto de la trama de voz original
S[n], los cuales componentes se pueden generar
convenientemente mediante un conjunto de filtro paso bajo y paso
alto.
En el paso 302 se realiza análisis LP para crear
el residuo predictivo lineal de la trama sorda. El análisis
predictivo lineal (LP) se realiza mediante técnicas que son
conocidas en la ciencia, como se describe en la antes mencionada
Patente U.S. No. 5,414,796 y en Proceso Digital de Señales de
Voz 396-453 (1978) de L.B. Rabiner & R.W.
Schafer. La muestra N, residuo sordo LP, R[n], donde
n=1,2,...,N, se crea a partir de la trama de voz entrante
S[n], donde n= 1,2,...,N. Los parámetros LP se cuantifican
en el dominio de pareja espectral de línea (LSP) con técnicas de
cuantificación LSP conocidas como se describe en cualquiera de las
referencias arriba listadas. En la Fig. 5A se representa un gráfico
de amplitud de señal de voz original en función de un índice de
tiempo discreto. En la Fig. 5B se representa un gráfico de amplitud
de señal de voz sorda cuantificada en función de un índice de
tiempo discreto. En la Fig. 5C se representa un gráfico de amplitud
de señal residuo sorda original en función de un índice temporal
discreto. En la Fig. 5D se representa un gráfico de amplitud de
envolvente de energía en función de un índice discreto de tiempo.
En la Fig. 5E se representa un gráfico de amplitud de señal residuo
sorda cuantificada en función de un índice
\hbox{temporal discreto. }
E =
\frac{1}{N} * \sum\limits^{N}_{m=1}
S[m|*S[m|
En el paso 304 se extraen del residuo sordo
parámetros de energía con resolución temporal fina. Del residuo
sordo R[n] se extrae un número (M) de parámetros de energía
local E_{i}, donde i=1,2,3,...,M, mediante la realización de los
pasos siguientes. La muestra N de residuo R[n] se divide en
M-2 subbloques X_{i}, donde
i=1,2,3,...,M-1, teniendo cada bloque X_{i} una
longitud L=N/(M-2). El bloque de residuo X_{l}
pasada la muestra L se obtiene a partir del residuo cuantificado
pasado de la trama previa. (El bloque de residuo X_{l} pasada la
muestra L incorpora las últimas L muestras del residuo de muestra N
de la última trama de voz). El bloque de residuo futuro X_{M} de
muestra L se obtiene a partir del residuo LP de la siguiente trama.
(El bloque de residuo futuro X_{M} de muestra L incorpora las
primeras L muestras del residuo de muestra N de la próxima trama de
voz). Se crea un número de parámetros de energía local E_{i},
donde 1=1,2,...,M, a partir de cada uno de los M bloques X_{i}
donde i=1,2,...,M, de acuerdo con la siguiente ecuación:
E_{i} =
\frac{1}{L} * \sum\limits^{L}_{m=1} X_{i} [m| * X_{i}
[m|
En el paso 306 los parámetros de energía M se
codifican con N_{r} bits según un método de cuantificación de
vector piramidal (PVQ). Así los M-1 valores de
energía local E_{i}, donde i=2,3,...,M, se codifican con N_{r}
bits para formar valores cuantificados de energía W_{i}, donde
i=2,3,...,M. Se emplea un paso K de esquema de codificación PVQ con
bits N_{1}, N_{2},..., N_{k} de manera que N_{1} + N_{2}
+...+ N_{k} = N_{r}, el número total de bits disponibles para
cuantificar el residuo sordo R[n]. Para cada k etapas, donde
k = 1,2,...,K, se realizan los pasos siguientes. Para la primera
etapa (es decir k=1), el número de banda se ajusta a B_{k} =
B_{1} = 1, y la longitud de banda se fija a L_{k} = 1. Para
cada banda B_{k}, el valor medio medio_{j}, donde
j=1,2,...,B_{k}, está de acuerdo con la siguiente ecuación:
medio_{j} =
\frac{1}{L_{j}} * \sum\limits^{I_{g}}_{m=1}
E_{m}
Los B_{k} valores medios medio_{j}, donde
j=1,2,...,B_{k}, se cuantifican con N_{k} = N_{1} bits para
formar el conjunto cuantificado de valores medios qmedio_{j},
donde j=1,2,...,B_{k}. La energía perteneciente a cada banda
B_{k} se divide por el valor medio cuantificado asociado
qmedio_{j}, generando un nuevo conjunto de valores de energía
{E_{k,i}} = {E_{1,i}}, donde i=1,2,...,M. En el caso de la
primera etapa (es decir para k=1) para cada i, donde
i=1,2,3,...,M,:
E_{1,i}= E_{i}
/qmedio_{1}
El proceso de dividir en subbandas, extraer la
media para cada banda, cuantificar la media con bits disponibles
para la etapa y luego dividir los componentes de la subbanda por la
media cuantificada se repite para cada etapa siguiente k, donde
k=2,3,...,K-1.
En la etapa K, los subvectores para cada una de
las B_{k} subbandas se cuantifican con VQs diseñados para cada
banda, empleando un total de N_{k} bits. El proceso de
codificación PVQ para M=8 y la etapa 4 se ilustra por medio de
ejemplo en la Fig. 6.
En el paso 308 se forman M vectores cuantificados
de energía. Los M vectores cuantificados de energía se forman a
partir de libros de claves y los N_{r} bits que representan la
información PVQ invirtiendo el proceso de codificación PVQ antes
descrito con los subvectores de residuo final y medias
cuantificadas. El proceso de decodificación PVQ para M=3 y etapa
k=3 se ilustra por medio de ejemplo en la Fig. 7. Como comprenderán
aquellos con experiencia en la técnica, se puede cuantificar la
ganancia sorda (UV) con cualquier técnica de codificación
convencional. El esquema de codificación no necesita restringirse
al esquema PVQ de la realización descrita en relación con las Figs.
4-7.
En el paso 310 se forma una envolvente de energía
de alta resolución. Se forma una envolvente de energía de alta
resolución temporal de N muestras (es decir, la longitud de la
trama de voz) ENV[n], donde n=1,2,3,...,N, a partir de los
valores decodificados de energía W_{i}, donde i=1,2,3,...,M, de
acuerdo con los cálculos descritos más abajo. Los M valores de
energía representan las energías de M-2 subtramas
del actual residuo de voz, teniendo cada trama una longitud L = N/M.
Los valores W_{1} y W_{M} representan la energía de las L
muestras pasadas de la última trama de residuo y la energía de las
L muestras futuras de la próxima trama de residuo,
respectivamente.
Si W_{m-1}, W_{m} y W_{m+1}
son representativas de las energías de las subbandas
(m-1), m y (m+1), respectivamente, entonces las
muestras de la envolvente de energía ENV [n], para
n=m*L-L/2 hasta n=m*L+L/2 que representa la trama
emésima se calcula como sigue: Para n=m*L-L/2, hasta
n=m*L,
ENV [n| =
\sqrt{W_{m-1}} + (1/L) * (n-m * L +
L) * (\sqrt{W_{m}} -
\sqrt{W_{m-1}})
Y para n=m*L hasta n=m*L+L/2,
ENV [n| =
\sqrt{W_{m}} + (1/L) * (n-m * L) *
(\sqrt{W_{m-1}} -
\sqrt{W_{m}})
Los pasos para calcular la envolvente de energía
ENV[n] se repiten para cada una de las M-1
bandas, haciendo m=2,3,4,...,M, para estimar la envolvente de
energía completa ENV[n], donde n=1,2,...,N para la trama de
residuo actual.
En el paso 312 se forma un residuo sordo
cuantificado tiñendo ruido aleatorio con la envolvente de energía
ENV[n]. El residuo sordo cuantificado qR[n] se forma
de acuerdo con la siguiente ecuación:
qR[n] =
Ruido[n] * ENV[n], para
n=1,2,...,N,
donde Ruido[n] es una señal
aleatoria de ruido blanco con varianza unidad, que se genera
convenientemente de modo artificial mediante un generador de números
aleatorios en sincronismo con el codificador y el
decodificador.
En el paso 314 se forma una trama de voz sorda
cuantificada. El residuo sordo cuantificado qS[n] se genera
por filtrado inverso LP de la voz sorda cuantificada con técnicas
convencionales de síntesis LP, tal como es conocido en la técnica y
se describe en al antes mencionada Patente U.S. No. 5,414,796 y en
Proceso Digital de Señales de Voz 396-453
(1978) de L.B. Rabiner & R.W. Schafer.
En una realización se puede realizar un paso de
control de calidad mediante una medición de error porcentual como p.
ej., relación porcentual señal-ruido (PSNR), que se
define como:
PSNE = 10 *
log10 \frac{\sum\limits^{N}_{n=1}
(x[n|-e[n|)^{2}}{\sum\limits^{N}_{n=1} e[n| *
e[n|}
donde x[n] =
h[n]*R[n], y e[n] = h[n]*qR[n],
con "*" significando una operación de convolución o filtrado,
siendo h[n] un filtro ponderado porcentualmente y siendo
R[n] y qR[n], respectivamente, el residuo sordo
original y cuantificado. El PSNR se compara con un umbral
prefijado. Si el PSNR es menor que el umbral, el esquema de
codificación sordo no funciona adecuadamente y se puede aplicar un
modo de codificación de mayor velocidad en vez de captar con más
precisión la trama actual. Por otra parte, si el PSNR excede el
umbral predefinido el esquema de codificación sordo ha funcionado
bien y se mantiene el modo de
decisión.
Las realizaciones preferidas de la presente
invención han sido por tanto mostradas y descritas. No obstante,
sería evidente para uno con experiencia corriente en la técnica que
al las realizaciones aquí descritas se pueden hacer numerosas
alteraciones sin apartarse del alcance de la invención. Por tanto
la presente invención no se limita excepto de acuerdo con las
siguientes reivindicaciones.
Claims (12)
1. Un método de codificación de segmentos sordos
de voz que comprende:
extraer (304) coeficientes de energía de
subbandas de una trama de voz;
cuantificar (308) los coeficientes de energía;
y
generar (310) una envolvente de energía a partir
de los coeficientes de energía cuantificados; caracterizado
por:
reconstituir (312) una señal de residuo mediante
conformación de un vector de ruido generado aleatoriamente con
valores cuantificados de la envolvente de energía.
2. El método de la reivindicación 1, donde la
cuantificación (308) se realiza de acuerdo con un esquema de
cuantificación de vector piramidal.
3. El método de la reivindicación 1, donde la
generación (310) se lleva a cabo con interpolación lineal.
4. El método de la reivindicación 1, que
comprende además obtener una medición de rendimiento postproceso y
comparar la medición de rendimiento postproceso con un umbral
predeterminado.
5. El método de la reivindicación 1, donde la
generación (310) comprende generar una envolvente de energía que
incluye una representación de energía de un número predefinido de
muestras pasadas de una trama previa de residuo.
6. El método de la reivindicación 1, donde la
generación (310) comprende generar una envolvente de energía que
incluye una representación de energía de un número predefinido de
muestras futuras de una próxima trama de residuo.
7. Un codificador de voz (10, 16) para codificar
segmentos sordos de habla, que comprende:
medios (102, 104, 106) para extraer coeficientes
de energía a partir de subbandas de una trama de voz;
medios (110) para cuantificar los coeficientes de
energía;
medios para generar una envolvente de energía a
partir de los coeficientes de energía cuantificados,
caracterizado por
medios (112) para reconstituir una señal residuo
mediante conformación de un vector de ruido generado aleatoriamente
con valores cuantificados de la envolvente de energía.
8. El codificador de voz de la reivindicación 7,
donde los medios (110) para cuantificar comprenden medios para
cuantificar de acuerdo con un esquema de cuantificación de vector
piramidal.
9. El codificador de voz de la reivindicación 7,
donde los medios para generar comprenden un módulo de interpolación
lineal.
10. El codificador de voz de la reivindicación 7,
que comprende además medios para obtener una medición de rendimiento
postproceso y comparar la medición de rendimiento postproceso con un
umbral predeterminado.
11. El codificador de voz de la reivindicación 7,
donde los medios para generar comprenden medios para generar una
envolvente de energía que incluye una representación de energía de
un número predefinido de muestras pasadas de una trama previa de
residuo.
12. El codificador de voz de la reivindicación 7,
donde los medios para generar comprenden medios para generar una
envolvente de energía que incluye una representación de energía de
un número predefinido de muestras futuras de una próxima trama de
residuo.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/191,633 US6463407B2 (en) | 1998-11-13 | 1998-11-13 | Low bit-rate coding of unvoiced segments of speech |
US191633 | 1998-11-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2238860T3 true ES2238860T3 (es) | 2005-09-01 |
Family
ID=22706272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99958940T Expired - Lifetime ES2238860T3 (es) | 1998-11-13 | 1999-11-12 | Codificacion a baja velocidad de bit de segmentos de voz sordos. |
Country Status (11)
Country | Link |
---|---|
US (3) | US6463407B2 (es) |
EP (1) | EP1129450B1 (es) |
JP (1) | JP4489960B2 (es) |
KR (1) | KR100592627B1 (es) |
CN (2) | CN1815558B (es) |
AT (1) | ATE286617T1 (es) |
AU (1) | AU1620700A (es) |
DE (1) | DE69923079T2 (es) |
ES (1) | ES2238860T3 (es) |
HK (1) | HK1042370B (es) |
WO (1) | WO2000030074A1 (es) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
KR20020075592A (ko) * | 2001-03-26 | 2002-10-05 | 한국전자통신연구원 | 광대역 음성 부호화기용 lsf 양자화기 |
JP2004519738A (ja) * | 2001-04-05 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 決定された信号型式に固有な技術を適用する信号の時間目盛修正 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6917914B2 (en) * | 2003-01-31 | 2005-07-12 | Harris Corporation | Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding |
KR100487719B1 (ko) * | 2003-03-05 | 2005-05-04 | 한국전자통신연구원 | 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기 |
CA2475283A1 (en) * | 2003-07-17 | 2005-01-17 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre | Method for recovery of lost speech data |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
RU2426179C2 (ru) * | 2006-10-10 | 2011-08-10 | Квэлкомм Инкорпорейтед | Способ и устройство для кодирования и декодирования аудиосигналов |
AU2007318506B2 (en) * | 2006-11-10 | 2012-03-08 | Iii Holdings 12, Llc | Parameter decoding device, parameter encoding device, and parameter decoding method |
GB2466666B (en) * | 2009-01-06 | 2013-01-23 | Skype | Speech coding |
US20100285938A1 (en) * | 2009-05-08 | 2010-11-11 | Miguel Latronica | Therapeutic body strap |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
EP3111560B1 (en) | 2014-02-27 | 2021-05-26 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN113627499B (zh) * | 2021-07-28 | 2024-04-02 | 中国科学技术大学 | 基于检查站柴油车尾气图像的烟度等级估算方法及设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
IL95753A (en) * | 1989-10-17 | 1994-11-11 | Motorola Inc | Digits a digital speech |
JP2841765B2 (ja) * | 1990-07-13 | 1998-12-24 | 日本電気株式会社 | 適応ビット割当て方法及び装置 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5839102A (en) * | 1994-11-30 | 1998-11-17 | Lucent Technologies Inc. | Speech coding parameter sequence reconstruction by sequence classification and interpolation |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6754624B2 (en) * | 2001-02-13 | 2004-06-22 | Qualcomm, Inc. | Codebook re-ordering to reduce undesired packet generation |
-
1998
- 1998-11-13 US US09/191,633 patent/US6463407B2/en not_active Expired - Lifetime
-
1999
- 1999-11-12 ES ES99958940T patent/ES2238860T3/es not_active Expired - Lifetime
- 1999-11-12 EP EP99958940A patent/EP1129450B1/en not_active Expired - Lifetime
- 1999-11-12 CN CN200410045610XA patent/CN1815558B/zh not_active Expired - Lifetime
- 1999-11-12 AU AU16207/00A patent/AU1620700A/en not_active Abandoned
- 1999-11-12 AT AT99958940T patent/ATE286617T1/de not_active IP Right Cessation
- 1999-11-12 KR KR1020017006085A patent/KR100592627B1/ko active IP Right Grant
- 1999-11-12 CN CNB99815573XA patent/CN1241169C/zh not_active Expired - Lifetime
- 1999-11-12 DE DE69923079T patent/DE69923079T2/de not_active Expired - Lifetime
- 1999-11-12 JP JP2000583003A patent/JP4489960B2/ja not_active Expired - Fee Related
- 1999-11-12 WO PCT/US1999/026851 patent/WO2000030074A1/en active IP Right Grant
-
2002
- 2002-05-30 HK HK02104019.7A patent/HK1042370B/zh not_active IP Right Cessation
- 2002-07-17 US US10/196,973 patent/US6820052B2/en not_active Expired - Lifetime
-
2004
- 2004-09-29 US US10/954,851 patent/US7146310B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002530705A (ja) | 2002-09-17 |
US6820052B2 (en) | 2004-11-16 |
ATE286617T1 (de) | 2005-01-15 |
HK1042370B (zh) | 2006-09-29 |
WO2000030074A1 (en) | 2000-05-25 |
US20020184007A1 (en) | 2002-12-05 |
US20050043944A1 (en) | 2005-02-24 |
CN1241169C (zh) | 2006-02-08 |
DE69923079T2 (de) | 2005-12-15 |
US6463407B2 (en) | 2002-10-08 |
EP1129450B1 (en) | 2005-01-05 |
DE69923079D1 (de) | 2005-02-10 |
AU1620700A (en) | 2000-06-05 |
KR20010080455A (ko) | 2001-08-22 |
CN1815558B (zh) | 2010-09-29 |
CN1342309A (zh) | 2002-03-27 |
KR100592627B1 (ko) | 2006-06-23 |
US7146310B2 (en) | 2006-12-05 |
HK1042370A1 (en) | 2002-08-09 |
CN1815558A (zh) | 2006-08-09 |
EP1129450A1 (en) | 2001-09-05 |
JP4489960B2 (ja) | 2010-06-23 |
US20010049598A1 (en) | 2001-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2238860T3 (es) | Codificacion a baja velocidad de bit de segmentos de voz sordos. | |
RU2351907C2 (ru) | Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) | |
KR100956623B1 (ko) | 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법 | |
JP4927257B2 (ja) | 可変レートスピーチ符号化 | |
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
KR100587953B1 (ko) | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
ES2302754T3 (es) | Procedimiento y aparato para codificacion de habla sorda. | |
JP4489959B2 (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
MXPA05000285A (es) | Metodo y dispositivo para la senalizacion de atenuacion y rafaga en banda eficiente y operacion maxima a semi-proporcion en codificacion de voz de banda ancha de velocidad de bits variable para sistemas inalambricos de cdma. | |
ES2253226T3 (es) | Codigo interpolativo multipulso de tramas de voz. | |
ES2255991T3 (es) | Metodo y aparato para generacion de numero aleatorios de velocidad un octavo para codificadores de voz. | |
CA2293165A1 (en) | Method for transmitting data in wireless speech channels |