ES2238860T3 - Codificacion a baja velocidad de bit de segmentos de voz sordos. - Google Patents

Codificacion a baja velocidad de bit de segmentos de voz sordos.

Info

Publication number
ES2238860T3
ES2238860T3 ES99958940T ES99958940T ES2238860T3 ES 2238860 T3 ES2238860 T3 ES 2238860T3 ES 99958940 T ES99958940 T ES 99958940T ES 99958940 T ES99958940 T ES 99958940T ES 2238860 T3 ES2238860 T3 ES 2238860T3
Authority
ES
Spain
Prior art keywords
energy
voice
coefficients
envelope
deaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99958940T
Other languages
English (en)
Inventor
Amitava Das
Sharath Manjunath
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2238860T3 publication Critical patent/ES2238860T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Error Detection And Correction (AREA)
  • Detection And Correction Of Errors (AREA)

Abstract

Un método de codificación de segmentos sordos de voz que comprende: extraer (304) coeficientes de energía de subbandas de una trama de voz; cuantificar (308) los coeficientes de energía; y generar (310) una envolvente de energía a partir de los coeficientes de energía cuantificados; caracterizado por: reconstituir (312) una señal de residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.

Description

Codificación a baja velocidad de bit de segmentos de voz sordos.
Antecedentes de la invención I. Ámbito de la invención
La presente invención se refiere de modo general al ámbito del proceso de voz y más específicamente a un método y a un aparato para codificación a baja velocidad de bit de segmentos de voz sordos.
II. Antecedentes técnicos
La transmisión de voz mediante técnicas digitales se ha extendido especialmente en aplicaciones de larga distancia y radioteléfono digital. Esto, a su vez, ha creado interés en determinar la menor cantidad de información que se puede enviar sobre un canal al tiempo que se mantiene la calidad percibida de la voz reconstruida. Si se transmite la voz simplemente muestreando y digitalizando, se requiere una velocidad de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para conseguir una calidad de voz de telefonía analógica convencional. No obstante, mediante al análisis de la voz, seguida de una adecuada codificación, transmisión y resíntesis en el receptor, se puede lograr una significativa reducción en la velocidad de datos.
Los dispositivos que emplean técnicas para comprimir voz mediante extracción de parámetros que la relacionan con un modelo de generación de voz humana se denominan codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo o tramas de análisis. Los codificadores de voz comprenden típicamente un codificador y un decodificador, o un codec. El codificador analiza la trama de voz entrante para extraer parámetros relevantes y luego cuantifica los parámetros en representación binaria, es decir, en un conjunto de bits o paquete de datos binarios. Los paquetes de datos se transmiten sobre el canal de comunicación hasta un receptor y un decodificador. El decodificador procesa los paquetes de datos, los cuantifica para producir los parámetros y luego resintetiza las tramas de voz empleando los parámetros cuantificados.
La función del codificador de voz es comprimir la señal de voz digitalizada hasta una señal de baja velocidad de bits mediante la eliminación de redundancias naturales inherentes a la voz. La compresión digital se consigue representando la trama de voz entrante con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz entrante tiene un número de bits N_{i} y el paquete de datos producido por el codificador de voz tiene un número de bits N_{o},el factor de compresión alcanzado por el codificador de voz es C = N_{i} / N_{o}. El reto es mantener la calidad de voz alta de la voz decodificada al tiempo que se logra el factor de compresión objetivo. El rendimiento de un codificador de voz depende de (1) cómo funciona el modelo de voz o combinación del proceso de análisis y síntesis antes descrito y (2) cómo funciona el proceso de cuantificación de parámetros a la velocidad objetivo de N_{o} bits por trama. La meta del modelo de voz es por tanto captar la esencia de la señal de voz o la calidad de voz objetivo con un conjunto pequeño de parámetros para cada trama.
Una técnica efectiva para codificar voz de forma eficiente en baja tasa de bits es la codificación multimodo. Un codificador multimodo aplica diferentes modos o algoritmos de codificación-decodificación a diferentes tipos de tramas de voz entrantes. Cada modo o proceso de codificación-decodificación se personaliza para representar a cierto tipo de segmento de voz (es decir, con habla, sordo o ruido de fondo) de la forma más eficiente. Un mecanismo externo de decisión de modo examina la trama de voz entrante y toma una decisión respecto a qué modo aplicar a la trama. Típicamente, la decisión de modo se realiza de forma de bucle abierto mediante extracción de varios parámetros de la trama entrante y evaluándolos para tomar una decisión sobre qué modo aplicar. Por tanto, la decisión del modo se toma sin conocer por adelantado el estado exacto de la voz saliente, es decir, de cómo será de similar la voz saliente a la voz entrante en términos de calidad de voz o cualquier otra medida de funcionamiento. En la Patente U.S. No. 5,414,796, asignada al cesionario de la presente invención, se describe un ejemplar de decisión de modo en bucle abierto para un codificador de voz.
La codificación multimodo puede ser a velocidad fija, empleando el mismo número de bits N_{o} para cada trama, o a velocidad variable en la que se usan diferentes velocidades de bits para distintos modos. La meta en la codificación de velocidad variable es usar solo la cantidad de bits necesaria para codificar los parámetros del codec hasta un nivel adecuado para obtener la calidad objetivo. Como resultado se puede obtener la misma calidad de voz objetivo que la de una velocidad fija con codificador a mayor velocidad a una velocidad promedio significativamente inferior empleando técnicas de velocidad de bits variable (VBR). En la Patente U.S. No. 5,414,796, asignada el cesionario de la presente invención, se describe un ejemplar de codificador de velocidad media variable.
Actualmente hay una ola de interés investigador y de fuertes necesidades comerciales para desarrollar un codificador de voz de alta calidad operando a velocidades de medias a bajas (es decir, en el intervalo de 2.4 a 4 kbps y por debajo). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía en Internet, varias aplicaciones multimedia y de flujo vocal, correo vocal y otros sistemas de almacenamiento de voz. Las fuerzas conducentes son la necesidad de alta capacidad y la demanda de un rendimiento robusto en situaciones de pérdidas de paquetes. Otra fuerza actuante son varios recientes esfuerzos de estandarización de codificación de voz que impulsan la investigación y desarrollo de algoritmos de codificación de voz a baja velocidad. Un codificador de voz a baja velocidad crea más canales, o usuarios por ancho de banda admisible de aplicación y un codificador de voz a baja velocidad acoplado con una capa adicional de codificación adecuada de canal pueden ajustar el presupuesto total de bits de especificación de codificador y proporcionar un funcionamiento robusto en condiciones de error de
canal.
La codificación de voz multimodo VBR es por tanto un mecanismo efectivo para codificar voz a baja velocidad. Los esquemas multimodo convencionales requieren el diseño de eficientes esquemas o modos de codificación para varios segmentos de velocidad (p. ej. sordo, con voz, transición) así como un modo de ruido de fondo o silencio. El rendimiento total del codificador de voz depende de las velocidades de bit de los distintos modos para segmentos sordos, con voz y otros. Con el fin de conseguir la calidad objetivo, es necesario diseñar modos eficientes de alto rendimiento, algunos de los cuales deben funcionar a velocidades bajas de bits. Típicamente, los segmentos de habla con voz y sordos se capturan a altas velocidades de bits y los segmentos de ruido de fondo y silencio se representan con modos que funcionan a velocidad significativamente menor. Por tanto hay necesidad de una técnica de codificación a baja velocidad de bits que capte con precisión los segmentos sordos del habla al tiempo que emplean un número mínimo de bits por trama.
La WO-A-95/28824 describe un método para codificar una señal que contiene voz en un sistema de comunicación Predictor Lineal Excitado de Libro de Códigos de velocidad de bits. El sistema incluye un predictor que organiza una señal que contiene voz en tramas de 40 milisegundos de duración y clasifica cada trama en uno de tres modos: con voz y estacionario, sordo o transitorio y ruido de fondo.
Resumen de la invención
La presente invención va dirigida a una técnica de codificación de baja velocidad de bits que capta con precisión segmentos sordos de voz al tiempo que emplea un número mínimo de bits por trama. Consecuentemente, en un aspecto de la invención, un método de codificación de segmentos sordos de voz incluye extraer coeficientes de energía de subbandas de una trama de voz; cuantificar los coeficientes de energía; generar una envolvente de energía a partir de los coeficientes de energía cuantificados; y reconstituir una señal residual mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.
En otro aspecto de la invención, un codificador de voz para cuantificar segmentos sordos de habla incluye medios para extraer coeficientes de energía a partir de subbandas de una trama de habla; medios para cuantificar los coeficientes de energía; medios para generar una envolvente de energía a partir de los coeficientes de energía cuantificados y medios para reconstituir una señal residual mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.
En una realización preferida, el codificador de voz incluye un módulo configurado extraer los coeficientes de energía de una trama de voz; un módulo configurado para cuantificar los coeficientes de energía; un módulo configurado para generar la envolvente de energía a partir de los coeficientes de energía cuantificados; y un módulo configurado para reconstituir una señal residual mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.
Breve descripción de los dibujos
La Fig. 1 es un diagrama de bloques de un canal de comunicación terminado en cada extremo con codificadores de voz.
La Fig. 2 es un diagrama de bloques de un codificador.
La Fig. 3 es un diagrama de bloques de un decodificador.
La Fig. 4 es un diagrama de flujo que ilustra los pasos de una técnica de codificación de baja velocidad de bits para segmentos sordos de habla.
Las Figs. 5A-E son gráficos de amplitud de señal en función de un índice discreto de tiempo.
La Fig. 6 es un diagrama funcional que representa un proceso de codificación por cuantificación de vector piramidal.
La Fig. 7 es un diagrama funcional que representa un proceso de decodificación por cuantificación de vector piramidal.
Descripción detallada de las realizaciones preferidas
En la Fig. 1, un primer codificador 10 recibe muestras digitalizadas de voz s(n) y codifica las muestras para transmisión sobre un medio de transmisión 12 o canal de comunicación 12 hasta un primer decodificador 14. El decodificador 14 decodifica las muestras codificadas de voz y sintetiza una señal saliente de voz s_{SINT} (n). Para su transmisión en sentido opuesto, un segundo codificador 16 codifica muestras de voz digitalizadas s(n), que se transmiten sobre un canal de comunicación 18. Un segundo decodificador 20 recibe y decodifica las muestras de voz codificadas, generando una señal sintetizada de voz saliente s_{SINT} (n).
Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y cuantificadas según cualquiera de los varios métodos conocidos en la técnica incluyendo, p. ej., modulación por codificación de pulso (PCM), compresión por ley \mu o ley A. Como se conoce en la técnica, las muestras de voz s(n) se organizan en tramas de datos entrantes donde cada trama comprende un número determinado de muestras digitalizadas de voz s(n). En una realización ejemplar, se emplea una velocidad de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más abajo, puede ser variada convenientemente sobre una base de trama a trama desde 8 kbps (velocidad total) hasta 4 kbps (velocidad media) hasta 2 kbps (velocidad cuarto) hasta 1 kbps (velocidad octavo). La variación de la velocidad de transmisión de datos es ventajosa porque pueden emplearse selectivamente velocidades de bit inferiores para tramas que contienen menos información de voz relativamente. Como comprenderán aquellos con experiencia en la técnica, se pueden emplear otras velocidades de muestreo, tamaños de trama y velocidades de transmisión.
El primer codificador 10 y el segundo decodificador 20 juntos comprenden un primer codificador de voz o codec de voz. Igualmente el segundo codificador 16 y el primer decodificador 14 comprenden conjuntamente un segundo codificador de voz. Se entenderá por aquellos con experiencia en la técnica que los codificadores de voz se pueden implementar mediante un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discretas, firmware o cualquier módulo convencional de software programable y un microprocesador. El módulo software puede residir en memoria RAM, memoria flash, registros, o cualquier forma de medio de almacenamiento grabable conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador o máquina de estados podría sustituirse por el microprocesador. En la Patente U.S. No. 5,727,123, asignada al cesionario de la presente invención, se describen ASICs ejemplares diseñados específicamente para codificación de voz así como en la Patente U.S. No. 5,784, 532, asignada al cesionario de la presente invención.
En la Fig. 2, un codificador 100 que puede emplearse en un codificador de voz incluye un módulo de decisión de modo 102, un módulo de estimación de tono 104, un módulo de análisis LP 106, un filtro de análisis LP 108 y un módulo de cuantificación LP 110 y un módulo de cuantificación residual 112. Al módulo de decisión de modo 102, al módulo de estimación de tono 104, al módulo de análisis LP 106, y al filtro de análisis LP 108 se suministran tramas de voz entrantes s(n). El módulo de decisión de modo 102 produce un índice de modo I_{M} y un modo M basado en la periodicidad de cada trama de voz entrante s(n). En la Patente U.S. No. 5,911,128, asignada al cesionario de la presente invención, se describen varios métodos para clasificar tramas de voz según su periodicidad. Estos métodos también están incorporados a los Estándares Provisionales Industriales de la Asociación de Industrias de Telecomunicación TIA/EIA IS-127 y TIA/EIA IS-733.
El módulo de estimación de tono 104 produce un índice de tono I_{P} y un valor de retardo P_{O} basado en cada trama de voz entrante s(n). El módulo de análisis LP 106 realiza análisis predictivo lineal sobre cada trama de voz entrante s(n) para generar un parámetro LP a. El parámetro a se suministra al módulo de cuantificación LP 110. El módulo de cuantificación LP recibe también el modo M. El módulo de cuantificación LP 110 produce un índice I_{LP} y un parámetro LP cuantificado â. El filtro de análisis LP 108 recibe el parámetro LP cuantificado â además de las tramas de voz entrantes s(n). El filtro de análisis LP 108 genera una señal residual LP R[n], que representa el error entre las tramas de voz entrantes s(n) y los parámetros cuantificados lineales predichos â. Al módulo de cuantificación de residuo 112 se proporcionan el residuo LP R[n], el modo M y el parámetro LP cuantificado â. Basándose en estos valores, el módulo de cuantificación de residuo 112 produce un índice de residuo I_{R} y una señal de residuo cuantificado \check{R}[n].
En la Fig. 3, un decodificador 200 que se puede usar en un codificador de voz incluye un módulo decodificador de parámetro LP 202, un módulo decodificador de residuo 204, un módulo decodificador de modo 206 y un filtro de síntesis LP 208. El módulo de decodificación de modo 206 recibe y decodifica un índice de modo I_{M}, generando a partir del mismo un modo M. El módulo de decodificación de parámetros 202 recibe el modo M y un índice I_{LP}. El módulo de decodificación de parámetros 202 decodifica los valores recibidos para producir un parámetro cuantificado LP â. El módulo decodificador de residuo 204 recibe un índice de residuo I_{R}, un índice de tono I_{P} y el índice de modo I_{M}. El módulo de decodificación de residuo 204 decodifica los valores recibidos para generar una señal de residuo cuantificado \check{R}[n]. La señal de residuo cuantificado \check{R}[n] y el parámetro cuantificado â se suministran al filtro de síntesis LP 208, que sintetiza una señal de voz saliente decodificada \hat{s}[n] a partir de los mismos.
El funcionamiento e implementación de los distintos módulos del codificador 100 de la Fig. 2 y del decodificador de la Fig. 3 son conocidos en la técnica y se describen con detalle en Proceso Digital de Señales de Voz 396-453 (1978) de L.B. Rabiner & R.W. Schafer. En la antes mencionada Patente U.S. No. 5,414,796 se describe un ejemplo de codificador y un ejemplo de decodificador.
El diagrama de flujo de la Fig. 4 ilustra una técnica de codificación a baja velocidad de bits para segmentos sordos de habla según una realización. El modo de codificación sordo de baja velocidad mostrado en la realización de la Fig. 4 ofrece ventajosamente codificadores de voz multimodo a velocidad de bit media inferior al tiempo que conserva la alta calidad total de voz mediante captura con precisión de segmentos sordos con un bajo número de bits por trama.
En el paso 300 el codificador realiza una decisión de velocidad externa, identificando tramas entrantes de voz bien como sordas o no sordas. La decisión de velocidad se toma mediante consideración de varios de los parámetros extraídos de la trama de voz S[n], donde n = 1,2,3,...,N, como la energía de la trama (E), la periodicidad de la trama (R_{p}) y la inclinación espectral (T_{s}). Los parámetros se comparan con un conjunto de umbrales definidos. Se toma una decisión sobre si la trama presente es sorda basándose en los resultados de las comparaciones. Si la trama presente es sorda, se codifica como trama sorda como se describe más abajo.
La energía de trama se puede determinar convenientemente según la siguiente ecuación:
E = \frac{1}{N} * \sum\limits^{N}_{m=1} S[m|*S[m|
La periodicidad de trama se puede determinar convenientemente de acuerdo con la siguiente ecuación:
Rp = max para cualquier k {\overline{h}(S[n], S[n+k])}, para k =1,2,...,N
donde \overline{h}(x[n], x[n+k]) es una función de autocorrelación de x. La inclinación espectral se puede determinar convenientemente de acuerdo con la siguiente ecuación:
Ts = (Eh/El),
donde Eh y EI son valores de energía de SI[n] y Sh[n] siendo SI y Sh los componentes de paso bajo y paso alto de la trama de voz original S[n], los cuales componentes se pueden generar convenientemente mediante un conjunto de filtro paso bajo y paso alto.
En el paso 302 se realiza análisis LP para crear el residuo predictivo lineal de la trama sorda. El análisis predictivo lineal (LP) se realiza mediante técnicas que son conocidas en la ciencia, como se describe en la antes mencionada Patente U.S. No. 5,414,796 y en Proceso Digital de Señales de Voz 396-453 (1978) de L.B. Rabiner & R.W. Schafer. La muestra N, residuo sordo LP, R[n], donde n=1,2,...,N, se crea a partir de la trama de voz entrante S[n], donde n= 1,2,...,N. Los parámetros LP se cuantifican en el dominio de pareja espectral de línea (LSP) con técnicas de cuantificación LSP conocidas como se describe en cualquiera de las referencias arriba listadas. En la Fig. 5A se representa un gráfico de amplitud de señal de voz original en función de un índice de tiempo discreto. En la Fig. 5B se representa un gráfico de amplitud de señal de voz sorda cuantificada en función de un índice de tiempo discreto. En la Fig. 5C se representa un gráfico de amplitud de señal residuo sorda original en función de un índice temporal discreto. En la Fig. 5D se representa un gráfico de amplitud de envolvente de energía en función de un índice discreto de tiempo. En la Fig. 5E se representa un gráfico de amplitud de señal residuo sorda cuantificada en función de un índice
\hbox{temporal 
discreto. }
E = \frac{1}{N} * \sum\limits^{N}_{m=1} S[m|*S[m|
En el paso 304 se extraen del residuo sordo parámetros de energía con resolución temporal fina. Del residuo sordo R[n] se extrae un número (M) de parámetros de energía local E_{i}, donde i=1,2,3,...,M, mediante la realización de los pasos siguientes. La muestra N de residuo R[n] se divide en M-2 subbloques X_{i}, donde i=1,2,3,...,M-1, teniendo cada bloque X_{i} una longitud L=N/(M-2). El bloque de residuo X_{l} pasada la muestra L se obtiene a partir del residuo cuantificado pasado de la trama previa. (El bloque de residuo X_{l} pasada la muestra L incorpora las últimas L muestras del residuo de muestra N de la última trama de voz). El bloque de residuo futuro X_{M} de muestra L se obtiene a partir del residuo LP de la siguiente trama. (El bloque de residuo futuro X_{M} de muestra L incorpora las primeras L muestras del residuo de muestra N de la próxima trama de voz). Se crea un número de parámetros de energía local E_{i}, donde 1=1,2,...,M, a partir de cada uno de los M bloques X_{i} donde i=1,2,...,M, de acuerdo con la siguiente ecuación:
E_{i} = \frac{1}{L} * \sum\limits^{L}_{m=1} X_{i} [m| * X_{i} [m|
En el paso 306 los parámetros de energía M se codifican con N_{r} bits según un método de cuantificación de vector piramidal (PVQ). Así los M-1 valores de energía local E_{i}, donde i=2,3,...,M, se codifican con N_{r} bits para formar valores cuantificados de energía W_{i}, donde i=2,3,...,M. Se emplea un paso K de esquema de codificación PVQ con bits N_{1}, N_{2},..., N_{k} de manera que N_{1} + N_{2} +...+ N_{k} = N_{r}, el número total de bits disponibles para cuantificar el residuo sordo R[n]. Para cada k etapas, donde k = 1,2,...,K, se realizan los pasos siguientes. Para la primera etapa (es decir k=1), el número de banda se ajusta a B_{k} = B_{1} = 1, y la longitud de banda se fija a L_{k} = 1. Para cada banda B_{k}, el valor medio medio_{j}, donde j=1,2,...,B_{k}, está de acuerdo con la siguiente ecuación:
medio_{j} = \frac{1}{L_{j}} * \sum\limits^{I_{g}}_{m=1} E_{m}
Los B_{k} valores medios medio_{j}, donde j=1,2,...,B_{k}, se cuantifican con N_{k} = N_{1} bits para formar el conjunto cuantificado de valores medios qmedio_{j}, donde j=1,2,...,B_{k}. La energía perteneciente a cada banda B_{k} se divide por el valor medio cuantificado asociado qmedio_{j}, generando un nuevo conjunto de valores de energía {E_{k,i}} = {E_{1,i}}, donde i=1,2,...,M. En el caso de la primera etapa (es decir para k=1) para cada i, donde i=1,2,3,...,M,:
E_{1,i}= E_{i} /qmedio_{1}
El proceso de dividir en subbandas, extraer la media para cada banda, cuantificar la media con bits disponibles para la etapa y luego dividir los componentes de la subbanda por la media cuantificada se repite para cada etapa siguiente k, donde k=2,3,...,K-1.
En la etapa K, los subvectores para cada una de las B_{k} subbandas se cuantifican con VQs diseñados para cada banda, empleando un total de N_{k} bits. El proceso de codificación PVQ para M=8 y la etapa 4 se ilustra por medio de ejemplo en la Fig. 6.
En el paso 308 se forman M vectores cuantificados de energía. Los M vectores cuantificados de energía se forman a partir de libros de claves y los N_{r} bits que representan la información PVQ invirtiendo el proceso de codificación PVQ antes descrito con los subvectores de residuo final y medias cuantificadas. El proceso de decodificación PVQ para M=3 y etapa k=3 se ilustra por medio de ejemplo en la Fig. 7. Como comprenderán aquellos con experiencia en la técnica, se puede cuantificar la ganancia sorda (UV) con cualquier técnica de codificación convencional. El esquema de codificación no necesita restringirse al esquema PVQ de la realización descrita en relación con las Figs. 4-7.
En el paso 310 se forma una envolvente de energía de alta resolución. Se forma una envolvente de energía de alta resolución temporal de N muestras (es decir, la longitud de la trama de voz) ENV[n], donde n=1,2,3,...,N, a partir de los valores decodificados de energía W_{i}, donde i=1,2,3,...,M, de acuerdo con los cálculos descritos más abajo. Los M valores de energía representan las energías de M-2 subtramas del actual residuo de voz, teniendo cada trama una longitud L = N/M. Los valores W_{1} y W_{M} representan la energía de las L muestras pasadas de la última trama de residuo y la energía de las L muestras futuras de la próxima trama de residuo, respectivamente.
Si W_{m-1}, W_{m} y W_{m+1} son representativas de las energías de las subbandas (m-1), m y (m+1), respectivamente, entonces las muestras de la envolvente de energía ENV [n], para n=m*L-L/2 hasta n=m*L+L/2 que representa la trama emésima se calcula como sigue: Para n=m*L-L/2, hasta n=m*L,
ENV [n| = \sqrt{W_{m-1}} + (1/L) * (n-m * L + L) * (\sqrt{W_{m}} - \sqrt{W_{m-1}})
Y para n=m*L hasta n=m*L+L/2,
ENV [n| = \sqrt{W_{m}} + (1/L) * (n-m * L) * (\sqrt{W_{m-1}} - \sqrt{W_{m}})
Los pasos para calcular la envolvente de energía ENV[n] se repiten para cada una de las M-1 bandas, haciendo m=2,3,4,...,M, para estimar la envolvente de energía completa ENV[n], donde n=1,2,...,N para la trama de residuo actual.
En el paso 312 se forma un residuo sordo cuantificado tiñendo ruido aleatorio con la envolvente de energía ENV[n]. El residuo sordo cuantificado qR[n] se forma de acuerdo con la siguiente ecuación:
qR[n] = Ruido[n] * ENV[n], para n=1,2,...,N,
donde Ruido[n] es una señal aleatoria de ruido blanco con varianza unidad, que se genera convenientemente de modo artificial mediante un generador de números aleatorios en sincronismo con el codificador y el decodificador.
En el paso 314 se forma una trama de voz sorda cuantificada. El residuo sordo cuantificado qS[n] se genera por filtrado inverso LP de la voz sorda cuantificada con técnicas convencionales de síntesis LP, tal como es conocido en la técnica y se describe en al antes mencionada Patente U.S. No. 5,414,796 y en Proceso Digital de Señales de Voz 396-453 (1978) de L.B. Rabiner & R.W. Schafer.
En una realización se puede realizar un paso de control de calidad mediante una medición de error porcentual como p. ej., relación porcentual señal-ruido (PSNR), que se define como:
PSNE = 10 * log10 \frac{\sum\limits^{N}_{n=1} (x[n|-e[n|)^{2}}{\sum\limits^{N}_{n=1} e[n| * e[n|}
donde x[n] = h[n]*R[n], y e[n] = h[n]*qR[n], con "*" significando una operación de convolución o filtrado, siendo h[n] un filtro ponderado porcentualmente y siendo R[n] y qR[n], respectivamente, el residuo sordo original y cuantificado. El PSNR se compara con un umbral prefijado. Si el PSNR es menor que el umbral, el esquema de codificación sordo no funciona adecuadamente y se puede aplicar un modo de codificación de mayor velocidad en vez de captar con más precisión la trama actual. Por otra parte, si el PSNR excede el umbral predefinido el esquema de codificación sordo ha funcionado bien y se mantiene el modo de decisión.
Las realizaciones preferidas de la presente invención han sido por tanto mostradas y descritas. No obstante, sería evidente para uno con experiencia corriente en la técnica que al las realizaciones aquí descritas se pueden hacer numerosas alteraciones sin apartarse del alcance de la invención. Por tanto la presente invención no se limita excepto de acuerdo con las siguientes reivindicaciones.

Claims (12)

1. Un método de codificación de segmentos sordos de voz que comprende:
extraer (304) coeficientes de energía de subbandas de una trama de voz;
cuantificar (308) los coeficientes de energía; y
generar (310) una envolvente de energía a partir de los coeficientes de energía cuantificados; caracterizado por:
reconstituir (312) una señal de residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.
2. El método de la reivindicación 1, donde la cuantificación (308) se realiza de acuerdo con un esquema de cuantificación de vector piramidal.
3. El método de la reivindicación 1, donde la generación (310) se lleva a cabo con interpolación lineal.
4. El método de la reivindicación 1, que comprende además obtener una medición de rendimiento postproceso y comparar la medición de rendimiento postproceso con un umbral predeterminado.
5. El método de la reivindicación 1, donde la generación (310) comprende generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras pasadas de una trama previa de residuo.
6. El método de la reivindicación 1, donde la generación (310) comprende generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras futuras de una próxima trama de residuo.
7. Un codificador de voz (10, 16) para codificar segmentos sordos de habla, que comprende:
medios (102, 104, 106) para extraer coeficientes de energía a partir de subbandas de una trama de voz;
medios (110) para cuantificar los coeficientes de energía;
medios para generar una envolvente de energía a partir de los coeficientes de energía cuantificados, caracterizado por
medios (112) para reconstituir una señal residuo mediante conformación de un vector de ruido generado aleatoriamente con valores cuantificados de la envolvente de energía.
8. El codificador de voz de la reivindicación 7, donde los medios (110) para cuantificar comprenden medios para cuantificar de acuerdo con un esquema de cuantificación de vector piramidal.
9. El codificador de voz de la reivindicación 7, donde los medios para generar comprenden un módulo de interpolación lineal.
10. El codificador de voz de la reivindicación 7, que comprende además medios para obtener una medición de rendimiento postproceso y comparar la medición de rendimiento postproceso con un umbral predeterminado.
11. El codificador de voz de la reivindicación 7, donde los medios para generar comprenden medios para generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras pasadas de una trama previa de residuo.
12. El codificador de voz de la reivindicación 7, donde los medios para generar comprenden medios para generar una envolvente de energía que incluye una representación de energía de un número predefinido de muestras futuras de una próxima trama de residuo.
ES99958940T 1998-11-13 1999-11-12 Codificacion a baja velocidad de bit de segmentos de voz sordos. Expired - Lifetime ES2238860T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/191,633 US6463407B2 (en) 1998-11-13 1998-11-13 Low bit-rate coding of unvoiced segments of speech
US191633 1998-11-13

Publications (1)

Publication Number Publication Date
ES2238860T3 true ES2238860T3 (es) 2005-09-01

Family

ID=22706272

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99958940T Expired - Lifetime ES2238860T3 (es) 1998-11-13 1999-11-12 Codificacion a baja velocidad de bit de segmentos de voz sordos.

Country Status (11)

Country Link
US (3) US6463407B2 (es)
EP (1) EP1129450B1 (es)
JP (1) JP4489960B2 (es)
KR (1) KR100592627B1 (es)
CN (2) CN1815558B (es)
AT (1) ATE286617T1 (es)
AU (1) AU1620700A (es)
DE (1) DE69923079T2 (es)
ES (1) ES2238860T3 (es)
HK (1) HK1042370B (es)
WO (1) WO2000030074A1 (es)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6917914B2 (en) * 2003-01-31 2005-07-12 Harris Corporation Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
KR100487719B1 (ko) * 2003-03-05 2005-05-04 한국전자통신연구원 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기
CA2475283A1 (en) * 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Method for recovery of lost speech data
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
RU2426179C2 (ru) * 2006-10-10 2011-08-10 Квэлкомм Инкорпорейтед Способ и устройство для кодирования и декодирования аудиосигналов
AU2007318506B2 (en) * 2006-11-10 2012-03-08 Iii Holdings 12, Llc Parameter decoding device, parameter encoding device, and parameter decoding method
GB2466666B (en) * 2009-01-06 2013-01-23 Skype Speech coding
US20100285938A1 (en) * 2009-05-08 2010-11-11 Miguel Latronica Therapeutic body strap
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
EP3111560B1 (en) 2014-02-27 2021-05-26 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN113627499B (zh) * 2021-07-28 2024-04-02 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation

Also Published As

Publication number Publication date
JP2002530705A (ja) 2002-09-17
US6820052B2 (en) 2004-11-16
ATE286617T1 (de) 2005-01-15
HK1042370B (zh) 2006-09-29
WO2000030074A1 (en) 2000-05-25
US20020184007A1 (en) 2002-12-05
US20050043944A1 (en) 2005-02-24
CN1241169C (zh) 2006-02-08
DE69923079T2 (de) 2005-12-15
US6463407B2 (en) 2002-10-08
EP1129450B1 (en) 2005-01-05
DE69923079D1 (de) 2005-02-10
AU1620700A (en) 2000-06-05
KR20010080455A (ko) 2001-08-22
CN1815558B (zh) 2010-09-29
CN1342309A (zh) 2002-03-27
KR100592627B1 (ko) 2006-06-23
US7146310B2 (en) 2006-12-05
HK1042370A1 (en) 2002-08-09
CN1815558A (zh) 2006-08-09
EP1129450A1 (en) 2001-09-05
JP4489960B2 (ja) 2010-06-23
US20010049598A1 (en) 2001-12-06

Similar Documents

Publication Publication Date Title
ES2238860T3 (es) Codificacion a baja velocidad de bit de segmentos de voz sordos.
RU2351907C2 (ru) Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)
KR100956623B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
JP4927257B2 (ja) 可変レートスピーチ符号化
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
KR100587953B1 (ko) 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
ES2302754T3 (es) Procedimiento y aparato para codificacion de habla sorda.
JP4489959B2 (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
MXPA05000285A (es) Metodo y dispositivo para la senalizacion de atenuacion y rafaga en banda eficiente y operacion maxima a semi-proporcion en codificacion de voz de banda ancha de velocidad de bits variable para sistemas inalambricos de cdma.
ES2253226T3 (es) Codigo interpolativo multipulso de tramas de voz.
ES2255991T3 (es) Metodo y aparato para generacion de numero aleatorios de velocidad un octavo para codificadores de voz.
CA2293165A1 (en) Method for transmitting data in wireless speech channels