ES2256022T3 - Metodos y aparators para submuestreo de la informacion. - Google Patents
Metodos y aparators para submuestreo de la informacion.Info
- Publication number
- ES2256022T3 ES2256022T3 ES00948764T ES00948764T ES2256022T3 ES 2256022 T3 ES2256022 T3 ES 2256022T3 ES 00948764 T ES00948764 T ES 00948764T ES 00948764 T ES00948764 T ES 00948764T ES 2256022 T3 ES2256022 T3 ES 2256022T3
- Authority
- ES
- Spain
- Prior art keywords
- prototype
- phase
- parameters
- amplitude
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 94
- 230000010363 phase shift Effects 0.000 claims abstract description 21
- 238000011002 quantification Methods 0.000 claims description 36
- 238000000354 decomposition reaction Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 239000000203 mixture Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004519 manufacturing process Methods 0.000 claims 14
- 238000012986 modification Methods 0.000 claims 2
- 230000004048 modification Effects 0.000 claims 2
- 239000002131 composite material Substances 0.000 claims 1
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000001228 spectrum Methods 0.000 abstract description 26
- 230000015572 biosynthetic process Effects 0.000 description 18
- 238000003786 synthesis reaction Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 14
- 230000002441 reversible effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 206010011878 Deafness Diseases 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 101150012579 ADSL gene Proteins 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Testing Electric Properties And Detecting Electric Faults (AREA)
Abstract
Un método para procesar un prototipo de una trama en un codificador de voz, comprendiendo el método: producción (602, 606) de una pluralidad de parámetros de fase de un prototipo de referencia; generación (604, 608) de una pluralidad de parámetros de fase del prototipo, caracterizado por: correlación (614) de los parámetros de fase del prototipo con los parámetros de fase del prototipo de referencia en cada una de una pluralidad de bandas de frecuencia.
Description
Método y aparato para submuestreo de la
información.
La presente invención pertenece genéricamente al
campo del proceso de voz, y más específicamente a métodos y aparatos
para submuestreo de la información de espectro de fase a ser
transmitida por un codificador de voz.
La transmisión de voz por técnicas digitales se
ha generalizado, particularmente en aplicaciones de larga distancia
y radioteléfono digital. Esto, a su vez, ha creado interés en
determinar la menor cantidad de información que se puede enviar
sobre un canal mientras se mantiene la calidad percibida de la voz
reconstruida. Si la voz se transmite simplemente por muestreo y
digitalización, se requiere una velocidad de datos del orden de
sesenta y cuatro kilobits por segundo (kbps) para lograr una calidad
de voz de teléfono analógico convencional. Sin embargo, mediante el
uso del análisis de voz, seguido por la adecuada codificación,
transmisión, y resintetización en el receptor, se puede lograr una
reducción importante en la velocidad de datos.
En muchos campos de las telecomunicaciones se
encuentran en uso dispositivos para comprimir voz. Un campo ejemplar
es las comunicaciones inalámbricas. El campo de las comunicaciones
inalámbricas tiene muchas aplicaciones incluyendo, p. ej., teléfonos
inalámbricos, radiobúsqueda, bucles locales inalámbricos, telefonía
inalámbrica como sistemas telefónicos celulares y PCS, telefonía
móvil con Protocolo Internet (IP), y sistemas de comunicación por
satélite. Una aplicación particularmente importante es la telefonía
inalámbrica para abonados móviles.
Se han desarrollado diversas interfases en el
aire para sistemas inalámbricos de comunicación incluyendo, p. ej.,
acceso múltiple por división de frecuencia (FDMA), acceso múltiple
por división de tiempo (TDMA), y acceso múltiple por división de
código (CDMA). En conexión con esto, se han establecido diversos
estándares internos e internacionales incluyendo, p. ej., Servicio
Telefónico Móvil Avanzado (AMPS), Sistema Global para Comunicaciones
Móviles (GSM), y Estándar Provisional 95 (IS - 95). Un sistema de
comunicación ejemplar de telefonía la inalámbrica es un sistema de
acceso múltiple por división de código (CDMA). El estándar
IS-95 y sus derivados, IS - 95A, ANSI
J-STD-008, IS - 95B, propuesta de
estándares de tercera generación IS - 95C e IS - 2000, etc. (aquí
denominados colectivamente como IS - 95), se promulgaron por la
Asociación de Industrias de Telecomunicación (TIA) y otros cuerpos
de estándares bien conocidos para especificar el uso de una
interfase CDMA en-el-aire para
sistemas de comunicación telefónica celular o PCS. Sistemas
ejemplares de comunicación inalámbrica configurados
substancialmente de acuerdo con el uso del estándar
IS-95 se describen en las patentes U.S. Nos.
5,103,459 y 4,901,307, que están asignadas al cesionario de la
presente invención.
Los dispositivos que emplean técnicas para
comprimir voz extrayendo parámetros que la relacionan con el modelo
de humano de generación de voz se llaman codificadores de voz. Un
codificador de voz divide la señal de voz entrante en bloques de
tiempo, o tramas de análisis. Los codificadores de voz típicamente
comprenden un codificador y un decodificador. El codificador
analiza la trama de voz entrante para extraer ciertos parámetros
relevantes, y entonces cuantifica los parámetros en representación
binaria, es decir, en un conjunto de bits o un paquete de datos
binarios. Los paquetes de datos se transmiten sobre el canal de
comunicación a un receptor y un decodificador. El decodificador
procesa los paquetes de datos, los descuantifica para producir los
parámetros, y resintetiza las tramas de voz usando los parámetros
descuantificados.
La función del codificador de voz es comprimir la
señal digitalizada de voz en una señal de baja velocidad de bit
quitando todas las redundancias naturales inherentes a la voz. La
compresión digital se logra representando la trama de voz entrante
con un conjunto de parámetros y empleando cuantificación para
representar los parámetros con un conjunto de bits. Si la trama de
voz entrante tiene un número de bits N_{i} y los paquetes de datos
producidos por el codificador de voz tienen un número de bits
N_{o}, el factor de compresión logrado por el codificador de voz
es C_{r} = N_{i}/N_{o}. El reto es mantener alta calidad de
voz de la voz decodificada al tiempo que se logra el factor de
compresión objetivo. El funcionamiento de un codificador de voz
depende de (1) cómo funciona el modelo de voz, o la combinación del
proceso de síntesis y análisis descritos arriba, y (2) cómo se
realiza el proceso de cuantificación de parámetros a la velocidad de
bit objetivo de N_{o} bits por trama. La meta del modelo de voz es
por tanto capturar la esencia de la señal de voz, o la calidad de
voz objetivo, con un conjunto pequeño de parámetros para cada
trama.
Quizás lo más importante en el diseño de un
codificador de voz es la búsqueda un buen conjunto de parámetros
(incluyendo vectores) para describir la señal de voz. Un buen
conjunto de parámetros requiere una bajo ancho de banda de sistema
para la reconstrucción de una señal de voz perceptivamente precisa.
El tono, la potencia de señal, la envolvente espectral, (o
formantes), los espectros de amplitud, y los espectros de fase son
ejemplos de parámetros de codificación de voz.
Los codificadores de voz pueden implementarse
como codificadores en el dominio temporal, que intentan captar la
forma de onda de voz en el dominio del tiempo empleando
procesamiento de alta resolución en el tiempo para codificar
pequeños segmentos de voz (típicamente subtramas de 5 milisegundos
(ms)) por vez. Para cada subtrama, se encuentra a partir de un
espacio de libro de claves una forma representativa de alta
precisión por medio de diversos algoritmos de búsqueda conocidos en
la técnica. Alternativamente, los codificadores de voz pueden
implementarse como codificadores en el dominio de frecuencia, que
intentan captar el espectro de voz a corto plazo de la trama de voz
entrante con un conjunto de parámetros (análisis) y emplea un
proceso de síntesis correspondiente para recrear la forma de onda de
voz a partir de los parámetros espectrales. El cuantificador de
parámetros conserva los parámetros representándolos con
representaciones almacenadas de vectores de código según conocidas
técnicas de cuantificación descritas en A. Gersho & R.M. Gray,
Cuantificación Vectorial y Compresión de Señal (1992).
Un bien conocido codificador de voz en el dominio
del tiempo es el codificador Lineal Predictivo Activado por Código
(CELP) descrito en L. B. Rabiner & R.W. Schafer, Procesamiento
Digital de Señales de Voz 396-453 (1978). En un
codificador CELP, las correlaciones a corto plazo, o redundancias,
en la señal de voz son eliminadas mediante análisis predictivo
lineal (LP), que encuentra los coeficientes de un filtro formante a
corto plazo. Aplicando el filtro de predicción a corto plazo a la
trama entrante de voz se genera una señal residuo LP, que es
adicionalmente modelada y cuantificada con parámetros de filtro de
predicción a largo plazo y un subsiguiente libro de claves
estocástico. Por tanto, la codificación CELP divide la tarea de
codificación de la forma de onda de voz en el dominio del tiempo en
tareas separadas de codificar coeficientes de filtro LP a corto
plazo y codificar el residuo LP. La codificación en el dominio del
tiempo puede realizarse a una velocidad fija (es decir, usando el
mismo número de bits, N_{o}, para cada trama) o a una velocidad
variable (en que las distintas velocidades de bit se usan para tipos
diferentes de contenidos de trama). Los codificadores de velocidad
variable intentan usar solo la cantidad de bits necesaria para
codificar los parámetros del codec a un nivel adecuado para obtener
una calidad objetivo. Un ejemplar de codificador CELP de velocidad
variable se describe en la Patente de EE.UU. No. 5,414,796, que se
asigna al cesionario de la presente la invención.
Los codificadores en el dominio del tiempo como
el codificador CELP típicamente se basan en un número alto de bits,
N_{o}, por trama para conservar la exactitud forma de onda de voz
del dominio del tiempo. Tales codificadores típicamente entregan voz
de óptima calidad suponiendo que el número de bits, N_{o}, por la
trama es relativamente grande (p. ej., 8 kbps o más). Sin embargo, a
bajas velocidades de bit (4 kbps y menos), los codificadores en el
dominio del tiempo fallan en mantener una calidad alta y un
funcionamiento robusto debido al número limitado de bits
disponibles. A baja velocidad de bit, el limitado espacio de libro
de claves recorta la capacidad de emparejamiento de forma de onda de
codificadores convencionales en el dominio del tiempo, que tan
exitosamente se utilizan en aplicaciones comerciales de mayor
velocidad. Por esto, a pesar de las mejoras en el tiempo, muchos
sistemas de codificación CELP que operan a baja velocidad de bit
sufren de distorsión perceptivamente importante típicamente
caracterizada como ruido.
Hay actualmente una ola de interés investigador y
una fuerte necesidad comercial de desarrollar un codificador de alta
calidad operando a velocidades de bit de medias a bajas (es decir,
en el rango de 2.4 a 4 kbps y menor). Las áreas de aplicación
incluyen telefonía inalámbrica, comunicaciones por satélite,
telefonía por Internet, diversas aplicaciones multimedia y de audio
sin descarga, correo vocal, y otros sistemas de almacenaje de voz.
Las fuerzas impulsoras son la necesidad de alta capacidad y la
demanda de funcionamiento robusto bajo situaciones de pérdida de
paquetes. Varios esfuerzos recientes de estandarización de
codificación de voz son otra fuerza impulsora directa propulsando la
investigación y desarrollo de algoritmos de codificación de voz de
baja velocidad. Un codificador de voz de baja velocidad crea más
canales, o usuarios, por ancho de banda de aplicación admisible, y
un codificador de voz de baja velocidad acoplado con una capa
adicional de codificación de canal apropiada puede ajustar la cuenta
total de bits de especificaciones de codificador y entregar un
funcionamiento robusto bajo condiciones de error de canal.
Una técnica efectiva para codificar voz
eficientemente a baja velocidad de bit es la codificación multimodo.
Una técnica ejemplar de codificación multimodo se describe en la
Patente de EE.UU. No. 6,691,084, titulada "Codificación de voz a
velocidad variable", asignada al cesionario de la presente
invención. Los codificadores convencionales multimodo aplican
diferentes modos, o algoritmos de
codificación-decodificación, a tipos diferentes de
tramas de voz entrantes. Cada modo, o proceso de
codificación-decodificación se personaliza para
representar óptimamente un cierto tipo de segmento de voz, como, p.
ej., voz hablada, voz sorda, voz de transición (p. ej., entre
hablada y sorda), y ruido de fondo (sin voz) en la manera más
eficiente. Un mecanismo de decisión externo en modo de bucle abierto
examina la trama vocal entrante y toma una decisión con respecto a
qué modo aplicar a la trama. La decisión en modo bucle abierto se
realiza típicamente extrayendo varios parámetros de la trama
entrante, evaluando los parámetros con respecto a cierta
características temporales y espectrales, y basando una decisión de
modo en la evaluación.
Los sistemas de codificación que operan a
velocidad del orden de 2.4 kbps son generalmente paramétricos por
naturaleza. Esto es, estos sistemas de codificación operan
transmitiendo parámetros que describen el período de tono y la
envolvente espectral (o formantes) de la señal de voz a intervalos
regulares. El sistema vocodificador LP es ilustrativo de estos así
llamados codificadores paramétricos.
Los vocodificadores LP modelan una señal de voz
hablada con un pulso único por período de tono. Esta técnica básica
puede ser aumentada para incluir información de transmisión sobre la
envolvente espectral, entre otras cosas. Aunque los vocodificadores
LP proporcionan un funcionamiento generalmente razonable, pueden
introducir distorsión perceptivamente significativa, típicamente
caracterizada como zumbido.
En años recientes, han surgido codificadores que
son híbridos de ambos codificadores de forma de onda y codificadores
paramétricos. Ilustrativo de estos llamado codificadores híbridos es
el llamado sistema de codificación de voz de interpolación de forma
de onda prototipo (PWI). El sistema de codificación PWI puede
también ser conocido como codificador de voz de periodo de tono
prototipo (PPP) . Un sistema de codificación PWI proporciona un
método eficiente para codificar voz hablada. El concepto básico de
PWI está en extraer un ciclo representativo de tono (la forma de
onda prototipo) a intervalos fijos, para transmitir su descripción,
y para reconstruir la señal de voz interpolando entre las formas de
onda prototipo. El método PWI puede operar sobre la señal residual
LP o sobre la señal de voz. Un codificador de voz PWI o PPP ejemplar
se describe en la Patente de EE.UU. No. 6,456,964 titulada
"Codificación de voz periodica", asignada al cesionario de la
presente invención. Otros codificadores de voz PWI, o PPP se
describen en la patente U.S. No. 5,884,253 y en W. Bastiaan Kleijn
& Wolfgang Granzow Métodos para Interpolación de Forma de
Onda en Codificación de Voz, en 1 Proceso de Señal Digital
215-230 (1991).
En muchos codificadores de voz convencionales,
los parámetros de fase de un prototipo determinado de tono son cada
uno individualmente cuantificados y transmitidos por el codificador.
Alternativamente, los parámetros de fase pueden ser cuantificados
como vector a fin de conservar ancho de banda. Sin embargo, en un
codificador de voz de baja velocidad, es ventajoso transmitir el
menor número posible de bits para mantener una calidad satisfactoria
de voz. Por esta razón, en algunos codificadores convencionales de
voz, los parámetros de fase no pueden transmitirse por el
codificador de ninguna manera, y el decodificador puede o no usar
las fases para la reconstrucción, o usar un conjunto de parámetros
de fase fijos almacenados. En ambos casos la calidad de voz
resultante puede degradarse. Por tanto, sería deseable proporcionar
un codificador de voz de baja velocidad que reduzca el número de
elementos necesarios para transmitir la información de espectro de
fase desde el codificador al decodificador, transmitiendo así menos
información de fase. Por tanto, hay una necesidad de un codificador
de voz que transmita menos parámetros de fase por trama.
La Patente US No. 5,884,253 describe un sistema
de codificación de voz que proporciona voz hablada reconstruida con
una forma de onda de ciclo de tono suavemente envolvente. Una señal
de voz se representa aislando y codificando formas de onda
prototipo. Cada forma de onda prototipo es un ciclo de tono ejemplar
de voz hablada. Una forma de onda prototipo codificada se transmite
a intervalos regulares a un receptor que sintetiza (o reconstruye)
una estimación del segmento original de voz basado en los
prototipos. La estimación de la señal original de voz es
proporcionada por un proceso de interpolación de prototipo que
proporciona una evolución suave en el tiempo de formas de onda de
ciclo de tono en la voz reconstruida. Una trama de voz original es
codificada primero filtrando la trama con un filtro predictivo
lineal y se identifica y extrae un ciclo de tono como forma de onda
prototipo. La forma de onda prototipo se representa entonces como un
conjunto de coeficientes de series de Fourier (dominio de
frecuencia). El período de tono y los coeficientes de Fourier del
prototipo, así como también los parámetros del filtro predictivo
lineal, se usan para representar una trama de voz original. Estos
parámetros son codificados por cuantificación vectorial y escalar y
se comunican sobre un canal a un receptor que usa la información que
representa dos tramas consecutivas para reconstruir la anterior de
las dos de tramas con base en un proceso de interpolación continuo
de forma de onda prototipo. La interpolación de forma de onda puede
combinarse con técnicas convencionales CELP para codificar porciones
sordas de la señal original de voz.
La presente invención va dirigida a un
codificador de voz que transmite menos parámetros de fase por trama.
Consiguientemente, en un de aspecto de la invención, un método para
procesar un prototipo de una trama en un codificador de voz incluye
convenientemente producir una pluralidad de parámetros de fase de un
prototipo de referencia, generar una pluralidad de parámetros de
fase del prototipo, y correlacionar los parámetros de fase del
prototipo con los parámetros de fase del prototipo de referencia en
cada una de una pluralidad de bandas de frecuencia.
En otro aspecto de la invención, un método para
procesar un prototipo de una trama en un codificador de voz incluye
convenientemente producir una pluralidad de parámetros de fase de un
prototipo de referencia, generar una pluralidad valores lineales de
desplazamiento de fase asociados con el prototipo, y componer un
vector de fase a partir de los parámetros de fase y de los valores
lineales de desplazamiento de fase a través de cada una de una
pluralidad de bandas de frecuencia.
En otro aspecto de la invención, un método para
procesar un prototipo de una trama en un codificador de voz incluye
convenientemente producir una pluralidad de valores circulares de
rotación asociados con el prototipo, generar una pluralidad de
formas de onda pasabanda en cada una de una pluralidad de bandas de
frecuencia, la pluralidad de formas de onda pasabanda estando
asociada con una pluralidad de parámetros de fase de un prototipo
de referencia, y modificar la pluralidad de formas de onda pasabanda
en cada una de la pluralidad de bandas de frecuencia basado en la
pluralidad de valores circulares de rotación.
En otro aspecto de la invención, un codificador
de voz incluye ventajosamente medios para producir una pluralidad de
parámetros de fase de un prototipo de referencia de una trama,
medios para generar una pluralidad de parámetros de fase de un
prototipo actual de una trama actual, y medios para correlacionar
los parámetros de fase del prototipo actual con los parámetros de
fase del prototipo de referencia en cada una de una pluralidad de
bandas de frecuencia.
En otro aspecto de la invención, un codificador
de voz incluye ventajosamente medios para producir una pluralidad de
parámetros de fase de un prototipo de referencia de una trama,
medios para generar una pluralidad lineal valores de desplazamiento
de fase asociados con un prototipo actual de una trama actual, y
medios para componer un vector de fase a partir de los parámetros de
fase y los valores de desplazamiento de fase a través de cada una de
una pluralidad de bandas de frecuencia.
En otro aspecto de la invención, un codificador
de voz ventajosamente incluye medios para producir una pluralidad de
valores circulares de rotación asociados con un prototipo actual de
una trama actual, medios para generar una pluralidad formas de onda
pasabanda en cada una de una pluralidad de bandas de frecuencia, la
pluralidad de formas de onda pasabanda estando asociada con una
pluralidad de parámetros de fase de un prototipo de referencia de
una trama, y medios para modificar la pluralidad de formas de onda
pasabanda en cada una de la pluralidad de bandas de frecuencia
basado en la pluralidad de valores circulares de rotación.
La Fig. 1 es un diagrama de bloques de un sistema
de teléfono inalámbrico.
La Fig. 2 es un diagrama de bloques de un canal
de comunicación terminado en cada extremo por codificadores de
voz.
La Fig. 3 es un diagrama de bloques de un
codificador.
La Fig. 4 es un diagrama de bloques de un
decodificador.
La Fig. 5 es un diagrama de flujo que ilustra un
proceso de decisión de codificación de voz.
La Fig. 6A es un diagrama de amplitud de señal de
voz en función del tiempo, y la Fig. 6B es un diagrama de amplitud
de residuo de predicción lineal (LP) en función del tiempo.
La Fig. 7 es un diagrama de bloques de un
codificador de voz de periodo de tono prototipo.
La Fig. 8 es un diagrama de bloques de un
cuantificador de prototipo que puede usarse en el codificador de voz
de la Fig. 7.
La Fig. 9 es un diagrama de bloques de un
descuantificador de prototipo que puede usarse en el codificador de
voz de la Fig. 7.
La Fig. 10 es un diagrama de bloques de un
descuantificador de prototipo que puede usarse en el codificador de
voz de la Fig. 7.
Las realizaciones ejemplares descritas en lo que
sigue radican en un sistema inalámbrico de comunicación telefónica
configurado para emplear una interfase aérea CDMA. No obstante, se
entenderá por aquellos con experiencia en la técnica que un método y
aparato de submuestreo que incluye los aspectos de la invención
inmediata pueden incluirse en cualquiera de los diversos sistemas
de comunicación que emplean una gama amplia de tecnologías conocidas
por aquellos con experiencia en la técnica.
Como se ilustra en la Fig. 1, un sistema
telefónico inalámbrico CDMA genéricamente incluye una pluralidad de
unidades móviles de abonado 10, una pluralidad de estaciones base
12, controladores de estación base (BSCs) 14, y un centro conmutador
móvil (MSC) 16. El MSC 16 se configura para tener interfase con una
red telefónica convencional pública conmutada (PSTN) 18. El MSC 16
también se configura para tener interfase con las BSCs 14. Las BSCs
14 se acoplan a las estaciones base 12 por medio de líneas de
retroceso. Las líneas de retroceso pueden configurarse para soportar
cualquiera de varios interfases conocidos incluyendo, p. ej., E1/T1,
ATM, IP, PPP, Repetidor de Trama, HDSL, ADSL, o xDSL. Se entiende
que puede haber más de dos BSCs 14 en el sistema. Cada estación
base 12 incluye convenientemente por lo menos un sector (no
mostrado), cada sector comprende una antena omnidireccional o una
antena que apunta en una dirección particular separada radialmente
de la estación base 12. Alternativamente, cada sector poder
comprender dos antenas para diversidad de recepción. Cada estación
base 12 puede diseñarse convenientemente para soportar una
pluralidad de asignaciones de frecuencia. La intersección de un
sector y de una asignación de frecuencia puede denominarse como
canal CDMA. Las estaciones base 12 pueden también ser conocidas como
subsistemas transceptores de estación base (BTSs) 12.
Alternativamente, "estación base" puede usarse en la industria
para referirse colectivamente a una BSC 14 y una o más BTSs 12. Las
BTSs 12 puede también se denominan "sitios de célula" 12.
Alternativamente, los sectores individuales de una BTS determinada
12 pueden denominarse como sitios de célula. Las unidades móviles de
abonado 10 son típicamente teléfonos celulares o PCS 10. El sistema
se configura convenientemente para su uso según el Estándar
IS-95.
Durante el funcionamiento típico del sistema
telefónico celular, las estaciones base 12 reciben conjuntos de
señales de enlace ascendente desde conjuntos de unidades móviles 10.
Las unidades móviles 10 mantienen llamadas telefónicas u otras
comunicaciones. Cada señal de enlace ascendente recibida por una
determinada estación base 12 se procesa dentro de esa estación base
12. Los datos resultantes se remiten a la BSC 14. La BSC 14
proporciona asignación de recursos de llamada y funcionalidad de
gestión de movilidad incluyendo la organización de traspasos suaves
entre las estaciones base 12. La BSC 14 también encamina los datos
recibidos al MSC 16, que proporciona servicios adicionales de
enrutamiento para el interfase con la PSTN 18. Igualmente, la PSTN
18 tiene interfases con el MSC 16, y el MSC 16 tiene interfases con
la BSC 14, que a su vez controla la estaciones base 12 para
transmitir conjuntos de señales de enlace ascendente a conjuntos de
unidades móviles 10.
En la Fig. 2 un primer codificador 100 recibe
muestras de voz digitalizada s(n) y codifica las muestras
s(n) para su transmisión sobre un medio de transmisión 102, o
canal de comunicación 102, a un primer decodificador 104. El
decodificador 104 decodifica las muestras de voz codificadas y
sintetiza una señal de voz de salida S_{SYNTH}(n). Para la
transmisión en la dirección opuesta, un segundo codificador 106
codifica muestras de voz digitalizada s(n), que se transmiten
sobre un canal de comunicación 108. Un segundo decodificador 110
recibe y decodifica las muestras de voz codificadas, generando una
señal de salida de voz sintetizada S_{SYNTH}(n).
Las muestras de voz s(n) representan
señales de voz que se han digitalizado y cuantificado de conformidad
con cualquiera de los diversos métodos conocidos en la técnica
incluyendo, p. ej., modulación de código de impulso (PCM), ley \mu
o ley A comprimida expandida. Como es conocido en la técnica, la
muestras de voz s(n) se organizan en tramas de datos
entrantes donde cada trama comprende un número predeterminado de
muestras de voz digitalizada
s(n). En una realización ejemplar, se emplea un valor de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más adelante, el valor de transmisión de datos puede variarse convenientemente sobre la base de trama a trama desde 13.2 kbps (valor total) a 6.2 kbps (valor medio) a 2.6 kbps (valor cuarto) a 1 kbps (valor octavo). Variar la velocidad de transmisión de datos es ventajoso porque se puede emplear selectivamente una velocidad de bit inferior para tramas que contienen relativamente menos información de voz. Como se entenderá por aquellos con experiencia en la técnica, pueden usarse otras velocidades de muestreo, tamaños de trama, y velocidades de transmisión de datos.
s(n). En una realización ejemplar, se emplea un valor de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más adelante, el valor de transmisión de datos puede variarse convenientemente sobre la base de trama a trama desde 13.2 kbps (valor total) a 6.2 kbps (valor medio) a 2.6 kbps (valor cuarto) a 1 kbps (valor octavo). Variar la velocidad de transmisión de datos es ventajoso porque se puede emplear selectivamente una velocidad de bit inferior para tramas que contienen relativamente menos información de voz. Como se entenderá por aquellos con experiencia en la técnica, pueden usarse otras velocidades de muestreo, tamaños de trama, y velocidades de transmisión de datos.
El primer codificador 100 y el segundo
decodificador 110 juntos comprenden un primer codificador de voz, o
codec de voz. El codificador de voz podría usarse en cualquier
dispositivo de comunicación para transmitir señales de voz,
incluyendo, p. ej., las unidades de abonado, BTSs, o BSCs descritas
arriba con referencia a la Fig. 1. Igualmente, el segundo
codificador 106 y el primer decodificador 104 juntos comprenden un
segundo codificador de voz. Se entiende por aquellos con experiencia
en la técnica que esos codificadores de voz pueden implementarse con
un procesador digital de señal (DSP), un circuito integrado de
aplicación específica (ASIC), lógica de puertas discretas,
microprogramación, o cualquier módulo convencional de software
programable y un microprocesador. El módulo de software podría
radicar en memoria RAM, memoria flash, registros, o cualquier otra
forma de medio grabable de almacenaje conocido en la técnica.
Alternativamente, cualquier procesador convencional, controlador, o
máquina de estados podría sustituirse por el microprocesador. La
patente US No. 5,727,123, asignada al cesionario de la presente
invención, y la patente US No. 5,784,532, asignada al cesionario de
la presente invención, describen ASICs ejemplares diseñados
específicamente para codificación de voz.
En la Fig. 3 un codificador 200 que puede usarse
en un codificador de voz incluye un módulo de decisión de modo 202,
un módulo de estimación de tono 204, un módulo de análisis LP 206,
un filtro de análisis LP 208, un módulo de cuantificación LP 210, y
un módulo de cuantificación de residuo 212. Se proporcionan tramas
de voz entrantes s(n) al módulo de decisión de modo 202, al
módulo de estimación de tono 204, al módulo de análisis LP 206, y al
filtro de análisis LP 208. El módulo de decisión de modo 202 produce
un índice de modo I_{M} y un modo M basados en la periodicidad, la
energía, la relación señal - ruido (SNR), o la tasa de cruce por
cero, entre otros aspectos, de cada trama de voz entrante
s(n). En la patente U.S. No. 5,911,128, asignada al
cesionario de la presente invención, se describen diversos métodos
para clasificar tramas de voz según su periodicidad. Tales métodos
se incorporan también en los Estándares Provisionales de la
Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y
TIA/EIA IS - 733. Un esquema ejemplar de modo de decisión se
describe también en la antes citada patente U.S. No. 6,691,084.
El módulo de estimación de tono 204 produce un
índice de tono I_{P} y un valor de retardo P_{0} basados en cada
trama de voz entrante s(n). El módulo de análisis LP 206
realiza análisis predictivo lineal sobre cada trama de voz entrante
s(n)
para generar un parámetro LP a. El parámetro LP a se proporciona al módulo de cuantificación LP 210. El módulo de cuantificación LP 210 también recibe el modo M, realizando por medio de eso el proceso de cuantificación de una manera modo - dependiente. El módulo de cuantificación LP 210 produce un índice LP I_{LP} y un parámetro cuantificado LP \hat{a}. El filtro de análisis LP 208 recibe el parámetro cuantificado LP \hat{a} además de la trama de voz entrante s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], que representa el error entre las tramas de voz entrantes s(n) y la voz reconstruida basándose en los parámetros pronosticados lineales cuantificados \hat{a}. El residuo LP R[n], el modo M, y el parámetro cuantificado LP \hat{a} se proporcionan al módulo de cuantificación de residuo 212. Basado en estos valores, el módulo de cuantificación de residuo 212 produce un índice de residuo I_{R} y una señal de residuo cuantificada \hat{R}[n].
para generar un parámetro LP a. El parámetro LP a se proporciona al módulo de cuantificación LP 210. El módulo de cuantificación LP 210 también recibe el modo M, realizando por medio de eso el proceso de cuantificación de una manera modo - dependiente. El módulo de cuantificación LP 210 produce un índice LP I_{LP} y un parámetro cuantificado LP \hat{a}. El filtro de análisis LP 208 recibe el parámetro cuantificado LP \hat{a} además de la trama de voz entrante s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], que representa el error entre las tramas de voz entrantes s(n) y la voz reconstruida basándose en los parámetros pronosticados lineales cuantificados \hat{a}. El residuo LP R[n], el modo M, y el parámetro cuantificado LP \hat{a} se proporcionan al módulo de cuantificación de residuo 212. Basado en estos valores, el módulo de cuantificación de residuo 212 produce un índice de residuo I_{R} y una señal de residuo cuantificada \hat{R}[n].
En la Fig. 4 un decodificador 300 que puede
usarse en un codificador de voz incluye un módulo de decodificación
de parámetro LP 302, un módulo de decodificación de residuo 304, un
módulo de decodificación de modo 306, y un filtro de síntesis LP
308. El módulo de decodificación de modo 306 recibe y decodifica un
índice de modo I_{M}, generando a partir del mismo un modo M. El
módulo de decodificación de parámetro LP 302 recibe el modo M y un
índice LP I_{LP}. El módulo de decodificación de parámetro LP 302
decodifica los valores recibidos para producir un parámetro
cuantificado LP \hat{a}. El módulo de decodificación de
residuo 304 recibe un índice de residuo I_{R}, un índice de tono
I_{P}, y el índice de modo I_{M}. El módulo de decodificación de
residuo 304 decodifica los valores recibidos para generar una señal
cuantificada de residuo \hat{R}[n]. La señal
cuantificada de residuo \hat{R}[n] y el parámetro
cuantificado LP \hat{a} se proporcionan al filtro de
síntesis LP 308, que a partir de ahí sintetiza una señal de voz de
salida decodificada \hat{s}[n].
El funcionamiento e implementación de los
diversos módulos del codificador 200 de la Fig. 3 y del
decodificador 300 de la Fig. 4 se conocen en la técnica y se
describen en la antes citada patente U.S. No. 5,414,796 y en L.B.
Rabiner & R.W. Schafer, Procesamiento Digital de Señales de
Voz 396-453 (1978).
Como se ilustra en el diagrama de flujo de la
Fig. 5, un codificador de voz de acuerdo con una realización sigue
un conjunto de pasos en el procesamiento de muestras de voz para
transmisión. En el paso 400 el codificador de voz recibe muestras
digitales de una señal de voz en tramas sucesivas. Tras recibir una
trama determinada, el codificador de voz continua hasta el paso 402.
En el paso 402 el codificador de voz detecta la energía de la
trama. La energía es una medida de la actividad vocal de la trama.
La detección de voz se realiza sumando los cuadrados de las
amplitudes de las muestras digitalizadas de voz y comparando la
energía resultante con un valor umbral. En una realización, el valor
de umbral se adapta basándose en el nivel cambiante de ruido de
fondo. Un detector de actividad de voz de umbral variable ejemplar
se describe en la antes citada patente U.S. No. 5,414,796. Algunos
sonidos sordos de voz pueden ser muestras de energía sumamente baja
que pueden ser codificados erróneamente como ruido de fondo. Para
impedir esto, la inclinación espectral de muestras de baja energía
puede usarse para distinguir la voz sorda del ruido de fondo, como
se describe en la antes citada patente U.S. No. 5,414,796.
Después de detectar la energía de la trama, el
codificador de voz continúa hasta el paso 404. En el paso 404 el
codificador de voz determina si la energía detectada de trama es
suficiente para clasificar la trama como las que contienen
información de voz. Si la energía detectada de trama cae por debajo
de un nivel umbral predefinido, el codificador de voz continúa hasta
el paso 406. En el paso 406 el codificador de voz codifica la trama
como ruido de fondo (es decir, sin voz, o silencio). En una
realización la trama de ruido de fondo se codifica a una velocidad
1/8, o 1 kbps. Si en el paso 404 la energía detectada de trama
alcanza o excede el nivel de umbral predefinido, la trama se
clasifica como voz y el codificador de voz continúa hasta el paso
408.
En el paso 408 el codificador de voz determina si
la trama es voz sorda, es decir, el codificador de voz examina la
periodicidad de la trama. Los diversos métodos conocidos de
determinación de periodicidad incluyen, p. ej., el uso de cruces por
cero y el uso de funciones de autocorrelación normalizadas (NACFs).
En particular, el uso de cruces por cero y de NACFs para detectar la
periodicidad se describe en la antes citada patente U.S. No.
5,911,128 y en la patente U.S. No. 6,691,084. Además, los anteriores
métodos usados para distinguir voz hablada de voz sorda se
incorporan en los Estándares Provisionales de la Asociación de
Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS - 733.
Si se determina que la trama es voz sorda en el paso 408, el
codificador de voz continúa hasta el paso 410. En el paso 410 el
codificador de voz codifica la trama como voz sorda. En una
realización, las tramas de voz sorda son codificadas a velocidad un
cuarto, o 2.6 kbps. Si en el paso 408 la trama no es determinada
como voz sorda, el codificador de voz continúa hasta el paso
412.
En el paso 412 el codificador de voz determina si
la trama es voz transicional, usando los métodos de detección de
periodicidad que se conocen en la técnica, como los descritos en, p.
ej., la antes citada patente U.S. No. 5,911,128. Si la trama se
determina que es voz transicional, el codificador de voz continúa
hasta el paso 414. En el paso 414 la trama se codifica como voz de
transición (es decir, transición desde voz sorda a voz hablada). En
una realización, la trama de voz de transición se codifica de
acuerdo con un método de codificación interpolativo multipulso
descrito en la patente U.S. No. 6,260,017, titulada "Codificación
interpolativa multipulso de tramas de voz de transicion",
asignada al cesionario de la presente invención. En otra realización
la trama de voz de transición se codifica a velocidad plena, o 13.2
kbps.
Si en el paso 412 el codificador de voz determina
que la trama no es voz transicional, el codificador de voz continúa
hasta el paso 416. En el paso 416 el codificador de voz codifica la
trama como voz hablada. En una realización las tramas de voz pueden
ser codificadas a velocidad mitad, o 6.2 kbps. Es también posible
codificar tramas de voz hablada a velocidad total, o 13.2 kbps (o
velocidad total, 8 kbps, en un codificador CELP 8k). Aquellos con
experiencia en la técnica apreciarán, sin embargo, que codificando
las tramas habladas a velocidad mitad permite al codificador ahorrar
un valioso ancho de banda explotando la naturaleza constante de las
tramas habladas. Adicionalmente, sin considerar la velocidad usada
para codificar la voz hablada, la voz hablada se codifica
ventajosamente usando información de tramas pasadas, y de aquí se
dice codificada predictivamente.
Aquellos con experiencia apreciarán que la señal
de voz o el correspondiente residuo LP pueden codificarse siguiendo
los pasos mostrados en la Fig. 5. Las características de forma de
onda de ruido, pueden verse como una función del tiempo en el
diagrama de la Fig. 6A. Las características de forma de onda de
ruido, de residuo LP sordo, de transición, y hablado puede verse
como una función del tiempo en el diagrama de la Fig. 6B.
En una realización un codificador de voz de
período de tono prototipo (PPP) 500 incluye un filtro inverso 502,
un extractor de prototipo 504, un cuantificador de prototipo 506, un
descuantificador de prototipo 508, un módulo de
interpolación/síntesis 510, y un módulo de síntesis LPC 512, como se
ilustra en la Fig. 7. El codificador de voz 500 puede implementarse
ventajosamente como parte de un DSP, y puede radicar en p. ej., una
unidad de abonado o estación base en un PCS o sistema celular
telefónico o en una unidad de abonado o en una unidad de acceso de
sistema de satélite.
En el codificador de voz 500, una señal
digitalizada de voz s(n), donde n es el número de trama, se
proporciona al filtro inverso LP 502. En una realización particular,
la longitud de trama es de veinte ms. La función de transferencia
del filtro inverso A(z) se calcula según la ecuación
siguiente:
A(z) = 1
- a_{1} z^{-1} - a_{2} z^{-2} ...a_{p}
z^{-p},
donde los coeficientes a_{1} son
las etapas de filtro con valores predefinidos elegidos según métodos
conocidos, como el descrito en la antes citada patente U.S. No.
5,414,796 y patente U.S. No. 6,456,964. El número p indica el número
de muestras previas que el filtra inverso LP 502 usa para fines de
predicción. En una realización particular, p se fija en
diez.
El filtro inverso 502 proporciona una señal
residual LP r(n) al extractor de prototipo 504. El extractor
de prototipo 504 extrae un prototipo a partir de la trama actual. El
prototipo es una porción de la trama actual que será interpolado
linealmente por el módulo de interpolación/síntesis 510 con
prototipos de tramas previas que estaban ubicadas de forma similar
dentro de la trama a fin de reconstruir la señal residual LP en el
decodificador.
El extractor de prototipo 504 proporciona el
prototipo al cuantificador de prototipo 506, que cuantifica el
prototipo según una técnica descrita más adelante con referencia a
la Fig. 8. Los valores cuantificados, que pueden ser obtenidos a
partir de una tabla de búsqueda (no mostrada), se ensamblan en un
paquete, que incluye retardo y otros parámetros de libro de claves,
para su transmisión sobre el canal. El paquete se proporciona a un
transmisor (no mostrado) y se transmite sobre el canal al receptor
(asimismo no mostrado). El filtro inverso LP 502, el extractor de
prototipo 504, y el cuantificador de prototipo 506 se dice que
realizan el análisis PPP sobre la trama actual.
El receptor recibe el paquete y proporciona el
paquete al descuantificador de prototipo 508. El descuantificador de
prototipo 508 descuantifica el paquete según una técnica descrita
más adelante con referencia a la Fig. 9. El descuantificador de
prototipo 508 proporciona el prototipo descuantificado al módulo de
interpolación/síntesis 510. El módulo de interpolación/síntesis 510
interpola el prototipo con prototipos de tramas previas que estaban
ubicados de forma similar dentro de la trama a fin de reconstruir la
señal residual LP para la trama actual. La interpolación y síntesis
de trama se realiza ventajosamente según métodos conocidos descritos
en la patente U.S. No. 5,884,253 y en la antes citada patente U.S.
No. 6,456,964.
El módulo de interpolación/síntesis 510
proporciona la señal residual LP reconstruida
\hat{r}(n) al módulo de síntesis LPC 512. El módulo
de síntesis LPC 512 también recibe valores de par espectral de línea
(LSP) desde el paquete transmitido, que se usar para realizar
filtrado LPC sobre la señal residual LP reconstruida
\hat{r}(n) para crear la señal de voz reconstruida
\hat{s}(n) para la trama actual. En una realización
alternativa, la síntesis LPC de la señal de voz
\hat{s}(n) puede realizarse para el prototipo con
anterioridad a hacer interpolación/síntesis de la trama actual. El
descuantificador de prototipo 508, el módulo de
interpolación/síntesis 510, y el módulo de síntesis LPC 512 se dice
que realizan la síntesis PPP de la trama actual.
En una realización, un prototipo cuantificador
600 realiza la cuantificación de fases de prototipo usando
submuestreo inteligente para transmisión eficiente, como se muestra
en la Fig. 8. El prototipo cuantificador 600 incluye un primer y un
segundo módulos de cómputo de coeficientes de series discretas de
Fourier (DFS) 602, 604, un primer y un segundo módulos de
descomposición 606, 608, un módulo de identificación de banda 610,
un cuantificador de amplitud de vector 612, un módulo de correlación
614, y un cuantificador 616.
En el cuantificador de prototipo 600, un
prototipo de referencia se suministra al primer módulo de cómputo de
coeficientes DFS 602. El primer módulo de cómputo de coeficientes
DFS 602 computa los coeficientes DFS para el prototipo de
referencia, como se describe más adelante, y proporciona los
coeficientes DFS para el prototipo de referencia al primer módulo de
descomposición 606. El primer módulo de descomposición 606
descompone los coeficientes DFS para el prototipo de referencia en
vectores de amplitud y fase, como se describe más adelante. El
primer módulo de descomposición 606 proporciona los vectores de
amplitud y fase al módulo de correlación 614.
El prototipo actual se suministra al segundo
módulo de cómputo de coeficientes DFS 604. El segundo módulo de
cómputo de coeficientes DFS 604 calcula los coeficientes DFS para el
prototipo actual, como se describe más adelante, y proporciona los
coeficientes DFS para el prototipo actual al segundo módulo de
descomposición 608. El segunda módulo de descomposición 608
descompone los coeficientes DFS para el prototipo actual en vectores
de amplitud y fase, como se describe más adelante. El segundo
módulo de descomposición 608 proporciona los vectores de amplitud y
fase al módulo de correlación 614.
El segundo módulo de descomposición 608 también
proporciona los vectores de amplitud y fase para el prototipo actual
al módulo de identificación de banda 610. El módulo de
identificación de banda 610 identifica bandas de frecuencia para
correlación, como se describe más adelante, y proporciona índices de
identificación de banda al módulo de correlación 614.
El segundo módulo de descomposición 608 también
proporciona el vector de amplitud para el prototipo actual al
cuantificador de vector de amplitud 612. El cuantificador de vector
de amplitud 612 cuantifica el vector de amplitud para el prototipo
actual, como se describe más adelante, y genera parámetros de
cuantificación de amplitud para la transmisión. En una realización
particular, el cuantificador de vector de amplitud 612 proporciona
valores de amplitud cuantificada al módulo de identificación de
banda 610 (esta conexión no se muestra en el dibujo con fines de
claridad) y/o al módulo de correlación 614.
El módulo de correlación 614 correlaciona en
todas las bandas de frecuencia para determinar el desplazamiento
lineal óptimo de fase para todas las bandas, como se describes más
adelante. En una realización alternativa, se realiza correlación
cruzada en la dominio de tiempo sobre la señal pasabanda para
determinar la rotación circular óptima para todas las bandas, como
se describe también más adelante. El módulo de correlación 614
proporciona valores de desplazamiento lineal de fase al
cuantificador 616. En una realización alternativa, el módulo de
correlación 614 proporciona valores de rotación circular al
cuantificador 616. El cuantificador 616 cuantifica los valores
recibidos, como se describe más adelante, generando parámetros de
cuantificación de fase para la transmisión.
En una realización, un descuantificador de
prototipo 700 realiza la reconstrucción del espectro de fase de
prototipo usando desplazamientos lineales sobre las bandas
constituyentes de frecuencia de un DFS, como se muestra en la Fig.
9. El descuantificador de prototipo 700 incluye un módulo de cómputo
de coeficientes DFS 702, un módulo de cómputo inverso DFS 704, un
módulo de descomposición 706, un módulo de combinación 708, un
módulo de identificación de banda 710, un descuantificador de vector
de amplitud 712, un módulo de composición 714, y un descuantificador
de fase 716.
En el descuantificador de prototipo 700, se
proporciona un prototipo de referencia al módulo de cómputo de
coeficientes DFS 702. El módulo de cómputo de coeficientes DFS 702
calcula los coeficientes DFS para el prototipo de referencia, como
se describe más adelante, y proporciona los coeficientes DFS para el
prototipo de referencia al módulo de descomposición 706. El módulo
de descomposición 706 descompone los coeficientes DFS para el
prototipo de referencia en vectores de amplitud y fase , como se
describe más adelante. El módulo de descomposición 706 proporciona
fases de referencia (es decir, el vector de fase del prototipo de
referencia) al módulo de composición 714.
Los parámetros de cuantificación de fase son
recibidos por el descuantificador de fase 716. El descuantificador
de fase 716 descuantifica los parámetros de cuantificación de fase
recibidos, como se describe más adelante, generando valores lineales
de desplazamiento de fase . El descuantificador de fase 716
proporciona los valores lineales de desplazamiento de fase al módulo
de composición 714.
Los parámetros de cuantificación de vector de
amplitud son recibidos por el descuantificador de vector de amplitud
712. El vector descuantificador 712 descuantifica los parámetros
recibidos de cuantificación de amplitud, como se describe más
adelante, generando valores de amplitud descuantificada . El
descuantificador de vector de amplitud 712 proporciona los valores
descuantificados de amplitud al módulo de combinación 708. El
descuantificador de vector de amplitud 712 también proporciona los
valores descuantificados de amplitud al módulo de identificación de
banda 710. El módulo de identificación de banda 710 identifica
bandas de frecuencia para combinación, como se describe más
adelante, y proporciona índices de identificación de banda al módulo
de composición 714.
El módulo de composición 714 compone un vector
modificado de fase a partir los valores de fase de referencia y de
desplazamiento lineal de fase, como se describe más adelante. El
módulo de composición 714 proporciona valores modificados de vector
de fase al módulo de combinación 708.
El módulo de combinación 708 combina la valores
descuantificados de amplitud y los valores de fase, como se describe
más adelante, generando un vector reconstruido de coeficientes DFS
modificados. El módulo de combinación 708 proporciona los vectores
combinados de amplitud y fase al módulo de cálculo DFS inverso 704.
El módulo de cálculo DFS inverso 704 computa el DFS inverso del
vector reconstruido de coeficientes DFS modificados, como se
describe más adelante, generando el prototipo actual
reconstruido.
En una realización, un descuantificador de
prototipo 800 realiza la reconstrucción del espectro de fase de
prototipo empleando rotaciones circulares realizadas en el dominio
del tiempo sobre formas de onda pasabanda constituyentes de la forma
de onda de prototipo en el codificador, como se muestra en la Fig.
10. El descuantificador de prototipo 800 incluye un módulo de
cómputo de coeficientes DFS 802, un sumador de forma de onda
pasabanda 804, un módulo de descomposición 806, un módulo de
creación de señal DFS inverso/pasabanda 808, un módulo de
identificación de banda 810, un descuantificador de vector de
amplitud 812, un módulo de composición 814, y un descuantificador de
fase 816.
En el descuantificador de prototipo 800, se
proporciona un prototipo de referencia al módulo de cálculo de
coeficientes DFS 802. El módulo de cálculo de coeficientes DFS 802
computa los coeficientes DFS para el prototipo de referencia, como
se describe más adelante, y proporciona los coeficientes DFS para el
prototipo de referencia al módulo de descomposición 806. El módulo
de descomposición 806 descompone los coeficientes DFS para el
prototipo de referencia en vectores de amplitud y fase , como se
describe más adelante. El módulo de descomposición 806 proporciona
fases de referencia (es decir, el vector de fase del prototipo de
referencia) al módulo de composición 814.
Los parámetros de cuantificación de fase son
recibidos por el descuantificador de fase 816. La descuantificador
de fase 816 descuantifica los parámetros recibidos de cuantificación
de fase, como se describe más adelante, generando valores de
rotación circular. El descuantificador de fase 816 proporciona
valores de rotación circular al módulo de composición 814.
Los parámetros de cuantificación de vector de
amplitud son recibidos por el descuantificador de vector de amplitud
812. El descuantificador de vector de amplitud 812 descuantifica los
parámetros recibidos de cuantificación de amplitud, como se describe
más adelante, generando valores descuantificados de amplitud. El
descuantificador de vector de amplitud 812 proporciona los valores
descuantificados de amplitud al módulo de creación de señal DFS
inverso/pasabanda 808. El descuantificador de vector de amplitud 812
también proporciona los valores descuantificados de amplitud al
módulo de identificación de banda 810. El módulo de identificación
de banda 810 identifica las bandas de frecuencia para combinación,
como se describe más adelante, y proporciona índices de
identificación de banda al módulo de creación de señal DFS
inverso/pasabanda 808.
El módulo de creación de señal DFS
inverso/pasabanda 808 combina los valores descuantificados de
amplitud y el valor de fase de referencia para cada de las bandas, y
calcula una señal pasabanda a partir de la combinación, usando el
inverso DFS para cada una de las bandas, como se describe más
adelante. El módulo de creación de señal DFS inverso/pasabanda 808
proporciona las señales pasabanda al módulo de composición 814.
El módulo de composición 814 rota circularmente
cada de las señales pasabanda usando los valores descuantificados de
rotación circular, como se describe más adelante, generando señales
modificadas rotadas pasabanda. El módulo de composición 814
proporciona las señales modificadas rotadas pasabanda al sumador de
forma de onda pasabanda 804. El sumador de forma de onda pasabanda
804 suma todas las señales pasabanda para generar el prototipo
reconstruido.
El prototipo cuantificador 600 de la Fig. 8 y el
descuantificador de prototipo 700 de la Fig. 9 sirven en el
funcionamiento normal para codificar y decodificar, respectivamente,
el espectro de fase de formas de onda de periodo de prototipo de
tono. En el transmisor/codificador (Fig. 8), el espectro de fase,
\phi^{c}_{k}, del prototipo, s_{C}(n), de la trama
actual se calcula usando la representación DFS s_{c}(n) =
\sum\limits_{k} C^{c}_{k} e^{jnk(\omega ^{c}_{o})}, donde
C^{c}_{k} son los coeficientes complejos DFS del prototipo actual
y \omega^{c}_{o} es la frecuencia fundamental normalizada de
s_{C}(n). El espectro de fase, \phi^{c}_{k}, es el
ángulo de los coeficientes complejos que constituyen el DFS. El
espectro de fase, \phi^{r}_{k}, del prototipo de referencia se
computa de modo similar para proporcionar C^{r}_{k} y
\phi^{r}_{k}. Alternativamente, el espectro de fase,
\phi^{r}_{k}, del prototipo de referencia se almacenó después de
que se procesó la trama con el prototipo de referencia, y
simplemente se recupera del almacenamiento. En una realización
particular, el prototipo de referencia es un prototipo de la trama
previa.
El complejo DFS para ambos prototipos a partir de
ambas, la trama de referencia y la trama actual, puede representarse
como el producto de los espectros de amplitud y los espectros de
fase, como se muestra en la ecuación siguiente: C^{c}_{k} =
A^{c}_{k} e^{j \phi^{c}_{k}} . Debe hacerse notar que ambos, los
espectros de amplitud y los espectros de fase, son vectores porque
el complejo DFS es también un vector. Cada elemento del vector DFS
es un armónico de frecuencia igual al recíproco de la duración de
tiempo del correspondiente prototipo. Para una señal de frecuencia
máxima de Fm Hz (muestreada a una velocidad de por lo menos de 2 Fm
Hz) y una frecuencia de armónico de Fo el Hz, hay M armónicos. El
número de armónicos, M, es igual a Fm/Fo. De aquí que, el vector de
espectros de fase y el vector de espectros de amplitud de cada
prototipo consten de M de elementos.
El vector DFS del prototipo actual ese divide en
B bandas y la señal de tiempo que corresponde a cada una de las B
bandas es una señal pasabanda. El número de bandas, B, se limita
para que sea menos que el número de armónicos, M. Sumando todas las
señales de tiempo pasabanda B producirían el prototipo actual
original. De igual modo, el vector DFS para el prototipo de
referencia es también dividido en las mismas B bandas.
Para cada una de las B bandas, se realiza una
correlación cruzada entre la señal pasabanda que corresponde al
prototipo de referencia y la señal pasabanda que corresponde al
prototipo actual. La correlación cruzada puede realizarse sobre los
vectores DFS del dominio de frecuencia, \gamma_{\theta} =
(C^{r}_{\{k_{b,}\}} e^{j\{k_{\theta,}\}\theta,})^{T}
(^{c}_{\{k_{b,}\}}) donde {k_{b,}} es el conjunto de números
armónicos en la iésima banda b_{i}, y \theta, es un
desplazamiento de fase lineal posible para la iésima banda b_{i}.
La correlación cruzada puede también realizarse sobre las
correspondiente señales pasabanda en el dominio del tiempo (por
ejemplo, con el descuantificador 800 de la Fig. 10) según la
ecuación siguiente:
donde L es la longitud en muestras
del prototipo actual, \omega^{r}_{o} y \omega^{c}_{o} son
las frecuencias fundamentales normalizadas del prototipo de
referencia y del prototipo actual, respectivamente, y r_{i} es la
rotación circular en muestras. Las señales pasabanda en el dominio
del tiempo s^{r}_{b}(n) y s^{c}_{b}(n)
correspondientes a la banda b_{i} vienen dadas por,
respectivamente, las expresiones
siguientes:
En una realización el vector cuantificado de
amplitud, \hat{A}^{c}_{k}, se usa para obtener C^{c}_{k},
como se muestra en la ecuación siguiente: C^{c}_{k} =
\hat{A}^{c}_{k} e^{j \phi ^{c}_{k}}. La correlación cruzada se
realiza sobre todos los desplazamientos posibles de fase lineal del
vector DFS pasabanda del prototipo de referencia. Alternativamente,
la correlación cruzada puede realizarse sobre un subconjunto de
todos los desplazamientos posibles de fase lineal del vector DFS
pasabanda del prototipo de referencia. En una realización
alternativa, se emplea una aproximación en el dominio del tiempo, y
la correlación cruzada se realiza sobre todas las rotaciones
circulares posibles de las señales de tiempo pasabanda del prototipo
de referencia. En una realización la correlación cruzada se realiza
sobre un subconjunto de todas las rotaciones circulares posibles de
la señal de tiempo pasabanda del prototipo de referencia. El
proceso de correlación cruzada genera B desplazamientos lineales de
fase (o B rotaciones circulares, en la realización en donde la
correlación cruzada se realiza en el dominio del tiempo sobre la
señal de tiempo pasabanda) que corresponden a valores máximos de la
correlación cruzada para cada una de las B bandas. Los B
desplazamientos de fase lineal (o, en la realización alternativa,
las B rotaciones circulares) son entonces cuantificados y
transmitidos como representativos de los espectros de fase en lugar
de M elementos de vector de espectros de fase originales. El vector
de espectros de amplitud es cuantificado y transmitido
separadamente. Por tanto, los vectores DFS pasabanda (o las señales
de tiempo pasabanda) del prototipo de referencia sirven
ventajosamente como libro de claves para codificar los
correspondiente vectores DFS (o las señales pasabanda) del prototipo
de la trama actual. Consiguientemente, se necesitan menos elementos
para cuantificar y transmitir la información de fase, efectuando así
un submuestreo resultante de información de fase y dando origen a
una más eficiente transmisión. Esto es particularmente beneficioso
en la codificación de voz a baja velocidad de bit, donde debido a la
carencia de bits suficientes, o bien la información de fase se
cuantifica muy pobremente debido a la gran cantidad de elementos de
fase o bien la información de fase no se transmite en absoluto,
cualquiera de las cuales produce una baja calidad. Las realizaciones
arriba descritas permiten codificadores de baja velocidad de bit
para mantener una buena calidad de voz porque hay menos elementos a
cuantificar.
En el receptor/decodificador (Fig. 9) (y también
en la copia codificadora del decodificador, como se entenderá por
aquellos con experiencia en la técnica), los B valores de
desplazamiento de fase lineal se aplican a la copia decodificadora
del vector de banda B dividida DFS del prototipo de referencia para
generar un vector de fase DFS de prototipo modificado:
\phi^{c}_{\{k_{bi}\}} = \phi^{r}_{\{k_{bi}\}} + {k_{bi}}
\theta_{bi}. El vector DFS modificado se obtiene entonces como
producto del vector de los espectros de amplitud decodificada
recibida y del vector de fase DFS prototipo modificado. El prototipo
reconstruido se construye entonces usando una operación inversa DFS
sobre el vector DFS modificado. En la realización alternativa, donde
se emplea un enfoque en el dominio del tiempo, se combinan el vector
de espectros de amplitud para cada de las bandas B y el vector de
fase del prototipo de referencia para las mismas B bandas, y se
realiza una operación DFS inversa sobre la combinación para generar
B señales de tiempo pasabanda. Las B señales de tiempo pasabanda son
entonces rotadas circularmente usando los B valores circulares de
rotación. Todo las B señales de tiempo pasabanda se suman para
generar el prototipo reconstruido.
Por tanto, se ha descrito un aparato y método
novedosos para submuestreo de información de espectro de fase.
Aquellos con experiencia en la técnica comprenderán que los diversos
bloques lógicos y pasos de algoritmo ilustrativos descritos en
relación con las realizaciones aquí descritas pueden implementarse o
realizarse con un procesador digital de señal (DSP), un circuito
integrado de aplicación específica (ASIC), lógica de puerta discreta
de transistor o , componentes discretos electrónicos tales como, p.
ej., registros y FIFO, un procesador que ejecuta un conjunto de
instrucciones de microprogramación, o cualquier módulo de software
convencional programable y un procesador. El procesador puede ser
convenientemente un microprocesador, pero en la alternativa, el
procesador puede ser cualquier procesador, controlador,
microcontrolador, o máquina de estados convencional. El módulo de
software puede residir en memoria RAM, memoria flash, registros, o
cualquier otra forma de medio de almacenamiento grabable conocido en
la técnica. Aquellos con experiencia apreciarán además que los
datos, instrucciones, comandos, señales de información, símbolos de
bit, y chips, que pudieran referenciarse a lo largo de la anterior
descripción son representados ventajosamente por voltajes,
corrientes, ondas electromagnéticas, partículas o campos magnéticos,
partículas o campos ópticos, o cualquier combinación de los
mismos.
Por tanto se han mostrado y descrito
realizaciones preferidas de la presente invención. Resultará
evidente sin embargo a aquellos con experiencia en la técnica, que
pueden hacerse numerosas alteraciones a las realizaciones aquí
reveladas sin apartarse del alcance de la invención. Por lo tanto,
la presente invención no está limitada excepto de acuerdo con las
reivindicaciones siguientes.
Claims (43)
1. Un método para procesar un prototipo de una
trama en un codificador de voz, comprendiendo el método:
producción (602, 606) de una pluralidad de
parámetros de fase de un prototipo de referencia;
generación (604, 608) de una pluralidad de
parámetros de fase del prototipo, caracterizado por:
correlación (614) de los parámetros de fase del
prototipo con los parámetros de fase del prototipo de referencia en
cada una de una pluralidad de bandas de frecuencia.
2. El método de la reivindicación 1, donde:
dicha producción (602,606) comprende calcular
(602) coeficientes de series discretas de Fourier para el prototipo
de referencia y descomponer (606) coeficientes de series discretas
de Fourier en vectores de amplitud y vectores de fase para el
prototipo de referencia; y
dicha generación (604,608) comprende calcular
(604) coeficientes de series discretas de Fourier para el prototipo
y descomponer (608) los coeficientes de series discretas de Fourier
en vectores de amplitud y vectores de fase para el prototipo.
3. El método de la reivindicación 1,
comprendiendo adicionalmente identificación (610) de las bandas de
frecuencia en las que realizar dicha correlación (614).
4. El método de la reivindicación 1, donde dicha
correlación (614) genera una pluralidad de valores desplazamiento
óptimo de fase lineal para el prototipo.
5. El método de la reivindicación 1, en donde
dicha correlación (614) genera una pluralidad de valores óptimos de
rotación circular para el prototipo.
6. El método de la reivindicación 4,
comprendiendo adicionalmente cuantificación (616) de los valores
lineales de desplazamiento de fase y cuantificación (612) de una
pluralidad de parámetros de amplitud para el prototipo.
7. El método de la reivindicación 5,
comprendiendo adicionalmente cuantificación (616) de los valores de
rotación circular y cuantificación (612) de una pluralidad de
parámetros de amplitud para el prototipo.
8. Un método para procesar un prototipo de una
trama en un codificador de voz, comprendiendo el método:
producción (702,706) de una pluralidad de
parámetros de fase de un prototipo de referencia; y
generación (716) de una pluralidad valores
lineales de desplazamiento de fase asociados con el prototipo,
caracterizado por:
la composición (714) de un vector de fase a
partir de los parámetros de fase y de los valores lineales de
desplazamiento de fase a través de cada una de una pluralidad de
bandas de frecuencia.
9. El método de la reivindicación 8, donde dicha
producción (702,706) comprende el cálculo (702) de coeficientes de
series discretas de Fourier para el prototipo de referencia y la
descomposición (706) de los coeficientes de series discretas de
Fourier en vectores de amplitud y vectores de fase para el prototipo
de referencia.
10. El método de la reivindicación 8,
comprendiendo adicionalmente la identificación (710) de las bandas
de frecuencia en las que realizar dicha composición (714).
11. El método de la reivindicación 8, en donde
dicha generación (716) comprende la descuantificación de una
pluralidad cuantificada de parámetros de fase asociada con el
prototipo para generación de la pluralidad de lineal valores de
desplazamiento de fase.
12. El método de la reivindicación 10,
comprendiendo adicionalmente la descuantificación (712) de una
pluralidad parámetros de cuantificación de amplitud asociados con el
prototipo para producir una pluralidad de parámetros
descuantificados de amplitud, donde dicha identificación (710)
comprende la identificación de bandas basada en la pluralidad de
parámetros descuantificados de amplitud.
13. El método de la reivindicación 8,
comprendiendo adicionalmente:
combinación (708) del vector compuesto de fase
con una pluralidad de parámetros de amplitud asociados con el
prototipo para producir un vector combinado; y
cálculo (704) de una serie discreta de Fourier
inversa del vector combinado para producir una versión reconstruida
del prototipo.
14. Un método para procesar un prototipo de una
trama en un codificador de voz, comprendiendo el método:
la producción (816) de una pluralidad de valores
circulares de rotación asociados con el prototipo,
caracterizado por:
la generación (802,806,808) de una pluralidad de
formas de onda pasabanda en cada de una de una pluralidad de bandas
de frecuencia, estando asociada la pluralidad de formas de onda
pasabanda con una pluralidad de parámetros de fase de un prototipo
de referencia; y
la modificación (814) de la pluralidad de formas
de onda pasabanda en cada de la pluralidad de bandas de frecuencia
basada en la pluralidad de valores de rotación circular.
15. El método de la reivindicación 14,
comprendiendo adicionalmente la identificación (810) de las bandas
de frecuencia en las que realizar dicha generación.
16. El método de la reivindicación 1, 8 o 14,
donde la trama es una trama de voz.
17. El método de la reivindicación 1, 8 o 14,
donde la trama es una trama de residuo lineal de predicción.
18. El método de la reivindicación 14, donde
dicha producción (816) comprende la descuantificación (802,806,808)
de una pluralidad de parámetros cuantificados de fase asociados con
el prototipo para generar la pluralidad de valores circulares de
rotación.
19. El método de la reivindicación 15,
comprendiendo adicionalmente la descuantificación (812) de una
pluralidad parámetros de cuantificación de amplitud asociados con el
prototipo para producir una pluralidad de parámetros de amplitud
descuantificados, donde dicha identificación (810) comprende la
identificación de bandas basada en la pluralidad de parámetros
descuantificados de amplitud.
20. El método de la reivindicación 19, donde
dicha generación comprende:
el cálculo (802) de coeficientes de series
discretas de Fourier para el prototipo de referencia;
la descomposición (806) de los coeficientes de
series discretas de Fourier en un vector de amplitud y un vector de
fase para el prototipo de referencia;
la combinación del vector de fase con la
pluralidad de parámetros descuantificados de amplitud; y
el cálculo (808) del inverso de series discretas
de Fourier del vector de fase para generar la pluralidad de las
formas de onda pasabanda.
21. El método de la reivindicación 14,
comprendiendo adicionalmente la suma (804) de la pluralidad de
formas de onda modificadas pasabanda para producir una versión
reconstruida del prototipo.
22. Una codificador de voz, que comprende:
medios (602,606) para la producción de una
pluralidad de parámetros de fase de un prototipo de referencia de
una trama; y
medios (604,608) para la generación de una
pluralidad de parámetros de fase de un prototipo actual de una trama
actual, caracterizado por:
medios (614) para la correlación de los
parámetros de fase del prototipo actual con los parámetros de fase
del prototipo de referencia en cada una de una pluralidad de bandas
de frecuencia.
23. El codificador de voz de la reivindicación
22, donde:
los medios (602,606) para la producción
comprenden medios (602) para el cálculo de coeficientes de series
discretas de Fourier para el prototipo de referencia y medios (606)
para la descomposición de los coeficientes de series discretas de
Fourier en vectores de amplitud y vectores de fase para el prototipo
de referencia; y
los medios (604,608) para generación comprenden
medios (604) para el cálculo de coeficientes de series discretas de
Fourier para el prototipo actual y medios (608) para la
descomposición de los coeficientes de series discretas de Fourier en
vectores de amplitud y vectores de fase para el prototipo
actual.
\newpage
24. El codificador de voz de la reivindicación
22, comprendiendo adicionalmente medios (610) para identificar la
pluralidad de bandas de frecuencia.
25. El codificador de voz de la reivindicación
22, donde los medios (614) para correlación generan una pluralidad
de valores de desplazamiento de fase lineal óptima para el prototipo
actual.
26. El codificador de voz de la reivindicación
22, donde los medios (614) para correlación generan una pluralidad
de valores de rotación óptima circular para el prototipo actual.
27. El codificador de voz de la reivindicación
25, comprendiendo adicionalmente medios (616) para cuantificación de
valores lineales de desplazamiento de fase y medios (612) para
cuantificación de una pluralidad de parámetros de amplitud para el
prototipo actual.
28. El codificador de voz de la reivindicación
26, comprendiendo adicionalmente medios (616) para cuantificación de
los valores de rotación circular y medios (612) para cuantificación
de una pluralidad de parámetros de amplitud para el prototipo
actual.
29. Un codificador de voz, que comprende:
medios (702,706) para producción de una
pluralidad de parámetros de fase de un prototipo de referencia de
una trama; y
medios (716) para generación de una pluralidad de
valores de desplazamiento de fase lineal asociados con un prototipo
actual de una trama actual, caracterizado por:
medios (714) para composición de un vector de
fase a partir de los parámetros de fase y de los valores de
desplazamiento lineal de fase a través de cada una de una pluralidad
de bandas de frecuencia.
30. El codificador de voz de la reivindicación
29, donde los medios (702,706) para producción comprenden:
medios (702) para cálculo de coeficientes de
series discretas de Fourier para el prototipo de referencia; y
medios (706) para descomposición de los
coeficientes de series discretas de Fourier en vectores de amplitud
y vectores de fase para el prototipo de referencia.
31. El codificador de voz de la reivindicación
29, comprendiendo adicionalmente medios (710) para identificación de
la pluralidad de bandas de frecuencia.
32. El codificador de voz de la reivindicación
29, donde los medios (716) para generación comprenden medios para la
descuantificación de una pluralidad de parámetros cuantificados de
fase asociados con el prototipo actual para generación de la
pluralidad de valores de desplazamiento lineal de fase.
33. El codificador de voz de la reivindicación
31, comprendiendo adicionalmente medios (712) para descuantificación
de una pluralidad de parámetros de cuantificación de amplitud
asociados con el prototipo actual para producir una pluralidad de
parámetros descuantificados de amplitud, donde los medios (710) para
identificación comprenden medios para identificación de la
pluralidad de bandas basados en la pluralidad de parámetros
descuantificados de amplitud.
34. El codificador de voz de la reivindicación
29, comprendiendo adicionalmente:
medios (708) para combinación del vector
compuesto de fase con una pluralidad de parámetros de amplitud
asociados con el prototipo actual para producir un vector combinado;
y
medios (704) para el cálculo de una serie
discreta de Fourier inversa del vector combinado para la producción
de una versión reconstruida del prototipo actual.
35. Un codificador de voz, que comprende:
medios (816) para producción de una pluralidad de
valores circulares de rotación asociados con un prototipo actual de
una trama actual, caracterizado por:
medios (802,806,808) para generación de una
pluralidad de formas de onda pasabanda en cada una de una pluralidad
de bandas de frecuencia, estando asociada la pluralidad de formas de
onda pasabanda con una pluralidad de parámetros de fase de un
prototipo de referencia de una trama; y
medios (814) para modificación de la pluralidad
de formas de onda pasabanda en cada una de la pluralidad de bandas
de frecuencia basada en la pluralidad de valores circulares de
rotación.
36. El codificador de voz de la reivindicación
35, comprendiendo adicionalmente medios (810) para identificación de
la pluralidad de bandas de frecuencia.
37. El codificador de voz de la reivindicación
22, 29 o 35, donde la trama actual es una trama de voz.
38. El codificador de voz de la reivindicación
22, 29 o 35, donde la trama actual es una trama de residuo lineal de
predicción.
39. El codificador de voz de la reivindicación
35, donde los medios (816) para producción comprenden medios para
descuantificación de una pluralidad de parámetros cuantificados de
fase asociados con el prototipo actual para generación de la
pluralidad de valores de rotación circular.
40. El codificador de voz de la reivindicación
36, comprendiendo adicionalmente medios (812) para descuantificación
de una pluralidad de parámetros de cuantificación de amplitud
asociados con el prototipo actual para la producción de una
pluralidad de parámetros descuantificados de amplitud, donde los
medios para identificación (810) comprenden medios para
identificación de bandas basados en la pluralidad de parámetros
descuantificados de amplitud.
41. El codificador de voz de la reivindicación
40, donde los medios (802,806,808) para generación comprenden:
medios (802) para cálculo de coeficientes de
series discretas de Fourier para el prototipo de referencia;
medios (806) para descomposición de los
coeficientes de series discretas de Fourier en un vector de amplitud
y un vector de fase para el prototipo de referencia;
medios para combinación del vector de fase con la
pluralidad de parámetros descuantificados de amplitud; y
medios (808) para cálculo de series discretas de
Fourier inversas del vector de fase para generar la pluralidad de
formas de onda pasabanda.
42. El codificador de voz de la reivindicación
35, comprendiendo adicionalmente medios (804) para la suma de la
pluralidad de formas de onda modificadas pasabanda para la
producción de una versión reconstruida del prototipo actual.
43. El codificador de voz de la reivindicación
22, 29 o 35, en donde el codificador de voz se ubica en una unidad
de abonado (10) de un sistema de comunicación inalámbrico.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/356,491 US6397175B1 (en) | 1999-07-19 | 1999-07-19 | Method and apparatus for subsampling phase spectrum information |
US356491 | 1999-07-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2256022T3 true ES2256022T3 (es) | 2006-07-16 |
Family
ID=23401657
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05019543T Expired - Lifetime ES2297578T3 (es) | 1999-07-19 | 2000-07-18 | Procedimiento y aparato para submuestrear informacion del espectro de fase. |
ES00948764T Expired - Lifetime ES2256022T3 (es) | 1999-07-19 | 2000-07-18 | Metodos y aparators para submuestreo de la informacion. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05019543T Expired - Lifetime ES2297578T3 (es) | 1999-07-19 | 2000-07-18 | Procedimiento y aparato para submuestrear informacion del espectro de fase. |
Country Status (12)
Country | Link |
---|---|
US (3) | US6397175B1 (es) |
EP (2) | EP1204968B1 (es) |
JP (2) | JP4860859B2 (es) |
KR (2) | KR100752001B1 (es) |
CN (2) | CN1279510C (es) |
AT (2) | ATE379832T1 (es) |
AU (1) | AU6221600A (es) |
BR (1) | BRPI0012537B1 (es) |
DE (2) | DE60037286T2 (es) |
ES (2) | ES2297578T3 (es) |
HK (3) | HK1064196A1 (es) |
WO (1) | WO2001006492A1 (es) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001082293A1 (en) * | 2000-04-24 | 2001-11-01 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US6789058B2 (en) * | 2002-10-15 | 2004-09-07 | Mindspeed Technologies, Inc. | Complexity resource manager for multi-channel speech processing |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
EP1496500B1 (en) * | 2003-07-09 | 2007-02-28 | Samsung Electronics Co., Ltd. | Bitrate scalable speech coding and decoding apparatus and method |
PL3561810T3 (pl) * | 2004-04-05 | 2023-09-04 | Koninklijke Philips N.V. | Sposób kodowania lewego i prawego sygnału wejściowego audio, odpowiedni koder, dekoder i produkt w postaci programu komputerowego |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
KR101019936B1 (ko) * | 2005-12-02 | 2011-03-09 | 퀄컴 인코포레이티드 | 음성 파형의 정렬을 위한 시스템, 방법, 및 장치 |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US9583117B2 (en) * | 2006-10-10 | 2017-02-28 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
EP2631906A1 (en) | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
PL3576087T3 (pl) * | 2013-02-05 | 2021-10-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Ukrywanie klatki utraconej sygnału audio |
RU2729603C2 (ru) | 2015-09-25 | 2020-08-11 | Войсэйдж Корпорейшн | Способ и система для кодирования стереофонического звукового сигнала с использованием параметров кодирования первичного канала для кодирования вторичного канала |
CN107424616B (zh) * | 2017-08-21 | 2020-09-11 | 广东工业大学 | 一种相位谱去除掩模的方法与装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
WO1990013112A1 (en) * | 1989-04-25 | 1990-11-01 | Kabushiki Kaisha Toshiba | Voice encoder |
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
CA2483322C (en) | 1991-06-11 | 2008-09-23 | Qualcomm Incorporated | Error masking in a variable rate vocoder |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
JPH0793000A (ja) * | 1993-09-27 | 1995-04-07 | Mitsubishi Electric Corp | 音声符号化装置 |
US5517595A (en) | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
TW271524B (es) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08123494A (ja) * | 1994-10-28 | 1996-05-17 | Mitsubishi Electric Corp | 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置 |
US5692098A (en) * | 1995-03-30 | 1997-11-25 | Harris | Real-time Mozer phase recoding using a neural-network for speech compression |
IT1277194B1 (it) | 1995-06-28 | 1997-11-05 | Alcatel Italia | Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato |
US5701391A (en) * | 1995-10-31 | 1997-12-23 | Motorola, Inc. | Method and system for compressing a speech signal using envelope modulation |
AU3702497A (en) * | 1996-07-30 | 1998-02-20 | British Telecommunications Public Limited Company | Speech coding |
US5903866A (en) * | 1997-03-10 | 1999-05-11 | Lucent Technologies Inc. | Waveform interpolation speech coding using splines |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
EP0987680B1 (en) * | 1998-09-17 | 2008-07-16 | BRITISH TELECOMMUNICATIONS public limited company | Audio signal processing |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6754630B2 (en) | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6449592B1 (en) * | 1999-02-26 | 2002-09-10 | Qualcomm Incorporated | Method and apparatus for tracking the phase of a quasi-periodic signal |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
WO2000060579A1 (en) * | 1999-04-05 | 2000-10-12 | Hughes Electronics Corporation | A frequency domain interpolative speech codec system |
-
1999
- 1999-07-19 US US09/356,491 patent/US6397175B1/en not_active Expired - Lifetime
-
2000
- 2000-07-18 WO PCT/US2000/019601 patent/WO2001006492A1/en active IP Right Grant
- 2000-07-18 CN CNB008130019A patent/CN1279510C/zh not_active Expired - Lifetime
- 2000-07-18 CN CNB031458505A patent/CN1290077C/zh not_active Expired - Lifetime
- 2000-07-18 AU AU62216/00A patent/AU6221600A/en not_active Abandoned
- 2000-07-18 EP EP00948764A patent/EP1204968B1/en not_active Expired - Lifetime
- 2000-07-18 AT AT05019543T patent/ATE379832T1/de not_active IP Right Cessation
- 2000-07-18 BR BRPI0012537A patent/BRPI0012537B1/pt active IP Right Grant
- 2000-07-18 KR KR1020077009507A patent/KR100752001B1/ko active IP Right Grant
- 2000-07-18 DE DE60037286T patent/DE60037286T2/de not_active Expired - Lifetime
- 2000-07-18 EP EP05019543A patent/EP1617416B1/en not_active Expired - Lifetime
- 2000-07-18 AT AT00948764T patent/ATE309600T1/de not_active IP Right Cessation
- 2000-07-18 DE DE60023913T patent/DE60023913T2/de not_active Expired - Lifetime
- 2000-07-18 JP JP2001511667A patent/JP4860859B2/ja not_active Expired - Lifetime
- 2000-07-18 ES ES05019543T patent/ES2297578T3/es not_active Expired - Lifetime
- 2000-07-18 ES ES00948764T patent/ES2256022T3/es not_active Expired - Lifetime
- 2000-07-18 KR KR1020027000728A patent/KR100754580B1/ko active IP Right Grant
-
2002
- 2002-02-01 US US10/066,073 patent/US6678649B2/en not_active Expired - Lifetime
- 2002-12-30 HK HK04106760A patent/HK1064196A1/xx unknown
- 2002-12-30 HK HK02109401.2A patent/HK1047816B/zh unknown
-
2003
- 2003-11-05 US US10/702,967 patent/US7085712B2/en not_active Expired - Lifetime
-
2006
- 2006-07-14 HK HK06107927A patent/HK1091583A1/xx not_active IP Right Cessation
-
2007
- 2007-08-17 JP JP2007213061A patent/JP4861271B2/ja not_active Expired - Lifetime
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4824167B2 (ja) | 周期的スピーチコーディング | |
ES2287122T3 (es) | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. | |
JP5373217B2 (ja) | 可変レートスピーチ符号化 | |
KR101070207B1 (ko) | 오디오 신호와 관련된 프레임으로 윈도우를 변형하는 시스템 및 방법 | |
ES2360176T3 (es) | Alisamiento de discontinuidades entre tramas de habla. | |
ES2256022T3 (es) | Metodos y aparators para submuestreo de la informacion. | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
JP2002544551A (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
KR101164834B1 (ko) | 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법 |