ES2298568T3 - Descodificacion de audio. - Google Patents

Descodificacion de audio. Download PDF

Info

Publication number
ES2298568T3
ES2298568T3 ES03758591T ES03758591T ES2298568T3 ES 2298568 T3 ES2298568 T3 ES 2298568T3 ES 03758591 T ES03758591 T ES 03758591T ES 03758591 T ES03758591 T ES 03758591T ES 2298568 T3 ES2298568 T3 ES 2298568T3
Authority
ES
Spain
Prior art keywords
phase
sinusoidal
frequency
audio
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03758591T
Other languages
English (en)
Inventor
Albertus C. Den Brinker
Andreas J. Gerrits
Robert J. Sluijter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2298568T3 publication Critical patent/ES2298568T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cereal-Derived Products (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Amplifiers (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Procedimiento de descodificación de un flujo de audio, comprendiendo el procedimiento las etapas de: leer un flujo de audio (AS¿) codificado que incluye códigos (r) sinusoidales que representan una fase (psi) para cada pista de componentes sinusoidales enlazadas, para cada pista, generar (56) un valor ( ¿psi) monótonamente cambiante en general a partir de dichos códigos (r) que representan dicha fase; filtrar (58) dicho valor generado para proporcionar una estimación de frecuencia ( ¿omega) para una pista; y emplear (32) dichos valores generados y dichas estimaciones de frecuencia para sintetizar dichas componentes sinusoidales de dicha señal de audio.

Description

Descodificación de audio.
\global\parskip0.930000\baselineskip
Campo de la invención
La presente invención se refiere a codificación y descodificación de señales de audio.
Antecedentes de la invención
En referencia ahora a la figura 1, se describe un esquema de codificación paramétrica, en particular un codificador sinusoidal, en la solicitud de patente PCT Nº WO01/69593. En este codificador, se divide una señal x(t) de audio de entrada en varios segmentos o tramas (superposición), normalmente de 20 ms de longitud. Cada segmento se descompone en componentes transitorias, sinusoidales y de ruido. (También es posible obtener otras componentes de la señal de audio de entrada tales como complejos armónicos aunque estos no son muy importantes para los fines de la presente invención).
En el analizador 130 sinusoidal, la señal x2 para cada segmento se modela utilizando un número de sinusoides representadas por parámetros de amplitud, frecuencia y fase. Esta información se extrae normalmente para un intervalo de análisis realizando una transformada de Fourier (FT, Fourier Transform) que proporciona una representación espectral del intervalo que incluye: frecuencias; amplitudes para cada frecuencia; y fases para cada frecuencia donde cada fase está en el intervalo {-\pi, \pi}. Una vez que se estima la información sinusoidal para un segmento, se inicia un algoritmo de seguimiento. Este algoritmo utiliza una función de coste para enlazar sinusoides entre sí segmento por segmento para obtener las denominadas pistas. Por tanto, el algoritmo de seguimiento da como resultado códigos C_{S} sinusoidales que comprenden pistas sinusoidales que empiezan en un momento de tiempo específico, evolucionan durante una cierta cantidad de tiempo sobre una pluralidad de segmentos de tiempo y entonces se detienen.
En tal codificación sinusoidal, normalmente se transmite información de frecuencia para las pistas formadas en el codificador. Esto puede realizarse de forma económica, puesto que las pistas se definen como que tienen una frecuencia que varía lentamente y, por lo tanto, puede transmitirse la frecuencia eficazmente mediante codificación diferencial en tiempo. (En general, también puede codificarse diferencialmente la amplitud en el tiempo).
Al contrario de la de frecuencia, la transmisión de fase se considera costosa. En principio, si la frecuencia es (casi) constante, la fase en función del índice de segmento de pista debería cumplir con un comportamiento (casi) lineal. Sin embargo, cuando se transmite, la fase está limitada al intervalo {-\pi, \pi} tal como se proporciona mediante la transformada de Fourier. Debido a esta representación de fase de módulo 2\pi, la relación entre tramas estructurales de la fase se pierde y, a primera vista parece ser una variable estocástica blanca.
Sin embargo, puesto que la fase es la integral de la frecuencia, la fase no necesita transmitirse, en principio. Esto se llama continuación de fase y reduce la tasa de bits significativamente.
En continuación de fase, sólo se transmite la frecuencia y la fase se recupera en el descodificador a partir de los datos de frecuencia aprovechando la relación integral entre fase y frecuencia. Sin embargo, se sabe que la fase puede recuperarse sólo de manera aproximada utilizando continuación de fase. Si se producen errores de frecuencia, debido a errores de medición en la frecuencia o debido a ruido de cuantificación, la fase, que se reconstruye utilizando la relación integral, mostrará normalmente un error que tenga el carácter de un desplazamiento. Esto es porque los errores de frecuencia tienen aproximadamente un carácter de ruido blanco. La integración amplifica los errores de baja frecuencia y, por consiguiente, la fase recuperada tenderá a desplazarse alejándose de la fase medida realmente. Esto lleva a artefactos audibles.
Esto se ilustra en la figura 2(a) donde \psi y \Omega son la frecuencia y fase reales para una pista. Tanto en el codificador como en el descodificador la frecuencia y la fase tienen una relación integral representada por I. El proceso de cuantificación en el codificador se modela como un ruido n blanco aditivo. En el descodificador, la fase \hat{\psi} recuperada incluye por tanto dos componentes: la fase \psi real y una componente \varepsilon_{2} de ruido, donde tanto el espectro de la fase recuperada como la función de densidad espectral de potencia del ruido \varepsilon_{2} tienen un carácter pronunciado de baja frecuencia.
Por tanto, puede verse que en continuación de fase, puesto que la fase recuperada es la integral de una señal de baja frecuencia, la fase recuperada es en sí una señal de baja frecuencia. Sin embargo, el ruido introducido en el proceso de reconstrucción también es predominante en este rango de baja frecuencia. Por lo tanto, es difícil separar estas fuentes con la idea de filtrar el ruido n introducido durante la codificación.
Descripción de la invención
Según la presente invención se proporciona un procedimiento según la reivindicación 1, y un reproductor de audio según la reivindicación 2.
Según la invención, en el descodificador, la frecuencia puede recuperarse de manera aproximada a partir de la información de fase cuantificada utilizando diferencias finitas como una aproximación para la diferenciación. La componente de ruido de la frecuencia recuperada tiene un comportamiento pronunciado de alta frecuencia bajo la suposición de que el ruido introducido por la cuantificación de fase es casi espectralmente plano. Esto se ilustra en la figura 2(b), donde dentro del codificador y el descodificador, la frecuencia se representa como el diferencial (D) de fase. De nuevo, se introduce ruido n en el codificador y por tanto en el descodificador, la frecuencia \hat{\Omega} recuperada incluye dos componentes: la frecuencia \Omega real y una componente \varepsilon_{4} de ruido, donde la frecuencia es casi una señal CC y el ruido está principalmente en el rango de alta frecuencia. Sin embargo, puesto que la frecuencia subyacente tiene un comportamiento de baja frecuencia y el ruido añadido un comportamiento de alta frecuencia, la componente \varepsilon_{4} de ruido de la frecuencia recuperada puede reducirse mediante un filtro paso bajo.
Breve descripción de los dibujos
La figura 1 muestra un codificador de audio;
las figuras 2(a) y 2(b) ilustran la relación entre la fase y la frecuencia en sistemas de la técnica anterior y en sistemas de audio según la presente invención, respectivamente;
las figuras 3(a) y 3(b) muestran un componente codificador sinusoidal del codificador de audio de la figura 1;
la figura 4 muestra un reproductor de audio en el que se implementa una realización de la invención; y
las figuras 5(a) y 5(b) muestran una realización preferida de un componente sintetizador sinusoidal del reproductor de audio de la figura 4; y
la figura 6 muestra un sistema que comprende un codificador de audio y un reproductor de audio según la invención.
Descripción de la realización preferida
A continuación se describirán realizaciones preferidas de la invención con referencia a los dibujos adjuntos, en los que a componentes similares se les ha dado números de referencia similares y, a menos que se exprese lo contrario, realizan una función similar. El codificador 1 es un codificador sinusoidal del tipo descrito en la solicitud de patente PCT Nº WO 01/69593, figura 1. El funcionamiento de este codificador de la técnica anterior y su descodificador correspondiente se ha describo bien y la descripción sólo se proporciona en el presente documento en lo que es importante para la presente invención.
El codificador 1 de audio muestrea una señal de audio de entrada a una cierta frecuencia de muestreo que da como resultado una representación x(t) digital de la señal de audio. El codificador 1 entonces separa la señal de entrada muestreada en tres componentes: componentes de señal transitorias, componentes determinísticas continuas, y componentes estocásticas continuas. El codificador 1 de audio comprende un codificador 11 de transitorios, un codificador 13 sinusoidal y un codificador 14 de ruido.
El codificador 11 de transitorios comprende un detector 110 de transitorios (TD, transient detector), un analizador 111 de transitorios (TA, transient analyzer) y un sintetizador 112 de transitorios(TS, transient synthesizer). En primer lugar, la señal x(t) entra en el detector 110 de transitorios. Este detector 110 estima si hay una componente de señal transitoria y su posición. Esta información se suministra al analizador 111 de transitorios. Si se determina la posición de una componente de señal transitoria, el analizador 111 de transitorios intenta extraer (la parte principal de) la componente de señal transitoria. Compara una función de forma con un segmento de señal que empieza preferiblemente en una posición de inicio estimada, y determina el contenido bajo la función de forma, empleando por ejemplo un (pequeño) número de componentes sinusoidales. Esta información se contiene en el código C_{T} de transitorios y en la solicitud de patente PCT Nº WO 01/69593 se proporciona información más detallada sobre la generación del código C_{T} de transitorios.
El código C_{T} de transitorios se proporciona al sintetizador 112 de transitorios. La componente de señal transitoria sintetizada se resta de la señal x(t) de entrada en el restador 16, dando como resultado una señal x1. Se utiliza un mecanismo (12) de control de ganancia (GC, gain control) para producir x2 a partir de x1.
La señal x2 se proporciona al codificador 13 sinusoidal donde se analiza en un analizador 130 sinusoidal (SA, sinusoidal analyzer), que determina las componentes sinusoidales (determinísticas). Por lo tanto, se observará que aunque la presencia del analizador de transitorios es deseable, no es necesaria y la invención puede implementarse sin un analizador de este tipo. Como alternativa, tal como se mencionó anteriormente, la invención también puede implementarse con por ejemplo un analizador de complejos armónicos.
En resumen, el codificador sinusoidal codifica la señal x2 de entrada como pistas de componentes sinusoidales enlazadas de un segmento de trama con el siguiente. En referencia ahora a la figura 3(a), de la misma manera que en la técnica anterior, cada segmento de la señal x2 de entrada se transforma al dominio de frecuencia en una unidad 40 de transformada de Fourier (FT). Para cada segmento, la unidad FT proporciona amplitudes A, fases \phi y frecuencias \omega medidas. Tal como se mencionó previamente, el intervalo de fases proporcionado por la transformada de Fourier está restringido a -\pi \leq \phi < \pi. Una unidad 42 de algoritmo de seguimiento (TA, tracking algorithm) toma la información para cada segmento y empleando una función de coste adecuada, enlaza sinusoides de un segmento con el siguiente, produciendo así una secuencia de fases \phi(k) y frecuencias \omega(k) medidas para cada pista.
\global\parskip1.000000\baselineskip
Al contrario de la técnica anterior, según la presente invención los códigos C_{S} sinusoidales producidos en último término por al analizador 130 incluyen información de fase, y la frecuencia se reconstruye a partir de esta información en el descodificador.
Tal como se mencionó anteriormente, sin embargo, la fase medida está restringida a una representación de módulo 2\pi. Por lo tanto, en el codificador 1 el analizador comprende un desempaquetador 44 de fase (PU, phase unwrapper) donde la representación de fase de módulo 2\pi se desempaqueta para exponer el comportamiento de fase entre tramas estructurales para una pista \psi. Cuando la frecuencia en pistas sinusoidales es casi constante, se observará que la fase \psi desempaquetada será normalmente una función creciente (o decreciente) linealmente y esto hace posible transmisión de fase económica. La fase \psi desempaquetada se proporciona como entrada a un codificador 46 de fase (PE, phase encoder) que proporciona como salida niveles r de representación adecuados para ser transmitidos.
En referencia ahora al funcionamiento del desempaquetador 44 de fase, tal como se mencionó anteriormente, la fase \psi real y la frecuencia \Omega real para una pista están relacionadas por:
1
siendo T_{o} un instante de tiempo de referencia.
Una pista sinusoidal en tramas k = K, K+1... K+L-1 tiene frecuencias \omega(k) medidas (expresadas en radianes por segundo) y fases \phi(k) medidas (expresadas en radianes). La distancia entre el centro de las tramas viene dada por U (tasa de actualización expresada en segundos). Se supone que las frecuencias medidas son muestras de la pista \Omega de frecuencia continua en el tiempo subyacente supuesta con \omega(k)=\Omega(kU) y, de manera similar, las fases medidas son muestras de la pista \psi de fase continua en el tiempo asociada con \phi(k)=\psi(kU)mod(2\pi). Para codificación sinusoidal se supone que \Omega es una función casi constante.
Suponiendo que las frecuencias son casi constantes dentro de un segmento, la ecuación 1 puede aproximarse según lo siguiente:
2
Por lo tanto, se observará que conociendo la fase y la frecuencia para un segmento dado y la frecuencia del siguiente segmento, es posible estimar un valor de fase desempaquetada para el siguiente segmento, y así sucesivamente para cada segmento en una pista.
En la realización preferida, el desempaquetador de fase determina un factor m(k) de desempaquetado en el instante k:
3
El factor m(k) de desempaquetado dice al desempaquetador 44 de fase el número de ciclos que tienen que añadirse para obtener la fase desempaquetada.
Combinando las ecuaciones 2 y 3, el desempaquetador de fase determina un factor e de desempaquetado incremental según lo siguiente:
4
donde e debería ser un entero. Sin embargo, debido a errores de medición y de modelo, el factor de desempaquetado incremental no será exactamente un entero, por lo que:
5
suponiendo que los errores de modelo y medición son pequeños.
Teniendo el factor e de desempaquetado incremental, se calcula el m(k) a partir de la ecuación (3) como la suma acumulativa donde, sin pérdida de generalidad, el desempaquetador de fase empieza en la primera trama K con m(K)=0, y a partir de m(k) y \phi(k) se determina la fase \psi(kU) (desempaquetada).
En la práctica, los datos \psi(kU) y \Omega(kU) muestreados están distorsionados por errores de medición:
6
donde \varepsilon_{1} y \varepsilon_{2} son errores de fase y frecuencia, respectivamente. Con el fin de impedir que la determinación del factor de desempaquetado se vuelva ambigua, los datos de medición necesitan determinarse con suficiente precisión. Por tanto, en el codificador 1, el seguimiento está restringido de manera que:
7
donde \delta es el error en la operación de redondeo. El error \delta se determina principalmente mediante los errores en \omega debido a la multiplicación con U. Supóngase que \omega se determina a partir de la máxima del valor absoluto de la transformada de Fourier a partir de una versión muestreada de la señal de entrada con frecuencia F_{s} de muestreo y que la resolución de la transformada de Fourier es 2\pi/L_{a} siendo L_{a} el tamaño de análisis. Con el fin de estar dentro del límite considerado, se tiene que:
8
Esto significa que el tamaño de análisis debería ser unas pocas veces mayor que el tamaño de actualización para que el desempaquetamiento sea preciso, por ejemplo, ajustando \delta_{0}= 1/4, el tamaño de análisis debería ser cuatro veces el tamaño de actualización (despreciando los errores \varepsilon_{1} en la medición de fase).
La segunda precaución que puede tomarse para evitar errores de decisión en la operación de redondeo es definir pistas de manera apropiada. En la unidad 42 de seguimiento, las pistas sinusoidales se definen normalmente considerando diferencias de amplitud y frecuencia. Adicionalmente, también es posible tener en cuenta información de fase en el criterio de enlace. Por ejemplo, puede definirse el error \varepsilon de predicción como la diferencia entre el valor medido y el valor \tilde{\phi} predicho según
9
donde el valor predicho puede tomarse como
10
Por tanto, preferiblemente la unidad 42 de seguimiento prohíbe pistas en las que \varepsilon sea mayor que un cierto valor (por ejemplo \varepsilon>\pi/2), dando como resultado una definición inequívoca de e(k).
Adicionalmente, el codificador puede calcular las fases y frecuencias tal como estarán disponibles en el descodificador. Si las fases o frecuencias que se convertirán en disponibles en el descodificador difieren demasiado de las fases y/o frecuencias tal como están presentes en el codificador, puede decidirse interrumpir una pista, es decir, para señalizar el fin de una pista y empezar una nueva utilizando la frecuencia y fase actuales y sus datos sinusoidales enlazados.
La fase \psi(kU) desempaquetada muestreada producida por el desempaquetador 44 de fase (PU) se proporciona como entrada al codificador 46 de fase (PE) para producir un conjunto de niveles r de representación. Se conocen técnicas para la transmisión eficaz de una característica monótonamente cambiante en general tal como la fase desempaquetada. En la figura 3(b), se emplea modulación de código de pulsos diferencial adaptativa (ADPCM, Adaptive Differential Pulse Code Modulation). En este caso, se utiliza un predictor 48 (PF) para estimar la fase del siguiente segmento de pista y codificar la diferencia sólo en un cuantificador 50 (Q). Puesto que se espera que \psi sea una función casi lineal y por razones de simplicidad, el predictor 48 se elige como un filtro de segundo orden de la forma:
11
donde x es la entrada e y es la salida. Sin embargo, se observará que también es posible tomar otras relaciones funcionales (incluyendo relaciones de orden superior) e incluir adaptación (hacia atrás o hacia delante) adaptativa de los coeficientes del filtro. En el codificador 46 de fase, se utiliza un mecanismo 52 de control adaptativo hacia atrás (QC) por simplicidad para controlar el cuantificador 50. Asimismo, también es posible un control adaptativo hacia delante pero requeriría sobrecarga de tasa de bits adicional.
Tal como puede observarse, la inicialización del codificador (y el descodificador) para una pista empieza con el conocimiento de la fase \phi(0) y la frecuencia \omega(0) de inicio. Éstas se cuantifican y se transmiten mediante un mecanismo separado. Adicionalmente, el paso de cuantificación inicial utilizada en el controlador 52 de cuantificación del codificador y el controlador 62 correspondiente en el descodificador, figura 5(b), o bien se transmite o bien se ajusta a un cierto valor tanto en el codificador como en el descodificador. Finalmente, el fin de una pista puede señalizarse o bien en un flujo lateral separado o bien como un símbolo único en el flujo de bits de las fases.
A partir del código C_{S} sinusoidal generado con el codificador sinusoidal, se reconstruye la componente de señal sinusoidal mediante un sintetizador 131 sinusoidal(SS, sinusoidal synthesizer) de la misma manera que se describirá para el sintetizador 32 sinusoidal (SS) del descodificador. Esta señal se resta en el restador 17 de la entrada x2 al codificador 13 sinusoidal, dando como resultado una señal x3 restante. La señal x3 residual producida por el codificador 13 sinusoidal se pasa al analizador 14 de ruido del codificador 1 que produce un código C_{N} de ruido representativo de este ruido, tal como se describe en, por ejemplo, la solicitud de patente PCT Nº PCT/EP00/04599.
Finalmente, en un multiplexador 15, se constituye un flujo de audio AS (audio stream) que incluye los códigos C_{T}, C_{S} y C_{N}. El flujo de audio AS se proporciona a, por ejemplo, un bus de datos, un sistema de antena, un medio de almacenamiento, etc.
La figura 4 muestra un reproductor 3 de audio adecuado para descodificar un flujo de audio AS', por ejemplo, generado por un codificador 1 de la figura 1, obtenido a partir de un bus de datos, sistema de antena, medio de almacenamiento, etc. El flujo de audio AS' se demultiplexa en un demultiplexador 30 para obtener los códigos C_{T}, C_{S} y C_{N}. Estos códigos se proporcionan a un sintetizador 31 de transitorios, un sintetizador 32 sinusoidal y un sintetizador 33 de ruido respectivamente. A partir del código C_{T} de transitorios, se calculan las componentes de señal transitorias en el sintetizador 31 de transitorios. En caso de que el código de transitorios indique una función de forma, la forma se calcula basándose en los parámetros recibidos. Además, el contenido de forma se calcula basándose en las frecuencias y amplitudes de las componentes sinusoidales. Si el código C_{T} de transitorios indica un paso, entonces no se calcula ningún transitorio. La señal y_{T} transitoria total es una suma de todos los transitorios.
El código C_{S} sinusoidal que incluye la información codificada por el analizador 130 lo utiliza el sintetizador 32 sinusoidal para generar la señal y_{S}. En referencia ahora a las figuras 5(a) y (b), el sintetizador 32 sinusoidal comprende un descodificador 56 de fase (PD, phase decoder) compatible con el codificador 46 de fase. En este caso, el descuantificador 60 (DQ, dequantiser) conjuntamente con un filtro 64 de predicción (PF, prediction filter) de segundo orden produce (una estimación de) la fase \hat{\psi} desempaquetada a partir de: los niveles r de representación, la información inicial \hat{\phi}(0), \hat{\omega}(0) proporcionada al filtro 64 de predicción (PF) y el paso de cuantificación inicial para el controlador 62 de cuantificación (QC).
Tal como se ilustra en la figura 2(b), la frecuencia puede recuperarse a partir de la fase \hat{\psi} desempaquetada mediante diferenciación. Suponiendo que el error de fase en el descodificador es aproximadamente blanco y puesto que la diferenciación amplifica las altas frecuencias, la diferenciación puede combinarse con un filtro paso bajo para reducir el ruido y, por tanto, para obtener una estimación precisa de la frecuencia en el descodificador.
En la realización preferida, una unidad 58 de filtrado (FR, filtering unit) aproxima la diferenciación que es necesaria para obtener la frecuencia \hat{\omega} a partir de la fase desempaquetada mediante procedimientos como diferencias hacia delante, hacia atrás o centrales. Esto permite al descodificador producir como salida las fases \hat{\psi} y frecuencias \hat{\omega} que pueden utilizarse de una manera convencional para sintetizar la componente sinusoidal de la señal codificada.
Al mismo tiempo, cuando están sintetizándose las componentes sinusoidales de la señal, el código C_{N} de ruido se proporciona a un sintetizador 33 de ruido NS (noise synthesizer), que es principalmente un filtro, que tiene una respuesta en frecuencia que se aproxima al espectro del ruido. El NS 33 genera ruido y_{N} reconstruido filtrando una señal de ruido blanco con el código C_{N} de ruido. La señal y(t) total comprende la suma de la señal y_{T} transitoria y el producto de cualquier descompresión (g) de amplitud y la suma de la señal y_{S} sinusoidal y la señal y_{N} de ruido. El reproductor de audio comprende dos sumadores 36 y 37 para sumar las respectivas señales. La señal total se proporciona a una unidad 35 de salida, que es por ejemplo un altavoz.
La figura 6 muestra un sistema de audio según la invención que comprende un codificador 1 de audio tal como se muestra en la figura 1 y un reproductor 3 de audio tal como se muestra en la figura 4. Tal sistema ofrece características de reproducción y grabación. El flujo de audio AS se proporciona desde el codificador de audio al reproductor de audio sobre un canal 2 de comunicación, que puede ser una conexión inalámbrica, un bus de datos 20 o un medio de almacenamiento. En caso de que el canal 2 de comunicación sea un medio de almacenamiento, el medio de almacenamiento puede estar fijado en el sistema o puede ser un disco extraíble, tarjeta de memoria, etc. El canal 2 de comunicación puede ser parte del sistema de audio, pero sin embargo, a menudo estará fuera del sistema de audio.

Claims (3)

1. Procedimiento de descodificación de un flujo de audio, comprendiendo el procedimiento las etapas de:
leer un flujo de audio (AS') codificado que incluye códigos (r) sinusoidales que representan una fase (\psi) para cada pista de componentes sinusoidales enlazadas,
para cada pista, generar (56) un valor (\hat{\psi}) monótonamente cambiante en general a partir de dichos códigos (r) que representan dicha fase;
filtrar (58) dicho valor generado para proporcionar una estimación de frecuencia (\hat{\omega}) para una pista; y
emplear (32) dichos valores generados y dichas estimaciones de frecuencia para sintetizar dichas componentes sinusoidales de dicha señal de audio.
2. Reproductor (3) de audio que comprende:
medios para leer un flujo de audio (AS') codificado que incluye códigos (r) sinusoidales que representan una fase (\psi) para cada pista de componentes sinusoidales enlazadas,
un desempaquetador (56) de fase para generar, para cada pista, un valor (\hat{\psi}) monótonamente cambiante en general a partir de dichos códigos (r) que representan dicha fase;
un filtro (58) para filtrar dicho valor generado para proporcionar una estimación de frecuencia (\hat{\omega}) para una pista; y
un sintetizador (32) dispuesto para emplear dichos valores generados y dichas estimaciones de frecuencia para sintetizar dichas componentes sinusoidales de dicha señal de audio.
3. Sistema de audio que comprende un codificador (1) de audio y un reproductor (3) de audio según la reivindicación 2.
ES03758591T 2002-11-29 2003-11-06 Descodificacion de audio. Expired - Lifetime ES2298568T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02080002 2002-11-29
EP02080002 2002-11-29

Publications (1)

Publication Number Publication Date
ES2298568T3 true ES2298568T3 (es) 2008-05-16

Family

ID=32405734

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03758591T Expired - Lifetime ES2298568T3 (es) 2002-11-29 2003-11-06 Descodificacion de audio.

Country Status (14)

Country Link
US (1) US7664633B2 (es)
EP (1) EP1568012B1 (es)
JP (1) JP4606171B2 (es)
KR (1) KR101016995B1 (es)
CN (1) CN100559467C (es)
AT (1) ATE381092T1 (es)
AU (1) AU2003274617A1 (es)
BR (1) BR0316663A (es)
DE (1) DE60318102T2 (es)
ES (1) ES2298568T3 (es)
MX (1) MXPA05005601A (es)
PL (1) PL376861A1 (es)
RU (1) RU2353980C2 (es)
WO (1) WO2004051627A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
ATE452401T1 (de) 2003-10-13 2010-01-15 Koninkl Philips Electronics Nv Audiocodierung
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
KR101410229B1 (ko) * 2007-08-20 2014-06-23 삼성전자주식회사 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
US9117459B2 (en) 2010-07-19 2015-08-25 Dolby International Ab Processing of audio signals during high frequency reconstruction
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
PL232466B1 (pl) 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4151471A (en) * 1977-11-04 1979-04-24 Burns Richard C System for reducing noise transients
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5119397A (en) * 1990-04-26 1992-06-02 Telefonaktiebolaget L M Ericsson Combined analog and digital cellular telephone system having a secondary set of control channels
PL173718B1 (pl) * 1993-06-30 1998-04-30 Sony Corp Sposób i urządzenie do kodowania sygnałów cyfrowych
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US5796842A (en) * 1996-06-07 1998-08-18 That Corporation BTSC encoder
DE69702261T2 (de) * 1996-07-30 2001-01-25 British Telecomm Sprachkodierung
US7295752B1 (en) * 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
CN1154975C (zh) 2000-03-15 2004-06-23 皇家菲利浦电子有限公司 用于声频编码的拉盖尔函数
WO2001099097A1 (en) * 2000-06-20 2001-12-27 Koninklijke Philips Electronics N.V. Sinusoidal coding
ATE330309T1 (de) * 2001-01-16 2006-07-15 Koninkl Philips Electronics Nv Verknüpfen von signalkomponenten bei der parametrischen codierung
JP3574123B2 (ja) * 2001-03-28 2004-10-06 三菱電機株式会社 雑音抑圧装置
US7184951B2 (en) * 2002-02-15 2007-02-27 Radiodetection Limted Methods and systems for generating phase-derivative sound
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
TWI253625B (en) * 2004-04-06 2006-04-21 I-Shun Huang Signal-processing system and method thereof

Also Published As

Publication number Publication date
AU2003274617A1 (en) 2004-06-23
US7664633B2 (en) 2010-02-16
WO2004051627A1 (en) 2004-06-17
MXPA05005601A (es) 2005-07-26
JP4606171B2 (ja) 2011-01-05
ATE381092T1 (de) 2007-12-15
PL376861A1 (pl) 2006-01-09
EP1568012B1 (en) 2007-12-12
JP2006508394A (ja) 2006-03-09
KR20050086871A (ko) 2005-08-30
DE60318102T2 (de) 2008-11-27
EP1568012A1 (en) 2005-08-31
AU2003274617A8 (en) 2004-06-23
CN1717719A (zh) 2006-01-04
RU2353980C2 (ru) 2009-04-27
CN100559467C (zh) 2009-11-11
KR101016995B1 (ko) 2011-02-28
RU2005120380A (ru) 2006-01-20
BR0316663A (pt) 2005-10-11
DE60318102D1 (de) 2008-01-24
US20060036431A1 (en) 2006-02-16

Similar Documents

Publication Publication Date Title
ES2298568T3 (es) Descodificacion de audio.
ES2306235T3 (es) Codificacion de audio multicanal compatible estereo.
ES2250197T3 (es) Codificador de voz armonico-lpc con estructura de supertrama.
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES2322264T3 (es) Codificacion de audio de baja tasa de transmision de bits.
BRPI0716308B1 (pt) “dispositivo e método para pós-processamento de valores espectrais e codificador e decodificador de sinais de áudio&#34;
US20170162207A1 (en) Method and apparatus for encoding and decoding noise signal
US7596490B2 (en) Low bit-rate audio encoding
KR20060052854A (ko) 오디오 파일 포맷 변환
ES2337903T3 (es) Codificacion de audio.
ES2248549T3 (es) Edicion de señales de audio.
US20060009967A1 (en) Sinusoidal audio coding with phase updates
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
JP2004362721A (ja) データ生成方法およびデータ生成装置、データ再生方法およびデータ再生装置、並びにプログラム
KR20070019650A (ko) 오디오 인코딩