ES2376178T3 - Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación. - Google Patents

Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación. Download PDF

Info

Publication number
ES2376178T3
ES2376178T3 ES08805992T ES08805992T ES2376178T3 ES 2376178 T3 ES2376178 T3 ES 2376178T3 ES 08805992 T ES08805992 T ES 08805992T ES 08805992 T ES08805992 T ES 08805992T ES 2376178 T3 ES2376178 T3 ES 2376178T3
Authority
ES
Spain
Prior art keywords
signal
noise
quantification
decoded
decoded signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08805992T
Other languages
English (en)
Inventor
Jean-Luc Garcia
Claude Marro
Balazs Kovesi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2376178T3 publication Critical patent/ES2376178T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Procedimiento de tratamiento de una señal audio digital, habiendo sido dicha señal: - codificada para su compresión (COD) de acuerdo con un tipo de codificado predeterminado, aplicando una operación de cuantificación, y después - decodificada (DEC), comprendiendo el procedimiento de tratamiento: - una estimación (S4) de un ruido de cuantificación que introduce el codificado de compresión a partir de la información (INF) obtenida a priori sobre el tipo de codificación de compresión, y - una determinación (S5) de una función de filtrado a aplicar a la señal decodificada para aplicar (S6) un tratamiento de reducción del ruido de cuantificación estimado (TRC), y caracterizado porque: - se estima, a partir de dicha información (INF), una variación (figura 4) del ruido de cuantificación (RSR) en función de al menos un parámetro relativo a un parámetro de carga (Γ) de la señal decodificada, y - en función de un valor actual de dicho parámetro (Γ) en la señal decodificada (S52, S53), se estima (S55; S56) el ruido de cuantificación para determinar la función de filtrado (S57) a aplicar (S58) en la señal decodificada que tiene dicho valor actual de parámetro (Γ).

Description

Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación
5 La presente invención se refiere a un tratamiento de señales, en particular de señales audio digitales en el ámbito de las telecomunicaciones, pudiendo ser dichas señales, por ejemplo, señales de voz, de música, u otras.
En general, el flujo necesario para hacer transitar una señal audio y/o vídeo con suficiente calidad es un parámetro importante en telecomunicaciones. A fin de reducir dicho parámetro y aumentar el número de comunicaciones posibles a través de una misma red, se han desarrollado codificadores de audio, concretamente para comprimir la cantidad de información necesaria para transmitir una señal.
Ciertos codificadores permiten alcanzar tasas particularmente altas de compresión de la información. Tales codificadores utilizan en general técnicas avanzadas de modelización y cuantificación de la información. De esta
15 manera, tales codificadores sólo transmiten modelos o datos parciales de la señal.
La señal decodificada, aunque no sea idéntica a la señal original (puesto que una parte de la información no se ha transmitido debido a la operación de cuantificación) sigue siendo, sin embargo, muy similar a la señal original. La diferencia, desde el punto de vista matemático entre la señal decodificada y la señal original se denomina entonces «ruido de cuantificación». También puede hablarse de «distorsión» introducida por la codificación/decodificación.
Los tratamientos de compresión de señales, con frecuencia se conciben de manera que minimicen el ruido de cuantificación y, en particular, para volver dicho ruido de cuantificación lo menos audible posible a la hora de tratar una señal audio. Existen, pues, técnicas que toman en consideración las características psicoacústicas de la
25 audición con objeto de «enmascarar» dicho ruido. No obstante, para obtener flujos lo más débiles posible, a veces, el ruido puede permanecer audible lo que, en ciertas circunstancias, degrada la inteligibilidad de la señal.
A fin de reducir dicho ruido, habitualmente se utilizan dos familias de técnicas.
Es posible, en un principio, utilizar un post-filtro perceptual, como los que se utilizan, por ejemplo, en los decodificadores de voz de tipo CELP (de «Code Excited Linear Prediction»). Se trata de efectuar un filtrado que mejore la calidad subjetiva al precio de una distorsión. De hecho, se aplica una atenuación de la señal en las zonas en las que el ruido de cuantificación es más audible (concretamente entre los formantes). Los post-filtros perceptuales modernos procuran buenos resultados para las señales de voz, pero peores resultados para otro tipo
35 de señales (por ejemplo, las señales musicales).
En efecto, se describe un post-filtro de mejora de voz codificada en el documento Chen et al: “Adaptive Postfiltering for Quality Enhancement of Coded Speech”, Chen J.H., Gersho A., IEEE Trans. On Speech and Audio Proc., (enero de 1995).
El modelo descrito se basa en una división en dos secciones:
-
una sección a «largo plazo» refuerza los harmónicos (harmónicos de la frecuencia fundamental) y acentúa los
valles espectrales entre dichos harmónicos, y 45
-
una sección a «corto plazo» refuerza los formantes y también acentúa los valles espectrales entre dichos formantes.
Los harmónicos y los formantes son características espectrales bien conocidas de la voz, pero aplicar este tipo de tratamiento en otra señal distinta a la de la voz genera fuertes distorsiones. Por ejemplo, la riqueza espectral de una señal musical no puede tratarse con un modelo sencillo de señal como éste.
De esta manera, los post-filtros perceptuales pueden generar distorsiones, debido a que se basan sobre un modelo que no es lo suficientemente preciso. Además, el post-filtro perceptual generalmente es ineficaz en los periodos de
55 silencio. La solicitante ha podido observar estos problemas experimentalmente, ya que en un primer momento buscaba integrar este tipo de post-filtros perceptuales en decodificadores que no son de tipo CELP, por ejemplo en decodificadores de acuerdo con la norma G.711 o la norma G.722.
El documento US 2003/0182104 describe la modificación de una señal audio digital en una etapa de decodificación en base a un modelo psicoacústico. Una modificación como ésta sería aplicable a las señales codificadas de acuerdo con un modelo perceptual, siempre y cuando la distribución del ruido de cuantificación pueda deducirse a partir de los datos codificados.
Otra familia de tratamiento se refiere a los tratamientos clásicos de reducción de ruido para distinguir la señal útil de
65 los ruidos parásitos. Este tipo de tratamiento permite por lo tanto reducir el ruido vinculado al entorno de captura de la señal y con frecuencia se utiliza para las señales de voz. Sin embargo, en este caso, es imposible volver transparente el tratamiento con respecto al ruido vinculado al entorno de la toma de sonido, lo que plantea un problema, en concreto para la decodificación de las señales musicales. De esta manera, cuando se codifica/decodifica es posible que se quiera transmitir el ruido ambiente y entonces sería deseable que la reducción de ruido no se aplicara a este tipo de ruido.
5 La presente invención viene a mejorar la situación.
A tal efecto, propone un procedimiento para tratar una señal codificada para su compresión de acuerdo con un tipo de codificación predeterminada, aplicando una operación de cuantificación, y que después se descodifica. El procedimiento en el sentido de la invención se define en la reivindicación 1.
En el presente documento se entiende por el término «tratamiento de reducción de ruido» a una operación del tipo descrito más adelante, que consiste en extraer la señal útil de la señal a tratar, filtrando las señales parásitas, por ejemplo definiendo una función de ganancia que interviene en un filtro aplicado a la señal decodificada. En este
15 documento, el ruido de cuantificación se filtra de esta manera.
Se trata por lo tanto de una eliminación de ruidos clásica pero que se aplica en este documento para reducir el ruido de cuantificación. Dicha eliminación de ruidos, no se emparenta de ninguna manera con un post-filtrado perceptual del tipo descrito en Chen et al, el cual se apoya completamente en las características y la dinámica de la señal, mientras que el tratamiento de reducción de ruido, de acuerdo con la invención, se apoya más bien en la determinación del ruido de cuantificación.
De esta manera, se prevé un tipo de tratamiento de reducción de ruido propio de cada tipo de codificación y compresión realizada. La manera misma de estimar las características del filtro de reducción de ruido (tipo de
25 función de ganancia, parámetros de la función de ganancia, etc.) depende del tipo de codificación que se realice.
Se verá, en particular en los ejemplos de realización que se aportan mas adelante, que el ruido de cuantificación en si mismo depende en gran medida del tipo de codificación que se realice. Se verá que es posible establecer una variación del ruido de cuantificación en función de una variación de la señal decodificada, y que dicha variación del ruido de cuantificación es propia del tipo de codificación puesto en práctica.
De esta manera:
-
se estima, a partir de la información sobre el tipo de codificación, una variación del ruido de cuantificación en 35 función de al menos un parámetro de la señal de codificada, y
-
en función de un valor actual de dicho parámetro en la señal decodificada, se estima el ruido de cuantificación para determinar la función de filtrado a aplicar a la señal decodificada que tenga dicho valor actual de parámetro.
Se entenderá por lo tanto que la información sobre el tipo de codificación de compresión sea información a priori, independiente de las características de la señal y que ventajosamente puede deducirse que:
-
un modelo de variación de la relación señal a ruido de cuantificación, en función de al menos un parámetro de la
señal decodificada, y/o 45
-
una coloración espectral del ruido de cuantificación (es decir, una variación espectral del ruido de cuantificación en función de las características de la señal decodificada).
En un posible modo de realización, la información a priori sobre el tipo de codificación de compresión se obtiene a partir de un procedimiento de declaración del codificador.
La invención se adapta particularmente al caso en el que el tipo de codificación de compresión sea una codificación de acuerdo con la norma G.711.
55 La presente invención también se refiere a un dispositivo de tratamiento de una señal inicialmente codificada para su compresión de acuerdo con un tipo de codificación predeterminado, y que después se decodifica. El dispositivo se define en la reivindicación 6.
De manera más general, el dispositivo comprende ventajosamente medios para la puesta en práctica del procedimiento descrito más adelante.
Resulta ventajoso que un dispositivo de este tipo se integre en un decodificador, a la salida de una unidad de decodificación, tal y como se ilustra en la figura 1, que representa un dispositivo TRC del tipo antedicho a la salida de la unidad de decodificación DEC. Dicha figura 1 se describirá en detalle más adelante.
65 La presente invención también se refiere a un programa informático, destinado a estar almacenado en la memoria de un dispositivo de tratamiento del tipo antedicho, y que comprende instrucciones para calcular el ruido de cuantificación, así como los parámetros de un filtro de reducción del ruido de cuantificación, cuando estas instrucciones las ejecuta un procesador del dispositivo de tratamiento.
5 Una realización ventajosa puede consistir en prever una serie de instrucciones para cada tipo de codificación que se ponga en práctica, y definir, en cada serie de instrucciones, una variación del ruido de cuantificación en función de la señal decodificada. De esta manera, a la recepción de la información a priori, se selecciona la serie de instrucciones adecuada. Con dicha serie de instrucciones:
10 - se calcula el ruido de cuantificación presente en la señal decodificada, y
-
se calculan los parámetros del post-filtro correspondientes a dicho ruido de cuantificación, para limitar, e incluso suprimir, dicho ruido.
15 Las instrucciones sobre la variación del ruido de cuantificación pueden programarse fuera de línea, en base a las observaciones (teóricas o experimentales según los ejemplos de realización que se describirán más adelante) que se hacen sobre el tipo de codificación utilizado. La manera en la que dichas instrucciones se ejecutan, en sí misma, se describirá más adelante en detalle, con referencia a las figuras 2 y 5 que pueden entonces constituir organigramas de un programa informático, de acuerdo con la invención.
20 De esta manera, la invención propone un post-tratamiento que se efectúa tras la decodificación y que utiliza información a priori sobre las características de la operación de cuantificación que efectúa el codificador. El tipo de tratamiento (o «modelo de tratamiento» de acuerdo con los términos genéricos anteriores) que se seleccionará para tratar la señal es independiente de las características de la señal misma. Por supuesto, el tratamiento en sí
25 (concretamente la estimación de la función de ganancia) puede depender de la señal, por ejemplo de su energía o de su potencia. Por el contrario, bien se trate de tratar una señal de música, una señal de voz, o cualquier otra señal (de naturaleza armónica, impulsiva, etc.), el tipo de tratamiento es el mismo y no se basa sólo, por ejemplo, en la energía de la trama decodificada que se recibe. De hecho, es posible conocer de forma teórica las características del ruido de cuantificación, concretamente en función de las distintas familias de codificadores. De acuerdo con la
30 invención, se utiliza entonces dicha información para estimar las amplitudes que se aprovechan para definir al menos una función de ganancia de una unidad de reducción de ruido que interviene a la salida de una unidad de decodificación.
De esta manera, la invención permite reducir el ruido de cuantificación (y por lo tanto la distorsión) que introduce 35 habitualmente un codificador de compresión de señales al ejecutar una operación de cuantificación.
De acuerdo con una de las ventajas que propone la presente invención, es posible guardar una misma estructura de codificación/decodificación sin aportar a ésta ninguna modificación y asegurar por lo tanto, una mejor calidad de la señal de codificada, y esto, sin aumentar la cantidad de información a transmitir por el codificador.
40 De acuerdo con otra ventaja, la invención permite reducir ventajosamente sólo el ruido de cuantificación, incluso en los periodos de silencio, y esto, para todo tipo de señal.
De acuerdo con otra ventaja más, la puesta en práctica de la invención no efectúa una reducción de ruido clásica y 45 por lo tanto no modifica el ruido vinculado al entorno de captura de la señal.
Habrá que recordar, en particular, que la puesta en práctica de la invención permite reducir, incluso suprimir, el ruido de cuantificación, sin distorsionar la señal y esto, para todo tipo de señales, simplemente utilizando información a priori sobre el tipo de codificador que se utiliza (por ejemplo las características del modelo de compresión del
50 codificador, las características del cuantificador, u otra).
La presente invención encuentra una aplicación ventajosa en el campo del tratamiento de la voz y de la música, y de forma más general en el tratamiento de señales, concretamente, de imágenes, en cuanto un codificador cualquiera tenga que introducir un ruido de cuantificación.
55 De forma más general, la invención se aplica a todos los ámbitos en los que se busque reducir el ruido de cuantificación de una señal.
Otras características y ventajas de la invención aparecerán tras el examen de la descripción detallada más adelante, 60 y de los dibujos adjuntos en los que:
-
la figura 1 ilustra esquemáticamente la estructura general de una unidad de tratamiento, de acuerdo con la invención,
-
la figura 3 ilustra una variación de la ley de compresión (denominada «ley A») de las amplitudes, en una codificación de acuerdo con la norma G.711 para ilustrar un ejemplo de realización de la invención,
65 - la figura 2 ilustra esquemáticamente las etapas de un procedimiento, de acuerdo con la invención,
-
la figura 4 ilustra la variación de la relación señal a ruido de cuantificación RSR en función del factor de carga, 5 obteniendo dicha variación, de la variación que se ilustra en la figura 3,
-
la figura 5 ilustra las etapas de un ejemplo de tratamiento en el caso de una codificación, de acuerdo con la norma G.711, que se basa en concreto en las observaciones de las variaciones de las figuras 3 y 4,
-
la figura 6 ilustra un ejemplo del espectro de la señal (curva de trazo discontinuo) y del espectro del ruido de cuantificación (curva con trazo continuo) para una codificación de acuerdo con la norma G.722,
-
la figura 7 ilustra un ejemplo de forma de onda de una señal de voz S * (curva superior) y la relación señal a ruido de
cuantificación correspondiente RSR (curva inferior), para una codificación/decodificación, de acuerdo con la norma 15 G.722,
-
l a figura 8 es una nube de puntos que ilustra, por cada segmento de 80 muestras, la correlación entre la relación señal a ruido RSR y la energía de la señal, en la aplicación a una codificación/decodificación, de acuerdo con la norma G.722,
-
la figura 9 muestra los segmentos de señal (en negro) donde el error de estimación de la relación señal a ruido de cuantificación RSR es superior a 6 dB mientras que la relación RSR es inferior a 25 dB, en la aplicación a una codificación/decodificación, de acuerdo con la norma G.722,
25 - la figura 10 retoma la nube de puntos que representa, para cada segmento, la energía del ruido en función de la energía de la señal, ilustrando en este caso, la estimación del nivel de ruido (línea con trazos mixtos), la zona donde el error de estimación es inferior a 6 dB (líneas con trazos discontinuos), y la delimitación para la cual la relación RSR es superior a 25 dB (línea con trazo continuo).
En primer lugar, se hace referencia a la figura 1 en la que una señal S:
-
se codifica para su compresión con un codificador COD, de tipo conocido, aplicando en concreto una operación de cuantificación Q a la señal S,
35 - se transmite a través de un canal de transmisiones CA, y después
-
se descodifica mediante un decodificador DEC homólogo del codificador COD.
La señal decodificada de esta manera, denominada S *, presenta entonces un ruido de cuantificación que se define matemáticamente como una desviación (S * - S) con respecto a la señal de origen S.
Con referencia, de nuevo, a la figura 1, se prevé, de acuerdo con la invención, a la salida del decodificador DEC, una unidad de tratamiento de reducción del ruido de cuantificación TRC para suprimir o al menos limitar el ruido de cuantificación en la señal S *.
45 A tal efecto, la unidad TRC comprende al menos una entrada E para recibir del decodificador DEC información INF sobre el tipo de codificación/decodificación aplicado, lo que permite seleccionar entonces el modelo de tratamiento de reducción de ruido a poner en práctica. En particular, se estima a partir de la señal recibida y decodificada S *, y en función del tipo de codificación/decodificación puesto en práctica, la influencia del ruido de cuantificación en la señal recibida S *. A tal efecto, se prevé un módulo de cálculo para dar una estimación del ruido de cuantificación RC, en base al modelo seleccionado y en función de la señal recibida S *. Este módulo de cálculo típicamente puede presentarse en forma de combinación de un procesador y de una memoria de trabajo (no se representados). A partir del ruido de cuantificación estimado RC, sencillamente se trata el ruido estimado RC aplicando un filtrado clásico FIL a la señal S * para al final transmitir una señal tratada S *T. Conviene insistir de nuevo en el hecho de que los
55 parámetros PAR del filtro FIL que se aplican a la señal S * (por ejemplo una función de ganancia para el filtrado de la señal) se determinan para reducir en particular, el ruido de cuantificación estimado RC.
De hecho, con referencia a la figura 2, a partir de la información INF que se recibe sobre el tipo de codificación/decodificación empleada (etapa S2), se determina un modelo (etapa S3) de tratamiento de reducción de ruido. Se verá en los ejemplos de realización descritos más adelante, que el modelo de reducción de ruido de cuantificación que se selecciona puede ser diferente, por ejemplo, según el hecho de que la señal se codifique/decodifique, de acuerdo con la norma G.711 o se codifique/decodifique, de acuerdo con la norma G.722.
De esta manera, cuando la señal se recibe en bloques sucesivos (o tramas denominadas TRi en la etapa S1), se
65 estima (etapa S4) un nivel de ruido de cuantificación propio del modelo elegido. Como se verá en los ejemplos, más adelante, es ventajoso estimar el nivel de ruido de cuantificación a partir del cálculo de la relación señal a ruido de cuantificación (denominado RSR). Esta información RSR depende de la señal decodificada S *, pero también del tipo de codificación puesto en práctica. De esta manera, conocer a priori la codificación, mediante la obtención de la información INF permite, junto con ciertas características estadísticas de la señal S *, estimar, en este caso, la relación de la señal sobre el ruido de cuantificación RSR.
5 Esta etapa S4 precisa por lo tanto conocer a priori el tipo de codificador que se ha utilizado, información que puede obtenerse, por ejemplo, durante el procedimiento de declaración del codificador llamada «transacción del codificador», que se supone adquirida.
10 El tipo de codificador, las características de su modelo de compresión y de su cuantificador C, permiten estimar una evolución de la relación señal a ruido de cuantificación, en función de ciertos parámetros estadísticos de la señal, como por ejemplo su varianza, la densidad espectral de su potencia, u otros. Esta correlación entre la relación señal a ruido de cuantificación y los parámetros estadísticos de la señal pone en juego leyes propias del codificador que se describirán más adelante para algunos ejemplos de realización.
15 Los parámetros estadísticos necesarios pueden calcularse mediante estimadores de magnitudes clásicas (por ejemplo la varianza). En función de dichas estimaciones, puede extrapolarse una estimación de la relación señal a ruido de cuantificación. Las estimaciones pueden realizarse indiferentemente en los dominios temporal, frecuencial,
o cualquier otro dominio tiempo-frecuencia (transformado en pequeñas ondas, por ejemplo).
20 De nuevo con referencia a la figura 2, la siguiente etapa S5 consiste en calcular los parámetros del filtro para reducir el ruido de cuantificación en la señal recibida S *. Conocer la relación señal a ruido permite deducir la expresión de un filtro de reducción del ruido de cuantificación, de aquí en adelante denominado «post-filtro» (a la salida del decodificador). De hecho es posible deducir la expresión de un filtro digital cuyo objetivo es reducir un ruido del cual
25 la mayoría de las características se conocen a priori (su densidad espectral de potencia, por ejemplo) y cuyo nivel se determina a partir de la estimación de la relación de la señal sobre el ruido de cuantificación que se obtuvo en la etapa anterior S4. Por ejemplo, el cálculo del filtro puede realizarse en el dominio frecuencial y poner en práctica cualquier técnica de atenuación espectral a corto plazo (una sustracción espectral, un filtro de Wiener, u otro). El cálculo del post-filtro en la etapa S5 puede efectuarse en los dominios temporal, frecuencial o cualquier otro dominio
30 tiempo-frecuencia.
Para terminar, la etapa de tratamiento de reducción de ruido S6, propiamente dicha, en este documento se reduce a filtrar la señal decodificada S * con el post-filtro que se calculó en la etapa S5. Esta etapa S6 puede realizarse en el dominio temporal o frecuencial, de acuerdo con las restricciones vinculadas a la puesta en práctica y el dominio de
35 estimación de los parámetros PAR y de la relación RSR en las etapas anteriores. Finalmente se obtiene una trama TRi' que se trata para la eliminación del ruido de cuantificación en la etapa S7.
A continuación se describe un ejemplo de puesta en práctica de la invención para una codificación/decodificación de acuerdo con la norma G.711 (según la ley europea, llamada « ley A »).
40 La representación digital tradicional de las señales monodimensionales recurre a una cuantificación uniforme de las muestras. De esta manera, en ausencia de desbordamiento de la capacidad del cuantificador, la relación señal a
;
ruido (RSR) de cuantificación depende de la varianza σ x de la señal, de los niveles de saturación xmax que se
determinan por la dinámica, y por supuesto del número de bits b que se utilizan para la representación de las 45 muestras, de acuerdo con una expresión del tipo:
o bien en dB:
x
max
La magnitud Γ= representa un parámetro denominado «factor de carga», que determina la calidad de
σ
x
utilización de la dinámica del cuantificador disponible por la señal, donde:
-
xmax es el nivel digital de amplitud máxima posible de una muestra de acuerdo con el cuantificador seleccionado, y
-
Ox es la desviación típica de la señal (raíz cuadrada de la varianza) que, para un bloque completo de muestras (o «trama»), puede estimarse por la raíz cuadrada de la potencia media Pm de la señal de ese bloque.
La expresión (1) depende en gran medida del valor de este parámetro Γ. Se constata en particular, que se obtiene la 5 máxima relación señal a ruido para una señal a fondo de escala y que decrece rápidamente si la amplitud de la señal disminuye.
Los límites a baja velocidad de la ley de cuantificación uniforme llevaron a desarrollar una ley de cuantificación cuya relación señal a ruido de cuantificación era aproximadamente independiente de la varianza de la señal para una 10 amplia dinámica de señales. Eso es lo que realiza la ley de cuantificación logarítmica de codificación de acuerdo con la norma G.711 (denominada «Ley A» en Europa, o «Ley μ» en América del norte).
La ley A que se usa en Europa se define por una expresión dependiente del valor x de la muestra cuantificada, tal y como sigue: 15
Con referencia a la figura 3, la primera variación de la ley de compresión (0: |x|/xmax < A-1) es lineal, engendra una ley de cuantificación uniforme y de aquí en adelante se denomina «variación uniforme», mientras que la segunda 20 variación de la ley de compresión (A-1 : |x|/xmax : 1) es logarítmica, y de aquí en adelante se denomina «variación logarítmica».
La ley europea utiliza un valor de A = 87,56 (que satisface digitalmente la ecuación A/(1 + ln A) = 16).
25 A partir de estas observaciones es posible calcular la relación señal a ruido de cuantificación para una compresión de acuerdo con la ley A, tal y como sigue.
Para señales de baja intensidad (parte uniforme de la ley de compresión), la ley A garantiza una relación señal a ruido de cuantificación superior (en dB) a 10log(A/(1+ln A)) al obtenido mediante una cuantificación uniforme sobre el 30 mismo número de niveles, cuya expresión viene dada por:
Para las señales de mayor amplitud (parte logarítmica de la ley de compresión), la relación señal a ruido de 35 cuantificación es constante e igual a 38,16 dB (para b = 8 bits):
La figura 4 representa la evolución de la relación señal a ruido de cuantificación RSR, para una ley A con b = 8 bits. 40 Se identifica inmediatamente:
-
una primera parte creciente, correspondiente a la variación uniforme de la ley de compresión, y
-
una parte, constante, a continuación, correspondiente a la variación logarítmica de dicha ley.
45 Para tratar la reducción del ruido de cuantificación que introduce una codificación de acuerdo con la norma G.711, en este documento, se explotan dos tipos de información:
-
la relación señal a ruido de cuantificación que viene dada por las ecuaciones (3) y (4) anteriores, y 50 - la información, bien conocida, según la cual dicho ruido es "blanco" para este tipo de codificación.
La puesta en práctica del tratamiento de reducción de ruido de cuantificación se basa en aprovechar esta información a priori. Requiere en concreto, realizar una estimación del factor de carga Γ, parámetro del que depende 5 la potencia del ruido de cuantificación, tal y como sigue.
Con referencia a la figura 5, se estima la potencia media Pm de un bloque actual TRi (etapa S52), y, a partir de ahí, el factor de carga Γ, que varía como la inversa de la raíz cuadrada de la potencia media (etapa S53). Se considera, de hecho, que el numerador xmax del factor de carga es aquí constante (a un nivel de saturación constante). En la
10 prueba P54, el valor hallado para el factor de carga Γ se compara con la de un umbral Γs que define el punto de inflexión de la ley de compresión (figura 4), tal y como sigue:
-
si el factor de carga Γ es tal que -20.log(Γ) > -20.log(Γs) = 38,16 - 64,97∼= -27dB (flecha o a la salida de la prueba
P54), entonces la relación señal a ruido de cuantificación es constante y vale RSRM∼=+38dB (meseta de la figura 4), 15 como se fija en la etapa S55,
-
si no es así (flecha n a la salida de la prueba P54), entonces la relación señal a ruido de cuantificación RSR puede calcularse de acuerdo con una variación lineal en función del factor de carga extraído de la ecuación (3):
tal y como se fija en la etapa S56.
Se evalúa a continuación la función de ganancia (etapa S57) para la aplicación del post-filtro (etapa S58). A modo de
25 ejemplo, meramente ilustrativo, puede preverse un filtro de Wiener a modo de función de ganancia g(RSR). La expresión del filtro de Wiener fw puede venir dada por el valor de la relación señal a ruido de cuantificación RSR, que se calculó anteriormente, teniendo en cuenta, por supuesto, de su dependencia en frecuencia con:
g(RSR) =fw = RSR / (RSR + 1)
30 donde, en este caso, el valor RSR no se expresa en dB sino en valores naturales.
Ventajosamente, podría preverse aligerar el tratamiento de reducción de ruido, en particular para las señales con una baja relación señal a ruido de cuantificación, por lo tanto con un escaso nivel de amplitud (para los factores de
35 carga tales como -20.log(Γ) < -50dB en la figura 4), previendo eventualmente:
-
umbrales del post-filtro, y/o
-
un detector de actividad vocal para las señales de voz (con un tratamiento de reducción de ruido de cuantificación 40 más ligero durante los periodos de inactividad vocal).
Se indica que una variante del tratamiento que se presenta, en este documento, es reducir el ruido de cuantificación, muestra a muestra, en vez de un tratamiento por bloques sucesivos. En este caso, el factor de carga viene dado directamente por el nivel de amplitud de la muestra (inversa de la raíz cuadrada de la amplitud) y la continuación del
45 tratamiento es similar a la presentada anteriormente.
Ahora se describe otra posible aplicación de la invención a un tipo de codificación diferente, en este caso la codificación es de acuerdo con la norma G.722.
50 La codificación ITU-T G.722, normalizada en 1988 para las aplicaciones de audioconferencia por un canal digital de 64 kbit/s, todavía se usa mucho. Se trata de una codificación/decodificación jerárquica a tres velocidades: 64, 56 y 48 kbit/s. La señal se divide en dos sub-bandas con un filtro denominado QMF (de «Quadrature Mirror Filter» (Filtro de espejo en cuadratura). Las dos bandas obtenidas se codifican con un codificador MICDA (de "Modulación de Impulsión y Codificación Diferencial Adaptativo", también llamado ADPCM por sus siglas en inglés (de « Adaptive
55 Differential Pulse Code Modulation»).
La banda alta se codifica a 2 bits por muestra. La diferencia entre las tres velocidades procede de la banda baja que se codifica a 6 bits por muestra para la velocidad más alta, aunque es posible reservar el último o los dos últimos bits para la transmisión de datos.
60 La calidad de la velocidad más alta es muy buena, en cambio el ruido de codificación se vuelve muy audible y molesto a la velocidad más baja de 48 kbit/s. El tratamiento de reducción del ruido de cuantificación en el sentido de la invención puede aplicarse ventajosamente en este caso.
Ya, las características del ruido de cuantificación pueden estimarse eficazmente a partir de la señal decodificada. Tal y como se ilustra en la figura 6, el espectro del ruido de cuantificación (curva con trazo continuo) es siempre plano, independientemente del espectro de la señal (curva con trazos discontinuos). La relación señal a ruido de cuantificación depende de la potencia media de la señal y de su naturaleza. En la figura 7, puede observarse que la
5 relación señal a ruido de cuantificación (RSR) se correlaciona en gran medida con la potencia media de la señal S *. En el ejemplo que se representa, la relación RSR se estima para segmentos de 80 muestras (5 ms para una frecuencia de muestreo de 16 kHz).
La representación en forma de nubes de puntos de la figura 8 ilustra aún mejor la correlación entre la potencia media de la señal (eje de las abscisas) y la relación señal a ruido de cuantificación (eje de las ordenadas), que se calcula por segmentos de 80 muestras.
De esta observación, puede deducirse una primera regla simple de estimación de la relación RSR en función de la potencia media Pmed del segmento (recta de correlación representada con una línea discontinua en la figura 8), que
15 viene dada por:
donde CST es una constante que vale, en el ejemplo de la figura 8, aproximadamente 10 dB.
Se entenderá a partir de esta expresión, que la potencia media del ruido, que en este documento se determina experimentalmente, es constante CST = 10 dB, y esto, independientemente de la potencia media de la señal, de forma que la relación RSR aumente adecuadamente con la potencia media de la señal.
25 La mejor estimación de la relación señal a ruido de cuantificación RSR se obtiene para niveles reducidos de señal, es decir, cuando la relación RSR es baja (y por lo tanto cuando el ruido es más audible). No obstante, ciertos segmentos tienen puntos situados muy por debajo de la línea discontinua y la utilización de esta regla simple resulta entonces poco óptima. Se ha observado, no obstante, que estas zonas se corresponden a relaciones RSR altas, en las que la señal útil probablemente ya enmascare el ruido de cuantificación.
De manera general, se observa que el tratamiento, de acuerdo con la invención, que se aplica en este documento realiza, no obstante, una reducción ventajosa del ruido de cuantificación.
En el caso en el que la regla simple de la ecuación (5) se utilice, la figura 9 representa, en negro sobre fondo gris,
35 las zonas de la señal donde el error de estimación de la relación RSR es superior a 6 dB, y la relación RSR misma, es inferior a 25 dB, es decir, zonas de la señal en las que el estimador subestima el ruido de cuantificación, lo que conlleva una menor eficacia del tratamiento de reducción del ruido de cuantificación. No obstante, puede constatarse que estas zonas corresponden a segmentos de señal que no son de voz, para las cuales el ruido de cuantificación es menos molesto debido a la naturaleza intrínsecamente ruidosa de la señal.
En la figura 10, se representa un diagrama de potencia del ruido con respecto a una potencia de la señal, conforme a la ecuación empírica (5). La línea de trazos mixtos representa la estimación de la potencia del ruido. Las líneas con trazos discontinuos delimitan la zona donde el error de estimación es inferior a 6 dB. Por debajo de la línea continua, la relación RSR es superior a 25 dB. Los puntos negros (con respecto a los otros puntos grises)
45 corresponden a los segmentos negros de la figura 9.
De esta manera se demuestra que una estimación muy sencilla de la relación RSR que se basa únicamente en la energía de la señal decodificada puede dar buenos resultados para una codificación/decodificación de tipo MICDA. La estimación de la relación RSR puede afinarse aún más teniendo en cuenta, por ejemplo, la ganancia de predicción de los filtros ARMA (autorregresivos) que intervienen en el decodificador G.722.
Conociendo la forma espectral del ruido de cuantificación y su energía, puede aplicarse eficazmente el tratamiento de reducción de ruido de cuantificación de la invención para este tipo de codificación/decodificación. Este ejemplo es, por supuesto, válido para los otros tipos de codificación/decodificación de la misma familia, como los de las
55 normas G.726 o G.727.
Claro está que la presente invención no se limita a la forma de realización descrita anteriormente a modo de ejemplo; se extiende a otras variantes.
De esta manera, se ha demostrado anteriormente que una aplicación ventajosa de la invención puede tener por objeto, por ejemplo, reducir el ruido de cuantificación de un codificador normalizado ITU-G.711 utilizando las propiedades de la ley de cuantificación puestas en práctica, en particular de acuerdo con la ley A en Europa. De hecho, en esta aplicación, el ruido de cuantificación es blanco y es posible estimar la relación señal a ruido de cuantificación y, a partir de ahí, una función de ganancia que permita reducir dicho ruido. Una aplicación ventajosa 65 de la invención tiene entonces por objeto reducir el ruido de cuantificación en el tratamiento de la extensión de la
banda ampliada del codificador G.711 (ITU-T SG16, G.711WB).
En cualquier caso, el tratamiento del caso de la ley A se ha proporcionado anteriormente a modo de ejemplo. De forma análoga, se habría podido describir un ejemplo de la ley μ (parte de la norma G.711 que se aplica en los Estados Unidos).
De manera más general, la invención se aplica a todo tipo de codificaciones/decodificaciones en tanto que sus características intrínsecas son conocidas.

Claims (7)

  1. REIVINDICACIONES
    1. Procedimiento de tratamiento de una señal audio digital, habiendo sido dicha señal:
    5 - codificada para su compresión (COD) de acuerdo con un tipo de codificado predeterminado, aplicando una operación de cuantificación, y después
    -
    decodificada (DEC), comprendiendo el procedimiento de tratamiento:
    -
    una estimación (S4) de un ruido de cuantificación que introduce el codificado de compresión a partir de la información (INF) obtenida a priori sobre el tipo de codificación de compresión, y
    15 - una determinación (S5) de una función de filtrado a aplicar a la señal decodificada para aplicar (S6) un tratamiento de reducción del ruido de cuantificación estimado (TRC),
    y caracterizado porque:
    -
    se estima, a partir de dicha información (INF), una variación (figura 4) del ruido de cuantificación (RSR) en función de al menos un parámetro relativo a un parámetro de carga (Γ) de la señal decodificada, y
    -
    en función de un valor actual de dicho parámetro (Γ) en la señal decodificada (S52, S53), se estima (S55; S56) el
    ruido de cuantificación para determinar la función de filtrado (S57) a aplicar (S58) en la señal decodificada que tiene 25 dicho valor actual de parámetro (Γ).
  2. 2.
    Procedimiento de acuerdo con la reivindicación 1, caracterizado porque se deduce de dicha información a priori un modelo de variación (figura 4) de una relación señal a ruido de cuantificación (RSR), en función de dicho parámetro (Γ) de la señal decodificada.
  3. 3.
    Procedimiento de acuerdo con la reivindicación 2, caracterizado porque se deduce de dicha información a priori, una coloración espectral del ruido de cuantificación, y que además se toma en consideración dicha coloración espectral para determinar la función de filtrado a aplicar a la señal decodificada.
    35 4. Procedimiento de acuerdo con una de las reivindicaciones 1 a 3, caracterizado porque dicha información a priori se obtiene durante un procedimiento de declaración del codificador.
  4. 5.
    Procedimiento de acuerdo con una de las reivindicaciones 1 a 4, caracterizado porque el tipo de codificación de compresión es una codificación de acuerdo con la norma G.711.
  5. 6.
    Dispositivo (TRC) de tratamiento de una señal audio digital que inicialmente se codifica para su compresión, de acuerdo con un tipo de codificación predeterminada, y luego se decodifica, comprendiendo el dispositivo (TRC) de tratamiento:
    45 - medios para la estimación de un ruido de cuantificación (RC) introducido por la codificación de compresión, a partir de la señal decodificada e información (INF) obtenida a priori sobre el tipo de codificación de compresión, y
    -
    medios para la determinación de una función de filtrado a aplicar a la señal decodificada para aplicar (S6) un tratamiento de reducción del ruido de cuantificación estimado (FIL),
    y caracterizado porque los medios de estimación estiman:
    -
    a partir de dicha información (INF), una variación (figura 4) del ruido de cuantificación (RSR) en función de al
    menos un parámetro relativo a un parámetro de carga (Γ) de la señal decodificada, y 55
    -
    en función de un valor actual de dicho parámetro (Γ) en la señal decodificada (S52, S53), el ruido de cuantificación para determinar la función de filtrado (S57) a aplicar (S58) a la señal decodificada que tiene dicho valor actual de parámetro (Γ).
  6. 7.
    Dispositivo de acuerdo con la reivindicación 6, caracterizado porque se integra en un decodificador, a la salida de una unidad de decodificación (DEC).
  7. 8.
    Programa informático, destinado a almacenarse en la memoriza de un dispositivo (TRC) de tratamiento de una
    señal audio digital que inicialmente se codifica para su compresión, de acuerdo con un tipo de codificación 65 predeterminado, y que luego se descodifica, caracterizado porque comprende instrucciones que se adaptan para la puesta en práctica del procedimiento, de acuerdo con una de las reivindicaciones 1 a 5, cuando estas instrucciones las ejecuta un procesador del dispositivo de tratamiento.
ES08805992T 2007-06-14 2008-06-13 Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación. Active ES2376178T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0704242 2007-06-14
FR0704242 2007-06-14
PCT/FR2008/051057 WO2009004225A1 (fr) 2007-06-14 2008-06-13 Post-traitement de reduction du bruit de quantification d'un codeur, au decodage

Publications (1)

Publication Number Publication Date
ES2376178T3 true ES2376178T3 (es) 2012-03-09

Family

ID=38990872

Family Applications (1)

Application Number Title Priority Date Filing Date
ES08805992T Active ES2376178T3 (es) 2007-06-14 2008-06-13 Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación.

Country Status (6)

Country Link
US (1) US8175145B2 (es)
EP (1) EP2153438B1 (es)
JP (2) JP2010529511A (es)
AT (1) ATE531038T1 (es)
ES (1) ES2376178T3 (es)
WO (1) WO2009004225A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2715432C (en) * 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
JP5141633B2 (ja) * 2009-04-24 2013-02-13 ソニー株式会社 画像処理方法及びそれを用いた画像情報符号化装置
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
JP5898515B2 (ja) * 2012-02-15 2016-04-06 ルネサスエレクトロニクス株式会社 半導体装置及び音声通信装置
KR102237718B1 (ko) * 2013-03-04 2021-04-09 보이세지 코포레이션 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
FR3007184A1 (fr) * 2013-06-14 2014-12-19 France Telecom Controle du traitement d'attenuation d'un bruit de quantification introduit par un codage en compresssion
JP5816992B2 (ja) * 2013-10-31 2015-11-18 株式会社アクセル フィルタの設計方法及びそのフィルタを備えた音響再生装置
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
US9881630B2 (en) * 2015-12-30 2018-01-30 Google Llc Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
JP2016105188A (ja) * 2016-01-12 2016-06-09 株式会社アクセル 音声信号圧縮装置及び音声信号圧縮方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752844B2 (ja) * 1985-11-27 1995-06-05 日本電気株式会社 雑音除去回路
JPH03116197A (ja) * 1989-09-29 1991-05-17 Matsushita Electric Ind Co Ltd 音声復号化装置
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
JP4358221B2 (ja) * 1997-12-08 2009-11-04 三菱電機株式会社 音信号加工方法及び音信号加工装置
US6128346A (en) * 1998-04-14 2000-10-03 Motorola, Inc. Method and apparatus for quantizing a signal in a digital system
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP2000269821A (ja) * 1999-03-18 2000-09-29 Oki Micro Design Co Ltd 予測符号化信号復号化装置及び雑音除去方法
KR100984637B1 (ko) * 2002-01-25 2010-10-05 엔엑스피 비 브이 양자화 노이즈 제거 방법 및 장치
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
AU2003274864A1 (en) 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
WO2005099243A1 (ja) * 2004-04-09 2005-10-20 Nec Corporation 音声通信方法及び装置
US8315863B2 (en) * 2005-06-17 2012-11-20 Panasonic Corporation Post filter, decoder, and post filtering method

Also Published As

Publication number Publication date
JP5881791B2 (ja) 2016-03-09
JP2010529511A (ja) 2010-08-26
US8175145B2 (en) 2012-05-08
JP2015007805A (ja) 2015-01-15
EP2153438B1 (fr) 2011-10-26
US20100183067A1 (en) 2010-07-22
ATE531038T1 (de) 2011-11-15
EP2153438A1 (fr) 2010-02-17
WO2009004225A1 (fr) 2009-01-08

Similar Documents

Publication Publication Date Title
ES2376178T3 (es) Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación.
CN104021796B (zh) 语音增强处理方法和装置
EP2290815B1 (en) Method and system for reducing effects of noise producing artifacts in a voice codec
RU2470385C2 (ru) Система и способ улучшения декодированного тонального звукового сигнала
Islam et al. Speech enhancement based on student $ t $ modeling of Teager energy operated perceptual wavelet packet coefficients and a custom thresholding function
CN111656445B (zh) 解码器处的噪声衰减
US9076453B2 (en) Methods and arrangements in a telecommunications network
Martin et al. A noise reduction preprocessor for mobile voice communication
Nemer et al. Single-microphone wind noise reduction by adaptive postfiltering
BR112019020491A2 (pt) aparelho e método para pós-processamento de um sinal de áudio usando formato com base em previsão
RU2707144C2 (ru) Аудиокодер и способ для кодирования аудиосигнала
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
JP5179578B2 (ja) ディジタル信号の復号中に後処理ステップによってもたらされるひずみの制限
ES2394738T3 (es) Limitación de distorsión introducida por un post-tratamiento en la decodificación de una señal digital
JP2013057792A (ja) 音声符号化装置及び音声符号化方法