ES2588156T3

ES2588156T3 - Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio

Info

Publication number: ES2588156T3
Application number: ES13819029.3T
Authority: ES
Inventors: Anthony LOMBARD; Martin Dietz; Stephan Wilde; Emmanuel Ravelli; Panji Setiawan; Markus Multrus
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-12-21
Filing date: 2013-12-19
Publication date: 2016-10-31
Anticipated expiration: 2033-12-19
Also published as: EP2936487B1; ZA201505193B; CN104871242B; BR112015014212B1; JP6180544B2; TW201428734A; RU2650025C2; MY171106A; PT2936487T; KR101690899B1; BR112015014212A2; JP2016500452A; CN104871242A; WO2014096279A1; US9583114B2; SG11201504810YA; US20150287415A1; HK1216448A1; KR20150096494A; TWI539445B

Abstract

Un decodificador de audio para decodificar un flujo de bits (BS) para producir a partir del mismo una señal de salida de audio (OS), comprendiendo el flujo de bits (BS) por lo menos una fase activa seguida por al menos una fase inactiva, donde el flujo de bits (BS) tiene, codificada en el mismo, por lo menos una trama de descriptor de inserción de silencio (SI) que describe un espectro de un ruido de fondo (SBN), comprendiendo el decodificador de audio (1): un decodificador de descriptores de inserción de silencio (3) configurado para decodificar la trama de descriptor de inserción de silencio (SI) a fin de reconstruir el espectro (SBN) del ruido de fondo; un dispositivo decodificador (2) configurado para reconstruir la señal de salida de audio (OS) a partir del flujo de bits durante la fase activa; un conversor espectral (4) configurado para determinar un espectro (SAS) de la señal de salida de audio (OS); un dispositivo estimador de ruido (5) configurado para determinar un primer espectro (SN1) del ruido de la señal de salida de audio (OS) sobre la base del espectro (SAS) de la señal de salida de audio (OS) provista por el conversor espectral (4), donde el primer espectro (SN1) del ruido de la señal de salida de audio (OS) tiene una resolución espectral más alta que el espectro (SBN) del ruido de fondo; un conversor de resolución (6) configurado para establecer un segundo espectro (SN2) del ruido de la señal de salida de audio (OS) sobre la base del primer espectro (SN1) del ruido de la señal de salida de audio (OS), donde el segundo espectro (SN2) del ruido de la señal de salida de audio (OS) tiene la misma resolución espectral que el espectro (SBN) del ruido de fondo; un dispositivo de estimación del espectro del ruido de confort (7) que consta de un dispositivo de cómputo de factores de escala (7a) configurado para calcular factores de escala (SF) respecto de un espectro (SCN) correspondiente a un ruido de confort (CN) sobre la base del espectro (SBN) del ruido de fondo provisto por el decodificador de descriptores de inserción de silencio (3) y sobre la base del segundo espectro (SN2) del ruido de la señal de salida de audio (OS) provisto por el conversor de resolución (6) y tiene un generador de espectros de ruido de confort (7b) configurado para computar el espectro (SCN) correspondiente a un ruido de confort (CN) sobre la base de los factores de escala (SF); y un generador de ruido de confort (8) configurado para producir el ruido de confort (CN) durante la fase inactiva sobre la base del espectro (SCN) correspondiente al ruido de confort (CN).

Description

imagen1

imagen2

imagen3

imagen4

imagen5

imagen6

Además, el conversor de resolución 6 puede establecer un segundo espectro SN2 del ruido de la señal de salida de audio OS sobre la base del primer espectro SN1 del ruido de la señal de salida de audio OS, donde el segundo espectro SN2 del ruido de la señal de salida de audio OS tiene la misma resolución espectral que el espectro del

5 ruido de fondo SBN.

El dispositivo de cómputo de factores de escala 7a puede computar fácilmente los factores de escala SF correspondientes a un espectro SCN que corresponde a un ruido de confort CN sobre la base del espectro SBN del ruido de fondo provisto por el decodificador de descriptores de inserción de silencio 3 y sobre la base del segundo

10 espectro SN2 del ruido de la señal de salida de audio OS provisto por el conversor de resolución 6, ya que el espectro SBN del ruido de fondo y el segundo espectro SN2 del ruido de la señal de salida de audio OS tienen la misma resolución espectral.

El generador de espectros de ruido de confort 7b puede establecer el espectro SCN correspondiente al ruido de 15 confort CN sobre la base de los factores de escala SF.

Más aun, el generador de ruido de confort 8 puede producir el ruido de confort CN durante la fase inactiva sobre la base del espectro SCN correspondiente al ruido de confort.

20 Las estimaciones de ruido obtenidas en el decodificador 1 contienen información acerca de la estructura espectral del ruido de fondo, que es más precisa que la información acerca de la estructura espectral del ruido de fondo contenida en las tramas SID SI. Sin embargo, estas estimaciones no pueden ser adaptadas durante las fases inactivas, dado que la estimación de ruido se lleva a cabo sobre la señal de salida de audio decodificada OS. Por el contrario, las tramas SID envían nueva información acerca de la envolvente espectral a intervalos regulares durante

25 las fases inactivas. El decodificador 1 de acuerdo con la invención combina estas dos fuentes de información. Los factores de escala SF se pueden actualizar durante las fases activas dependiendo de las estimaciones de ruido del lado del decodificador y durante las fases inactivas dependiendo de las estimaciones de ruido contenidas en las tramas SID SI. La actualización continua de los factores de escala SF garantiza que no haya cambios repentinos de las características del ruido de confort producido CN.

30 Como el espectro SBN del ruido de fondo contenido en las tramas SID SI y el segundo espectro SN2 del ruido de la señal de salida de audio OS tienen la misma resolución espectral, la actualización de los factores de escala SF y, por ende, del ruido de confort CN se pueden realizar de manera sencilla, ya que por cada grupo de bandas de frecuencia del espectro SBN del ruido de fondo contenido en las tramas SID SI existe exactamente un grupo de

35 bandas de frecuencia en el segundo espectro SN2 del ruido de la señal de salida de audio OS. Se debe tener en cuenta que en una realización preferida, el grupo de bandas de frecuencias del espectro del ruido de fondo contenido en las tramas SID SI y el grupo de bandas de frecuencias del segundo espectro SN2 del ruido de la señal de salida de audio OS se corresponden entre sí.

40 Por añadidura, como el espectro SBN del ruido de fondo contenido en las tramas SID SI y el segundo espectro SN2 del ruido de la señal de salida de audio OS tienen la misma resolución espectral, la actualización de los factores de escala SF no produce distorsiones, o estas son sólo escasamente audibles.

De acuerdo con una realización preferida de la invención el analizador espectral 4 comprende un dispositivo de

45 transformación rápida de Fourier. Una transformada rápida de Fourier (FFT) es un algoritmo para computar una transformada discreta de Fourier (DFT) y su inversa, lo que sólo requiere un bajo esfuerzo informático. Por lo tanto, el dispositivo de transformación rápida de Fourier puede calcular el espectro SAS de la señal de salida de audio OS de manera sencilla.

50 De acuerdo con una realización preferida de la invención el dispositivo estimador de ruido 5 comprende un dispositivo conversor 9 configurado para convertir el espectro SAS de la señal de salida de audio OS en un espectro convertido CSA de la señal de salida de audio OS que tiene la misma resolución espectral que el decodificador de núcleo 17. En general, la resolución espectral del espectro SAS de la señal de salida de audio OS obtenida por un conversor espectral 4 es mucho más elevada que la resolución espectral del decodificador de núcleo 17. Mediante la

55 obtención del espectro convertido CSA de la señal de salida de audio OS se puede reducir la complejidad de los pasos de computación subsiguientes.

De acuerdo con una realización preferida de la invención el dispositivo estimador de ruido 5 comprende un estimador de ruido 10 configurado para determinar el primer espectro SN1 del ruido de la señal de salida de audio

60 OS sobre la base del espectro convertido CAS de la señal de salida de audio OS provista por el dispositivo conversor 9. Cuando se utiliza el espectro convertido CSA de la señal de salida de audio OS como base para la estimación de ruido en el decodificador se pueden reducir los esfuerzos de computación sin reducir la calidad de la estimación de ruido.

8

imagen7

imagen8

invención, se utiliza el módulo de extensión de ancho de banda 20 para producir la señal de salida de audio OS, que es alimentada al conversor espectral 4. Merced a estas características, se puede utilizar la totalidad del ancho de banda para producir el ruido de confort.

5 Con respecto a las tres realizaciones del decodificador de audio de acuerdo con la invención se puede agregar lo siguiente: Del lado del decodificador, se puede aplicar un generador aleatorio 8 para excitar cada banda espectral individual en el dominio de la FFT, como así también en el dominio QMF en el caso de los modos SWB. Se deben computar individualmente las secuencias aleatorias en cada banda, de tal manera que el espectro del ruido de confort generado CN se asemeje al espectro del ruido de fondo real presente en el flujo de bits.

10 Las estimaciones de ruido de alta resolución obtenidas en el decodificador 1 capturan información acerca de la fina estructura espectral del ruido de fondo. Sin embargo, estas estimaciones no pueden ser adaptadas durante las fases inactivas, puesto que la estimación de ruido se lleva a cabo sobre la señal OS decodificada. Por el contrario, las tramas SID SI envían nueva información acerca de la envolvente espectral a intervalos regulares durante las fases

15 inactivas. El presente decodificador 1 combina estas dos fuentes de información en un esfuerzo por reproducir la fina estructura espectral capturada del el ruido de fondo presente durante las fases activas, en tanto que sólo se actualiza la envolvente espectral del ruido de confort CN durante las partes inactivas con el auxilio de la información de SID.

20 Para lograr esta meta, se utiliza un estimador de ruido adicional 5 en el decodificador 1, como se ilustra en las Figs. 1 a 3. Por ende, la estimación de ruido se lleva a cabo en ambos extremos del sistema de transmisión, aunque aplica una resolución espectral más elevada en el decodificador 1 que en el codificador 100. Una manera de obtener una resolución espectral elevada en el decodificador 1 consiste simplemente en considerar cada banda espectral en forma individual (resolución total) en lugar de agruparlas por promedio como en el codificador 100. Por otro lado, se

25 puede obtener una compensación entre resolución espectral y complejidad informática llevando a cabo el agrupamiento espectral también en el decodificador 1, aunque utilizando un número mayor de grupos espectrales en comparación con el codificador 100, para producir así una cuantificación más fina del eje de frecuencias en el decodificador.

30 Nótese entonces que la estimación de ruido del lado del decodificador opera en la señal OS decodificada. En un sistema basado en DTX, se debe poder, en consecuencia, operar durante las fases activas solamente, es decir, necesariamente sobre el contenido de voz clara o voz ruidosa (a diferencia de ruido solamente).

Se puede interpolar en primer lugar el espectro de potencia de ruido de alta resolución (HR)

imagen9computado en el 35 decodificador (por ej., usando interpolación lineal) para producir un espectro de potencia de resolución total (FR)

imagen9. Este se puede convertir luego a un espectro de potencia de baja resolución (LR)

imagen9mediante el agrupamiento espectral (es decir, mediante cálculo de promedio) tal como se hiciera en el codificador. El espectro de

potencia

imagen9exhibe, por lo tanto, la misma resolución espectral que los niveles de ruido

imagen9obtenidos de las

tramas SID SI. En comparación con los espectros de ruido de baja resolución

imagen9y imagen9, el espectro de ruido de

40 resolución total puede ser escalado, en última instancia, para producir un espectro de potencia de resolución total de la siguiente manera:

imagen9

imagen10

45 donde

imagen9es el número de grupos espectrales utilizado por la estimación de ruido de baja resolución en el

codificador, y

imagen9denota la primera banda espectral del iº grupo espectral, imagen9. En última instancia

se puede ajustar con precisión el espectro de potencia de ruido de resolución total

imagen9generado en cada banda

FFT o QMF (esto último para los modos SWB únicamente). 50 En las Figs. 1 y 2, se aplican los mecanismos antes citados sólo a los coeficientes FFT. Por ende, en el caso de los

11

imagen11

directamente en la salida de las transformadas espectrales. Por el contrario, se la aplica a una resolución espectral más baja promediando el espectro de potencia de entrada entre los grupos de bandas, por ej., siguiendo la escala de Bark. El promedio se puede obtener por medios aritméticos o geométricos. En el caso de la SWB, el agrupamiento espectral se lleva a cabo para los dominios FFT y QMF por separado, en tanto que los modos NB y

5 WB se basan sólo en el dominio FFT.

Nótese que la reducción de la resolución espectral también es ventajosa en términos de complejidad informática, puesto que la estimación de ruido se debe aplicar a sólo un pequeño número de grupos espectrales en lugar de considerar cada banda espectral por separado.

10 Los niveles de ruido estimados (uno por cada grupo espectral) pueden ser codificados conjuntamente en las tramas SID utilizando técnicas de cuantificación de vectores. En los modos NB y WB, sólo se aprovecha el dominio FFT. Por el contrario, en el caso de los modos SWB, la codificación de las tramas SID se puede llevar a cabo para los dominios FFT y QMF en forma conjunta utilizando cuantificación de vectores, es decir, recurriendo a un libro de

15 códigos único que cubre ambos dominios.

Si bien se han descrito algunos aspectos en el contexto de un aparato, es obvio que estos aspectos también representan una descripción del método correspondiente, en el cual un bloque o dispositivo corresponde a un paso del método o a una característica de un paso del método. De manera análoga, los aspectos descriptos en el

20 contexto de un paso del método también representan una descripción de un bloque o ítem correspondiente o de una característica de un aparato correspondiente. Algunos o todos los pasos del método pueden ser ejecutados por medio de (o utilizando) un aparato de hardware, como por ejemplo, un microprocesador, una computadora programable o un circuito electrónico. En algunas realizaciones, uno cualquiera o más de los pasos más importantes del método pueden ser ejecutados por ese tipo de aparato.

25 Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco blando, un DVD, un BlueRay, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales control legibles electrónicamente, que cooperan

30 (o tienen capacidad para cooperar) con un sistema de computación programable de tal manera que se ejecute el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por una computadora.

Algunas realizaciones de acuerdo con la invención comprenden un transportador de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema de computación programable de

35 tal manera que se ejecute uno de los métodos descriptos en la presente.

En general, las realizaciones de la presente invención pueden ser implementadas en forma de producto programa de computación con un código de programa, donde el código de programa cumple la función de ejecutar uno de los métodos al ejecutarse el programa de computación en una computadora. El código de programa puede ser

40 almacenado, por ejemplo, en un portador legible por una máquina.

Otras realizaciones comprenden el programa de computación para ejecutar uno de los métodos aquí descriptos, almacenado en un portador legible por una máquina.

45 En otras palabras, una realización del método de la invención consiste, por lo tanto, en un programa de computación que consta de un código de programa para realizar uno de los métodos aquí descriptos al ejecutarse el programa de computación en una computadora.

Otra de las realizaciones de los métodos de la invención consiste, por lo tanto, en un portador de datos (o medio de

50 almacenamiento digital, o medio legible por computadora) que comprende, grabado en el mismo, el programa de computación para ejecutar uno de los métodos aquí descriptos. El portador de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y no transitorios.

Otra realización del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que

55 representa el programa de computación para ejecutar uno de los métodos aquí descriptos. El flujo de datos o la secuencia de señales pueden estar configuradas, por ejemplo, para ser transferida a través de una conexión de comunicación de datos, por ejemplo por Internet.

Otra realización comprende un medio de procesamiento, por ejemplo un ordenador, un dispositivo lógico 60 programable, configurado o adaptado para ejecutar uno de los métodos aquí descritos.

Otra realización comprende una computadora en la que se ha instalado el programa de computación para ejecutar uno de los métodos aquí descritos.

13

imagen12

imagen13

Claims

imagen1

imagen2

imagen3