ES2617314T3 - Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada - Google Patents

Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada Download PDF

Info

Publication number
ES2617314T3
ES2617314T3 ES14720877.1T ES14720877T ES2617314T3 ES 2617314 T3 ES2617314 T3 ES 2617314T3 ES 14720877 T ES14720877 T ES 14720877T ES 2617314 T3 ES2617314 T3 ES 2617314T3
Authority
ES
Spain
Prior art keywords
audio signal
segments
gain
filter
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14720877.1T
Other languages
English (en)
Inventor
Per Hedelin
Arijit Biswas
Michael Schug
Vinay Melkote
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2617314T3 publication Critical patent/ES2617314T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Liquid Crystal Substances (AREA)
  • Stereophonic System (AREA)

Abstract

Un método de expansión de una señal de audio que comprende: recibir una señal de audio; y expandir la señal de audio a una gama dinámica expandida mediante un proceso de expansión que incluye: dividir la señal de audio recibida en una pluralidad de segmentos temporales utilizando una forma de ventana definida, calcular una ganancia de banda ancha para cada segmento temporal en el dominio frecuencial utilizando una media no basada en la energía de una representación en el dominio frecuencial de la señal de audio y aplicar valores individuales de ganancia a cada segmento temporal para obtener la señal de audio de gama dinámica expandida, en donde la aplicación de los valores de ganancia individuales amplifica los segmentos de intensidad relativamente alta y atenúa los segmentos de intensidad relativamente baja.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Aparato de compresion y metodo para reducir un ruido de cuantizacion utilizando una expansion espectral avanzada REFERENCIA CRUZADA A SOLICITUDES DE PATENTE RELACIONADAS
Esta solicitud reivindica la prioridad para las solicitudes de patentes provisiones de Estados Unidos numeros 61/809,028 presentada el 5 de abril de 2013 y 61/877,167, presentada el 12 de septiembre de 2013. Un metodo para la compresion de datos se da a conocer, a modo de ejemplo, en el documento EP2002429 B1.
CAMPO DE LA INVENCION
Una o mas formas de realizacion se refieren, en general, a un procesamiento de senales de audio y mas en particular, para reducir el ruido de codificacion en codecs de audio utilizando tecnicas de compresion/expansion (companding).
ANTECEDENTES DE LA INVENCION
Numerosos formatos de sonido digitales de gran aceptacion utilizan tecnicas de compresion de datos, con perdidas, que rechazan algunos de los datos para reducir las exigencias de memorizacion o tasas de transmision de datos. La solicitud de compresion de datos, con perdidas, no solamente reducir la fidelidad del contenido fuente (p.ej., contenido de audio), sino que puede introducir tambien una distorsion notable en la forma de artefactos de compresion. Dentro del contexto de los sistemas de codificacion de audio, estos artefactos acusticos se denominan ruido de codificacion o ruido de cuantizacion.
Los sistemas de audio digitales emplean codecs (componentes de codificador-decodificador) para comprimir y descomprimir datos de audio en conformidad con un formato de fichero de audio definido o un formato de audio de soporte de flujo continuo. Los codecs ponen en practica algoritmos que intentan representar la senal de audio con un numero mmimo de bits al mismo tiempo que conservan una fidelidad lo mas alta posible. Las tecnicas de compresion, con perdidas, suelen utilizarse en el funcionamiento de codecs de audio sobre un modelo psico- acustico de percepcion auditiva humana. Los formatos de audio suelen implicar el uso de una transformada de dominio de tiempo/frecuencia (p.ej., una transformada de coseno discreta modificada - MDCT) y utilizar efectos de enmascaramiento, tales como enmascaramiento de frecuencias o enmascaramiento temporal de modo que algunos sonidos, incluyendo cualquier ruido de cuantizacion evidente, se oculte o se enmascare mediante un contenido real.
La mayona de los sistemas de codificacion de audio estan basados en tramas. Dentro de una trama, los codecs de audio suelen modelar el ruido de codificacion en el dominio frecuencial de modo que se haga menos audible. Varios formatos de audio digitales actuales utilizan tramas de tan largas duraciones que una trama puede contener sonidos de varios niveles o intensidades diferentes. Puesto que el ruido de codificacion suele ser estacionario en nivel durante la evolucion de una trama, el ruido de codificacion puede ser mas audible durante partes de baja intensidad de la trama. Dicho efecto puede manifestarse como distorsion pre-eco en donde el silencio (o senal de nivel bajo) que precede a un segmento de alta intensidad se saturan mediante el ruido en la senal de audio decodificada. Dicho efecto puede ser mas notable en sonidos transitorios o impulsos procedimientos de instrumentos de percusion, tales como castanuelas u otras fuentes sonoras percusivas agudas. Dicha distorsion suele causarse por el ruido de cuantizacion introducido en el dominio frecuencial que se extiende a traves de la ventana de transformada completa del codec en el dominio temporal.
Las medidas actuales para evitar o minimizar los artefactos pre-eco incluyen el uso de filtros. Dichos filtros, sin embargo, introducen una distorsion de fase y una difuminacion temporal. Otra posible solucion incluye el uso de mas pequenas ventanas de transformada; sin embargo, este metodo puede reducir notablemente la resolucion de la frecuencia.
El contenido descrito en la seccion de antecedes de la invencion debe asumirse para la tecnica anterior simplemente como un resultado de su mencion en dicha seccion de antecedentes. De modo similar, un problema citado en la seccion de antecedentes o asociado con el contenido de dicha seccion no debe asumirse que ha sido previamente reconocido en la tecnica anterior. El contenido en la seccion de antecedentes de la invencion simplemente representa diferentes metodos que en sf mismos y a traves de ellos pueden ser tambien considerados como invenciones.
BREVE SUMARIO DE LAS FORMAS DE REALIZACION
La invencion se define por un metodo, un aparato y un soporte de memorizacion legible por ordenador, respectivamente, para comprimir o expandir una senal de audio en conformidad con las reivindicaciones 1, 7 y 13 a 15.
Las formas de realizacion se refieren a un metodo para procesar una senal de audio recibida expandiendo la senal
5
10
15
20
25
30
35
40
45
50
55
60
65
de audio a una gama dinamica expandida mediante un proceso que incluye dividir la senal de audio recibida en una pluralidad de segmentos temporales utilizando una forma de ventana definida, calcular una ganancia de banda ancha para cada segmento temporal en el dominio frecuencial utilizando una media no basada en la energfa de una representacion en el dominio frecuencial de la senal de audio, y aplicar el valor de ganancia a cada segmento temporal para obtener la senal de audio expandida. Los valores de ganancia de la ganancia de banda ancha aplicados a cada segmento temporal se seleccionan para tener el efecto de amplificar los segmentos de intensidad relativamente alta y atenuar los segmentos de intensidad relativamente baja. Para este metodo, la senal de audio recibida comprende una senal de audio original que fue comprimida a partir de una gama dinamica original mediante un proceso de compresion que incluye dividir la senal de audio original en una pluralidad de segmentos temporales utilizando una forma de ventana definida, calcular una ganancia de banda ancha en el dominio frecuencial utilizando una media no basada en la energfa de muestras en el dominio frecuencial de la senal de audio inicial, y aplicar la ganancia de banda ancha a la senal de audio original. En el proceso de compresion, los valores de ganancia de la ganancia de banda ancha aplicados a cada segmento temporal se seleccionan para tener el efecto de amplificar segmentos de intensidad relativamente baja y atenuar segmentos de intensidad relativamente alta. El proceso de expansion esta configurado para restablecer practicamente la gama dinamica de la senal de audio inicial, y la ganancia de banda ancha del proceso de expansion puede ser practicamente la inversa de la ganancia de banda ancha del proceso de compresion.
En un sistema que pone en practica un metodo de procesamiento de una senal de audio recibida por un proceso de expansion, un componente de batena de filtros puede utilizarse para analizar la senal de audio para obtener su representacion en el dominio frecuencial, y la forma de ventana definida para la segmentacion en la pluralidad de segmentos temporales puede ser la misma que el filtro de prototipo para la batena de filtros.
De forma analoga, en un sistema que pone en practica un metodo de procesamiento de una senal de audio recibida mediante un proceso de compresion, una componente de batena de filtros puede utilizarse para analizar la senal de audio original para obtener su representacion en el dominio frecuencial, y la forma de ventana definida para la segmentacion en la pluralidad de segmentos temporales puede ser la misma que el filtro prototipo para la batena de filtros. La batena de filtros, en uno u otro caso, puede ser una de entre una batena QMF o una transformada de Fourier de corta duracion. En este sistema, una senal recibida para el proceso de expansion se obtiene despues de la modificacion de la senal comprimida por un codificador de audio que genera un flujo de bits, y un decodificador que decodifica el flujo de bits. El codificador y el decodificador pueden comprender al menos parte del codec de audio basado en la transformada. El sistema puede comprender, ademas, componentes que procesan la informacion de control que se recibe por intermedio del flujo de bits y determina un estado de activacion del proceso de expansion.
BREVE DESCRIPCION DE LOS DIBUJOS
En los siguientes dibujos las referencias numericas similares se utilizan para referirse a elementos similares. Aunque las Figuras siguientes ilustran varios ejemplos, las una o mas realizaciones no estan limitadas a los ejemplos ilustrados en las Figuras.
La Figura 1 ilustra un sistema para comprimir y expandir una senal de audio en un codec de audio basado en la transformada, en conformidad con una forma de realizacion.
La Figura 2A ilustra una senal de audio dividida en una pluralidad de segmentos de corta duracion, en conformidad con una forma de realizacion.
La Figura 2B ilustra la senal de audio representada en la Figura 2A despues de la aplicacion de una ganancia de banda ancha sobre cada uno de los segmentos de corta duracion, en conformidad con una forma de realizacion.
La Figura 3A es un diagrama de flujo que ilustra un metodo de compresion de una senal de audio, en conformidad con una forma de realizacion.
La Figura 3B es un diagrama de flujo que ilustra un metodo de expansion de una senal de audio, en conformidad con una forma de realizacion.
La Figura 4 es un diagrama de bloques que ilustra un sistema para comprimir una senal de audio, en conformidad con una forma de realizacion.
La Figura 5 es un diagrama de bloques que ilustra un sistema para expandir una senal de audio, en conformidad con una forma de realizacion.
La Figura 6 ilustra la division de una senal de audio en una pluralidad de segmentos de corta duracion, en conformidad con una forma de realizacion.
DESCRIPCION DETALLADA DE LA INVENCION
5
10
15
20
25
30
35
40
45
50
55
60
65
Los sistemas y metodos se describen para el uso de tecnicas de compresion para conseguir el modelado del ruido temporal de ruido de cuantizacion en un codec de audio. Dichas formas de realizacion incluyen el uso de un algoritmo de compresion puesto en practica en el dominio QMF para conseguir un modelado temporal del ruido de cuantizacion. Los procesos incluyen el control del codificador del nivel de compresion del decodificador deseado y la expansion mas alla de las aplicaciones monofonicas a la compresion estereo y de multicanal.
Aspectos de las una o mas formas de realizacion aqu descritas pueden ponerse en practica en un sistema de audio que procesa senales de audio para la transmision a traves de la red que incluye uno o mas ordenadores o dispositivos de procesamiento que ejecutan instrucciones del software. Cualquiera de las formas de realizacion descritas puede utilizarse sola o junto con otra en cualquier combinacion. Aunque varias formas de realizacion pueden haberse motivado por diversas deficiencias observadas en la tecnica anterior, lo que puede indicarse o aludirse en uno o mas lugares en la memoria de especificacion, las formas de realizacion no se refieren necesariamente a cualquiera de estas deficiencias. Dicho de otro modo, diferentes formas de realizacion pueden referirse a deficiencias distintas que pueden examinarse en la memoria descriptiva. Algunas formas de realizacion solamente pueden referirse parcialmente a algunas deficiencias o solamente una deficiencia que pueda describirse en la memoria, y algunas formas de realizacion pueden no relacionarse con ninguna de estas deficiencias.
La Figura 1 ilustra un sistema de compresion para reducir el ruido de cuantizacion en un sistema de procesamiento de audio basado en un codec, en conformidad con una forma de realizacion. La Figura 1 ilustra un sistema de procesamiento de senal de audio que se basa en un codificador de compresion de codec de audio (o “codificador base”) 106 y un decodificador (o “decodificador base”) 112. El codificador 106 codifica el contenido de audio en un flujo de datos o senal para su transmision a traves de la red 110, en donde se decodifica por el decodificador 112 para su reproduccion o cualquier procesamiento adicional. En una forma de realizacion, el codificador 106 y el decodificador 112 del codec realizan un metodo de compresion con perdidas para reducir las exigencias de memorizacion y/o tasa de transmision de datos de los datos de audio digitales, y dicho codec puede realizarse como un MP3, Vorbis, Dolby Digital (AC-3), AAC, o un codec similar. El metodo de compresion con perdidas del codec crea un ruido de codificacion que suele ser estacionario en nivel durante la evolucion de una trama definida por el codec. Dicho ruido de codificacion suele ser mas audible durante las partes de baja intensidad de una trama. El sistema 100 incluye componentes que reducen el ruido de codificacion percibido en sistemas de codificacion existentes proporcionando un componente de pre-etapa de compresion 104 antes del codificador base 106 del codec y un componente post-etapa de expansion 114 que opera en la salida del decodificador base 112. La componente de compresion 104 esta configurada para dividir la senal de entrada de audio original 102 en una pluralidad de segmentos temporales utilizando una forma de ventana definida, calcular y aplicar una ganancia de banda ancha en el dominio frecuencial utilizando una media no basada en la energfa de muestras en el dominio frecuencial de la senal de audio inicial, en donde los valores de ganancia aplicados a codificada segmento temporal amplifican los segmentos de intensidad relativamente baja y atenuan los segmentos de intensidad relativamente alta. Esta modificacion de la ganancia tiene el efecto de comprimir o reducir notablemente la gama dinamica original de la senal de audio de entrada 102. La senal de audio comprimida se codifica luego en el codificador 106, se transmite a traves de la red 110 y se decodifica en el decodificador 112. La senal comprimida decodificada se aplica a la entrada de la componente de expansion 114, que esta configurada para realizar la operacion inversa de la pre- etapa de compresion 104 aplicando valores de ganancia inversos a cada segmento temporal para expandir la ganancia dinamica de la senal de audio comprimida de nuevo a la gama dinamica de la senal de audio de entrada original 102. De este modo, la senal de salida de audio 116 comprime una senal de audio que tiene la gama dinamica original, con el ruido de codificacion eliminado mediante el proceso de compresion post-etapa y pre-etapa.
Segun se ilustra en la Figura 1, una componente de compresion o pre-etapa de compresion 104 esta configurada para reducir la gama dinamica de la senal de audio 102 aplicada a la entrada del codificador base 106. La senal de audio a la entrada se divide en varios segmentos de corta duracion. La magnitud o longitud de cada segmento de corta duracion es una fraccion del tamano de la trama utilizada por el codificador base 106. A modo de ejemplo, una magnitud de trama tfpica del codificador base puede ser del orden de magnitud de 40 a 80 milisegundos. En este caso, cada segmento de corta duracion puede ser del orden de magnitud de 1 a 3 milisegundos. La componente de compresion 104 calcula un valor de ganancia de banda ancha adecuado para comprimir la senal de audio a la entrada sobre una base de por segmento. Lo que antecede se consigue modificando los segmentos de corta duracion de la senal mediante un valor de ganancia adecuado para cada segmento. Los valores de ganancia relativamente grandes se seleccionan para amplificar segmentos de intensidad relativamente baja y los valores de pequena ganancia se seleccionar para atenuar los segmentos de intensidad alta.
La Figura 2A ilustra una senal de audio dividida en una pluralidad de segmentos de corta duracion, en conformidad con una forma de realizacion, y la Figura 2B ilustra la misma senal de audio despues de la aplicacion de la ganancia de banda ancha mediante un componente de compresion. Segun se ilustra en la Figura 2A, una senal de audio 202 representa un impulso de sonido o transitorio tal como puede producirse por un instrumento de percusion (p.ej., castanuelas). La senal tiene un pico en amplitud segun se ilustra en el trazado representativo de la tension, V, con respecto al tiempo t. En general, la amplitud de la senal se relaciona con la energfa acustica o intensidad del sonido y representa una medida de la potencia acustica en cualquier punto en el tiempo. Cuando la senal de audio 202 se procesa mediante un codec de audio basado en trama, partes de la senal se procesan dentro de las tramas de
5
10
15
20
25
30
35
40
45
50
55
60
65
transformada (p.ej., MDCT) 204. Los sistemas de audio digitales actuales tipicos utilizan tramas de relativamente larga duracion, de modo que para los sonidos de impulsos de corta duracion o transitorios agudos, una trama unica puede incluir sonidos de baja intensidad asf como de alta intensidad. De este modo, segun se ilustra en la Figura 1, la trama MDCT unica 204 incluye la parte de impulsos (pico) de la senal de audio asf como una cantidad relativamente grande de senal de baja intensidad antes y despues del pico. En una forma de realizacion, un componente de compresion 104 divide la senal en varios segmentos de corta duracion 206, y aplica una ganancia de banda ancha a cada segmento con el fin de comprimir la gama dinamica de la senal 202. El numero y magnitud de cada segmento de corta duracion puede seleccionarse sobre la base de necesidades de aplicacion y limitaciones del sistema. En relacion con la magnitud de una trama MDCT individual, el numero de segmentos de corta duracion puede variar desde 12 a 64 segmentos, y puede comprender normalmente 32 segmentos, pero las formas de realizacion no estan limitadas a este respecto.
La Figura 2B ilustra la senal de audio de la Figura 2A despues de la aplicacion de una ganancia de banda ancha sobre cada uno de los segmentos de corta duracion, en conformidad con una forma de realizacion. Segun se ilustra en la Figura 2B, la senal de audio 212 tiene la misma forma relativa que la senal original 202; sin embargo, la amplitud de los segmentos de baja intensidad se ha aumentado mediante la aplicacion de la amplificacion de valores de ganancia y la amplitud de los de alta intensidad ha sido atenuada mediante la aplicacion de la atenuacion de valores de ganancia.
La salida del decodificador base 112 es la senal de audio de entrada con una gama dinamica reducida (p.ej., senal 212) mas el ruido de cuantizacion introducido por el codificador base 106. Este ruido de cuantizacion presenta un nivel casi uniforme a traves del tiempo dentro de cada trama. La componente de expansion 114 actua sobre la senal decodificada para restablecer la gama dinamica de la senal original. Utiliza la misma resolucion de corta duracion basada en la magnitud del segmento de corta duracion 206 e invierte las ganancias aplicadas en la componente de compresion 104. De este modo, la componente de expansion 114 aplica una pequena ganancia (atenuacion) sobre los segmentos que en la senal original teman una baja intensidad, y habfan sido amplificados por el compresor, y aplica una ganancia de gran magnitud (amplificacion) sobre segmentos que en la senal original teman alta intensidad y habfan sido atenuados por el compresor. El ruido de cuantizacion anadido por el codificador base, que tema una envolvente temporal uniforme es, de este modo, concurrentemente modelado por la ganancia de post- procesador para seguir aproximadamente la envolvente temporal de la senal original. Este procesamiento hace efectivamente que el ruido de cuantizacion sea menos audible durante los pasajes con tonos bajos. Aunque el ruido puede amplificarse durante el pasaje de alta intensidad, permanece menos audible debido al efecto de enmascaramiento de la senal intensa del propio contenido de audio.
Segun se ilustra en la Figura 2A, el proceso de compresion modifica segmentos discretos de la senal de audio individualmente con valores de ganancia respectivos. En algunos casos, lo que antecede da lugar a discontinuidades a la salida de la componente de compresion que puedan causar problemas en el codificador base 106. De modo analogo, las discontinuidades en la ganancia en la componente de expansion 114 podnan dar lugar a discontinuidades en la envolvente del ruido modelado, lo que podna originar chasquidos audibles en la salida de audio 116. Otra cuestion relacionada con la aplicacion de valores de ganancia individuales a segmentos de corta duracion de la senal de audio esta basada en el hecho de que las senales de audio tfpicas son una mezcla de numerosas fuentes individuales. Algunas de estas fuentes pueden ser estacionarias en el transcurso del tiempo y algunas pueden ser transitorias. Una senal estacionaria es generalmente constante en sus parametros estadfsticos en el transcurso del tiempo, mientras que las senales transitorias no suelen ser constantes. Habida cuenta de la naturaleza de banda ancha de los transitorios, su huella en dicha mezcla suele ser mas visible a las frecuencias mas altas. Un calculo de ganancia que esta basado en la energfa a corto plazo (RMS) de la senal tiende a polarizarse hacia las frecuencias bajas mas intensas y por ello, esta dominada por las fuentes estacionarias y presenta poca variacion en el transcurso del tiempo. En consecuencia, este metodo basado en la energfa no suele ser efectivo en el modelado del ruido introducido por el codificador base.
En una forma de realizacion, el sistema 100 calcula y aplica la ganancia en las componentes de compresion y expansion en una batena de filtros con un filtro prototipo corto con el fin de resolver los posibles problemas asociados con la aplicacion de valores individuales de la ganancia. La senal a modificarse (la senal original en la componente de compresion 104, y la salida del decodificador base 112 en la componente de expansion 114) se analiza primero por la batena de filtros y la ganancia de banda ancha se aplica directamente en el dominio frecuencial. El efecto correspondiente en el dominio temporal es para suavizar naturalmente la aplicacion de la ganancia en conformidad con la forma del filtro prototipo. Lo que antecede resuelve los problemas de las discontinuidades anteriormente descritas. La senal en el dominio frecuencial modificada se convierte luego al dominio temporal mediante una batena de filtros de smtesis correspondiente. Analizando la senal con una batena de filtros se proporciona acceso a su contenido espectral, y permite el calculo de una ganancia que refuerza preferentemente la contribucion debida a las altas frecuencias (o para reforzar la contribucion debida a cualquier contenido espectral que sea debil), proporcionando valores de ganancia que no estan dominados por las componentes mas intensas en la senal. Lo que antecede resuelve el problema asociado con fuentes de audio que comprenden una mezcla de diferentes fuentes, segun se describio con anterioridad. En una forma de realizacion, el sistema calcula la ganancia utilizando una asf denominada p-norma de las magnitudes espectrales, en donde p suele ser menor que 2 (p<2). Esto permite un mayor enfasis para el contenido espectral debil, en comparacion de
5
10
15
20
25
30
35
40
45
50
55
60
cuando se basa en la energfa (p = 2).
Segun se indico con anterioridad, el sistema incluye un filtro prototipo para suavizar la aplicacion de la ganancia. En general, un filtro prototipo es la forma de ventana basica en una batena de filtros, que se modula por las formas de onda sinusoidales para obtener las respuestas de impulsos para los filtros de sub-bandas diferentes en las batenas de filtros. A modo de ejemplo, una transformada de Fourier de corta duracion (STFT) es una batena de filtros, y cada lmea de frecuencia de esta transformada es una sub-banda de la batena de filtros. La transformada de Fourier de corta duracion se pone en practica multiplicando una senal con una forma de ventana (una ventana de N muestras), que podna ser rectangular, una forma derivada de Hann, Kaiser-Bessel (KBD) o alguna otra forma. La senal en forma de ventana se somete luego a una operacion de la transformada de Fourier discreta (DFT), para obtener la transformada STFT. La forma de ventana en este caso es el filtro prototipo. La transformada DFT esta constituida por funciones de base sinusoidal, cada una con una frecuencia distinta. La forma de ventana multiplicada por una funcion sinusoidal proporciona luego el filtro para la sub-banda correspondiente a esa frecuencia. Puesto que la forma de ventana es la misma a todas las frecuencias, se refiere como siendo un “prototipo”.
En una forma de realizacion, el sistema utiliza una batena QMF (Filtro Modulado en Cuadratura) para la batena de filtros. En una puesta en practica particular, la batena QMF puede tener una ventana de 64-pt, que forma el prototipo. Esta ventana modulada por las funciones de coseno y seno (correspondientes a 64 frecuencias igualmente espaciadas) forma los filtros de sub-bandas para la batena QMF. Despues de cada aplicacion de la funcion QMF, la ventana se desplaza en 64 muestras, es decir, el solapamiento entre segmentos temporales en este caso es 640 - 64 = 576 muestras. Sin embargo, aunque la forma de ventana cubre diez segmentos temporales en este caso (640 = 10*64), el lobulo principal de la ventana (en donde sus valores muestras son muy significativos) es de aproximadamente 128 muestras de longitud. De este modo, la longitud efectiva de la ventana es todavfa relativamente corta.
En una forma de realizacion, la componente de expansion 114 invierte, en condiciones ideales, las ganancias aplicadas a la componente de compresion 104. Aunque es posible transmitir las ganancias aplicadas por la componente de compresion por intermedio del flujo de bits al decodificador, dicho metodo consumina normalmente una tasa binaria importante. En una forma de realizacion, el sistema 100 estima, en cambio, las ganancias requeridas por la comparacion de expansion 114 directamente a partir de la senal disponible a tal respecto, es decir, la salida del decodificador 112, que no requiere efectivamente ningun bit adicional. La batena de filtros en las componentes de compresion y expansion se seleccionan para ser identicas con el fin de calcular ganancias que sean inversas entre sf Ademas, estas batenas de filtros estan sincronizadas en el tiempo de modo que cualesquiera retardos efectivos entre la salida de la componente de compresion 104 y la entrada de la componente de expansion 114 sean multiplos del paso de la batena de filtros. Si el codificador-decodificador base no tuviera perdidas, y la batena de filtros proporciona una reconstruccion perfecta, las ganancias en las componentes de compresion y expansion senan inversas exactas entre sf, con lo que se permite una reconstruccion exacta de la senal original. En la practica, sin embargo, la ganancia aplicada por la componente de expansion 114 es solamente una aproximacion proxima de la inversa de la ganancia aplicada por la componente de compresion 104.
En una forma de realizacion, la batena de filtros utilizada en las componentes de compresion y expansion es una batena QMF. En una aplicacion de uso tfpica, una trama de audio base podna ser 4096 muestras de longitud con un solapamiento de 2048 con la trama proxima. A la frecuencia de 48 kHz, dicha trama sena de 85.3 milisegundos de longitud. En cambio, una batena de filtros QMF que se utiliza puede tener un paso operativo de 64 muestras (que es de 1.3 ms de longitud), lo que proporciona una resolucion temporal fina para las ganancias. Ademas, la batena QMF tiene un filtro prototipo alisado que tiene una longitud de 640 muestras lo que asegura que la aplicacion de ganancia vane no bruscamente en el transcurso del tiempo. El analisis con esta batena de filtros QMF proporciona una representacion en mosaico de tiempo-frecuencia de la senal. Cada intervalo temporal de QMF es igual a un paso operativo y en cada intervalo temporal de QMF existen 64 sub-bandas uniformemente espaciadas. Como alternativa, podnan utilizarse otras batenas de filtros, tales como una transformada de Fourier de corta duracion (STFT) y dicha representacion en mosaico de tiempo-frecuencia podna obtenerse todavfa.
En una forma de realizacion, la componente de compresion 104 realiza una etapa de pre-procesamiento que pone en escala la entrada del codec. Para esta forma de realizacion, St(k) es una muestra de batena de filtros valiosa compleja en el intervalo temporal t y el margen de frecuencias k. La Figura 6 ilustra la division de una senal de audio en varios intervalos temporales para una gama de frecuencias, en conformidad con una forma de realizacion. Para la forma de realizacion del diagrama 600, existen 64 contenedores de frecuencias k y 32 intervalos temporales t que producen una pluralidad de mosaicos de tiempo-frecuencia segun se ilustra (aunque no necesariamente dibujados a
escala. Las pre-etapas de compresion ponen a escala la entrada de codec para llegar a ser ^ ~ St(.k)/ge ^n
esta ecuacion 9t — {St/Soy es una mec|ja ranura normalizada.
ilS£(k)l
S = -
En la ecuacion anterior, la expresion K l'~±' "" '' es el nivel absoluto medio/1-norma y So es una constante adecuada. Una p-norma generica se define en el este contexto como sigue:
5
10
15
20
25
30
35
40
45
50
55
imagen1
Se ha demostrado que la 1-norma puede proporcionar resultados notablemente mejores que utilizando la energfa (rms/2-norma). El valor del termino exponencial y suele estar en la gama de entre 0 y 1 y puede elegirse para ser 1/3. La constante So garantiza valores de ganancia razonables independientes de la plataforma de realizacion. A modo de ejemplo, puede ser 1 cuando se pone en practica en una plataforma en donde todos los valores St(k) podnan estar limitados en valor absoluto a 1. Podnan ser potencialmente diferentes en una plataforma en donde St(k) puede tener un valor absoluto maximo diferente. Podna utilizarse tambien para cerciorarse de que el valor de ganancia medio a traves de un conjunto grande de senales sea proximo a 1. Es decir, podna ser un valor de senal intermedio entre un valor de senal maximo y un valor de senal mmimo determinados a partir de un gran cuerpo de contenido.
En el proceso post-etapa realizado por la componente de expansion 114, la salida del codec se extiende mediante una ganancia inversa aplicada por la componente de compresion 104. Lo que antecede requiere una replica exacta
o casi exacta de la bateria de filtros de la componente de compresion. En este caso, St(k) representa una muestra valorada compleja de esta segunda bateria de filtros. La componente de expansion 114 pone a escala la salida del
codec para llegar a ser = St(k) ■ gt.
En la ecuacion anterior, St es una media de ranura normalizada dada como:
imagen2
y
imagen3
En general, la componente de expansion 114 utilizara la misma p-norma que se utiliza en la componente de
c
compresion 104. De este modo, si el nivel absoluto medio se utiliza para definir '-’t en la componente de compresion 104, se define tambien utilizando la 1-norma (p = 1) en la ecuacion anterior.
Cuando una batena de filtros compleja (que comprende, a la vez, funciones de base seno y coseno), tal como la transformada STFT o la QMF compleja se utiliza en las componentes de compresion y expansion, el calculo de la
magnitud l^(k)|0|St(fc)| de una muestra de sub-banda compleja requiere una operacion de rafz cuadrada intensa desde el punto de vista del calculo. Lo que antecede puede eludirse aproximando la magnitud de la muestra de sub- banda compleja en una diversidad de formas, a modo de ejemplo, sumando la magnitud de sus partes real e imaginaria.
En las ecuaciones anteriores, el valor K es igual al numero de sub-bandas en la batena de filtros, o un valor mas bajo. En general, la p-norma podna calcularse utilizando cualquier subconjunto de las sub-bandas en la batena de filtros. Sin embargo, el mismo subconjunto debe emplearse en, a la vez, el codificador 106 y el decodificador 112. En una forma de realizacion, las partes de alta frecuencia (p.ej., componentes de audio con frecuencia superior a 6 kHz) de la senal de audio podnan codificarse con una herramienta de expansion espectral avanzada (A-SPX). Ademas puede ser deseable utilizar solamente la senal con frecuencia superior a 1 kHz (o una frecuencia similar) para servir de grna al modelado del ruido. En tal caso, solamente las sub-bandas en la gama de 1 kHz a 6 kHz pueden utilizarse para calcular la p-norma y en consecuencia, el valor de la ganancia. Ademas, aunque la ganancia se calcule a partir de un subconjunto de sub-bandas, podna aplicarse tambien a un subconjunto diferente, y posiblemente mayor, de sub-bandas.
Segun se ilustra en la Figura 1, la funcion de compresion-expansion, denominada companding, para el modelado del ruido de cuantizacion introducido por el codificador base 106 de un codec de audio se realiza con dos componentes separadas 104 y 114 para desempenar algunas funciones de compresion pre-codificador y funciones de expansion post-decodificador. La Figura 3A es un diagrama de flujo que ilustra un metodo de compresion de una senal de audio en una componente de compresion de pre-codificador, en conformidad con una forma de realizacion, y la Figura 3B es un diagrama de flujo que ilustra un metodo de expansion de una senal de audio en una componente de expansion post-decodificador, en conformidad con una forma de realizacion.
Segun se ilustra en la Figura 3A, el proceso 300 se inicia con la componente de compresion que recibe la senal de
5
10
15
20
25
30
35
40
45
50
55
60
65
audio de entrada (302). Esta componente divide luego la senal de audio en segmentos de corta duracion (304) y comprime la senal de audio a una gama dinamica reducida aplicando valores de ganancia de banda ancha a cada uno de los segmentos de corta duracion (306). La componente de compresion realiza, ademas, algun filtrado prototipo y las componentes de la batena de filtros QMF para reducir o eliminar cualesquiera discontinuidades causadas al aplicar diferentes valores de ganancia a segmentos contiguos, segun se describio con anterioridad (308). En algunos casos, tales como los basados en el tipo de contenido de audio o algunas caractensticas del contenido de audio, las componentes de compresion y expansion de la senal de audio antes y despues de las etapas de codificacion/decodificacion del codec de audio pueden degradar, y no mejorar, la calidad de audio de salida. En tales casos, el proceso de companding (compresion-expansion) puede desactivarse o modificarse para hacer retornar los niveles de companding (compresion/expansion) diferentes. De este modo, la componente de compresion determina la idoneidad de la funcion de companding y/o el nivel optimo de companding requerido para la entrada de senal espedfica y el entorno de reproduccion de audio, entre otras variables (310). Esta etapa de determinacion 310 puede presentarse en cualquier punto practico del proceso 300, tal como antes de la division de la senal de audio 304 o de la compresion de la senal de audio 306. Si la operacion de companding se considera adecuada, se aplican las ganancias (306) y el codificador codifica luego la senal para su transmision al decodificador en conformidad con el formato de datos del codec (312). Algunos datos de control de companding, tales como datos de activacion, datos de sincronizacion, datos de nivel de companding y otros datos de control similares pueden transmitirse como parte del flujo de bits para el procesamiento por la componente de expansion.
La Figura 3B es un diagrama de flujo que ilustra un metodo de expansion de una senal de audio en una componente de expansion post-decodificador, en conformidad con una forma de realizacion. Segun se ilustra en el proceso 350, la etapa del decodificador del codec recibe un flujo de bits que codifica la senal de audio procedente de la etapa del codificador (352). El decodificador decodifica luego la senal codificada en conformidad con el formato de datos de codec (353). La componente de expansion procesa luego el flujo de bits y aplica cualesquiera datos de control codificados para desactivar la expansion o modificar los parametros de expansion sobre la base de los datos de control (354). La componente de expansion divide la senal de audio en segmentos temporales utilizando una forma de ventana adecuada (356). En una forma de realizacion, los segmentos temporales corresponden a los mismos segmentos temporales utilizados por la compresion de compresion. La componente de expansion calcula luego los valores de ganancia adecuados para cada segmento en el dominio frecuencial (358) y aplica los valores de ganancia a cada segmento temporal para expandir la gama dinamica de la senal de audio de nuevo a la gama dinamica original, o cualquier otra gama dinamica adecuada (360).
Control de la funcion companding
Las componentes de compresion y de expansion, que comprenden el denominado compander (compresor- expansor) del sistema 100 pueden configurarse para aplicar las etapas de pre-procesamiento y de post- procesamiento solamente en un tiempo determinado durante el procesamiento de la senal de audio, o solamente para algunos tipos de contenido de audio. A modo de ejemplo, la funcion de companding puede presentar ventajas para las senales transitorias musicales y vocales. Sin embargo, para otras senales, tales como senales estacionarias, la funcion de companding puede degradar la calidad de audio. En consecuencia, segun se ilustra en la Figura 3A, un mecanismo de control de companding (compresion-expansion) se proporciona como bloque funcional 310 y los datos de control se transmiten desde la componente de compresion 104 a la componente de expansion 114 para coordinar la operacion de companding. La forma mas simple de dicho mecanismo de control es desactivar la funcion companding para los bloques de muestras de audio en donde la aplicacion de la funcion companding esta degradando la calidad de audio. En una forma de realizacion, la decision de activar/desactivar la funcion companding se detecta en el codificador y se trasmite como un elemento de flujo de bits al decodificador de modo que el compresor y el expansor sean capaces de activarse/desactivarse en el mismo intervalo temporal QMF.
La conmutacion entre los dos estados dara lugar normalmente a una discontinuidad en la ganancia aplicada, dando lugar a chasquidos o artefactos de conmutacion audibles. Las formas de realizacion incluyen mecanismos para reducir o eliminar estos artefactos de conmutacion. En una primera forma de realizacion, el sistema permite la desactivacion de la funcion companding y solamente en tramas en donde la ganancia esta proxima a 1. En este caso, existe solamente una pequena discontinuidad entre la activacion/desactivacion de la funcion companding. En una segunda forma de realizacion, un tercer modo de companding debil que esta comprendido entre el modo de activacion y de desactivacion, se aplica en una trama de audio entre las tramas de activacion o desactivacion, y se senaliza en el flujo de bits. El modo de companding debil efectua una transicion lenta del termino exponencial y desde su valor por defecto durante la funcion companding puesta a 0, que es el equivalente de la ausencia de dicha funcion companding. En otra forma de realizacion, el sistema esta configurado para no desactivar simplemente la funcion companding sino mas bien para aplicar una ganancia media. En algunos casos, la calidad de audio de las senales estacionarias-tonales puede aumentarse si un factor de ganancia constante se aplica a una trama de audio que se asemeja mas a los factores de ganancia de tramas de companding activado adyacentes que un factor de ganancia constante de 1.0 en una situacion de desactivacion de la funcion companding. Dicho factor de ganancia puede calcularse promediando todas las ganancias de companding (compresion-expansion) a traves de una sola trama. Una trama que contiene una ganancia de companding media constante se senaliza, de este modo, en el flujo de bits.
5
10
15
20
25
30
35
40
45
50
55
60
65
Aunque las formas de realizacion se describen en el contexto de un canal de audio monofonico, conviene senalar que en una expansion directa se podnan gestionar multiples canales repitiendo el metodo individualmente en cada canal. Sin embargo, las senales de audio que comprenden dos o mas canales presentan algunas complejidades adicionales que se resuelven mediante formas de realizacion del sistema de companding ilustrado en la Figura 1. La estrategia de la funcion companding debe depender de la similitud entre canales.
A modo de ejemplo, en el caso de senales transitorias de tipo estereo se ha observado que la funcion companding independiente de los canales individuales puede dar lugar a artefactos de imagenes audibles. En una forma de realizacion, el sistema determina un valor de ganancia unico para cada segmento temporal a partir de las muestras de sub-bandas de ambos canales y utiliza el mismo valor de ganancia para comprimir/expandir las dos senales. Este metodo suele ser adecuado siempre que los dos canales tengan senales muy similares, en donde la similitud se define utilizando una correlacion cruzada, a modo de ejemplo. Un detector calcula la similitud entre canales y conmuta entre la utilizacion de la funcion companding individual de los canales o de companding conjunta de los canales. Las extensiones a mas canales dividinan los canales en grupos de canales utilizando criterios de similitud y aplicaran la funcion companding conjunta sobre los grupos. Esta informacion de agrupamiento puede transmitirse luego por intermedio del flujo de bits.
Puesta en practica del sistema
La Figura 4 es un diagrama de bloques que ilustra un sistema para comprimir una senal de audio en conjuncion con una etapa de codificador de un codec , en conformidad con una forma de realizacion. La Figura 4 ilustra un circuito de hardware o sistema que pone en practica al menos una parte del metodo de compresion para utilizar en un sistema basado en codec que se ilustra en la Figura 3A. Segun se ilustra en el sistema 400, una senal de audio de entrada 401 en el dominio temporal se aplica a la entrada de una batena de filtros QMF 402. Esta batena de filtros realiza una operacion de analisis que separa la senal de entrada en multiples componentes en los que cada filtro de banda de paso incluye una sub-banda de frecuencia de la senal original. La reconstruccion de la senal se realiza en una operacion de smtesis efectuada por la batena de filtros QMF 410. En la forma de realizacion a modo de ejemplo ilustrada en la Figura 4, ambas batenas de filtros de analisis y de smtesis gestionan 64 bandas. El codificador base 412 recibe la senal de audio procedente de la batena de filtros de smtesis 410 y genera un flujo de bits 414 codificando la senal de audio en el formato digital adecuado (p.ej., MP3, AAC, etc.).
El sistema 400 incluye un compresor 406 que aplica valores de ganancia a cada uno de los segmentos de corta duracion en los que se ha divido la senal de audio. Lo que antecede genera una senal de audio de gama dinamica comprimida, tal como se ilustra en la Figura 2B. Una unidad de control de la funcion companding 404 analiza la senal de audio para determinar si, o en que magnitud debe aplicarse la compresion sobre el tipo de senal (p.ej., vocal) o las caractensticas de la senal (p.ej., estacionaria frente a transitoria) u otros parametros pertinentes. La unidad de control 404 puede incluir un mecanismo de deteccion para detectar la caractenstica de maximo temporal de la senal de audio. Sobre la base de la caractenstica detectada de la senal de audio y algunos criterios predefinidos, la unidad de control 404 envfa senales de control adecuadas al compresor 406 para desactivar la funcion de compresion o modificar los valores de ganancia aplicados a los segmentos de corta duracion.
Ademas de la funcion companding, numerosas otras herramientas de codificacion podnan operar tambien en el dominio de QMF. Una de dichas herramientas es una A-SPX (expansion espectral avanzada), que se ilustra en el bloque funcional 408 de la Figura 4. A-SPX es una tecnica que se utiliza para permitir que frecuencias perceptualmente menos importantes sean codificadas con un sistema de codificacion mas amplio que el de las frecuencias mas importantes. A modo de ejemplo, en una herramienta A-SPX en el extremo decodificador, las muestras de sub-bandas QMF desde la frecuencia mas baja pueden replicarse en las frecuencias mas altas, y la envolvente espectral en la banda de alta frecuencia se modela luego utilizando la informacion secundaria transmitida desde el codificador al decodificador.
En un sistema en donde la funcion companding y la tecnica A-SPX se realizan en el dominio QMF, en el codificador, los datos de envolvente de A-SPX para las mas altas frecuencias pueden extraerse a partir de las muestras de sub- bandas todavfa no comprimidas segun se ilustra en la Figura 4 y puede aplicarse una compresion solamente a las muestras QMF de mas baja frecuencia que corresponden a la gama de frecuencias de la senal codificada por el codificador base 412. En el decodificador, 502 representado en la Figura 5, despues del analisis de QMF 504 de la senal decodificada, el proceso de expansion 506 se aplica primero, y la operacion de A-SPX reproduce posteriormente las muestras de sub-bandas mas altas a partir de la senal expandida en las frecuencias inferiores.
En esta forma de realizacion a modo de ejemplo, la batena de filtros de smtesis QMF 410 en el codificador y la batena de filtros de analisis QMF en el decodificador 504 introducen conjuntamente un retardo de muestra de 64064 + 1 (aproximadamente 9 QMF). El retardo de codec base en este ejemplo es 3200 muestras (50 ranuras QMF), por lo que el retardo total es de 59 ranuras. Este retardo se cuantifica introduciendo datos de control en el flujo de bits y utilizandolos como el decodificador, de modo que ambas operaciones del compresor del codificador y del expansor del decodificador estan en sincronizacion.
Como alternativa, en el codificador, pueden aplicarse compresiones sobre el ancho de banda completo de la senal
5
10
15
20
25
30
35
40
45
50
55
60
original. Los datos de envolvente de A-SPX pueden posteriormente extraerse a partir de las muestras de sub-bandas comprimidas. En tal caso, el decodificador, despues del analisis de QMF, ejecuta primero la funcion de la herramienta A-SPX para reconstruir primero la senal comprimida de ancho de banda completo. La etapa de expansion se aplica luego para recuperar la senal con su gama dinamica original.
Otra herramienta operativa que podna utilizarse en el dominio QMF puede ser una herramienta de acoplamiento avanzado (AC) (no ilustrada) en la Figura 4. En un sistema de acoplamiento avanzado, dos canales se codifican como una mezcla descendente monoaural con informacion espacial parametrica adicional que puede aplicarse en el dominio QMF en el decodificador para reconstruir una salida en estereo. Cuando el acoplamiento avanzado AC y la funcion companding se utilizan en conjuncion entre sf, la herramienta de AC podna situarse despues de la etapa de compresion 406 en el codificador, en cuyo caso, se aplicana antes de la etapa de expansion 506 en el decodificador. Como alternativa, la informacion secundaria de AC podna extraerse a partir de una senal estereo no comprimida, en cuyo caso, la herramienta de AC actuana despues de la etapa de expansion 506 en el decodificador. Un modo de AC hubrido puede soportarse tambien en el que el control AC se utiliza por encima de una determinada frecuencia y la funcion estereo discreta se utiliza por debajo de esta frecuencia o, como alternativa, se utiliza una funcion de estereo discreta por encima de determinada frecuencia y se utiliza AC por debajo de esta frecuencia.
Segun se ilustra en las Figuras 3A y 3B, el flujo de bits transmitido entre la etapa del codificador y la etapa del decodificador del codec incluye algunos datos de control. Dichos datos de control constituyen informacion secundaria que permite al sistema conmutar entre diferentes modos de la funcion companding. Los datos de control de conmutacion (para la activacion/desactivacion de la funcion companding) junto con potencialmente algunos estados intermedios pueden anadirse en el orden de 1 o 2 bits por canal. Otros datos de control pueden incluir una senal para determinar si todos los canales de una funcion estereo discreta o configuracion de multicanal utilizaran factores de ganancia de companding comunes o si debenan calcularse con independencia para cada canal. Dichos datos solamente pueden requerir un bit extra unico por canal. Otros elementos de datos de control similares y sus pesos de ponderacion de bits adecuados pueden utilizarse dependiendo de las exigencias y limitaciones operativas del sistema.
Mecanismo de deteccion
En una forma de realizacion, se incluye un mecanismo de control de la funcion companding como parte de la componente de compresion 104 para proporcionar control de la funcion companding en el dominio QMF. El control de la funcion companding puede configurarse sobre la base de varios factores, tales como un tipo de senal de audio. A modo de ejemplo, en la mayona de las aplicaciones, la funcion companding debe activarse para senales vocales y senales transitorias o cualesquiera otras senales dentro de la case de senales de valores maximos temporales. El sistema incluye un mecanismo de deteccion para detectar el maximo de una senal con el fin de ayudar a generar una senal de control adecuada para la funcion del denominado compander.
En una forma de realizacion, una medida para el maximo temporal TP(k)frame se calcula a traves del contenedor de frecuencia k para un codec base dado, y se calcula utilizando la formula siguiente:
UjiUst(ty
TP(k)frame = , ----------- >
JjZUStCW
En la ecuacion anterior, St(k) es la senal de sub-banda y T es el numero de ranuras QMF correspondientes a una trama de codificador base. En una forma de realizacion a modo de ejemplo, el valor de T puede ser 32. El valor maximo temporal calculado por banda puede utilizarse para clasificar el contenido acustico en dos categonas generales: senales musicales estacionarias y senales transitorias musicales o senales vocales. Si el valor de TP(k)frame es menor que un valor definido (p.ej., 1.2), la senal en esa sub-banda de la trama es probablemente una senal musical estacionaria. Si el valor de TP(k)frame es mayor que este valor, en tal caso, la senal es probable que sea del tipo de senales transitorias musicales o senales vocales. Si el valor es mayor que un valor umbral todavfa mas alto (p.ej., 1.6), la senal es muy probable que sea una senal transitoria musical pura p.ej., castanuelas. Ademas, se ha observado que para senales que se producen de forma natural, los valores de maximos obtenidos en diferentes bandas eran mas o menos similares, y esta caractenstica podna utilizarse para reducir el numero de sub- bandas para las cuales ha de calcularse el valor maximo temporal. Sobre la base de esta observacion, el sistema puede poner en practica una de las dos realizaciones siguientes.
En una primera forma de realizacion, el detector ejecuta el proceso siguiente. Como una primera etapa, calcula el numero de bandas que tienen un maximo temporal mayor que 1.6. Como una segunda etapa, calcula luego la media de los valores maximos temporales de las bandas en donde sea menor que 1.6. Si el numero de bandas encontradas en la primera etapa es mayor que 51, o si el valor medio determinado en la segunda etapa es mayor
5
10
15
20
25
30
35
40
45
que 1.45, la senal se determina como siendo una senal transitoria musical y en consecuencia, debena activarse la funcion companding. Dicho detector se desactivara, en la mayor parte del tiempo, para el caso de senales vocales. En algunas formas de realizacion, las senales vocales se codificaran normalmente mediante un codificador vocal separado, y por ello no suele constituir un problema. Sin embargo, en algunos casos, puede ser deseable activar la funcion companding tambien para las senales vocales. En este caso, un segundo tipo de detector puede ser preferible.
En una forma de realizacion, este segundo tipo de detector ejecuta el proceso siguiente. Como una primera etapa, calcula el numero de bandas que tienen un maximo temporal superior a 1.2. En una segunda etapa, calcula luego la media de los valores maximos temporales de bandas en donde sea menor que 1.2. A continuacion, se aplica la regla siguiente: si el resultado de la primera etapa es mayor que 55: activar la funcion companding y si el resultado de la primera etapa es menor que 15: desactivar la funcion companding; si el resultado de la primera etapa esta comprendido entre 15 y 55 y el resultado de la segunda etapa es mayor que 1.16: activar a funcion companding; y si el resultado de la primera etapa es comprendido entre 15 y 55 y el resultado de la segunda etapa es menor que 1.16: desactivar la funcion companding. Conviene senalar que los dos tipos de detectores descritos son solamente dos ejemplos de numerosas soluciones posibles para un algoritmo de detector y pueden utilizarse tambien otros algoritmos similares o como alternativa.
La funcion de control de companding proporcionada por el elemento 404 de la Figura 4 puede ponerse en practica en cualquier manera adecuada para permitir que se utilice dicha funcion companding o no se utilice sobre la base de determinados modos operativos. A modo de ejemplo, la funcion companding no se suele utilizar en el canal de LFE (efectos de baja frecuencia) de un sistema acustico envolvente y tampoco se utiliza cuando no existe ninguna funcionalidad de A-SPX (esto es, ninguna QMF) puesta en practica. En una forma de realizacion, la funcion de control de companding puede proporcionarse por un programa ejecutado por un circuito o elemento basado en procesador, tales como un elemento de control de companding 404. A continuacion, se proporciona una sintaxis a modo de ejemplo de un segmento de programa que puede realizar el control de la funcion companding, en conformidad con una forma de realizacion:
Companding_control(nCh)
{ "
sync_flag=0; if (nCh>l){ sync_flag } " " b_needAvg=0
ch_count=sync_flag?1:nCh for (ch=0; ch<ch_count; ch++){ b_compand_on[ch] if (!b_compand_on[ch]){ b_needAvg=l;
}
}
if (b_needAvg){ b_compand_avg;
}
}
Los indicadores de sync_flag, b_compand_on[ch] y b_compand_avg o elementos de programa pueden estar en el orden de magnitud de 1 bit de longitud, o cualquier otra longitud dependiente de las limitaciones y exigencias del sistema. Conviene senalar que el codigo de programa ilustrado anteriormente es simplemente un ejemplo de una forma de poner en practica una funcion de control de companding, y otros programas o componentes de hardware pueden utilizarse para realizar el control de companding en conformidad con algunas formas de realizacion.
Aunque las formas de realizacion descritas hasta ahora incluyen el proceso de la funcion companding para reducir el ruido de cuantizacion introducido por un codificador en un codec, debe entenderse que aspectos de dicho proceso de la funcion companding puede aplicarse tambien en sistemas de procesamiento de senales que no incluyan etapas de codificador y decodificador (codec). Ademas, en el caso de que el proceso de companding se utilice en conjuncion con un codec, el codec puede basarse en transformada o no basarse en transformada.
Aspectos operativos de los sistemas aqrn descritos pueden ponerse en practica en un entorno de red de procesamiento de sonido basado en ordenador adecuado para procesar ficheros de audio digitalizados o digitales. Partes del sistema de audio adaptativo pueden incluir una o mas redes que comprenden cualquier numero deseado de maquinas individuales, incluyendo uno o mas enrutadores (no ilustrados) que sirven para memorizar y enrutar los
5
10
15
20
25
30
datos transmitidos entre los ordenadores. Dicha red puede construirse sobre la base de varios protocolos de redes diferentes y puede ser la red Internet, una Red de Area Amplia (WAN), una Red de Area Local (LAN) o cualquiera de sus combinaciones.
Uno o mas de los componentes, bloques, procesos u otros componentes funcionales pueden ponerse en practica mediante un programa informatico que controla la ejecucion de un dispositivo informatico basado en procesador del sistema. Conviene senalar que las diversas funciones aqm dadas a conocer pueden describirse utilizando cualquier numero de combinaciones de hardware, firmware y/o datos y/o instrucciones materializadas en varios soportes legibles por ordenador o legibles por maquina, en terminos de su caractenstica de comportamiento, transferencia de registro, componente logico y/o otras caractensticas. Los soportes legibles por ordenador en los que dichos datos formateados y/o instrucciones pueden materializarse incluyen, sin limitacion, soportes de memorizacion ffsicos (no transitorios), no volatiles, en varias formas, tales como un soporte de memorizacion de tipo optico, magnetico o de semiconductores.
A no ser que el contexto requiera claramente lo contrario, a traves de la descripcion y de las reivindicaciones, los terminos “comprende”, “que comprende” y similares han de interpretarse en un sentido inclusivo a diferencia de un sentido exclusivo o exhaustivo; es decir, en un sentido de “incluyendo, sin limitacion”. Las palabras que utilizan el numero singular o plural incluyen tambien el numero plural o singular, respectivamente. Ademas, los terminos “aqm”, “en la presente”, “anterior”, “siguiente” y terminos de significado similar se refieren a este solicitud como un conjunto y no a cualquier parte particular de esta solicitud. Cuando la palabra “o” se utiliza en referencia a una lista de dos o mas elementos, dicho termino cubre toda la interpretacion siguiente de la palabra: cualquiera de los elementos en la lista, la totalidad de los elementos de la lista y cualquier combinacion de los elementos en la lista.
Aunque una o mas formas de realizacion se han descrito a modo de ejemplo y en terminos de las formas de realizacion espedficas, ha de entenderse que una o mas puestas en practica no estan limitadas a las formas de realizacion dadas a conocer. Por el contrario, esta previsto que cubran varias modificaciones y disposiciones similares que senan evidentes para los expertos en esta tecnica dentro del alcance definido por las reivindicaciones adjuntas.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo de expansion de una senal de audio que comprende: recibir una senal de audio; y
    expandir la senal de audio a una gama dinamica expandida mediante un proceso de expansion que incluye: dividir la senal de audio recibida en una pluralidad de segmentos temporales utilizando una forma de ventana definida, calcular una ganancia de banda ancha para cada segmento temporal en el dominio frecuencial utilizando una media no basada en la energfa de una representacion en el dominio frecuencial de la senal de audio y aplicar valores individuales de ganancia a cada segmento temporal para obtener la senal de audio de gama dinamica expandida, en donde la aplicacion de los valores de ganancia individuales amplifica los segmentos de intensidad relativamente alta y atenua los segmentos de intensidad relativamente baja.
  2. 2. El metodo segun la reivindicacion 1, en donde los segmentos se solapan.
  3. 3. El metodo segun la reivindicacion 2, en donde una primera batena de filtros se utiliza para analizar la senal de audio con el fin de obtener la representacion en dominio frecuencial y la forma de ventana definida corresponde a un filtro de prototipo para la primera batena de filtros.
  4. 4. El metodo segun la reivindicacion 3, en donde la primera batena de filtros es una de entre una batena de filtros modulados en cuadratura (QMF) o una transformada de Fourier de corta duracion.
  5. 5. El metodo segun la reivindicacion 3, en donde la ganancia de banda ancha para cada segmento temporal se calcula utilizando muestras de sub-bandas en un subconjunto de sub-bandas en el segmento temporal respectivo.
  6. 6. El metodo segun la reivindicacion 5, en donde el subconjunto de sub-bandas corresponde a la gama de frecuencias completa abarcada por la primera batena de filtros.
  7. 7. Un metodo de compresion de una senal de audio que comprende: recibir una senal de audio inicial, y
    comprimir la senal de audio inicial con el fin de reducir notablemente una gama dinamica original de la senal de audio inicial por intermedio de un proceso de compresion que comprende dividir la senal de audio inicial en una pluralidad de segmentos utilizando una forma de ventana definida, calcular una ganancia de banda ancha en el dominio frecuencial utilizando una media no basada en la energfa de muestras en el dominio frecuencial de la senal de audio inicial, y aplicar valores individuales de ganancia a cada segmento de la pluralidad de segmentos para amplificar los segmentos de intensidad relativamente baja y atenuar los segmentos de intensidad relativamente alta.
  8. 8. El metodo segun la reivindicacion 7, en donde los segmentos estan solapados y en donde una primera batena de filtros se utiliza para analizar la senal de audio para obtener la representacion en dominio frecuencial y la forma de ventana definida que corresponde a un filtro de prototipo para la primera batena de filtros.
  9. 9. El metodo segun la reivindicacion 8, en donde la primera batena de filtros es una de entre una batena de filtros modulados en cuadratura (QMF) o una transformada de Fourier de corta duracion.
  10. 10. El metodo segun la reivindicacion 8, en donde cada valor individual de ganancia se calcula utilizando muestras de sub-bandas en un subconjunto de sub-bandas en un segmento temporal respectivo.
  11. 11. El metodo segun la reivindicacion 10, en donde el subconjunto de sub-bandas corresponde a la totalidad de la gama de frecuencias cubierta por la primera batena de filtros y en donde la ganancia se aplica en el dominio de la primera batena de filtros.
  12. 12. El metodo segun la reivindicacion 10, en donde la ganancia para cada segmento temporal se deriva de la denominada p-norma de las muestras de sub-bandas en cada segmento temporal en donde p es un numero real positivo no igual a dos.
  13. 13. Un aparato para comprimir una senal de audio que comprende: una primera interfaz para recibir una senal de audio inicial; y
    un compresor para comprimir la senal de audio inicial para reducir notablemente una gama dinamica original de la senal de audio inicial dividiendo la senal de audio inicial en una pluralidad de segmentos utilizando una forma de ventana definida, calcular una ganancia de banda ancha en el dominio frecuencial utilizando una media no basada en la energfa de muestras en el dominio frecuencial de la senal de audio inicial, y aplicar valores individuales de
    ganancia a cada segmento de la pluralidad de segmentos para amplificar segmentos de intensidad relativamente baja y para atenuar segmentos de intensidad relativamente alta.
  14. 14. Un aparato para expandir una senal de audio que comprende:
    5
    una primera interfaz, para recibir una senal de audio comprimida; y
    un expansor para expandir la senal de audio comprimida para restablecer practicamente su gama dinamica no comprimida original dividiendo la senal de audio comprimida en una pluralidad de segmentos utilizando una forma de 10 ventana definida, calcular una ganancia de banda ancha en el dominio frecuencial utilizando una media no basada en la energfa de muestras en el dominio frecuencial de la senal de audio comprimida, y
    aplicar valores de ganancia individuales a cada segmento de la pluralidad de segmentos para amplificar segmentos de intensidad relativamente alta y atenuar segmentos de intensidad relativamente baja.
    15
  15. 15. Un soporte de memorizacion no transitoria, no volatil, legible por ordenador, que materializa un programa informatico con instrucciones adaptadas para realizar el metodo segun cualquiera de las reivindicaciones 1 a 6 o 7 a 12.
ES14720877.1T 2013-04-05 2014-04-01 Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada Active ES2617314T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361809028P 2013-04-05 2013-04-05
US201361809028P 2013-04-05
US201361877167P 2013-09-12 2013-09-12
US201361877167P 2013-09-12
PCT/US2014/032578 WO2014165543A1 (en) 2013-04-05 2014-04-01 Companding apparatus and method to reduce quantization noise using advanced spectral extension

Publications (1)

Publication Number Publication Date
ES2617314T3 true ES2617314T3 (es) 2017-06-16

Family

ID=50629038

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14720877.1T Active ES2617314T3 (es) 2013-04-05 2014-04-01 Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada

Country Status (24)

Country Link
US (6) US9947335B2 (es)
EP (3) EP2981963B1 (es)
JP (7) JP6026678B2 (es)
KR (7) KR20220140002A (es)
CN (8) CN108269585B (es)
AP (1) AP2015008800A0 (es)
AU (1) AU2014248232B2 (es)
BR (2) BR122017006632A2 (es)
CA (1) CA2900724C (es)
CL (1) CL2015002278A1 (es)
DK (1) DK2981963T3 (es)
EA (1) EA028755B9 (es)
ES (1) ES2617314T3 (es)
HK (4) HK1211379A1 (es)
HU (1) HUE031966T2 (es)
IL (8) IL300496A (es)
ME (1) ME02623B (es)
MX (1) MX342965B (es)
MY (2) MY197063A (es)
PL (1) PL2981963T3 (es)
RU (2) RU2600527C1 (es)
SG (1) SG11201506134XA (es)
WO (1) WO2014165543A1 (es)
ZA (1) ZA201600393B (es)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014248232B2 (en) 2013-04-05 2015-09-24 Dolby International Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
US9584911B2 (en) * 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US10395664B2 (en) 2016-01-26 2019-08-27 Dolby Laboratories Licensing Corporation Adaptive Quantization
WO2017140600A1 (en) * 2016-02-17 2017-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
US9934788B2 (en) * 2016-08-01 2018-04-03 Bose Corporation Reducing codec noise in acoustic devices
EP3651365A4 (en) * 2017-07-03 2021-03-31 Pioneer Corporation SIGNAL PROCESSING DEVICE, CONTROL PROCESS, PROGRAM, AND INFORMATION SUPPORT
RU2691122C1 (ru) * 2018-06-13 2019-06-11 Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) Способ и устройство компандирования звуковых вещательных сигналов
EP3841572A1 (en) * 2018-08-21 2021-06-30 Dolby International AB Coding dense transient events with companding
EP3844749B1 (en) 2018-08-30 2023-12-27 Dolby International AB Method and apparatus for controlling enhancement of low-bitrate coded audio
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
RU2731602C1 (ru) * 2019-09-30 2020-09-04 Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) Способ и устройство компандирования с предыскажением звуковых вещательных сигналов
EP4051678A1 (en) 2019-10-28 2022-09-07 Merck Sharp & Dohme Corp. Small molecule inhibitors of kras g12c mutant
CN115485769A (zh) 2020-04-30 2022-12-16 杜比国际公司 动态范围减小的域中增强多声道音频的方法、装置和***
CN115867966A (zh) 2020-06-01 2023-03-28 杜比国际公司 用于确定生成神经网络的参数的方法和装置
CN114095831A (zh) * 2020-08-25 2022-02-25 上海艾为电子技术股份有限公司 多段动态范围控制电路以及音频处理芯片
CN112133319A (zh) * 2020-08-31 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN117079657B (zh) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 压限处理方法、装置、电子设备及可读存储介质

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6026678B2 (ja) 1981-04-30 1985-06-25 株式会社青木技研 電動ドライバ−の制御装置
JPS6026678A (ja) 1983-07-22 1985-02-09 Hiroshi Uchiyama 原油受入配管防蝕法
JPH05292592A (ja) * 1992-04-10 1993-11-05 Toshiba Corp 音質補正装置
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
JP3485786B2 (ja) 1998-02-10 2004-01-13 三洋電機株式会社 音声データの圧縮/伸長装置
TW390104B (en) * 1998-08-10 2000-05-11 Acer Labs Inc Method and device for down mixing of multi-sound-track compression audio frequency bit stream
US6300888B1 (en) 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
US6487257B1 (en) * 1999-04-12 2002-11-26 Telefonaktiebolaget L M Ericsson Signal noise reduction by time-domain spectral subtraction using fixed filters
AU2725201A (en) * 1999-11-29 2001-06-04 Syfx Signal processing system and method
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
JP2003005797A (ja) 2001-06-21 2003-01-08 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法及び装置、並びに符号化及び復号化システム
JP4247037B2 (ja) 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
EP2665294A2 (en) * 2003-03-04 2013-11-20 Core Wireless Licensing S.a.r.l. Support of a multichannel audio extension
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
RU2347282C2 (ru) 2003-07-07 2009-02-20 Конинклейке Филипс Электроникс Н.В. Система и способ обработки звукового сигнала
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP5101292B2 (ja) * 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
EP1825712B1 (en) * 2004-12-16 2010-03-03 Widex A/S Hearing aid with feedback model gain estimation
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7956930B2 (en) 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
EP2002429B1 (en) * 2006-04-04 2012-11-21 Dolby Laboratories Licensing Corporation Controlling a perceived loudness characteristic of an audio signal
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
CN100543842C (zh) * 2006-05-23 2009-09-23 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
HUE043155T2 (hu) * 2006-07-04 2019-08-28 Dolby Int Ab Szûrõátalakítót és szûrõkrompresszort tartalmazó szûrõrendszer, és eljárás a szûrõrendszer mûködtetésére
DK2064918T3 (en) * 2006-09-05 2015-01-26 Gn Resound As A hearing-aid with histogram based lydmiljøklassifikation
BRPI0715559B1 (pt) * 2006-10-16 2021-12-07 Dolby International Ab Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与***
ATE493731T1 (de) * 2007-06-08 2011-01-15 Dolby Lab Licensing Corp Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
ES2377719T3 (es) * 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
JP5140730B2 (ja) * 2007-08-27 2013-02-13 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 切り換え可能な時間分解能を用いた低演算量のスペクトル分析/合成
JP4854630B2 (ja) * 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
CN101903944B (zh) * 2007-12-18 2013-04-03 Lg电子株式会社 用于处理音频信号的方法和装置
RU2437247C1 (ru) * 2008-01-01 2011-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки звукового сигнала
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101262530B (zh) * 2008-04-29 2011-12-07 中兴通讯股份有限公司 一种消除移动终端回音的装置
US8594343B2 (en) * 2008-05-01 2013-11-26 Japan Science And Technology Agency Sound processing apparatus and sound processing method
JP4750153B2 (ja) * 2008-05-28 2011-08-17 独立行政法人科学技術振興機構 音響装置及び音響調整方法
CN101281747A (zh) * 2008-05-30 2008-10-08 苏州大学 基于声道参数的汉语耳语音声调识别方法
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
BR122021003142B1 (pt) * 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
KR101400484B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
CA2730355C (en) 2008-07-11 2016-03-22 Guillaume Fuchs Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US20110125507A1 (en) * 2008-07-18 2011-05-26 Dolby Laboratories Licensing Corporation Method and System for Frequency Domain Postfiltering of Encoded Audio Data in a Decoder
CN101656580B (zh) * 2008-08-22 2013-03-20 中兴通讯股份有限公司 全速率语音的处理方法和装置
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
CN101359902B (zh) * 2008-09-25 2012-03-21 炬才微电子(深圳)有限公司 一种音频信号的均衡方法及***
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
TWI416505B (zh) 2008-10-29 2013-11-21 Dolby Int Ab 對源自數位聲頻資料之聲頻信號的信號截割提供保護之方法及設備
JP5270006B2 (ja) 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
US8626516B2 (en) * 2009-02-09 2014-01-07 Broadcom Corporation Method and system for dynamic range control in an audio processing system
TWI662788B (zh) * 2009-02-18 2019-06-11 瑞典商杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
JP4843691B2 (ja) 2009-03-09 2011-12-21 株式会社東芝 信号特性変化装置
CN101853666B (zh) * 2009-03-30 2012-04-04 华为技术有限公司 一种语音增强的方法和装置
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
CN102461207B (zh) * 2009-05-29 2015-04-22 夏普株式会社 声音重放装置、声音重放方法和记录介质
US8949114B2 (en) * 2009-06-04 2015-02-03 Optis Wireless Technology, Llc Method and arrangement for estimating the quality degradation of a processed signal
CN101668303B (zh) * 2009-09-24 2012-02-15 武汉中元通信股份有限公司 双频段宽带电台野外联试通信仿真方法与平台
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
MX2012004623A (es) * 2009-10-21 2012-05-08 Dolby Int Ab Aparato y metodo para generar una señal de audio de alta frecuencia usando sobremuestreo adaptivo.
CN101916567B (zh) * 2009-11-23 2012-02-01 瑞声声学科技(深圳)有限公司 应用于双麦克风***的语音增强方法
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing
CN101800520B (zh) * 2010-02-25 2013-05-22 青岛海信移动通信技术股份有限公司 自动增益控制的实现方法及实现***
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US8616516B2 (en) 2010-03-24 2013-12-31 Intertechnique S.A. Assembling device for cabin interior components
CN101867809A (zh) * 2010-04-09 2010-10-20 中国科学院光电技术研究所 基于脉动阵列的高速图像压缩vlsi编码方法及编码器
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011127832A1 (en) 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US8964993B2 (en) * 2010-04-27 2015-02-24 Yobe, Inc. Systems and methods for enhancing audio content
JP5882895B2 (ja) 2010-06-14 2016-03-09 パナソニック株式会社 復号装置
CN102361506A (zh) * 2011-06-08 2012-02-22 北京昆腾微电子有限公司 无线音频通信***、以及用于发射音频信号的方法和设备
US20130136282A1 (en) * 2011-11-30 2013-05-30 David McClain System and Method for Spectral Personalization of Sound
CN102543086B (zh) * 2011-12-16 2013-08-14 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
CN102522092B (zh) * 2011-12-16 2013-06-19 大连理工大学 一种基于g.711.1的语音带宽扩展的装置和方法
CN102625220B (zh) * 2012-03-22 2014-05-07 清华大学 一种确定助听设备听力补偿增益的方法
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
AU2014248232B2 (en) * 2013-04-05 2015-09-24 Dolby International Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
EP3841572A1 (en) * 2018-08-21 2021-06-30 Dolby International AB Coding dense transient events with companding

Also Published As

Publication number Publication date
IL274358B (en) 2021-05-31
EA028755B9 (ru) 2018-04-30
EA201591533A1 (ru) 2015-12-30
WO2014165543A1 (en) 2014-10-09
HK1254790A1 (zh) 2019-07-26
JP6542717B2 (ja) 2019-07-10
CN106024008B (zh) 2020-01-14
RU2712814C2 (ru) 2020-01-31
IL283098B (en) 2022-06-01
JP2019179254A (ja) 2019-10-17
RU2020100016A (ru) 2021-07-08
CN108269584A (zh) 2018-07-10
US9947335B2 (en) 2018-04-17
SG11201506134XA (en) 2015-09-29
US20160019908A1 (en) 2016-01-21
CN114566182A (zh) 2022-05-31
CN108269586B (zh) 2022-04-05
EP3564953A2 (en) 2019-11-06
JP2022088519A (ja) 2022-06-14
JP2016510439A (ja) 2016-04-07
MY197063A (en) 2023-05-23
CL2015002278A1 (es) 2015-12-11
IL240006A0 (en) 2015-09-24
BR122017006632A2 (pt) 2021-06-29
EP3176786A1 (en) 2017-06-07
US20180197562A1 (en) 2018-07-12
EP3564953A3 (en) 2020-02-26
BR112015019176A2 (pt) 2017-07-18
IL292853B2 (en) 2023-07-01
BR112015019176B1 (pt) 2021-02-09
KR102509345B1 (ko) 2023-03-14
JP2024020311A (ja) 2024-02-14
HK1257807A1 (zh) 2019-11-01
EP3176786B1 (en) 2019-05-08
ZA201600393B (en) 2017-05-31
RU2016116038A (ru) 2018-11-30
EP2981963A1 (en) 2016-02-10
IL274358A (en) 2020-06-30
CN106024008A (zh) 2016-10-12
CA2900724C (en) 2016-09-13
KR101632599B1 (ko) 2016-06-22
IL261514B (en) 2019-05-30
US20200395031A1 (en) 2020-12-17
AU2014248232B2 (en) 2015-09-24
EP3564953B1 (en) 2022-03-23
KR102081043B1 (ko) 2020-02-26
CN114566183A (zh) 2022-05-31
MX342965B (es) 2016-10-19
AU2014248232A1 (en) 2015-08-06
CA2900724A1 (en) 2014-10-09
JP7383067B2 (ja) 2023-11-17
KR20200028037A (ko) 2020-03-13
JP6838105B2 (ja) 2021-03-03
ME02623B (me) 2017-06-20
IL261514A (en) 2018-10-31
PL2981963T3 (pl) 2017-06-30
EA028755B1 (ru) 2017-12-29
CN104995680B (zh) 2018-04-03
IL292853B1 (en) 2023-03-01
JP2016167081A (ja) 2016-09-15
US10217476B2 (en) 2019-02-26
MY173488A (en) 2020-01-28
CN105933030B (zh) 2018-09-28
HK1254791A1 (zh) 2019-07-26
IL283098A (en) 2021-06-30
KR20230039765A (ko) 2023-03-21
MX2015010478A (es) 2015-12-16
HK1211379A1 (en) 2016-05-20
HUE031966T2 (en) 2017-08-28
US20180197561A1 (en) 2018-07-12
KR20210049963A (ko) 2021-05-06
CN108269584B (zh) 2022-03-25
IL266569B (en) 2020-06-30
KR102088153B1 (ko) 2020-03-12
KR20150098688A (ko) 2015-08-28
JP6026678B2 (ja) 2016-11-16
JP2016191934A (ja) 2016-11-10
DK2981963T3 (en) 2017-02-27
IL300496A (en) 2023-04-01
JP6517723B2 (ja) 2019-05-22
IL266569A (en) 2019-07-31
RU2016116038A3 (es) 2019-11-11
KR20160075805A (ko) 2016-06-29
EP2981963B1 (en) 2017-01-04
AP2015008800A0 (en) 2015-10-31
IL292853A (en) 2022-07-01
IL240006A (en) 2016-03-31
CN105933030A (zh) 2016-09-07
US10373627B2 (en) 2019-08-06
CN108269585B (zh) 2022-03-25
KR20220140002A (ko) 2022-10-17
US20230049495A1 (en) 2023-02-16
US20190325890A1 (en) 2019-10-24
JP7050976B2 (ja) 2022-04-08
US10679639B2 (en) 2020-06-09
JP2021076872A (ja) 2021-05-20
US11423923B2 (en) 2022-08-23
IL243689A0 (en) 2016-04-21
CN104995680A (zh) 2015-10-21
CN108269586A (zh) 2018-07-10
KR102248008B1 (ko) 2021-05-07
CN108269585A (zh) 2018-07-10
KR20160075804A (ko) 2016-06-29
RU2600527C1 (ru) 2016-10-20

Similar Documents

Publication Publication Date Title
ES2617314T3 (es) Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada
RU2801156C2 (ru) Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения