ES2223591T3 - Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable. - Google Patents

Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable.

Info

Publication number
ES2223591T3
ES2223591T3 ES00968271T ES00968271T ES2223591T3 ES 2223591 T3 ES2223591 T3 ES 2223591T3 ES 00968271 T ES00968271 T ES 00968271T ES 00968271 T ES00968271 T ES 00968271T ES 2223591 T3 ES2223591 T3 ES 2223591T3
Authority
ES
Spain
Prior art keywords
signal
frequency
resolution
envelope
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00968271T
Other languages
English (en)
Inventor
Lars Gustaf Liljeryd
Kristofer Kjorling
Per Ekstrand
Fredrik Henn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Coding Technologies Sweden AB
Original Assignee
Coding Technologies Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=20417226&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2223591(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Priority claimed from SE9903552A external-priority patent/SE9903552D0/xx
Application filed by Coding Technologies Sweden AB filed Critical Coding Technologies Sweden AB
Application granted granted Critical
Publication of ES2223591T3 publication Critical patent/ES2223591T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stabilization Of Oscillater, Synchronisation, Frequency Synthesizers (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Método de codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada representable en determinadas regiones de frecuencia por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, siendo la representación fina de envolvente espectral una señal residual, que comprende las siguientes etapas: realizar (603) un análisis estadístico de la señal de entrada, caracterizado por, en base a una consecuencia del análisis estadístico, generar (604, 605, 606) datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas, con una resolución de tiempo variable o con una resolución de frecuencia variable, donde la resolución de tiempo o la resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo; generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, los datos sobre la representación basta de envolvente espectral, y la señal de control, en el que la señal de entrada codificada no incluye la señal residual.

Description

Codificación eficaz de envolvente espectral utilizando una resolución tiempo/frecuencia variable.
Campo técnico
La presente invención se refiere a un nuevo método y aparato para la codificación eficaz de envolventes espectrales en sistemas de codificación de audio. El método puede ser utilizado tanto para la codificación de audio natural como para la codificación de habla, y resulta especialmente adecuado para codificadores que utilizan SBR [WO 98/57436] u otros métodos de reconstrucción de alta frecuencia.
Antecedentes de la invención
Las técnicas de codificación de una fuente de audio pueden dividirse en dos clases: codificación natural de audio y codificación de habla. La codificación natural de audio se utiliza habitualmente para señales musicales o arbitrarias a velocidades de bit medias, y por lo general ofrecen un amplio ancho de banda de audio. Los codificadores de habla están normalmente limitados a la reproducción del habla, pero pueden ser utilizados, por otra parte, a velocidades de bit muy bajas, aunque con un bajo ancho de banda de audio. En ambas clases, la señal se separa por lo general en dos componentes importantes de señal, la "envolvente espectral" y la señal "residual" correspondiente. A través de la descripción que sigue, el término "envolvente espectral" se refiere a una distribución espectral tosca de la señal en sentido general, por ejemplo coeficientes de filtro en un codificador basado en predicción lineal o un conjunto de valores medios de tiempo-frecuencia de muestras de sub-banda en un codificador de sub-banda. El término "residual" se refiere a la distribución espectral fina en un sentido general, por ejemplo la señal de error LPC o las muestras de sub-banda normalizadas con la utilización de los valores medios de tiempo-frecuencia anteriores. "Datos de envolvente" hace referencia a la envolvente espectral cuantificada y codificada, y "datos residuales" al residual cuantificado y codificado. A velocidades de bit medias y altas, los datos residuales constituyen la parte principal de la corriente de bits. A velocidades de bit muy bajas, los datos de envolvente constituyen la parte mayor de la corriente de bits. Por ello, es importante representar la envolvente espectral de forma compacta cuando se utilizan velocidades de bit más bajas.
Los codificadores de audio de la técnica anterior y la mayor parte de los codificadores de habla, utilizan segmentos de tiempo de longitud constante, relativamente cortos, para la generación de datos de envolvente, con el fin de conseguir una buena resolución temporal. Sin embargo, esto impide la utilización óptima del enmascaramiento de dominio de frecuencia conocido a partir de la psico-acústica. Para mejorar la ganancia de codificación con el uso de bandas de filtro estrechas de fuerte pendiente, y conseguir además una buena resolución temporal durante los pasos transitorios, los codificadores de audio de módem emplean conmutación de ventana adaptativa, es decir, conmutan longitudes de segmentos de tiempo que dependen de la estadística de las señales. De manera clara, una utilización mínima de los segmentos cortos es un requisito previo para una ganancia de codificación máxima. Desafortunadamente, las ventanas de transición largas se hacen necesarias para alterar las longitudes de los segmentos, limitando la flexibilidad de conmutación.
La envolvente espectral es una función de dos variables: tiempo y frecuencia. La codificación puede realizarse aprovechando la redundancia en cualquier dirección del plano tiempo/frecuencia. En general, la codificación de la envolvente espectral se lleva a cabo en la dirección de la frecuencia, utilizando codificación delta (DPCM) o cuantificación vectorial (VQ).
Sumario de la invención
La presente invención proporciona un nuevo método y un aparato para la codificación de envolvente espectral según se expone en las reivindicaciones 1 y 17, y un aparato para la decodificación de envolvente espectral y un método de decodificación de envolvente espectral según se expone en las reivindicaciones 18 y 19. El esquema de codificación está diseñado de modo que cumple con los requisitos espectrales del sistema, en el que la señal residual, dentro de ciertas regiones de frecuencia, está excluida de los datos transmitidos. Ejemplos son sistemas que emplean codificadores HFR (Reconstrucción de Alta Frecuencia), en particular SBR (Replicación de Banda Espectral), o paramétricos. En una implementación, se obtiene un muestreo no uniforme de tiempo y frecuencia de la envolvente espectral agrupando adaptativamente muestras de sub-banda a partir de un banco de filtro de tamaño fijo, en bandas de frecuencia y en segmentos de tiempo, cada uno de los cuales genera una muestra de envolvente. Esto permite una selección instantánea de resolución arbitraria de tiempo y frecuencia dentro de los límites del banco de filtro. El sistema falla respecto a segmentos de tiempo largos y resolución de alta frecuencia. En las proximidades de los transitorios, se utilizan segmentos de tiempo más cortos, con lo que pueden utilizarse escalones de frecuencia más grandes con el fin de mantener el tamaño de los datos dentro de límites. Con el fin de optimizar los beneficios del muestreo no uniforme en el tiempo, se utiliza una longitud variable de los gránulos o tramas de la corriente de bits. El método de resolución de tiempo/frecuencia variable es también aplicable a la codificación de envolvente basado en la predicción. En vez de agrupar las muestras de sub-banda, se generan coeficientes predictivos para los segmentos de tiempo de longitudes variables según el sistema.
La invención describe dos esquemas para la señalización de la resolución de tiempo y frecuencia utilizada. El primer esquema permite una selección arbitraria, mediante señalización explícita de las resoluciones de frecuencia y de los límites de los segmentos de tiempo. Con el fin de reducir la sobrecarga de la señalización, se utilizan cuatro clases de gránulos, que ofrecen diferentes relaciones de coste/flexibilidad. El segundo esquema aprovecha la propiedad de un material de programa típico, consistente en que los transitorios están separados al menos por un tiempo T_{\text{nmín}} con el fin de reducir el número de bits de control adicionales. Con ello, un detector de transitorio incluido en el codificador, que opera sobre un intervalo de tiempo T_{del} <= T_{\text{nmín}} igual a la longitud nominal del gránulo, determina la posición del inicio de un posible transitorio. La posición dentro del intervalo se codifica y se envía al decodificador. El codificador y el decodificador comparten normas que especifican la distribución de tiempo/frecuencia de las muestras de envolvente espectral, dada una cierta combinación de señales posteriores de control, que garantizan una decodificación no ambigua de los datos de envolvente.
La presente invención presenta un nuevo método eficaz para codificación de redundancia de factor de escala. Un impulso unitario en el dominio del tiempo, se transforma en una constante en el dominio de la frecuencia, y un impulso unitario en el dominio de la frecuencia, es decir, una sinusoide simple, corresponde a una señal de magnitud constante en el dominio del tiempo. De manera simplificada, sobre la base de un período corto, la señal muestra menos variaciones en un dominio que en el otro. De ahí que, utilizando predicción o codificación delta, se incrementa la eficacia de la codificación si la envolvente espectral se codifica tanto en la dirección del tiempo como de la frecuencia, dependiendo de las características de la señal.
Breve descripción de los dibujos
La presente invención va a ser descrita ahora por medio de ejemplos ilustrativos, no limitativos del alcance o espíritu de la invención, con referencia a los dibujos adjuntos, en los que:
Las figuras 1a-1b ilustran el muestreo uniforme, respectivamente no uniforme, en el tiempo de la envolvente espectral.
Las figuras 2\tilde{a}2b definen, e ilustran, el uso de cuatro clases de gránulos.
Las figuras 3\tilde{a}3b son dos ejemplos de gránulos, y de las señales de control correspondientes.
Las figuras 4\tilde{a}4c ilustran el sistema de señalización de posición.
La figura 5 ilustra la codificación delta conmutada de tiempo/frecuencia.
La figura 6 es un diagrama de bloques de un codificador que utiliza codificación de envolvente según la invención.
La figura 7 es un diagrama de bloques de un decodificador que utiliza codificación de envolvente según la invención.
Descripción de realizaciones preferidas
Las realizaciones descritas en lo que sigue, son simplemente ilustrativas de los principios de la presente invención en cuanto a codificación eficaz de envolvente. Se entiende que las modificaciones y variaciones de las disposiciones y detalles aquí descritos resultarán evidentes para otros expertos en la materia. Se pretende, por lo tanto, que esté limitada solamente por el alcance de las reivindicaciones de patente que siguen a continuación, y no por los detalles específicos presentados a título de descripción y explicación de las realizaciones que siguen.
Generación de Datos de Envolvente
La mayor parte de los codificadores de audio y de habla tienen en común que tanto los datos de envolvente como los datos residuales, son transmitidos y combinados durante la síntesis en el decodificador. Dos excepciones las constituyen los codificadores que emplean PNS ["Improving Audio Codecs by Noise Substitution", D. Schultz, JAES, vol. 44, núm. 7/8, 1996], y los codificadores que emplean SBR. En el caso del SBR, considerando la banda alta, solamente necesita ser transmitida la estructura espectral basta, puesto que se reconstruye una señal residual a partir de la banda baja. Esto pone demandas más altas sobre cómo generar datos de envolvente, en particular, debido a la falta de información de "tiempo" contenida en la señal residual original. Este problema va a ser demostrado ahora por medio de un ejemplo:
La figura 1 muestra la representación de tiempo/frecuencia de una señal musical, en la que los acordes sostenidos se combinan con transitorios agudos con contenido de alta frecuencia principalmente. En la banda baja, los acordes tienen una potencia alta y la potencia de los transitorios es baja, mientras que en la banda alta sucede lo contrario. Los datos de envolvente que se generan durante los intervalos de tiempo en los que están presentes los transitorios, están dominados por la alta potencia de transitorio intermitente. Con el proceso SBR en el decodificador, la envolvente espectral de la señal transportada, se estima mediante la utilización de la misma resolución instantánea de tiempo-/frecuencia que se utiliza para el análisis de la banda alta original. A continuación se realiza una ecualización de la señal transportada, en base a las diferencias entre las envolventes espectrales. Por ejemplo, los factores de amplificación en un banco de filtro de ajuste de envolvente, se calculan como la raíz cuadrada de los cocientes entre la potencia media de la señal original y la señal transportada. Para este tipo de señal, se presenta un problema: La señal transportada tiene la misma relación de potencia de "acorde-respecto-a-transitorio" que la banda baja. Las ganancias necesarias con vistas a ajustar los transitorios transportados hasta el nivel correcto, provocan así que los acordes sean amplificados en relación con el nivel de la banda alta original durante la duración completa de los datos de envolvente que contienen la energía transitoria. Estos fragmentos de acorde que momentáneamente son demasiado pesados, son percibidos como pre- y post- ecos respecto al transitorio, véase la figura 1a. Esta clase de distorsión será citada en lo que sigue como "ganancia inducida pre- y post- ecos". El fenómeno puede ser eliminado actualizando constantemente los datos de envolvente a una velocidad alta tal que se garantice que el tiempo entre un transitorio actualizado y uno localizado arbitrariamente sea lo suficientemente corto como para que no pueda ser resuelto por el oído humano. Sin embargo, este enfoque incrementaría drásticamente la cantidad de datos que han de ser transmitidos, y por lo tanto no es factible.
Por lo tanto, se presenta un nuevo esquema de generación de datos de envolvente. La solución consiste en mantener una baja velocidad de actualización durante los pasajes tonales, que forman las partes más importantes de un material típico de programa, y por medio de un detector de transitorio para localizar las posiciones de los transitorios y actualizar los datos de envolvente cerca de los flancos de ataque, véase la figura 1b. Esto elimina los pre-ecos inducidos por la ganancia. Con el fin de representar bien la caída de los transitorios, la velocidad de actualización se incrementa momentáneamente durante un intervalo de tiempo tras el inicio del transitorio. Esto elimina los post-ecos inducidos por la ganancia. La segmentación de tiempo durante la caída, no es tan crucial como encontrar el comienzo del transitorio, como se explicará posteriormente. Con el fin de compensar los incrementos de tiempo más pequeños, se pueden utilizar incrementos de frecuencia más grandes durante el transitorio, manteniendo el tamaño de los datos dentro de sus límites. Un muestreo no uniforme en cuanto a tiempo y frecuencia, como se ha expuesto en lo que antecede, resulta aplicable a la codificación de envolvente en base tanto a un banco de filtro como a una predicción lineal. Se pueden utilizar diferentes órdenes predictivas para segmentos transitorios y casi-estacionarios (tonales).
En el caso de los codificadores basados en predicción, no se conocen en la técnica anterior esquemas elaborados de conmutación de resolución de tiempo/frecuencia. Sin embargo, algunos codificadores basados en banco de filtro emplean resolución variable de tiempo/frecuencia. Esto se consigue habitualmente mediante conmutación del tamaño de banco de filtro. Un cambio de tamaño de este tipo puede no tener lugar de forma inmediata, requiriéndose las denominadas ventanas de transición, y de este modo los puntos de actualización no pueden ser elegidos libremente. Cuando se utiliza SBR o cualquier otro método HFR, el objetivo es diferente, se puede diseñar un banco de filtro que cumpla tanto una resolución temporal más alta como de frecuencia más alta, necesaria para extraer una representación de envolvente adecuada. De este modo, el muestreo no uniforme de tiempo y frecuencia de la envolvente espectral, puede ser obtenido mediante agrupamiento adaptativo de las muestras de sub-banda a partir de un banco de filtro de tamaño fijo, en "bandas de frecuencia" y en "segmentos de tiempo". A continuación se calcula una muestra de envolvente por banda y segmento. A través de la descripción que sigue, "resolución de frecuencia" se refiere a un conjunto específico de bandas de frecuencia, de coeficientes LPC o similares, utilizados en el cálculo de envolvente para un segmento de tiempo particular. En otras palabras, a partir de una perspectiva de codificación de envolvente, se puede obtener instantáneamente alta resolución de frecuencia o alta resolución de tiempo.
Desde un punto de vista sintáctico, todas las corrientes de bits de codificador-decodificador práctico, comprenden períodos de datos, de los que cada uno corresponde a un segmento de tiempo corto de la señal de entrada. El segmento de tiempo asociado a un período de datos de este tipo, se cita en lo que sigue como "gránulo". Los codificadores típicos utilizan gránulos de longitud fija. La presencia de límites de gránulo impone limitaciones al diseño de los segmentos de tiempo utilizados para la estimación de envolvente. El algoritmo que genera estos segmentos de tiempo puede establecer que se requiera un "límite" de segmento en una posición particular, y que los segmentos siguientes deban tener un longitud determinada. Sin embargo, si el límite de un gránulo cae dentro de este intervalo debido a gránulos de longitud fija, el segmento debe ser cortado en dos partes. Esto tiene dos implicaciones: En primer lugar, se incrementa el número de segmentos a codificar, incrementándose posiblemente la cantidad de datos a transmitir. En segundo lugar, los límites forzados pueden generar segmentos que sean demasiado cortos para cálculos fiables de potencia media. Para evitar estos defectos, la presente invención utiliza gránulos de longitud variable. Esto requiere un adelantamiento en el codificador, así como también una disposición extra en memoria intermedia en el decodificador.
Supóngase que el término "rejilla" indica los segmentos de tiempo y las resoluciones de frecuencia correspondientes que deben usarse para una señal particular, y "gnd local" indica la rejilla de un gránulo. De manera clara, la rejilla debe ser indicada al decodificador, para corregir la decodificación de las muestras de envolvente. Sin embargo, en aplicaciones de baja velocidad de bit, el número de bits de esta "señal de control" debe mantenerse en un mínimo. Se proponen en la presente invención dos esquemas de señalización. Antes de describirlos en detalle, se establece un "sistema de base" y algunos criterios de diseño.
Supóngase que el incremento de la cuantificación de tiempo para la envolvente espectral sea T_{q}. Estos incrementos pueden ser vistos como "sub-gránulos" que están agrupados según los segmentos de tiempo mencionados anteriormente. En el caso general, un gránulo comprende S sub-gránulos, donde S varía de gránulo a gránulo. El número de combinaciones posibles de segmentos dentro de un gránulo, en la gama de un segmento para el gránulo completo hasta S segmentos, viene dado por:
1
Con el fin de señalar estados C, se requieren ceil(ln_{2}(C)) = ceil(ln_{2}(2^{S})) = S bits, que corresponden a un bit por sub-gránulo. Una sub-división arbitraria del gránulo puede ser señalada mediante S-1 bits, que representan los sub-gránulos consecutivos, indicando si se encuentra presente o no el límite de un segmento delantero en el sub-gránulo correspondiente. (Los límites del primero y del último gránulos no están aquí señalados). Puesto que S es variable, debe ser señalada, y si este esquema se combina con un codificador-decodificador de banda baja de gránulo de longitud fija, la posición en relación con los gránulos de longitud constante deben ser también señalados. Las resoluciones de frecuencia de segmento pueden ser señaladas con bits de control asignados dinámicamente, por ejemplo un bit por segmento. De forma clara, tal método directo puede conducir a un número inaceptablemente alto de bits de señal de control.
Como se va a mostrar en lo que sigue, muchos de los estados descritos por la Ec. 1 no son muy probables, y generarían también cantidades demasiado grandes de datos de envolvente como para ser prácticos a velocidad de bit limitada.
El mínimo lapso de tiempo entre transitorios consecutivos en un material de programa musical, puede ser estimado de la forma siguiente: En notación musical, el "pulso" rítmico se describe mediante un compás expresado en forma de fracción A/B, en la que A indica el número de "golpes" por compás, y 1/B es el tipo de nota correspondiente a un golpe, por ejemplo 1/4 de nota, denominado normalmente como un cuarto de nota. Supóngase que t indica el tiempo en Golpes Por Minuto (BPM). El tiempo por nota de tipo 1/C viene dado por:
(Ec. 2)T_{n} = (60 / t)\text{*}(B / C)[s]
La mayor parte de las piezas musicales está dentro del intervalo 70-160 BPM, y en el compás 4/4 los patrones rítmicos más rápidos se forman, para la mayor parte de los casos prácticos, a partir de las notas 1/32 ó 32:nd. Esto genera un tiempo mínimo T_{\text{nmín}} = (60/160)*(4/32) = 47 ms. Por supuesto, se pueden presentar períodos de tiempo más cortos que éste, pero tales secuencias rápidas (> 21 eventos por segundo) tienen carácter de zumbido y no necesitan ser totalmente resueltas.
La resolución de tiempo necesaria T_{q} debe ser también establecida. En algunos casos, una señal transitoria tiene su energía principal en la banda alta que ha de ser reconstruida. Esto significa que la envolvente espectral codificada debe portar toda la información de "temporización". La precisión de temporización deseada determina así la resolución necesaria para la codificación de los flancos delanteros. T_{q} es mucho más pequeño que el período mínimo de nota T_{\text{nmín}} puesto que se pueden oír claramente pequeñas desviaciones de tiempo dentro del período. En la mayor parte de los casos, sin embargo, el transitorio tiene energía significativa en la banda baja. Los pre-ecos inducidos por la ganancia descritos anteriormente, deben caer dentro de lo que se denomina tiempo T_{m} de pre- o post- enmascaramiento del sistema auditivo humano, con el fin de que sean inaudibles. De ahí que T_{q} deba satisfacer dos condiciones:
(Ec. 3)T_{q} << T_{\text{nmín}}
(Ec. 4)T_{q} < T_{m}
Obviamente, T_{m} < T_{\text{nmín}} (en otro caso, las notas serían tan rápidas que no podrían ser resueltas), y según ["Modeling the Additivity of Nonsimultaneous Masking", Hearing Res., vol. 80, pp. 105-118 (1994)], T_{m} asciende a 10-20 ms. Puesto que T_{\text{nmín}} está en el intervalo de 50 ms, una selección razonable de T_{q} según la Ec. 3, da como resultado el hecho de que se cumpla también la segunda condición. Por supuesto, la precisión de la detección de transitorio en el codificador y la resolución de tiempo del banco de filtro de análisis/síntesis deben ser tomados también en consideración cuando se selecciona T_{q}.
El rastreo de los flancos de salida es menos crucial, por varias razones: En primer lugar, la posición fuera de la nota tiene un pequeño, o ningún, efecto sobre el ritmo percibido. En segundo lugar, la mayor parte de los instrumentos no presentan flancos traseros agudos, sino por el contrario una curva de caída suave, es decir, no existe un tiempo fuera de nota bien definido. En tercer lugar, el tiempo de enmascaramiento posterior o delantero es sustancialmente más largo que el tiempo de pre-enmascaramiento.
En resumen, se pueden realizar las simplificaciones que siguen con ningún, o muy poco, sacrificio de calidad para las señales prácticas:
1. Solamente la posición de inicio de transitorio necesita ser transmitida con la mayor precisión T_{q}.
2. Solamente los transitorios separados por T_{p} >> T_{q} necesitan ser resueltos totalmente en los datos de envolvente.
Con el fin de reducir la sobrecarga de señalización, ambos sistemas conforme a la presente invención emplean dos modos de muestreo de tiempo: el muestreo uniforme y el no uniforme en el tiempo. El modo uniforme se utiliza durante las fases casi-estacionarias, por lo que se utilizan segmentos de longitud fija, y se requiere poca señalización extra. En las proximidades de los transitorios, el sistema conmuta a un funcionamiento no uniforme y se utilizan gránulos de longitud variable, permitiendo una buena adaptación a la rejilla global ideal.
Sistema de señalización de clase
En el primer sistema, los gránulos se dividen en cuatro clases, y las señales de control se ajustan a las necesidades específicas de cada clase. Las clases están definidas en la figura 2a. La clase "FixFix" corresponde a gránulos convencionales de longitud constante. La clase "FixVar" tiene un límite móvil de parada, lo que hace que la longitud de gránulo varíe. La clase "VarFix" tiene un límite variable de inicio, mientras que el límite de parada es fijo. La última clase "VarVar" tiene límites variables por ambos extremos. Todos los límites variables pueden desviarse en -a/+b frente a las "posiciones nominales".
La figura 2b proporciona un ejemplo de una secuencia de gránulos. El sistema por defecto es de clase FixFix. Un detector de transitorio (o modelo psico-acústico) opera en una región de tiempo por delante del gránulo actual, según se ha representado en la figura. Cuando se detecta un transitorio, se utiliza un gránulo FixVar (el sistema conmuta de funcionamiento uniforme a no uniforme). Normalmente, este gránulo va seguido de un gránulo de clase VarFix, puesto que los transitorios están separados la mayor parte del tiempo por un número de gránulos para todas las selecciones prácticas de longitudes de gránulo. En caso de transitorios incluidos en series de bits consecutivas, se pueden utilizar series de bits de clase VarVar.
La figura 3a es un ejemplo de un par de clase FixVar - VarFix, y de la señal de control correspondiente. Se encuentra presente un transitorio, y el flanco delantero (cuantificado en T_{q}) se ha indicado con t. La primera parte de la corriente de bits está constituida por la señal de "clase". Puesto que se utilizan cuatro clases, se usan dos bits para esta señal. En caso de clases FixVar o VarFix, la señal siguiente describe la posición del límite variable, expresada como desviación de la posición nominal. Este límite se menciona como "límite absoluto". Los límites de segmento dentro de los gránulos se describen por medio de "límites relativos". El límite absoluto se utiliza como referencia, y los otros límites están descritos como distancias acumulativas a la referencia. El número de límites relativos es variable, y está señalado para el decodificador, después del límite absoluto. Un número cero significa que el gránulo comprende solamente un segmento de tiempo. Así, en caso de clase FixVar, las longitudes de segmento se indican en una secuencia inversa, moviéndose por fuera del límite absoluto en el extremo del gránulo. La longitud del primer segmento en un gránulo FixVar se deriva de los límites relativos y de la longitud total, y no está señalada. Las señales de límite relativo de clase VarFix están insertadas en la corriente de bits en una secuencia delantera, por lo que se excluye la longitud del último segmento. El orden de señal de corriente de bits es el mismo que el de la clase FixVar, es decir: [clase, límite abs., número de límites rel., límite 0 rel., límite 1 rel., ..., límite N-1 rel.]. En la figura, las señales se han representado en "texto claro" en vez de con las palabras reales de código binario enviadas en la corriente de bits.
La figura 3b muestra una codificación alternativa de la señal. El límite variable ofrece versatilidad cuando se agrupan los segmentos en una rejilla global dada. De este modo se puede realizar cualquier control de carga útil a este nivel, por ejemplo para ecualizar el número de bits por gránulo. Esto puede facilitar la operación del codificador de banda baja. Con un adelantamiento suficiente dado, se puede realizar una codificación multipaso, y se puede usar una combinación óptima de rejillas locales.
Con el fin de reducir el conjunto de símbolos para señalar los límites relativos, y con ello el número de bits por símbolo, esas longitudes pueden ser cuantificadas en un múltiplo entero (>1) de T_{q}, si el borde absoluto tiene la precisión T_{q}. En este caso, el límite absoluto sirve, junto con la función anterior, para alinear un grupo de límites alrededor del transitorio con la precisión T_{q}. En otras palabras, la más alta precisión se encuentra siempre disponible para codificar los flancos de delanteros de transitorio, y se utiliza una resolución "más basta" en el rastreo de la caída.
Las series de bits de clase VarVar utilizan una combinación de señalización FixVar y VarFix, por ejemplo intercalada: [clase, límite abs. izquierdo d:o derecho, núm. límite rel. izquierdo, d:o derecho, [límite rel. izquierdo 0, ..., límite rel. izquierdo N-1], [d:o derecho]]. Esta clase ofrece la mayor flexibilidad en cuanto a selección de rejilla local, a costa de una sobrecarga de señalización incrementada. Finalmente, la clase FixFix no requiere otras señales que la señal de clase en sí misma, en cuyo caso, por ejemplo, se utilizan dos segmentos (de igual longitud). Sin embargo, es posible añadir una señal que permita una selección dentro de un conjunto de rejillas predefinidas. Por ejemplo, se puede calcular la envolvente espectral para dos segmentos, y si los dos segmentos no difieren en más de una cantidad determinada, solamente se envía un conjunto de datos de envolvente.
Hasta ahora, solamente se ha descrito la segmentación en el tiempo. Por muchas razones, puede resultar deseable indicar al decodificador cuál de los límites corresponde con el límite delantero de transitorio. Esto puede realizarse enviando un "puntero" que apunte al límite relevante. La dirección de referencia puede seguir a la de los límites relativos, y un valor cero implica que no se encuentra presente ningún inicio de transitorio dentro del gránulo actual. Además, la resolución de frecuencia (número de estimaciones de potencia u orden de variable explicativa) utilizada para los segmentos individuales, debe estar también definida. Esto puede ser señalado explícitamente, como en el "sistema de base", o implícitamente, es decir, la resolución se acopla a las longitudes de segmento, y posiblemente a la posición del puntero.
Cuando se utilizan canales de transmisión propensos a errores, es importante evitar la propagación del error. En el sistema anterior, la rejilla local está completamente descrita por medio de la señal de control del gránulo correspondiente. De ahí que no existan dependencias entre tramas, en la señal de control. Esto significa que los límites de gránulo están "sobrecodificados", puesto que las intersecciones de gránulo están señaladas en ambos gránulos consecutivos. Esta redundancia puede ser utilizada para la detección de un error simple, si los límites no corresponden, un error de transmisión que se ha producido, y que pueda ser activada la ocultación de error.
Sistema de señalización de posición
El segundo sistema, citado en lo que sigue como "sistema de señalización de posición", está previsto para aplicaciones de velocidad de bit muy baja. Las normas de diseño establecidas previamente son utilizadas en mayor medida, con el fin de reducir incluso mucho más el número de bits de la señal de control. Según la presente invención, la información de inicio de transitorio puede ser utilizada para la indicación implícita de los bordes de segmento y resoluciones de frecuencia en las proximidades de los transitorios. Esto va a ser descrito ahora en lo que sigue, suponiendo un tamaño nominal de gránulo de N sub-gránulos, elegido según NT_{q} <= T_{\text{nmín}}, es decir, es posible que se produzca un máximo de un transitorio dentro de un gránulo, véase la figura 4a, donde N = 8. Se emplea un detector de transitorio, que opera sobre intervalos de longitud N, situado N/2 por delante del gránulo actual, figura 4b. Cuando se detecta un transitorio, se establece un indicador asociado a esta región. En el ejemplo, el detector de transitorio ha detectado un transitorio en el sub-gránulo 2 en el instante n-1, y un transitorio en el sub-gránulo 3 en el instante n. Estas posiciones, pos(n-1) y pos(n), así como también los correspondientes indicadores, indicador(n-1) e indicador (n), son utilizados como entrada al algoritmo de generación de rejilla, y la rejilla local correspondiente para el gránulo n podría ser como el representado en la figura 4c. Según se ve a partir de la figura, el sub-gránulo 3 del gránulo en el instante n-1 está incluido en la rejilla de tiempo/frecuencia del gránulo n. Las únicas señales alimentadas a la corriente de bits, son indicador(n) [1 bit], y pos(n) [ceil(ln_{2}(N)) bits]. El algoritmo de rejilla es también conocido por el decodificador, con lo que esas señales, junto con las señales correspondientes del gránulo n-1 anterior, son suficientes para una reconstrucción no ambigua de la rejilla utilizada por el decodificador. Cuando no se detecta ningún transitorio, la señal de posición es obsoleta, y puede ser sustituida, por ejemplo, por una señal de 1 bit, constatando si se utilizan uno o dos segmentos. Así, la operación en modo uniforme es idéntica a la del sistema de señalización de clase.
Este sistema puede ser considerado como una máquina de estado finito, donde las señales descritas anteriormente controlan las transiciones de un estado a otro, y los estados definen las rejillas locales. De forma clara, los estados pueden estar representados por tablas, almacenadas tanto en el codificador como en el decodificador. Puesto que las rejillas están codificadas de forma compacta, la capacidad de alterar adaptativamente la carga útil ha sido sacrificada. Una aproximación razonable consiste en mantener el tamaño de la matriz de datos de tiempo/frecuencia (por ejemplo, el número de estimaciones de potencia) aproximadamente constante. Suponiendo que el número de coeficientes o de factores de escala en un segmento de alta resolución sea dos veces el de un segmento de baja resolución, se puede intercambiar un segmento de alta resolución por dos segmentos de baja resolución.
Codificación de factor de escala conmutado de tiempo/frecuencia
Utilizando una transformación de tiempo en frecuencia, se puede demostrar que un impulso en el dominio del tiempo corresponde a un espectro plano en el dominio de la frecuencia, y un "impulso" en el dominio de la frecuencia, es decir, una sinusoide simple, corresponde con una señal casi-estacionaria en el dominio del tiempo. En otras palabras, una señal muestra normalmente más propiedades transitorias en un dominio que en el otro. En un espectrograma, es decir, una presentación de matriz de tiempo/frecuencia, esta propiedad resulta evidente, y puede ser utilizada ventajosamente cuando se codifican envolventes espectrales.
Una señal tonal estacionaria puede tener un espectro muy dispersado, no adecuado para codificación delta en la dirección de frecuencia, pero muy adecuado para codificación delta en la dirección de tiempo, y viceversa. Esto se ha representado en la figura 5. En la descripción que sigue, un vector de factores de escala calculados en el instante n_{0}, representa la envolvente espectral:
(Ec. 5)Y(k, n_{0}) = [a_{1}, a_{2}, a_{3}, ..., a_{k}, ..., a_{N}]
donde a_{1}, ..., a_{N} son valores de amplitud para frecuencias diferentes. Una práctica común consiste en codificar la diferencia entre valores adyacentes en la dirección de la frecuencia en un instante dado, lo que proporciona:
(Ec. 6)D(k, n_{0}) - [a_{2} - a_{1}, a_{3} - a_{2}, ..., a_{N} - a_{(N-1)}
Con el fin de poder decodificar todo esto, el valor inicial a_{1} necesita ser transmitido. Según se ha expuesto en lo que antecede, este esquema de codificación delta puede demostrar ser más ineficaz si el espectro contiene solamente unos pocos tonos estacionarios. Esto puede dar como resultado una codificación delta que produce una velocidad de bit más alta que la codificación PCM regular. Con el fin de tratar este problema, se propone un método de conmutación de tiempo/frecuencia, citado en lo que sigue como codificación T/F: Los factores de escala son cuantificados y codificados tanto en la dirección de tiempo como de frecuencia. Para ambos casos, se calcula el número de bits requeridos para un error de codificación dado, o se calcula el error para un número de bits dado. En base a todo esto, se elige la dirección de codificación que sea más ventajosa.
Como ejemplo, se puede utilizar codificación de redundancia DPCM y de Huffman. Se calculan dos vectores, D_{f} y D_{t}:
(Ec. 7)D_{f} (k, n_{0}) = [a_{2} - a_{1}, a_{3} - a_{2}, ..., a_{N} - a_{(N-1)}]
(Ec. 8)D_{t} (k, n_{0}) = [a_{1} (n_{0}) - a_{1} (n_{0} - 1), a_{2} (n_{0}) - a_{2} (n_{0} - 1), ..., a_{N} (n_{0}) - a_{N} (n_{0} - 1)
Las tablas de Huffman correspondientes, una para la dirección de frecuencia y una para la dirección de tiempo, establecen el número de bits requeridos para codificar los vectores. El vector codificado que requiere el menor número de bits a codificar, representa la dirección de codificación preferible. Las tablas pueden ser generadas inicialmente utilizando alguna distancia mínima como criterio de conmutación de tiempo/frecuencia.
Los valores iniciales son transmitidos siempre que la envolvente espectral sea codificada en la dirección de la frecuencia, pero no cuando se codifica en la dirección del tiempo desde que los mismos se encuentran disponibles en el decodificador, mediante la envolvente previa. El algoritmo propuesto requiere también información extra a ser transmitida, especialmente un indicador de tiempo/frecuencia que indique en qué dirección fue codificada la envolvente espectral. El algoritmo de T/F puede ser utilizado ventajosamente con varios esquemas diferentes de codificación de representación de envolvente/factor de escala, aparte del DPCM y de Huffman, tal como ADPCM, LPC y cuantificación vectorial. El algoritmo de T/F propuesto proporciona una reducción significativa de velocidad de bit para los datos de envolvente espectral.
Implementaciones prácticas
Un ejemplo de la parte de codificador de la invención, ha sido representado en la figura 6. La señal analógica de entrada se alimenta a un convertidor 601 A/D, que forma una señal digital. La señal digital de audio se alimenta a un codificador 602 perceptual de audio, donde se realiza la codificación de fuente. Adicionalmente, la señal digital se alimenta a un detector 603 de transitorio y a un banco 604 de filtro de análisis, que divide la señal en sus componentes espectrales (señales de sub-banda). El detector de transitorio podría operar sobre las señales de sub-banda a partir del banco de análisis, pero a efectos generales, aquí se supone que opera directamente sobre muestras del dominio digital de tiempo. El detector de transitorio divide la señal en gránulos y determina, según la invención, si los sub-gránulos del interior de los gránulos han de ser indicados como transitorio. Esta información se envía al bloque 605 de agrupamiento de envolvente, la cual especifica la rejilla de tiempo/frecuencia que ha de ser utilizada para el gránulo actual. Según la rejilla, el bloque combina las señales de sub-banda muestreadas uniformes, para formar los valores de envolvente muestreados no uniformes. Como ejemplo, estos valores pueden representar la densidad de potencia media de las muestras de sub-banda agrupadas. Los valores de envolvente son, junto con la información de agrupamiento, alimentados al bloque 606 codificador de envolvente. Este bloque decide en qué dirección (tiempo o frecuencia) codificar los valores de envolvente. Las señales resultantes, la salida desde el codificador de audio, la información de envolvente de banda ancha, y las señales de control, son alimentadas al multiplexor 607, formando una corriente de bits en serie que es transmitida o almacenada.
El lado de decodificador de la invención, ha sido representado en la figura 7, utilizando transposición SBR como ejemplo de generación de la señal residual que falta. El demultiplexor 701 restaura las señales y alimenta la parte apropiada a un decodificador 702 de audio, lo que produce una señal de audio digital de banda baja. La información de envolvente se alimenta desde el demultiplexor hasta el bloque 703 de decodificación de envolvente, lo que, mediante el uso de datos de control, determina en qué dirección están codificados los datos de la envolvente actual, y los decodifica. La señal de banda baja procedente del decodificador de audio es enrutada hasta el módulo 704 de transposición, lo que genera una señal replicada de banda alta a partir de la banda baja. La señal de banda alta se alimenta a un banco 706 de filtro de análisis, el cual es del mismo tipo que el del lado del codificador. Las señales de sub-banda son combinadas en la unidad 707 de agrupamiento de factor de escala. Con el uso de datos de control procedentes del demultiplexor, se adopta el mismo tipo de combinación y distribución de tiempo/frecuencia de las muestras de sub-banda que en el lado del codificador. La información de envolvente procedente del demultiplexor y la información procedente de la unidad de agrupamiento de factor de escala, se procesa en el módulo 708 de control de ganancia. El módulo calcula los factores de ganancia que han de ser aplicados a las muestras de sub-banda con anterioridad a la recombinación en el bloque 709 de banco de filtro de síntesis. La salida procedente del conjunto de filtro de síntesis es así una señal de audio de banda alta ajustada a la envolvente. Esta señal se añade a la salida procedente de la unidad 705 de retardo, la cual se alimenta con la señal de audio de banda baja. El retardo compensa el tiempo de procesamiento de la señal de banda alta. Finalmente, la señal digital de banda ancha obtenida, se convierte en una señal m analógica de audio en el convertidor 710 digital/analógico.

Claims (19)

1. Método de codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada representable en determinadas regiones de frecuencia por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, siendo la representación fina de envolvente espectral una señal residual, que comprende las siguientes etapas:
realizar (603) un análisis estadístico de la señal de entrada,
caracterizado por,
en base a una consecuencia del análisis estadístico, generar (604, 605, 606) datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas, con una resolución de tiempo variable o con una resolución de frecuencia variable, donde la resolución de tiempo o la resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo;
generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y
generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, los datos sobre la representación basta de envolvente espectral, y la señal de control, en el que la señal de entrada codificada no incluye la señal residual.
2. Método según la reivindicación 1, en el que la etapa de generación (604, 605, 606) de los datos sobre la representación basta de la envolvente para las regiones de frecuencia determinadas, incluye la etapa de seleccionar una rejilla de resolución de tiempo/frecuencia que ha de ser utilizada para la representación basta de envolvente espectral, y en la que se genera la señal de control para describir la rejilla.
3. Método según la reivindicación 1 ó 2, en el que la etapa de generar la información basta de envolvente incluye las siguientes etapas:
obtener elementos de una representación de tiempo/frecuencia de la señal de entrada;
agrupar elementos en la representación de tiempo/frecuencia de la señal de entrada, y
calcular un factor de escala para cada grupo.
4. Método según la reivindicación 3, en el que la etapa de obtención incluye la etapa de utilizar un banco de filtro.
5. Método según la reivindicación 4, en el que el banco de filtro es de tamaño fijo.
6. Método según la reivindicación 1, en el que la etapa de generación de los datos sobre la representación basta de envolvente espectral para regiones de frecuencia determinadas, incluye la etapa de utilizar una variable explicativa lineal.
7. Método según la reivindicación 1, en el que la etapa de realizar un análisis estadístico incluye la etapa de emplear un detector de transitorio.
8. Método según la reivindicación 1, en el que la etapa de generar los datos sobre la representación basta de envolvente espectral incluye la etapa de conmutar una resolución instantánea desde una combinación por defecto de resolución de frecuencia más alta y resolución de tiempo inferior, hasta una combinación de resolución de frecuencia inferior y resolución de tiempo más alta al comienzo de un transitorio, con el fin de obtener la resolución de tiempo variable de la resolución de frecuencia variable.
9. Método según la reivindicación 1, en el que la etapa de generar la señal de control es operativa para generar la señal de control de tal modo que la señal de control describa posiciones en el interior de un gránulo de velocidad de actualización constante,
en el que la etapa de realizar el análisis estadístico es operativa para aplicar la velocidad de actualización constante, y
en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral es operativa para elegir una resolución instantánea en base a posiciones de transitorios en las señales de entrada dentro de los gránulos actuales y de los adyacentes, con el uso de normas disponibles para un codificador y un decodificador.
10. Método según la reivindicación 9, en el que la etapa de generar la señal de control es operativa para generar la señal de control de tal modo que quede señalada a lo sumo en una posición por gránulo.
11. Método según la reivindicación 1, en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral es operativa para usar gránulos de longitud variable.
12. Método según la reivindicación 11, en el que se utilizan cuatro clases de gránulos, según los cuales la primera clase tiene límites de gránulo de posición fija, y longitud L,
la segunda clase tiene un límite inicial de posición fija, y un límite de parada de posición variable,
la tercera clase tiene un límite inicial de posición variable, y un límite de parada de posición fija,
la cuarta clase tiene límites inicial y de parada de posición variable, y
dichas posiciones fijas coinciden con posiciones de referencia, separadas por la distancia L, y
dichas posiciones variables pueden estar desviadas [-a, b] frente a dichas posiciones de referencia.
13. Método según la reivindicación 3, en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral comprende además la etapa de codificar los factores de escala tanto en la dirección del tiempo como de la frecuencia, en el que se determina la dirección momentáneamente más beneficiosa, y en el que la dirección más beneficiosa se elige en la etapa de codificación.
14. Método según la reivindicación 3, en el que la etapa de generar (604, 605, 606) datossobre la representación basta de envolvente espectral comprende además la etapa de codificar los factores de escala tanto la dirección del tiempo como de la frecuencia, en el que se elige, para la etapa de codificación, una dirección que genera un menor error de codificación para un número dado de bits.
15. Método según la reivindicación 3, en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral comprende además la etapa de codificar los factores de escala tanto en la dirección de tiempo como de frecuencia, en el que se elige, para la etapa de codificación, la dirección que genera el menor número de bits para un error de codificación dado.
16. Método según la reivindicación 13, 14 ó 15, en el que la etapa de codificación incluye las etapas de emplear codificación sin pérdidas, en el que se utilizan tablas separadas para la dirección de tiempo y la dirección de frecuencia, en el que se utiliza un resultado de la codificación que usa las tablas, para la elección de la dirección para la codificación.
17. Aparato para codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada en las regiones de frecuencia determinadas representable por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, teniendo la representación fina de envolvente espectral una señal residual, que comprende:
medios (603) para llevar a cabo un análisis estadístico de la señal de entrada,
caracterizado por:
medios para generar (604, 605, 606) datos, en base al resultado del análisis estadístico, sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas con una resolución de tiempo variable y una resolución de frecuencia variable, en el que una resolución de tiempo o una resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo,
medios para generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y
medios para generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, de los datos sobre la representación basta de envolvente espectral y de la señal de control, en el que la señal codificada de entrada no incluye la señal residual.
18. Aparato para decodificar la envolvente espectral de una señal codificada, incluyendo la señal codificada una versión codificada de fuente de una señal original, teniendo la señal original un ancho de banda que incluye determinadas regiones de frecuencia, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, teniendo la señal codificada datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, caracterizado porque los datos sobre la representación basta de envolvente espectral representa la envolvente espectral con una resolución de tiempo variable o una resolución de frecuencia variable, teniendo la señal codificada una señal de control que indica la resolución de tiempo variable o la resolución de frecuencia variable, dando como resultado la señal codificada de fuente, tras la decodificación (702) de la fuente, una versión decodificada de la señal original, teniendo la versión decodificada de la señal original un ancho de banda que no incluye las regiones de frecuencia determinadas, que comprende:
un demultiplexor (701) para demultiplexar la señal codificada con el fin de obtener la versión codificada de fuente, los datos sobre la representación basta de la envolvente espectral, y la señal de control;
medios (704) para generar una señal replicada de la banda espectral para las regiones de frecuencia determinadas;
medios para interpretar la señal de control con el fin de determinar la resolución de tiempo variable o la resolución de frecuencia variable;
medios (708, 709) para ajuste de la señal replicada de banda espectral de envolvente, utilizando los datos sobre la información basta de envolvente espectral y la resolución de tiempo variable o la resolución de frecuencia variable, y
medios para añadir la señal ajustada de envolvente y la versión decodificada de la señal original, para obtener una señal decodificada que tiene un ancho de banda que incluye las regiones de frecuencia determinadas.
19. Método de decodificación de una señal codificada de envolvente espectral, incluyendo la señal codificada una versión codificada de fuente de una señal original, teniendo la señal original un ancho de banda que incluye determinadas regiones de frecuencia, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, teniendo la señal codificada datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, caracterizado porque los datos sobre la representación basta de envolvente espectral representan la envolvente espectral con una resolución de tiempo variable o una resolución de frecuencia variable, teniendo la señal codificada una señal de control que indica la resolución de tiempo variable o la resolución de frecuencia variable, dando como resultado la señal codificada de fuente, tras la decodificación (702) de la fuente, una versión decodificada de la señal original, teniendo la versión decodificada de la señal original un ancho de banda que no incluye las regiones de frecuencia determinadas, que comprende las siguientes etapas:
demultiplexar (701) la señal codificada para obtener la versión codificada de fuente, los datos de la representación basta de envolvente espectral, y la señal de control;
generar (704) una señal replicada de banda espectral para las regiones de frecuencia determinadas;
interpretar (703) la señal de control para determinar la resolución de tiempo variable o la resolución de frecuencia variable;
ajustar (708, 709) la señal replicada de banda espectral de envolvente, utilizando los datos sobre la información basta de envolvente espectral y la resolución de tiempo variable o la resolución de frecuencia variable, y
añadir la señal ajustada de envolvente y la versión decodificada de la señal original, para obtener una señal decodificada que tenga un ancho de banda que incluya las regiones de frecuencia determinadas.
ES00968271T 1999-10-01 2000-09-29 Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable. Expired - Lifetime ES2223591T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
SE9903552 1999-10-01
SE9903552A SE9903552D0 (sv) 1999-01-27 1999-10-01 Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
PCT/SE2000/000158 WO2000045378A2 (en) 1999-01-27 2000-01-26 Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
WOPCT/SE00/00158 2000-01-26

Publications (1)

Publication Number Publication Date
ES2223591T3 true ES2223591T3 (es) 2005-03-01

Family

ID=20417226

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00968271T Expired - Lifetime ES2223591T3 (es) 1999-10-01 2000-09-29 Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable.

Country Status (14)

Country Link
US (3) US6978236B1 (es)
EP (1) EP1216474B1 (es)
JP (3) JP4035631B2 (es)
CN (1) CN1172293C (es)
AT (1) ATE271250T1 (es)
AU (1) AU7821200A (es)
BR (1) BRPI0014642B1 (es)
DE (1) DE60012198T2 (es)
DK (1) DK1216474T3 (es)
ES (1) ES2223591T3 (es)
HK (1) HK1049401B (es)
PT (1) PT1216474E (es)
RU (1) RU2236046C2 (es)
WO (1) WO2001026095A1 (es)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
KR100830857B1 (ko) * 2001-01-19 2008-05-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
JP3469567B2 (ja) * 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
WO2003065353A1 (en) 2002-01-30 2003-08-07 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
JP4789622B2 (ja) * 2003-09-16 2011-10-12 パナソニック株式会社 スペクトル符号化装置、スケーラブル符号化装置、復号化装置、およびこれらの方法
US7451091B2 (en) 2003-10-07 2008-11-11 Matsushita Electric Industrial Co., Ltd. Method for determining time borders and frequency resolutions for spectral envelope coding
KR101217649B1 (ko) * 2003-10-30 2013-01-02 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
EP1719117A1 (en) * 2004-02-16 2006-11-08 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
WO2005091275A1 (en) * 2004-03-17 2005-09-29 Koninklijke Philips Electronics N.V. Audio coding
WO2005104094A1 (ja) 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. 符号化装置
JP2008503766A (ja) * 2004-06-21 2008-02-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオエンコードの方法
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
EP1814106B1 (en) * 2005-01-14 2009-09-16 Panasonic Corporation Audio switching device and audio switching method
US20060235683A1 (en) * 2005-04-13 2006-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Lossless encoding of information with guaranteed maximum bitrate
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
US7788106B2 (en) * 2005-04-13 2010-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Entropy coding with compact codebooks
ES2327566T3 (es) * 2005-04-28 2009-10-30 Siemens Aktiengesellschaft Procedimiento y dispositivo para la supresion de ruidos.
EP1742509B1 (en) * 2005-07-08 2013-08-14 Oticon A/S A system and method for eliminating feedback and noise in a hearing device
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US8473298B2 (en) * 2005-11-01 2013-06-25 Apple Inc. Pre-resampling to achieve continuously variable analysis time/frequency resolution
JP4876574B2 (ja) 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
EP2040252A4 (en) 2006-07-07 2013-01-09 Nec Corp AUDIO CODING DEVICE, AUDIO CODING METHOD, AND PROGRAM THEREOF
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US9583117B2 (en) * 2006-10-10 2017-02-28 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8041578B2 (en) 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8126721B2 (en) * 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
US8295507B2 (en) 2006-11-09 2012-10-23 Sony Corporation Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4984983B2 (ja) 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
WO2008114080A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation Audio decoding
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
JP5434592B2 (ja) * 2007-06-27 2014-03-05 日本電気株式会社 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
ES2658942T3 (es) * 2007-08-27 2018-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
CN101790756B (zh) * 2007-08-27 2012-09-05 爱立信电话股份有限公司 瞬态检测器以及用于支持音频信号的编码的方法
CN101471072B (zh) * 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
EP2242048B1 (en) * 2008-01-09 2017-06-14 LG Electronics Inc. Method and apparatus for identifying frame type
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
BR122012006265B1 (pt) * 2008-03-10 2024-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
AU2009267525B2 (en) * 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
EP2346030B1 (en) * 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
CN102089814B (zh) 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
AU2009267532B2 (en) 2008-07-11 2013-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for calculating a number of spectral envelopes
US8326640B2 (en) * 2008-08-26 2012-12-04 Broadcom Corporation Method and system for multi-band amplitude estimation and gain control in an audio CODEC
RU2520402C2 (ru) * 2008-10-08 2014-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码***
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
BR122019023704B1 (pt) 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
MX2011007925A (es) * 2009-01-28 2011-08-17 Dten Forschung E V Fraunhofer Ges Zur Foeerderung Der Angewan Codificador de audio, decodificador de audio, información de audio codificada, métodos para la codificación y decodificación de una señal de audio y programa de computadora.
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
EP2407963B1 (en) 2009-03-11 2015-05-13 Huawei Technologies Co., Ltd. Linear prediction analysis method, apparatus and system
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101866649B (zh) * 2009-04-15 2012-04-04 华为技术有限公司 语音编码处理方法与装置、语音解码处理方法与装置、通信***
US11657788B2 (en) 2009-05-27 2023-05-23 Dolby International Ab Efficient combined harmonic transposition
WO2011047887A1 (en) 2009-10-21 2011-04-28 Dolby International Ab Oversampling in a combined transposer filter bank
TWI643187B (zh) 2009-05-27 2018-12-01 瑞典商杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
JP5771618B2 (ja) 2009-10-19 2015-09-02 ドルビー・インターナショナル・アーベー 音声オブジェクトの区分を示すメタデータ時間標識情報
MX2012004569A (es) 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados.
TWI484473B (zh) 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
WO2011086066A1 (en) 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101501664B1 (ko) * 2010-08-25 2015-03-12 인디안 인스티투트 오브 싸이언스 비균일하게 이격된 주파수에서 유한 길이 시퀀스의 스펙트럼 샘플 결정
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) * 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP5633431B2 (ja) 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122303A1 (en) 2011-03-07 2012-09-13 Xiph. Org Method and system for two-step spreading for tonal artifact avoidance in audio coding
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
CN104025190B (zh) 2011-10-21 2017-06-09 三星电子株式会社 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
PL2951815T3 (pl) 2013-01-29 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodery audio, dekodery audio, systemy, sposoby i programy komputerowe wykorzystujące zwiększoną rozdzielczość czasową w otoczeniu czasowym początków lub końców spółgłosek szczelinowych lub spółgłosek zwarto-szczelinowych
CA3029037C (en) 2013-04-05 2021-12-28 Dolby International Ab Audio encoder and decoder
JP6439682B2 (ja) * 2013-04-11 2018-12-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2014185569A1 (ko) 2013-05-15 2014-11-20 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
SG11201510164RA (en) * 2013-06-10 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
KR101789083B1 (ko) 2013-06-10 2017-10-23 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 분포 양자화 및 코딩을 사용하는 누적 합계 표현의 모델링에 의한 오디오 신호 엔벨로프 인코딩, 처리 및 디코딩을 위한 장치 및 방법
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
BR112016007515B1 (pt) * 2013-10-18 2021-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Método de codificação de segmento de sinal de áudio, codificador de segmento de sinal de áudio, e, terminal de usuário.
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
CN106030693A (zh) 2014-02-18 2016-10-12 杜比国际公司 从音频比特流估计节奏度量
GB2528460B (en) 2014-07-21 2018-05-30 Gurulogic Microsystems Oy Encoder, decoder and method
WO2016024853A1 (ko) * 2014-08-15 2016-02-18 삼성전자 주식회사 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
CN105280190B (zh) * 2015-09-16 2018-11-23 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
JP6763194B2 (ja) * 2016-05-10 2020-09-30 株式会社Jvcケンウッド 符号化装置、復号装置、通信システム
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
JP7257975B2 (ja) * 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
CN108828427B (zh) * 2018-03-19 2020-10-27 深圳市共进电子股份有限公司 信号完整性测试的判据查找方法、装置、设备及存储介质
CN111210832B (zh) * 2018-11-22 2024-06-04 广州广晟数码技术有限公司 基于频谱包络模板的带宽扩展音频编解码方法及装置
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6439897A (en) 1987-08-06 1989-02-10 Canon Kk Communication control unit
DE69127842T2 (de) * 1990-03-09 1998-01-29 At & T Corp Hybride wahrnehmungsgebundene Kodierung von Audiosignalen
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3144009B2 (ja) 1991-12-24 2001-03-07 日本電気株式会社 音声符号復号化装置
JP3088580B2 (ja) * 1993-02-19 2000-09-18 松下電器産業株式会社 変換符号化装置のブロックサイズ決定法
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3277692B2 (ja) 1994-06-13 2002-04-22 ソニー株式会社 情報符号化方法、情報復号化方法及び情報記録媒体
US6141353A (en) * 1994-09-15 2000-10-31 Oki Telecom, Inc. Subsequent frame variable data rate indication method for various variable data rate systems
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5852806A (en) 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP3464371B2 (ja) 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
EP0878790A1 (en) 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
KR100330196B1 (ko) * 1997-05-16 2002-03-28 다치카와 게이지 가변길이 프레임 전송방법과 전송장치 및 수신장치
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP4216364B2 (ja) 1997-08-29 2009-01-28 株式会社東芝 音声符号化/復号化方法および音声信号の成分分離方法
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
JP2000221988A (ja) * 1999-01-29 2000-08-11 Sony Corp データ処理装置、データ処理方法、プログラム提供媒体及び記録媒体
US6658382B1 (en) * 1999-03-23 2003-12-02 Nippon Telegraph And Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals

Also Published As

Publication number Publication date
CN1377499A (zh) 2002-10-30
US7191121B2 (en) 2007-03-13
DE60012198T2 (de) 2005-08-18
EP1216474B1 (en) 2004-07-14
JP2003529787A (ja) 2003-10-07
JP4628921B2 (ja) 2011-02-09
JP4334526B2 (ja) 2009-09-30
RU2236046C2 (ru) 2004-09-10
CN1172293C (zh) 2004-10-20
HK1049401B (zh) 2005-11-18
BR0014642A (pt) 2002-06-18
EP1216474A1 (en) 2002-06-26
HK1049401A1 (en) 2003-05-09
DE60012198D1 (de) 2004-08-19
JP4035631B2 (ja) 2008-01-23
US7181389B2 (en) 2007-02-20
WO2001026095A1 (en) 2001-04-12
ATE271250T1 (de) 2004-07-15
US20060031064A1 (en) 2006-02-09
US6978236B1 (en) 2005-12-20
DK1216474T3 (da) 2004-10-04
JP2006065342A (ja) 2006-03-09
BRPI0014642B1 (pt) 2016-04-26
AU7821200A (en) 2001-05-10
US20060031065A1 (en) 2006-02-09
PT1216474E (pt) 2004-11-30
JP2006031053A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
ES2223591T3 (es) Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable.
US11942101B2 (en) Audio entropy encoder/decoder with arithmetic coding and coding context
KR100389178B1 (ko) 음성디코더및그의이용을위한방법
KR100389179B1 (ko) 압축음성정보의제1및제2연속적인각프레임의적어도일부를신뢰성있게수신하지못한경우,상기벡터신호를디코드된음성신호를발생하는데사용하는,음성디코더내에서이용하기위한방법
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES2358213T3 (es) Flujo redundante de bits de audio y métodos de procesamiento de flujo de bits de audio.
ES2628127T3 (es) Cuantificador avanzado
ES2665599T3 (es) Codificador y descodificador de audio
WO2000045378A2 (en) Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
ES2337903T3 (es) Codificacion de audio.
Berouti et al. Efficient Encoding and Decoding of Speech
Hernandez-Gomez et al. Short-time synthesis procedures in vector adaptive transform coding of speech
Leis et al. Adaptive vector quantization for speech spectrum coding
JPH09127993A (ja) 音声符号化方法及び音声符号化装置