ES2770146T3 - Conformación temporal y espacial de señales de audio multicanal - Google Patents

Conformación temporal y espacial de señales de audio multicanal Download PDF

Info

Publication number
ES2770146T3
ES2770146T3 ES06777134T ES06777134T ES2770146T3 ES 2770146 T3 ES2770146 T3 ES 2770146T3 ES 06777134 T ES06777134 T ES 06777134T ES 06777134 T ES06777134 T ES 06777134T ES 2770146 T3 ES2770146 T3 ES 2770146T3
Authority
ES
Spain
Prior art keywords
representation
signal
channel
time resolution
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06777134T
Other languages
English (en)
Inventor
Sascha Disch
Jürgen Herre
Matthias Neusinger
Jeroenc/O Koninklijke Philips Electronics N V Breebaart
Gerardc/O Koninklijke Philips Electronics N V Hotho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Koninklijke Philips NV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Koninklijke Philips NV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2770146T3 publication Critical patent/ES2770146T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Decodificador para generar una señal de salida multicanal basándose en una señal (46) base derivada de una señal multicanal original que tiene uno o más canales, siendo la cantidad de canales de la señal (46) base menor que la cantidad de canales de la señal multicanal original, teniendo la señal (46) base una trama (66), comprendiendo la trama (66) valores (68a - 68g) de muestreo que tienen una alta resolución de tiempo, en el que generar la señal de salida multicanal se basa adicionalmente en una representación (48) del parámetro de forma de onda que representa una forma de onda de una representación de baja resolución de tiempo de un canal original seleccionado de la señal multicanal original, en el que la representación (48) del parámetro de forma de onda incluye una secuencia de parámetros (74) de forma de onda, teniendo la secuencia de parámetros (74) de forma de onda una baja resolución de tiempo más baja que la alta resolución de tiempo de los valores (68a - 68g) de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama, que comprende: un mezclador (42) ascendente para generar una pluralidad de canales de mezcla ascendente que tienen una resolución de tiempo más alta que la baja resolución de tiempo y para derivar una representación de baja resolución de tiempo de la señal (46) base usada para generar los canales de mezcla ascendente; y un conformador (44) para derivar una representación (48) del parámetro de forma de onda de referencia de la representación de baja resolución de tiempo de la señal (46) base y para conformar un envolvente de un canal (50) de mezcla ascendente seleccionado usando la representación (48) del parámetro de forma de onda de referencia y los parámetros (74) de forma de onda del canal original seleccionado que corresponde al canal (50) de mezcla ascendente seleccionado.

Description

DESCRIPCIÓN
Conformación temporal y espacial de señales de audio multicanal
Campo de la invención
La presente invención se refiere a la codificación de señales de audio multicanal y en particular a un concepto para mejorar la percepción espacial de una señal multicanal reconstruida.
Antecedentes de la invención y técnica anterior
El reciente desarrollo en la codificación de audio ha puesto a disposición la habilidad de recrear una representación multicanal de una señal de audio basándose en una señal estéreo (o mono) y los datos de control correspondientes. Estos métodos difieren sustancialmente de las soluciones basadas en matrices más antiguas, tal como Dolby Prologic, puesto que los datos de control adicionales se transmiten para controlar la recreación, también denominada mezcla ascendente, de los canales de sonido envolvente basándose en los canales estéreo o mono transmitidos.
Por tanto, los decodificadores de audio multicanal paramétricos reconstruyen N canales basándose en M canales transmitidos, donde N > M, y basándose en los datos de control adicionales. Los datos de control adicionales representan una tasa de datos significativamente menor que la transmisión de todos los N canales, haciendo muy eficiente la codificación, mientras al mismo tiempo se asegura la compatibilidad tanto con los dispositivos de M canales como con los dispositivos de N canales. Los M canales pueden ser una representación de un solo canal mono, estéreo, o 5.1. Por tanto, es posible tener, por ejemplo, una señal original de 7.2 canales de mezcla descendente en una señal de 5.1 canales compatible con la anterior, y parámetros espaciales de audio que permitan a un decodificador espacial de audio reproducir una versión muy parecida de los 7.2 canales originales, con una sobrecarga de tasa de bits adicional pequeña.
Estos métodos de codificación de envolvente paramétrica comprenden usualmente una parametrización de la señal envolvente basándose en la ILD (diferencia de nivel entre canales) y la ICC (coherencia entre canales). Estos parámetros describen, por ejemplo, tasas de energía y correlaciones entre pares de canales de la señal multicanal original. En el proceso de descodificación, la señal multicanal recreada se obtiene al distribuir la energía de los canales de mezcla descendente recibidos entre todos los pares de canales descritos por los parámetros ILD transmitidos. Sin embargo, puesto que una señal multicanal puede tener la misma distribución de energía entre todos los canales, mientras las señales en los diferentes canales son muy distintas, dando así la impresión de escuchar un sonido muy amplio (difuso), la amplitud (difusión) correcta se obtiene al mezclar las señales con versiones decorrelacionadas de la misma. Esta mezcla se describe por el parámetro ICC. La versión decorrelacionada de la señal se obtiene pasando la señal a través de un filtro de paso completo, como un reverberador.
Esto significa que la versión decorrelacionada de la señal se crea del lado del decodificador y no se transmite, como en los canales de mezcla descendente desde el codificador al decodificador. Las señales de salida de los filtros de paso completo (decorreladores) tienen una respuesta en el tiempo que es habitualmente muy plana. Por tanto, una señal de entrada directa proporciona una salida de ruido descendente. Por lo tanto, cuando se mezclan la señal decorrelacionada y la original, es importante para algunos tipos de señales, como aquellas con componentes transitorios densos (señales de aplausos), conformar la envolvente del tiempo de la señal decorrelacionada para que coincida mejor la del canal de mezcla descendente, que a menudo se llama también señal seca. De lo contario, se percibirá un tamaño de habitación mayor y señales transitorias de sonido no natural. Al tener señales transitorias y un reverberador como filtro de paso completo, incluso los artefactos de tipo eco pueden introducirse cuando se omite la configuración de las señales decorrelacionadas (húmedas).
Desde un punto de vista técnico, uno de los retos clave en la reconstrucción de señales multicanal, como por ejemplo en la síntesis de sonido de MPEG, consiste en la correcta reproducción de señales multicanal con una imagen de sonido muy amplia. Técnicamente hablando, esto corresponde a la generación de varias señales con una baja correlación (o coherencia) entre canales, pero controlando todavía estrechamente las temporales y espectrales. Los ejemplos de tales señales son elementos de “aplauso”, que muestran tanto un alto grado decorrelación como acontecimientos transitorios agudos (aplausos). Como consecuencia, estos elementos son más críticos para la tecnología de sonido envolvente MPEG, que se elabora, por ejemplo, con mayor detalle en el “
"Report on MPEG Spatial Audio Coding RM0 Listening Tests”, ISO/IEC JTC1/SC29/WG11 (MPEG), Documento N7138, Busan, Corea, 2005”. Generalmente, el trabajo anterior se ha centrado en varios aspectos relacionados con la reproducción óptima de señales amplias/difusas, como aplausos, al proporcionar soluciones que
1. adaptar la conformación temporal (y espectral) de la señal decorrelacionada a la señal de mezcla descendente transmitida para prevenir los artefactos de tipo pre-eco (obsérvese que esto no requiere enviar ninguna información adicional del codificador de audio espacial al decodificador de audio espacial).
2. adaptar las envolventes temporales de los canales de salida sintetizados a sus formas de envolventes originales (presentes en la entrada del codificador correspondiente) usando información adicional que describe las envolventes temporales de las señales de entrada originales y las cuales se transmiten desde el codificador de audio espacial al decodificador de audio espacial.
Actualmente, el Modelo de Referencia de Sonido Envolvente de MPEG contiene ya varias herramientas que ayudan en la codificación de tales señales, por ejemplo
• Conformación temporal del dominio de tiempo (TP)
• Conformación de envolvente temporal (TES)
En un sistema de síntesis de sonido envolvente de MPEG, el sonido decorrelacionado se genera y se mezcla con la señal “seca”, para controlar la correlación de los canales de salida sintetizados según los valores ICC transmitidos. De aquí en adelante, la señal decorrelacionada se denominará señal 'difusa', aunque el término 'difusa' refleja propiedades de campo de sonido espacial reconstruido en lugar de las propiedades de una señal por sí misma. Para las señales transitorias, el sonido difuso generado en el decodificador no coincide automáticamente con la fina forma temporal de las señales secas y no se fusiona correctamente de manera perceptual con la señal seca. Esto da como resultado una reproducción transitoria deficiente, en analogía con el “problema del pre-eco”, que se conoce por codificación de audio perceptual. La herramienta TP que implementa la configuración temporal del dominio del tiempo está diseñada para abordar este problema mediante el procesamiento del sonido difuso.
La herramienta TP se aplica en el dominio del tiempo, tal como se ilustra en la figura 14. Consiste básicamente en una estimación de la envolvente temporal de señales secas y difusas con una resolución temporal más alta que la proporcionada por el banco de filtros de un codificador MPEG de sonido envolvente. La señal difusa se vuelve a escalar en su envolvente temporal para que coincida con la envolvente de la señal seca. Esto da como resultado un aumento significativo de la calidad de sonido para las señales transitorias críticas con una imagen espacial amplia y una baja correlación entre las señales del canal, tales como los aplausos.
La conformación de la envolvente (ajustando la evolución temporal de la energía contenida dentro de un canal) se realiza haciendo coincidir la energía normalizada temporal de la señal húmeda con la de la señal seca. Esto se logra mediante una función de ganancia variable en el tiempo, que se aplica a la señal difusa, de modo que la envolvente en el tiempo de la señal difusa se conforma para que coincida con la de la señal seca.
Obsérvese que esto no requiere de ninguna información adicional transmitida del codificador al decodificador para procesar la envolvente temporal de la señal (solo se transmite información de control para activar/desactivar selectivamente el TP por el codificador de sonido envolvente).
La figura 14 ilustra la conformación temporal en el dominio del tiempo, mientras se aplica en la codificación MPEG de sonido envolvente. Una señal 10 directa y una señal 12 difusa, que no está formada, son las señales que se procesarán, suministradas ambas en el dominio del banco de filtros. Dentro del sonido envolvente MPEG, una señal 14 residual puede estar disponible opcionalmente para añadirse a la señal 10 directa, todavía dentro del dominio del banco de filtros. En el caso especial de un decodificador MPEG de sonido envolvente, solo las partes de alta frecuencia de la señal 12 difusa se conforman, por lo tanto, las partes 16 de baja frecuencia de la señal se añaden a la señal 10 directa dentro del dominio del banco de filtros.
La señal 10 directa y la señal 12 difusa se convierten de manera separada en el dominio del tiempo por dispositivos 18a y 18b de síntesis de bancos de filtros. La conformación temporal en el dominio del tiempo actual se realiza después de los bancos de filtros de síntesis. Puesto que solo las partes de alta frecuencia de la señal 12 difusa se conformarán, las representaciones en el dominio del tiempo de la señal 10 directa y de la señal 12 difusa se envían como entrada hacia los filtros 20a y 20b de paso altos, que garantizan que solo las porciones de alta frecuencia de las señales se usan en las siguientes etapas de filtrado. Puede realizarse un subsiguiente blanqueamiento espectral de las señales en los blanqueadores 22a y 22b espectrales para asegurar que se representan las tasas de amplitud (energía) del rango espectral completo de las señales en la siguiente estimación 24 de la envolvente, que compara la relación de las energías que están contenidas en la señal directa y en la señal difusa dentro de una porción dada de tiempo. Esta porción de tiempo se define habitualmente por la longitud de trama. La estimación 24 de la envolvente tiene como salida un factor 26 de escala, que se aplica a la señal 12 difusa en el conformado 28 de la envolvente en el dominio del tiempo para garantizar que la envolvente de la señal sea básicamente la misma para la señal 12 difusa y la señal 10 directa dentro de cada trama.
Finalmente, la señal difusa conformada en la envolvente se filtra de nuevo por el filtro 29 de paso alto para garantizar que la señal difusa conformada en la envolvente no contiene artefactos de bandas de frecuencias más bajas. La combinación de la señal directa y de la señal difusa se realiza por un sumador 30. La señal 32 de salida contiene partes de señal de la señal 10 directa y de la señal 12 difusa, en las que la señal difusa fue conformada en la envolvente para asegurar que la envolvente de la señal sea básicamente la misma para la señal 12 difusa y para la señal 10 directa antes de la combinación.
El problema del control preciso de la conformación temporal del sonido difuso también puede abordarse mediante la herramienta denominada Conformación de Envolvente Temporal (TES), la cual está diseñada para ser una alternativa de baja complejidad a la herramienta de Procesamiento Temporal (TP). Mientras el t P opera en el dominio del tiempo mediante un escalamiento en el dominio del tiempo de la envolvente del sonido difuso, el enfoque del TES logra el mismo efecto principal controlando la envolvente del sonido difuso en una representación del dominio espectral. Esto se realiza de manera similar al enfoque del Conformado Temporal del Ruido (TNS), tal como se conoce de la Codificación Avanzada de Audio MPEG-2/4 (AAC). La manipulación de la envolvente temporal fina del sonido difuso se logra mediante la convolución de sus coeficientes espectrales a través de la frecuencia con un filtro de conformación apropiado derivado de un análisis de LPC de los coeficientes espectrales de la señal seca. Debido a la resolución de tiempo muy alta del banco de filtros del sonido envolvente MPEG, el procesamiento del TES requiere solamente el filtrado descendente (predicción compleja de 1er orden) y así es bajo en su complejidad informática. Por otra parte, debido a las limitaciones relacionadas con, por ejemplo, el solapamiento en el tiempo no puede proporcionar el alcance total del control temporal que la herramienta de t P ofrece.
Obsérvese que, de manera similar al caso del TP, el TES no requiere la transmisión de ninguna información adicional del codificador al decodificador para describir la envolvente temporal de la señal.
Ambas herramientas, el TP y el TES, abordan satisfactoriamente el problema de la conformación temporal del sonido difuso adaptando su forma temporal a la de la señal mezcla descendente transmitida. Mientras esto evita el tipo pre-eco del desenmascarado, no puede compensar un segundo tipo de deficiencia en la señal de salida multicanal, lo cual se debe a la falta de redistribución espacial:
Una señal de aplausos consiste en una mezcla densa de acontecimientos transitorios (aplauso), varios de los cuales caen típicamente en la misma trama del parámetro. Claramente, no todos los aplausos en una trama se originan de la misma (o similar) dirección espacial. Sin embargo, para el decodificador de sonido envolvente MPEG, la granularidad temporal del decodificador está determinada en su mayor parte por el tamaño de la trama y la granularidad temporal de la ranura del parámetro. De este modo, después de la síntesis, todos los aplausos que caen dentro de una trama aparecen con la misma orientación espacial (distribución del nivel entre los canales de salida) en contraste con la señal original, en la que cada aplauso puede localizarse (y, de hecho, percibirse) de manera individual.
Para lograr también buenos resultados en cuanto a la redistribución espacial de señales altamente críticas, tales como señales de aplausos, las envolventes en el tiempo de la señal de mezcla ascendente necesitan conformarse con una resolución de tiempo muy alta.
El documento EP 1 565 036 Ada a conocer un esquema para la síntesis multicanal y estéreo de pistas de correlación entre canales (ICC) (correlación cruzada normalizada) para la codificación multicanal y estéreo paramétrica. El esquema sintetiza las pistas ICC de manera que se aproximan a las del original. Con ese fin, los canales de audio difuso se generan y se mezclan con la(s) señal(es) combinada(s) (por ejemplo, suma) transmitida(s). Los canales de audio difuso se generan preferiblemente usando filtros relativamente largos con respuestas de impulso gaussianas exponencialmente decadentes. Dichas respuestas de impulso generan sonido difuso similar a la reverberación tardía. Se propone una implementación alternativa para la reducción de la complejidad informática, en la que la diferencia de nivel entre canales (ICLD), la diferencia de tiempo entre canales (ICTD) y la síntesis ICC se llevan todas a cabo en el dominio de una transformación de Fourier a corto plazo única (STFT), incluyendo el filtro para la generación de sonido difuso.
El documento EP 1 385 150 Ada a conocer un método para codificar paramétricamente una señal de audio transitoria, incluyendo las etapas de: (a) determinar un conjunto V de los componentes de la mayor N frecuencia de la señal de audio transitoria, en la que N es un número predeterminado; (b) determinar una envolvente aproximada de la señal de audio transitoria; y (c) determinar un número P predeterminado de muestras W de una envolvente aproximada para generar una aproximación de una ranura de la envolvente aproximada; mediante el que se proporciona una representación paramétrica de la señal de audio transitoria mediante parámetros que incluyen V, N, P y W, de manera que un decodificador que recibe la representación paramétrica puede reproducir una aproximación recibida de la señal de audio transitoria.
Sumario de la invención
El objeto de la presente invención es proporcionar un concepto para codificar señales de audio multicanal que permitan la codificación eficiente proporcionando una conservación mejorada de la distribución espacial de las señales multicanal.
Según el primer aspecto de la presente invención, este objeto se logra mediante un decodificador para generar una señal de salida multicanal según la reivindicación 1.
Según un segundo aspecto de la presente invención, este objeto se logra mediante un codificador para generar una representación del parámetro de forma de onda de un canal de una señal multicanal representada por tramas, comprendiendo una trama valores de muestreo que tienen un periodo de muestreo según la reivindicación 18. Según un tercer aspecto de la presente invención, este objeto se logra mediante un método para generar una señal de salida multicanal según la reivindicación 23.
Según un cuarto aspecto de la presente invención, este objeto se logra mediante un método para generar una representación del parámetro de forma de onda de un canal de una señal multicanal representada por tramas, comprendiendo una trama de valores de muestreo que tienen un periodo de muestreo según la reivindicación 24. Según un quinto aspecto de la presente invención, este objeto se logra mediante una representación de una señal de audio multicanal según la reivindicación 25.
Según un sexto aspecto de la presente invención, este objeto se logra mediante un medio de almacenamiento legible por ordenador según la reivindicación 26.
Según un séptimo aspecto de la presente invención, este objeto se logra mediante un receptor o reproductor de audio según la reivindicación 27.
Según un octavo aspecto de la presente invención, este objeto se logra mediante un transmisor o grabador de audio según la reivindicación 28.
Según un noveno aspecto de la presente invención, este objeto se logra mediante un método para recibir o reproducir audio según la reivindicación 29.
Según un décimo aspecto de la presente invención, este objeto se logra mediante un método para transmitir o grabar audio según la reivindicación 30.
Según un onceavo aspecto de la presente invención, este objeto se logra mediante un sistema de transmisión que tiene un transmisor y un receptor según la reivindicación 31.
Según un doceavo aspecto de la presente invención, este objeto se logra mediante un método de transmisión y recepción según la reivindicación 32.
Según un treceavo aspecto de la presente invención, este objeto se logra mediante un programa informático que tiene un código de programa para realizar, cuando se ejecute en un ordenador, cualquiera de los métodos anteriores.
La presente invención se basa en el hallazgo de que un canal seleccionado de una señal multicanal, la cual se representa mediante tramas compuestas de valores de muestreo que tienen una alta resolución de tiempo, pueda codificarse con mayor calidad cuando se deriva una representación del parámetro de forma de onda que representa una forma de onda de una representación de baja resolución de tiempo del canal seleccionado, incluyendo la representación del parámetro de forma de onda una secuencia de parámetros de forma de onda que tienen una resolución de tiempo más baja que la alta resolución de tiempo de los valores de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama. La representación del parámetro de forma de onda con la baja resolución puede usarse para conformar un canal reconstruido para recuperar un canal que tiene una envolvente de la señal cercana a la del canal original seleccionado. La escala de tiempo sobre la cual se realiza la conformación es más fina que la escala de tiempo de un procesamiento de trama, mejorando de este modo la calidad del canal reconstruido. Por otro lado, la escala de tiempo de la conformación es más gruesa que la escala de tiempo de los valores de muestreo, reduciendo significativamente la cantidad de datos necesarios para la representación del parámetro de forma de onda.
Una representación del parámetro de forma de onda para la conformación de la envolvente, en una realización preferida de la presente invención, puede contener una medida de intensidad de señal en forma de parámetros que están indicando la intensidad de la señal dentro de un periodo de muestreo. Puesto que la intensidad de señal está altamente relacionada con la percepción de la intensidad acústica de una señal, el uso de los parámetros de intensidad de la señal es, por lo tanto, una elección apropiada para implementar la conformación de la envolvente. Dos parámetros de intensidad de señal naturales son, por ejemplo, la amplitud o la amplitud cuadrada, es decir, la energía de la señal.
La presente invención apunta a proporcionar un mecanismo para recuperar la distribución espacial de las señales en una alta granularidad temporal y, de este modo, recuperar, la sensación total de “distribución espacial”, ya que es relevante, por ejemplo, para las señales de aplausos. Una condición secundaria importante es que el rendimiento mejorado de la extracción del audio se logra sin un gran aumento inaceptable de la información de control transmitida (información secundaria del sonido envolvente).
La presente invención descrita en los párrafos subsiguientes se refiere principalmente a la reconstrucción multicanal de señales de audio basadas en una señal mezcla descendente disponible y en datos de control adicionales. Los parámetros espaciales se extraen en el lado del codificador representando las características multicanal con respecto a una mezcla descendente (dada) de los canales originales. La señal de mezcla descendente y la representación espacial se usan en un decodificador para recrear una representación muy parecida de la señal multicanal original mediante la distribución de una combinación de la señal de mezcla descendente y una versión decorrelacionada de la misma para los canales que están reconstruyéndose.
La invención puede aplicarse en sistemas en los que es deseable una señal de mezcla descendente compatible hacia atrás, tal como las transmisiones de radio digital en estéreo (DAB, radio satelital XM, etc.), pero también en sistemas que requieren una representación muy compacta de la señal multicanal. En los siguientes párrafos, la presente invención se describe en su aplicación dentro del estándar de audio de sonido envolvente MPEG. Es evidente que también puede aplicarse dentro de otros sistemas de codificación de audio multicanal, como por ejemplo los mencionados anteriormente.
La presente invención se basa en las siguientes consideraciones:
• Para una óptima calidad de percepción de audio, una fase de síntesis de sonido envolvente MPEG no solo debe proporcionar el medio para eliminar la correlación, sino también ser capaz de volver a sintetizar la distribución espacial de la señal sobre una fina granularidad temporal.
• Esto requiere que la transmisión de información secundaria de sonido envolvente represente la distribución espacial (envolventes de canal) de la señal multicanal.
• Para minimizar la tasa de bits requerida para una transmisión de las envolventes de canal de tiempo individuales, esta información está codificada de manera normalizada y relacionada, con relación a la envolvente de la señal de mezcla descendente. Una etapa adicional de codificación por entropía continúa para reducir adicionalmente la tasa de bits requerida para la transmisión de la envolvente.
• Según esta información, el decodificador de sonido envolvente MPEG conforma tanto el sonido directo como el difuso (o la combinación de sonido directo/difuso), de manera que iguala el objetivo de la envolvente del tiempo. Esto permite el control independiente de las envolventes de canal individuales y recrea la percepción de la distribución espacial en una granularidad temporal fina, que se asemeja fielmente a la original (en lugar del procesamiento espacial de baja resolución, basado en tramas, únicamente mediante técnicas de eliminación de la correlación).
El principio de la conformación de envolvente guiada puede aplicarse tanto en el dominio espectral como temporal, en el que la implementación en el dominio espectral se caracteriza por una menor complejidad informática.
En una realización de la presente invención, un canal seleccionado de una señal multicanal se representa mediante una representación paramétrica que describe la envolvente del canal, en el que el canal se representa mediante tramas de valores de muestreo que tienen una alta tasa de muestreo, es decir, una alta resolución de tiempo. Definiéndose la envolvente como la evolución en el tiempo de la energía contenida en el canal, en la que la envolvente se procesa comúnmente durante un intervalo de tiempo que corresponde a la longitud de trama. En la presente invención, el intervalo de tiempo, para el cual un solo parámetro representa la envolvente, se disminuye con respecto a la escala de tiempo definida por una trama, es decir, este intervalo de tiempo es un intervalo de tiempo inmediato que es más largo que el intervalo de muestreo y más corto que la longitud de trama. Para conseguir esto, una representación de baja resolución de tiempo del canal seleccionado se procesa de modo que describe una trama con una resolución temporal baja en comparación con la resolución proporcionada por los parámetros de muestreo. La envolvente del canal seleccionado se estima con la resolución de tiempo de la representación de baja resolución que, por un lado, aumenta la resolución temporal de la representación de baja resolución y, por otro lado, disminuye la cantidad de datos y la complejidad informática que se necesita en comparación con una conformación en el dominio del tiempo.
En una realización preferida de la presente invención, la representación de baja resolución de tiempo del canal seleccionado se proporciona mediante un banco de filtros que deriva una representación del banco de filtros muestreada descendente del canal seleccionado. En la representación del banco de filtros cada canal se divide en una cantidad finita de bandas de frecuencia, estando cada banda de frecuencia representada por una cantidad de valores de muestreo que describe la evolución temporal de la señal dentro de la banda de frecuencia seleccionada con una resolución de tiempo que es más baja que la resolución de tiempo de los valores de muestreo.
La aplicación de la presente invención en el dominio del banco de filtros tiene una serie de grandes ventajas. La implementación se adecúa de manera correcta a los esquemas de codificación existentes, es decir, la presente invención puede implementarse con una compatibilidad total inversa con los esquemas de codificación de audio existentes, tal como la codificación de audio de sonido envolvente MPEG. Además, la reducción requerida de la resolución temporal se proporciona automáticamente mediante las propiedades de muestreo descendentes del banco de filtros y puede implementarse un blanqueamiento de un espectro, con mucha menor complejidad informática en el dominio del banco de filtros que en el dominio de tiempo. Una ventaja adicional es que el concepto de la invención puede aplicarse solamente a las partes de frecuencia del canal seleccionado que necesiten la conformación desde un punto de vista de percepción de calidad.
En una realización preferida adicional de la presente invención, una representación del parámetro de forma de onda de un canal seleccionado se deriva describiendo una relación entre la envolvente del canal seleccionado y la envolvente de la señal de mezcla descendente derivada del lado del codificador. La derivación de la representación del parámetro de forma de onda basándose en una estimación diferencial o relativa de las envolventes tiene la mayor ventaja de reducir adicionalmente la tasa de bits demandada por la representación del parámetro de forma de onda. En una realización preferida adicional, la representación del parámetro de forma de onda así derivada se cuantifica para reducir adicionalmente la tasa de bits necesitada por la representación del parámetro de forma de onda. Además, es más ventajoso aplicar una codificación por entropía a los parámetros cuantificados para guardar una mayor tasa de bits sin perder información adicional.
En una realización preferida adicional de la presente invención, los parámetros de forma de onda se basan en medidas de energía que describen la energía contenida en el canal seleccionado para una porción dada de tiempo. La energía se calcula preferiblemente como la suma cuadrada de los parámetros de muestreo que describen al canal seleccionado.
En una realización preferida adicional de la presente invención, el concepto de la invención de derivar una representación del parámetro de forma de onda basado en una representación de baja resolución de un canal de audio seleccionado de una señal de audio multicanal se implementa en el dominio del tiempo. La derivación requerida de la representación de baja resolución puede lograrse procesando el promedio (cuadrado) o la suma de energía de una cantidad de valores de muestreo consecutivos. La variación de la cantidad de valores de muestreo consecutivos que se promedian permite el ajuste conveniente de la resolución de tiempo del proceso de conformación de la envolvente. En una modificación de la realización descrita previamente, solo cada n-ésimo valor de muestreo se usa para derivar la representación del parámetro de forma de onda, disminuyendo adicionalmente la complejidad informática.
En una realización adicional de la presente invención, la derivación de los parámetros de conformación se realiza con una complejidad informática comparativamente baja en el dominio de frecuencia, en el que la conformación actual, es decir, la aplicación de los parámetros de conformación se realiza en el dominio del tiempo.
En una realización adicional de la presente invención, se aplica la conformación de la envolvente solo en aquellas porciones del canal seleccionado que requieren de una conformación de la envolvente con una alta resolución temporal.
La presente invención, descrita en los párrafos anteriores, produce las siguientes ventajas:
• Mejora de la calidad de sonido espacial de los sonidos transitorios densos, tales como señales de aplausos, que pueden considerarse actualmente como las peores señales.
• Aumento solo moderado en la tasa de información espacial secundaria de audio (aproximadamente 5 kbit por segundo para transmisión continua de envolventes) debido a la codificación muy compacta de la información de la envolvente.
• La totalidad de la tasa de bits puede reducirse adicionalmente al permitir al codificador transmitir envolventes solo cuando sea perceptualmente necesario. La sintaxis propuesta del elemento del flujo de bit de la envolvente se encarga de esto.
El concepto de la invención puede describirse como la conformación de envolvente guiada y debe resumirse en breve dentro de los siguientes párrafos:
La conformación de envolvente guiada recupera la envolvente de banda completa de la señal de salida sintetizada aplanando la envolvente y conformando de nuevo cada canal de salida usando la información secundaria de la envolvente de banda completa paramétrica contenida en el flujo de bits.
Para el proceso de reconformación, se extraen las envolventes de la mezcla descendente y los canales de salida. Para obtener estas envolventes, se calculan las energías para cada banda de parámetro y cada ranura. Posteriormente, se realiza una operación de blanqueamiento espectral, en la que los valores de energía de cada banda de parámetro se miden, de manera que la energía total de todas las bandas de parámetro es igual. Finalmente, se obtiene la envolvente de banda completa al sumar y normalizar las energías medidas de todas las bandas de parámetro y se obtiene una energía promedio a largo plazo mediante un filtro de paso bajo con una constante de tiempo larga.
El proceso de reconformación de envolvente realiza el aplanado y la reconformación de los canales de salida hacia la envolvente objetivo, calculando y aplicando una curva de ganancia en la porción de sonido directo y difuso de cada canal de salida. Por lo tanto, las envolventes del canal de mezcla descendente y del canal de salida respectivo transmitidos se extraen tal como se describe anteriormente. Entonces, la curva de ganancia se obtiene escalando la relación entre la envolvente de mezcla descendente extraída y la envolvente de salida extraída con valores de relación de la envolvente transmitidos en el flujo de bits.
La herramienta de conformación de la envolvente propuesta utiliza la información secundaria cuantificada transmitida en el flujo de bits. La demanda total de tasa de bits para la información secundaria de envolvente se enumera en la tabla 1 (asumiendo una información secundaria de envolvente con una tasa de muestreo de 44,1 kHz y 5 etapas de cuantificación).
Tabla 1 - Tasa de bits estimada ara la información secundaria de envolvente
Figure imgf000008_0001
Tal como se menciona anteriormente, la conformación guiada de envolvente temporal aborda problemas que son ortogonales a aquellos abordados por TES o TP: Mientras que la conformación guiada de envolvente temporal propuesta apunta a la mejora de la distribución espacial de los acontecimientos transitorios, las herramientas TES y TP son funcionales para conformar la envolvente de sonido difuso para igualar la envolvente seca. Así, para un escenario de aplicación de alta calidad, se recomienda una combinación de las herramientas recientemente propuestas con TES y TP. Para un rendimiento óptimo, la conformación guiada de envolvente temporal se realiza antes de la aplicación de TES o TP en la cadena de la herramienta del decodificador. Además, las herramientas TES y TP se adaptan ligeramente en su configuración para integrarse perfectamente con la herramienta propuesta: Básicamente, la señal usada para derivar la envolvente objetivo en el procesamiento de TES o TP se cambia de utilizar la señal de mezcla descendente a utilizar las señales de mezcla ascendente de canal individuales nuevamente moduladas.
Como ya se mencionó anteriormente, una gran ventaja del concepto de la invención es la posibilidad de colocarse dentro del esquema de codificación de sonido envolvente MPEG. Por un lado, el concepto inventivo extiende la funcionalidad de la herramienta TES/TP, puesto que implementa el mecanismo de conformación temporal necesario para el manejo apropiado de los acontecimientos o señales transitorias. Por otro lado, la herramienta requiere la transmisión de información secundaria para guiar el proceso de conformación. Mientras que la tasa de bits de la información secundaria promedio requerida (aprox. 5 kBits/s para una transmisión de envolvente continua) es comparativamente baja, la ganancia en calidad conceptual es significativa. Por consiguiente, el nuevo concepto se propone como un complemento a las herramientas TP/TES existentes. En el sentido de mantener la complejidad informática más bien baja mientras se mantenga todavía la calidad de audio alta, la combinación del concepto recientemente propuesto con TES es un modo de operación preferido. Como se trata de la complejidad informática, debe observarse que algunos de los cálculos requeridos para la extracción de la envolvente y la reconformación se basan en cada trama, mientras otros se ejecutan por ranura (es decir, un intervalo de tiempo dentro del dominio del banco de filtros). La complejidad depende de la longitud de trama, así como de la frecuencia de muestreo. Asumiendo una longitud de trama de 32 ranuras y una tasa de muestreo de 44,1 kHz, el algoritmo descrito requiere de aproximadamente 105000 operaciones por segundo (OPS) para la extracción de la envolvente de un canal y 330000 OPS para la reconformación de un canal. Ya que se requiere una extracción de envolvente por el canal de mezcla descendente y una operación de reconformación para cada canal de salida, esto da como resultado una complejidad total de 1,76 millones de OPS para una configuración 5-1-5, es decir, una configuración donde 5 canales de una señal de audio multicanal se representan mediante una señal monofónica de mezcla descendente y 1,86 millones de OPS para la configuración 5-2-5 que utiliza una señal estéreo de mezcla descendente.
Breve descripción de los dibujos
Las realizaciones preferidas de la presente invención se describen posteriormente refiriéndose a los dibujos anexos, en los que:
la figura 1 muestra un decodificador de la invención;
la figura 2 muestra un codificador de la invención;
la figura 3a y 3b muestran una tabla que asigna índices de banda del filtro de un banco de filtros híbrido para los índices de la subbandas correspondientes;
la figura 4 muestra parámetros de diferentes configuraciones de decodificación;
la figura 5 muestra un esquema de codificación que ilustra la compatibilidad hacia atrás del concepto de la invención; la figura 6 muestra configuraciones de parámetros seleccionando diferentes configuraciones;
la figura 7 muestra un esquema de codificación compatible hacia atrás;
la figura 7b ilustra diferentes esquemas de cuantificación;
la figura 8 ilustra adicionalmente el esquema de codificación compatible hacia atrás;
la figura 9 muestra un catálogo de códigos de Huffman usado para una implementación eficiente;
la figura 10 muestra un ejemplo para una configuración de canal de una señal de salida multicanal;
la figura 11 muestra un transmisor o grabador de audio de la invención;
la figura 12 muestra un receptor o reproductor de audio de la invención;
la figura 13 muestra un sistema de transmisión de la invención; y
la figura 14 ilustra la conformación temporal en el dominio de tiempo de la técnica anterior.
Descripción detallada de las realizaciones preferidas
La figura 1 muestra un decodificador 40 de la invención que tiene un mezclador ascendente 42 y un conformador 44. El decodificador 40 recibe como una entrada una señal 46 base derivada de una señal multicanal original, teniendo la señal base uno o más canales, en el que la cantidad de canales de la señal base es menor que la cantidad de canales de la señal multicanal original. El decodificador 40 recibe como segunda entrada una representación 48 del parámetro de forma de onda, que representa una forma de onda de una representación de baja resolución de un canal original seleccionado, en la que la representación 48 del parámetro de forma de onda incluye una secuencia de parámetros de forma de onda que tienen una resolución de tiempo que es más baja que la resolución de tiempo de los valores de muestreo que están organizados en tramas, describiendo las tramas la señal 46 base. El mezclador ascendente 42 genera un canal 50 de mezcla ascendente de la señal 46 base, en el que el canal de mezcla ascendente 50 es una representación estimada de baja resolución de un canal original seleccionado de la señal multicanal original que tiene una resolución de tiempo más baja que la resolución de tiempo de los valores de muestreo. El conformador 44 recibe el canal 50 de mezcla ascendente y la representación 48 del parámetro de forma de onda como entrada y deriva un canal 52 conformado de mezcla ascendente, que se conforma de manera que la envolvente del canal 52 conformado de mezcla ascendente se ajusta para encajar en la envolvente del canal original correspondiente dentro de un rango de tolerancia, en el que la resolución de tiempo viene dada por la resolución de tiempo de la representación del parámetro de forma de onda.
De este modo, la envolvente del canal conformado de mezcla ascendente puede ser conformado con una resolución de tiempo que es más alta que la resolución de tiempo definida por las tramas que constituyen la señal 46 base. Por consiguiente, la redistribución espacial de una señal reconstruida se garantiza con una granularidad temporal más fina en lugar de usar las tramas y la calidad perceptiva puede mejorarse por un coste de un pequeño aumento de la tasa de bits debido a la representación 48 del parámetro de forma de onda.
La figura 2 muestra un codificador 60 de la invención que tiene un elemento de disminución 62 de resolución de tiempo y un calculador 64 del parámetro de forma de onda. El codificador 60 recibe como una entrada un canal de una señal multicanal que se representa mediante tramas 66, comprendiendo las tramas valores 68a a 68g de muestreo, representando cada valor de muestreo un primer periodo de muestreo. El elemento de disminución 62 de resolución de tiempo deriva una representación 70 de baja resolución del canal en el que una trama tiene valores 72a a 72d de baja resolución que están asociados con un periodo de baja resolución que es mayor que el periodo de muestreo.
El calculador 64 del parámetro de forma de onda recibe la representación 70 de baja resolución como entrada y calcula los parámetros 74 de forma de onda, en el que los parámetros 74 de forma de onda tienen una resolución de tiempo más baja que la resolución de tiempo de los valores de muestreo y más alta que una resolución de tiempo definida por las tramas.
Los parámetros 74 de forma de onda dependen preferiblemente de la amplitud del canal dentro de una porción de tiempo definida por el periodo de baja resolución. En una realización preferida, los parámetros 74 de forma de onda describen la energía que está contenida dentro del canal en un periodo de baja resolución. En una realización preferida, los parámetros de forma de onda se derivan de manera que una medida de energía contenida en los parámetros 74 de forma de onda se deriva con relación a una medida de energía de referencia que se define por una señal de mezcla descendente derivada por el codificador de audio multicanal de la invención.
La aplicación del concepto de la invención en el contexto del codificador de audio de sonido envolvente MPEG se describe con mayor detalle en los siguientes párrafos para resumir las ideas de la invención.
La aplicación del concepto inventivo dentro del dominio de subbanda de un codificador MPEG del estado de la técnica subraya aún más la ventajosa compatibilidad inversa del concepto inventivo con los esquemas de codificación del estado de la técnica.
La presente invención (conformación de envolvente guiada) recupera la envolvente de banda completa de la señal de salida sintetizada. Comprende un procedimiento modificado de mezcla ascendente seguido de un aplanamiento de la envolvente y de la reconformación de la porción de señal directa (seca) y difusa (húmeda) de cada canal de salida. Para guiar la envolvente de banda completa paramétrica de reconformación se utiliza información secundaria contenida en el flujo de bits. La información secundaria consiste en relaciones (envRel) entre la envolvente de las señales de mezcla descendente transmitidas y la envolvente de señales de canal de entrada original.
Mientras el proceso de conformación de envolvente emplea una operación de extracción de envolvente en señales diferentes, el proceso de extracción de envolvente se describirá primero con mayor detalle. Debe observarse que dentro del esquema de codificación MPEG se manipulan los canales en una representación derivada por un banco de filtros híbrido, que significa aplicar dos filtros consecutivos a un canal de entrada. Un primer banco de filtros deriva una representación de un canal de entrada en el que una pluralidad de intervalos de frecuencia se describen independientemente mediante parámetros que tienen una resolución de tiempo que es más baja que la resolución de tiempo de los valores de muestreo del canal de entrada. Estas bandas de parámetro se indican a continuación mediante la letra k. Algunas de las bandas de parámetro se filtran posteriormente mediante un banco de filtros adicional que subdivide adicionalmente algunas de las bandas de frecuencia del primer banco de filtros en una o más bandas de frecuencia finitas con representaciones que se indican mediante la letra k en los siguientes párrafos. En otras palabras, cada banda k de parámetro puede tener asociado más de un índice k híbrido.
Las figuras 3a y 3b muestran una tabla que asocia una cantidad de bandas de parámetro a los parámetros híbridos correspondientes. El parámetro k híbrido se proporciona en la primera columna 80 de la tabla, en la que la banda k de parámetro asociada se proporciona en una de las columnas 82a u 82b. La aplicación de la columna 82a u 82b depende de un parámetro 84 (decTipo) que indica dos configuraciones posibles diferentes de un banco de filtros de decodificador MPEG.
Debe observarse adicionalmente que los parámetros asociados a un canal se procesan de una manera de trama, en la que una única trama tiene n intervalos de tiempo y en la que para cada intervalo n de tiempo existe un único parámetro y para cada índice k híbrido. Los intervalos n de tiempo también se llaman ranuras y los parámetros asociados se indican como yn,k. Para la estimación de la envolvente normalizada, las energías de las bandas de parámetro se calculan con yn,k, estando la señal de entrada para cada ranura en una trama:
Figure imgf000010_0001
La suma incluye todas las k atribuyéndolas a todas las bandas k de parámetro, según la tabla mostrada en las figuras 3a y 3b.
Posteriormente, la energía total de banda de parámetro en la trama para cada banda de parámetro se calcula como
Figure imgf000011_0001
Con a siendo un factor de compensación que corresponde a un filtro de paso bajo IIR de primer orden con una constante de tiempo de 400 ms. t indica el índice de trama, sFrec la tasa de muestreo de la señal de entrada, y 64 representa el factor de muestra descendente del banco de filtros. La energía media en una trama se calcula como
Figure imgf000011_0002
La relación de estas energías se determina para obtener los coeficientes del blanqueamiento espectral:
Figure imgf000011_0003
La envolvente de banda completa se obtiene por la suma de las contribuciones de los coeficientes de las bandas de parámetro, normalizando y calculando la raíz cuadrada
Figure imgf000011_0004
Después de la extracción de la envolvente, se realiza el proceso de conformación de la envolvente, que consiste en un aplanamiento de la envolvente de sonido directo y difuso para cada canal de salida seguido de una reconformación hacia la envolvente objetivo. Esto da como resultado una curva de ganancia aplicada a la porción de señal directa y difusa de cada canal de salida.
En el caso de un esquema de codificación compatible con el sonido envolvente MPEG, tiene que distinguirse una configuración 5-1-5 y 5-2-5.
Para la configuración 5-1-5, la envolvente objetivo se obtiene estimando la envolvente de la mezcla descendente transmitida EnvDmx y posteriormente escalarla con las relaciones de la envolvente transmitida y recuantificada del codificador envRehts’ ,R,Rs. La curva de ganancia para todas las ranuras en una trama se calcula para cada canal de E nvLt^ tC,R,R3
salida estimando la envolvente djrecta' dlfusa de la señal directa y difusa respectivamente y relacionándola con la envolvente objetivo
Para las configuraciones 5-2-5 la envolvente objetivo para L y Ls se deriva de la envolvente de la señal de mezcla descendente transmitida compatible del canal izquierdo Env DmxL , para R y Rs se usa la mezcla descendente transmitida compatible del canal derecho para obtener Env DmxR . El canal central se deriva de la suma de las envolventes de la señal de mezcla descendente transmitida compatible derecha e izquierda. La curva de ganancia
Figure imgf000012_0001
se calcula para cada canal de salida estimando la envolvente directa, difusa ^e |a seña| directa y difusa respectivamente y relacionándola con la envolvente objetivo
Figure imgf000012_0002
Para todos los canales, la curva de ganancia de ajuste de la envolvente se aplica como
J v " di;rkecta = & z d "irecta . J y d " ir * e * cta
. __ n n>k
y difusa S difusa y difusa
Con k comenzando en la subbanda ko híbrida de cruce y para n = 0,...,cantRanuras-1.
Después de la conformación separada de la envolvente de las señales seca y húmeda, el sonido directo y difuso conformado se mezcla dentro del dominio de la subbanda según la siguiente fórmula:
Figure imgf000012_0003
Se ha mostrado en los párrafos anteriores que ventajosamente es posible implementar el concepto de la invención dentro de un esquema de codificación de la técnica anterior que se base en la codificación de sonido envolvente MPEG. La presente invención también hace uso de una representación del dominio de subbanda ya existente de las señales que serán manipuladas, introduciendo un pequeño esfuerzo informático adicional. Para aumentar la eficiencia de una implementación del concepto de la invención en la codificación de audio multicanal MPEG, se prefieren algunos cambios adicionales en la mezcla ascendente y la conformación de envolvente temporal.
Si se permite la conformación guiada de envolvente, las señales directa y difusa se sintetizan de manera separada usando una mezcla posterior modificada en el dominio de la subbanda híbrida según
Figure imgf000012_0004
Con ko indicando la subbanda híbrida de cruce.
Como puede observarse de las ecuaciones anteriores, las salidas directas mantienen la señal directa, la señal difusa para las bandas más bajas y la señal residual (si está presente). Las salidas difusas proporcionan la señal difusa para las bandas superiores.
Aquí, k0 indica la subbanda híbrida de cruce según la figura 4. La figura 4 muestra una tabla que proporciona la subbanda ko híbrida de cruce en función de dos posibles configuraciones del decodificador indicado por el parámetro 84 (decTipo).
Si se usa TES en combinación con la conformación guiada de envolvente, el procesamiento TES se adapta ligeramente para un rendimiento óptimo:
en lugar de las señales de mezcla descendente, se usan las señales directas de mezcla ascendente reconformadas para la estimación del filtro de conformación:
Figure imgf000013_0001
Independientemente del modo 5-1-5 o 5-2-5, todos los cálculos TES se realizan según una base por canal. Además, la etapa de la mezcla de las señales directa y difusa se omite en la conformación guiada de envolvente, ya que entonces se realiza mediante la herramienta TES.
Si se usa TO en combinación con la conformación guiada de envolvente, el procesamiento TP se adapta ligeramente para un rendimiento óptimo:
En lugar de una mezcla descendente común (derivada de la señal multicanal original), se usa la señal directa de mezcla ascendente reconformada de cada canal para extraer la envolvente objetivo para cada canal.
Figure imgf000013_0002
Independientemente del modo 5-1-5 o 5-2-5, todos los cálculos TP se realizan según una base por canal. Además, la etapa de la mezcla de señal directa y difusa se omite en la conformación guiada de envolvente y se realiza mediante la herramienta TP.
Para enfatizar y dar pruebas adicionales de la compatibilidad hacia atrás del concepto de la invención con la codificación de audio MPEG, las siguientes figuras muestran las definiciones de flujo de bits y las funciones definidas para ser totalmente compatibles hacia atrás y admitir adicionalmente los datos de la reconformación de envolvente cuantificada.
La figura 5 muestra una sintaxis general que describe la configuración espacial específica de un flujo de bits.
En una primera parte 90 de la configuración, las variables se refieren a la codificación MPEG de la técnica anterior definiendo, por ejemplo, si la codificación residual se aplica o se dan indicaciones de los esquemas de decorrelación a aplicar. Esta configuración puede extenderse fácilmente por una segunda parte 92 que describe la configuración modificada cuando se aplica el concepto de la invención de la conformación guiada de envolvente.
En particular, la segunda parte utiliza una variable bsTempShapeConfig, indicando la configuración de la conformación de envolvente aplicable mediante un decodificador.
La figura 6 muestra una manera compatible hacia atrás de interpretar los cuatro bits consumidos por dicha variable. Como puede observarse de la figura 6, los valores de la variable de 4 a 7 (indicados en la línea 94) indican el uso del concepto de la invención y una combinación adicional del concepto de la invención con los mecanismos de conformación TES y TP de la técnica anterior.
La figura 7 subraya la sintaxis propuesta por un esquema de codificación por entropía, mientras se implementa en una realización preferida de la presente invención. Adicionalmente, la información secundaria de la envolvente se cuantifica con una regla de cuantificación de cinco etapas.
En una primera parte del pseudo-código presentado en la figura 7, la conformación de envolvente temporal se permite para todos los canales de salida deseados, en los que se solicita la reconformación de la envolvente en una segunda parte 102 del código presentado. Esto se indica mediante la variable bsTempShapeConfig mostrada en la figura 6.
En una realización preferida de la presente invención, se usa una cuantificación de cinco etapas y los valores cuantificados se codifican conjuntamente junto con la información, si uno a ocho valores consecutivos idénticos ocurrieron dentro del flujo de bits de los parámetros de conformación de envolvente.
Debe observarse que, en principio, es posible una cuantificación más fina como la cuantificación de cinco etapas, que puede indicarse entonces mediante una variable bsEnvquantMode tal como se muestra en la figura 7b. Aunque en principio es posible, la presente implementación introduce solo una cuantificación válida.
La figura 8 muestra el código que se adapta para derivar los parámetros cuantificados de la representación codificada de Huffman. Como ya se ha mencionado, la información combinada en cuanto al valor cuantificado y a la cantidad de repeticiones del valor en cuestión se representa mediante una sola palabra de código Huffman. Por lo tanto, la decodificación Huffman comprende un primer componente 104 que inicia un bucle sobre los canales de salida deseados y un segundo componente 106 que recibe los valores codificados para cada canal individual transmitiendo palabras de código Huffman y recibiendo los valores de parámetro asociados y los datos de repetición tal como se indica en la figura 9.
La figura 9 muestra el catálogo de código Huffman asociado que tiene 40 entradas, puesto que para los 5 valores 110 del parámetro diferentes se prevé una tasa máxima de repetición de 8. Por lo tanto, cada palabra 112 de código Huffman describe una combinación del parámetro 110 y la cantidad de casos 114 consecutivos.
Dados los valores del parámetro decodificado Huffman, las relaciones de la envolvente usadas para la conformación guiada de envolvente se obtienen de los datos transmitidos de la reconformación, según la siguiente ecuación:
envModDalos [es ][n]
envRelx'" = 2
Con n = 0,...,cantRanuras-1 y X y oc indicando el canal de salida según la figura 10.
La figura 10 muestra una tabla que se asocia con la variable de bucle oc 120, mientras se usa mediante las tablas y expresiones anteriores con los canales 122 de salida de una señal multicanal reconstruida.
Como se ha demostrado mediante las figuras 3a a 9, es fácilmente posible una aplicación del concepto de la invención en los esquemas de codificación de la técnica anterior, dando como resultado un aumento en la calidad perceptual, mientras se mantiene una total compatibilidad hacia atrás.
La figura 11 muestra un transmisor o grabador 330 de audio de la invención que tiene un codificador 60, una interfaz 332 de entrada y una interfaz 334 de salida.
Una señal de audio puede proporcionarse en la interfaz 332 de entrada del transmisor/grabador 330. La señal de audio se codifica mediante un codificador 60 de la invención dentro del transmisor/grabador y la representación codificada se emite en la interfaz 334 de salida del transmisor/grabador 330. La representación codificada puede transmitirse o almacenarse entonces en un medio de almacenamiento.
La figura 12 muestra un receptor o reproductor 340 de audio de la invención, que tiene un decodificador 40 de la invención, una entrada 342 de flujo de bits y una salida 344 de audio.
Un flujo de bits puede introducirse en la entrada 342 del receptor/reproductor 340 de audio de la invención. El flujo de bits se decodifica entonces mediante el decodificador 40 y la señal decodificada se emite o se reproduce en la salida 344 del receptor/reproductor 340 de audio de la invención.
La figura 13 muestra un sistema de transmisión que comprende un transmisor 330 de la invención, y un receptor 340 de la invención.
La entrada de la señal de audio en la interfaz 332 de entrada del transmisor 330 se codifica y se transfiere de la salida 334 del transmisor 330 a la entrada 342 del receptor 340. El receptor decodifica la señal de audio y reproduce o emite la señal de audio en su salida 334.
Resumiendo, la presente invención proporciona soluciones mejoradas describiendo, por ejemplo,
• una manera de calcular una envolvente de banda completa apropiada y estable que minimice la distorsión percibida
• un método optimizado para codificar la información secundaria de la envolvente de una manera que se represente con relación a (normalizada a) la envolvente de la señal de mezcla descendente y de esta manera minimizar la tasa de bits subyacente
• un esquema de cuantificación para la transmisión de la información de la envolvente
• una sintaxis apropiada del flujo de bits para la transmisión de esta información secundaria
• un método eficiente para manipular las envolventes de banda completa en el dominio de subbanda QMF • un concepto de cómo los tipos (1) y (2) de procesamiento, tal como se describen anteriormente, pueden unificarse dentro de una arquitectura única que sea capaz de recuperar la fina distribución espacial de las señales multicanal en el tiempo, si una información secundaria espacial está disponible describiendo las envolventes de los canales temporales originales. Si no se envía dicha información en el flujo de bits espacial (es decir, debido a restricciones en la tasa de bits de la información secundaria disponible), el procesamiento retrocede a un procesamiento de tipo (1)que todavía puede realizar una conformación temporal correcta del sonido decorrelacionada (aunque no sobre una base de canal individual).
Aunque el concepto de la invención descrito anteriormente se ha descrito extensamente en su aplicación en los esquemas de codificación MPEG existentes, es obvio que el concepto de la invención puede aplicarse a cualquier otro tipo de codificación donde las características de audio espacial tienen que ser conservadas.
El concepto de la invención de introducir o usar una señal intermedia para conformar la envolvente, es decir, la energía de una señal con una resolución de tiempo aumentada, puede aplicarse no solo en el dominio de la frecuencia, como se ilustra mediante las figuras, sino también en el dominio del tiempo, donde, por ejemplo, una disminución en la resolución de tiempo y, por lo tanto, una disminución en la tasa de bits requerida, puede lograrse promediando intervalos de tiempo consecutivos o teniendo en cuenta solamente cada n-ésimo valor de muestra de una representación de muestra de una señal de audio.
Aunque el concepto de la invención, tal como se ilustra en los párrafos anteriores, incorpora un blanqueamiento espectral de las señales procesadas, la idea de tener una señal de resolución intermedia también puede incorporarse sin blanqueamiento espectral.
Dependiendo de ciertos requerimientos de implementación de los métodos de la invención, los métodos de la invención pueden implementarse en hardware o software. La implementación puede realizarse usando un medio de almacenamiento digital, en particular un disco, DVD o un CD, que tiene señales de control legibles electrónicamente almacenadas en el mismo, el cual coopera con un sistema informático programable de manera que se realicen los métodos de la invención. Generalmente, la presente invención es, por lo tanto, un producto de programa informático con un código de programa almacenado en un soporte legible por máquina, siendo operativo el código de programa para realizar los métodos de la invención cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, los métodos de la invención son, por lo tanto, un programa informático que tiene un código de programa para realizar al menos uno de los métodos de la invención cuando el programa informático se ejecuta en un ordenador.
Mientras que lo anterior se ha mostrado y descrito particularmente con relación a realizaciones particulares de la misma, los expertos en la técnica entenderán que varios otros cambios en la forma y detalles pueden realizarse sin alejarse del alcance de la misma. Debe entenderse que varios cambios pueden realizarse en la adaptación a diferentes realizaciones sin alejarse de los conceptos más amplios descritos en el presente documento y comprendidos por las siguientes reivindicaciones.

Claims (33)

REIVINDICACIONES
1. Decodificador para generar una señal de salida multicanal basándose en una señal (46) base derivada de una señal multicanal original que tiene uno o más canales, siendo la cantidad de canales de la señal (46) base menor que la cantidad de canales de la señal multicanal original, teniendo la señal (46) base una trama (66), comprendiendo la trama (66) valores (68a - 68g) de muestreo que tienen una alta resolución de tiempo, en el que generar la señal de salida multicanal se basa adicionalmente en una representación (48) del parámetro de forma de onda que representa una forma de onda de una representación de baja resolución de tiempo de un canal original seleccionado de la señal multicanal original, en el que la representación (48) del parámetro de forma de onda incluye una secuencia de parámetros (74) de forma de onda, teniendo la secuencia de parámetros (74) de forma de onda una baja resolución de tiempo más baja que la alta resolución de tiempo de los valores (68a - 68g) de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama, que comprende:
un mezclador (42) ascendente para generar una pluralidad de canales de mezcla ascendente que tienen una resolución de tiempo más alta que la baja resolución de tiempo y para derivar una representación de baja resolución de tiempo de la señal (46) base usada para generar los canales de mezcla ascendente; y un conformador (44) para derivar una representación (48) del parámetro de forma de onda de referencia de la representación de baja resolución de tiempo de la señal (46) base y para conformar un envolvente de un canal (50) de mezcla ascendente seleccionado usando la representación (48) del parámetro de forma de onda de referencia y los parámetros (74) de forma de onda del canal original seleccionado que corresponde al canal (50) de mezcla ascendente seleccionado.
2. Decodificador según la reivindicación 1, en el que el mezclador (42) ascendente es operativo para derivar la representación de baja resolución de tiempo de la señal (46) base usando un banco de filtros, en el que la representación de baja resolución de tiempo de la señal (46) base se deriva en un dominio de banco de filtros.
3. Decodificador según la reivindicación 2, en el que el banco de filtros es un banco de filtros conformado complejo.
4. Decodificador según la reivindicación 1, en el que el mezclador (42) ascendente tiene uno o más eliminadores de correlación para derivar una o más señales sin correlación de la señal (46) base.
5. Decodificador según la reivindicación 4, en el que el mezclador (42) ascendente es operativo de manera que la generación de los canales de mezcla ascendente incluyen una combinación lineal de los canales de la señal (46) base y de una o más señales sin correlación.
6. Decodificador según la reivindicación 5, en el que el conformador (44) es operativo para conformar el canal (50) de mezcla ascendente seleccionado de manera que una primera parte del canal (50) de mezcla ascendente seleccionado derivado de la señal (46) base se conforma independientemente de una segunda parte del canal (50) de mezcla ascendente seleccionado derivado de la una o más señales sin correlación.
7. Decodificador según la reivindicación 1, en el que el conformador (44) es operativo para usar los parámetros (74) de forma de onda que describen una medida de intensidad de señal de la representación de resolución de tiempo intermedia del canal original seleccionado.
8. Decodificador según la reivindicación 7, en el que el conformador (44) es operativo para usar los parámetros (74) de forma de onda que describen la medida de intensidad de señal que tiene una medida de amplitud o energía.
9. Decodificador según la reivindicación 1, en el que el conformador (44) es operativo para conformar el canal (50) de mezcla ascendente seleccionado de manera que la conformación comprende una combinación de los parámetros de la representación (48) del parámetro de forma de onda y de la representación (48) del parámetro de forma de onda de referencia.
10. Decodificador según la reivindicación 1, en el que el conformador (44) es operativo para derivar una representación espectralmente plana de la representación de baja resolución de tiempo de la señal (46) base, teniendo la representación espectralmente plana un espectro plano de frecuencia, y derivar la representación (48) del parámetro de forma de onda de referencia desde la representación espectralmente plana.
11. Decodificador según la reivindicación 1, en el que el conformador (44) es adaptado adicionalmente para conformar el canal (50) de mezcla ascendente seleccionado usando parámetros de forma de onda adicionales que tienen una resolución de tiempo definida por la tasa de repetición de trama.
12. Decodificador según la reivindicación 1, que tiene adicionalmente una interfaz de salida para generar la señal de salida multicanal que tiene la alta resolución de tiempo usando el canal (52) de mezcla ascendente seleccionado conformado.
13. Decodificador según la reivindicación 12, en el que la interfaz de salida es operativa para generar la señal de salida multicanal de manera que la generación de la señal de salida multicanal comprende una síntesis de una representación del banco de filtros de una pluralidad de canales (52) de mezcla ascendente conformados que dan como resultado una representación del dominio de tiempo de la pluralidad de canales (52) de mezcla ascendente conformados que tienen alta resolución de tiempo.
14. Decodificador según la reivindicación 1, en el que el conformador (44) tiene un descuantificador para derivar la representación (48) del parámetro de forma de onda desde una representación cuantificada de la misma, usando una regla de descuantificación que tiene menos de 10 etapas de cuantificación.
15. Decodificador según la reivindicación 14, en el que el conformador (44) tiene un decodificador por entropía para derivar la representación cuantificada de la representación (48) del parámetro de forma de onda desde una representación codificada por entropía de la misma.
16. Decodificador según la reivindicación 15, en el que el decodificador por entropía es operativo para usar un catálogo de códigos de Huffman para derivar la representación cuantificada de la representación (48) del parámetro de forma de onda.
17. Decodificador según la reivindicación 2, en el que el conformador (44) es operativo para conformar el canal (50) de mezcla ascendente seleccionado en el dominio de tiempo.
18. Codificador para generar una representación (48) del parámetro de forma de onda de un canal de una señal multicanal que tiene una trama (66), comprendiendo la trama (66) valores (68a - 68g) de muestreo que tienen un periodo de muestreo, comprendiendo el codificador:
un elemento (62) de disminución de la resolución de tiempo para derivar una representación (70) de baja resolución de tiempo del canal usando los valores (68a - 68g) de muestreo de la trama (66), teniendo la representación (70) de baja resolución de tiempo valores (72a - 72d) de baja resolución de tiempo que tiene asociado un periodo de baja resolución de tiempo que es mayor que el periodo de muestreo y para derivar una representación de baja resolución de tiempo de referencia de una señal (46) base derivada de la señal multicanal, siendo la cantidad de canales de la señal (46) base menor que la cantidad de canales de la señal multicanal; y
un calculador (64) del parámetro de forma de onda para calcular la representación (48) del parámetro de forma de onda que representa una forma de onda de la representación (70) de baja resolución de tiempo, en el que el calculador (64) del parámetro de forma de onda se adapta para generar una secuencia de parámetros (74) de forma de onda, teniendo la secuencia de parámetros (74) forma de onda una resolución de tiempo más baja que una resolución de tiempo de los valores (68a - 68g) de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama, en el que el calculador (64) del parámetro de forma de onda es operativo para calcular los parámetros (74) de forma de onda usando la representación de baja resolución de tiempo de referencia y la representación (70) de baja resolución de tiempo del canal.
19. Codificador según la reivindicación 18, en el que el elemento (62) de disminución de la resolución de tiempo tiene un banco de filtros para derivar la representación (70) de baja resolución de tiempo del canal, siendo la representación (70) de baja resolución de tiempo derivada en un dominio de banco de filtros.
20. Codificador según la reivindicación 18, en el que el calculador (64) del parámetro de forma de onda es operativo de manera que el cálculo de los parámetros de forma de onda comprende una combinación de medidas de amplitud de la representación de baja resolución de tiempo de referencia y de la representación de baja resolución de tiempo del canal.
21. Codificador según la reivindicación 18, en el que el calculador (64) del parámetro de forma de onda tiene un cuantificador para derivar una representación cuantificada de los parámetros (74) de forma de onda.
22. Codificador según la reivindicación 21, en el que el calculador (64) del parámetro de forma de onda tiene un codificador por entropía para derivar una representación codificada por entropía de la representación cuantificada de los parámetros de forma de onda.
23. Método para generar una señal de salida multicanal basándose en una señal (46) base derivada de una señal multicanal original que tiene uno o más canales, siendo la cantidad de canales de la señal (46) base menor que la cantidad de canales de la señal multicanal original, teniendo la señal (46) base una trama (66), comprendiendo la trama (66) valores (68a - 68g) de muestreo que tiene una alta resolución de tiempo, en el que generar la señal de salida multicanal se basa adicionalmente en una representación (48) del parámetro de forma de onda que representa una forma de onda de una representación de baja resolución de tiempo de un canal original seleccionado de la señal multicanal original, en el que la representación (48) del parámetro de forma de onda incluye una secuencia de parámetros (74) de forma de onda, teniendo la secuencia de parámetros (74) de forma de onda una baja resolución de tiempo más baja que la alta resolución de tiempo de los valores (68a - 68g) de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama, comprendiendo el método:
derivar una representación de baja resolución de tiempo de la señal (46) base usada para generar una pluralidad de canales de mezcla ascendente;
generar la pluralidad de canales de mezcla ascendente que tienen una resolución de tiempo más alta que la baja resolución de tiempo;
derivar una representación (48) del parámetro de forma de onda de la representación de baja resolución de tiempo de la señal (46) base; y
conformar un envolvente de un canal (50) de mezcla ascendente seleccionado usando la representación (48) del parámetro de forma de onda de referencia y los parámetros (74) de forma de onda del canal original seleccionado que corresponde al canal (50) de mezcla ascendente seleccionado.
24. Método para generar la representación (48) del parámetro de forma de onda de un canal de una señal multicanal que tiene una trama (66), comprendiendo la trama (66) los valores (68a - 68g) de muestreo que tienen un periodo de muestreo, comprendiendo el método:
derivar una representación (70) de baja resolución de tiempo del canal usando los valores (68a - 68g) de muestreo de la trama (66), teniendo la representación (70) de baja resolución de tiempo valores (72a - 72d) de baja resolución de tiempo que tienen asociados un periodo de baja resolución de tiempo que es más largo que el periodo de muestreo;
derivar una representación de baja resolución de tiempo de referencia de la señal (46) base derivada de la señal multicanal, siendo la cantidad de canales de la señal (46) base menor que la cantidad de canales de la señal multicanal; y
calcular la representación (48) del parámetro de forma de onda que representa una forma de onda de la representación (70) de baja resolución de tiempo usando la representación de baja resolución de tiempo de referencia y la representación (70) de baja resolución de tiempo del canal, en el que la representación (48) del parámetro de forma de onda incluye una secuencia de parámetros (74) de forma de onda, teniendo la secuencia de parámetros (74) de forma de onda una resolución de tiempo más baja que una resolución de tiempo de los valores (68a - 68g) de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama.
25. Representación de una señal de audio multicanal basándose en una señal (46) base derivada de la señal de audio multicanal que tiene uno o más canales, siendo la cantidad de canales de la señal (46) base menor que la cantidad de canales de la señal multicanal, teniendo la señal (46) base una trama (66), comprendiendo la trama (66) valores (68a - 68g) de muestreo que tienen una alta resolución de tiempo, y basándose en una representación (48) del parámetro de forma de onda que representa una forma de onda de una representación de baja resolución de tiempo de un canal seleccionado de la señal multicanal, incluyendo la representación (48) del parámetro de forma de onda una secuencia de parámetros (74) de forma de onda, teniendo la secuencia de parámetros (74) de forma de onda una resolución de tiempo más baja que la alta resolución de tiempo de los valores (68a - 68g) de muestreo y más alta que una resolución de tiempo definida por una tasa de repetición de trama,
en la que la representación de la señal de audio multicanal puede generarse por un codificador según la reivindicación 18, o en la que la representación de la señal de audio multicanal puede procesarse por un decodificador según la reivindicación 1.
26. Medio de almacenamiento legible por ordenador, teniendo almacenado en el mismo una representación según la reivindicación 25.
27. Receptor o reproductor de audio que tiene un decodificador según la reivindicación 1.
28. Transmisor o grabador de audio que tiene un codificador según la reivindicación 18.
29. Método para recibir o reproducir audio, teniendo el método un método según la reivindicación 23.
30. Método para transmitir o grabar audio, teniendo el método un método según la reivindicación 24.
31. Sistema de transmisión que tiene un transmisor y un receptor, teniendo el transmisor un codificador según la reivindicación 18, y teniendo el receptor un decodificador según la reivindicación 1.
32. Método para transmitir y recibir, teniendo el método para transmitir un método según la reivindicación 24, y teniendo el método para recibir un método según la reivindicación 23.
33. Ordenador que tiene un código de programa para realizar, cuando se ejecuta en el ordenador, cualquiera de los métodos de las reivindicaciones 23, 24, 29, 30 o 32.
ES06777134T 2005-10-12 2006-08-31 Conformación temporal y espacial de señales de audio multicanal Active ES2770146T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US72638905P 2005-10-12 2005-10-12
US11/363,985 US7974713B2 (en) 2005-10-12 2006-02-27 Temporal and spatial shaping of multi-channel audio signals
PCT/EP2006/008534 WO2007042108A1 (en) 2005-10-12 2006-08-31 Temporal and spatial shaping of multi-channel audio signals

Publications (1)

Publication Number Publication Date
ES2770146T3 true ES2770146T3 (es) 2020-06-30

Family

ID=37179043

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06777134T Active ES2770146T3 (es) 2005-10-12 2006-08-31 Conformación temporal y espacial de señales de audio multicanal

Country Status (16)

Country Link
US (3) US7974713B2 (es)
EP (1) EP1934973B1 (es)
JP (1) JP5102213B2 (es)
KR (1) KR100947013B1 (es)
CN (1) CN101356571B (es)
AU (1) AU2006301612B2 (es)
BR (1) BRPI0618002B1 (es)
CA (1) CA2625213C (es)
ES (1) ES2770146T3 (es)
IL (1) IL190765A (es)
MY (1) MY144518A (es)
NO (1) NO343713B1 (es)
PL (1) PL1934973T3 (es)
RU (1) RU2388068C2 (es)
TW (1) TWI332192B (es)
WO (1) WO2007042108A1 (es)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2391714C2 (ru) * 2004-07-14 2010-06-10 Конинклейке Филипс Электроникс Н.В. Преобразование аудиоканалов
KR20070065401A (ko) * 2004-09-23 2007-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체
US7304586B2 (en) 2004-10-20 2007-12-04 Electro Industries / Gauge Tech On-line web accessed energy meter
US9080894B2 (en) 2004-10-20 2015-07-14 Electro Industries/Gauge Tech Intelligent electronic device for receiving and sending data at high speeds over a network
US7747733B2 (en) 2004-10-25 2010-06-29 Electro Industries/Gauge Tech Power meter having multiple ethernet ports
US8620608B2 (en) 2005-01-27 2013-12-31 Electro Industries/Gauge Tech Intelligent electronic device and method thereof
US8190381B2 (en) 2005-01-27 2012-05-29 Electro Industries/Gauge Tech Intelligent electronic device with enhanced power quality monitoring and communications capabilities
US8121801B2 (en) * 2005-01-27 2012-02-21 Electro Industries/Gauge Tech System and method for multi-rate concurrent waveform capture and storage for power quality metering
US8160824B2 (en) 2005-01-27 2012-04-17 Electro Industries/Gauge Tech Intelligent electronic device with enhanced power quality monitoring and communication capabilities
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
CN101297353B (zh) 2005-10-26 2013-03-13 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
JP2009532712A (ja) * 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
ATE453910T1 (de) * 2007-02-06 2010-01-15 Oticon As Abschätzung der eigenen stimmaktivität mit einem hörgerätsystem aufgrund des verhältnisses zwischen direktklang und widerhall
US10845399B2 (en) 2007-04-03 2020-11-24 Electro Industries/Gaugetech System and method for performing data transfers in an intelligent electronic device
US9989618B2 (en) 2007-04-03 2018-06-05 Electro Industries/Gaugetech Intelligent electronic device with constant calibration capabilities for high accuracy measurements
US11307227B2 (en) 2007-04-03 2022-04-19 Electro Industries/Gauge Tech High speed digital transient waveform detection system and method for use in an intelligent electronic device
US20130275066A1 (en) 2007-04-03 2013-10-17 Electro Industries/Gaugetech Digital power metering system
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8909361B2 (en) * 2008-06-19 2014-12-09 Broadcom Corporation Method and system for processing high quality audio in a hardware audio codec for audio transmission
EP2301019B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
CN102811034A (zh) 2011-05-31 2012-12-05 财团法人工业技术研究院 信号处理装置及信号处理方法
US8831515B2 (en) 2011-10-12 2014-09-09 Broadcom Corporation Shaped load modulation in a near field communications (NFC) device
EP2767977A4 (en) 2011-10-21 2015-04-29 Samsung Electronics Co Ltd METHOD AND DEVICE FOR LOSS-FREE ENERGY CODING, AUDIO CODING METHOD AND DEVICE, METHOD AND APPARATUS FOR LOSS-FREE ENERGY DECODING AND AUDIO CODING METHOD AND DEVICE
RU2014133903A (ru) * 2012-01-19 2016-03-20 Конинклейке Филипс Н.В. Пространственные рендеризация и кодирование аудиосигнала
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
CN103871414B (zh) * 2012-12-11 2016-06-29 华为技术有限公司 一种多声道语音信号的时标调制方法和装置
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
IN2015MN01952A (es) 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN103680513B (zh) * 2013-12-13 2016-11-02 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
US20160018443A1 (en) * 2014-07-21 2016-01-21 Tektronix, Inc. Method for determining a correlated waveform on a real time oscilloscope
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN107004427B (zh) * 2014-12-12 2020-04-14 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置
JP2016126037A (ja) * 2014-12-26 2016-07-11 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
CA2997334A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
US10395664B2 (en) 2016-01-26 2019-08-27 Dolby Laboratories Licensing Corporation Adaptive Quantization
ES2771200T3 (es) 2016-02-17 2020-07-06 Fraunhofer Ges Forschung Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios
US10958695B2 (en) * 2016-06-21 2021-03-23 Google Llc Methods, systems, and media for recommending content based on network conditions
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
JP7311602B2 (ja) * 2018-12-07 2023-07-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
US11363402B2 (en) 2019-12-30 2022-06-14 Comhear Inc. Method for providing a spatialized soundfield
CN113702893B (zh) * 2021-09-23 2023-11-21 云南电网有限责任公司电力科学研究院 一种直流互感器暂态波形传变一致性评价方法及装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4189625A (en) * 1978-03-13 1980-02-19 Strandberg Terry W Method and apparatus for processing dual frequency digital information signals
DE2916308C3 (de) * 1979-04-23 1982-02-25 Deutsche Vereinigte Schuhmaschinen Gmbh, 6000 Frankfurt Klebepresse zum Ankleben von Laufsohlen an aufgeleistetes Schuhwerk
US4285058A (en) 1980-02-26 1981-08-18 Fisher Charles B Waveform correction by sampling
TW226035B (en) 1991-12-13 1994-07-01 Nat Science Committee A process for producing anisotropic ribbon of R-Fe-M-B and the produced anisotropic resin bond
FR2700383B1 (fr) 1993-01-11 1995-02-10 Framatome Sa Echangeur de chaleur dans lequel l'alimentation en fluide secondaire s'effectue en partie haute par un boîtier d'alimentation ouvert vers le bas.
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
KR0174084B1 (ko) * 1995-09-25 1999-04-01 이준 Mpeg-2 다채널 오디오 복호화기의 역변환기
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
EP0923821B1 (en) * 1996-09-02 2003-09-03 STMicroelectronics N.V. Improvements in, or relating to, multi-carrier transmission systems
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
CA2859333A1 (en) 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7418043B2 (en) * 2000-07-19 2008-08-26 Lot 41 Acquisition Foundation, Llc Software adaptable high performance multicarrier transmission protocol
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
TW561451B (en) 2001-07-27 2003-11-11 At Chip Corp Audio mixing method and its device
SG108862A1 (en) 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
TWI226601B (en) 2003-01-17 2005-01-11 Winbond Electronics Corp System and method of synthesizing a plurality of voices
KR101049751B1 (ko) 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US20070067166A1 (en) * 2003-09-17 2007-03-22 Xingde Pan Method and device of multi-resolution vector quantilization for audio encoding and decoding
TWI226035B (en) 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
TWI229318B (en) 2003-10-29 2005-03-11 Inventec Multimedia & Telecom Voice processing system and method
EP1709743A1 (fr) * 2004-01-30 2006-10-11 France Telecom S.A. Quantification vectorielle en dimension et resolution variables
JPWO2005081229A1 (ja) 2004-02-25 2007-10-25 松下電器産業株式会社 オーディオエンコーダ及びオーディオデコーダ
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals

Also Published As

Publication number Publication date
US8644972B2 (en) 2014-02-04
IL190765A0 (en) 2008-11-03
WO2007042108A1 (en) 2007-04-19
CN101356571A (zh) 2009-01-28
RU2388068C2 (ru) 2010-04-27
AU2006301612B2 (en) 2010-07-22
MY144518A (en) 2011-09-30
KR20080059193A (ko) 2008-06-26
US9361896B2 (en) 2016-06-07
EP1934973B1 (en) 2019-11-13
TW200746044A (en) 2007-12-16
TWI332192B (en) 2010-10-21
US7974713B2 (en) 2011-07-05
BRPI0618002A2 (pt) 2011-08-16
CA2625213A1 (en) 2007-04-19
KR100947013B1 (ko) 2010-03-10
IL190765A (en) 2013-09-30
NO20082176L (no) 2008-05-09
US20110106545A1 (en) 2011-05-05
CA2625213C (en) 2012-04-10
BRPI0618002B1 (pt) 2021-03-09
RU2008118333A (ru) 2009-11-20
CN101356571B (zh) 2012-05-30
US20070081597A1 (en) 2007-04-12
PL1934973T3 (pl) 2020-06-01
JP2009511966A (ja) 2009-03-19
AU2006301612A1 (en) 2007-04-19
NO343713B1 (no) 2019-05-13
US20140126725A1 (en) 2014-05-08
JP5102213B2 (ja) 2012-12-19
EP1934973A1 (en) 2008-06-25

Similar Documents

Publication Publication Date Title
ES2770146T3 (es) Conformación temporal y espacial de señales de audio multicanal
US20230345176A1 (en) Audio decoder for audio channel reconstruction
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
ES2362920T3 (es) Método mejorado para la conformación de señales en reconstrucción de audio multicanal.
ES2923661T3 (es) Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
CA2572805C (en) Audio signal decoding device and audio signal encoding device
JP2006323314A (ja) マルチチャネル音声信号をバイノーラルキュー符号化する装置