ES2951090T3 - Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada - Google Patents

Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada Download PDF

Info

Publication number
ES2951090T3
ES2951090T3 ES21191544T ES21191544T ES2951090T3 ES 2951090 T3 ES2951090 T3 ES 2951090T3 ES 21191544 T ES21191544 T ES 21191544T ES 21191544 T ES21191544 T ES 21191544T ES 2951090 T3 ES2951090 T3 ES 2951090T3
Authority
ES
Spain
Prior art keywords
signal
channel
encoder
band
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21191544T
Other languages
English (en)
Inventor
Sascha Disch
Guillaume Fuchs
Ravelli, (Verstorben / Deceased) Emmanuel
Christian Neukam
Konstantin Schmidt
Conrad Benndorf
Andreas Niedermeier
Benjamin Schubert
Ralf Geiger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2951090T3 publication Critical patent/ES2951090T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

Se muestra el codificador de audio 2'' para codificar una señal multicanal 4. El codificador de audio comprende un mezclador descendente 12 para mezclar la señal multicanal 4 para obtener una señal de mezcla descendente 14, un codificador central de dominio de predicción lineal 16 para codificar la señal de mezcla descendente 14, en donde la señal de mezcla descendente 14 tiene una banda baja y una banda alta, en donde la El codificador central de dominio de predicción lineal 16 está configurado para aplicar un procesamiento de extensión de ancho de banda para codificar paramétricamente la banda alta, un banco de filtros 82 para generar una representación espectral de la señal multicanal 4, y un codificador multicanal conjunto 18 configurado para procesar la representación espectral que comprende la baja. banda y la banda alta de la señal multicanal para generar información multicanal 20. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
[0001] La presente invención se refiere a un codificador de audio para la codificación de una señal de audio de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada. Las realizaciones se refieren a la codificación de múltiples canales en el modo de LPD mediante el uso de un banco de filtros para el procesamiento de múltiples canales (DFT), que no es el utilizado para la extensión de ancho de banda.
[0002] La codificación perceptual de señales de audio para el propósito de reducción de datos para el almacenamiento eficiente o transmisión de estas señales es una práctica ampliamente utilizada. En particular, cuando se debe lograr la más alta eficiencia, se utilizan los códecs que están estrechamente adaptados a las características de la señal de entrada. Un ejemplo es el códec de núcleo MPEG-D USAC que se puede configurar para utilizar predominantemente la codificación de ACELP (Predicción Lineal Excitada por Código Algebraico) sobre señales de voz, TCX (Excitación Codificada por Transformada) sobre el ruido de fondo y las señales mixtas, y AAC (Codificación de Audio Avanzada) sobre el contenido de música. Las tres configuraciones de códec internas se pueden conmutar al instante de una manera adaptativa de señal en respuesta al contenido de la señal.
[0003] Por otra parte, se emplean las técnicas de codificación conjuntas de múltiples canales (codificación intermedia/lateral, etc.) o, para mayor eficiencia, técnicas de codificación paramétrica. Las técnicas de codificación paramétrica básicamente apuntan a la recreación de una señal de audio perceptiva equivalente en lugar de una reconstrucción fiel de una forma de onda determinada. Los ejemplos abarcan el ruido de relleno, la extensión de ancho de banda y la codificación de audio espacial.
[0004] Cuando se combinan un codificador de núcleo adaptativo de señal y, o bien la codificación de múltiples canales conjunta o técnicas de codificación paramétrica, en el estado de los códecs de la té cn ica , el códec de núcleo se conmuta para coincidir con la característica de la señal, pero la elección de técnicas de codificación de múltiples canales, tales como I/L-estéreo, la codificación de audio espacial o estéreo paramétrica, permanecen fijas e independientes de las características de la señal. Estas técnicas se emplean habitualmente para el códec de núcleo como un preprocesador para el codificador de núcleo y un postprocesador para el decodificador de núcleo, ambos son ignorantes para la elección real del códec de núcleo.
[0005] Por otra parte, la elección de las técnicas de codificación paramétrica para la extensión de ancho de banda se realiza en ocasiones en función de la señal. Por ejemplo, las técnicas aplicadas en el dominio de tiempo son más eficientes para las señales de voz, mientras que un procesamiento de dominio de frecuencia es más relevante para otras señales. En tal caso, las técnicas de codificación de múltiples canales adoptadas deben ser compatibles con ambos tipos de técnicas de extensión de ancho de banda.
[0006] Los temas relevantes en el estado de la técnica comprenden:
PS y MPS como un pre/postprocesador para el códec de núcleo
MPEG-D USAC Estándar de MPEG-D USAC
Estándar de Audio MPEG-H 3D
[0007] En MPEG-D USAC, se describe un codificador de núcleo conmutable. Sin embargo, en USAC, las técnicas de codificación de múltiples canales se definen como una opción fija que es común a todo el codificador de núcleo, independiente de su conmutador interno de los principios de codificación de ACELP o TCX ("LPD"), o AAC ("FD"). Por lo tanto, si se desea una configuración de códec de núcleo conmutada, el códec se limita al uso de codificación de múltiples canales paramétrica (PS) a lo largo de toda la señal. Sin embargo, para la codificación, por ejemplo, de señales de música sería más apropiado utilizar más bien una codificación estéreo conjunta, que puede cambiar dinámicamente entre el esquema de I/D (izquierda/derecha) e I/L (intermedia/lateral) por banda de frecuencia y por trama.
[0008] El documento AC-0809-Q23-14 de ITU-T WP3/16 describe un algoritmo de codificación de voz y de audio que comprende un súper codificador de banda ancha en mono y en estéreo.
[0009] El documento AC-0809-Q23-15 de ITU-T WP3/16 describe una descripción de alto nivel de un candidato de calificación para la extensión de banda súper ancha/estéreo G.718 y G.729.1 conjunta. Un codificador que comprende una codificación ACELP/MDCT con codificación de banda súper ancha mono y codificación estéreo de banda ancha/banda súper ancha se describe junto con un decodificador correspondiente.
[0010] El documento US 2009/0210234 A1 describe un aparato y un procedimiento de codificación y decodificación de señales donde una señal de frecuencia baja se codifica a través de la predicción lineal excitada por el código algebraico o la excitación codificada de transformada, y la señal de frecuencia alta se codifica utilizando la señal de baja frecuencia.
[0011] El documento US 2010/0114583 A1 describe un aparato para procesar una señal de audio y el procedimiento de la misma. Se reciben datos espectrales de una banda inferior y escriben información que indica un esquema de extensión de banda particular para un marco actual de la señal de audio entre una pluralidad de esquemas de extensiones de banda, incluido un primer esquema de extensión de banda y un segundo esquema de extensión de banda.
[0012] Papel de la Convención AES 8654, 26-29 de abril de 2012, la 132a Convención describe una descripción general de la codificación de voz y audio unificada MPEG que reúnen la codificación de audio general y la codificación de voz.
[0013] El documento US 2011/0202353 A1 describe un aparato y un procedimiento para decodificar una señal de audio codificada que comprende un primer decodificador, un segundo decodificador y un controlador asociado junto con un módulo de extensión de ancho de banda, donde el controlador controla la frecuencia de cruce para el módulo de extensión de ancho de banda de acuerdo con una información de modo de codificación.
[0014] El documento US 2012/0002818 A1 describe una codificación estéreo avanzada basada en la combinación de codificación estéreo de izquierda/derecha o intermedia/lateral seleccionable adaptativamente y de codificación estéreo paramétrica. Una realización comprende una etapa de mezcla descendente, un parámetro que determina la etapa y una etapa de transformada que generan una señal estéreo pseudo a la izquierda/derecha al realizar una transformada basada en la señal de mezcla descendente de una señal residual.
[0015] Por lo tanto, hay una necesidad de una estrategia mejorada.
[0016] Un objeto de la presente invención es proporcionar un concepto mejorado para el procesamiento de una señal de audio. Este objeto se resuelve por medio de la materia en cuestión de las reivindicaciones independientes.
[0017] La presente invención se basa en el hallazgo de que un codificador paramétrico (de dominio de tiempo) mediante el uso de un codificador de múltiples canales es ventajoso para la codificación de audio de múltiples canales paramétrica. El codificador de múltiples canales puede ser un codificador residual de múltiples canales que puede reducir un ancho de banda para la transmisión de los parámetros de codificación en comparación con una codificación independiente para cada canal. Esto se puede utilizar ventajosamente, por ejemplo, en combinación con un codificador de audio conjunto de múltiples canales de dominio de frecuencia. Las técnicas de codificación conjuntas de múltiples canales de dominio de tiempo y dominio de frecuencia se pueden combinar, de tal manera que, por ejemplo, una decisión basada en tramas pueda dirigir una trama actual a un período de codificación basado en tiempo o basado en frecuencia. En otras palabras, las realizaciones muestran un concepto mejorado para la combinación de un códec de núcleo conmutable mediante el uso de codificación conjunta de múltiples canales y la codificación de audio espacial paramétrica en un códec perceptual totalmente conmutable que permite el uso de diferentes técnicas de codificación de múltiples canales dependiendo de la elección de un codificador de núcleo. Esto es ventajoso, ya que, en contraste con los procedimientos ya existentes, las realizaciones muestran una técnica de codificación de múltiples canales que se puede activar al instante junto con un codificador de núcleo y por lo tanto ser de naturaleza muy similar y adaptada para la elección del codificador de núcleo. Por lo tanto, los problemas descritos que aparecen debido a una elección fija de técnicas de codificación de múltiples canales se pueden evitar. Por otra parte, se permite una combinación totalmente conmutable de un codificador de núcleo dado y su técnica de codificación de múltiples canales asociados y adaptados. Tal codificador, por ejemplo, un AAC (Codificación de Audio Avanzada) que utiliza codificación estéreo I/D o I/L, por ejemplo, es capaz de codificar una señal de música en el codificador de núcleo de dominio de frecuencia (FD, por su sigla en inglés) mediante el uso de una codificación estéreo conjunta dedicada o de múltiples canales, por ejemplo, estéreo I/L. Esta decisión se puede aplicar por separado para cada banda de frecuencia en cada trama de audio. En el caso de, por ejemplo, una señal de voz, el codificador de núcleo puede cambiar instantáneamente a un codificador de decodificación predictiva (LPD, por su sigla en inglés) de núcleo lineal y sus técnicas de codificación diferentes, por ejemplo estéreo paramétricas.
[0018] El objeto de la invención se consigue por la materia en cuestión de las reivindicaciones independientes. Las realizaciones preferidas se definen por las reivindicaciones dependientes.
[0019] Las realizaciones de la presente invención se discutirán posteriormente en referencia a los dibujos adjuntos, en los que:
Fig. 1 muestra un diagrama de bloques esquemático de un codificador para la codificación de una señal de audio de múltiples canales;
Fig. 2 muestra un diagrama de bloques esquemático de un codificador de dominio de predicción lineal según una realización;
Fig. 3 muestra un diagrama de bloques esquemático de un codificador de dominio de frecuencia según una realización;
Fig. 4 muestra un diagrama de bloques esquemático de un codificador de audio según una realización;
Fig. 5a muestra un diagrama de bloques esquemático de un mezclador descendente activo según una realización;
Fig. 5b muestra un diagrama de bloques esquemático de un mezclador descendente pasivo según una realización;
Fig. 6 muestra un diagrama de bloques esquemático de un decodificador para la decodificación de una señal de audio codificada;
Fig. 7 muestra un diagrama de bloques esquemático de un decodificador según una realización;
Fig. 8 muestra un diagrama de bloques esquemático de un procedimiento para la codificación de una señal de múltiples canales;
Fig. 9 muestra un diagrama de bloques esquemático de un procedimiento para la decodificación de una señal de audio codificada;
Fig. 10 muestra un diagrama de bloques esquemático de un codificador para la codificación de una señal de múltiples canales según un aspecto adicional;
Fig. 11 muestra un diagrama de bloques esquemático de un decodificador para la decodificación de una señal de audio codificada según un aspecto adicional;
Fig. 12 muestra un diagrama de bloques esquemático de un procedimiento de codificación de audio para la codificación de una señal de múltiples canales según un aspecto adicional;
Fig. 13 muestra un diagrama de bloques esquemático de un procedimiento para la decodificación de una señal de audio codificada según un aspecto adicional,
Fig. 14 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la codificación de dominio de frecuencia a la codificación de LPD;
Fig. 15 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la decodificación de dominio de frecuencia a la decodificación de dominio LPD;
Fig. 16 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la codificación de LPD a la codificación de dominio de frecuencia;
Fig. 17 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la decodificación de LPD a la decodificación de dominio de frecuencia.
Fig. 18 muestra un diagrama de bloques esquemático de un codificador para la codificación de una señal de múltiples canales según un aspecto adicional;
Fig. 19 muestra un diagrama de bloques esquemático de un decodificador para la decodificación de una señal de audio codificada según un aspecto adicional;
Fig. 20 muestra un diagrama de bloques esquemático de un procedimiento de codificación de audio para la codificación de una señal de múltiples canales según un aspecto adicional;
Fig. 21 muestra un diagrama de bloques esquemático de un procedimiento para la decodificación de una señal de audio codificada según un aspecto adicional;
[0020] En lo sucesivo, las realizaciones de la invención se describirán con más detalle. Los elementos mostrados en las figuras respectivas que tienen la misma o similar funcionalidad tendrán asociados los mismos signos de referencia.
[0021] La Fig. 1 muestra un diagrama de bloques esquemático de un codificador de audio 2 para la codificación de una señal de audio de múltiples canales 4. El codificador de audio comprende un codificador de dominio de predicción lineal 6, un codificador de dominio de frecuencia 8, y un controlador 10 para la conmutación entre el codificador de dominio de predicción lineal 6 y el codificador de dominio de frecuencia 8. El controlador puede analizar la señal de múltiples canales y decidir para porciones de la señal de múltiples canales si una codificación de dominio de predicción lineal o una codificación de dominio de frecuencia es ventajosa. En otras palabras, el controlador está configurado de tal manera que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada del codificador de dominio de predicción lineal o por medio de una trama codificada del codificador de dominio de frecuencia. El codificador de dominio de predicción lineal comprende un mezclador descendente 12 para la mezcla descendente de la señal de múltiples canales 4 para obtener una señal de mezcla descendente 14. El codificador de dominio de predicción lineal comprende además un codificador de núcleo de dominio de predicción lineal 16 para la codificación de la señal de mezcla descendente y por otra parte, el codificador de dominio de predicción lineal comprende un primer codificador conjunto de múltiples canales 18 para la generación de una primera información de múltiples canales 20, que comprende por ejemplo, parámetros de ILD (diferencia de nivel interaural) y/o IPD (diferencia de fase interaural), a partir de la señal de múltiples canales 4. La señal de múltiples canales puede ser, por ejemplo, una señal estéreo en la que el mezclador descendente convierte la señal estéreo en una señal mono. El codificador de núcleo de dominio de predicción lineal puede codificar la señal mono, en el que el primer codificador conjunto de múltiples canales puede generar la información estéreo para la señal mono codificada como primera información de múltiples canales. El codificador de dominio de frecuencia y el controlador son opcionales en comparación con el aspecto adicional descrito con respecto a la Fig. 10 y la Fig. 11. Sin embargo, para la conmutación adaptativa de señal entre el dominio de tiempo y la codificación del dominio de frecuencia, es ventajoso el uso del codificador de dominio de frecuencia y el controlador.
[0022] Por otra parte, el codificador de dominio de frecuencia 8 comprende un segundo codificador conjunto de múltiples canales 22 para la generación de segunda información de múltiples canales 24 de la señal de múltiples canales 4, en el que el segundo codificador conjunto de múltiples canales 22 es diferente del primer codificador de múltiples canales 18. Sin embargo, el segundo procesador conjunto de múltiples canales 22 obtiene la segunda información de múltiples canales para permitir una segunda calidad de reproducción que es más alta que la primera calidad de reproducción de la primera información de múltiples canales obtenida por el primer codificador de múltiples canales para señales que son codificadas mejor por el segundo codificador.
[0023] En otras palabras, según las realizaciones, el primer codificador conjunto de múltiples canales 18 está configurado para la generación de la primera información de múltiples canales 20 que permite una primera calidad de reproducción, en el que el segundo codificador conjunto de múltiples canales 22 está configurado para la generación de la segunda información de múltiples canales 24 que permite una segunda calidad de reproducción, en el que la segunda calidad de reproducción es más alta que la primera calidad de reproducción. Esto es al menos relevante para señales, tales como, por ejemplo, señales de voz, que están mejor codificadas por el segundo codificador de múltiples canales.
[0024] Por lo tanto, el primer codificador de múltiples canales puede ser un codificador de múltiples canales paramétrico conjunto que comprende por ejemplo un codificador de predicción estéreo, un codificador estéreo paramétrico o un codificador estéreo paramétrico basado en rotación. Por otra parte, el segundo codificador conjunto de múltiples canales puede ser de preservación de forma de onda, tales como, por ejemplo, un conmutador selectivo por banda para el codificador estéreo intermedio/lateral o de izquierda/derecha. De acuerdo con lo mostrado en la Fig. 1, la señal de mezcla descendente codificada 26 se puede transmitir a un decodificador de audio y servir de forma opcional al primer procesador conjunto de múltiples canales donde, por ejemplo, se puede decodificar la señal de mezcla descendente codificada y se puede calcular una señal residual de la señal de múltiples canales antes de la codificación y después de la decodificación de la señal codificada para mejorar la calidad decodificada de la señal de audio codificada en el lado del decodificador. Además, el controlador 10 puede utilizar las señales de control 28a, 28b para el control del codificador de dominio de predicción lineal y el codificador de dominio de frecuencia, respectivamente, después de determinar el esquema de codificación adecuado para la porción actual de la señal de múltiples canales.
[0025] La Fig. 2 muestra un diagrama de bloques del codificador de dominio de predicción lineal 6 según una realización. La entrada al codificador de dominio de predicción lineal 6 es la señal de mezcla descendente 14 mezclada de forma descendente por el mezclador descendente 12. Además, el codificador de dominio de predicción lineal comprende un procesador de ACELP 30 y un procesador de TCX 32. El procesador de ACELP 30 está configurado para funcionar en una señal de mezcla descendente muestreada de manera descendente 34, que se puede submuestrear por medio del muestreador descendente 35. Además, un procesador de extensión de ancho de banda de dominio de tiempo 36 puede codificar de forma paramétrica una banda de una porción de la señal de mezcla descendente 14, que se retira de la señal de mezcla descendente muestreada de manera descendente 34 que se introduce en el procesador de ACELP 30. El procesador de extensión de ancho de banda de dominio de tiempo 36 puede emitir una banda paramétricamente codificada 38 de una porción de la señal de mezcla descendente 14. En otras palabras, el procesador de extensión de ancho de banda de dominio de tiempo 36 puede calcular una representación paramétrica de las bandas de frecuencia de la señal de mezcla descendente 14 que puede comprender frecuencias más altas en comparación con la frecuencia de corte del muestreador descendente 35. Por lo tanto, el muestreador descendente 35 puede tener la propiedad adicional de proporcionar las bandas de frecuencias superiores a la frecuencia de corte del muestreador descendente al procesador de extensión de ancho de banda de dominio de tiempo 36 o, de proporcionar la frecuencia de corte al procesador de extensión de ancho de banda de dominio de tiempo (TD-BWE) para permitir que el procesador de TD-BWE 36 calcule los parámetros 38 para la porción correcta de la señal de mezcla descendente 14.
[0026] Además, el procesador de TCX está configurado para operar sobre la señal de mezcla descendente que está, por ejemplo, no muestreada de manera descendente o muestreada de manera descendente en un grado menor que el muestreo descendente para el procesador de ACELP. Un muestreo descendente en un grado menor que el muestreo descendente del procesador de ACELP puede ser un muestreo descendente mediante el uso de una frecuencia de corte más alta, en el que un mayor número de bandas de la señal de mezcla descendente se proporcionan al procesador de TCX cuando se compara con la señal de mezcla descendente muestreada de manera descendente 35 que se introduce en el procesador de ACELP 30. El procesador de TCX puede comprender además un primer convertidor de tiempo-frecuencia 40, tal como por ejemplo una MDCT, una DFT, o una DCT. El procesador de TCX 32 puede comprender además un primer generador de parámetros 42 y un primer codificador del cuantificador 44. El primer generador de parámetros 42, por ejemplo un algoritmo inteligente de relleno de espacios (IGF, por su sigla en inglés) puede calcular una primera representación paramétrica de un primer conjunto de bandas 46, en el que el primer codificador del cuantificador 44, por ejemplo mediante el uso de un algoritmo de TCX para calcular un primer conjunto de líneas espectrales codificadas cuantificadas 48 para un segundo conjunto de bandas. En otras palabras, el primer codificador del cuantificador puede codificar de forma paramétrica las bandas relevantes, tales como por ejemplo, bandas tonales, de la señal de entrada en la que el primer generador de parámetros aplica, por ejemplo, un algoritmo de IGF a las bandas restantes de la señal de entrada para reducir aún más el ancho de banda de la señal de audio codificada.
[0027] El codificador de dominio de predicción lineal 6 puede comprender además un decodificador de dominio de predicción lineal 50 para la decodificación de la señal de mezcla descendente 14, por ejemplo representado por la señal de mezcla descendente 52 muestreada de manera descendente procesada por ACELP y/o la primera representación paramétrica de un primer conjunto de bandas 46 y/o el primer conjunto de líneas espectrales codificadas cuantificadas 48 para un segundo conjunto de bandas. La salida del decodificador de dominio de predicción lineal 50 puede ser una señal de mezcla descendente codificada y decodificada 54. Esta señal 54 se puede introducir en un codificador residual de múltiples canales 56, que puede calcular y codificar una señal residual de múltiples canales 58 mediante el uso de la señal de mezcla descendente codificada y decodificada 54, en el que la señal residual de múltiples canales codificada representa un error entre una representación de múltiples canales decodificada por el uso de la primera información de múltiples canales y la señal de múltiples canales antes de la mezcla descendente. Por lo tanto, el codificador residual de múltiples canales 56 puede comprender un decodificador conjunto de múltiples canales del lado del codificador 60 y un procesador de diferencia 62. El decodificador conjunto de múltiples canales del lado del codificador 60 puede generar una señal decodificada de múltiples canales por el uso de la primera información de múltiples canales 20 y la señal de mezcla descendente codificada y decodificada 54, en el que el procesador de diferencia puede formar una diferencia entre la señal decodificada de múltiples canales 64 y la señal de múltiples canales 4 antes de la mezcla descendente para obtener la señal residual de múltiples canales 58. En otras palabras, el decodificador conjunto de múltiples canales del lado del codificador en el codificador de audio puede llevar a cabo una operación de decodificación, que es ventajosamente la misma operación de decodificación llevada a cabo en el lado del decodificador. Por lo tanto, la primera información conjunta de múltiples canales, que se puede derivar por el decodificador de audio después de la transmisión, se utiliza en el decodificador conjunto de múltiples canales del lado del codificador para la decodificación de la señal de mezcla descendente codificada. El procesador de diferencia 62 puede calcular la diferencia entre la señal conjunta de múltiples canales decodificada y la señal de múltiples canales original, 4. La señal residual de múltiples canales codificada 58 puede mejorar la calidad de decodificación del decodificador de audio, ya que la diferencia entre la señal decodificada y la señal original debido a, por ejemplo, la codificación paramétrica, se puede reducir por el conocimiento de la diferencia entre estas dos señales. Esto permite que el primer codificador conjunto de múltiples canales funcione de tal manera que se derive la información de múltiples canales para un ancho de banda completo de la señal de audio de múltiples canales.
[0028] Por otra parte, la señal de mezcla descendente 14 puede comprender una banda baja y una banda alta, en la que el codificador de dominio de predicción lineal 6 está configurado para aplicar un procesamiento de extensión de ancho de banda por el uso de, por ejemplo, el procesador de extensión de ancho de banda de dominio de tiempo 36 para la codificación paramétrica de la banda alta, en la que el decodificador de dominio de predicción lineal 6 está configurado para obtener, como la señal de mezcla descendente codificada y decodificada 54, solamente una señal de banda baja que representa la banda baja de la señal de mezcla descendente 14, y en la que la señal residual de múltiples canales codificada solamente tiene frecuencias dentro de la banda baja de la señal de múltiples canales antes de la mezcla descendente. En otras palabras, el procesador de extensión de ancho de banda puede calcular los parámetros de extensión de ancho de banda para las bandas de frecuencia más altas que una frecuencia de corte, en el que el procesador de ACELP codifica las frecuencias por debajo de la frecuencia de corte. Por lo tanto, el decodificador está configurado para reconstruir las frecuencias más altas con base en la señal de banda baja codificada y los parámetros de ancho de banda 38.
[0029] Según otras realizaciones, el codificador residual de múltiples canales 56 puede calcular una señal lateral y en el que la señal de mezcla descendente es una señal intermedia correspondiente de una señal de audio de múltiples canales I/L. Por lo tanto, el codificador residual de múltiples canales puede calcular y codificar una diferencia de una señal de banda calculada, que se puede calcular a partir de la representación espectral de banda completa de la señal de audio de múltiples canales obtenida por el banco de filtros 82, y una señal lateral predicha de un múltiplo de la señal de mezcla descendente codificada y decodificada 54, en la que el múltiplo puede ser representado por medio de una información de predicción que se convierte en parte de la información de múltiples canales. Sin embargo, la señal de mezcla descendente comprende únicamente la señal de banda baja. Por lo tanto, el codificador residual puede calcular además una señal residual (o lateral) para la banda alta. Esto se puede llevar a cabo, por ejemplo, por medio de la extensión de ancho de banda de dominio de tiempo de simulación, de acuerdo con lo realizado en el codificador de núcleo de dominio de predicción lineal, o por medio de la predicción de la señal lateral como una diferencia entre la señal lateral (de banda completa) calculada y la señal intermedia (de banda completa) calculada, en la que un factor de predicción está configurado para minimizar la diferencia entre ambas señales.
[0030] La Fig. 3 muestra un diagrama de bloques esquemático del codificador de dominio de frecuencia 8 según una realización. El codificador de dominio de frecuencia comprende un segundo convertidor de tiempofrecuencia 66, un segundo generador de parámetros 68 y un segundo codificador del cuantificador 70. El segundo convertidor de tiempo-frecuencia 66 puede convertir un primer canal 4a de la señal de múltiples canales y un segundo canal 4b de la señal de múltiples canales en una representación espectral 72a, 72b. La representación espectral del primer canal y el segundo canal 72a, 72b se puede analizar y d iv id ir cada una en un primer conjunto de bandas 74 y un segundo conjunto de bandas 76. Por lo tanto, el segundo generador de parámetros 68 puede generar una segunda representación paramétrica 78 del segundo conjunto de bandas 76, en el que el segundo codificador del cuantificador puede generar una representación cuantificada y codificada 80 del primer conjunto de bandas 74. El codificador de dominio de frecuencia, o de forma más específica, el segundo convertidor de tiempo-frecuencia 66 puede llevar a cabo, por ejemplo, una operación de MDCT para el primer canal 4a y el segundo canal 4b, en el que el segundo generador de parámetros 68 puede llevar a cabo un algoritmo inteligente de relleno de espacios y el segundo codificador del cuantificador 70 puede llevar a cabo, por ejemplo una operación de AAC. Por lo tanto, de acuerdo con lo ya descrito con respecto a los codificadores de predicción lineal de dominio, el codificador de dominio de frecuencia también es capaz de funcionar de tal manera que se derive la información de múltiples canales para un ancho de banda completo de la señal de audio de múltiples canales.
[0031] La Fig. 4 muestra un diagrama de bloques esquemático del codificador de audio 2 según una realización preferida. La trayectoria LPD 16 consiste en una codificación conjunto estéreo o de múltiples canales que contiene un cálculo de mezcla descendente "DMX activo o pasivo" 12, que indica que la mezcla descendente LPD puede estar activa ("frecuencia selectiva") o pasiva ("factores de mezcla constantes") de acuerdo con lo mostrado en la Fig. 5. La mezcla descendente se codifica de forma adicional por un núcleo conmutable mono ACELP/TCX que es compatible con cualquiera de los dos módulos de IGF-TD o BWE. Se debe tener en cuenta que el ACELP opera en los datos de entrada de audio submuestreados 34. Cualquier ACELP de inicialización debido a la conmutación se puede llevar a cabo en la salida TCX/IGF muestreada de manera descendente.
[0032] Dado que ACELP no contiene ninguna descomposición de tiempo-frecuencia interna, la codificación estéreo de LPD añade un banco de filtros modulado complejo adicional por medio de un banco de filtros de análisis 82 antes de la codificación de LP y un banco de filtros de síntesis después de la decodificación de LPD. En la realización preferida, se emplea un DFT de sobremuestreo con una región de solapamiento baja. Sin embargo, en otras realizaciones, se puede utilizar cualquier descomposición de tiempo-frecuencia sobremuestreada con resolución temporal similar. Los parámetros estéreo se pueden computar entonces en el dominio de frecuencia.
[0033] La codificación estéreo paramétrica se lleva a cabo por el bloque "de codificación de parámetros estéreo LPD" 18 que da salida a los parámetros LPD estéreos 20 a la corriente de bits. De manera opcional, el siguiente bloque de "codificación residual de LPD estéreo" añade una mezcla descendente residual de paso bajo cuantificada por vectores 58 a la corriente de bits.
[0034] La trayectoria FD 8 está configurada para tener su propia codificación conjunta estéreo interna o de múltiples canales. Para la codificación estéreo conjunta, vuelve a utilizar su propio banco de filtros muestreado de forma crítica y de valores reales 66, a saber, por ejemplo, la MDCT.
[0035] Las señales proporcionadas al decodificador pueden ser, por ejemplo, multiplexadas a una única corriente de bits. La corriente de bits puede comprender la señal de mezcla descendente codificada 26 que puede comprender además al menos una de la banda extendida de ancho de banda de dominio de tiempo paramétricamente codificado 38, la señal de mezcla descendente muestreada de manera descendente procesada por ACELP 52, la primera información de múltiples canales 20, la señal residual de múltiples canales codificada 58, la primera representación paramétrica de un primer conjunto de bandas 46, el primer conjunto de líneas espectrales codificadas y cuantificadas para un segundo conjunto de bandas 48, y la segunda información de múltiples canales 24, que comprende la representación cuantificada y codificada del primer conjunto de bandas 80 y la segunda representación paramétrica del primer conjunto de bandas 78.
[0036] Las realizaciones muestran un procedimiento mejorado para la combinación de un códec de núcleo conmutable, la codificación conjunta de múltiples canales y la codificación de audio espacial paramétrica en un códec de percepción totalmente conmutable que permite el uso de diferentes técnicas de codificación de múltiples canales dependiendo de la elección del codificador de núcleo. En concreto, dentro de un codificador de audio conmutable, la codificación estéreo de dominios de frecuencia nativos se combina con la codificación predictiva lineal basada en ACELP/TCX que tiene su propia codificación estéreo paramétrica independiente dedicada.
[0037] Las Figs. 5a y Fig. 5b muestran un mezclador descendente activo y uno pasivo, respectivamente, según las realizaciones. El mezclador descendente activo opera en el dominio de frecuencia por el uso de, por ejemplo, un convertidor de frecuencia de tiempo 82 para la transformación de la señal de dominio de tiempo 4 en una señal de dominio de frecuencia. Después de la mezcla descendente, una conversión de frecuenciatiempo, por ejemplo un IDFT, puede convertir la señal de mezcla descendente desde el dominio de frecuencia en la señal de mezcla descendente 14 en el dominio de tiempo.
[0038] La Fig. 5b muestra un mezclador descendente pasivo 12, según una realización. El mezclador descendente pasivo 12 comprende un sumador, en el que el primer canal 4a y el primer canal 4b se combinan después de la ponderación por el uso de un peso a 84a y un peso b 84b, respectivamente. Por otra parte, el primer canal 4a y el segundo canal 4b se pueden introducir en el convertidor de tiempo-frecuencia 82 antes de la transmisión a la codificación paramétrica estéreo LPD.
[0039] En otras palabras, el mezclador descendente está configurado para convertir la señal de múltiples canales en una representación espectral y en el que la mezcla descendente se lleva a cabo por el uso de la representación espectral o por el uso de una representación de dominio de tiempo, y en el que el primer codificador de múltiples canales está configurado para utilizar la representación espectral para generar primera información de múltiples canales independiente para las bandas individuales de la representación espectral.
[0040] La Fig. 6 muestra un diagrama de bloques esquemático de un decodificador de audio 102 para la decodificación de una señal de audio codificada 103 según una realización. El decodificador de audio 102 comprende un decodificador de dominio de predicción lineal 104, un decodificador de dominio de frecuencia 106, un primer decodificador conjunto de múltiples canales 108, un segundo decodificador de múltiples canales 110, y un primer combinador 112. La señal de audio codificada 103, que puede ser la corriente de bits multiplexada de las porciones del codificador descritas con anterioridad, tales como, por ejemplo, tramas de la señal de audio, puede ser decodificadas por el decodificador conjunto de múltiples canales 108 por el uso de la primera información de múltiples canales 20 o, por el decodificador de dominio de frecuencia 106 y decodificada de múltiples canales por el segundo decodificador conjunto de múltiples canales 110 por el uso de la segunda información de múltiples canales 24. El primer decodificador conjunto de múltiples canales puede dar salida a una primera representación 114 y la salida del segundo decodificador conjunto de múltiples canales 110 de múltiples canales puede ser una segunda representación de múltiples canales 116.
[0041] En otras palabras, el primer decodificador conjunto de múltiples canales 108 genera una primera representación de múltiples canales 114 por el uso de una salida del codificador de dominio de predicción lineal y por el uso de una primera información de múltiples canales 20. El segundo decodificador de múltiples canales 110 genera una segunda representación de múltiples canales 116 por el uso de una salida de decodificador de dominio de frecuencia y una segunda información de múltiples canales 24. Además, el primer combinador combina la primera representación de múltiples canales 114 y la segunda representación de múltiples canales 116, por ejemplo basada en tramas, para obtener una señal de audio decodificada 118. Por otra parte, el primer decodificador conjunto de múltiples canales 108 puede ser un decodificador de múltiples canales paramétrico conjunto, por ejemplo por el uso de una predicción compleja, una operación estéreo paramétrica o una operación de rotación. El segundo decodificador conjunto de múltiples canales 110 puede ser un decodificador conjunto de múltiples canales de preservación de formas de onda por el uso de, por ejemplo, un conmutador selectivo por banda al algoritmo de decodificación estéreo intermedia/lateral o izquierdo/derecho.
[0042] La Fig. 7 muestra un diagrama de bloques esquemático de un decodificador 102 según una realización adicional. En esta invención, un decodificador de dominio de predicción lineal 102 comprende un decodificador de ACELP 120, un sintetizador de banda baja 122, un interpolador 124, un procesador de extensión de ancho de banda de dominio de tiempo 126, o un segundo combinador 128 para la combinación de una señal de muestreo superior y una señal extendida por ancho de banda. Además, el decodificador de dominio de predicción lineal puede comprender un decodificador de TCX 132 y un procesador inteligente de relleno de espacios 132, que se representa como un bloque en la Fig. 7. Por otra parte, el decodificador de dominio de predicción lineal 102 puede comprender un procesador de síntesis de banda completa 134 para la combinación de una salida del segundo combinador 128 y el decodificador de TCX 130 y el procesador de IGF 132. De acuerdo con lo ya mostrado con respecto al codificador, el procesador de extensión de ancho de banda de dominio de tiempo 126, el decodificador de ACELP 120, y el decodificador de TCX 130 trabajan en paralelo para decodificar la información de audio transmitida respectiva.
[0043] Una trayectoria transversal 136 se puede proporcionar para la inicialización del sintetizador de banda baja por el uso de la información derivada de un espectro de tiempo de conversión de banda baja, por el uso de, por ejemplo, el convertidor de frecuencia-tiempo138 desde el decodificador de TCX 130 y el procesador de IGF 132. Con referencia a un modelo del tracto vocal, los datos de ACELP pueden modelar la forma del tracto vocal, en el que los datos de TCX pueden modelar una excitación del tracto vocal. La trayectoria transversal 136 representada por un convertidor de frecuencia-tiempo de banda baja, tal como por ejemplo un decodificador de IMDCT, permite que el sintetizador de banda baja 122 utilice la forma del tracto vocal y la presente excitación vuelva a calcular o decodificar la señal de banda baja codificada. Por otra parte, la banda baja sintetizada se sobremuestrea por medio del sobremuestreador 124 y se combina, por ejemplo, por el uso del segundo combinador 128, con las bandas altas extendidas por ancho de banda de dominio de tiempo 140 para, por ejemplo, cambiar la forma de las frecuencias sobremuestreadas para recuperar, por ejemplo, una energía de cada banda sobremuestreada.
[0044] El sintetizador de banda completa 134 puede utilizar la señal de banda completa del segundo combinador 128 y la excitación TCX del procesador 130 para formar una señal de mezcla descendente decodificada 142. El primer decodificador conjunto de múltiples canales 108 puede comprender un convertidor de tiempo-frecuencia 144 para la conversión de la salida del decodificador de dominio de predicción lineal, por ejemplo, la señal de mezcla descendente decodificada 142, en una representación espectral 145. Además, un mezclador ascendente, por ejemplo, implementado en un decodificador estéreo 146, puede ser controlado por la primera información de múltiples canales 20 para mezclar de forma ascendente la representación espectral en una señal de múltiples canales. Por otra parte, un convertidor de frecuencia-tiempo 148 puede convertir el resultado de mezcla ascendente en una representación de tiempo 114. El convertidor de tiempo-frecuencia y/o de frecuencia-tiempo puede comprender una operación compleja o una operación sobremuestreada, tal como, por ejemplo, una DFT o una IDFT.
[0045] Además, el primer decodificador conjunto de múltiples canales, o de forma más específica, el decodificador estéreo 146 puede utilizar la señal residual de múltiples canales 58, por ejemplo proporcionada por la señal de audio codificada de múltiples canales 103, para la generación de la primera representación de múltiples canales. Además, la señal residual de múltiples canales puede comprender un ancho de banda menor que la primera representación de múltiples canales, en el que el primer decodificador conjunto de múltiples canales está configurado para reconstruir una primera representación intermedia de múltiples canales por el uso de la primera información de múltiples canales y añadir la señal residual de múltiples canales a la primera representación intermedia de múltiples canales. En otras palabras, el decodificador estéreo 146 puede comprender una decodificación de múltiples canales por el uso de la primera información de múltiples canales y, de manera opcional, una mejora de la señal de múltiples canales reconstruida por medio de la adición de la señal residual de múltiples canales a la señal de múltiples canales reconstruida, después de que la representación espectral de la señal de mezcla descendente decodificada se haya mezclado de forma ascendente en una señal de múltiples canales. Por lo tanto, la primera información de múltiples canales y la señal residual ya pueden operar en una señal de múltiples canales.
[0046] El segundo decodificador conjunto de múltiples canales 110 puede utilizar, como una entrada, una representación espectral obtenida por el decodificador de dominio de frecuencia. La representación espectral comprende, al menos para una pluralidad de bandas, una primera señal del canal 150a y una segunda señal del canal 150b. Por otra parte, el segundo procesador conjunto de múltiples canales 110 se puede aplicar a la pluralidad de bandas de la primera señal del canal 150a y la segunda señal del canal 150b. Una operación conjunta de múltiples canales, tales como, por ejemplo, una máscara que indica, para las bandas individuales, una codificación conjunta de múltiples canales izquierda/derecha o intermedia/lateral, y en la que la operación conjunta de múltiples canales es una operación de conversión intermedia/lateral o izquierda/derecha para la conversión de las bandas indicadas por la máscara de una representación intermedia/lateral a una representación izquierda/derecha, que es una conversión del resultado de la operación conjunta de múltiples canales en una representación de tiempo para obtener la segunda representación de múltiples canales. Por otra parte, el decodificador de dominio de frecuencia puede comprender un convertidor de frecuencia-tiempo 152 que es, por ejemplo, una operación de IMDCT o una operación muestreada en particular. En otras palabras, la máscara puede comprender marcadores que indican por ejemplo, la codificación estéreo I/D o I/L, en la que el segundo codificador conjunto de múltiples canales aplica el algoritmo de codificación estéreo correspondiente a las respectivas tramas de audio. De manera opcional, se puede aplicar un algoritmo inteligente de relleno de espacios a las señales de audio codificadas para reducir aún más el ancho de banda de la señal de audio codificada. Por lo tanto, por ejemplo, las bandas de frecuencias tonales se pueden codificar en una alta resolución por el uso de los algoritmos de codificación estéreo mencionados con anterioridad en los que otras bandas de frecuencia se pueden codificar paramétricamente por el uso de, por ejemplo, un algoritmo de IGF.
[0047] En otras palabras, en la trayectoria de LPD 104, la señal mono transmitida es reconstruida por el decodificador 120/130 ACELP/TCX conmutable compatible, por ejemplo, con TD-BWE 126 o los módulos 132. Cualquier inicialización de ACELP a raíz de la conmutación de IGF se lleva a cabo en la salida de TCX/IGF muestreada de manera descendente. La salida del ACELP se sobremuestrea, por el uso de, por ejemplo, del muestreador superior 124, a una velocidad de muestreo completo. Todas las señales se mezclan, por ejemplo, por el uso del mezclador 128, en el dominio de tiempo a una alta velocidad de muestreo y son procesados posteriormente por el decodificador estéreo LPD 146 para proporcionar un estéreo de LPD.
[0048] La "decodificación estéreo" de LPD consiste en una mezcla ascendente de la mezcla descendente transmitida dirigida por la aplicación de los parámetros estéreo transmitidos 20. De manera opcional, también una mezcla descendente residual 58 está contenida en la corriente de bits. En este caso, se decodifica el residual y se incluye en el cálculo de la mezcla ascendente por medio de la "Decodificación Estéreo" 146.
[0049] La trayectoria FD 106 está configurada para tener su propia decodificación estéreo conjunta interna independiente o de múltiples canales. Para la decodificación estéreo conjunta vuelve a utilizar su propio banco de filtros muestreado de forma crítica y de valores reales 152, por ejemplo, a saber, el IMDCT.
[0050] La salida estéreo de LPD y la salida estéreo de FD se mezclan en el dominio de tiempo, por el uso de, por ejemplo, el primer combinador 112 para proporcionar la salida final 118 del codificador totalmente conmutado.
[0051] Aunque los múltiples canales se describen con respecto a una decodificación estéreo en las figuras relacionadas, el mismo principio también se puede aplicar con el procesamiento de múltiples canales con dos o más canales en general.
[0052] La Fig. 8 muestra un diagrama de bloques esquemático de un procedimiento 800 para la codificación de una señal de múltiples canales. El procedimiento 800 comprende una etapa 805 de la realización de una codificación de dominio de predicción lineal, una etapa 810 de la realización de una codificación de dominio de frecuencia, una etapa 815 de la conmutación entre la codificación de dominio de predicción lineal y la codificación de dominio de frecuencia, en el que la codificación de dominio de predicción lineal comprende la mezcla descendente de la señal de múltiples canales para obtener una señal de mezcla descendente, un núcleo de dominio de predicción lineal que codifica la señal de mezcla descendente y una primera codificación conjunta de múltiples canales que genera la primera información de múltiples canales desde la señal de múltiples canales, en el que la codificación de dominio de frecuencia comprende una segunda codificación conjunta de múltiples canales que genera una segunda información de múltiples canales a partir de la señal de múltiples canales, en el que la segunda codificación conjunta de múltiples canales es diferente de la primera codificación de múltiples canales, y en el que la conmutación se lleva a cabo de tal manera que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada de la codificación de dominio de predicción lineal o por medio de una trama codificada de la codificación de dominio de frecuencia.
[0053] La Fig. 9 muestra un diagrama de bloques esquemático de un procedimiento 900 de la decodificación de una señal de audio codificada. El procedimiento 900 comprende una etapa 905 de una decodificación de dominio de predicción lineal, una etapa 910 de una decodificación de dominio de frecuencia, una etapa 915 de la primera decodificación conjunta de múltiples canales que genera una primera representación de múltiples canales por el uso de una salida de la decodificación de dominio de predicción lineal y por el uso de una primera información de múltiples canales, una etapa 920 de una segunda decodificación de múltiples canales que genera una segunda representación de múltiples canales por el uso de una salida de la decodificación de dominio de frecuencia y una segunda información de múltiples canales, y una etapa 925 de la combinación de la primera representación de múltiples canales y la segunda representación de múltiples canales para obtener una señal de audio decodificada, en el que la segunda decodificación de información de múltiples canales es diferente de la primera decodificación de múltiples canales.
[0054] La Fig. 10 muestra un diagrama de bloques esquemático de un codificador de audio para la codificación de una señal de múltiples canales según un aspecto adicional. El codificador de audio 2' comprende un codificador de dominio de predicción lineal 6 y un codificador residual de múltiples canales 56. El codificador de dominio de predicción lineal comprende un mezclador descendente 12 para la mezcla descendente de la señal de múltiples canales 4 para obtener una señal de mezcla descendente 14, un codificador de núcleo de dominio de predicción lineal 16 para la codificación de la señal de mezcla descendente 14. El codificador de dominio de predicción lineal 6 comprende además un codificador conjunto de múltiples canales 18 para la generación de información de múltiples canales 20 de la señal de múltiples canales 4. Por otra parte, el codificador de dominio de predicción lineal comprende un decodificador de dominio de predicción lineal 50 para la decodificación de la señal de mezcla descendente codificada 26 para obtener una señal de mezcla descendente codificada y decodificada 54. El codificador de múltiples canales residuales 56 puede calcular y codificar la señal residual de múltiples canales por el uso de la señal de mezcla descendente codificada y decodificada 54. La señal residual de múltiples canales puede representar un error entre una representación de múltiples canales decodificada 54 por el uso de la información de múltiples canales 20 y la señal de múltiples canales 4 antes de la mezcla descendente.
[0055] Según una realización, la señal de mezcla descendente 14 comprende una banda baja y una banda alta, en la que el codificador de dominio de predicción lineal puede utilizar un procesador de extensión de ancho de banda para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta, en la que el decodificador de dominio de predicción lineal está configurado para obtener, como la señal de mezcla descendente codificada y decodificada 54, solamente una señal de banda baja que representa la banda baja de la señal de mezcla descendente, y en la que la señal residual de múltiples canales codificada tiene solamente una banda correspondiente a la banda baja de la señal de múltiples canales antes de la mezcla descendente. Por otra parte, se puede aplicar la misma descripción con respecto al codificador de audio 2 al codificador de audio 2'. Sin embargo, se omite la codificación de frecuencia adicional del codificador 2. Esto simplifica la configuración del codificador y por lo tanto es ventajoso, si el codificador se utiliza simplemente para señales de audio que se limita a comprender señales, que pueden ser codificadas paramétricamente en el dominio de tiempo sin pérdida notable de calidad, o cuando la calidad de la señal de audio decodificada todavía está dentro de la memoria descriptiva. Sin embargo, una codificación estéreo residual dedicada es ventajosa para aumentar la calidad de reproducción de la señal de audio decodificada. De manera más específica, la diferencia entre la señal de audio antes de la codificación y la señal de audio codificada y decodificada se deriva y se transmite al decodificador para aumentar la calidad de reproducción de la señal de audio decodificada, dado que la diferencia entre la señal de audio decodificada y la señal de audio codificada es conocida por el decodificador.
[0056] La Fig. 11 muestra un decodificador de audio 102' para la decodificación de una señal de audio codificada 103 según un aspecto adicional. El decodificador de audio 102' comprende un decodificador de dominio de predicción lineal 104, y el decodificador conjunto de múltiples canales 108 para la generación de una representación de múltiples canales 114 por el uso de una salida del decodificador de dominio de predicción lineal 104 y una información conjunta de múltiples canales 20. Además, la señal de audio codificada 103 puede comprender una señal residual de múltiples canales 58, que puede ser utilizada por el decodificador de múltiples canales para la generación de la representación de múltiples canales 114. Por otra parte, las mismas explicaciones relacionadas con el decodificador de audio 102 se pueden aplicar al decodificador de audio 102'. En esta invención, la señal residual de la señal de audio original a la señal de audio decodificada se utiliza y se aplica a la señal de audio decodificada para al menos casi alcanzar la misma calidad de la señal de audio decodificada en comparación con la señal de audio original, a pesar de que se utiliza la codificación paramétrica y, por lo tanto, con pérdidas. Sin embargo, la parte de decodificación de frecuencia que se muestra con respecto al decodificador de audio 102 se omite en el decodificador de audio 102'.
[0057] La Fig. 12 muestra un diagrama de bloques esquemático de un procedimiento para la codificación de audio 1200 para la codificación de una señal de múltiples canales. El procedimiento 1200 comprende una etapa 1205 de codificación de dominio de predicción lineal que comprende la mezcla descendente de la señal de múltiples canales para obtener una señal de múltiples canales mezclada de forma descendente, y un codificador de núcleo de dominio de predicción lineal que genera información de múltiples canales a partir de la señal de múltiples canales, en la que el procedimiento comprende además el dominio de predicción lineal que decodifica la señal de mezcla descendente para obtener una señal de mezcla descendente codificada y decodificada, y una etapa 1210 de codificación residual de múltiples canales que calcula una señal residual de múltiples canales codificada por el uso de señal de mezcla descendente codificada y decodificada, la señal residual de múltiples canales representa un error entre una representación de múltiples canales decodificada por el uso de la primera información de múltiples canales y la señal de múltiples canales antes de la mezcla descendente.
[0058] La Fig. 13 muestra un diagrama de bloques esquemático de un procedimiento 1300 para la decodificación de una señal de audio codificada. El procedimiento 1300 comprende una etapa 1305 de una decodificación de dominio de predicción lineal y una etapa 1310 de una decodificación conjunta de múltiples canales que genera una representación de múltiples canales por el uso de una salida de la decodificación de dominio de predicción lineal y una información conjunta de múltiples canales, en la que la señal de audio de múltiples canales codificada comprende una señal residual del canal, en la que la decodificación conjunta de múltiples canales utiliza la señal residual de múltiples canales para la generación de la representación de múltiples canales.
[0059] Las realizaciones descritas pueden encontrar uso en la distribución de difusión de todos los tipos de contenido de audio estéreo o de múltiples canales (voz y música por igual con calidad de percepción constante a una baja tasa de bits dada) tal como, por ejemplo, con radio digital, transmisión por Internet y aplicaciones de comunicación de audio.
[0060] Las Figs. 14 a 17 describen realizaciones de cómo aplicar la conmutación sin problemas propuesta entre la codificación de LPD y la codificación de dominio de frecuencia y viceversa. Por lo general, la formación de ventanas o procesamiento anteriores se indican por el uso de líneas finas, las líneas gruesas indican la form ación de ventanas o procesamiento actuales, donde se aplica la conmutación y las líneas discontinuas indican un procesamiento actual que se lleva a cabo exclusivamente para la transición o la conmutación. Una conmutación o una transición de codificación de LPD a la codificación de frecuencia.
[0061] La Fig. 14 muestra un diagrama de temporización esquemático que indica una realización para la conmutación sin problemas entre la codificación de dominio de frecuencia a la codificación de dominio de tiempo. Esto puede ser relevante, por ejemplo, si el controlador 10 indica que una trama actual está mejor codificada por el uso de la codificación de LPD en lugar de la codificación FD utilizada para la trama anterior. Durante la codificación de dominio de frecuencia una ventana de parada 200a y 200b se puede aplicar para cada señal estéreo (que de manera opcional se puede extender a más de dos canales). La ventana de parada se diferencia de la MDCT estándar de fundido de solapamiento y adición al principio 202 de la primera trama 204. La parte izquierda de la ventana de parada puede ser el clásico solapamiento y adición para la codificación de la trama anterior por el uso de, por ejemplo, una transformada MDCT de tiempo-frecuencia. Por lo tanto, la trama antes de la conmutación está todavía correctamente codificada. Para la trama actual 204, donde se aplica la conmutación, se calculan los parámetros estéreo adicionales, a pesar de que se calcula una primera representación paramétrica de la señal intermedia para la codificación de dominio de tiempo para la trama siguiente 206. Estos dos análisis estéreo adicionales se hacen para ser capaz de generar la señal intermedia 208 para la búsqueda hacia delante de LPD. Aunque, los parámetros estéreo se transmiten (de manera adicional) para las dos primeras ventanas estéreo de LPD. En el caso normal, los parámetros estéreo se envían con dos tramas estéreo de LPD de retraso. Para la actualización de las memorias de ACELP tal como para el análisis de LPC o la cancelación de alias directa (FAC, por su sigla en inglés), también se pone a disposición la señal intermedia para el pasado. Por lo tanto, las ventanas estéreo de LPD 210a a d de una primera señal estéreo y 212a a d para una segunda señal estéreo se puede aplicar en el banco de filtros de análisis 82, por ejemplo, antes de aplicar una conversión de tiempo-frecuencia por el uso de una DFT. La señal intermedia puede comprender una rampa típica de fundido cuando utiliza la codificación de TCX, lo que da lugar a la ventana de análisis LPD representativa 214. Si se utiliza ACELP para la codificación de la señal de audio, tal como la señal mono de banda baja, simplemente se escoge un número de bandas de frecuencia sobre el cual se aplica el análisis de LPC, indicado por la ventana de análisis de LPD rectangular 216.
[0062] Además, el momento indicado por la línea vertical 218 muestra que la trama actual donde se aplica la transición, comprende información de las ventanas de análisis de dominio de frecuencia 200a, 200b y la señal intermedia computada 208 y la información estéreo correspondiente. Durante la parte horizontal de la ventana de análisis de frecuencia entre las líneas 202 y 218, la trama 204 está perfectamente codificada por el uso de la codificación de dominio de frecuencia. Desde la línea 218 hasta el final de la ventana de análisis de frecuencia en la línea 220, la trama 204 comprende información de ambos, la codificación de dominio de frecuencia y la codificación de LPD y desde la línea 220 hasta el final de la trama 204 en la línea vertical 222, sólo la codificación de LPD contribuye a la codificación de la trama. Además, se presta atención a la parte intermedia de la codificación, dado que la primera y la última (tercera) parte se derivan simplemente de una técnica de codificación sin tener aliasing (solapamiento). Para la parte intermedia, sin embargo, se debe diferenciar entre la codificación de señal mono de ACELP y TCX. Dado que la codificación de TCX utiliza un fundido transversal de acuerdo con lo ya aplicado con la codificación de dominio de frecuencia, un fundido sencillo de la señal de frecuencia codificada y un fundido de la señal intermedia codificada por TCX proporcionan información completa para la codificación de la trama actual 204. Si se utiliza ACELP para la codificación de señales mono, se puede aplicar un procesamiento más sofisticado, ya que el área 224 puede no comprender la información completa para la codificación de la señal de audio. Un procedimiento propuesto es la corrección de aliasing directa (fAc ), por ejemplo, que se describe en las especificaciones de la USAC en la sección 7.16.
[0063] Según una realización, el controlador 10 está configurado para conmutar dentro de una trama actual 204 de una señal de audio de múltiples canales de utilizar el codificador de dominio de frecuencia 8 para la codificación de una trama anterior en el codificador de dominio de predicción lineal para la decodificación de una trama próxima. El primer codificador conjunto de múltiples canales 18 puede calcular parámetros de múltiples canales sintéticos 210a, 210b, 212a, 212b de la señal de audio de múltiples canales para la trama actual, en el que el segundo codificador conjunto de múltiples canales 22 está configurado para ponderar la segunda señal de múltiples canales por el uso de una ventana de parada.
[0064] La Fig. 15 muestra un diagrama de temporización esquemático de un decodificador correspondiente a las operaciones del codificador de la Fig. 14. En esta invención, la reconstrucción de la trama actual 204 se describe según una realización. De acuerdo con lo que ya se ha observado en el diagrama de tiempos del codificador de la Fig. 14, los canales estéreo de dominio de frecuencia se proporcionan desde la trama anterior que tiene aplicadas las ventanas de parada 200a y 200b. Las transiciones del modo de FD a LPD se llevan a cabo por primera vez en la señal intermedia decodificada como en el caso de mono. Esto se logra por medio de la creación artificial de una señal intermedia 226 de la señal de dominio de tiempo 116 decodificada en el modo de FD, donde ccfl es la longitud de la trama del código de núcleo y L_fac denota una longitud de la ventana de cancelación de aliasing de frecuencia o trama o bloque o transformada.
Figure imgf000012_0001
[0065] Esta señal se transporta entonces al decodificador LPD 120 para la actualización de las memorias y la aplicación de la decodificación de FAC de acuerdo con lo realizado en el caso mono para las transiciones de modo de FD a ACELP. El procesamiento se describe en las especificaciones de la USAC [ISO/IEC DIS 23003-3, Usac] en la sección 7.16. En el caso del modo FD a TCX, se lleva a cabo un solapamiento-adición convencional. El decodificador estéreo de LPD 146 recibe como señal de entrada una señal intermedia decodificada (en el dominio de frecuencia después de que se aplica la conversión de tiempo-frecuencia del convertidor de tiempo-frecuencia 144), por ejemplo, por medio de la aplicación de los parámetros estéreo transmitidos 210 y 212 para el procesamiento estéreo, donde la transición ya está hecha. El decodificador estéreo da salida entonces a una señal del canal izquierdo y derecho 228, 230 que superpone la trama anterior decodificada en el modo de FD. Las señales, a saber, la señal de dominio de tiempo decodificada por FD y la señal de dominio de tiempo decodificada por LPD para la trama donde se aplica la transición, se funden de forma transversal (en el combinador 112) en cada canal para suavizar la transición en los canales izquierdo y derecho:
Figure imgf000012_0002
Figure imgf000013_0002
[0066] En la Fig. 15, la transición se ilustra de forma esquemática por medio de M = ccfl/2. Por otra parte, el combinador puede llevar a cabo un fundido transversal en tramas consecutivas que se decodifican por el uso de sólo decodificación de FD o LPD sin una transición entre estos modos.
[0067] En otras palabras, el proceso de solapamiento y adición de la decodificación de FD, en especial cuando se utiliza un MDCT/IMDCT para la conversión de tiempo-frecuencia/frecuencia-tiempo, se sustituye por un fundido transversal de la señal de audio decodificada por FD y la señal de audio decodificada por LPD. Por lo tanto, el decodificador debe calcular una señal de LPD para la parte de fundido de salida de la señal de audio decodificada por FD para fundir la señal de audio decodificada por l Pd . Según una realización, el decodificador de audio 102 está configurado para conmutar dentro de una trama actual 204 de una señal de audio de múltiples canales de utilizar el decodificador de dominio de frecuencia 106 para la decodificación de una trama previa al decodificador de dominio de predicción lineal 104 para la decodificación de una trama próxima. El combinador 112 puede calcular una señal intermedia sintética 226 de la segunda representación de múltiples canales 116 de la trama actual. El primer decodificador conjunto de múltiples canales 108 puede generar la primera representación de múltiples canales 114 por el uso de la señal intermedia sintética 226 y una primera información de múltiples canales 20. Además, el combinador 112 está configurado para la combinación de la primera representación de múltiples canales y la segunda representación de múltiples canales para obtener una trama actual decodificada de la señal de audio de múltiples canales.
[0068] La Fig. 16 muestra un diagrama de temporización esquemático en el codificador para llevar a cabo una transición del uso de la codificación de LPD al uso de la decodificación de FD en una trama actual 232. Para cambiar de codificación de LPD a FD, una ventana de inicio 300a, 300b se puede aplicar en la codificación de múltiples canales FD. La ventana de inicio tiene una funcionalidad similar con respecto a la ventana de parada 200a, 200b. Durante el fundido de salida de la señal mono codificada por TCX del codificador de LPD entre las líneas verticales 234 y 236, la ventana de inicio 300a, 300b lleva a cabo un fundido de entrada. Cuando se utiliza ACELP en lugar de TCX, la señal mono no lleva a cabo un fundido de salida suave. No obstante, la señal de audio correcta se puede reconstruir en el decodificador por el uso de, por ejemplo, FAC. Las ventanas estéreo LPD 238 y 240 se calculan de forma predeterminada y se refieren a la señal mono codificada por ACELP o TCX, indicada por las ventanas de análisis LPD 241.
[0069] La Fig. 17 muestra un diagrama de temporización esquemático en el decodificador correspondiente al diagrama de tiempos del codificador descrito con respecto a la Fig. 16.
[0070] Para la transición del modo de LPD al modo de FD, una trama adicional se decodifica por un decodificador estéreo 146. La señal intermedia procedente del decodificador del modo LPD se amplía con cero para el índice de la trama i = ccfl/M.
Figure imgf000013_0001
[0071] La decodificación estéreo de acuerdo con lo descrito con anterioridad se puede llevar a cabo al tomar los últimos parámetros estéreo, y por medio de la desconexión de la cuantificación inversa de la señal lateral, es decir code_mode se establece en 0. Por otra parte, la ventana del lado derecho después de la DFT inversa no se aplica, lo que da lugar a un borde afilado 242a, 242b de la ventana estéreo de LPD adicional 244a, 244b. Se puede observar claramente, que el borde afilado se encuentra en el plano de sección 246a, 246b, donde toda la información de la parte correspondiente de la trama se puede derivar de la señal de audio codificada por FD. Por lo tanto, una ventana del lado derecho (sin el borde afilado) podría dar lugar a una intromisión no deseada de la información de LPD a la información de FD y por lo tanto no se aplica.
[0072] Los canales resultantes izquierdo y derecho (decodificados por LPD) 250a, 250b (por el uso de la señal intermedia decodificada por LPD indicada por ventanas de análisis LPD 248 y los parámetros estéreo) se combinan a continuación en los canales decodificados por modo FD de la siguiente trama por el uso de un procesamiento de solapamiento-adición en el caso del modo TCX a FD o por el uso de un FAC para cada canal en el caso del modo ACELP a FD. Una ilustración esquemática de las transiciones se representa en la Figura 17, donde M = ccfl/2.
[0073] Según realizaciones, el decodificador de audio 102 puede conmutar dentro de una trama actual 232 de una señal de audio de múltiples canales por el uso del decodificador de dominio de predicción lineal 104 para la decodificación de una trama previa al decodificador de dominio de frecuencia 106 para la decodificación de una trama próxima. El decodificador estéreo 146 puede calcular una señal de audio de múltiples canales sintética a partir de una señal mono decodificada del decodificador de dominio de predicción lineal para una trama actual por el uso de la información de múltiples canales de una trama previa, en la que el segundo decodificador conjunto de múltiples canales 110 puede calcular la segunda representación de múltiples canales para la trama actual y ponderar la segunda representación de múltiples canales por el uso de una ventana de inicio. El combinador 112 puede combinar la señal de audio de múltiples canales sintética y la segunda representación de múltiples canales ponderada para obtener una trama actual decodificada de la señal de audio de múltiples canales.
[0074] La Fig. 18 muestra un diagrama de bloques esquemático de un codificador 2'' para la codificación de una señal de múltiples canales 4. El codificador de audio 2'' comprende un mezclador descendente 12, un codificador de núcleo de dominio de predicción lineal 16, un banco de filtros 82, y un codificador conjunto de múltiples canales 18. El mezclador descendente 12 está configurado para la mezcla descendente de la señal de múltiples canales 4 para obtener una señal de mezcla descendente 14. La señal de mezcla descendente puede ser una señal mono, tal como por ejemplo, una señal intermedia de una señal de audio de múltiples canales I/L. El codificador de núcleo de dominio de predicción lineal 16 puede codificar la señal de mezcla descendente 14, en el que la señal de mezcla descendente 14 tiene una banda baja y una banda alta, en el que el codificador de núcleo de dominio de predicción lineal 16 está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta. Además, el banco de filtros 82 puede generar una representación espectral de la señal de múltiples canales 4 y el codificador conjunto de múltiples canales 18 puede estar configurado para procesar la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales para la generación de información de múltiples canales 20. La información de múltiples canales puede comprender parámetros de ILD y/o IPD y/o IID (Diferencia de Intensidad Interaural), lo que permite a un decodificador volver a calcular la señal de audio de múltiples canales a partir de la señal mono. Una figura más detallada de aspectos adicionales de realizaciones de acuerdo con este aspecto se puede encontrar en las figuras anteriores, especialmente en la Fig. 4.
[0075] Según realizaciones, el codificador de núcleo de dominio de predicción lineal 16 puede comprender, además, un decodificador de dominio de predicción lineal para la decodificación de la señal de mezcla descendente codificada 26 para obtener una señal de mezcla descendente codificada y decodificada 54. En esta invención, el codificador de núcleo de dominio de predicción lineal puede formar una señal intermedia de una señal de audio I/L que está codificada para la transmisión a un decodificador. Por otro lado, el codificador de audio comprende a d e m á s un codificador residual de múltiples canales 56 para calcular una señal residual de múltiples canales codificada 58 por el uso de la señal de mezcla descendente codificada y decodificada 54. La señal residual de múltiples canales representa un error entre una representación de múltiples canales decodificada por el uso de la información de múltiples canales 20 y la señal de múltiples canales 4 antes de la mezcla descendente. En otras palabras, la señal residual de múltiples canales 58 puede ser una señal de banda de la señal de audio I/L, correspondiente a la señal intermedia calculada por el uso del codificador de núcleo de dominio de predicción lineal.
[0076] Según otras realizaciones, el codificador de núcleo de dominio de predicción lineal 16 está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta y para obtener, como la señal de mezcla descendente codificada y decodificada, solamente una señal de banda baja que representa la banda baja de la señal de mezcla descendente, y en el que la señal residual de múltiples canales codificada 58 tiene solamente una banda correspondiente a la banda baja de la señal de múltiples canales antes de la mezcla descendente. De manera adicional o alternativa, el codificador residual de múltiples canales puede simular la extensión de ancho de banda de dominio de tiempo que se aplica sobre la banda alta de la señal de múltiples canales en el codificador de núcleo de dominio de predicción lineal y calcular una señal residual o de lado para la banda alta para permitir una decodificación más precisa de la señal mono o intermedia para derivar la señal de audio de múltiples canales decodificada. La simulación puede comprender el mismo o un cálculo similar, que se lleva a cabo en el decodificador para decodificar la banda alta extendida por ancho de banda. Una estrategia alternativa o adicional para la simulación de la extensión de ancho de banda puede ser una predicción de la señal lateral. Por lo tanto, el codificador residual de múltiples canales puede calcular una señal residual de banda completa de una representación paramétrica 83 de la señal de audio de múltiples canales 4 después de la conversión de tiempo-frecuencia en el banco de filtros 82. Esta señal lateral de banda completa se puede comparar con una representación de frecuencia de una señal intermedia de banda completa derivada del mismo modo de la representación paramétrica 83. La señal intermedia de banda completa se puede calcular, por ejemplo, como la suma del canal izquierdo y derecho de la representación paramétrica 83 y la señal lateral de banda completa como una diferencia de la misma. Además, la predicción puede por lo tanto calcular un factor de predicción de la señal intermedia de banda completa para minimizar una diferencia absoluta de la señal intermedia de banda completa y el producto del factor de predicción y la señal intermedia de banda completa.
[0077] En otras palabras, el codificador de dominio de predicción lineal puede estar configurado para calcular la señal de mezcla descendente 14 como una representación paramétrica de una señal intermedia de una señal de audio de múltiples canales I/L, en el que el codificador residual de múltiples canales puede estar configurado para calcular una señal lateral correspondiente a la señal intermedia de la señal de audio de múltiples canales I/L, en el que el codificador residual puede calcular una banda alta de la señal intermedia por medio de la extensión de ancho de banda de dominio de tiempo de simulación o en el que el codificador residual puede predecir la banda alta de la señal intermedia por medio de la búsqueda de una información de predicción que minimiza una diferencia entre una señal lateral calculada y una señal intermedia de banda completa calculada de la trama anterior.
[0078] Otras realizaciones muestran el codificador de núcleo de dominio de predicción lineal 16 que comprende un procesador de ACELP 30. El procesador de ACELP puede operar en una señal de mezcla descendente muestreada de manera descendente 34. Además, un procesador de extensión de ancho de banda de dominio de tiempo 36 está configurado para codificar de forma paramétrica una banda de una porción de la señal de mezcla descendente retirada de la señal de entrada ACELP en un tercer muestreo descendente. De forma adicional o alternativa, el codificador de núcleo de dominio de predicción lineal 16 puede comprender un procesador de TCX 32. El procesador de TCX 32 puede operar sobre la señal de mezcla descendente 14 no muestreada de manera descendente o muestreada de manera descendente en un grado menor que el muestreo descendente para el procesador de ACELP. Además, el procesador de TCX puede comprender un primer convertidor de tiempofrecuencia 40, un primer generador de parámetros 42 para la generación de una representación paramétrica 46 de un primer conjunto de bandas y un primer codificador del cuantificador 44 para la generación de un conjunto de líneas espectrales codificadas cuantificadas 48 para un segundo conjunto de bandas. El procesador de ACELP y el procesador de TCX se pueden llevar a cabo ya sea por separado, por ejemplo, un primer número de tramas se codifica por el uso de ACELP y un segundo número de tramas se codifica por el uso de TCX, o de manera conjunta, en la que ambos, ACELP y TCX aportan información para la decodificación de una trama.
[0079] Otras realizaciones muestran el convertidor de tiempo-frecuencia 40 que es diferente del banco de filtros 82. El banco de filtros 82 puede comprender parámetros de filtro optimizados para generar una representación espectral 83 de la señal de múltiples canales 4, en el que el convertidor de tiempo-frecuencia 40 puede comprender parámetros de filtro optimizados para generar una representación paramétrica 46 de un primer conjunto de bandas. En una etapa adicional, cabe señalar que el codificador de dominio de predicción lineal utiliza uno diferente o incluso ningún banco de filtros en el caso de extensión de ancho de banda y/o ACELP. Además, el banco de filtros 82 puede calcular parámetros de filtro separados para generar la representación espectral 83 sin depender de una elección de parámetro anterior del codificador de dominio de predicción lineal. En otras palabras, la codificación de múltiples canales en el modo de LPD puede utilizar un banco de filtros para el procesamiento de múltiples canales (DFT), que no es el utilizado en la extensión de ancho de banda (dominio de tiempo para ACELP y MDCT para TCX). Una ventaja de los mismos es que cada codificación paramétrica puede utilizar su descomposición de tiempo-frecuencia óptima para obtener sus parámetros. Por ejemplo, una combinación de ACELP TDBWE y la codificación paramétrica de múltiples canales con un banco de filtros externo (por ejemplo, DFT) es ventajosa. Esta combinación es eficaz en particular ya que se sabe que la mejor extensión de ancho de banda para la voz debe estar en el dominio de tiempo y el procesamiento de múltiples canales en el dominio de frecuencia. Dado que ACELP TDBWE no tienen ningún convertidor de tiempo-frecuencia, se prefiere un banco de filtro externo o transformación como DFT o incluso puede ser necesario. Otros conceptos siempre utilizan el mismo banco de filtros y por lo tanto no utilizan diferentes bancos de filtros, tales como por ejemplo:
- IGF y la codificación estéreo conjunta para AAC en MDCT
- SBR PS para HeAACv2 en QMF
- SBR MPS212 de la USAC en QMF.
[0080] Según otras realizaciones, el codificador de múltiples canales comprende un primer generador de trama y el codificador de núcleo de dominio de predicción lineal comprende un segundo generador de trama, en el que el primer y el segundo generador de trama están configurados para formar una trama de la señal de múltiples canales 4, en el que el primer y el segundo generador de trama están configurados para formar una trama de una longitud similar. En otras palabras, la formulación del procesador de múltiples canales puede ser la misma que la utilizada en ACELP. Incluso si el procesamiento de múltiples canales se lleva a cabo en el dominio de frecuencia, la resolución de tiempo para el cómputo de sus parámetros o mezcla descendente debe ser idealmente cerrada o incluso igual a la formulación de ACELP. Una longitud similar en este caso se puede referir a la formulación de ACELP, que puede ser igual o cercana a la resolución de tiempo para el cálculo de los parámetros para el procesamiento de múltiples canales o la mezcla descendente.
[0081] Según otras realizaciones, el codificador de audio comprende además un codificador de dominio de predicción lineal 6, que comprende el codificador de núcleo de dominio de predicción lineal 16 y el codificador de múltiples canales 18, un codificador de dominio de frecuencia 8, y un controlador 10 para la conmutación entre el codificador de dominio de predicción lineal 6 y el codificador de dominio de frecuencia 8. El codificador de dominio de frecuencia 8 puede comprender un segundo codificador conjunto de múltiples canales 22 para la codificación de segunda información de múltiples canales 24 desde la señal de múltiples canales, en el que el segundo codificador conjunto de múltiples canales 22 es diferente del primer codificador conjunto de múltiples canales 18. Además, el controlador 10 está configurado de tal manera que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada del codificador de dominio de predicción lineal o por medio de una trama codificada del codificador de dominio de frecuencia.
[0082] La Fig. 19 muestra un diagrama de bloques esquemático de un decodificador 102'' para la decodificación de una señal de audio codificada 103 que comprende una señal codificada de núcleo, los parámetros de extensión de ancho de banda, y la información de múltiples canales según un aspecto adicional. El decodificador de audio comprende un decodificador de núcleo de dominio de predicción lineal 104, un banco de filtros de análisis 144, un decodificador de múltiples canales 146, y un procesador del banco de filtros de síntesis 148. El decodificador de núcleo de dominio de predicción lineal 104 puede decodificar la señal de núcleo codificada para generar una señal mono. Esto puede ser una señal intermedia (de banda completa) de una señal de audio codificada I/L. El banco de filtros de análisis 144 puede convertir la señal mono en una representación espectral 145 en el que el decodificador de múltiples canales 146 puede generar un primer espectro del canal y un segundo espectro del canal de la representación espectral de la señal mono y la información de múltiples canales 20. Por lo tanto, el decodificador de múltiples canales puede utilizar la información de múltiples canales por ejemplo, que comprende una señal lateral correspondiente a la señal intermedia decodificada. Un procesador de banco de filtros de síntesis 148 configurado para la síntesis de la filtración del primer espectro del canal para obtener una primera señal del canal y para la síntesis de la filtración del segundo espectro del canal para obtener una segunda señal del canal. Por lo tanto, preferiblemente la operación inversa en comparación con el banco de filtros de análisis 144 se puede aplicar a la primera y la segunda señal del canal, que puede ser una IDFT si el banco de filtros de análisis utiliza una DFT. Sin embargo, el procesador del banco de filtros puede procesar, por ejemplo, los espectros de dos canales en paralelo o en un orden consecutivo por el uso de, por ejemplo, el mismo banco de filtros. Otras figuras detalladas con respecto a este aspecto se pueden observar en las figuras anteriores, en especial con respecto a la Fig. 7.
[0083] Según otras realizaciones, el decodificador de núcleo de dominio de predicción lineal comprende un procesador de extensión de ancho de banda 126 para la generación de una porción de banda alta 140 a partir de los parámetros de extensión de ancho de banda y la señal mono de banda baja o la señal codificada de núcleo para obtener una banda alta decodificada 140 de la señal de audio, un procesador de señal de banda baja configurado para decodificar la señal mono de banda baja, y un combinador 128 configurado para calcular una señal mono de banda completa por el uso de la señal mono de banda baja decodificada y la banda alta decodificada de la señal de audio. La señal mono de banda baja puede ser, por ejemplo, una representación de banda base de una señal intermedia de una señal de audio de múltiples canales I/L en la que los parámetros de extensión de ancho de banda se pueden aplicar para calcular (en el combinador 128) una señal mono de banda completa de la señal mono de banda baja.
[0084] Según otras realizaciones, el decodificador de dominio de predicción lineal comprende un decodificador de ACELP 120, un sintetizador de banda baja 122, un interpolador 124, un procesador de extensión de ancho de banda de dominio de tiempo 126 o un segundo combinador 128, en el que el segundo combinador 128 está configurado para la combinación de una señal de banda baja muestreada de manera descendente y una señal de banda alta extendida por ancho de banda 140 para obtener una señal mono decodificada por ACELP de banda completa. El decodificador de dominio de predicción lineal puede comprender además un decodificador de TCX 130 y un procesador inteligente de relleno de espacios 132 para obtener una señal mono decodificada por TCX de banda completa. Por lo tanto, un procesador de síntesis de banda completa 134 puede combinar la señal mono decodificada por ACELP de banda completa y la señal mono decodificada por TCX de banda completa. Además, una trayectoria transversal 136 se puede proporcionar para la inicialización del sintetizador de banda baja por el uso de la información obtenida por una conversión de tiempo de espectro de banda baja desde el decodificador de TCX y el procesador de IGF.
[0085] Según otras realizaciones, el decodificador de audio comprende un decodificador de dominio de frecuencia 106, un segundo decodificador conjunto de múltiples canales 110 para la generación de una segunda representación de múltiples canales 116 por el uso de una salida del decodificador de dominio de frecuencia 106 y una segunda información de múltiples canales 22, 24, y un primer combinador 112 para la combinación de la primera señal del canal y la segunda señal del canal con la segunda representación de múltiples canales 116 para obtener una señal de audio decodificada 118, en el que el segundo decodificador conjunto de múltiples canales es diferente del primer decodificador conjunto de múltiples canales. Por lo tanto, el decodificador de audio puede cambiar entre una decodificación paramétrica de múltiples canales por el uso de LPD o una decodificación de dominio de frecuencia. Esta estrategia ya se ha descrito en detalle con respecto a las figuras anteriores.
[0086] Según otras realizaciones, el banco de filtros de análisis 144 comprende una DFT para convertir la señal mono en una representación espectral 145 y en el que el procesador de síntesis de banda completa 148 comprende una IDFT para la conversión de la representación espectral 145 en la primera y la segunda señal del canal. Por otra parte, el banco de filtros de análisis puede aplicar una ventana en la representación espectral convertida por d Ft 145 de tal manera que una porción derecha de la representación espectral de una trama anterior y una porción izquierda de la representación espectral de una trama actual se solapen, en el que la trama anterior y la trama actual son consecutivas. En otras palabras, un fundido transversal se puede aplicar de un bloque DFT a otro para llevar a cabo una transición suave entre los bloques DFT consecutivos y/o para reducir los artefactos de bloqueo.
[0087] Según otras realizaciones, el decodificador de múltiples canales 146 está configurado para obtener la primera y la segunda señal del canal de la señal mono, en el que la señal mono es una señal intermedia de una señal de múltiples canales y en el que el decodificador de múltiples canales 146 está configurado para obtener una señal de audio decodificada de múltiples canales I/L, en el que el decodificador de múltiples canales está configurado para calcular la señal lateral de la información de múltiples canales. Además, el decodificador de múltiples canales 146 puede estar configurado para calcular una señal de audio decodificada de múltiples canales
I/D desde la señal de audio decodificada de múltiples canales I/L, en la que el decodificador de múltiples canales
146 puede calcular la señal de audio decodificada de múltiples canales I/D para una banda baja por el uso de la información de múltiples canales y la señal lateral. De forma adicional o alternativa, el decodificador de múltiples canales 146 puede calcular una señal lateral predicha a partir de la señal intermedia y en el que el decodificador de múltiples canales puede estar configurado además para calcular la señal de audio decodificada de múltiples canales I/D para una banda alta por el uso de la señal lateral predicha y un valor de ILD de la información de múltiples canales.
[0088] Por otra parte, el decodificador de múltiples canales 146 puede estar configurado además para llevar a cabo una operación compleja en la señal de audio decodificada de múltiples canales I/D, en el que el decodificador de múltiples canales puede calcular una magnitud de la operación compleja por el uso de una energía de la señal intermedia codificada y una energía de la señal de audio decodificada de múltiples canales I/D para obtener una compensación de energía. Además, el decodificador de múltiples canales está configurado para calcular una fase de la operación compleja por el uso de un valor de IPD de la información de múltiples canales.
Después de la decodificación, una energía, nivel o fase de la señal decodificada de múltiples canales puede ser diferente de la señal mono decodificada. Por lo tanto, la operación compleja se puede determinar de tal manera que la energía, el nivel o la fase de la señal de múltiples canales se ajuste a los valores de la señal mono decodificada. Por otra parte, la fase se puede ajustar a un valor de una fase de la señal de múltiples canales antes de la codificación, por el uso de por ejemplo, los parámetros de IPD calculados a partir de la información de múltiples canales calculada en el lado del codificador. Además, la percepción humana de la señal decodificada de múltiples canales se puede adaptar a una percepción humana de la señal de múltiples canales original antes de la codificación.
[0089] La Fig. 20 muestra una ilustración esquemática de un diagrama de flujo de un procedimiento
2000 para la codificación de una señal de múltiples canales. El procedimiento comprende una etapa 2050 de la mezcla descendente de la señal de múltiples canales para obtener una señal de mezcla descendente, una etapa
2100 de codificación de la señal de mezcla descendente, en el que la señal de mezcla descendente tiene una banda baja y una banda alta, en el que el codificador de núcleo de dominio de predicción lineal está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta, una etapa 2150 de generación de una representación espectral de la señal de múltiples canales, y una etapa
2200 de procesamiento de la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales para generar información de múltiples canales.
[0090] La Fig. 21 muestra una ilustración esquemática de un diagrama de flujo de un procedimiento
2100 para la decodificación de una señal de audio codificada, que comprende una señal codificada de núcleo, los parámetros de extensión de ancho de banda, y la información de múltiples canales. El procedimiento comprende una etapa 2105 de decodificación de la señal codificada de núcleo para generar una señal mono, una etapa 2110 de conversión de la señal mono en una representación espectral, una etapa 2115 de generación de un primer espectro del canal y un segundo espectro del canal de la representación espectral de la señal mono y la información de múltiples canales y una etapa 2120 de síntesis de la filtración del primer espectro del canal para obtener una primera señal del canal y la síntesis de la filtración del segundo espectro del canal para obtener una segunda
señal del canal.
[0091] Otras realizaciones se describen de acuerdo con lo presentado a continuación.
Cambios en la sintaxis de la corriente de bits
[0092] La tabla 23 de las especificaciones de USAC [1] en la sección 5.3.2. La carga útil subsidiaria se debe modificar de acuerdo con lo presentado a continuación:
Tabla 1 - Sintaxis de UsacCoreCoderData()
Figure imgf000018_0001
___________________________________________________________________
[0093] En la siguiente tabla se debe añadir:
Tabla 1 - Sintaxis de Ipd_stereo_stream()
Figure imgf000019_0001
Figure imgf000020_0001
[0094] La siguiente descripción de carga útil se debe añadir en la sección 6.2, carga útil de USAC.
6.2.x Ipd_stereo_stream()
[0095] El procedimiento de decodificación detallado se describe en la sección de decodificación estéreo 7.x LPD. Términos y Definiciones
[0096]
lpd_stereo_stream() Elemento de datos para decodificar los datos estéreo para el modo de LPD
res_mode Marcador que indica la resolución de frecuencia de las bandas de parámetros.
q_mode Marcador que indica la resolución de tiempo de las bandas de parámetros.
ipd_mode Campo de bits que define el máximo de bandas de parámetros para el parámetro de IPD. pred_mode Marcador que indica si se utiliza predicción.
cod_mode Campo de bits que define el máximo de bandas de parámetros para el que se cuantifica la señal lateral.
Md_idx [k] [b] índice de parámetros de ILD para la trama k y la banda b.
Ipd_idx [k] [b] índice de parámetros de IPD para la trama ky la banda b.
pred_gain_idx [k] [b] índice de ganancia de predicción para la trama k y la banda b.
cod_gain_idx índice de ganancia global para la señal lateral cuantificada.
Elementos auxiliares
[0097]
ccfl longitud de trama del código de núcleo.
M longitud de trama LPD estéreo de acuerdo con lo definido en la Tabla 7.x.1. band_config() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
band_limits() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
ipd_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
cod_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x cod_L Número de líneas DFT de la señal lateral decodificada.
Proceso de decodificación
Codificación Estéreo LPD
Descripción de la herramienta
[0098] LPD estéreo es una codificación estéreo discreta de I/L, donde el canal intermedio está codificado por el codificador de núcleo mono LPD y la señal lateral codificada en el dominio de DFT. La señal intermedia decodificada se emite desde el decodificador LPD mono y, a continuación, se procesa por el módulo de LPD estéreo. La decodificación estéreo se lleva a cabo en el dominio de DFT donde se decodifican los canales I y D. Los dos canales decodificados se transforman de nuevo en el dominio de tiempo y entonces se pueden combinar en este dominio con los canales decodificados desde el modo FD. El modo de codificación f D utiliza sus propias herramientas estéreo, es decir estéreo discreta con o sin predicción compleja.
Elementos de datos
[0099]
res_mode Marcador que indica la resolución de frecuencia de las bandas de parámetros.
q_mode Marcador que indica la resolución de tiempo de las bandas de parámetros.
ipd_mode Campo de bits que define el máximo de bandas de parámetros para el parámetro de IPD. pred_mode Marcador que indica si se utiliza predicción.
cod_mode Campo de bits que define el máximo de bandas de parámetros para el que se cuantifica la señal lateral.
Ild_idx [k] [b] índice de parámetros de ILD para la trama k y la banda b.
Ipd_idx [k] [b] índice de parámetros de IPD para la trama k y la banda b.
pred_gain_idx [k] [b] índice de ganancia de predicción para la trama k y la banda b.
cod_gain_idx índice de ganancia global para la señal lateral cuantificada.
Elementos de ayuda
[0100]
ccfl longitud de trama del código de núcleo.
M longitud de trama LPD estéreo de acuerdo con lo definido en la Tabla 7.x.1.
band_config() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
band_limits() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x ipd_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x cod_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x cod_L Número de líneas DFT de la señal lateral decodificada.
Proceso de decodificación
[0101] La decodificación estéreo se lleva a cabo en el dominio de frecuencia. Actúa como un postprocesamiento del decodificador LPD. Recibe del decodificador LPD la síntesis de la señal intermedia mono. A continuación, la señal lateral se decodifica o se predice en el dominio de frecuencia. Los espectros de canales son entonces reconstruidos en el dominio de frecuencia antes de ser resintetizados en el dominio de tiempo. La LPD estéreo trabaja con un tamaño de trama fija igual al tamaño de la trama de ACELP independientemente del modo de codificación utilizado en el modo de LPD.
Análisis de frecuencia
[0102] El espectro DFT del índice de trama i se calcula a partir de la trama decodificada x de longitud M.
Figure imgf000022_0001
donde N es el tamaño del análisis de la señal, w es la ventana de análisis y x la señal de tiempo decodificada del decodificador LPD en el índice de trama i retrasado por el tamaño de solapamiento L de la DFT. M es igual al tamaño de la trama de ACELP a la velocidad de muestreo utilizada en el modo de FD. N es igual al tamaño de la trama LPD estéreo más el tamaño de solapamiento de la DFT. Los tamaños dependen de la versión de LPD utilizada de acuerdo con lo informado en la Tabla 7.x.1.
Tabla 7.x.1 - DFT y tamaños constructivos de la LPD estéreo
Figure imgf000022_0004
[0103] La ventana w es una ventana sinusoidal que se define como:
Figure imgf000022_0002
Configuración de las bandas de parámetros
[0104] El espectro de DFT se divide en bandas de frecuencia no solapadas denominadas bandas de parámetros. La partición del espectro no es uniforme e imita la descomposición de frecuencia auditiva. Dos divisiones diferentes del espectro son posibles con anchos de banda más o menos después de dos o cuatro veces el Ancho de Banda Rectangular Equivalente (ERB, por su sigla en inglés).
[0105] La partición espectro se selecciona por el elemento de datos res_mod y se define por el siguiente pseudo-código:
Figure imgf000022_0003
Figure imgf000023_0001
donde nbands es el número total de bandas de parámetros y N el tamaño de la ventana de análisis DFT. Las tablas band_limits_erb2 y band_limits_erb4 se definen en la Tabla 7.x.2. El decodificador puede cambiar de forma adaptativa las resoluciones de las bandas de parámetros del espectro cada dos tramas LPD estéreo.
Tabla 7.x.2 - Límites de la banda de parámetros en términos del índice k DFT
Figure imgf000023_0003
[0106] El número máximo de bandas de parámetros para IPD se envía dentro del elemento de datos ipd_mod de campo de 2 bits:
Figure imgf000023_0002
[0107] El número máximo de bandas de parámetros para la codificación de la señal lateral se envía dentro del elemento de datos cod_mod de campo de 2 bits:
Figure imgf000024_0001
[0108] La tabla max_band[][] se define en la Tabla 7.x.3.
[0109] El número de decodificados alineados a esperar por la señal lateral a continuación, se computa como:
Figure imgf000024_0002
Tabla 7.x.3 - Número máximo de bandas para diferentes modos de código
Figure imgf000024_0007
Cuantificación inversa de parámetros estéreo
[0110] Los parámetros estéreo de Diferencias de Nivel Intercanales (ILD, por su sigla en inglés), Diferencias de Fase Intercanales (IPD, por su sigla en inglés) y las ganancias de predicción o bien se envían cada una trama o cada dos tramas en función del marcador q_mode. Si q_mode es igual a 0, los parámetros se actualizan en cada trama. De lo contrario, los valores de los parámetros sólo se actualizan para el índice impar i de la trama LPD estéreo dentro de la trama de la USAC. El índice i de la trama de LPD estéreo dentro de la trama USAC puede ser entre 0 y 3 en la versión 0 de LPD y entre 0 y 1 en la versión 1 de LPD.
[0111] El ILD se decodifica de acuerdo con lo presentado a continuación:
Figure imgf000024_0003
[0112] El IPD se decodifica para las primeras bandas de ipd_max_band:
Figure imgf000024_0004
[0113] Las ganancias de predicción solamente son decodificadas del marcador pred_mode que se ajusta en uno. Las ganancias decodificadas son entonces:
Figure imgf000024_0005
[0114] Si el pred_mode es igual a cero, todas las ganancias se establecen en cero.
[0115] Independientemente del valor de q_mode, la decodificación de la señal lateral se lleva a cabo a cada trama si code_mode es un valor distinto de cero. En primer lugar, decodifica una ganancia global:
Figure imgf000024_0006
[0116] La forma decodificada de la Señal lateral es la salida de la AVQ descrita en la memoria descriptiva de USAC [1] en la sección.
Figure imgf000025_0001
Tabla 7.X.4 - Tabla de cuantificación Inversa ild_q[]
Figure imgf000025_0003
Tabla 7.X.5 - Tabla de cuantificación inversa res_pres_gain
Figure imgf000025_0004
Mapeo de canales inversos
[0117] La señal intermedia X y la Señal lateral S se convierten primero a los canales izquierdo y derecho I y D de acuerdo con lo presentado a continuación:
Figure imgf000025_0002
donde la ganancia g por banda de parámetros se deriva del parámetro ILD:
Figure imgf000026_0001
[0118] Para las bandas de parámetros por debajo de cod_max_band, los dos canales se actualizan con la Señal lateral decodificada:
Figure imgf000026_0005
[0119] Para las bandas de parámetros más elevadas, la señal lateral se predice y los canales se actualizan como:
Figure imgf000026_0006
[0120] Finalmente, los canales se multiplican por un valor complejo con el objetivo de restaurar la energía original y la fase inter-canal de las señales:
Figure imgf000026_0002
donde
Figure imgf000026_0003
donde c está obligado a ser -12 y 12dB.
y donde
Figure imgf000026_0007
[0121] Donde atan2(x,y) es la inversa de tangente de cuatro cuadrantes de x por encima de y. Síntesis de dominio de tiempo
[0122] A partir de los dos espectros decodificados I y D, dos señales de dominio de tiempo i y d se sintetizan por una DFT inversa:
Figure imgf000026_0004
Figure imgf000027_0001
[0123] Finalmente, una operación de solapamiento y adición permite la reconstrucción de una trama de M muestras:
Figure imgf000027_0002
Postprocesamiento
[0124] El postprocesamiento de graves se aplica en dos canales por separado. El procesamiento es para ambos canales, al igual que lo descrito en la sección 7.17 de [1].
[0125] Se debe entender que en esta memoria descriptiva, las señales en las líneas a veces se denominan por los números de referencia para las líneas o, a veces se indican por los mismos números de referencia, que se han atribuido a las líneas. Por lo tanto, la notación es tal que una línea que tiene una cierta señal indica la propia señal. Una línea puede ser una línea física en una implementación de cableado. En una implementación informatizada, sin embargo, una línea física no existe, pero la señal representada por la línea se transmite de un módulo de cálculo al otro módulo de cálculo.
[0126] Aunque la presente invención se ha descrito en el contexto de los diagramas de bloques, donde los bloques representan componentes reales o lógicos de hardware, la presente invención también se puede implementar por medio de un procedimiento implementado por ordenador. En el último caso, los bloques representan etapas del procedimiento correspondientes, en el que estas etapas representan las funcionalidades llevadas a cabo por los correspondientes bloques de hardware lógicos o físicos.
[0127] Aunque algunos aspectos se han descrito en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa del procedimiento o una función de una etapa del procedimiento. De forma análoga, los aspectos que se describen en el contexto de una etapa del procedimiento también representan una descripción de un bloque correspondiente o un elemento o característica de un aparato correspondiente. Algunas o todas las etapas del procedimiento se pueden ejecutar por (o por el uso de) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunas o más de las etapas del procedimiento más importante pueden ser ejecutadas por un aparato de este tipo.
[0128] La invención transmitida o señal codificada se puede almacenar en un medio de almacenamiento digital o puede ser transmitida sobre un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tales como Internet.
[0129] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo por el uso de un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un disco Blu-Ray, un CD, una ROM, una PROM y EPROM, una EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente almacenadas e n el mismo, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal manera que se lleve a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0130] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de tal manera que se lleve a cabo uno de los procedimientos descritos en esta invención.
[0131] Por lo general, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, el código de programa es operativo para llevar a cabo uno de los procedimientos, cuando el producto de programa informático se ejecuta en un ordenador. El código de programa se puede almacenar, por ejemplo, en un soporte legible por máquina.
[0132] Otras realizaciones comprenden el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.
[0133] En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.
[0134] Una realización adicional del procedimiento de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los procedimientos que se describen en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado suelen ser tangibles y/o no transitorios.
[0135] Una realización adicional del procedimiento de invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. La corriente de datos o la secuencia de señales pueden, por ejemplo, estar configuradas para ser transferidas a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
[0136] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, llevar a cabo uno de los procedimientos descritos en esta invención.
[0137] Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención.
[0138] Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, por vía electrónica u óptica) un programa informático para llevar a cabo uno de los procedimientos descritos en esta invención a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema pueden comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
[0139] En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programable en campo) se puede utilizar para llevar a cabo algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programable en campo podrá cooperar con un microprocesador para llevar a cabo uno de los procedimientos descritos en esta invención. Por lo general, los procedimientos se llevan a cabo con preferencia por cualquier aparato de hardware.
[0140] Las realizaciones descritas con anterioridad son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente memoria serán evidentes para aquéllos con experiencia en la técnica. Por lo tanto, la intención es estar limitado sólo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de esta invención.
Referencias
[0141]
[1] ISO/IEC DIS 23003-3, Usac
[2] ISO/IEC DIS 23008-3, audio 3D

Claims (15)

REIVINDICACIONES
1. Un codificador de audio (2”) para la codificación de una señal de múltiples canales (4), que comprende:
un mezclador descendente (12) para la mezcla descendente de la señal de múltiples canales (4) para obtener una señal de mezcla descendente (14),
un codificador de núcleo de dominio de predicción lineal (16) para la codificación de la señal de mezcla descendente (14) para obtener una señal de mezcla descendente codificada, en el que la señal de mezcla descendente (14) tiene una banda baja y una banda alta, en el que el codificador de núcleo de dominio de predicción lineal (16) está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta;
un banco de filtros (82) para la generación de una representación espectral de la señal de múltiples canales (4); y
un codificador conjunto de múltiples canales (18) configurado para procesar la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales (4) para la generación de información de múltiples canales (20),
donde el codificador de núcleo de dominio de predicción lineal (16) comprende un procesador ACELP (30), en el que el procesador ACELP (30) está configurado para operar en una señal de mezcla descendente submuestreada (34) obtenida de la señal de mezcla descendente (14) por un submuestreador (35), y en el que se configura un procesador de extensión de ancho de banda de dominio de tiempo (36) para codificar paramétricamente la banda alta de la señal de mezcla descendente (14) elim inada de la señal de mezcla descendente (14) mediante el muestreo descendente utilizando el submuestreador (35) y
en el que el codificador de núcleo del dominio de predicción lineal (16) comprende un procesador TCX (32), en el que el procesador TCX (32) está configurado para operar en la señal de mezcla descendente (14) no muestreado o muestreado de forma descendente en un grado más pequeño que el muestreo descendente para el procesador ACELP realizado por el submuestreador (35), comprendiendo el procesador t Cx (32) un convertidor de tiempo-frecuencia (40), un generador de parámetros (42) para generar una representación paramétrica (46) de un primer conjunto de bandas y un codificador cuantificador (44) para generar un conjunto de líneas espectrales codificadas cuantificadas (48) para un segundo conjunto de bandas.
2. Codificador de audio (2") según la reivindicación 1, en el que el convertidor de tiempo-frecuencia (40) es diferente del banco de filtros (82), en el que el banco de filtros (82) comprende los parámetros de filtro optimizados para generar una representación espectral de la señal de múltiples canales (4), o en el que el convertidor de tiempofrecuencia (40) comprende los parámetros de filtro optimizados para generar una representación paramétrica (46) de un primer conjunto de bandas.
3. Codificador de audio (2") según la reivindicación 1 o 2, en el que el codificador conjunto de múltiples canales (18) comprende un primer generador de trama, y en el que el codificador de núcleo de dominio de predicción lineal (16) comprende un segundo generador de trama, en el que el primer generador de trama y el segundo generador de trama se configuran para formar una trama de la señal de múltiples canales (4), en la que el primer generador de trama y el segundo generador de trama se configuran para formar una trama de una longitud similar.
4. Codificador de audio (2") según cualquiera de las reivindicaciones 1 a 3, que comprende además:
un codificador de dominio de predicción lineal (6) que comprende el codificador de núcleo de dominio de predicción lineal (16) y el codificador de múltiples canales ( 18 );
un codificador de dominio de frecuencia (8); y
un controlador (10) para conmutar entre el codificador de dominio de predicción lineal (6) y el codificador de dominio de frecuencia (8),
donde el codificador de dominio de frecuencia (8) comprende un segundo codificador conjunto de múltiples canales (22) para codificar la segunda información de múltiples canales (24) de la señal de múltiples canales (4), en la que el segundo codificador conjunto de múltiples canales (22) es diferente del primer codificador conjunto de múltiples canales (18), y
donde el controlador (10) se configura de tal manera que una porción de la señal de múltiples canales (4) se representa mediante una trama codificada del codificador de dominio de predicción lineal (6) o mediante una trama codificada del codificador de dominio de frecuencia (8).
5. Codificador de audio (2”) según cualquiera de las reivindicaciones 1 a 4,
el que el codificador de núcleo de dominio de predicción lineal (16) está configurado para calcular la señal de mezcla descendente (14) como una representación paramétrica de una señal intermedia de una señal de audio de múltiples canales I/L;
en el que el codificador residual de múltiples canales (56) está configurado para calcular una señal lateral correspondiente a la señal intermedia de la señal de audio de múltiples canales I/L, en el que el codificador residual de m ú ltip le s cana les (56) está configurado para calcular una banda alta de la señal intermedia mediante el uso de la extensión de ancho de banda de dominio de tiempo de simulación o en el que el codificador residual de m ú l t i p l e s c a n a l e s ( 56 ) está configurado para predecir la banda alta de la señal intermedia mediante el uso de la búsqueda de una información de predicción que minimiza una diferencia entre una señal lateral calculada y una señal intermedia de banda completa calculada de la trama anterior.
6. Decodificador de audio (102”) para la decodificación de una señal de audio codificada (103) que comprende una señal codificada de núcleo, los parámetros de extensión de ancho de banda, y la información de múltiples canales (20), c o m p r e n d i e n d o el decodificador de audio (102"):
un decodificador de núcleo de dominio de predicción lineal (104) para la decodificación de la señal codificada de núcleo para la generación de una señal mono (142);
un banco de filtros de análisis (144) para convertir la señal mono (142) en una representación espectral (145);
un decodificador de múltiples canales (146) para la generación de un primer espectro del canal y un segundo espectro del canal de la representación espectral (145) de la señal mono (142) y la información de múltiples canales (20); y
un procesador del banco de filtros de síntesis (148) para la síntesis de la filtración del primer espectro del canal para obtener una primera señal del canal y para la síntesis de la filtración del segundo espectro del canal para obtener una segunda señal del canal,
donde el decodificador de núcleo de dominio de predicción lineal (104) comprende:
un procesador de extensión de ancho de banda de dominio de tiempo (126) para generar una señal de banda alta extendida de ancho de banda (140) desde los parámetros de extensión de ancho de banda y la señal mono de banda baja o la señal codificada de núcleo, siendo la señal de banda alta extendida de ancho de banda (140) una banda alta decodificada (140) de la señal de audio;
un decodificador ACELP (120), un sintetizador de banda baja (122) y un muestreador (124) para emitir una señal de banda baja elevada muestreada que es una señal mono de banda baja decodificada;
un combinador (128) configurado para calcular una señal mono decodificada de ACELP de banda completa utilizando la señal mono de banda baja decodificada y la banda alta decodificada (140) de la señal de audio; un decodificador TCX (130) y un procesador de relleno de espacios inteligente (132) para obtener una señal mono decodificada de banda completa TCX; y
un procesador de síntesis de banda completa (134) para combinar la señal mono decodificada de ACELP de banda completa y la señal mono decodificada de banda completa TCX.
7. Decodificador de audio (102") de la reivindicación 6, en el que se proporciona una trayectoria cruzada (136) para inicializar un sintetizador de banda baja (122) mediante el uso de la información derivada por una conversión de espectro-tiempo de una banda baja de una señal generada por el decodificador TCX (130) y un procesador de relleno de espacios inteligente (132).
8. Decodificador de audio (102”) de la reivindicación 6 o 7, que comprende además:
un decodificador de dominio de frecuencia (106);
un segundo decodificador conjunto de múltiples canales (110) para la generación de una segunda representación de múltiples canales (116), mediante el uso de una salida del decodificador de dominio de frecuencia (106) y una segunda información de múltiples canales (22, 24); y
un primer combinador (112) para la combinación de la primera señal del canal y la segunda señal del canal con la segunda representación de múltiples canales (116) para obtener una señal de audio decodificada (118); en el que el segundo decodificador conjunto de múltiples canales ( 110 ) es diferente del decodificador conjunto de múltiples canales (146).
9. Decodificador de audio (102") de la reivindicación 6, 7, u 8, en el que el banco de filtro de análisis (144) comprende una DFT para convertir la señal mono (142) en la representación espectral (145), y en el que el procesador de banco de filtro de síntesis (148) comprende un IDFT para convertir el primer espectro de canal en la primera señal del canal y para convertir el segundo espectro de canal en la segunda señal del canal.
10. Decodificador de audio (102") de la reivindicación 9, en el que el análisis de banco de filtro (144) está configurado para aplicar una ventana en la representación espectral de DFT convertida (145) de manera que una porción derecha de la representación espectral de una trama anterior y una porción izquierda de la representación espectral de una trama actual se superpone, donde la trama anterior y la trama actual son consecutivos.
11. Decodificador de audio (102") de la reivindicación 6, en el que el decodificador de múltiples canales (146) está configurado además
para realizar una operación compleja en la señal de audio decodificada de múltiples canales I/D;
para calcular una magnitud de la operación compleja mediante el uso de una energía de la señal media codificada y una energía de la señal de audio de múltiples canales decodificada I/D para obtener una compensación de energía; y
para calcular una fase de la operación compleja mediante el uso de un valor de IPD (diferencia de fase entre canales) de la información de múltiples canales.
12. Procedimiento (2000) para codificar una señal de múltiples canales (4), comprendiendo el procedimiento:
el mezclado descendente de la señal de múltiples canales (4) para obtener una señal de mezcla descendente (14), la codificación de núcleo del dominio de predicción lineal (16) la señal de mezcla descendente (14) para obtener una señal de mezcla descendente codificada (26), en la que la señal de mezcla descendente (14) tiene una banda baja y una banda alta, en la que la codificación de núcleo de dominio de predicción lineal (16), la señal de mezcla descendente (14) comprende la aplicación de un procesamiento de extensión de ancho de banda para codificar paramétricamente la banda alta;
la generación de una representación espectral de la señal de múltiples canales (4); y el procesamiento de la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales (4) para generar información de múltiples canales (20), donde la codificación de la señal de mezcla descendente (14) comprende la realización de un procesamiento ACELP, donde el procesamiento ACELP está configurado para operar en una señal de mezcla descendente submuestreada (34), y en el que un procesamiento de extensión de ancho de banda de dominio de tiempo (36) está configurado para codificar paramétricamente la banda alta de la señal de mezcla descendente (14) eliminada de la señal de mezcla descendente (14) mediante el submuestreo, y en el que la codificación de la señal de mezcla descendente (14) comprende el procesamiento de TCX (32) en el que el procesamiento TCX (32) está configurado para operar en la señal de mezcla descendente (14) no submuestreada o submuestreada en un grado más pequeño que la submuestra para el procesamiento ACELP (30), comprendiendo el procesamiento de TCX una conversión de tiempo-frecuencia (40), un parámetro que se genera (42) para generar una representación paramétrica (46) de un primer conjunto de bandas y una codificación de cuantificación (44) para generar un conjunto de líneas espectrales codificadas cuantificadas (48) para un segundo conjunto de bandas.
13. Procedimiento (2100) de decodificación de una señal de audio codificada (103), que comprende una señal codificada de núcleo, los parámetros de extensión de ancho de banda, y la información de múltiples canales (20), comprendiendo el procedimiento (2100):
la decodificación de núcleo de dominio de predicción lineal (104) de la señal codificada de núcleo para generar una señal mono (142); la conversión de la señal mono (142) en una representación espectral (145);
la generación de un primer espectro del canal y un segundo espectro del canal de la representación espectral (145) de la señal mono (142) y la información de múltiples canales (20); y
la síntesis de la filtración del primer espectro del canal para obtener una primera señal del canal y la síntesis de la filtración del segundo espectro del canal para obtener una segunda señal del canal,
donde la decodificación de la señal codificada de núcleo comprende:
el procesamiento de extensión de ancho de banda del dominio de tiempo (126) para generar una señal de banda alta extendida por el ancho de banda (140) a partir de los parámetros de extensión de ancho de banda y la señal mono de banda baja o la señal codificada del núcleo, siendo la señal de banda alta extendida del ancho de banda (140) una banda alta decodificada (140) de la señal de audio; la decodificación ACELP (120), la sintetización de banda baja (122) y muestreo ascendente (124) para generar una señal de banda baja de muestreo ascendente que es una señal mono de banda baja decodificada;
calcular una señal mono decodificada ACELP de banda completa usando la combinación (128) de la señal mono de banda baja y la banda alta decodificada (140) de la señal de audio;
la decodificación TCX (130) y el procesamiento de relleno de espacios inteligente (132) para obtener una señal mono decodificada TCX de banda completa; y
el procesamiento de síntesis de banda completa (134) que comprende la combinación de la señal mono decodificada ACELP de banda completa y la señal mono decodificada TCX de banda completa.
14. Procedimiento (2100) de la reivindicación 13, en el que se proporciona una trayectoria cruzada (136) para inicializar la sintetización de banda baja (122) mediante el uso de la información derivada por una conversión de espectro-tiempo de una banda baja de una señal de la decodificación TCX (130) y el procesamiento de relleno inteligente de espacios (132).
15. Programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el procedimiento de la reivindicación 12 o la reivindicación 13.
ES21191544T 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada Active ES2951090T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15158233 2015-03-09
EP15172599.1A EP3067887A1 (en) 2015-03-09 2015-06-17 Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Publications (1)

Publication Number Publication Date
ES2951090T3 true ES2951090T3 (es) 2023-10-17

Family

ID=52682621

Family Applications (6)

Application Number Title Priority Date Filing Date
ES16708172T Active ES2901109T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171835T Active ES2958535T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171831T Active ES2959970T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171826T Active ES2959910T3 (es) 2015-03-09 2016-03-07 Decodificador de audio para la decodificación de una señal de audio codificada
ES21191544T Active ES2951090T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
ES16708171T Active ES2910658T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada

Family Applications Before (4)

Application Number Title Priority Date Filing Date
ES16708172T Active ES2901109T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171835T Active ES2958535T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171831T Active ES2959970T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171826T Active ES2959910T3 (es) 2015-03-09 2016-03-07 Decodificador de audio para la decodificación de una señal de audio codificada

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES16708171T Active ES2910658T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada

Country Status (19)

Country Link
US (7) US10388287B2 (es)
EP (9) EP3067886A1 (es)
JP (6) JP6643352B2 (es)
KR (2) KR102151719B1 (es)
CN (6) CN107430863B (es)
AR (6) AR103881A1 (es)
AU (2) AU2016231284B2 (es)
BR (4) BR112017018439B1 (es)
CA (2) CA2978812C (es)
ES (6) ES2901109T3 (es)
FI (1) FI3958257T3 (es)
MX (2) MX366860B (es)
MY (2) MY186689A (es)
PL (6) PL3268958T3 (es)
PT (3) PT3268958T (es)
RU (2) RU2679571C1 (es)
SG (2) SG11201707335SA (es)
TW (2) TWI609364B (es)
WO (2) WO2016142336A1 (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
ES2727462T3 (es) 2016-01-22 2019-10-16 Fraunhofer Ges Forschung Aparatos y procedimientos para la codificación o decodificación de una señal multicanal de audio mediante el uso de repetición de muestreo de dominio espectral
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
EP3625947B1 (en) 2017-05-18 2021-06-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Managing network device
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
US10475457B2 (en) 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10535357B2 (en) 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019121982A1 (en) * 2017-12-19 2019-06-27 Dolby International Ab Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
SG11202007182UA (en) * 2018-02-01 2020-08-28 Fraunhofer Ges Forschung Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
IL276619B2 (en) * 2018-07-02 2024-03-01 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding embedded audio signals
MX2020014077A (es) * 2018-07-04 2021-03-09 Fraunhofer Ges Forschung Codificador multise?al, decodificador multise?al, y metodos relacionados que utilizan blanqueado de se?al o post procesamiento de se?al.
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN110267142B (zh) * 2019-06-25 2021-06-22 维沃移动通信有限公司 一种移动终端及控制方法
CN114270436A (zh) * 2019-07-19 2022-04-01 英迪股份有限公司 无线通信***中的自适应音频处理方法、设备、计算机程序及其记录介质
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
US11432069B2 (en) * 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing
KR20220137005A (ko) * 2020-02-03 2022-10-11 보이세지 코포레이션 다채널 사운드 코덱에 있어서 스테레오 코딩 모드들간의 스위칭
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备
DE112021005027T5 (de) * 2020-09-25 2023-08-10 Apple Inc. Nahtloses skalierbares decodieren von kanälen, objekten und hoa-audioinhalt
CA3194876A1 (en) * 2020-10-09 2022-04-14 Franz REUTELHUBER Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
JPWO2022176270A1 (es) * 2021-02-16 2022-08-25
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CA3240986A1 (en) * 2021-12-20 2023-06-29 Dolby International Ab Ivas spar filter bank in qmf domain

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
DE4307688A1 (de) 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3593201B2 (ja) * 1996-01-12 2004-11-24 ユナイテッド・モジュール・コーポレーション オーディオ復号装置
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JP4907826B2 (ja) * 2000-02-29 2012-04-04 クゥアルコム・インコーポレイテッド 閉ループのマルチモードの混合領域の線形予測音声コーダ
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP2007515672A (ja) * 2003-12-04 2007-06-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号符号化
EP1761915B1 (en) * 2004-06-21 2008-12-03 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
RU2007107348A (ru) * 2004-08-31 2008-09-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство и способ генерирования стереосигнала
ATE545131T1 (de) * 2004-12-27 2012-02-15 Panasonic Corp Tonkodierungsvorrichtung und tonkodierungsmethode
EP1912206B1 (en) 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
WO2008035949A1 (en) 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与***
EP2168121B1 (fr) * 2007-07-03 2018-06-06 Orange Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
CN101373594A (zh) * 2007-08-21 2009-02-25 华为技术有限公司 修正音频信号的方法及装置
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
MX2010002629A (es) * 2007-11-21 2010-06-02 Lg Electronics Inc Metodo y aparato para procesar una señal.
US9275648B2 (en) * 2007-12-18 2016-03-01 Lg Electronics Inc. Method and apparatus for processing audio signal using spectral data of audio signal
KR101162275B1 (ko) * 2007-12-31 2012-07-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
JP5333446B2 (ja) 2008-04-25 2013-11-06 日本電気株式会社 無線通信装置
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2311032B1 (en) 2008-07-11 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2346030B1 (en) 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
KR101227729B1 (ko) * 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
CN101809656B (zh) * 2008-07-29 2013-03-13 松下电器产业株式会社 音响编码装置、音响解码装置、音响编码解码装置及会议***
WO2010036061A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
RU2520402C2 (ru) * 2008-10-08 2014-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
RU2520329C2 (ru) * 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
GB2470059A (en) 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
ES2533098T3 (es) * 2009-10-20 2015-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo
KR101508819B1 (ko) 2009-10-20 2015-04-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
WO2011059254A2 (en) 2009-11-12 2011-05-19 Lg Electronics Inc. An apparatus for processing a signal and method thereof
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
US8166830B2 (en) * 2010-07-02 2012-05-01 Dresser, Inc. Meter devices and methods
JP5499981B2 (ja) * 2010-08-02 2014-05-21 コニカミノルタ株式会社 画像処理装置
WO2012065081A1 (en) 2010-11-12 2012-05-18 Polycom, Inc. Scalable audio in a multi-point environment
KR101767175B1 (ko) * 2011-03-18 2017-08-10 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩에서의 프레임 요소 길이 전송
CN104364842A (zh) * 2012-04-18 2015-02-18 诺基亚公司 立体声音频信号编码器
WO2013168414A1 (ja) * 2012-05-11 2013-11-14 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
CN102779518B (zh) * 2012-07-27 2014-08-06 深圳广晟信源技术有限公司 用于双核编码模式的编码方法和***
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US20150159036A1 (en) 2013-12-11 2015-06-11 Momentive Performance Materials Inc. Stable primer formulations and coatings with nano dispersion of modified metal oxides
US9984699B2 (en) 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Also Published As

Publication number Publication date
KR102075361B1 (ko) 2020-02-11
AR123834A2 (es) 2023-01-18
US20200395024A1 (en) 2020-12-17
PL3879528T3 (pl) 2024-01-22
AU2016231283C1 (en) 2020-10-22
CN112614496B (zh) 2024-04-09
JP2018511827A (ja) 2018-04-26
PL3268957T3 (pl) 2022-06-27
JP2023029849A (ja) 2023-03-07
CA2978812A1 (en) 2016-09-15
US10388287B2 (en) 2019-08-20
CN112951248B (zh) 2024-05-07
KR20170126994A (ko) 2017-11-20
KR20170126996A (ko) 2017-11-20
AU2016231283B2 (en) 2019-08-22
KR102151719B1 (ko) 2020-10-26
MX364618B (es) 2019-05-02
BR122022025766B1 (pt) 2023-12-26
JP6643352B2 (ja) 2020-02-12
AR123835A2 (es) 2023-01-18
PL3268958T3 (pl) 2022-03-21
AR103881A1 (es) 2017-06-07
AU2016231283A1 (en) 2017-09-28
EP3268958A1 (en) 2018-01-17
PT3268958T (pt) 2022-01-07
ES2958535T3 (es) 2024-02-09
US11881225B2 (en) 2024-01-23
US20220139406A1 (en) 2022-05-05
JP7469350B2 (ja) 2024-04-16
MX2017011493A (es) 2018-01-25
EP3879528A1 (en) 2021-09-15
EP3067886A1 (en) 2016-09-14
US20170365263A1 (en) 2017-12-21
ES2910658T3 (es) 2022-05-13
CN107408389A (zh) 2017-11-28
BR112017018439B1 (pt) 2023-03-21
WO2016142337A1 (en) 2016-09-15
EP3879527C0 (en) 2023-08-02
MX366860B (es) 2019-07-25
TWI609364B (zh) 2017-12-21
CN112614496A (zh) 2021-04-06
BR112017018441B1 (pt) 2022-12-27
CN107430863B (zh) 2021-01-26
US11741973B2 (en) 2023-08-29
MY186689A (en) 2021-08-07
TW201637000A (zh) 2016-10-16
US20220093112A1 (en) 2022-03-24
AU2016231284B2 (en) 2019-08-15
BR112017018439A2 (pt) 2018-04-17
JP2022088470A (ja) 2022-06-14
EP3879527B1 (en) 2023-08-02
MX2017011187A (es) 2018-01-23
EP3879528B1 (en) 2023-08-02
ES2959970T3 (es) 2024-02-29
AR103880A1 (es) 2017-06-07
JP7181671B2 (ja) 2022-12-01
PL3958257T3 (pl) 2023-09-18
AU2016231284A1 (en) 2017-09-28
CA2978814A1 (en) 2016-09-15
CN107430863A (zh) 2017-12-01
US10395661B2 (en) 2019-08-27
CA2978812C (en) 2020-07-21
US11107483B2 (en) 2021-08-31
CN112951248A (zh) 2021-06-11
BR122022025643B1 (pt) 2024-01-02
EP3910628A1 (en) 2021-11-17
SG11201707335SA (en) 2017-10-30
SG11201707343UA (en) 2017-10-30
TWI613643B (zh) 2018-02-01
MY194940A (en) 2022-12-27
CN112634913B (zh) 2024-04-09
AR123836A2 (es) 2023-01-18
FI3958257T3 (fi) 2023-06-27
JP2018511825A (ja) 2018-04-26
PT3958257T (pt) 2023-07-24
PT3268957T (pt) 2022-05-16
PL3879527T3 (pl) 2024-01-15
CN112614497A (zh) 2021-04-06
JP2020038374A (ja) 2020-03-12
EP3879527A1 (en) 2021-09-15
US20190221218A1 (en) 2019-07-18
ES2901109T3 (es) 2022-03-21
BR112017018441A2 (pt) 2018-04-17
US20190333525A1 (en) 2019-10-31
PL3910628T3 (pl) 2024-01-15
EP3958257A1 (en) 2022-02-23
US11238874B2 (en) 2022-02-01
EP3268957A1 (en) 2018-01-17
EP3958257B1 (en) 2023-05-10
JP7077290B2 (ja) 2022-05-30
US20170365264A1 (en) 2017-12-21
ES2959910T3 (es) 2024-02-28
EP4224470A1 (en) 2023-08-09
EP3067887A1 (en) 2016-09-14
EP3268957B1 (en) 2022-03-02
JP6606190B2 (ja) 2019-11-13
JP2020074013A (ja) 2020-05-14
TW201636999A (zh) 2016-10-16
CA2978814C (en) 2020-09-01
RU2679571C1 (ru) 2019-02-11
EP3910628B1 (en) 2023-08-02
AR123837A2 (es) 2023-01-18
CN107408389B (zh) 2021-03-02
CN112634913A (zh) 2021-04-09
EP3879528C0 (en) 2023-08-02
US10777208B2 (en) 2020-09-15
EP3910628C0 (en) 2023-08-02
RU2680195C1 (ru) 2019-02-18
WO2016142336A1 (en) 2016-09-15
EP3268958B1 (en) 2021-11-10

Similar Documents

Publication Publication Date Title
ES2951090T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
ES2519415T3 (es) Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica