ES2682073T3 - Codificación conjunta paramétrica de fuentes de audio - Google Patents

Codificación conjunta paramétrica de fuentes de audio Download PDF

Info

Publication number
ES2682073T3
ES2682073T3 ES10179108.5T ES10179108T ES2682073T3 ES 2682073 T3 ES2682073 T3 ES 2682073T3 ES 10179108 T ES10179108 T ES 10179108T ES 2682073 T3 ES2682073 T3 ES 2682073T3
Authority
ES
Spain
Prior art keywords
source
source signals
subband
signals
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10179108.5T
Other languages
English (en)
Inventor
Christof Faller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34938725&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2682073(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2682073T3 publication Critical patent/ES2682073T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

Metodo de codificacion de una pluralidad de senales de fuente (s1(n), s2(n),..., sM(n)), que comprende: calcular, para la pluralidad de senales de fuente (s1(n),s2(n),...,sM(n)), informacion estadistica que representa envolventes espectrales de las senales de fuente (s1(n),s2(n),...,sM(n)) de la pluralidad de senales de fuente, en el que la informacion estadistica comprende adicionalmente, para cada senal de fuente de la pluralidad de senales de fuente y para cada subbanda de una pluralidad de subbandas, informacion sobre una funcion de autocorrelacion de subbanda normalizada ((Φi(n,e)) de una senal de fuente especifica; y transmitir la informacion estadistica que representa envolventes espectrales de las senales de fuente (s1(n),s2(n),...,sM(n)) y la informacion sobre la funcion de autocorrelacion de subbanda normalizada para cada senal de fuente de la pluralidad de senales de fuente y para cada subbanda de la pluralidad de subbandas como metadatos para una senal de audio derivada de la pluralidad de senales de fuente (s1(n),s2(n),...,sM(n)).

Description

5
10
15
20
25
30
35
40
45
50
55
60
Codificación conjunta paramétrica de fuentes de audio DESCRIPCIÓN
1. Introducción
En un problema de codificación general, tenemos un número de(mono) señales de fuente s(n) (1 < i < M y un vector de descripción de escena S(n), donde n es el índice de tiempo. El vector de descripción de escena contiene parámetros, tal como posiciones de fuente (virtuales), anchuras de fuente y parámetros acústicos, tales como los parámetros de la sala (virtuales). La descripción de escena puede ser invariante del tiempo o puede cambiar con el tiempo. Las señales de fuente y la descripción de escena se codifican y transmiten a un descodificador. Las señales
* A
de fuente codificadas, s ¡(n) se mezclan sucesivamente como una función de la descripción de escena, S(n), para generar síntesis de campo de onda, múltiples canales o señales estéreo, como una función del vector de descripción de escena. Las señales de salida del descodificador se indican como x,(n) (0 < i < N). Obsérvese que el vector de descripción de escena S(n) puede no transmitirse, pero puede determinarse en el descodificador. En este documento, la expresión “señal de audio de estéreo” siempre se refiere a señales de audio de estéreo de dos canales.
El ISOMEC MPEG-4 trata el escenario de codificación descrito. Define la descripción de escena y usa para cada señal de fuente (“natural”) un codificador de audio mono separado, por ejemplo, un codificador de audio de AAC. Sin embargo, cuando una escena compleja con muchas fuentes se va a mezclar, la tasa de bits llega a ser alta, es decir, la tasa de bits escala de manera ascendente con el número de fuentes. La codificación de una señal de fuente con alta calidad requiere aproximadamente de 60 a 90 kb/s.
Previamente, tratamos un caso especial del problema de codificación descrito [1][2] con un esquema indicado Codificación de Indicador Binaural (BCC) para Representación Flexible. Transmitiendo solamente la suma de las señales de fuente dadas, más la información secundaria de baja tasa de bits, se consigue esta baja tasa de bits. Sin embargo, las señales de fuente no pueden recuperarse en el descodificador y el esquema se limita a la generación de señales envolventes estéreo y de múltiples canales. También, únicamente se usó una mezcla simplista, basándose en la panorámica de amplitud y retardo. Así, la dirección de fuentes puede controlarse, pero no otros atributos de imagen espacial auditivos. Otra limitación de este esquema es su calidad de audio limitada. Especialmente, hay una disminución en la calidad de audio a medida que aumenta el número de señales de fuente.
El documento [1] (Codificación de Indicador Binaural, Estéreo Paramétrico, MP3 Envolvente, MPEG Envolvente) cubre el caso donde se codifican N canales de audio y N canales de audio con indicadores similares, a continuación se descodifican los canales de audio originales. La información secundaria transmitida incluye parámetros de indicador de inter-canal relativos a las diferencias entre los canales de entrada.
Los canales de las señales de audio estéreo y de múltiples canales contienen mezclas de señales de fuente de audio y por lo tanto son diferentes en naturaleza que las señales de fuente de audio puras. Las señales de audio estéreo y de múltiples canales se mezclan de modo que cuando se reproducen en un sistema de reproducción apropiad, el oyente percibirá una imagen espacial auditiva (“etapa de sonido”) según se captura por el ajuste de grabación o se diseña por el ingeniero de grabación durante la mezcla. Se ha propuesto previamente un número de esquemas para la codificación de conjunta para los canales de una señal de audio de estéreo o de múltiples canales.
El documento US 2004/0049379 A1 desvela una tecnología de codificación y decodificación de audio de múltiples canales. Un codificador de audio realiza una transformación de múltiples canales de pre-procesamiento en datos de audio de múltiples canales, variando la transformación para controlar la calidad. El codificador agrupa múltiples ventanas de diferentes canales en una o más piezas y emite la información de configuración de pieza, que permite que el codificador aísle transitorios.
El documento US 2004/0101048 A1 desvela un procesamiento de señal de datos de múltiples canales. Los datos de múltiples canales se recopilan y representan cuaterniones. Estos datos se emiten a continuación a un predictor lineal. Se calcula una matriz de autocorrelación y, posteriormente, se generan pseudo-inversas y se emiten a coeficientes de predicción lineal y residual.
La Tesis N.° 3062 (2004), “Parametric coding of spatial audio”, Christof Faller, Lausanne, EPFL, documento XP- 002343263 desvela varias tecnologías de codificación paramétrica tal como codificación de indicador binarual. La diferencia de tiempo inter-canal de indicadores espaciales, la diferencia de nivel inter-canal y la correlación intercanal se estiman para señales estéreo y señales de audio de múltiples canales. Esto se realiza en una manera a nivel de subbanda. Un decodificador de BCC genera una señal de audio dada la señal suma transmitida más los indicadores espaciales.
5
10
15
20
25
30
35
40
45
50
55
60
La publicación “Estimation of auditory spatial cues for binaural cue coding”, Frank Baumgarte y Christof Faller, páginas 1801-1804, IEEE International Conference On Acoustics, Speech, And Signal Processing (ICASSP), Nueva York, 13 de mayo de 2002, documento XP010804245 resume la codificación de indicador binaural. La extracción de los indicadores espaciales de la señal estereofónica se realiza con un analizador de BCC. El analizador de BCC comprende un bloque de estimación de coherencia, bloques de estimación de potencia, bloques de compensación de retardo y un bloque de detección máxima. Las señales de entrada son una señal de audio desde un primer canal A y una señal de audio desde un segundo canal B y los canales de audio se someten a un banco de filtros coclear (CFB) y un modelo de célula ciliada interna (IHC).
Es un objeto de la invención proporcionar un concepto mejorado para codificación. Esto se consigue mediante el método de la reivindicación 1 o el aparato de la reivindicación 2. El objeto de la invención es proporcionar un método para transmitir una pluralidad de señales de fuente, mientras se usa un ancho de banda mínimo. En la mayoría de los métodos conocidos, el formato de reproducción (por ejemplo estéreo, 5.1) está predefinido y tiene una influencia directa en el escenario de codificación. El flujo de audio en el lado del descodificador debe usar solamente este formato de reproducción predefinido, por lo tanto, uniendo al usuario a un escenario de reproducción predefinido (por ejemplo, estéreo).
La invención propuesta codifica N señales de fuente de audio, típicamente sin canales de señales de estéreo o de múltiples canales, pero señales independientes, tal como diferentes señales de voces o instrumentos. La información de lado transmitido incluye parámetros estadísticos relacionados con las señales de fuente de audio de entrada.
La presente invención descodifica M canales de audio con diferentes indicadores que las señales de fuente de audio originales. Estos diferentes indicadores se sintetizan implícitamente aplicando un mezclador a la señal de suma recibida. Este mezclador se controla como una función de la información de fuente estadística recibida y los parámetros de formato de audio recibidos (o localmente determinados), y los parámetros de mezcla. Como alternativa, estos diferentes indicadores se calculan explícitamente como una función de la información de fuente estadística recibida, y los parámetros de formato de audio (o determinados localmente) recibidos y los parámetros de mezcla. Estos indicadores calculados se usan para controlar un descodificador de la técnica anterior (Codificación de Indicador Binaural, Estéreo Paramétrico, MPEG Envolvente) para sintetizar los canales de salida dada la señal de suma recibida.
El esquema propuesto para la codificación conjunta de las señales de fuente de audio es el primero de su clase, se diseñó para la codificación conjunta de las señales de fuente de audio. Las señales de fuente de audio son normalmente señales de audio mono que no son adecuadas para la reproducción sobre un sistema de audio de estéreo o de múltiples canales. Por brevedad, a continuación, las señales de fuente de audio se indican a menudo como señales de fuente.
Las señales de fuente de audio en primer lugar necesitan mezclarse a señales de audio estéreo, de múltiples canales o de síntesis de campo de onda, antes de la reproducción. Una señal de fuente de audio puede ser un único instrumento o hablante, o la suma de un número de instrumentos y hablantes. Otro tipo de señal de fuente de audio es una señal de audio mono capturada con un micrófono puntual durante un concierto. A menudo las señales de fuente de audio se almacenan en grabadoras de múltiples pistas o en sistemas de grabación de disco duro.
El esquema reivindicado para la codificación conjunta de las señales de fuente de audio, está basado únicamente en transmitir la suma de las señales de fuente de audio,
" £ SrffT) , {1)
o una suma ponderada de las señales de fuente. Opcionalmente, la suma ponderada puede llevarse a cabo con diferentes pesos en diferentes subbandas y los pesos pueden adaptarse en el tiempo. La suma con ecualización, como se describe en el Capítulo 3.3.2 en [1], puede aplicarse también. A continuación, cuando nos referimos a la suma o señal de suma, siempre se entiende una señal generada por (1) o generada como se describe. Además de la señal de suma, se transmite la información secundaria. La suma y la información secundaria representan el flujo de audio producido. Opcionalmente, la señal de suma se codifica usando un codificador convencional de audio mono. Este flujo puede almacenarse en un archivo (CD, DVD, Disco Duro) o difundirse al receptor. La información secundaria representa las propiedades estadísticas de las señales de fuente que son los factores más importantes que determinan los indicadores espaciales percibidos de las señales de salida del mezclador. Se mostrará que estas propiedades son envolventes espectrales desarrollados temporalmente y funciones de auto-correlación. Se transmite aproximadamente 3 kb/s de información secundaria por la señal de fuente. En el receptor, las señales de
fuente s ¡(n) (1 < u < M) se recuperan con las propiedades estadísticas anteriormente mencionadas, que se aproximan a las propiedades correspondientes de las señales de fuente originales y la señal de suma.
5
10
15
20
25
30
35
40
45
50
55
60
Breve descripción de los dibujos
La invención se entenderá mejor gracias a las Figuras adjuntas en las cuales:
- la figura 1 muestra un esquema en el cual la transmisión de cada señal de fuente se hace independientemente para el proceso adicional;
- la figura 2 muestra un número de fuentes transmitidas como la señal de suma más la información secundaria;
- la figura 3 muestra un diagrama de bloques de un esquema de Codificación de Indicador Binaural (BCC);
- la figura 4 muestra un mezclador para generar señales estéreo, basándose en las varias señales de fuente,
- la figura 5 muestra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de la señal de fuente;
- la Figura 6 muestra el proceso de la generación de información secundaria;
- la figura 7 muestra el proceso de estimación de los parámetros de LPC de cada señal de fuente;
- la figura 8 muestra el proceso de recrear las señales de fuente desde una señal de suma;
- la figura 9 muestra un esquema alternativo para la generación de cada señal desde la señal de suma;
- la figura 10 muestra un mezclador para generar señales estéreo basándose en la señal de suma;
- la figura 11 muestra un algoritmo panorámico de la amplitud que evita que los niveles de fuente dependan de los parámetros de mezcla;
- la figura 12 muestra un conjunto de altavoces de un sistema de reproducción de síntesis de campo de onda;
- la figura 13 muestra cómo recuperar una estimación de las señales de fuente en el receptor procesando la mezcla descendente de los canales transmitidos; y
- la figura 14 muestra cómo recuperar una estimación de las señales de fuente en el receptor procesando los canales transmitidos.
II. Definiciones, notación y variables
Se usan en este documento la siguiente notación y variables:
n índice de tiempo;
i canal de audio o índice de fuente;
d índice de retardo;
M número de señales de fuente de entrada del codificador;
N número de canales de salida del descodificador;
x(n) señales de fuente originales mezcladas;
x{n) señales de salida del descodificador mezcladas;
s(n) señales de fuente de entrada del codificador;
s i(n) señales de fuente transmitidas, también llamadas señales de pseudo-fuente;
s(n) señal de suma transmitida;
y{n) señal de audio del canal L; (señal de audio que se va a re-mezclar);
s{k) una señal de subbanda de s{n) (definida de manera similar para otras señales);
E(s¡2(n)] estimación de tiempo corto de s ,2(n) (definida de manera similar para otras señales);
ICLD diferencia de nivel inter-canal;
ICTD diferencia de tiempo inter-canal;
ICC coherencia inter-canal;
AL(n) ICLD de subbanda estimada;
i(n) ICTD de subbanda estimado;
c(n) ICC de subbanda estimado;
P{n) potencia de subbanda de fuente relativa;
a, bi factores de escala del mezclador;
c,, di retardos del mezclador;
5
10
15
20
25
30
35
40
45
50
55
60
ALj, T,n) nivel del mezclador y diferencia de tiempo;
Gi ganancia de fuente del mezclador;
NI. Codificación conjunta de señales de fuente de audio
En primer lugar, se describe la Codificación de Indicador Binaural (BCC), una técnica de codificación de audio de múltiples canales paramétrica. A continuación se muestra que con la misma idea en la que está basada la BCC se puede concebir un algoritmo para la codificación conjunta de las señales de fuente para un escenario de codificación.
A. Codificación de Indicador Binaural (BCC)
Un esquema de BCC [1][2] para una codificación de audio de múltiples canales se muestra en la siguiente figura. La señal de audio de múltiples canales de entrada se mezcla de manera descendente a un solo canal. En oposición a la información de codificación y transmisión de aproximadamente todas las formas de onda del canal, solamente se codifica (con el codificador de audio mono convencional) y transmite la señal mezclada de manera descendente. Adicionalmente, las “diferencias de canal de audio” motivadas percibidas se estiman entre los canales de audio originales y también se transmiten al descodificador. El descodificador genera sus canales de salida, de modo que las diferencias del canal de audio se aproximen a las diferencias de canal de audio correspondientes de la señal de audio original.
La localización de suma implica que las diferencias del canal de audio perceptualmente relevantes para una pareja de canales de la señal de altavoces son la diferencia de tiempo inter-canal (ICTD) y la diferencia de nivel inter-canal (ICLD), ICTD e ICLD pueden estar relacionadas con la dirección percibida de los eventos auditivos. Otros atributos de imagen espacial auditiva, tal como una anchura de fuente aparente y la envolvente del oyente, pueden estar relacionados con la coherencia interaural (IC). Para parejas de altavoces en la parte delantera o trasera de un oyente, la coherencia interaural está a menudo relacionada directamente con la coherencia inter-canal (ICC), que es así considerada como la tercera medida de la diferencia de canal de audio por BCC. ICTD, ICLD e ICC se estiman en las subbandas como una función del tiempo. Tanto la resolución espectral como la temporal que se usan, se ven motivadas por la percepción.
B. Codificación conjunta paramétrica de fuentes de audio
Un descodificador de BCC es capaz de generar una señal de audio de múltiples canales, con cualquier imagen espacial auditiva, tomando una mono-señal y sintetizando a intervalos de tiempo regulares un solo indicador de ICTD, ICLD e ICC específico por subbanda y pareja de canales. El buen rendimiento de los esquemas de BCC para una amplia gama de material de audio [véase 1] implica que la imagen espacial auditiva percibida se ve enormemente determinada por ICTD, ICLD e ICC. Por lo tanto, en oposición a las señales de fuente “limpias”
requeridas, s ,(n) como entrada del mezclador en la Figura 1, requerimos justamente señales de pseudo-fuente
s i(n), con la propiedad que ellas den como resultado ICTD, ICLD e ICC similares, en la salida del mezclador, como para el caso de suministro de las señales de fuente reales al mezclador. Hay tres objetivos para la generación de
s (n)-
A
• Si s ,{n) se suministran a un mezclador, los canales de salida del mezclador tendrán aproximadamente los mismos indicadores espaciales (ICLD, ICTD, ICC) como si s(n) se suministrara al mezclador.
A
• s ,{n) se generarán con tan poca información como sea posible acerca de las señales de fuente originales s(n) (debido a que el objetivo es tener información secundaria de baja tasa de bits).
A
• s ,{n) se generan desde la señal de suma transmitida s(n), de modo que se introduce una cantidad mínima de distorsión de señal.
Para derivar el esquema propuesto, consideramos un mezclador de estéreo (M = 2). Una simplificación adicional sobre el caso general es que sólo la panorámica de amplitud y retardo se aplican para la mezcla. Si las señales de fuente discretas están disponibles en el descodificador, una señal de estéreo se mezclaría como se muestra en la Figura 4, es decir,
imagen1
En este caso, el vector de descripción de escena S(n) contiene solamente direcciones de fuente que determinan los
5
5
10
15
20
25
30
35
40
45
parámetros de mezcla.
M(n) = (ar, ajh..., bj, b¡......t>^, c* ,... ,ctíld(l cfZl ..., )T (3)
donde T es la transposición de un vector. Obsérvese que para los parámetros de mezcla, ignoramos el índice de tiempo por conveniencia de notación.
Los parámetros más convenientes para controlar el mezclador son el tiempo y la diferencia de nivel, Ti y AL, que están relacionados con a, b, c¡ y d¡ por
Aí-
10
Vi+ 10™
donde G¡ es un factor de ganancia de fuente en dB
b¿=lOiíst4"f'“of c¡ = maa {-T¡, 0} <* = max {Th 0} (4)
A continuación, calculamos ICTD, ICLD e ICC de la salida del mezclador de estéreo como una función de las señales de fuente de entrada s¡(r¡). Las expresiones obtenidas proporcionarán indicación de qué propiedades de
señales de fuente determinan, ICTD, ICLD e ICC (junto con los parámetros de mezcla). s ,(n) se generan a continuación de modo que las propiedades de la señal de fuente identificadas se aproximen a las propiedades correspondientes de las señales de fuente originales.
B.1 ICTD, ICLD e ICC de la salida del mezclador.
Los indicadores se estiman en subbandas y como una función del tiempo. A continuación, se supone que las señales de fuente s,(n) son de media cero y mutuamente independientes. Una pareja de señales de subbanda de la salida (2) del mezclador se indica xi(n) y X2(n). Obsérvese que por simplicidad de notación usamos el mismo índice de tiempo n, para las señales del dominio del tiempo y del dominio de subbanda. Igualmente no se usa un índice de subbanda y el análisis/procesamiento descrito se aplica a cada subbanda independientemente. La potencia de la subbanda de las dos señales de salida del mezclador es:
e{*;(«))= ybfsftm (s>
¡-i j-]
donde s,(n) es una señal de subbanda de la fuente s,{n) y E[.j indica la expectación de tiempo corto, por ejemplo,
imagen2
donde K determina la longitud de la media móvil. Obsérvese que los valores de potencia de subbanda
E {£?(«)}
representan para cada señal de fuente, la envolvente espectral como una función de tiempo. El
ICLD AL(n), es
.................
AL(n) - 10 log,0 ^£7---------------
s
Para estimar ICTD e ICC, se estima la función de correlación cruzada normalizada
(?)
=
La ICC, c(n) se calcula de acuerdo con
Q(n) - max <p(nhd)
d
(S)
m
5
10
15
20
25
30
35
40
45
50
Para el cálculo de ICTD, T(n), se calcula la ubicación del pico más alto en el eje de retardo,
7(n) = arg 4>(npd)
■íf
(10)
Ahora la cuestión es, cómo puede calcularse la función de correlación cruzada normalizada como una función de los parámetros de mezcla. Junto con (2), 8), puede escribirse como
imagen3
que es equivalente a
imagen4
donde la función de auto-correlación normalizada ®(n,e) es
imagen5
y Ti = di - ci Obsérvese que para calcular (12) dada (11) se ha supuesto que las señales son estacionarias en sentido amplio, dentro del intervalo considerado de retardos, es decir,
EÍJ,1C«)} = E{í¡1Cn-íJ)}
E{J, (fí)#¡(tt + ef-¿,+rf»}sB"{3¡ {n-c^Stin-di+d})
Un ejemplo numérico para dos señales de fuente, que ilustra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de fuente, se muestra en la Figura 5. La parte superior, media e inferior de la Figura 5 muestran AL(n), T(n) y c(n), respectivamente, como una función de la relación de la potencia de subbanda de las dos señales de
fuente E {s-¡2(n)}/ <E } + E (s¡ (n)}), , AL2, Ti y T2. Obsérvese
que cuando sólo una fuente tiene potencia en la subbanda (a = 0 o a = 1) entonces AL(n) y T(n) calculados son iguales a los parámetros de mezcla (ALi, AL2, Ti y T2).
B. 2 Información secundaria necesaria
La ICLD (7]_ depende de los parámetros de mezcla (a,, £>/, c¡, d¡) y de la potencia de subbanda de tiempo corto de las fuentes, E{s ,2(n)} (6). La función de correlación cruzada de subbanda normalizada ®(n,d) (12), que es necesaria para el cálculo de la ICTD (10) e ICC (9) depende de E{s,2(n)} y adicionalmente de la función de auto-correlación de subbanda normalizada ®¡(n,e) (13) para cada señal de fuente. El máximo de ®(n,d) radica dentro del intervalo mini{Ti} <d<maXi{T}. Para fuente i con parámetro de mezclador Ti = di - c, el intervalo correspondiente para el cual la propiedad de la subbanda de señal de fuente ®i(n,e) es necesaria, es
imagen6
Puesto que los indicadores de ICTD, ICLD e ICC dependen de las propiedades de subbanda de la señal de fuente E{s¡2(n)} y 0(n, e), en el intervalo (14), en principio estas propiedades de la subbanda de la señal de fuente necesitan transmitirse como información secundaria. Suponemos que cualquier otra clase de mezclador (por ejemplo mezclador con efectos, mezclador de síntesis de campo de onda/convolucionador, etc.) tiene propiedades similares y así esta información secundaria es útil también cuando se usan otros mezcladores distintos del descrito.
5
10
15
20
25
30
35
40
45
50
55
Para reducir la cantidad de la información secundaria, se puede almacenar un conjunto de funciones de auto- correlación predefinidas en el descodificador y solamente transmitir índices de selección de aquellas que corresponden más estrechamente con las propiedades de la señal de fuente. Una primera versión de nuestro algoritmo supone que dentro del intervalo (14) ®,(n, e) = 1 y así se calcula (12) usando sólo los valores (6) de potencia de subbanda como la información secundaria. Los datos mostrados en la Figura 5 se han calculado suponiendo 0,(n, e) = 1.
Con el fin de reducir la cantidad de la información secundaria, se limita el intervalo dinámico relativo de las señales de fuente. En cada momento, para cada subbanda, se selecciona la potencia de la fuente más intensa. Encontramos que es suficiente disminuir el límite de la potencia de la subbanda correspondiente de todas las otras fuentes a un valor de 24 dB menor que la potencia de la subbanda más intensa. Así, el intervalo dinámico del cuantificador puede limitarse a 24 dB.
Suponiendo que las señales de fuente son independientes, el descodificador puede calcular la suma de la potencia de subbanda de todas las fuentes como E{s2(n)}. Así, en principio es suficiente transmitir al descodificador sólo los valores de potencia de subbanda de M-1 fuentes, mientras la potencia de subbanda de la fuente restante se puede calcular localmente. Dada esta idea, la tasa de información secundaria puede reducirse ligeramente transmitiendo la potencia de subbanda de fuentes con índice 2 < i < M con relación a la potencia de la primera fuente,
¿aw=10lcgm (15)
Obsérvese que el intervalo dinámico que limita como se ha descrito previamente, se lleva a cabo antes de (15). Como una alternativa, los valores de potencia de subbanda pueden normalizarse con relación a la potencia de subbanda de la señal de suma, en oposición a la normalización con relación a una potencia (15) de subbanda de fuente. Para una frecuencia de muestreo de 44,1 kHz, usamos 20 subbandas y se transmite para cada subbanda AP{n) (2 <_¡ < M) aproximadamente cada 12 ms. 20 subbandas corresponden a la mitad de la resolución espectral del sistema auditivo (una subbanda es de una amplitud de dos “anchos de banda críticos”). Los experimentos informales indican que sólo se logra una leve mejora usando más subbandas de 20, por ejemplo 40 subbandas. El número de subbandas y los anchos de banda de estas subbandas se escogen de acuerdo con el tiempo y la resolución de frecuencia del sistema auditivo. Una implementación de baja calidad del esquema requiere al menos tres subbandas (frecuencias baja, media y alta).
De acuerdo con una realización particular, las subbandas tienen anchos de banda diferentes a frecuencias más bajas tienen anchos de banda menores que las subbandas a frecuencias mayores.
Los valores de potencia relativos se cuantifican con un esquema similar al cuantificador de ICLD descrito en [2], dando como resultado una tasa de bits de aproximadamente 3(M-1) kb/s. La Figura 6 ilustra el proceso de la generación de información secundaria (que corresponde al bloque de “generación de información secundaria” en la Figura 2).
La tasa de información secundaria puede reducirse adicionalmente analizando la actividad para cada señal de fuente y sólo transmitir la información secundaria asociada con la fuente si está activa.
En oposición a transmitir los valores de potencia de subbanda E{s,2(n)} como información estadística, puede transmitirse otra información que representa las envolventes espectrales de las señales de fuente. Por ejemplo, pueden transmitirse parámetros de la codificación predictiva lineal (LPC), u otros parámetros correspondientes, tal como los parámetros del filtro de malla o parámetros del par espectral de línea (LP). El proceso de estimación de los parámetros de LPC de cada señal de fuente se ilustra en la Figura 7,
A
B.3 Calculars /(n).
La Figura 8 ilustra el proceso que se usa para recrear las señales de fuente, dada la señal de suma (1). Este proceso es parte del bloque de “Síntesis” en la Figura 2. Las señales de fuente individuales se recuperaron escalando cada subbanda de la señal de suma con g,(n) y aplicando un filtro de descorrelación con respuesta de impulso h(n).
K f» = W Ug<n) S (n)) = hrfn}
imagen7
(16}
5
10
15
20
25
30
35
40
45
50
55
donde * es el operador de convolución lineal y E{s, (n)} se calcula con la información secundaria por
I ¿Pi(fl)
E{^- («)} =1/V1 + D"l0 10 para / = 1 o 10 10 £{S;2(h)} de otra manera (17)
Como filtros de descorrelación h(n), pueden usarse filtros peine complementarios, filtros paso todo, filtros de retardo o filtros con respuestas de impulso aleatorio. El objetivo para el procesamiento de descorrelación es reducir la correlación entre las señales, mientras no modifican cómo se perciben las formas de onda individuales. Diferentes técnicas de descorrelación provocan diferentes artefactos. Los filtros peine complementarios provocan coloración. Todas las técnicas descritas dispersan la energía de transitorios en el tiempo que provocan artefactos tales como los “ecos previos”. Dado su potencial para los artefactos, las técnicas de descorrelación deben aplicarse tan poco como sea posible. La siguiente sección describe técnicas y estrategias que requieren menos procesos de descorrelación
que la simple generación de señales independientes s ,(n).
A
Un esquema alternativo para la generación de las señales s ,{n) se muestra en la Figura 9. En primer lugar se aplana el espectro de s(n) por medio del cálculo del error de predicción lineal e(n). A continuación, dados los filtros de LPC estimados en el codificador, f, se calculan filtros todo polo correspondientes como la transformación z inversa de
imagen8
Los filtros resultantes todo polo resultantes, representan la envolvente espectral de las señales de fuente. Si se transmite información secundaria distinta de los parámetros LPC, los parámetros de LPC en primer lugar necesitan calcularse como una función de la información secundaria. Como en el otro esquema, los filtros de descorrelación hi se usan para obtener las señales de fuente independientes.
IV. Implementaciones que consideran restricciones prácticas
En la primera parte de esta sección, se proporciona un ejemplo de implementación, usando un esquema de síntesis de BCC, como un mezclador de estéreo o de múltiples canales. Esto es particularmente interesante, puesto que un esquema de síntesis de tipo BCC es parte de una norma de la ISO/IEC MPEG próxima, indicada “codificación de
audio espacial”. Las señales de fuente s i(n) no se calculan explícitamente en este caso, dando como resultado complejidad computacional reducida. Igualmente, este esquema ofrece el potencial de mejor calidad de audio, puesto que de manera efectiva es necesaria menos descorrelación que en el caso donde se calculan explícitamente
las señales de fuente s ,(n).
La segunda parte de esta sección analiza los problemas cuando el esquema propuesto se aplica con cualquier mezclador y no se aplica en absoluto procesamiento de descorrelación. Un esquema de este tipo tiene una menor complejidad que un esquema con procesamiento de descorrelación, pero puede tener otros inconvenientes, como se analizará.
A
Idealmente, se podría aplicar el procesamiento de descorrelación, de modo que la s ¡(n) generada pueda considerarse independiente. Sin embargo, puesto que el procesamiento de descorrelación es problemático en términos de introducción de artefactos, se podría aplicar el procesamiento de descorrelación tan poco como sea posible. La tercera parte de esta sección analiza cómo la cantidad del procesamiento de descorrelación problemático
puede reducirse, mientras se consiguen beneficios como si la s ,(n) generada fuera independiente.
A
A. Implementación sin cálculo explícito de s ,{n)
A
La mezcla se aplica directamente a la señal de suma transmitida (1), sin el cálculo explícito de s ¡(n). Se usa un esquema de síntesis de BCC para este fin. A continuación, consideramos el caso de estéreo, pero todos los principios descritos pueden aplicarse para la generación de señales de audio de múltiples canales igualmente.
Un esquema de síntesis de BCC de estéreo (o un esquema de “estéreo paramétrico), aplicado por el procesamiento de la señal de suma (1), se muestra en la Figura 10. Sería conveniente que el esquema de síntesis de BCC generara una señal que se perciba de manera similar como la señal de salida de un mezclador, como se muestra en la Figura 4. Esto es así, cuando ICTD, ICLD e ICC entre los canales de salida del esquema de síntesis de BCC son similares como los indicadores correspondientes que aparecen entre los canales de la señal de salida del mezclador
5
10
15
20
25
30
35
40
45
50
55
Se usa la misma información secundaria que para el esquema general previamente descrito, permitiendo que el descodificador calcule los valores de potencia de subbanda de tiempo corto E{s ,2(n)} de las fuentes. Dado E{s ,2(n)}, los factores de ganancia gi y g2 en la Figura 10 se calculan como,
imagen9
de modo que la potencia de subbanda de salida e ICLD (7) son los mismos que para el mezclador en la Figura 4. La ICTD T(n) se calcula de acuerdo con (10), determinando los retardos Di y D2 en la Figura 10,
Df(n) = max{ -7fnJf o} n) - max{ Tfn), 0} (19J
La ICC c(n) se calculan de acuerdo con (9), determinando el procesamiento de descorrelación en la Figura 10. Este procesamiento de descorrelación (síntesis de ICC) se describe en [1]. Las ventajas de aplicar el procesamiento de descorrelación a los canales de salida del mezclador, en comparación con aplicarlo para la generación
independiente de s ,(n) son:
• Normalmente, el número de señales M de fuente es mayor que el número de canales N de salida de audio. Así, el número de canales de audio independiente que se necesitan generar es menor cuando se descorrelacionan N canales de salida a diferencia de descorrelacionar M señales de fuente.
• A menudo, los N canales de salida de audio se correlacionan (ICC > 0) y pueden aplicarse menos procesamientos de descorrelación que serían necesarios para generar M o N canales independientes.
Debido a los menores procesamientos de descorrelación se espera mejor calidad de audio.
Se espera mejor calidad de audio cuando se restringen los parámetros del mezclador de modo que 1 r es
decir, Gi = 0 dB. En este caso, la potencia de cada fuente en la señal de suma transmitida (1) es la misma que la potencia de la misma fuente en la señal de salida del descodificador mixto. La señal de salida del descodificador (Figura 10) es la misma que si la señal de salida del mezclador (Figura 4) se codificara y descodificara por un codificador/ descodificador de BCC en este caso. Así, se puede esperar una calidad igualmente similar.
El descodificador puede no sólo determinar la dirección en la que ha de aparecer cada fuente, sino también puede
a] +fi,2 >1
variarse la ganancia de cada fuente. La ganancia se aumenta seleccionando seleccionando ^ ^ (G¡ < 0 dB).
(Gi > 0 dB) y se reduce
B. Uso de procesamiento sin de descorrelación
La restricción de la técnica previamente descrita es que la mezcla se lleva a cabo con un esquema de síntesis de BCC. Se puede imaginar la implementación no sólo de la síntesis de ICTD, ICLD e ICC sino adicionalmente el procesamiento de efectos en la síntesis de BCC.
Sin embargo, puede ser deseable que puedan usarse los mezcladores y procesadores de efectos existentes. Esto también incluye los mezcladores de síntesis del campo de onda (a menudo indicados como “convolucionadores”).
Para usar mezcladores y procesadores de efectos existentes, se calculan las s ¡(n) explícitamente y se usan como si fueran las señales de fuente originales.
Cuando no se aplica el proceso de descorrelación (h(n) = S (n) en (16) puede conseguirse también buena calidad de audio. Es un compromiso entre los artefactos introducidos debido al procesamiento de descorrelación y los
artefactos debido al hecho de que las señales de fuente s ,(n) están correlacionadas. Cuando no se usa el procesamiento de descorrelación, la imagen espacial auditiva resultante puede sufrir inestabilidad [1]. Pero el mezclador puede introducir por sí mismo alguna descorrelación cando se usan reverberadores u otros efectos y de esta manera hay menos necesidad del procesamiento de descorrelación.
A
Si se generan s ,{n) sin el procesamiento de descorrelación, el nivel de las fuentes depende de la dirección en la que se mezclaran en relación con otras fuentes. Reemplazando los algoritmos panorámicos de amplitud en los
5
10
15
20
25
30
35
40
45
50
55
mezcladores existentes con un algoritmo que compensa esta dependencia de nivel, puede evitarse el efecto negativo de la dependencia de la sonoridad en los parámetros de mezcla. Un algoritmo de amplitud de compensación de nivel se muestra en la Figura 11 que tiene como objetivo compensar la dependencia del nivel de fuente en los parámetros de mezcla. Dados los factores de ganancia de un algoritmo panorámico de amplitud convencional (por ejemplo, Figura 4), a, y bi los pesos de la Figura 11, a¡ y ^/se calculan por
imagen10
Obsérvese que a¡ y se calculan de modo que la potencia de subbanda de salida sea la misma que si s ,(n) fuera independiente en cada subbanda.
C. Reducir la cantidad de procesamiento de descorrelación
A
Como se mencionó previamente, la generación de s ,(n) independiente es problemática. Aquí, se describen estrategias para aplicar menor procesamiento de descorrelación, mientras se logra efectivamente un efecto similar
A
como si s i(n) fuera independiente.
Consideremos, por ejemplo, un sistema de síntesis de campo de ondas, como se muestra en la Figura 12. Se
A
indican las posiciones de fuente virtuales deseadas para s-i, S2, ...S6 {M= 6). Una estrategia para calcular s ,(n) (16) sin generar M señales completamente independientes completamente:
1. Generar grupos de índices de fuentes que corresponden a las fuentes cercanas entre sí. Por ejemplo, en la Figura 8 estas pueden ser {1}, {2, 5}, {3}, y {4, 6}.
2. En cada momento en cada subbanda seleccionar el índice de fuente de la fuente más intensa,
W = max£Ifí(ít}} (21)
Aplicar el procesamiento no de descorrelación para los índices de fuente en parte del grupo que contiene imax, es decir, h(n) = S(n).
3. Para cada otro grupo, seleccionar la misma h(n) dentro del grupo.
El algoritmo descrito modifica los mínimos componentes de señal más intensos. Adicionalmente, se reduce el número de diferentes h(n) que se usa. Esto es una ventaja debido a que la descorrelación es más fácil que se necesiten generar menos canales independientes. La técnica descrita también es aplicable cuando se mezclan señales de audio estéreo o de múltiples canales.
V. Escalabilidad en términos de calidad y tasa de bits
El esquema propuesto transmite solamente la suma de todas las señales de fuente, que puede codificarse con un codificador de audio mono convencional. Cuando no es necesaria compatibilidad hacia atrás y la capacidad está disponible para la transmisión/almacenamiento de más de una forma de onda de audio, el esquema propuesto puede escalarse para el uso con más de un canal de transmisión. Esto se implementa generando varias señales de suma con diferentes subconjuntos de las señales de fuente dadas, es decir, a cada subconjunto de las señales de fuente se aplica individualmente el esquema de codificación propuesto. La calidad de audio se espera mejore conforme se aumenta el número de canales de audio transmitidos, debido a que han de generarse menos canales independientes por la descorrelación de cada canal transmitido (en comparación con el caso de un canal transmitido).
VI. Compatibilidad hacia atrás a formatos de audio estéreo y envolvente existentes
Consideremos el siguiente escenario de entrega de audio. Un consumidor obtiene una señal estéreo o envolvente de múltiples canales de máxima calidad (por ejemplo, por medio de un CD, DVD de audio o tienda de música en línea, etc.). El objetivo es entregar opcionalmente al consumidor la flexibilidad de generar una mezcla personalizada del contenido de audio obtenido, sin comprometer la calidad de reproducción estéreo/envolvente convencional.
Esto se implementa entregando al consumidor (por ejemplo, como una opción de compra opcional en una tienda de
11
5
10
15
20
25
30
35
40
45
50
55
60
música en línea) un flujo de bits de información secundaria que permitir el cálculo de s (n) como una función de la señal de audio de estéreo o de múltiples canales dada. El algoritmo de mezcla del consumidor se aplica a
continuación a s ,(n). A continuación, se describen dos posibilidades para calculars (n), dadas las señales de audio de estéreo y de múltiples canales.
A. Estimar la suma de las señales de fuente en el receptor
La manera más sencilla de usar el esquema de codificación propuesto con una transmisión de audio estéreo o de múltiples canales se ilustra en la Figura 13, donde y(n) (1 < i < L) son los canales L de la señal de audio estéreo o de múltiples canales. La señal de suma de las fuentes se estima por la mezcla descendente de los canales transmitidos a un canal de audio sencillo. La mezcla descendente se lleva a cabo por medio del cálculo de la suma de los canales y(n) (1 < u < L) o pueden aplicarse técnicas más sofisticadas.
Paja el mejor rendimiento, se recomienda que el nivel de las señales de fuente se adapta antes de la estimación de E{s,2(n)}, (6) de modo que la relación de potencia entre las señales de fuente se aproxime a la relación de potencia con la que están contenidas las fuentes en la señal de estéreo o de múltiples canales dada. En este caso, la mezcla descendente de los canales transmitidos es una estimación relativamente buena de la suma de las fuentes (1) (o su versión escalada).
Puede usarse un proceso automatizado para ajustar el nivel de las entradas de la señal de fuente del codificador s(n) antes del cálculo de la información secundaria. Este proceso adaptado en el tiempo estima el nivel en el que está contenida cada señal de fuente en la señal de estéreo o de múltiples canales dada. Antes del cálculo de la información secundaria, el nivel de cada señal de fuente se adapta a continuación en el tiempo ajustado de modo que sea igual al nivel en el que la fuente está contenida en la señal de audio estéreo o de múltiples canales.
B. Usar los canales transmitidos individualmente
La Figura 14 muestra una implementación diferente del esquema propuesto con la transmisión de señal envolvente estéreo o de múltiples canales. Aquí, los canales transmitidos no se mezclan de manera descenderte, pero se usan
individuamente para la generación de s ,(n). Más generalmente, las señales de subbanda s ,(n) se calculan por
st(n) = h, {n) * w}(n)yt(n)) {22)
donde w{n) son pesos que determinan las combinaciones lineales específicas de las subbandas de los canales
transmitidos. Las combinaciones lineales se escogen de modo que s ,{n) ya esté tan descorrelacionada como sea posible. Así, ninguna o sólo una pequeña cantidad del procesamiento de descorrelación necesita aplicarse, lo cual es favorable, como se analizó anteriormente.
VII. Aplicaciones
Previamente mencionamos un número de aplicaciones para los esquemas de codificación propuestos. Aquí, resumimos estas y mencionamos unas cuantas aplicaciones más.
A. Codificación de audio para mezcla
Cada vez que las señales de fuente de audio necesiten almacenarse o transmitirse antes de mezclarlas a las señales de audio estéreo, de múltiples canales o de síntesis de campo de onda, puede aplicarse el esquema propuesto. Con la técnica anterior, un codificador de audio mono podría aplicarse a cada señal de fuente independientemente, dando como resultado una tasa de bits que escala con el número de fuentes. El esquema del código propuesto puede codificar un alto número de señales de fuente de audio con un codificador de audio mono único más la información secundaria de tasa de bits relativamente baja. Como se describe en la Sección V, la calidad de audio puede mejorarse usando más de un canal transmitido, si la memoria/capacidad para hacerlo está disponible.
B. Remezcla con metadatos
Como se describió en la Sección VI, las señales de audio estero y de múltiples canales existentes, pueden remezclarse con la ayuda de información secundaria adicional (es decir “metadatos”). En oposición a comercializar únicamente contenido de audio mezclado de estéreo y de múltiples canales optimizado, los meta-datos pueden comercializarse permitiendo a un usuario la remezcla de su música estéreo y de múltiples canales. Esto puede usarse también, por ejemplo, para atenuar las voces en una canción para karaoke o para atenuar instrumentos
5
10
15
20
25
30
35
40
45
50
55
60
específicos para tocar un instrumento junto con la música.
Aún si el almacenamiento no fuera un problema, el esquema descrito sería muy atractivo para posibilitar la mezcla de música personalizada. Es decir, debido a que probable que la industria de la música nunca estará dispuesta a suministrar parte de las grabaciones de múltiples pistas. Existe demasiado peligro para el abuso. El esquema propuesto posibilita la capacidad de la remezcla sin apartar las grabaciones de múltiples pistas.
Asimismo, tan pronto como se remezclan las señales de estéreo o de múltiples canales, tiene lugar un cierto grado de reducción de calidad, haciendo la distribución ilegal de la remezcla menos atractiva.
c. Estéreo/múltiples canales a la conversión de síntesis de campo de ondas
Otra aplicación para el esquema descrito en la Sección VI se describe a continuación. Las películas en movimiento que acompañan el audio de estéreo y de múltiples canales (por ejemplo 5.1 envolvente), pueden extenderse para representación de síntesis de campo de ondas, agregando información secundaria. Por ejemplo Dolby AC-3 (audio para DVD) puede extenderse para el audio de codificación de compatibilidad hacia atrás 5.1 para los sistemas de síntesis del campo de ondas, es decir los DVD reproducen sonido envolvente 5.1 en reproductores heredados convencionales y sonido de síntesis de campo de ondas en una nueva generación de reproductores que soportan el procesamiento de la información secundaria.
VIII: evaluaciones subjetivas
Implementamos un descodificador de tiempo real de los algoritmos propuestos en la Sección IV-A y IV-B. Se usa un banco de filtros STFT basado en FFT. Se usa una FFT de 1024 puntos y un tamaño de ventana de STFT de 768 (con relleno de cero). Los coeficientes espectrales se agrupan juntos de modo que cada grupo represente la señal con un ancho de banda de dos veces el ancho de anda rectangular equivalente (ERB). El oyente informal reveló que la calidad de audio no mejora notablemente cuando se escoge la resolución de frecuencia mayor. Una resolución de frecuencia menor es favorable puesto que da como resultado que han de transmitirse menos parámetros.
Para cada fuente, la panorámica de amplitud/retardo y ganancia pueden ajustarse individualmente. El algoritmo se usó para codificar varias grabaciones de audio de múltiples pistas de 12 a 14 pistas.
El descodificador permite mezcla envolvente de 5.1 usando un mezclador de panorámica de amplitud de base vectorial (VBPAP). La dirección y ganancia de cada señal de fuente puede ajustarse. El software permite la conmutación al vuelo entre la mezcla de la señal de fuente codificada y la mezcla de las señales de fuente discretas originales.
El oyente casual normalmente revela nada o poca diferencia entre la mezcla de las señales de fuente originales o codificadas si para cada fuente se usa una ganancia G¡ de cero dB. Cuanto más ganancias de fuente se varían, más cantidad de artefactos ocurren. La amplificación y atenuación leves de las fuentes (por ejemplo, hasta ± 6 dB) sonarán aún bien. Un escenario crítico es cuando todas la fuentes se mezclan en un lado y solamente una fuente al otro lado opuesto. En este caso, la calidad de audio puede reducirse, dependiendo de la mezcla específica y las señales de fuente.
IX. conclusiones
Se propuso un esquema de codificación para la codificación de conjunta de las señales de fuente de audio, por ejemplo los canales de una grabación de múltiples pistas. El objetivo no es codificar las formas de onda de la señal de fuente con alta calidad, caso en el que la codificación conjunta proporcionaría mínima ganancia de codificación, puesto que las fuentes de audio son normalmente independientes. El objetivo es que cuando las señales de fuente codificadas se mezclan se obtenga una señal de audio de alta calidad. Considerando las propiedades estadísticas de las señales de fuente, las propiedades de los esquemas de mezcla, y la escucha espacial, muestran que se logra una mejora en la ganancia de codificación significativa por la codificación conjunta de las señales de fuente.
La mejora en la ganancia de codificación se debe al hecho que solamente se transmite una forma de onda de audio.
Adicionalmente, se transmite la información secundaria, que representa las propiedades estadísticas de las señales de fuente que son factores relevantes que determinan la percepción espacial de la señal mezclada final.
La tasa de información secundaria es de alrededor de 3 kbs por señal de fuente. Cualquier mezclador puede aplicarse con las señales de fuente codificadas, por ejemplo mezcladores de síntesis de estéreo, de múltiples canales o de campo de onda.
Es fácil escalar el esquema propuesto para la tasa de bits mayor y la calidad por medio de transmitir más de un
canal de audio. Asimismo, se propuso una variación del esquema, que permite la remezcla de la señal de audio de estéreo o de múltiples canales dada (e incluso cambiando el formato de audio, por ejemplo la síntesis de estéreo a múltiples canales o al campo de ondas).
5 Las aplicaciones del esquema propuesto son múltiples. Por ejemplo MPEG-4 puede ampliarse con el esquema propuesto para reducir la tasa de bits cuando más de un “objeto de audio natural” (señal de fuente) necesita transmitirse. Igualmente, el esquema propuesto ofrece la representación compacta del contenido de los sistemas de síntesis de campo de ondas. Como se mencionó, las señales etéreo o de múltiples canales existentes pueden complementarse con la información secundaria para permitir que el usuario remezcle las señales a su gusto.
10
Referencias
[1] C. Faller, Parametric Coding of Spatial Audio, Ph.D. thesis, Swiss Federal Institute of Technology Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062.
15 [2] C. Faller y F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications”, IEEE Trans. on Speech
and Audio Proc., vol. 11, n.° 6, noviembre de 2003

Claims (8)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    REIVINDICACIONES
    1. Método de codificación de una pluralidad de señales de fuente (si(n), S2(n),- -, SM(n)), que comprende:
    calcular, para la pluralidad de señales de fuente (si(n),S2(n),--,SM(n)), información estadística que representa envolventes espectrales de las señales de fuente (si(n),S2(n),--,SM(n)) de la pluralidad de señales de fuente, en el que la información estadística comprende adicionalmente, para cada señal de fuente de la pluralidad de señales de fuente y para cada subbanda de una pluralidad de subbandas, información sobre una función de autocorrelación de subbanda normalizada ((®(n,e)) de una señal de fuente específica; y
    transmitir la información estadística que representa envolventes espectrales de las señales de fuente (si(n),S2(n),--,SM(n)) y la información sobre la función de autocorrelación de subbanda normalizada para cada señal de fuente de la pluralidad de señales de fuente y para cada subbanda de la pluralidad de subbandas como metadatos para una señal de audio derivada de la pluralidad de señales de fuente (si(n),S2(n),--,SM(n)).
  2. 2. Aparato para codificar una pluralidad de señales de fuente (si(n),S2(n),--,SM(n)), en el que el aparato es operativo para:
    calcular, para la pluralidad de señales de fuente (si(n),S2(n),--,SM(n)), información estadística que representa envolventes espectrales de las señales de fuente (si(n),S2(n),---,SM(n)), en el que la información estadística comprende adicionalmente, para cada señal de fuente de la pluralidad de señales de fuente y para cada subbanda de una pluralidad de subbandas, información sobre una función de autocorrelación de subbanda normalizada ((0,(n,e)) de una señal de fuente específica; y
    transmitir la información estadística que representa envolventes espectrales de las señales de fuente (si(n),S2(n),--,SM(n)) y la información sobre la función de autocorrelación de subbanda normalizada para cada señal de fuente de la pluralidad de señales de fuente y para cada subbanda de la pluralidad de subbandas como metadatos para una señal de audio derivada de la pluralidad de señales de fuente (si(n),S2(n),--,SM(n)).
  3. 3. El aparato de la reivindicación 2,
    en el que el cálculo comprende calcular la información sobre la función de autocorrelación de subbanda normalizada de la señal de fuente específica durante un intervalo de tiempo determinado mezclando parámetros para mezclar la pluralidad de señales de fuente, y en el que el transmisor está configurado para transmitir la información sobre la función de autocorrelación de subbanda normalizada de la señal de fuente específica para el intervalo de tiempo como metadatos para una señal de audio derivada de la pluralidad de señales de fuente.
  4. 4. El aparato de la reivindicación 2,
    en el que la transmisión comprende transmitir, como la información transmitida, un índice que identifica una función de autocorrelación predefinida en un conjunto almacenado de funciones de autocorrelación predefinidas.
  5. 5. El aparato de la reivindicación 2,
    en el que el cálculo comprende calcular la función de autocorrelación de subbanda normalizada de la señal de fuente específica para un intervalo de tiempo determinado basándose en la siguiente ecuación:
    min ^ s e <max {])} - T¡
    en la que e es el intervalo de tiempo, l"1' es un parámetro de mezcla más pequeño entre los parámetros de
    mezcla para las señales de fuente de la pluralidad de señales de fuente, m?x ^ ^ es un parámetro de mezcla mayor entre los parámetros de mezcla para las señales de fuente de la pluralidad de señales de fuente, y Ti es un parámetro de mezcla para la señal de fuente específica bajo consideración.
  6. 6. El aparato de la reivindicación 2,
    en el que el cálculo comprende calcular la función de autocorrelación de subbanda normalizada de la señal de fuente específica para un intervalo de tiempo basándose en la siguiente ecuación:
    imagen1
    en el que 0(n,e) es la función de autocorrelación de subbanda normalizada de la señal de fuente específica, n es un índice de tiempo, e es el intervalo de tiempo, E es un operador de expectativa, i es un índice que identifica una señal de fuente, y si es la señal de fuente específica bajo consideración.
    i5
  7. 7. El aparato de la reivindicación 2,
    en el que el cálculo comprende calcular, para una fuente, como la información estadística que representa envolventes espectrales de las señales de fuente (si(n),S2(n), -,SM(n)), una potencia de subbanda para cada subbanda de la pluralidad de subbandas, o parámetros de filtro de malla o parámetros de LPC o parámetros de par 5 espectral de línea, y
    en el que la transmisión comprende transmitir, como la información estadística que representa envolventes espectrales de las señales de fuente (si(n),S2(n),--,SM(n)), las potencias de subbanda para cada subbanda de la pluralidad de subbandas para cada señal de fuente o los parámetros de filtro de malla o los parámetros de LPC o los parámetros del par espectral de línea como los metadatos.
    10
  8. 8. El aparato de la reivindicación 2,
    en el que el calculador está configurado para seleccionar, en cada tiempo y para cada subbanda, la potencia de la fuente más intensa y para reducir el límite de la potencia de subbanda correspondiente de todas las otras fuentes a un valor de 24 dB inferior a la fuente de subbanda más intensa para limitar un rango dinámico de un cuantificador.
    15
    16
ES10179108.5T 2005-02-14 2006-02-13 Codificación conjunta paramétrica de fuentes de audio Active ES2682073T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05101055 2005-02-14
EP05101055A EP1691348A1 (en) 2005-02-14 2005-02-14 Parametric joint-coding of audio sources

Publications (1)

Publication Number Publication Date
ES2682073T3 true ES2682073T3 (es) 2018-09-18

Family

ID=34938725

Family Applications (2)

Application Number Title Priority Date Filing Date
ES10179108.5T Active ES2682073T3 (es) 2005-02-14 2006-02-13 Codificación conjunta paramétrica de fuentes de audio
ES06708241T Active ES2374434T3 (es) 2005-02-14 2006-02-13 Codificación paramétrica conjunta de fuentes de audio.

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES06708241T Active ES2374434T3 (es) 2005-02-14 2006-02-13 Codificación paramétrica conjunta de fuentes de audio.

Country Status (18)

Country Link
US (12) US8355509B2 (es)
EP (4) EP1691348A1 (es)
JP (2) JP5179881B2 (es)
KR (1) KR100924577B1 (es)
CN (2) CN102123341B (es)
AT (1) ATE531035T1 (es)
AU (3) AU2006212191B2 (es)
BR (5) BR122018072501B1 (es)
CA (2) CA2707761C (es)
ES (2) ES2682073T3 (es)
HK (2) HK1107723A1 (es)
IL (1) IL185192A (es)
MX (1) MX2007009559A (es)
NO (1) NO338701B1 (es)
PL (1) PL1844465T3 (es)
RU (1) RU2376654C2 (es)
TR (1) TR201811059T4 (es)
WO (1) WO2006084916A2 (es)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
CN101151660B (zh) * 2005-03-30 2011-10-19 皇家飞利浦电子股份有限公司 多通道音频编码器、解码器以及相应方法
AU2006266579B2 (en) 2005-06-30 2009-10-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
AR061807A1 (es) * 2006-07-04 2008-09-24 Coding Tech Ab Compresor de filtro y metodo para fabricar respuestas al impulso de filtro de subbanda comprimida
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
RU2551797C2 (ru) 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
KR100891665B1 (ko) 2006-10-13 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
EP2054875B1 (en) * 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
JP4838361B2 (ja) 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
WO2008063035A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
WO2008066364A1 (en) 2006-12-01 2008-06-05 Lg Electronics Inc. Apparatus and method for inputting a command, method for displaying user interface of media signal, and apparatus for implementing the same, apparatus for processing mix signal and method thereof
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
CA2670864C (en) 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP2010516077A (ja) * 2007-01-05 2010-05-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101542595B (zh) * 2007-02-14 2016-04-13 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5285626B2 (ja) * 2007-03-01 2013-09-11 ジェリー・マハバブ 音声空間化及び環境シミュレーション
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
KR20080082924A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호의 처리 방법 및 장치
JP2010521866A (ja) 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
KR101312470B1 (ko) 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
JP5291096B2 (ja) * 2007-06-08 2013-09-18 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
CN102436822B (zh) 2007-06-27 2015-03-25 日本电气株式会社 信号控制装置及其方法
CN101715643B (zh) 2007-06-27 2012-12-26 日本电气株式会社 多地点连接装置、信号分析以及装置、其方法及程序
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
WO2009031871A2 (en) 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2128856A4 (en) * 2007-10-16 2011-11-02 Panasonic Corp DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2337328B1 (en) * 2008-10-20 2014-12-03 Huawei Device Co., Ltd. Method, system and apparatus for processing 3d audio signal
CN101547265B (zh) * 2008-10-20 2014-07-30 华为终端有限公司 一种3d音频会议的信号处理方法、设备以及***
EP2353161B1 (en) 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
KR101137361B1 (ko) * 2009-01-28 2012-04-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
BR122019023924B1 (pt) 2009-03-17 2021-06-01 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
US9351070B2 (en) * 2009-06-30 2016-05-24 Nokia Technologies Oy Positional disambiguation in spatial audio
KR101341536B1 (ko) * 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2485213A1 (en) 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
TWI651005B (zh) 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
GB2511003B (en) 2011-09-18 2015-03-04 Touchtunes Music Corp Digital jukebox device with karaoke and/or photo booth features, and associated methods
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及***
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN107403624B (zh) 2012-05-18 2021-02-12 杜比实验室特许公司 用于音频信号的动态范围调整及控制的方法和设备
CN102695116B (zh) * 2012-05-30 2015-06-03 蒋憧 一种声音采集、处理和再现方法
RU2635884C2 (ru) 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
CN104956689B (zh) * 2012-11-30 2017-07-04 Dts(英属维尔京群岛)有限公司 用于个性化音频虚拟化的方法和装置
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
KR101619760B1 (ko) 2013-03-28 2016-05-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
EP3840421A1 (en) * 2013-04-26 2021-06-23 Sony Corporation Audio processing device and audio processing system
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP3028273B1 (en) * 2013-07-31 2019-09-11 Dolby Laboratories Licensing Corporation Processing spatially diffuse or large audio objects
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3127110B1 (en) 2014-04-02 2018-01-31 Dolby International AB Exploiting metadata redundancy in immersive audio metadata
RU2571921C2 (ru) * 2014-04-08 2015-12-27 Общество с ограниченной ответственностью "МедиаНадзор" Способ фильтрации бинауральных воздействий в аудиопотоках
CN104036788B (zh) * 2014-05-29 2016-10-05 北京音之邦文化科技有限公司 音频文件的音质识别方法及装置
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
CN112802496A (zh) 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
KR20240050483A (ko) 2015-06-17 2024-04-18 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
CA2997334A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10424307B2 (en) * 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
JP6787183B2 (ja) * 2017-02-28 2020-11-18 ヤマハ株式会社 音制御装置及び方法
US10893373B2 (en) * 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
AU2020253755A1 (en) 2019-04-05 2021-11-04 Tls Corp. Distributed audio mixing
CN113096672B (zh) * 2021-03-24 2022-06-14 武汉大学 一种应用于低码率下的多音频对象编解码方法

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPH0650439B2 (ja) * 1986-07-17 1994-06-29 日本電気株式会社 マルチパルス駆動形音声符号化器
JP2659605B2 (ja) * 1990-04-23 1997-09-30 三菱電機株式会社 音声復号化装置及び音声符号化・復号化装置
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5712437A (en) * 1995-02-13 1998-01-27 Yamaha Corporation Audio signal processor selectively deriving harmony part from polyphonic parts
JP2766466B2 (ja) * 1995-08-02 1998-06-18 株式会社東芝 オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
DE19632734A1 (de) * 1996-08-14 1998-02-19 Thomson Brandt Gmbh Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6005948A (en) * 1997-03-21 1999-12-21 Sony Corporation Audio channel mixing
JPH11109995A (ja) * 1997-10-01 1999-04-23 Victor Co Of Japan Ltd 音響信号符号化器
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6188987B1 (en) * 1998-11-17 2001-02-13 Dolby Laboratories Licensing Corporation Providing auxiliary information with frame-based encoded audio information
CA2859333A1 (en) * 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
TW510143B (en) * 1999-12-03 2002-11-11 Dolby Lab Licensing Corp Method for deriving at least three audio signals from two input audio signals
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7212872B1 (en) * 2000-05-10 2007-05-01 Dts, Inc. Discrete multichannel audio with a backward compatible mix
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
AU2003216682A1 (en) * 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
JP4013822B2 (ja) 2002-06-17 2007-11-28 ヤマハ株式会社 ミキサ装置およびミキサプログラム
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
CN100594744C (zh) * 2002-09-23 2010-03-17 皇家飞利浦电子股份有限公司 声音信号的生成
WO2004036955A1 (en) * 2002-10-15 2004-04-29 Electronics And Telecommunications Research Institute Method for generating and consuming 3d audio scene with extended spatiality of sound source
US7243064B2 (en) * 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
US20040117186A1 (en) * 2002-12-13 2004-06-17 Bhiksha Ramakrishnan Multi-channel transcription-based speaker separation
US20040176950A1 (en) * 2003-03-04 2004-09-09 Docomo Communications Laboratories Usa, Inc. Methods and apparatuses for variable dimension vector quantization
JP2007507726A (ja) * 2003-09-29 2007-03-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の符号化
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
CA2566366C (en) * 2004-05-19 2013-08-06 Matsushita Electric Industrial Co. Ltd. Audio signal encoder and audio signal decoder
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US20060009274A1 (en) * 2004-07-08 2006-01-12 Richard Finocchio Method of playing a game of roulette
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR20070051864A (ko) * 2004-08-26 2007-05-18 마츠시타 덴끼 산교 가부시키가이샤 멀티 채널 신호 부호화 장치 및 멀티 채널 신호 복호 장치
US20060048226A1 (en) * 2004-08-31 2006-03-02 Rits Maarten E Dynamic security policy enforcement
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
WO2006126115A2 (en) * 2005-05-25 2006-11-30 Koninklijke Philips Electronics N.V. Predictive encoding of a multi channel signal
AU2006266579B2 (en) * 2005-06-30 2009-10-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
US8332229B2 (en) * 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
TWI590234B (zh) * 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置

Also Published As

Publication number Publication date
US10339942B2 (en) 2019-07-02
EP1691348A1 (en) 2006-08-16
TR201811059T4 (tr) 2018-08-27
CA2707761A1 (en) 2006-08-17
WO2006084916A2 (en) 2006-08-17
AU2009200407B2 (en) 2010-11-25
US20070291951A1 (en) 2007-12-20
AU2009200407A1 (en) 2009-02-26
US20190066706A1 (en) 2019-02-28
AU2006212191B2 (en) 2009-01-15
CN102123341A (zh) 2011-07-13
KR100924577B1 (ko) 2009-11-02
PL1844465T3 (pl) 2012-03-30
US10657975B2 (en) 2020-05-19
US8355509B2 (en) 2013-01-15
HK1159392A1 (en) 2012-07-27
BRPI0607166B1 (pt) 2019-06-25
US20220392467A1 (en) 2022-12-08
NO20073892L (no) 2007-11-14
US20200234721A1 (en) 2020-07-23
US20190066705A1 (en) 2019-02-28
US20190066703A1 (en) 2019-02-28
EP1844465A2 (en) 2007-10-17
EP1995721A1 (en) 2008-11-26
US10643629B2 (en) 2020-05-05
BRPI0607166A2 (pt) 2009-08-11
IL185192A (en) 2014-02-27
JP5638037B2 (ja) 2014-12-10
US20220392469A1 (en) 2022-12-08
BR122018072501B1 (pt) 2019-07-09
US20120314879A1 (en) 2012-12-13
US11621006B2 (en) 2023-04-04
NO338701B1 (no) 2016-10-03
WO2006084916A3 (en) 2007-03-08
US20220392466A1 (en) 2022-12-08
JP2012234192A (ja) 2012-11-29
BR122018072505B1 (pt) 2019-07-16
RU2007134215A (ru) 2009-03-20
US11682407B2 (en) 2023-06-20
BR122018072508B1 (pt) 2019-07-16
HK1107723A1 (en) 2008-07-11
CN101133441A (zh) 2008-02-27
CN102123341B (zh) 2013-07-03
KR20070107698A (ko) 2007-11-07
CA2597746C (en) 2016-02-16
JP5179881B2 (ja) 2013-04-10
AU2010236053A1 (en) 2010-11-18
US11621005B2 (en) 2023-04-04
CN101133441B (zh) 2011-05-25
US20220392468A1 (en) 2022-12-08
CA2597746A1 (en) 2006-08-17
AU2010236053B2 (en) 2012-10-18
US10643628B2 (en) 2020-05-05
RU2376654C2 (ru) 2009-12-20
US10650835B2 (en) 2020-05-12
AU2006212191A1 (en) 2006-08-17
ES2374434T3 (es) 2012-02-16
CA2707761C (en) 2014-04-29
US9668078B2 (en) 2017-05-30
US11495239B2 (en) 2022-11-08
MX2007009559A (es) 2007-12-10
EP1844465B1 (en) 2011-10-26
BR122018072504B1 (pt) 2019-07-09
IL185192A0 (en) 2008-01-06
US11621007B2 (en) 2023-04-04
US20170103763A9 (en) 2017-04-13
US20170055095A1 (en) 2017-02-23
JP2008530603A (ja) 2008-08-07
EP2320414B1 (en) 2018-05-02
EP2320414A1 (en) 2011-05-11
US20190066704A1 (en) 2019-02-28
ATE531035T1 (de) 2011-11-15

Similar Documents

Publication Publication Date Title
ES2682073T3 (es) Codificación conjunta paramétrica de fuentes de audio
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial