ES2271847T3 - Procedimiento de tratamiento de datos sonoros comprimidos, por espacializacion. - Google Patents
Procedimiento de tratamiento de datos sonoros comprimidos, por espacializacion. Download PDFInfo
- Publication number
- ES2271847T3 ES2271847T3 ES04712070T ES04712070T ES2271847T3 ES 2271847 T3 ES2271847 T3 ES 2271847T3 ES 04712070 T ES04712070 T ES 04712070T ES 04712070 T ES04712070 T ES 04712070T ES 2271847 T3 ES2271847 T3 ES 2271847T3
- Authority
- ES
- Spain
- Prior art keywords
- signals
- matrix
- filter
- filters
- restitution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 64
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 30
- 230000006835 compression Effects 0.000 claims abstract description 22
- 238000007906 compression Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000008447 perception Effects 0.000 claims abstract description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 42
- 238000003786 synthesis reaction Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 31
- 238000012546 transfer Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 21
- 238000000354 decomposition reaction Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 239000000706 filtrate Substances 0.000 claims description 3
- 229940050561 matrix product Drugs 0.000 claims 2
- 238000011282 treatment Methods 0.000 description 67
- 238000004364 calculation method Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000017105 transposition Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 102100036305 C-C chemokine receptor type 8 Human genes 0.000 description 1
- 101000837299 Euglena gracilis Trans-2-enoyl-CoA reductase Proteins 0.000 description 1
- 101000716063 Homo sapiens C-C chemokine receptor type 8 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procedimiento de tratamiento de datos sonoros, mediante una restitución espacializada de señales acústicas, en el cual: a) se obtiene, para cada señal acústica (Si), al menos un primer juego (Cni) y un segundo juego (Dni) de términos ponderativos, representativos de una dirección de percepción de dicha señal acústica por un oyente; y b) se aplica a al menos dos juegos de unidades de filtrado, dispuestas en paralelo, dichas señales acústicas, para emitir al menos una primera señal de salida (L) y una segunda señal de salida (R) que corresponda cada una a una combinación lineal de las señales acústicas ponderadas por el conjunto de los términos ponderativos respectivamente del primer juego (Cni) y del segundo juego (Dni) y filtrados por dichas unidades de filtrado, caracterizado porque cada señal acústica en la etapa a) es al menos parcialmente codificada en compresión y se expresan bajo la forma de un vector de sub-señales asociados a sub-bandas de frecuencias respectivas, y porque cada unidad de filtrado es dispuesta para efectuar un filtrado matricial aplicado a cada vector, en el espacio de las sub-bandas frecuenciales.
Description
Procedimiento de tratamiento de datos sonoros
comprimidos, por espacialización.
La invención concierne a un tratamiento de datos
sonoros mediante una restitución espacializada de señales
acústicas.
La aparición de nuevos formatos de codificación
de datos en las redes de telecomunicaciones permite la transmisión
de escenas sonoras complejas y estructuradas que comprenden fuentes
sonoras múltiples. En general, esas fuentes sonoras son
espacializadas, es decir que las mismas son tratadas de manera de
aportar un rendimiento final realista en términos de posición de
las fuentes y de efecto de sala (reverberación). Es el caso por
ejemplo de la codificación según la norma MPEG-4
que permite transmitir escenas sonoras complejas que comprenden
sonidos comprimidos o no, y sonidos de síntesis, a los cuales están
asociados parámetros de espacialización (posición, efecto de la
sala circundante). Esta transmisión se hace en redes con exigencias,
y el rendimiento sonoro depende del tipo de terminal utilizada. En
una terminal móvil de tipo PDA por ejemplo (por "Personal Digital
Assistant"), se utilizará de manera preferencial un casco de
auriculares. Las exigencias de este tipo de terminales (potencia de
cálculo, tamaño de memoria) hacen difícil la implementación de
técnicas de espacialización del sonido.
La espacialización sonora recubre dos tipos de
tratamientos diferentes. A partir de una señal de audio monofónica,
se busca dar la ilusión a un oyente que la o las fuentes sonoras
están en posiciones bien precisas del espacio (que se desea poder
modificar en tiempo real), e inmersas en un espacio que tiene
propiedades acústicas particulares (reverberación, u otros
fenómenos acústicos tales como la oclusión). A modo de ejemplo, en
terminales de telecomunicación de tipo móvil, es natural considerar
un rendimiento sonoro con un casco de auriculares estereofónico. La
técnica de posicionamiento de las fuentes sonoras más eficaz es
entonces la síntesis binaural.
La misma consiste, para cada fuente sonora, en
filtrar la señal monofónica por funciones de transferencia
acústicas, llamadas HRTFs (del inglés "Head Related Transfer
Functions"), que modelan las transformaciones engendradas por
el torso, la cabeza y el pabellón de la oreja del oyente en una
señal proveniente de una fuente sonora. Para cada posición del
espacio, se puede medir un par de esas funciones (una para la oreja
derecha, una para la oreja izquierda). Las HRTFs son por lo tanto
funciones de una posición espacial, más particularmente de un ángulo
de azimut \theta y de un ángulo de elevación \varphi, y de la
frecuencia sonora f. Se obtiene entonces, para un sujeto dado, una
base de datos de funciones de transferencia acústicas de N
posiciones del espacio para cada oreja, en las cuales un sonido
puede ser "colocado" (o "espacializado"
según la terminología utilizada en lo adelante.
Se indica que un tratamiento de espacialización
similar consiste en una síntesis llamada "transaural", en la
cual se prevé simplemente más de dos alto-parlantes
en un dispositivo de restitución (que se presenta entonces bajo una
forma diferente a un casco con dos auriculares izquierdo y
derecho).
De manera clásica, la puesta en práctica de esta
técnica se hace bajo la forma llamada "bicanal"
(tratamiento representado esquemáticamente en la figura 1 relativo
al arte anterior). Para cada fuente sonora a posicionar según el
par de ángulos azimutal y de elevación [\theta, \varphi], se
filtra la señal de la fuente por la función HRTF de la oreja
izquierda y por la función HRTF de la oreja derecha. Los dos canales
izquierdo y derecho emiten señales acústicas que son entonces
difundidas a las orejas del oyente con un casco de auriculares
estereofónico. Esta síntesis binaural bicanal es de tipo llamado a
continuación "estático", ya que en ese caso, las
posiciones de las fuentes sonoras no evolucionan en el tiempo.
Si se desea, por el contrario, hacer variar las
posiciones de las fuentes sonoras en el espacio en el curso del
tiempo (síntesis "dinámica"), los filtros utilizados para
modelar las HRTFs (oreja izquierda y oreja derecha) deben ser
modificados. Sin embargo, esos filtros como son en su mayoría del
tipo de respuesta a un impulso finito (FIR) o de respuesta a un
impulso infinito (IIR), aparecen problemas de discontinuidades de
las señales de salida izquierda y derecha, provocando
"clicks" audibles. La solución técnica clásicamente
empleada para paliar este problema es hacer girar dos juegos de
filtros binaurales en paralelo. El primer juego simula una posición
[\theta1, \varphi1] en el instante t1, el segundo una posición
[\theta2, \varphi2] en el instante t2. La señal que da la
ilusión de un desplazamiento entre las posiciones en los instantes
t1 y t2 es entonces obtenida por una fusión encadenada de las
señales izquierda y derecha que resultan de los procesos de
filtración para la posición [\theta1, \varphi1] y para la
posición [\theta2, \varphi2]. Así, la complejidad del sistema de
posicionamiento de las fuentes sonoras es entonces multiplicado por
dos (dos posiciones en dos instantes) con relación en el caso
estático.
A fin de paliar este problema, han sido
propuestas técnicas de descomposición lineal de las HRTFs
(tratamiento representado esquemáticamente en la figura 2 relativo
la arte anterior). Una de las ventajas de estas técnicas es que las
mismas permiten una puesta en práctica donde la complejidad depende
mucho menos del número total de fuentes a posicionar en el espacio.
En efecto, esas técnicas permiten descomponer las HRTFs en una base
de funciones comunes a todas las posiciones del espacio, y no
dependen por lo tanto de la frecuencia, lo que permite reducir el
número de filtros necesarios. Así, ese número de filtros es fijo,
independientemente del número de fuentes y/o del número de
posiciones de fuentes a prever. La adición de una fuente sonora
suplementaria sólo adiciona entonces operaciones de multiplicación
por un juego de coeficientes de ponderación y por un retardo
\tau_{i}, esos coeficientes y ese retardo sólo dependen de la
posición [\theta,\varphi]. Por lo tanto ningún filtro
suplementario es necesario.
Esas técnicas de descomposición lineal tienen
también un interés en el caso de la síntesis binaural dinámica (es
decir cuando la posición de las fuentes sonoras varía en el curso
del tiempo). En efecto, en esta configuración, no se hacen variar
los coeficientes de los filtros, sino los valores de los
coeficientes de ponderación y de retardos en función únicamente de
la posición. El principio descrito anteriormente de descomposición
lineal de los filtros de rendimiento sonoro se generaliza a otras
aproximaciones, como se verá a continuación.
Además, en los diferentes servicios de
comunicación de grupo (tele-conferencia,
audioconferencia, videoconferencia, u otro) o de comunicación "en
flujo continuo" (del inglés "STREAMING"), para
adaptar un flujo binario a la amplitud del ancho de banda
proporcionada por una red, los flujos de audio y/o de palabra son
transmitidos bajo un formato codificado comprimido. Se considera a
continuación que flujos inicialmente comprimidos por codificadores
de tipo frecuenciales (o por transformada en frecuencia) tales como
aquellos que operan según la norma MPEG-1 (Layer
I-II-III), la norma
MPEG-2/4 AAC, la norma MPEG-4
TwinVQ, la norma Dolby AC-2, la norma Dolby
AC-3, o también una norma UIT-T
G.722.1 en codificación de palabra, o también el procedimiento de
codificación TDAC de la Solicitante. La utilización de tales
codificadores equivale a efectuar primero una transformación
tiempo/frecuencia en bloques de la señal temporal. Los parámetros
obtenidos son seguidamente cuantificados y codificados para ser
transmitidos en una trama con otras informaciones complementarias
necesarias para la codificación. Esta transformación
tiempo/frecuencia puede tomar la forma de un banco de filtros en
sub-bandas de frecuencias o también una
transformada de tipo MDCT (por "Modified Discrete
Cosinus Transform"). A continuación, se designará por los
mismos términos "campo de sub-bandas" un campo
definido en un espacio de sub-bandas frecuenciales,
un campo de un espacio temporal transformado en frecuencia o un
campo frecuencial.
Para efectuar la espacialización sonora de tales
flujos, el método clásico consiste en hacer primero una
descodificación, realizar el tratamiento de espacialización sonoro
en las señales temporales, y luego re-codificar las
señales que resulten, para una transmisión hacia una terminal de
restitución. Esta sucesión de etapas, fastidiosas, es a menudo muy
costosa en términos de potencia de cálculo, de la memoria necesaria
para el tratamiento y de la demora algorítmica introducida. La
misma por lo tanto no se adapta a las exigencias impuestas por las
máquinas donde se efectúa el tratamiento y a las exigencias de
comunicación.
Por ejemplo, el documento
US-6,470,087 describe un dispositivo para la
restitución de una señal acústica multicanal comprimida en dos
alto-parlantes. Todos los cálculos son hechos en
toda la banda de frecuencia de la señal de entrada, que debido a
esto debe estar completamente descodificada.
La presente invención mejora la situación.
Uno de los objetivos de la presente invención es
proponer un procedimiento de tratamiento de datos sonoros que
reagrupa las operaciones de codificación/descodificación en
compresión de los flujos de audio y de espacialización de dichos
flujos.
Otro objetivo de la presente invención es
proponer un procedimiento de tratamiento de datos sonoros, por
espacialización, que se adapta a un número variable (dinámicamente)
de fuentes sonoras a posicionar.
Un objetivo general de la presente invención es
proponer un procedimiento de tratamiento de datos sonoros, por
espacialización, que permita una gran difusión de datos sonoros
espacializados, en particular una difusión para el gran público,
los dispositivos de restitución estando simplemente equipados con un
descodificador de las señales recibidas y de
alto-parlantes de restitución.
La misma propone para esto un procedimiento de
tratamiento de datos sonoros, para una restitución espacializada de
señales acústicas, en el que:
a) se obtiene, para cada señal acústica, al
menos un primer juego y un segundo juego de términos ponderativos,
representativos de una dirección de percepción de dicha señal
acústica por un oyente;
b) y se aplica a al menos dos juegos de unidades
de filtrado, dispuestas en paralelo, dichas señales acústicas, para
emitir al menos una primera señal de salida y una segunda señal de
salida que corresponda cada una a una combinación lineal de las
señales acústicas ponderadas por el conjunto de los términos
ponderativos respectivamente del primer juego y del segundo juego y
filtrados por dichas unidades de filtrado.
Cada señal acústica en la etapa a) del
procedimiento en el sentido de la invención es al menos parcialmente
codificada en compresión y se expresan bajo la forma de un vector
de sub-señal asociados a sub-bandas
de frecuencias respectivas, y cada unidad de filtrado es dispuesta
para efectuar un filtrado matricial aplicado a cada vector, en el
espacio de las sub-bandas frecuenciales.
Ventajosamente, cada filtrado matricial es
obtenido por conversión, en el espacio de las
sub-bandas frecuenciales, de un filtrado de
respuesta a un impulso (finito o infinito) definido en el espacio
temporal. Tal filtro de respuesta a un impulso es preferentemente
obtenido por determinación de una función de transferencia acústica
que depende de una dirección de percepción de un sonido y de la
frecuencia de ese sonido.
\newpage
Según una característica ventajosa de la
invención, esas funciones de transferencia se expresan por una
combinación lineal de términos que dependen de la frecuencia y
ponderados por términos que dependen de la dirección, lo que
permite, como se indicó anteriormente, por una parte tratar un
número variable de señales acústicas en la etapa a) y, por otra
parte, hacer variar dinámicamente la posición de cada fuente en el
tiempo. Además, tal expresión de las funciones de transferencia
"integra" el retardo interaural que es clásicamente
aplicado a una de las señales de salida, con relación a la otra,
antes de la restitución, en los tratamientos binaurales. A este
efecto, se prevén matrices de filtros de ganancias asociadas a cada
señal.
Así, dichas primera y segunda señales de salida
están preferentemente destinadas a ser descodificadas en primera y
segunda señales de restitución, la combinación lineal precitada
teniendo ya en cuenta un defasaje temporal entre esas primera y
segunda señales de restitución, de forma ventajosa.
Finalmente, entre la etapa de
recepción/descodificación de las señales recibidas por un
dispositivo de restitución y la etapa de restitución por sí misma,
se puede no prever ninguna etapa suplementaria de espacialización
sonora, ese tratamiento de espacialización siendo completamente
efectuado río arriba y directamente sobre señales codificadas.
Según una de las ventajas que proporciona la
presente invención, la asociación de técnicas de descomposición
lineal de las HRTFs a las técnicas de filtrado en el campo de las
sub-bandas permite aprovechar ventajas de las dos
técnicas para llegar a sistemas de espacialización sonora de poca
complejidad y de memoria reducida para señales de audio codificadas
múltiples.
En efecto, en una arquitectura
"bicanal" clásica, el número de filtros a utilizar es
función del número de fuentes a posicionar. Como se indicó
anteriormente, ese problema no se encuentra en una arquitectura
basada en la descomposición lineal de las HRTFs. Esta técnica es
por lo tanto preferible en términos de potencia de cálculo, pero
también de espacio de memoria necesario para el almacenamiento de
los filtros binaurales. En fin, esta arquitectura permite
administrar de manera óptima la síntesis binaural dinámica, ya que
la misma permite efectuar el "fading" entre dos
instantes t1 y t2 en coeficientes que solo dependen de la posición,
y no necesitan por lo tanto dos juegos de filtros en paralelo.
Según otra ventaja que proporciona la presente
invención, el filtrado directo de las señales en el campo codificado
permite la economía de una descodificación completa por flujo de
audio antes de proceder a la espacialización de las fuentes, lo que
implica una ganancia considerable en complejidad.
Según otra ventaja que proporciona la presente
invención, la espacialización sonora del flujo de audio puede
intervenir en diferentes puntos de una cadena de transmisión
(servidores, nodos de red o terminales). La naturaleza de la
aplicación y la arquitectura de la comunicación utilizados pueden
favorecer un caso u otro. Así, en un contexto de
tele-conferencia, el tratamiento de espacialización
es preferiblemente efectuado al nivel de las terminales en una
arquitectura descentralizada y, por el contrario, al nivel del punto
de audio (o MCU por "Multipoint Control Unit") en una
arquitectura centralizada. Para aplicaciones de
"streaming" audio, específicamente en terminales
móviles, la espacialización puede ser realizada en el servidor, como
en la terminal, o también durante la creación del contenido. En
esos diferentes casos, una disminución de la complejidad del
tratamiento y también de la memoria necesaria para el
almacenamiento de los filtros HRTF es siempre apreciada. Por
ejemplo, para terminales móviles (teléfonos portátiles de segunda y
tercera generaciones, PDA, o micro-ordenadores de
bolsillo) que tienen exigencias fuertes en término de capacidad de
cálculo y de tamaño de memoria, se prevé preferentemente un
tratamiento de espacialización directamente al nivel de un servidor
de contenidos.
La presente invención puede encontrar así
aplicaciones en el campo de la transmisión de flujo de audio
múltiples incluidos en escenas sonoras estructuradas, como lo prevé
la norma MPEG-4.
Otras características, ventajas y aplicaciones
de la invención aparecerán con el examen de la descripción
detallada a continuación, y de los dibujos anexos en los que:
- la figura 1 ilustra esquemáticamente un
tratamiento que corresponde a una síntesis binaural
"bicanal" estática para señales audionuméricas
temporales S_{i}, del arte anterior;
- la figura 2 representa esquemáticamente una
puesta en práctica de la síntesis binaural basada en la
descomposición lineal de las HRTFs para señales audionuméricas
temporales no codificadas del arte anterior;
- la figura 3 representa esquemáticamente un
sistema, en el sentido del arte anterior, de espacialización
binaural de N fuentes de audio inicialmente codificadas, y luego
completamente descodificadas para el tratamiento de espacialización
en el campo temporal y seguidamente re-codificadas
para una transmisión a uno o varios dispositivos de restitución,
aquí a partir de un servidor;
- la figura 4 representa esquemáticamente un
sistema, en el sentido de la presente invención, de espacialización
binaural de N fuentes de audio parcialmente descodificadas para el
tratamiento de espacialización en el campo de las
sub-bandas y seguidamente
re-codificadas completamente para la transmisión a
uno o varios dispositivos de restitución, aquí a partir de un
servidor;
- la figura 5 representa esquemáticamente un
tratamiento de espacialización sonora en el campo de las
sub-bandas, en el sentido de la invención, basado
en la descomposición lineal de los HRTFs en el contexto
binaural;
- la figura 6 representa esquemáticamente un
tratamiento de codificación/descodificación para espacialización,
conducido en el campo de las sub-bandas y basado en
una descomposición lineal de funciones de transferencia en el
contexto ambisónico, en una variante de realización de la
invención;
- la figura 7 representa esquemáticamente un
tratamiento de espacialización binaural de N fuentes de audio
codificadas, en el sentido de la presente invención, efectuado ante
una terminal de comunicación, según una variante del sistema de la
figura 4;
- la figura 8 representa esquemáticamente una
arquitectura de un sistema de tele-conferencia
centralizado, con un punto de audio entre una pluralidad de
terminales; y
- la figura 9 representa esquemáticamente un
tratamiento, en el sentido de la presente invención, de
espacialización de (N-1) fuentes de audio
codificadas entre N fuentes a la entrada de un punto de audio de un
sistema según la figura 8, efectuado ante ese punto de audio, según
una variante del sistema de la figura 4.
Se hace referencia primeramente a la figura 1
para describir un tratamiento clásico de síntesis binaural
"bicanal". Ese tratamiento consiste en filtrar la señal
de las fuentes (S_{i}) que se desea posicionar en una posición
seleccionada en el espacio por las funciones de transferencia
acústicas izquierda (HRTF_1) y derecha (HRTF_r) correspondiente a la
dirección (\thetai,\varphii) apropiadas. Se obtienen dos señales
que son entonces adicionadas a las señales izquierdas y derechas que
resultan de la espacialización de las otras fuentes, para dar las
señales globales L y R difundidas en las orejas izquierda y derecha
de un oyente. El número de filtros necesarios es entonces de 2.N
para una síntesis binaural estática y de 4.N para una síntesis
binaural dinámica, N siendo el número de flujo de audio a
espacializar.
Se hace referencia ahora a la figura 2 para
describir un tratamiento clásico de síntesis binaural basada en la
descomposición lineal de las HRTFs. Aquí, cada filtro HRTF es
primero descompensado en un filtro de fase mínima, caracterizado
por su módulo, y en un retardo puro \taui. Las dependencias
espaciales y frecuenciales de los módulos de las HRTFs son
separadas gracias a una descomposición lineal. Esos módulos de las
funciones de transferencia HRTFs se escriben entonces como una suma
de funciones espaciales C_{n}(\theta,\varphi) y de
filtros de reconstrucción L_{n}(f), como se expresa a
continuación:
\vskip1.000000\baselineskip
Ec[1]|HRTF(\theta,\varphi,f)|
=
\sum^{p}_{n=1}C_{n}(\theta,\varphi).L_{n}(f)
Cada señal de una fuente S_{i} a espacializar
(i=1,..,N) es ponderada por coeficientes
C_{ni}(\theta,\varphi) (n=1,...,P) sacados de la
descomposición lineal de las HRTFs. Esos coeficientes tienen por
particularidad de depender solamente de la posición
[\theta,\varphi] donde se desea colocar la fuente, y no de la
frecuencia f. El número de esos coeficientes depende del número P de
vectores de base que se han conservado para la reconstrucción. Las
N señales de todas las fuentes ponderadas por el coeficiente
"direccional" C_{ni} son entonces adicionadas (para el
canal derecho y el canal izquierdo, separadamente), y luego
filtradas por el filtro correspondiente al enésimo vector de base.
Así, contrariamente a la síntesis binaural "bicanal", la
adición de una fuente suplementaria no necesita la adición de dos
filtros adicionales (a menudo de tipo FIR o IIR). Los P filtros de
base son en efecto compartidos para todas las fuentes presentes.
Esta puesta en práctica es llamada "multicanal". Además,
en el caso de la síntesis binaural dinámica, es posible hacer variar
los coeficientes C_{ni}(\theta,\varphi) sin aparición
de clicks a la salida del dispositivo. En ese caso, solamente 2.P
filtros son necesarios, mientras que 4.N filtros serían necesarios
para la síntesis bicanal.
En la figura 2, los coeficientes C_{ni}
corresponden a los coeficientes direccionales para la fuente i en
la posición (\theta_{i},\varphi_{i}) y para el filtro de
reconstrucción n. Se denota C para la vía izquierda (L) y D para la
vía derecha (R). Se indica que el principio de tratamiento de la vía
derecha R es el mismo que aquel de la vía izquierda L. Sin embargo,
las flechas en trazos de puntos para el tratamiento de la vía
derecha no han sido representadas por cuestiones de claridad del
dibujo. Entre las dos líneas verticales en trazo discontinuo de la
figura 2, se define entonces un sistema denotado I, del tipo
representado en la figura 3.
Sin embargo, antes de referirse a la figura 3,
se indica que diferentes métodos han sido propuestos para determinar
las funciones espaciales y los filtros de reconstrucción. Un primer
método está basado en una descomposición llamada de
Karhunen-Loeve y es descrito específicamente en el
documento WO94/10816. Otro método reposa en el análisis en
componentes principales de los HRTFs y es descrito en WO96/13962. El
documento FR-2782228 más reciente describe también
tal puesta en práctica.
En el caso en el que una tratamiento de
espacialización de ese tipo se hace al nivel de la terminal de
comunicación, una etapa de descodificación de las N señales es
necesario antes del tratamiento de espacialización propiamente
dicho. Esta etapa requiere recursos de cálculo considerables (lo que
es problemático en las terminales de comunicación actuales
específicamente de tipo portátil). Además, esta etapa implica un
plazo en las señales tratadas, lo que entorpece la interactividad de
la comunicación. Si la escena sonora transmitida comprende un gran
número de fuentes (N), la etapa de descodificación puede de hecho
devenir más costosa en recursos de cálculo que la etapa de
espacialización sonora propiamente dicha. En efecto, como se indicó
anteriormente, el costo de cálculo de la síntesis binaural
"multicanal" depende solamente muy poco de fuentes
sonoras a espacializar.
El costo de cálculo de la operación de
espacialización de los N flujos de audio codificados (en la síntesis
multicanal de la figura 2) puede por lo tanto deducirse de las
etapas siguientes (para la síntesis de uno de los dos canales de
rendu izquierdo o derecho):
- -
- descodificación (para N señales),
- -
- aplicación del retardo interaural \tau_{i},
- -
- multiplicación por las ganancias posicionales C_{ni} (PxN ganancias para el conjunto de las N señales),
- -
- sumatoria de las N señales para cada filtro de base de índice n,
- -
- filtrado de las P señales por los filtros de base,
- -
- y sumatoria de las P señales de salida de los filtros de base.
En el caso en el que la espacialización no se
hace al nivel de una terminal sino al nivel de un servidor (caso de
la figura 3), o también en un nodo de una red de comunicación (caso
de un punto de audio en tele-conferencia), es
necesario además adicionar una operación de codificación completa de
la señal de salida.
Con referencia a la figura 3, la espacialización
de N fuentes sonoras (que forman por ejemplo parte de una escena
sonora compleja de tipo MPEG4) necesita por lo tanto:
- -
- una descodificación completa de las N fuentes de audio S_{1}, ..., S_{i},..., S_{N} codificadas a la entrada del sistema representado (denotado "Sistema I") para obtener N flujos de audio decodificados, correspondientes por ejemplo a señales PCM (por "Pulse Code Modulation"),
- -
- un tratamiento de espacialización en el campo temporal ("Sistema I") para obtener dos señales espacializadas L y R,
- -
- y seguidamente una remodificación completa bajo la forma de canales izquierdo y derecho L y R, encaminados en la red de comunicación para ser recibidos por uno o varios dispositivos de restitución.
De esta forma, la descodificación de N flujos
codificados es necesaria antes de la etapa de espacialización de
las fuentes sonoras, lo que implica un aumento del costo de cálculo
y la adición de un plazo debido al tratamiento del descodificador.
Se indica que las fuentes de audio iniciales son generalmente
almacenadas directamente bajo formato codificado, en los servidores
de contenido actuales.
Se indica además que para una restitución en más
de dos alto-parlantes (síntesis transaural o también
en el contexto "ambisónico" que se describe a
continuación), el número de señales que resultan del tratamiento de
espacialización es generalmente superior a dos, lo que aumenta
también el costo de cálculo para re-codificar
completamente esas señales antes de su transmisión por la red de
comunicación.
Se hace referencia ahora a la figura 4 para
describir una puesta en práctica del procedimiento en el sentido de
la presente invención.
La misma consiste en asociar la implementación
"multicanal" de la síntesis binaural (figura 2) con las
técnicas de filtrado en el campo transformado (campo llamado
"sub-bandas") a fin de no tener que
realizar N operaciones de descodificación completas antes de la
etapa de espacialización. Se reduce así el costo de cálculo global
de la operación. Esta "integración" de las operaciones de
codificación y de espacialización puede ser efectuada en el caso de
un tratamiento al nivel de una terminal de comunicación o de un
tratamiento al nivel de un servidor como es representado en la
figura 4.
Las diferentes etapas de tratamiento de los
datos así como la arquitectura del sistema son descritas en detalles
a continuación.
En el caso de una espacialización de señales de
audio codificadas múltiples, al nivel del servidor como en el
ejemplo representado en la figura 4, una operación de
descodificación parcial es también necesaria. Sin embargo, esta
operación es mucho menos costosa que la operación de descodificación
en un sistema convencional tal como el representado en la figura 3.
Aquí, esta operación consiste principalmente en recuperar los
parámetros de las sub-bandas a partir del flujo de
audio binario, codificado. Esta operación depende del codificador
inicial utilizado. La misma puede consistir por ejemplo en una
descodificación entrópica seguida de una cuantificación inversa
como en un codificador MPEG-1 Layer III. Una vez que
esos parámetros de las sub-bandas son encontrados,
el tratamiento es efectuado en el campo de las
sub-bandas, como se verá a continuación.
El costo de cálculo global de la operación de
espacialización de los flujos de audio codificados es entonces
considerablemente reducido. En efecto, la operación inicial de
descodificación en un sistema convencional es reemplazada por una
operación de descodificación parcial de complejidad mínima. La carga
de cálculo en un sistema en el sentido de la invención deviene
sensiblemente constante en función del número de flujo de audio que
se desea espacializar. Con relación a los sistemas convencionales,
se obtiene una ganancia en términos de costo de cálculo que deviene
entonces proporcional al número de flujo de audio que se desea
espacializar. Además, la operación de descodificación parcial
implica un plazo de tratamiento inferior a la operación de
descodificación completa, lo que es particularmente interesante en
un contexto de comunicación interactivo.
El sistema para la puesta en práctica del
procedimiento según la invención, que efectúa la espacialización en
el campo de las sub-bandas, es denotado "Sistema
II" en la figura 4.
Se describe a continuación la obtención de los
parámetros en el campo de las sub-bandas a partir de
respuestas a impulso binaurales.
De manera clásica, las funciones de
transferencia binaurales o HRTFs son accesibles bajo la forma de
respuesta a impulsos temporales. Esas funciones están constituidas
en general por 256 muestras temporales, a una frecuencia de
muestreo de 44,1 kHz (típico en el campo del audio). Esas respuestas
a impulsos pueden ser sacadas de medidas o de simulaciones
acústicas.
Las etapas de pre-tratamiento
para la obtención de los parámetros en el campo de las
sub-bandas son preferentemente las siguientes:
- -
- extracción del retardo interaural a partir de respuestas a impulsos binaurales h_{1}(n) y h_{r}(n) (si se dispone de D direcciones del espacio medidas, se obtiene un vector de D valores de retardo interaural ITD (expresado en segundos));
- -
- modelación de las respuestas a impulsos binaurales bajo la forma de filtros en fase mínima;
- -
- seleccionar el número de vectores de base (P) que se desean conservar para la descomposición lineal de las HRTFs;
- -
- descomposición lineal de las respuestas en fase mínima según la relación Ec[1] anterior (se obtienen así los D coeficientes direccionales C_{ni} y D_{ni} que sólo dependen de la posición de la fuente sonora a espacializar y los P vectores de base que sólo dependen de la frecuencia);
- -
- modelación de los filtros de base L_{n} y R_{n} bajo la forma de filtros IIR o FIR;
- -
- cálculo de matrices de filtros de ganancias G_{i} en el campo de las sub-bandas a partir de los D valores de ITD (esos retardos ITD son entonces considerados como filtros FIR destinados a ser transportados en el campo de las sub-bandas, como se verá a continuación. En el caso general, G_{i} es una matriz de filtros. Los D coeficientes direccionales C_{ni} y D_{ni} a aplicar en el campo de las sub-bandas son escalares de iguales valores que los C_{ni} y D_{ni} respectivamente en el campo temporal);
- -
- transposición de los filtros de base L_{n} y R_{n}, inicialmente bajo la forma de IIR o FIR, en el campo de las sub-bandas (esta operación da matrices de filtros, denotados a continuación L_{n} y R_{n}, a aplicar en el campo de las sub-bandas. El método para efectuar esta transposición es indicado a continuación).
Se remarcará que las matrices de filtros G_{i}
aplicadas de manera independiente a cada fuente
"integran" una operación clásica de cálculo de retardo
para la adición del retardo interaural entre una señal L_{i} y
una señal R_{i} a restituir. En efecto, en el campo temporal, se
prevén clásicamente líneas de retardo \tau_{i} (figura 2) a
aplicar a una señal "oreja izquierda" con relación a la
señal "oreja derecha". En el campo de las
sub-bandas, se prevé más bien tal matriz de filtros
G_{i}, los cuales permiten además adicionar ganancias (por ejemplo
en energía) de ciertas fuentes con relación a las otras.
En el caso de una transmisión a partir de un
servidor hacia terminales de restitución, todas esas etapas son
efectuadas ventajosamente fuera de la línea. Las matrices de filtros
anteriores son por lo tanto calculadas una vez y después almacenadas
definitivamente en la memoria del servidor. Se notará en particular
que el juego de coeficientes de ponderación C_{ni}, D_{ni} se
mantiene ventajosamente invariable del campo temporal al campo de
las sub-bandas.
Para técnicas de espacialización basadas en el
filtrado por filtros HRTFs y la adición del retardo ITD (por
"Interaural Time Delay") tal como la síntesis binaural y
transaural, o también filtros de funciones de transferencia en el
contexto ambisónico, se presentó una dificultad para encontrar
filtros equivalentes a aplicar en las muestras en el campo de las
sub-bandas. En efecto, esos filtros sacados del
banco de filtros de análisis deben preferiblemente ser construidos
de manera que las señales temporales izquierda y derecha restituidas
por el banco de filtros de síntesis presenten el mismo rendimiento
sonoro, y sin ningún artefacto, que aquel obtenido por una
espacialización directa sobre una señal temporal. La concepción de
filtros que permiten llegar a tal resultado no es inmediata. En
efecto, la modificación del espectro de la señal aportada por un
filtrado en el campo temporal no puede ser realizado directamente
sobre las señales de las sub-bandas sin tener en
cuenta el fenómeno de recubrimiento de espectro
("aliasing") introducido por el banco de filtros de
análisis. La relación de dependencia entre los componentes de
aliasing de las diferentes sub-bandas es
preferentemente conservada durante la operación del filtrado para
que su supresión sea asegurada por el banco de filtros de
síntesis.
Se describe a continuación un procedimiento para
transportar un filtro S(z), de tipo FIR o IIR, racional (su
transformada en z siendo un cociente de dos polinomios) en el caso
de una descomposición lineal de HRTFs o de funciones de
transferencia de ese tipo, en el campo de las
sub-bandas, para un banco de filtros de M
sub-bandas y de muestreo crítico, definido
respectivamente por sus filtros de análisis y de síntesis
H_{k}(z) y F_{k}(z), donde
0\leqk\leqM-1. Se entiende por "muestreo
crítico" el hecho de que el número del conjunto de muestras
de salidas de las sub-bandas corresponda con el
número de muestras a las entradas. Se supone que ese banco de
filtros también satisface la condición de reconstrucción
perfecta.
Se considera primeramente una matriz de
transferencia S(z) correspondiente al filtro escalar
S(z), que se expresa como sigue:
\vskip1.000000\baselineskip
donde S_{k}(z)
(0\leqk\leqM-1) son los componentes polifasados
del filtro
S(z).
Esos componentes son obtenidos de manera directa
para un filtro FIR. Para los filtros IIR, un método de cálculo es
indicado en:
- [1]
- A. Benjelloun Touimi, "Traitement du signal audio dans le domaine codé: techniques et applications" ("Tratamiento de la señal audio en el campo codificado: técnicas y aplicaciones") tesis de doctorado de la Escuela Nacional Superior de Telecomunicaciones de París, (Anexo A, p.141), Mayo 2001.
Se determinan seguidamente matrices polifasadas,
E(z) y R(z), que corresponden respectivamente a los
bancos de filtros de análisis y de síntesis. Esas matrices son
determinadas definitivamente para el banco de filtros
considerado.
Se calcula entonces la matriz de filtrado en
sub-bandas por la fórmula siguiente:
S_{sb}(z)=z^{k}
E(z)S(z)R(z),
donde z^{k} corresponde a un
avance con K=(L/M)-1 (caracterizando el banco de
filtros utilizado), L siendo la longitud de los filtros de análisis
y de síntesis de los bancos de filtros
utilizados.
Se construye a continuación la matriz
\tilde{S}_{sb}(z) cuyas líneas son obtenidas a partir de
aquellas de S_{sb}(z) como sigue:
[0 ...
S^{sb}_{i1}(z) ... S^{sb}_{ii}(z) ...
S^{sb}_{in}(z) ... 0] ~\hskip0,1cm
(0\leqn\leqM-1),
donde:
- i es el índice de la (i+1)ésima línea y está
comprendido entre 0 y M-1,
- 1 = i-\delta mod[M],
donde \delta corresponde a un número seleccionado de
sub-diagonales adyacentes, la notación
mod[M] correspondiendo a una operación de sustracción módulo
M,
- n = i+\delta mod[M], la notación
mod[M] correspondiendo a una operación de adición módulo
M.
Se indica que el número seleccionado \delta
corresponde al número de bandas que se superponen suficientemente
por un lado con el ancho de banda de un filtro del banco de filtros.
El mismo depende por lo tanto del tipo de bancos de filtros
utilizados en la codificación seleccionada. A título de ejemplo,
para el banco de filtros MDCT, \delta puede ser tomado igual a 2
o 3. Para el banco de filtros Pseudo-QMF de la
codificación MPEG-1, \delta es tomada igual a
1.
Se notará que el resultado de esta transposición
de un filtro de respuesta a un impulso finito o infinito en el
campo de las sub-bandas es una matriz de filtros de
tamaño MxM. Sin embargo, todos los filtros de esa matriz no son
considerados durante el filtrado en sub-bandas.
Ventajosamente, solamente los filtros de la diagonal principal y de
algunas sub-diagonales adyacentes pueden ser
utilizados para obtener un resultado similar a aquel obtenido por
un filtrado en el campo temporal (sin alterar por lo mismo la
calidad de la restitución).
La matriz \tilde{S}_{sb}(z)
resultante de esta transposición, luego reducida, es aquella
utilizada para el filtrado en sub-bandas.
A modo de ejemplo, se indican a continuación las
expresiones de las matrices polifasadas E(z) y R(z)
para un banco de filtros MDCT, ampliamente utilizadas en
codificadores por transformada actuales tales como aquellas que
operan según los estándares MPEG-2/4 AAC, o Dolby
AC-2 & AC-3, o TDAC de la
Solicitante. El tratamiento a continuación puede también adaptarse
bien a un banco de filtros de tipo Pseudo-QMF del
codificador MPEG-1/2 Layer I-II.
Un banco de filtros MDCT es generalmente
definido por una matriz T=[t_{k, \ l}]; de tamaño Mx2M, donde los
elementos se expresan como sigue:
donde h[l] corresponde a la
ventana de ponderación donde una selección posible es la ventana
sinusoidal que se expresa bajo la forma
siguiente:
Las matrices polifasadas de análisis y de
síntesis son entonces dadas respectivamente por las fórmulas
siguientes:
E(z) =
T_{1}J_{M} +
T_{0}J_{M}z^{-1},
R(z) =
J_{M}T_{0}^{T} + J_{M}T_{1}^{T}
z^{-1},
donde 4
corresponde a la matriz anti-identidad de tamaño M x
M y T_{0} y T_{1} son matrices de tamaño M x M que resultan de
la partición
siguiente:
T = [T_{0}
T_{1}]
Se indica que para ese banco de filtros L = 2M y
K = 1.
Para bancos de filtros de tipo
Pseudo-QMF de MPEG-1/2 Layer
I-II, se define una ventana de ponderación
h[i],
i = 0...L-1, y una matriz de modulación en coseno \hat{C} = [c_{kl}], de tamaño M x 2M, donde los coeficientes son dados por:
i = 0...L-1, y una matriz de modulación en coseno \hat{C} = [c_{kl}], de tamaño M x 2M, donde los coeficientes son dados por:
con las relaciones siguientes: L =
2mM y K = 2m -1 donde m es un número entero. Más particularmente en
el caso del codificador MPEG-1/2 Layer
I-II, esos parámetros toman los valores siguientes:
M = 32, L = 512, m = 8 y K =
15.
La matriz polifasada de análisis se expresa
entonces como sigue:
donde g_{0}(z) y
g_{1}(z) son matrices diagonales definidas
por:
\vskip1.000000\baselineskip
con
En la norma MPEG-1 Audio Layer
I-II, se proporcionan típicamente los valores de la
ventana (-1)^{l}h(2lM + k), con 0 \leq k \leq
2M-1, 0 \leq l \leq m-1.
La matriz polifasada de síntesis puede entonces
deducirse simplemente por la fórmula siguiente:
R(z) =
z^{-(2m-1)}E^{T}(z^{-1})
Así, con referencia ahora a la figura 4 en el
seno de la presente invención, se procede a una descodificación
parcial de N fuentes de audio S_{1}..., S_{i},..., S_{N}
codificadas en compresión, para obtener señales S_{1}...,
S_{i},..., S_{N} que corresponden preferentemente con vectores
señales donde los coeficientes son valores afectados cada uno a una
sub-banda. Se entiende por "descodificación
parcial" un tratamiento que permite obtener a partir de las
señales codificadas en compresión tales vectores señales en el campo
de las sub-bandas. Se pueden obtener además
informaciones de posición de las cuales son deducidos valores
respectivos de ganancias G_{1}..., G_{i},..., G_{N} (para la
síntesis binaural) y coeficientes C_{ni} (para la oreja izquierda)
y D_{ni} (para la oreja derecha) para el tratamiento de
espacialización de conformidad a la ecuación Ec[1] dada
anteriormente, como lo muestra la figura 5. Sin embargo, el
tratamiento de espacialización es llevado a cabo directamente en el
campo de las sub-bandas y se aplica las 2P matrices
L_{n} y R_{n} de filtros de base, obtenidos como se indicó
anteriormente, a los vectores señales S_{i} ponderados por los
coeficientes escalares C_{ni} y D_{ni}, respectivamente.
Con referencia a la figura 5, los vectores
señales L y R, que resultan del tratamiento de espacialización en el
campo de las sub-bandas (por ejemplo en un sistema
de tratamiento denotado "Sistema II" en la figura 4) se
expresan entonces por las relaciones siguientes, en una
representación por su transformada en z:
\vskip1.000000\baselineskip
En el ejemplo representado en la figura 4, el
tratamiento de espacialización es efectuado en un servidor unido a
una red de comunicación. Así, esos vectores señales L y R pueden ser
re-codificados completamente en compresión para
difundir las señales comprimidas L y R (canal izquierdo y derecho)
en la red de comunicación y con destino a las terminales de
restitución.
Así, una etapa inicial de descodificación
parcial de las señales codificadas S_{i} es prevista, antes del
tratamiento de espacialización. Sin embargo, esta etapa es mucho
menos costosa y más rápida que la operación de descodificación
completa que sería necesaria en el arte anterior (figura 3). Además,
los vectores señales L y R están ya expresados en el campo de las
sub-bandas y la re-codificación
parcial de la figura 4 para obtener las señales codificadas en
compresión L y R es más rápida y menos costosa que una codificación
completa tal como la representada en la
figura 3.
figura 3.
Se indica que los dos trazos discontinuos
verticales de la figura 5 delimitan el tratamiento de
espacialización efectuado en el "Sistema II" de la
figura 4. Respecto a esto, la presente invención apunta también a
tal sistema que comprende medios de tratamiento de señales
parcialmente codificadas S_{i}, para la puesta en práctica del
procedimiento según la invención.
Se indica que el documento:
- [2]
- "A Generic Framework for Filtering in Subband Domain" A. Benjelloun Touimi, IEEE 9^{th} Workshop on Digital Signal Processing, Hunt, Texas, USA, Octubre 2000,
así como el documento [1] citado
anteriormente, conciernen a un método general de cálculo de una
transposición en el campo de la sub-bandas de un
filtro de respuesta a un impulso finito o
infinito.
Se indica además que técnicas de espacialización
sonora en el campo de las sub-bandas han sido
propuestas recientemente, específicamente en otro documento:
- [3]
- "Subband-Domain Filtering of MPEG Audio Signals", C.A. Lanciani and R. W. Schafer, IEEE Int. Conf. on Acoust., Speech, Signal Proc., 1999.
Este último documento presenta un método
permanente de transponer un filtro de respuesta a un impulso finito
(FIR) en el campo de las sub-bandas de los bancos de
filtros pseudo-QMF del codificador
MPEG-1 Layer I-II y MDCT del
codificador MPEG-2/4 AAC. La operación de filtrado
equivalente en el campo de las sub-bandas es
representado por una matriz de filtros FIR. En particular, esta
proposición se inscribe en el contexto de una transposición de
filtros HRTFs, directamente bajo su forma clásica y no bajo la forma
de una descomposición lineal tal como la expresada por la ecuación
Ec[1] anterior y sobre una base de filtros en el sentido de
la invención. Así, un inconveniente del método en el sentido de
este último documento consiste en que el tratamiento de
espacialización no puede adaptarse a un número cualquiera de fuentes
o de flujo de audio codificados a espacializar.
Se indica que, para una posición dada, cada
filtro HRTF (de orden 200 para un FIR y de orden 12 para un IIR) da
lugar a una matriz de filtros (cuadrada) de dimensión igual al
número de sub-bandas del banco de filtro utilizado.
En el documento [3] citado anteriormente, se debe prever un número
de HRTFs suficiente para representar las diferentes posiciones en
el espacio, lo que plantea un problema de tamaño de memoria si se
desea espacializar una fuente a una posición cualquiera en el
espacio.
Por el contrario, una adaptación de una
descomposición lineal de las HRTFs en el campo de las
sub-bandas, en el sentido de la presente invención,
no presenta ese problema porque el número (P) de matrices de filtros
de base L_{n} y R_{n} es mucho más reducido. Esas matrices son
entonces almacenadas definitivamente en una memoria (del servidor
de contenido o de la terminal de restitución) y permiten un
tratamiento simultaneado de espacialización de un número cualquiera
de fuentes, como es representado en la figura 5.
Se describe a continuación una generalización
del tratamiento de espacialización en el sentido de la figura 5 a
otros tratamientos de rendimiento sonoro, tal como un tratamiento
llamado de "codificación ambisónica". En efecto, un
sistema de rendimiento sonoro puede presentarse de manera general
bajo la forma de un sistema de toma de sonido real o virtual (para
una simulación) que consiste en una codificación del campo sonoro.
Esta fase consiste en registrar p señales sonoras de manera real o
en simular tales señales (codificación virtual) que corresponde al
conjunto de una escena sonora que comprende todos los sonidos, así
como un efecto de sala.
El sistema precitado puede también presentarse
bajo la forma de un sistema de rendimiento sonoro que consiste en
descodificar las señales sacadas de la toma de sonido para
adaptarlas a los dispositivos de traductores de rendimiento sonoro
(tales como una pluralidad de alto-parlantes o un
casco de tipo estereofónico). Se transforman las p señales en n
señales que alimentan los n alto-parlantes.
A modo de ejemplo, la síntesis binaural consiste
en realizar una toma de sonido real, con la ayuda de un par de
micrófonos introducidos en las orejas de una cabeza humana
(artificial o real). Se puede también simular el registro
realizando la convolución de un sonido monofónico con el par de
HRTFs correspondiente a una dirección deseada de a fuente sonora
virtual. A partir de una o varias señales monofónicas que provienen
de fuentes predeterminadas, se obtienen dos señales (oreja
izquierda y oreja derecha) correspondientes a una fase llamada
"de codificación binaural", esas dos señales siendo
simplemente aplicadas seguidamente a un casco de dos auriculares
(tal como un casco estereofónico).
Sin embargo, otras codificaciones y
descodificaciones son posibles a partir de la descomposición de
filtro correspondiente a funciones de transferencia sobre una base
de filtros. Como se indicó anteriormente, las dependencias
espaciales y frecuenciales de las funciones de transferencia, de
tipo HRTFs, son separadas gracias a una descomposición lineal y se
escriben como una suma de funciones espaciales
C_{i}(\theta,\varphi) y de filtros de reconstitución
L_{i}(f) que dependen de la frecuencia:
HRTF
(\theta,\varphi,f) = \sum\limits^{p}_{i=1} C_{i}(\theta,\varphi).
L_{i}(f)
Sin embargo, se indica que esta expresión puede
ser generalizada a cualquier tipo de codificación, para n fuentes
sonoras S_{j}(f) y un formato de codificación que comprende
p señales a la salida, a:
Ec
[2]E_{i}(f) = \sum\limits^{n}_{j=1}
X_{ij}(\theta,\varphi). S_{j}(f), \hskip0,1cm l\leq i\leq
p
donde, por ejemplo en el caso de
una síntesis binaural, X_{ij} puede expresarse bajo la forma de un
producto de los filtros de ganancias G_{j} y de los coeficientes
C_{ij},
D_{ij}.
Se hace referencia a la figura 6 en la cual N
flujos de audio S_{j} representados en el campo de las
sub-bandas después de la codificación parcial,
sufren un tratamiento de espacialización, por ejemplo una
codificación ambisónica, para expedir p señales E_{i} codificadas
en el campo de las sub-bandas. Tal tratamiento de
espacialización respeta por lo tanto el caso general regido por la
ecuación Ec[2] anterior. Se remarcará además en la figura 6
que la aplicación a las señales S_{j} de la matriz de los filtros
G_{j} (para definir el retardo interaural ITD) no es necesario
aquí, en el contexto ambisónico.
Igualmente, una relación general, para un
formato de descodificación que comprende p señales E_{i}(f)
y un formato de rendimiento sonoro que comprende m señales, es dado
por:
Ec[3]D_{j}(f) =
\sum\limits^{p}_{i=1} K_{ji}(f)E_{i}(f), \hskip0,1cm l\leq j
\leq
m
Para un sistema de rendimiento sonoro dado, los
filtros K_{ji}(f) son fijos y dependen, a frecuencia
constante, solamente del sistema de rendimiento sonoro y de su
disposición con relación a un oyente. Esta situación es representada
en la figura 6 (a la derecha del trazo vertical en puntos), en el
ejemplo del contexto ambisónico. Por ejemplo, las señales E_{i}
codificadas espacialmente en el campo de las
sub-bandas son re-codificadas
completamente en compresión, transmitidas en una red de
comunicación, recuperadas en una terminal de restitución,
descodificadas parcialmente en compresión para obtener una
representación en el campo de las sub-bandas.
Finalmente, se encuentran, después de esas etapas, sensiblemente las
mismas señales E_{i} descritas anteriormente, en la terminal. Un
tratamiento en el campo de las sub-bandas del tipo
expresado por la ecuación Ec[3] permite entonces recuperar m
señales D_{j}, espacialmente descodificadas y listas pata ser
restituidas después de la descodificación en compresión.
Claro está, varios sistemas de descodificación
pueden ser dispuestos en serie, según la aplicación prevista.
Por ejemplo, en el contexto ambisónico
bidimensional de orden 1, un formato de codificación con tres
señales W, X, Y para p fuentes sonoras se expresa, para la
codificación, por:
- \quad
- E_{1} = W = \sum^{n}_{j=1}S_{j}
\vskip1.000000\baselineskip
- \quad
- E_{2} = X = \sum^{n}_{j=1}cos(\theta_{j})S_{j}
\vskip1.000000\baselineskip
- \quad
- E_{3} = Y = \sum^{n}_{j=1}sin(\theta_{j})S_{j}
\vskip1.000000\baselineskip
Para la descodificación "ambisónica" ante
un dispositivo de restitución de cinco
alto-parlantes sobre dos bandas de frecuencias [0,
f_{1}] y [f_{1,} f_{2}] con f_{1} = 400 Hz y f_{2}
correspondiendo a un ancho de banda de las señales consideradas, los
filtros K_{ji}(f) tomando los valores numéricos constantes
en esas dos bandas de frecuencia, dados en las tablas I y II a
continuación.
W | X | Y |
0.342 | 0.233 | 0.000 |
0.268 | 0.382 | 0.505 |
0.268 | 0.382 | -0.505 |
0.561 | -0.499 | 0.457 |
0.561 | -0.499 | -0.457 |
W | X | Y |
0.383 | 0.372 | 0.000 |
0.440 | 0.234 | 0.541 |
0.440 | 0.234 | -0.541 |
0.782 | -0.553 | 0.424 |
0.782 | -0.553 | -0.424 |
Claro está, procedimientos de espacialización
diferentes (contexto ambisónico y síntesis binaural y/o transaural)
pueden ser combinados ante un servidor y/o ante una terminal de
restitución, tales procedimientos de espacialización respetando la
expresión general de una descomposición lineal de funciones de
transferencia en el espacio de las frecuencias, como se indicó
anteriormente.
Se describe a continuación una puesta en
práctica del procedimiento en el sentido de la invención en una
aplicación vinculada a una tele-conferencia entre
terminales distantes.
Refiriéndose de nuevo a la figura 4, señales
codificadas (S_{i}) emanan de N terminales distantes. Las mismas
son espacializadas al nivel del servidor de
tele-conferencia (por ejemplo al nivel de un punto
de audio para una arquitectura estrella tal como es representado en
la figura 8), para cada participante. Esta etapa, efectuada en el
campo de las sub-bandas después de una fase de
descodificación parcial, es seguida por una
re-codificación parcial. Las señales así
codificadas en compresión son seguidamente transmitidas por medio de
la red y, desde la recepción por una terminal de restitución, son
descodificadas completamente en compresión y aplicadas a las dos
vías izquierda y derecha l y r, respectivamente, de la terminal de
restitución, en el caso de una espacialización binaural. Al nivel
de las terminales, el sitratamiento de descodificación en compresión
permite así expedir dos señales temporales izquierda y derecha que
contienen la información de posiciones de N locutores distantes y
que alimentan dos alto-parlantes respectivos (casco
de dos auriculares). Claro está, para una espacialización general,
por ejemplo en el contexto ambisónico, m vías pueden ser recuperadas
a la salida del servidor de comunicación, si la
codificación/descodificación en espacialización es efectuada por el
servidor. Sin embargo, es ventajoso, en una variante, prever la
codificación en espacialización ante el servidor y la
descodificación en espacialización ante la terminal a partir de las
p señales codificadas en compresión, por una parte, para limitar el
número de señales a encaminar por medio de la red (en general pm) y,
por otra parte, para adaptar la descodificación espacial a las
características de rendimiento sonoro de cada terminal (por ejemplo
el número de alto-parlantes que comprende, u
otros).
Esta espacialización puede ser estática o
dinámica y, además, interactiva. Así, la posición de los locutores
es fija o puede variar en el curso del tiempo. Si la espacialización
no es interactiva, la posición de los diferentes locutores es fija:
el oyente no puede modificarla. Por el contrario, si la
espacialización es interactiva, cada oyente puede configurar su
terminal para posicionar la voz de los N otros locutores donde lo
desee, sensiblemente en tiempo real.
Con referencia ahora a la figura 7, la terminal
de restitución recibe N flujos de audio (S_{i}) codificados en
compresión (MPEG, AAC, u otros) de una red de comunicación. Después
de una descodificación parcial para obtener los vectores señales
(S_{i}), la terminal ("Sistema II") trata esos vectores
señales para espacializar las fuentes de audio, aquí en síntesis
binaural, en dos vectores señales L y R que son seguidamente
aplicados a bancos de filtros de síntesis en vista de una
descodificación en compresión. Las señales PCM izquierda y derecha,
respectivamente 1 y r, que resultan de esa descodificación son
seguidamente destinadas a alimentar directamente
alto-parlantes. Ese tipo de tratamiento se
adapta
ventajosamente a un sistema de tele-conferencia descentralizada (varias terminales conectadas en modo punto a punto).
ventajosamente a un sistema de tele-conferencia descentralizada (varias terminales conectadas en modo punto a punto).
Se describe a continuación el caso de un
"streaming" o de una telecarga de una escena sonora,
específicamente en el contexto de codificación en compresión según
la norma MPEG-4.
Esta escena puede ser simple, o también compleja
como es común en el marco de transmisiones MPEG-4
donde la escena sonora es transmitida bajo un formato estructurado.
En el contexto MPEG-4, la terminal cliente recibe,
a partir de un servidor multimedia, un flujo binario multiplexado
correspondiente a cada uno de los objetos audio primitivos
codificados, así como instrucciones en cuanto a su composición para
reconstruir la escena sonora. Se entiende por "objeto audio"
un flujo binario elemental obtenido por un codificador
MPEG-4 Audio. La norma MPEG-4
Sistema proporciona un formato especial, llamado
"AudioBIFS" (por "BInary Format for Scene
description"), a fin de transmitir esas instrucciones. El
papel de ese formato es describir la composición
espacio-temporal de los objetos audio. Para
construir la escena sonora y asegurar un cierto rendimiento, esos
diferentes flujos descodificados pueden sufrir un tratamiento
posterior. Particularmente, una etapa de tratamiento de
espacialización sonoro puede ser efectuada.
En el formato "AudioBIFS", las
manipulaciones a efectuar son representadas por un gráfico. Se
prevén las señales audio descodificadas a la entrada del gráfico.
Cada nodo del gráfico representa un tipo de tratamiento a realizar
sobre una señal audio. Se prevé a la salida del gráfico las
diferentes señales sonoras a restituir o a asociar a otros objetos
media (imágenes u otro).
Los algoritmos utilizados son actualizados
dinámicamente y son transmitidos con el gráfico de la escena. Los
mismos son descritos bajo la forma de rutinas escritas en un
lenguaje específico tal como "SAOL" (por
"Structured Audio Store Language"). Ese lenguaje posee
funciones predefinidas que incluyen específicamente y de forma
particularmente ventajosa filtros FIR y IIR (que pueden entonces
corresponder a las HRTFs, como se indicó anteriormente).
Además, en las herramientas de compresión audio
proporcionadas por la norma MPEG-4, se encuentran
codificadores por transformada utilizados sobre todo para la
transmisión de audio de alta calidad (monofónico y multivías). Es
el caso de los codificadores AAC y TwinVQ basados en la transformada
MDCT.
Así, en el contexto MPEG-4, las
herramientas que permiten llevar a cabo el procedimiento en el
sentido de la invención están ya presentes.
En una terminal MPEG-4
receptora, es suficiente entonces integrar la capa baja de
descodificación a los nodos de la capa superior que asegura
tratamientos particulares, tal como la espacialización binaural por
filtros HRTFs. Así, después de la descodificación parcial flujos
binarios audio elementales desmultiplexados y sacados de un mismo
tipo de codificador (MPEG-4 AAC por ejemplo), los
nodos del gráfico "AudioBIFS" que hacen intervenir una
espacialización binaural pueden ser tratados directamente en el
campo de las sub-bandas (MDCT por ejemplo). La
operación de síntesis por banco de filtros es efectuada solamente
después de esta etapa.
En una arquitectura de
tele-conferencia multipunto centralizada tal como la
representada en la figura 8, entre cuatro terminales en el ejemplo
representado, el tratamiento de las señales para la espacialización
solamente puede efectuarse al nivel del punto audio. En efecto, las
terminales TER1, TER2, TER3 y TER4 reciben flujos ya mezclados y
por lo tanto ningún tratamiento puede ser realizado a su nivel para
la espacialización.
Se comprende que una reducción de la complejidad
de tratamiento es particularmente deseada en ese caso. En efecto,
para una conferencia de N terminales (N \geq 3), el punto audio
debe realizar una espacialización de los locutores sacados de
terminales para cada uno de los N sub-conjuntos
constituidos por (N - 1) locutores entre los N participantes en la
conferencia. Un tratamiento en el campo codificado aporta claro está
beneficio.
La figura 9 representa esquemáticamente el
sistema de tratamiento previsto en el punto audio. Ese tratamiento
es así efectuado sobre un sub-conjunto de (N - 1)
señales audio codificadas entre las N a la entrada del puente. Las
tramas audio codificadas izquierda y derecha en el caso de una
espacialización binaural, o las m tramas audio codificadas en el
caso de una espacialización general (por ejemplo en codificación
ambisónica) tal como es representado en la figura 9, que resultan de
ese tratamiento son así transmitidas a la terminal restante que
participa en la tele-conferencia pero que no figura
entre ese sub-conjunto (correspondiente a una
"terminal oyente"). En total, N tratamientos del tipo
descrito anteriormente son realizados en el punto audio (N
sub-conjuntos de (N - 1) señales codificadas). Se
indica que la codificación parcial de la figura 9 designa la
operación de construcción de la trama audio codificada después del
tratamiento de espacialización y a transmitir sobre una vía
(izquierda o derecha). A modo de ejemplo, se puede tratar de una
cuantificación de los vectores señales L y R que resultan del
tratamiento de espacialización, basándose en un número de bits
otorgados y calculados según un criterio
psico-acústico seleccionado, los tratamientos
clásicos de codificación en compresión después de la aplicación del
banco de filtros de análisis pueden por lo tanto ser mantenidos y
efectuados con la espacialización en el campo de las
sub-bandas.
Además, como se indicó anteriormente, la
posición de la fuente sonora a espacializar puede variar en el curso
del tiempo, lo que equivale a hacer variar en el curso del tiempo
los coeficientes direccionales del campo de las
sub-bandas C_{ni} y D_{ni}. La variación del
valor de esos coeficientes se hace preferentemente de manera
discreta.
Claro está, la presente invención no se limita a
las formas de realización descritas anteriormente a modo de
ejemplos sino que la misma se extiende a otras variantes definidas
en el marco de las reivindicaciones a continuación.
Claims (26)
1. Procedimiento de tratamiento de datos
sonoros, mediante una restitución espacializada de señales
acústicas, en el cual:
a) se obtiene, para cada señal acústica
(S_{i}), al menos un primer juego (C_{ni}) y un segundo juego
(D_{ni}) de términos ponderativos, representativos de una
dirección de percepción de dicha señal acústica por un oyente;
y
b) se aplica a al menos dos juegos de unidades
de filtrado, dispuestas en paralelo, dichas señales acústicas, para
emitir al menos una primera señal de salida (L) y una segunda señal
de salida (R) que corresponda cada una a una combinación lineal de
las señales acústicas ponderadas por el conjunto de los términos
ponderativos respectivamente del primer juego (C_{ni}) y del
segundo juego (D_{ni}) y filtrados por dichas unidades de
filtrado,
caracterizado porque cada señal acústica
en la etapa a) es al menos parcialmente codificada en compresión y
se expresan bajo la forma de un vector de
sub-señales asociados a sub-bandas
de frecuencias respectivas,
y porque cada unidad de filtrado es dispuesta
para efectuar un filtrado matricial aplicado a cada vector, en el
espacio de las sub-bandas frecuenciales.
2. Procedimiento según la reivindicación 1,
caracterizado porque cada filtrado matricial es obtenido por
conversión, en el espacio de las sub-bandas
frecuenciales, de un filtro representado por una respuesta a un
impulso en el espacio temporal.
3. Procedimiento según la reivindicación 2,
caracterizado porque cada filtro de respuesta a un impulso es
obtenido por determinación de una función de transferencia acústica
que depende de una dirección de percepción de un sonido y de la
frecuencia de ese sonido.
4. Procedimiento según la reivindicación 3,
caracterizado porque dichas funciones de transferencia se
expresan por una combinación lineal de términos que dependen de la
frecuencia y ponderados por términos que dependen de la dirección
(Ec[1]).
5. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque dichos
términos ponderativos del primer y del segundo juego dependen de la
dirección del sonido.
6. Procedimiento según la reivindicación 5,
caracterizado porque la dirección es definida por un ángulo
azimutal (\theta) y un ángulo de elevación (\varphi).
7. Procedimiento según una de las
reivindicaciones 2 y 3, caracterizado porque el filtrado
matricial se expresa a partir de un producto matricial que hace
intervenir matrices polifasadas (E(z), R(z)) que
corresponden a bancos de filtros de análisis y de síntesis y de una
matriz de transferencia (S(z)) cuyos elementos son función
del filtro de respuesta a un impulso.
8. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque la matriz
del filtrado matricial es de forma reducida y comprende una
diagonal y un número predeterminado (\delta) de
sub-diagonales adyacentes, inferiores y superiores
cuyos elementos no son todos nulos.
9. Procedimiento según la reivindicación 8,
tomada en combinación con la reivindicación 7, caracterizado
porque las líneas de la matriz del filtrado matricial se expresan
por:
[0 ...
S^{sb}{}_{i1}(z) ... S^{sb}{}_{ii}(z) ... S^{sb}{}_{in}(z) ...
0],
donde:
- i es el índice de la (i+1)ésima línea y está
comprendido entre 0 y M-1, M corresponde a un número
total de sub-bandas,
- 1 = i-\delta mod[M],
donde \delta corresponde a un número seleccionado de
sub-diagonales adyacentes, la notación
mod[M] correspondiendo a una operación de sustracción módulo
M,
- n = i+\delta mod[M], la notación
mod[M] correspondiendo a una operación de adición módulo
M,
- y S^{sb}_{ij}(z) son los
coeficientes de dicha matriz producidos haciendo intervenir las
matrices polifasadas de los bancos de filtros de análisis y de
síntesis y de dicha matriz de transferencia.
10. Procedimiento según una de las
reivindicaciones 7 a 9, caracterizado porque dicha matriz
producida se expresa por
S^{sb}(z)=z^{k}
E(z)S(z)R(z),
donde
- z^{k} es un avance definido por el término K
= (L/M)-1 donde L es la longitud de la respuesta a
un impulso de los filtros de análisis y de la síntesis de los
bancos de filtros y M el número total de
sub-bandas,
- E(z) es la matriz polifasada que
corresponde al banco de filtros de análisis,
- R(z) es la matriz polifasada que
corresponde al banco de filtros de síntesis, y
- S(z) corresponde a dicha matriz de
transferencia.
11. Procedimiento según una de las
reivindicaciones 7 a 10, caracterizado porque dicha matriz de
transferencia se expresa por:
donde S_{k}(z) son los
componentes polifasados del filtro de respuesta a un impulso
S(z), con k comprendida entre 0 y M-1 y M
correspondiendo a un número total de
sub-bandas.
12. Procedimiento según una de las
reivindicaciones 7 a 11, caracterizado porque dichos bancos
de filtros operan en muestreo crítico.
13. Procedimiento según una de las
reivindicaciones 7 a 12, caracterizado porque dichos bancos
de filtros satisfacen una propiedad de reconstrucción perfecta.
14. Procedimiento según una de las
reivindicaciones 2 a 13, caracterizado porque el filtro de
respuesta a un impulso es un filtro racional, que se expresa bajo
la forma de una fracción de dos polinomios.
15. Procedimiento según la reivindicación 14,
caracterizado porque dicha respuesta a un impulso es
infinita.
16. Procedimiento según una de las
reivindicaciones 8 a 15, caracterizado porque dicho número
predeterminado (\delta) de sub-diagonales
adyacentes es función de un tipo de banco de filtros utilizado en la
codificación en compresión seleccionado.
17. Procedimiento según la reivindicación 16,
caracterizado porque dicho número predeterminado (\delta)
está comprendido entre 1 y 5.
18. Procedimiento según una de las
reivindicaciones 7 a 17, caracterizado porque los elementos
de matriz (L_{n},R_{n}) que resultan de dicho producto
matricial son almacenados en una memoria y reutilizados por todas
las señales acústicas parcialmente codificadas y a
espacializar.
19. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque el mismo
comprende además una etapa d) que consiste en aplicar un banco de
filtros de síntesis a dichas primera (L) y segunda señales de salida
(R), antes de su restitución.
20. Procedimiento según la reivindicación 19,
caracterizado porque el mismo comprende además una etapa c)
previa a la etapa d) que consiste en encaminar las primera y segunda
señales en una red de comunicación, a partir de un servidor
distante y hacia un dispositivo de restitución, bajo forma
codificada y espacializada, y porque la etapa b) es efectuada ante
dicho servidor distante.
21. Procedimiento según la reivindicación 19,
caracterizado porque el mismo comprende además una etapa c)
previa a la etapa d) que consiste en encaminar las primera y segunda
señales en una red de comunicación, a partir de un punto de audio
de un sistema de tele-conferencia multipuntos, de
arquitectura centralizada, y hacia un dispositivo de restitución de
dicho sistema de tele-conferencia, bajo forma
codificada y espacializada, y porque la etapa b) es efectuada ante
dicho punto audio.
22. Procedimiento según la reivindicación 19,
caracterizado porque el mismo comprende además una etapa
posterior a la etapa a) que consiste en encaminar dichas señales
acústicas bajo forma codificada en compresión en una red de
comunicación, a partir de un servidor distante y hacia una terminal
de restitución, y porque las etapas b) y d) son efectuadas ante
dicha terminal de restitución.
23. Procedimiento según una de las
reivindicaciones precedentes, caracterizado porque se aplica
en la etapa b) una espacialización sonora por síntesis binaural
basada en una descomposición lineal de funciones de transferencia
acústicas.
24. Procedimiento según la reivindicación 23,
caracterizado porque se aplica además, en la etapa b), una
matriz de filtros de ganancias (G_{i}) a cada señal acústica
parcialmente codificada (S_{i}),
porque dichas primera y segunda señales de
salida están destinadas a ser descodificadas en primera y segunda
señales de restitución (l, r),
y porque la aplicación de dicha matriz de
filtros de ganancias equivale a aplicar un decalado temporal
seleccionado(ITD) entre dichas primera y segunda señales de
restitución.
25. Procedimiento según una de las
reivindicaciones 1 a 22, caracterizado porque se obtiene, en
la etapa a), más de dos juegos de términos ponderativos, y porque
se aplica a las señales acústicas, en la etapa b), más de dos
juegos de unidades de filtrado, para emitir más de dos señales de
salida que comprenden señales ambisónicas codificadas.
26. Sistema de tratamiento de datos sonoros,
caracterizado porque el mismo comprende medios para la puesta
en práctica del procedimiento según una de las reivindicaciones
precedentes.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0302397 | 2003-02-27 | ||
FR0302397A FR2851879A1 (fr) | 2003-02-27 | 2003-02-27 | Procede de traitement de donnees sonores compressees, pour spatialisation. |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2271847T3 true ES2271847T3 (es) | 2007-04-16 |
Family
ID=32843028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04712070T Expired - Lifetime ES2271847T3 (es) | 2003-02-27 | 2004-02-18 | Procedimiento de tratamiento de datos sonoros comprimidos, por espacializacion. |
Country Status (7)
Country | Link |
---|---|
US (1) | US20060198542A1 (es) |
EP (1) | EP1600042B1 (es) |
AT (1) | ATE336151T1 (es) |
DE (1) | DE602004001868T2 (es) |
ES (1) | ES2271847T3 (es) |
FR (1) | FR2851879A1 (es) |
WO (1) | WO2004080124A1 (es) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100606734B1 (ko) | 2005-02-04 | 2006-08-01 | 엘지전자 주식회사 | 삼차원 입체음향 구현 방법 및 그 장치 |
DE102005010057A1 (de) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
KR100754220B1 (ko) | 2006-03-07 | 2007-09-03 | 삼성전자주식회사 | Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법 |
EP1994526B1 (fr) * | 2006-03-13 | 2009-10-28 | France Telecom | Synthese et spatialisation sonores conjointes |
EP1994796A1 (en) * | 2006-03-15 | 2008-11-26 | Dolby Laboratories Licensing Corporation | Binaural rendering using subband filters |
FR2899423A1 (fr) * | 2006-03-28 | 2007-10-05 | France Telecom | Procede et dispositif de spatialisation sonore binaurale efficace dans le domaine transforme. |
US8266195B2 (en) * | 2006-03-28 | 2012-09-11 | Telefonaktiebolaget L M Ericsson (Publ) | Filter adaptive frequency resolution |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8934641B2 (en) | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
US20080273708A1 (en) * | 2007-05-03 | 2008-11-06 | Telefonaktiebolaget L M Ericsson (Publ) | Early Reflection Method for Enhanced Externalization |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
JP2009128559A (ja) * | 2007-11-22 | 2009-06-11 | Casio Comput Co Ltd | 残響効果付加装置 |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
US8521530B1 (en) | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
KR101496760B1 (ko) * | 2008-12-29 | 2015-02-27 | 삼성전자주식회사 | 서라운드 사운드 가상화 방법 및 장치 |
US8639046B2 (en) * | 2009-05-04 | 2014-01-28 | Mamigo Inc | Method and system for scalable multi-user interactive visualization |
CN102577441B (zh) * | 2009-10-12 | 2015-06-03 | 诺基亚公司 | 用于音频处理的多路分析 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8786852B2 (en) | 2009-12-02 | 2014-07-22 | Lawrence Livermore National Security, Llc | Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US9378754B1 (en) | 2010-04-28 | 2016-06-28 | Knowles Electronics, Llc | Adaptive spatial classifier for multi-microphone systems |
US9395304B2 (en) | 2012-03-01 | 2016-07-19 | Lawrence Livermore National Security, Llc | Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto |
US9491299B2 (en) * | 2012-11-27 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Teleconferencing using monophonic audio mixed with positional metadata |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
FR3009158A1 (fr) * | 2013-07-24 | 2015-01-30 | Orange | Spatialisation sonore avec effet de salle |
DE102013223201B3 (de) * | 2013-11-14 | 2015-05-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes |
CN107112025A (zh) | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的***和方法 |
US10249312B2 (en) * | 2015-10-08 | 2019-04-02 | Qualcomm Incorporated | Quantization of spatial vectors |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10598506B2 (en) * | 2016-09-12 | 2020-03-24 | Bragi GmbH | Audio navigation using short range bilateral earpieces |
FR3065137B1 (fr) | 2017-04-07 | 2020-02-28 | Axd Technologies, Llc | Procede de spatialisation sonore |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583962A (en) * | 1991-01-08 | 1996-12-10 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
KR100206333B1 (ko) * | 1996-10-08 | 1999-07-01 | 윤종용 | 두개의 스피커를 이용한 멀티채널 오디오 재생장치및 방법 |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
-
2003
- 2003-02-27 FR FR0302397A patent/FR2851879A1/fr active Pending
-
2004
- 2004-02-18 US US10/547,311 patent/US20060198542A1/en not_active Abandoned
- 2004-02-18 EP EP04712070A patent/EP1600042B1/fr not_active Expired - Lifetime
- 2004-02-18 ES ES04712070T patent/ES2271847T3/es not_active Expired - Lifetime
- 2004-02-18 WO PCT/FR2004/000385 patent/WO2004080124A1/fr active IP Right Grant
- 2004-02-18 DE DE602004001868T patent/DE602004001868T2/de not_active Expired - Lifetime
- 2004-02-18 AT AT04712070T patent/ATE336151T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE602004001868D1 (de) | 2006-09-21 |
EP1600042B1 (fr) | 2006-08-09 |
FR2851879A1 (fr) | 2004-09-03 |
WO2004080124A1 (fr) | 2004-09-16 |
EP1600042A1 (fr) | 2005-11-30 |
ATE336151T1 (de) | 2006-09-15 |
DE602004001868T2 (de) | 2007-03-08 |
US20060198542A1 (en) | 2006-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2271847T3 (es) | Procedimiento de tratamiento de datos sonoros comprimidos, por espacializacion. | |
KR102131748B1 (ko) | 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치 | |
Jot et al. | Digital signal processing issues in the context of binaural and transaural stereophony | |
ES2907377T3 (es) | Aparato, procedimiento y programa informático para la codificación, la decodificación, el procesamiento de escenas y otros procedimientos relacionados con la codificación de audio espacial basada en DirAC | |
ES2330274T3 (es) | Procedimiento y dispositivo de especializacion sonora binaural eficaz en el dominio transformado. | |
US5701346A (en) | Method of coding a plurality of audio signals | |
KR101010464B1 (ko) | 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성 | |
RU2409911C2 (ru) | Декодирование бинауральных аудиосигналов | |
JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
ES2339888T3 (es) | Codificacion y decodificacion de audio. | |
KR102629324B1 (ko) | 2d 셋업들을 이용하는 오디오 재생을 위해 앰비소닉스 오디오 음장 표현을 디코딩하기 위한 방법 및 장치 | |
PT1774515E (pt) | Aparelho e processo para gerar um sinal de saída multicanal | |
BRPI0608036B1 (pt) | Dispositivo e método para a geração de um sinal estéreo codificado de uma peça de áudio ou fluxo de dados de áudio | |
KR101970080B1 (ko) | 음장의 고차 앰비소닉스 hoa 신호 표현의 낮은 비트 레이트 압축을 위한 방법 및 장치 | |
Politis et al. | JSAmbisonics: A Web Audio library for interactive spatial sound processing on the web | |
BR112020018466A2 (pt) | representando áudio espacial por meio de um sinal de áudio e de metadados associados | |
CN102027535A (zh) | 信号处理 | |
CN112218229A (zh) | 用于双耳对话增强的方法和装置 | |
CN111034225A (zh) | 使用立体混响信号的音频信号处理方法和装置 | |
US20180218741A1 (en) | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation | |
Beack et al. | MPEG Surround Extension Technique for MPEG‐H 3D Audio | |
KR101319892B1 (ko) | 3차원 가상 음향 구현을 위한 머리전달함수 모델링 방법,및 이를 이용한 3차원 가상 음향 구현 방법 및 장치 | |
Touimi et al. | Efficient method for multiple compressed audio streams spatialization | |
KR20230060502A (ko) | 신호 처리 장치 및 방법, 학습 장치 및 방법, 그리고 프로그램 | |
Chanda et al. | Immersive rendering of coded audio streams using reduced rank models of subband-domain head-related transfer functions |