ES2335246T3 - Sintesis y especializacion sonora conjunta. - Google Patents
Sintesis y especializacion sonora conjunta. Download PDFInfo
- Publication number
- ES2335246T3 ES2335246T3 ES07731685T ES07731685T ES2335246T3 ES 2335246 T3 ES2335246 T3 ES 2335246T3 ES 07731685 T ES07731685 T ES 07731685T ES 07731685 T ES07731685 T ES 07731685T ES 2335246 T3 ES2335246 T3 ES 2335246T3
- Authority
- ES
- Spain
- Prior art keywords
- spatialization
- parameters
- frequency
- source
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/265—Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
- G10H2210/295—Spatial effects, musical uses of multiple audio channels, e.g. stereo
- G10H2210/301—Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Telephone Set Structure (AREA)
- Telephone Function (AREA)
- Golf Clubs (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo: a) una etapa de asignación a cada fuente de por lo menos un parámetro (pi), representativo de una amplitud de por lo menos una componente frecuencial de la fuente, b) una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud (p1) para multiplicarlo por una ganancia (gim) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (pgm) de codificación y, por otra, para una fuente (Si) a espacializar, c) una etapa de agrupación (R) de los parámetros (pim) multiplicados por las ganancias, en canales respectivos (pg1, ..., pgM), aplicando una suma de dichos parámetros multiplicados (pim) en todas las fuentes (Si) para cada canal (pgm), y d) una etapa de síntesis paramétrica (SYNTH(1), ..., SYNTH(M)) aplicada a cada uno de los canales (pgm).
Description
Síntesis y espacialización sonora conjunta.
La presente invención se refiere a un
procesamiento de audio y, más concretamente, una espacialización
tridimensional de fuentes sonoras sintéticas.
Actualmente, la espacialización de una fuente
sonora sintética suele realizarse sin tener en cuenta el modo de
producción del sonido, es decir la manera misma en que se sintetiza
el sonido. De esta manera, se han propuesto para la síntesis
numerosos modelos, especialmente paramétricos. Paralelamente, se han
propuesto asimismo numerosas técnicas de espacialización, sin
proponer sin embargo una comparación con la técnica elegida para una
síntesis.
Se conocen, entre las técnicas de síntesis, los
métodos denominados "no paramétricos". A priori,
no se utiliza parámetro particular alguno para modificar muestras
anteriormente almacenadas en memoria. El representante más conocido
de dichos métodos es la síntesis mediante tabla de onda clásica.
A este tipo de técnica se oponen los métodos de
síntesis "paramétrica" que se basan en la utilización de un
modelo que permite manipular un número reducido de parámetros,
comparado con el número de muestras de señales producidas en el
sentido de los métodos no paramétricos. Las técnicas de síntesis
paramétricas se basan típicamente en modelos aditivos,
sustractivos, fuente-filtro o no lineales.
Entre estos métodos paramétricos, se califican
de "mutuos" aquellos que permiten manipular en común
parámetros correspondientes a distintas fuentes sonoras, para
utilizar entonces un único proceso de síntesis, para la totalidad
de las fuentes. En los métodos denominados
"sinusoidales", se construye típicamente un espectro en
frecuencia a partir de los parámetros tales como la amplitud y la
frecuencia de cada componente parcial del espectro sonoro global de
las fuentes. En efecto, una implementación mediante transformada de
Fourier inversa, seguida de una adición/recubrimiento, asegura una
síntesis extremadamente eficaz de varias fuentes sonoras
simultáneamente.
En lo que se refiere a la espacialización de
fuentes sonoras, se conocen actualmente distintas técnicas. Algunas
técnicas (como la "transaural" o la
"binaural") se basan en tener en cuenta funciones de
transferencia HRTF ("Head Related Transfer Function")
que representan la perturbación de ondas acústicas por la morfología
de un individuo, siendo dichas funciones HRTF propias de dicho
individuo. La restitución sonora se efectúa de forma adaptada a los
HRTF del oyente, típicamente en dos altavoces distantes
("transaural") o a partir de dos auriculares de un
casco ("binaural"). Otras técnicas (por ejemplo la
"ambiofónica" o el "multicanal" (5.1 a 10.1 o más)
prevén una restitución en más de dos altavoces.
Más concretamente, algunas técnicas a base de
HRTF utilizan la separación de las variables
"frecuencia" y "posición" de las HRTF,
proporcionando así un conjunto de p filtros de base
(correspondientes a los p primeros valores propios de la matriz de
covariancia de las HRTF cuyas variables estadísticas son las
frecuencias), siendo dichos filtros ponderados mediante funciones
espaciales (obtenidas mediante proyección de las HRTF en filtros de
base). A continuación, las funciones espaciales pueden interpolarse
como se describe en el documento US-5,500,900.
La espacialización de numerosas fuentes sonoras
puede efectuarse gracias a una implementación multicanal aplicada a
la señal de cada una de las fuentes sonoras. Las ganancias de los
canales de espacialización se aplican directamente a las muestras
sonoras de la señal, a menudo descritas en el dominio temporal (pero
posiblemente también en el dominio frecuencial). Dichas muestras
sonoras se procesan mediante un algoritmo de espacialización (con
aplicación de ganancias que son en función de la posición deseada),
con independencia del origen de dichas muestras. De este modo, la
especialización propuesta podría aplicarse tanto a sonidos naturales
como a sonidos sintéticos.
Por una parte, cada fuente sonora debe
sintetizarse independientemente (con obtención de una señal temporal
o frecuencial), con objeto de poder aplicar a continuación
ganancias de espacialización independientes. Por lo tanto, para N
fuentes sonoras, es necesario realizar N cálculos de síntesis.
Por otra parte, la aplicación de las ganancias a
muestras sonoras, procedentes del dominio temporal o frecuencial,
requiere como mínimo tantas multiplicaciones como muestras
existentes. Por lo tanto, para un bloque de Q muestras, es
necesario aplicar por lo menos N.M.Q. ganancias, siendo M el número
de canales intermedios (por ejemplo canales ambiofónicos) y N el
número de fuentes.
Por lo tanto, esta técnica requiere un elevado
coste de cálculo en el caso de la espacialización de numerosas
fuentes sonoras.
Entre las técnicas ambiofónicas, el método
denominado de "altavoces virtuales" permite codificar
las señales a espacializar aplicándoles especialmente ganancias,
realizándose la descodificación mediante convolución de las señales
codificadas mediante filtros precalculados (Jérôme Daniel,
"Representación de campos acústicos, aplicación a la
transmisión y reproducción de escenas sonoras complejas en un
contexto multimedia", Tesis doctoral, 2000).
El documento WO-05/069272
presenta una técnica muy prometedora, que combina síntesis y
espacialización.
Consiste en determinar amplitudes a asignar a
señales que representan fuentes sonoras para definir, al mismo
tiempo, la intensidad sonora (por ejemplo un "volumen")
de una fuente a sintetizar y una ganancia de espacialización de
dicha fuente. Este documento divulga especialmente una
espacialización binaural con consideración de los retrasos y las
ganancias (o "funciones espaciales") y, en particular,
una mezcla de las fuentes sintetizadas en la parte codificación de
la espacialización.
Más concretamente aún, un ejemplo de realización
que se incluye en dicho documento WO-05/069272, en
el que las fuentes se sintetizan asociando amplitudes a frecuencias
que constituyen un "timbre sonoro" (por ejemplo una
frecuencia fundamental y sus armónicos), prevé reagrupar por
frecuencias idénticas señales de síntesis, con objeto de una
espacialización posterior que opere sobre las frecuencias.
Este ejemplo de realización se ilustra en la
figura 1. En un bloque de síntesis SYNTH (representado en trazo
discontinuo), se asignan a frecuencias f_{0}, f_{1}, f_{2},
..., f_{p} de cada fuente a sintetizar S_{1}, ..., S_{N}
amplitudes respectivas a_{0}^{1}, a_{1}^{1}, ...,
a_{p}^{1}, ..., a_{i}^{j}, ..., a_{0}^{N},
a_{1}^{N}, ..., a_{p}^{N} donde, en la notación general
a_{i}^{j}, j es un índice de fuente incluido entre 1 y N e i es
un índice de frecuencia incluido entre 0 y p. Por supuesto, algunas
amplitudes de un juego a_{0}^{j}, a_{1}^{j}, ...,
a_{p}^{j} a asignar a una misma fuente j pueden ser nulas si
las frecuencias correspondientes no están representadas en el timbre
sonoro de dicha fuente j.
Las amplitudes a_{i}^{1}, ..., a_{i}^{N}
relativas a cada frecuencia f_{i} se agrupan
("mezclan") para ser aplicadas, frecuencia por
frecuencia, al bloque de espacialización SPAT para una codificación
que opera en las frecuencias (por ejemplo en binaural, previendo
entonces un retraso interaural a aplicar a cada fuente). Las
señales de los canales c_{1}, ..., c_{k}, procedentes del bloque
de espacialización SPAT, están destinadas a continuación a ser
transmitidas a través de una o varias redes, o almacenadas, o demás,
con objeto de una restitución posterior (precedida en su caso de
una descodificación de espacialización adaptada).
Esta técnica, aunque muy prometedora, merece aún
algunas optimizaciones.
De manera general, los procedimientos actuales
requieren potencias de cálculo notables para espacializar numerosas
fuentes sonoras sintetizadas.
La presente invención viene a mejorar la
situación.
Propone a tal efecto un procedimiento para
sintetizar y espacializar conjuntamente una pluralidad de fuentes
sonoras en posiciones asociadas del espacio, incluyendo el
procedimiento:
- a)
- una etapa de asignación a cada fuente de por lo menos un parámetro de síntesis p_{i}, representativo de una amplitud de por lo menos una componente frecuencial de la fuente,
- b)
- una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud para multiplicarlo por una ganancia de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal de codificación y, por otra, para una fuente a espacializar,
- c)
- una etapa de agrupación de los parámetros multiplicados por las ganancias, en canales respectivos, aplicando una suma de dichos parámetros multiplicados en todas las fuentes para cada canal, y
- d)
- una etapa de síntesis paramétrica aplicada a cada uno de los canales.
\vskip1.000000\baselineskip
Se propone asimismo un programa de ordenador
según la reivindicación 6 y un módulo según la reivindicación 7.
Por lo tanto, la presente invención propone a
tal efecto aplicar primero una codificación en espacialización, y
una "pseudosíntesis", refiriéndose el término
"pseudo" al hecho de que la síntesis se aplica
especialmente a los parámetros codificados, resultantes de la
espacialización y no a señales sonoras sintéticas habituales.
En efecto, una particularidad que propone la
invención es la codificación espacial de algunos parámetros de
síntesis, en lugar de realizar una codificación espacial de las
señales correspondiente directamente a las fuentes. Esta
codificación espacial se aplica más concretamente a parámetros de
síntesis que son representativos de una amplitud y consiste
ventajosamente en aplicar a dichos parámetros de síntesis unas
ganancias de espacialización que se calculan en función de
posiciones deseadas respectivas de las fuentes. Por lo tanto, se
entenderá que los parámetros multiplicados por las ganancias en la
etapa b) y agrupados en la etapa c) no son realmente señales
sonoras, como en el sentido de la técnica anterior general descrita
anteriormente.
La presente invención utiliza una síntesis
paramétrica mutua en la que uno de los parámetros posee la dimensión
de una amplitud. Al contrario que en las técnicas de la técnica
anterior, saca partido de las ventajas de dicha síntesis para
efectuar la espacialización. La combinación de los juegos de
parámetros de síntesis obtenidos para cada una de las fuentes
permite ventajosamente controlar globalmente los bloques codificados
de síntesis paramétrica mutua.
La presente invención permite espacializar
simultánea e independientemente numerosas fuentes sonoras
sintetizadas a partir de un modelo de síntesis paramétrica,
aplicándose las ganancias de espacialización a los parámetros de
síntesis en lugar de a las muestras del dominio temporal o
frecuencial. Esta realización asegura un ahorro sustancial de la
potencia de cálculo requerida, ya que implica un escaso coste de
cálculo.
Según una de las ventajas que proporciona la
invención, dado que el número de etapas en la síntesis es
independiente con relación al número de fuentes, sólo se puede
aplicar una única síntesis por canal intermedio. Cualquiera que sea
el número de fuentes sonoras, sólo está previsto un número constante
M de cálculos de síntesis. Típicamente, en cuanto el número de
fuentes N se vuelve mayor que el número M de canales intermedios, la
técnica en el sentido de la invención requiere menos cálculos que
las técnicas habituales en el sentido de la técnica anterior. Por
ejemplo, en el orden ambiofónico 1 y en dos dimensiones (es decir
tres canales intermedios), la invención permite ya una ganancia de
cálculo para sólo cuatro fuentes a espacializar.
La presente invención permite asimismo disminuir
el número de ganancias a aplicar. En efecto, las ganancias se
aplican a los parámetros de síntesis, no a las muestras sonoras.
Siendo la actualización de los parámetros tales como el volumen
generalmente menos frecuente que la frecuencia de muestreo de una
señal, se realiza un ahorro de cálculo. Por ejemplo, para una
frecuencia de actualización de parámetros (tal como el volumen
especialmente) de 200 Hz, se realiza un ahorro de multiplicaciones
sustancial para una frecuencia de muestreo de la señal de 44100 Hz
(según una relación de aproximadamente 200).
Los campos de aplicación de la presente
invención pueden afectar tanto al ámbito musical (especialmente los
timbres polifónicos de móviles), al ámbito multimedia (especialmente
la sonorización de videojuegos), el ámbito de la realidad virtual
(escenas sonoras), los simuladores (síntesis de ruidos de motores),
u otros.
Otras características y ventajas de la invención
aparecerán mediante el examen de la siguiente descripción detallada
y de los dibujos adjuntos, en los cuales, además de la figura 1
relativa a la técnica anterior descrita previamente:
- la figura 2 ilustra el procesamiento general
de espacialización y síntesis previsto en un procedimiento en el
sentido de la invención,
- la figura 3 ilustra un procesamiento de las
señales espacializadas y sintetizadas, para una descodificación
espacial con objeto de una restitución,
- la figura 4 ilustra un modo de realización
particular en el que se asignan varios parámetros de amplitud a
cada fuente, estando asociado cada parámetro a una componente
frecuencial,
- la figura 5 ilustra las etapas de un
procedimiento en el sentido de la invención, y puede corresponder a
un organigrama de un programa de ordenador para la aplicación de la
invención.
En referencia a la figura 2, se asigna por lo
menos un parámetro p_{i}, representativo de una amplitud, a una
fuente S_{i}, entre una pluralidad de fuentes S_{1}, ...,
S_{N} a sintetizar y espacializar (i estando incluida entre 1 y
N). Se duplica cada parámetro p_{i} en tantos canales de
espacialización como haya previstos en el bloque de espacialización
SPAT. En el ejemplo representado, en el que se prevén M canales de
codificación para la espacialización, se duplica M veces cada
parámetro p_{i} para aplicar ganancias de espacialización
respectivas g_{i}^{1}, g_{i}^{M} (siendo i, para
recordatorio, un índice de fuente S_{i}).
Se obtiene entonces N.M parámetros multiplicados
cada uno por una ganancia: p_{1}g_{1}^{1}, ...,
P_{1}g_{1}^{M}, ..., p_{i}g_{i}^{1}, ...,
p_{i}g_{i}^{M}, ..., p_{N}g_{N}^{1}, ...,
p_{N}g_{N}^{M}.
A continuación, se agrupan dichos parámetros
multiplicados (referencia R de la figura 2) por canales de
espacialización (M canales en total), es decir:
- -
- p_{1}g_{1}^{1}, ..., p_{i}g_{i}^{1}, ..., p_{N}g_{N}^{1} agrupados en un primer canal de espacialización p_{g}^{1},
- hasta:
- -
- p_{1}g_{1}^{M}, ..., p_{i}g_{i}^{M}, ..., p_{N}g_{N}^{M} agrupados en un M^{ésimo} canal de espacialización p_{g}^{M},
- designando la letra g del índice el término "global".
De este modo, se calculan nuevos parámetros
p_{i}^{m} (variando i de 1 a N y variando m de 1 a M) mediante
multiplicación de los parámetros p_{i} por las ganancias de
codificación g_{i}^{m}, obtenidas a partir de la posición de
cada una de las fuentes. Los parámetros p_{i}^{m} se combinan
(mediante suma en el ejemplo descrito) con el fin de proporcionar
los parámetros p_{g}^{m} que alimentan M bloques de síntesis
paramétrica mutua. Estos M bloques (con referencia SYNTH(1)
a SYNTH(M) en la figura 2) constituyen el módulo de síntesis
SYNTH, el cual suministra M señales temporales o frecuenciales
ss^{m} (variando m de 1 a M), obtenidas mediante síntesis a
partir de los parámetros p_{g}^{m}. Dichas señales ss^{m}
pueden alimentar a continuación un bloque clásico de
descodificación espacial, como se verá más adelante en referencia a
la figura 3.
En un modo de realización particular, la
síntesis utilizada es una síntesis aditiva con aplicación de una
transformada de Fourier inversa (IFFT).
A tal efecto, un conjunto de N fuentes está
caracterizado por una pluralidad de parámetros p_{i,k} que
representan la amplitud en el dominio frecuencial de la k^{ésima}
componente frecuencial para la i^{ésima} fuente S_{i}.
La señal temporal s_{i}(n) que
correspondería a esta fuente S_{i}, si se sintetizara con
independencia de las demás fuentes, vendría dada por:
\vskip1.000000\baselineskip
donde p_{i,k} es la amplitud de
la componente de frecuencia f_{i,k}, cuya fase viene dada por
\varphi_{i,k} para la fuente S_{i}, en el instante n. Es
posible realizar la síntesis aditiva en el dominio frecuencial a
partir de únicamente los parámetros p_{i,k}, f_{i,k} y
\varphi_{i,k} dados, utilizando por ejemplo la técnica expuesta
en el documento FR-2 679
689.
El parámetro p_{i,k} representa la amplitud de
una componente frecuencial k dada para una fuente S_{i} dada. Por
lo tanto, se deducen los parámetros p^{m}_{i,k} para cada fuente
y cada uno de los M canales gracias a la relación:
\vskip1.000000\baselineskip
variando m de 1 a M. Las ganancias
g^{m}_{i} están predeterminadas para una posición deseada para
la fuente S_{i} y en función de la codificación de
espacialización
elegida.
En el caso de una codificación ambiofónica, por
ejemplo, estas ganancias corresponden a los armónicos esféricas y
pueden escribirse g^{m}_{i} =
Y_{m}(\theta_{i},\delta_{i}), donde:
- -
- Y_{m} es una armónica esférica de orden m,
- -
- \theta_{i} y \delta_{i} son respectivamente el acimut y el sitio deseados para la fuente S_{i}.
A continuación, los parámetros p^{m}_{i,k}
se combinan frecuencia por frecuencia, de manera a obtener un único
parámetro global:
En la práctica, el valor de k' es inferior a k.i
ya que frecuencias comunes pueden caracterizar varias fuentes al
mismo tiempo. En una realización, se puede prever la asociación de
un mismo juego global de frecuencias a todas las fuentes, aún a
riesgo de que algunos parámetros de amplitud para ciertas
frecuencias de fuentes sean nulos.
En este caso, los valores de K y k' son iguales
y la anterior relación se escribe simplemente:
\vskip1.000000\baselineskip
La etapa de síntesis consiste en utilizar estos
parámetros p^{m}_{g,k} (variando m de 1 a M) para sintetizar
cada uno de los M espectros en frecuencia ss^{m}(\omega)
procedentes del módulo de síntesis SYNTH. A tal efecto, se puede
prever la aplicación de la técnica descrita en el documento
FR-2 679 689, añadiendo iterativamente envolventes
espectrales correspondientes a la transformada de Fourier de una
ventana temporal (por ejemplo de Hanning), siendo dichas
envolventes espectrales previamente muestreadas, tabuladas,
centradas en las frecuencias f_{k} y ponderadas mediante
p^{m}_{g,k}, lo que se escribe:
Esta realización se ilustra en la figura 4. Se
asignan K parámetros de amplitud p_{i,k} a cada fuente S_{i}.
El índice i de fuente está incluido entre 1 y N. El índice k de
frecuencia está incluido entre 1 y K. Para cada fuente S_{i}, se
duplican dichos K parámetros M veces, para multiplicar cada uno por
una ganancia de espacialización g_{i}^{m}. El índice m de canal
de codificación de espacialización está incluido entre 1 y M.
En cada canal m, se agrupan, frecuencia por
frecuencia, los K resultados de los productos
g_{i}^{m}\cdotp_{i,k}, según la expresión indicada
anteriormente:
\vskip1.000000\baselineskip
donde k varía de 1 a K en cada
canal m, y m varía globalmente de 1 a
M.
Se entenderá así que en cada canal m están
previstos subcanales p^{m}_{g,k} asociados cada uno a una
componente frecuencial k, designando el índice g, para
recordatorio, el término "global".
El procesamiento continúa multiplicando el
parámetro global de cada subcanal p^{m}_{g,k} asociado a una
frecuencia f_{k} por una envolvente espectral
env_{k}(\omega) centrada en dicha frecuencia f_{k},
para todos los K subcanales (k incluido entre 1 y K), y globalmente
para todos los M canales (m incluido entre 1 y M). A continuación,
se suman los K subcanales en cada canal m, de conformidad con la
siguiente relación:
Para devolver estas M señales al dominio
temporal (anotadas entonces SS^{m}(n)), se les puede
aplicar a continuación una transformada de Fourier inversa
(IFFT):
\vskip1.000000\baselineskip
El procesamiento por tramas sucesivas puede
realizarse mediante una técnica clásica de
adición/recubrimiento.
Cada una de las M señales temporales
SS^{m}(n) puede proporcionarse a continuación a un bloque
de descodificación de espacialización.
A tal efecto, se puede prever por ejemplo un par
de filtros adecuados Fg^{m}(n), Fd^{m}(n) a
aplicar, mediante convolución, a cada señal SSm(n), como se
muestra en la figura 3, para una adaptación de una codificación
ambiofónica hacia una restitución en binaural a dos vías, izquierda
y derecha. Dichos filtros para esta transición ambiofónica/binaural
pueden conseguirse mediante aplicación de la técnica de los
altavoces virtuales citada anteriormente.
El procesamiento realizado por el bloque DECOD
de descodificación espacial de la figura 3 puede ser del tipo:
\vskip1.000000\baselineskip
Después del filtrado, todas las señales
destinadas a los oídos izquierdo y derecho se suman respectivamente,
y se obtiene así un par de señales binaurales:
\vskip1.000000\baselineskip
que alimenta los altavoces de un
casco con dos
auriculares.
A continuación, se describe sin embargo una
variante más ventajosa. Los filtros de adaptación del formato
ambiofónico hacia el formato binaural pueden aplicarse directamente
en el dominio frecuencial, evitando así una convolución en el
dominio temporal y un coste de cálculo correspondiente.
\newpage
A tal efecto, cada uno de los M espectros en
frecuencia ss^{m}(\omega) se multiplica directamente por
las respectivas transformadas de Fourier de los filtros temporales,
anotadas Fg^{m}(\omega) y Fd^{m}(\omega)
(adaptadas en su caso para poseer un número de puntos coherente), lo
que se escribe:
A continuación, se suman los espectros por oído
antes de efectuar la transformada de Fourier inversa y la operación
de adición/recubrimiento, es decir:
A continuación, para expresar las señales que
alimentan el dispositivo de restitución en el dominio temporal, se
aplica la transformada de Fourier inversa:
La presente invención se refiere asimismo a un
producto programa de ordenador, almacenado bien en una memoria de
una unidad central o de un terminal, o en un soporte amovible capaz
de cooperar con un lector de dicha unidad central
(CD-ROM, disquete u otro), o descargable vía una red
de telecomunicaciones. Dicho programa incluye especialmente
instrucciones para la aplicación del procedimiento descrito
anteriormente y del que se puede ilustrar un organigrama a título
de ejemplo en la figura 5, que resuma las etapas de dicho
procedimiento.
- La etapa a)
- se refiere a la asignación de los parámetros representativos de una amplitud en cada fuente S_{i}. En el ejemplo representado, se asigna un parámetro p_{i,k} por componente frecuencial f_{k}, como se ha descrito anteriormente.
- La etapa b)
- se refiere a la duplicación de dichos parámetros y su multiplicación por las ganancias g_{i}^{m} de los canales de codificación.
- La etapa c)
- se refiere a la agrupación de los productos obtenidos en la etapa b) con, en particular, el cálculo de su suma en todas las fuentes S_{i}.
- La etapa d)
- se refiere a la síntesis paramétrica con multiplicación por una envolvente espectral env_{k} como se ha descrito anteriormente, seguida de una agrupación de los subcanales por aplicación, en cada canal, de una suma en todas las componentes frecuenciales (con índice k de entre 1 y K).
- La etapa e)
- se refiere a una descodificación de espacialización de las señales ss^{m} procedentes de los respectivos canales, sintetizados, espacializados y representados en el dominio frecuencial, para una restitución en dos altavoces por ejemplo de formato binaural.
La presente invención se refiere asimismo a un
dispositivo de generación de sonidos sintéticos y espacializados,
que incluye especialmente un procesador y, en particular, una
memoria de trabajo capaz de almacenar instrucciones del producto
programa de ordenador definido anteriormente.
Por supuesto, la presente invención no se limita
al modo de realización descrito anteriormente a título de ejemplo;
se extiende a otras variantes.
Por lo tanto, se ha descrito anteriormente a
título de ejemplo una codificación de espacialización en formato
ambiofónico realizado por el módulo SPAT de la figura 2, seguida de
una adaptación del formato ambiofónico hacia el formato binaural.
Como variante, se puede prever por ejemplo la aplicación directa de
una codificación hacia el formato binaural.
Además, la multiplicación por envolventes
espectrales de la síntesis paramétrica se ha descrito anteriormente
a título de ejemplo, pudiendo preverse otros modelos como
variante.
Claims (7)
1. Procedimiento para sintetizar y espacializar
conjuntamente una pluralidad de fuentes sonoras en posiciones
asociadas del espacio, incluyendo:
- a)
- una etapa de asignación a cada fuente de por lo menos un parámetro (p_{i}), representativo de una amplitud de por lo menos una componente frecuencial de la fuente,
- b)
- una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud (p_{1}) para multiplicarlo por una ganancia (g_{i}^{m}) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (p_{g}^{m}) de codificación y, por otra, para una fuente (S_{i}) a espacializar,
- c)
- una etapa de agrupación (R) de los parámetros (p_{i}^{m}) multiplicados por las ganancias, en canales respectivos (p_{g}^{1}, ..., p_{g}^{M}), aplicando una suma de dichos parámetros multiplicados (p_{i}^{m}) en todas las fuentes (S_{i}) para cada canal (p_{g}^{m}), y
- d)
- una etapa de síntesis paramétrica (SYNTH(1), ..., SYNTH(M)) aplicada a cada uno de los canales (p_{g}^{m}).
2. Procedimiento según la reivindicación 1, en
el cual:
- a)
- se asigna a cada fuente (S_{i}) una pluralidad de parámetros (_{pi,k}) representativos, cada uno, de una amplitud de una componente frecuencial (f_{k}),
- b)
- se duplica cada parámetro de amplitud (p_{i,k}) representativo de una componente frecuencial (f_{k}) para multiplicarlo por una ganancia (g_{i}^{m}) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (p_{g}^{m}) de codificación y, por otra parte, para una fuente (S_{i}) a espacializar.
- c)
- en cada canal, se agrupan, componente frecuencial por componente frecuencial, los productos de los parámetros (p_{i,k}) por las ganancias (g_{i}^{m}), en subcanales (p_{g,k}^{m}) asociados, cada uno, a una componente frecuencial (f_{k}).
3. Procedimiento según la reivindicación 2, en
el que se realiza la síntesis, en cada canal:
- d1)
- multiplicando la salida de cada subcanal asociado a una componente frecuencial (f_{k}) por una envolvente espectral (env_{k}) centrada en una frecuencia correspondiente a dicha componente frecuencial (f_{k}),
- d2)
- y agrupando, mediante una suma en las componentes frecuenciales (f_{k}), los productos resultantes de la operación d1),
- para obtener, tras la operación d2), una señal (ss^{m}) procedente de cada canal, codificada en espacialización y sintetizada.
4. Procedimiento según una de las
reivindicaciones anteriores, en el que la espacialización se realiza
mediante codificación ambiofónica y los parámetros representativos
de una amplitud que se asignan a las fuentes corresponden a
amplitudes de armónicos esféricos (Y_{m}).
5. Procedimiento según la reivindicación 4, en
combinación con la reivindicación 3, en el que, para pasar de una
codificación ambiofónica a una descodificación con objeto de una
restitución en espacialización binaural, se aplica un procesamiento
en el dominio frecuencial directamente a los resultados de los
productos procedentes de los canales respectivos tras la operación
d2).
6. Producto programa de ordenador, almacenado en
una memoria de una unidad central o un terminal, y/o en un soporte
amovible capaz de cooperar con el lector de dicha unidad central,
y/o descargable vía una red de telecomunicaciones,
caracterizado porque incluye instrucciones para la aplicación
del procedimiento según una de las reivindicaciones 1 a 5.
7. Módulo de generación de sonidos sintéticos
espacializados, que incluye especialmente un procesador,
caracterizado porque incluye además una memoria de trabajo
que almacena instrucciones del producto programa de ordenador según
la reivindicación 6.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0602170 | 2006-03-13 | ||
FR0602170 | 2006-03-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2335246T3 true ES2335246T3 (es) | 2010-03-23 |
Family
ID=37400911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07731685T Active ES2335246T3 (es) | 2006-03-13 | 2007-03-01 | Sintesis y especializacion sonora conjunta. |
Country Status (8)
Country | Link |
---|---|
US (1) | US8059824B2 (es) |
EP (1) | EP1994526B1 (es) |
JP (1) | JP5051782B2 (es) |
AT (1) | ATE447224T1 (es) |
DE (1) | DE602007002993D1 (es) |
ES (1) | ES2335246T3 (es) |
PL (1) | PL1994526T3 (es) |
WO (1) | WO2007104877A1 (es) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8786852B2 (en) | 2009-12-02 | 2014-07-22 | Lawrence Livermore National Security, Llc | Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto |
US9395304B2 (en) | 2012-03-01 | 2016-07-19 | Lawrence Livermore National Security, Llc | Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto |
US9788135B2 (en) | 2013-12-04 | 2017-10-10 | The United States Of America As Represented By The Secretary Of The Air Force | Efficient personalization of head-related transfer functions for improved virtual spatial audio |
JP2019530312A (ja) * | 2016-10-04 | 2019-10-17 | オムニオ、サウンド、リミテッドOmnio Sound Limited | ステレオ展開技術 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2679689B1 (fr) * | 1991-07-26 | 1994-02-25 | Etat Francais | Procede de synthese de sons. |
JPH08502867A (ja) | 1992-10-29 | 1996-03-26 | ウィスコンシン アラムニ リサーチ ファンデーション | 指向性音を作る方法及び装置 |
US5596644A (en) | 1994-10-27 | 1997-01-21 | Aureal Semiconductor Inc. | Method and apparatus for efficient presentation of high-quality three-dimensional audio |
FR2782228B1 (fr) | 1998-08-05 | 2001-05-25 | Ct Scient Tech Batiment Cstb | Dispositif de simulation sonore et procede pour realiser un tel dispositif |
FR2847376B1 (fr) * | 2002-11-19 | 2005-02-04 | France Telecom | Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede |
FI118247B (fi) * | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
FR2851879A1 (fr) * | 2003-02-27 | 2004-09-03 | France Telecom | Procede de traitement de donnees sonores compressees, pour spatialisation. |
WO2005069272A1 (fr) * | 2003-12-15 | 2005-07-28 | France Telecom | Procede de synthese et de spatialisation sonores |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
EP2112652B1 (en) * | 2006-07-07 | 2012-11-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for combining multiple parametrically coded audio sources |
JP5021809B2 (ja) * | 2007-06-08 | 2012-09-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出 |
-
2007
- 2007-03-01 EP EP07731685A patent/EP1994526B1/fr active Active
- 2007-03-01 DE DE602007002993T patent/DE602007002993D1/de active Active
- 2007-03-01 WO PCT/FR2007/050868 patent/WO2007104877A1/fr active Application Filing
- 2007-03-01 ES ES07731685T patent/ES2335246T3/es active Active
- 2007-03-01 JP JP2008558857A patent/JP5051782B2/ja active Active
- 2007-03-01 PL PL07731685T patent/PL1994526T3/pl unknown
- 2007-03-01 US US12/225,097 patent/US8059824B2/en active Active
- 2007-03-01 AT AT07731685T patent/ATE447224T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US8059824B2 (en) | 2011-11-15 |
ATE447224T1 (de) | 2009-11-15 |
DE602007002993D1 (de) | 2009-12-10 |
EP1994526A1 (fr) | 2008-11-26 |
US20090097663A1 (en) | 2009-04-16 |
EP1994526B1 (fr) | 2009-10-28 |
WO2007104877A1 (fr) | 2007-09-20 |
JP2009530883A (ja) | 2009-08-27 |
JP5051782B2 (ja) | 2012-10-17 |
PL1994526T3 (pl) | 2010-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106105269B (zh) | 音频信号处理方法和设备 | |
Jot et al. | Digital signal processing issues in the context of binaural and transaural stereophony | |
JP4606507B2 (ja) | 多チャンネル信号のパラメータ表現からの空間ダウンミックスの生成 | |
JP5147727B2 (ja) | 信号デコーディング方法及び装置 | |
CN101263741B (zh) | 产生和处理表示hrtf的参数的方法和设备 | |
BR112020000775A2 (pt) | aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração | |
AU2017210021B2 (en) | Synthesis of signals for immersive audio playback | |
CN102395098A (zh) | 生成3d声音的方法和设备 | |
JP2012503943A (ja) | モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ | |
US20050069143A1 (en) | Filtering for spatial audio rendering | |
EP1695335A1 (fr) | Procede de synthese et de spatialisation sonores | |
ES2335246T3 (es) | Sintesis y especializacion sonora conjunta. | |
Huopaniemi et al. | Virtual Instruments in Virtual ooms-A Real-Time Binaural Room Simulation Environment for Physical Models of Musical Instruments. | |
Rocchesso | Spatial effects | |
JP2009500669A (ja) | パラメトリック・マルチチャンネル復号化 | |
von Coler | A JACK-based application for spectro-spatial additive synthesis | |
Peters et al. | Spatial sound rendering in Max/MSP with ViMiC | |
Ziemer et al. | Psychoacoustic Sound Field Synthesis | |
Savioja et al. | Real-time virtual audio reality | |
US11924623B2 (en) | Object-based audio spatializer | |
Musil et al. | A library for realtime 3d binaural sound reproduction in pure data (pd) | |
WO2022196073A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2023066418A (ja) | オブジェクトベースのオーディオ空間化器 | |
CN117119369A (zh) | 音频生成方法、计算机设备和计算机可读存储介质 | |
JP2024512493A (ja) | 電子機器、方法及びコンピュータプログラム |