ES2335246T3 - Sintesis y especializacion sonora conjunta. - Google Patents

Sintesis y especializacion sonora conjunta. Download PDF

Info

Publication number
ES2335246T3
ES2335246T3 ES07731685T ES07731685T ES2335246T3 ES 2335246 T3 ES2335246 T3 ES 2335246T3 ES 07731685 T ES07731685 T ES 07731685T ES 07731685 T ES07731685 T ES 07731685T ES 2335246 T3 ES2335246 T3 ES 2335246T3
Authority
ES
Spain
Prior art keywords
spatialization
parameters
frequency
source
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07731685T
Other languages
English (en)
Inventor
Gregory Pallone
Marc Emerit
David Virette
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2335246T3 publication Critical patent/ES2335246T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Telephone Set Structure (AREA)
  • Telephone Function (AREA)
  • Golf Clubs (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo: a) una etapa de asignación a cada fuente de por lo menos un parámetro (pi), representativo de una amplitud de por lo menos una componente frecuencial de la fuente, b) una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud (p1) para multiplicarlo por una ganancia (gim) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (pgm) de codificación y, por otra, para una fuente (Si) a espacializar, c) una etapa de agrupación (R) de los parámetros (pim) multiplicados por las ganancias, en canales respectivos (pg1, ..., pgM), aplicando una suma de dichos parámetros multiplicados (pim) en todas las fuentes (Si) para cada canal (pgm), y d) una etapa de síntesis paramétrica (SYNTH(1), ..., SYNTH(M)) aplicada a cada uno de los canales (pgm).

Description

Síntesis y espacialización sonora conjunta.
La presente invención se refiere a un procesamiento de audio y, más concretamente, una espacialización tridimensional de fuentes sonoras sintéticas.
Actualmente, la espacialización de una fuente sonora sintética suele realizarse sin tener en cuenta el modo de producción del sonido, es decir la manera misma en que se sintetiza el sonido. De esta manera, se han propuesto para la síntesis numerosos modelos, especialmente paramétricos. Paralelamente, se han propuesto asimismo numerosas técnicas de espacialización, sin proponer sin embargo una comparación con la técnica elegida para una síntesis.
Se conocen, entre las técnicas de síntesis, los métodos denominados "no paramétricos". A priori, no se utiliza parámetro particular alguno para modificar muestras anteriormente almacenadas en memoria. El representante más conocido de dichos métodos es la síntesis mediante tabla de onda clásica.
A este tipo de técnica se oponen los métodos de síntesis "paramétrica" que se basan en la utilización de un modelo que permite manipular un número reducido de parámetros, comparado con el número de muestras de señales producidas en el sentido de los métodos no paramétricos. Las técnicas de síntesis paramétricas se basan típicamente en modelos aditivos, sustractivos, fuente-filtro o no lineales.
Entre estos métodos paramétricos, se califican de "mutuos" aquellos que permiten manipular en común parámetros correspondientes a distintas fuentes sonoras, para utilizar entonces un único proceso de síntesis, para la totalidad de las fuentes. En los métodos denominados "sinusoidales", se construye típicamente un espectro en frecuencia a partir de los parámetros tales como la amplitud y la frecuencia de cada componente parcial del espectro sonoro global de las fuentes. En efecto, una implementación mediante transformada de Fourier inversa, seguida de una adición/recubrimiento, asegura una síntesis extremadamente eficaz de varias fuentes sonoras simultáneamente.
En lo que se refiere a la espacialización de fuentes sonoras, se conocen actualmente distintas técnicas. Algunas técnicas (como la "transaural" o la "binaural") se basan en tener en cuenta funciones de transferencia HRTF ("Head Related Transfer Function") que representan la perturbación de ondas acústicas por la morfología de un individuo, siendo dichas funciones HRTF propias de dicho individuo. La restitución sonora se efectúa de forma adaptada a los HRTF del oyente, típicamente en dos altavoces distantes ("transaural") o a partir de dos auriculares de un casco ("binaural"). Otras técnicas (por ejemplo la "ambiofónica" o el "multicanal" (5.1 a 10.1 o más) prevén una restitución en más de dos altavoces.
Más concretamente, algunas técnicas a base de HRTF utilizan la separación de las variables "frecuencia" y "posición" de las HRTF, proporcionando así un conjunto de p filtros de base (correspondientes a los p primeros valores propios de la matriz de covariancia de las HRTF cuyas variables estadísticas son las frecuencias), siendo dichos filtros ponderados mediante funciones espaciales (obtenidas mediante proyección de las HRTF en filtros de base). A continuación, las funciones espaciales pueden interpolarse como se describe en el documento US-5,500,900.
La espacialización de numerosas fuentes sonoras puede efectuarse gracias a una implementación multicanal aplicada a la señal de cada una de las fuentes sonoras. Las ganancias de los canales de espacialización se aplican directamente a las muestras sonoras de la señal, a menudo descritas en el dominio temporal (pero posiblemente también en el dominio frecuencial). Dichas muestras sonoras se procesan mediante un algoritmo de espacialización (con aplicación de ganancias que son en función de la posición deseada), con independencia del origen de dichas muestras. De este modo, la especialización propuesta podría aplicarse tanto a sonidos naturales como a sonidos sintéticos.
Por una parte, cada fuente sonora debe sintetizarse independientemente (con obtención de una señal temporal o frecuencial), con objeto de poder aplicar a continuación ganancias de espacialización independientes. Por lo tanto, para N fuentes sonoras, es necesario realizar N cálculos de síntesis.
Por otra parte, la aplicación de las ganancias a muestras sonoras, procedentes del dominio temporal o frecuencial, requiere como mínimo tantas multiplicaciones como muestras existentes. Por lo tanto, para un bloque de Q muestras, es necesario aplicar por lo menos N.M.Q. ganancias, siendo M el número de canales intermedios (por ejemplo canales ambiofónicos) y N el número de fuentes.
Por lo tanto, esta técnica requiere un elevado coste de cálculo en el caso de la espacialización de numerosas fuentes sonoras.
Entre las técnicas ambiofónicas, el método denominado de "altavoces virtuales" permite codificar las señales a espacializar aplicándoles especialmente ganancias, realizándose la descodificación mediante convolución de las señales codificadas mediante filtros precalculados (Jérôme Daniel, "Representación de campos acústicos, aplicación a la transmisión y reproducción de escenas sonoras complejas en un contexto multimedia", Tesis doctoral, 2000).
El documento WO-05/069272 presenta una técnica muy prometedora, que combina síntesis y espacialización.
Consiste en determinar amplitudes a asignar a señales que representan fuentes sonoras para definir, al mismo tiempo, la intensidad sonora (por ejemplo un "volumen") de una fuente a sintetizar y una ganancia de espacialización de dicha fuente. Este documento divulga especialmente una espacialización binaural con consideración de los retrasos y las ganancias (o "funciones espaciales") y, en particular, una mezcla de las fuentes sintetizadas en la parte codificación de la espacialización.
Más concretamente aún, un ejemplo de realización que se incluye en dicho documento WO-05/069272, en el que las fuentes se sintetizan asociando amplitudes a frecuencias que constituyen un "timbre sonoro" (por ejemplo una frecuencia fundamental y sus armónicos), prevé reagrupar por frecuencias idénticas señales de síntesis, con objeto de una espacialización posterior que opere sobre las frecuencias.
Este ejemplo de realización se ilustra en la figura 1. En un bloque de síntesis SYNTH (representado en trazo discontinuo), se asignan a frecuencias f_{0}, f_{1}, f_{2}, ..., f_{p} de cada fuente a sintetizar S_{1}, ..., S_{N} amplitudes respectivas a_{0}^{1}, a_{1}^{1}, ..., a_{p}^{1}, ..., a_{i}^{j}, ..., a_{0}^{N}, a_{1}^{N}, ..., a_{p}^{N} donde, en la notación general a_{i}^{j}, j es un índice de fuente incluido entre 1 y N e i es un índice de frecuencia incluido entre 0 y p. Por supuesto, algunas amplitudes de un juego a_{0}^{j}, a_{1}^{j}, ..., a_{p}^{j} a asignar a una misma fuente j pueden ser nulas si las frecuencias correspondientes no están representadas en el timbre sonoro de dicha fuente j.
Las amplitudes a_{i}^{1}, ..., a_{i}^{N} relativas a cada frecuencia f_{i} se agrupan ("mezclan") para ser aplicadas, frecuencia por frecuencia, al bloque de espacialización SPAT para una codificación que opera en las frecuencias (por ejemplo en binaural, previendo entonces un retraso interaural a aplicar a cada fuente). Las señales de los canales c_{1}, ..., c_{k}, procedentes del bloque de espacialización SPAT, están destinadas a continuación a ser transmitidas a través de una o varias redes, o almacenadas, o demás, con objeto de una restitución posterior (precedida en su caso de una descodificación de espacialización adaptada).
Esta técnica, aunque muy prometedora, merece aún algunas optimizaciones.
De manera general, los procedimientos actuales requieren potencias de cálculo notables para espacializar numerosas fuentes sonoras sintetizadas.
La presente invención viene a mejorar la situación.
Propone a tal efecto un procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo el procedimiento:
a)
una etapa de asignación a cada fuente de por lo menos un parámetro de síntesis p_{i}, representativo de una amplitud de por lo menos una componente frecuencial de la fuente,
b)
una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud para multiplicarlo por una ganancia de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal de codificación y, por otra, para una fuente a espacializar,
c)
una etapa de agrupación de los parámetros multiplicados por las ganancias, en canales respectivos, aplicando una suma de dichos parámetros multiplicados en todas las fuentes para cada canal, y
d)
una etapa de síntesis paramétrica aplicada a cada uno de los canales.
\vskip1.000000\baselineskip
Se propone asimismo un programa de ordenador según la reivindicación 6 y un módulo según la reivindicación 7.
Por lo tanto, la presente invención propone a tal efecto aplicar primero una codificación en espacialización, y una "pseudosíntesis", refiriéndose el término "pseudo" al hecho de que la síntesis se aplica especialmente a los parámetros codificados, resultantes de la espacialización y no a señales sonoras sintéticas habituales.
En efecto, una particularidad que propone la invención es la codificación espacial de algunos parámetros de síntesis, en lugar de realizar una codificación espacial de las señales correspondiente directamente a las fuentes. Esta codificación espacial se aplica más concretamente a parámetros de síntesis que son representativos de una amplitud y consiste ventajosamente en aplicar a dichos parámetros de síntesis unas ganancias de espacialización que se calculan en función de posiciones deseadas respectivas de las fuentes. Por lo tanto, se entenderá que los parámetros multiplicados por las ganancias en la etapa b) y agrupados en la etapa c) no son realmente señales sonoras, como en el sentido de la técnica anterior general descrita anteriormente.
La presente invención utiliza una síntesis paramétrica mutua en la que uno de los parámetros posee la dimensión de una amplitud. Al contrario que en las técnicas de la técnica anterior, saca partido de las ventajas de dicha síntesis para efectuar la espacialización. La combinación de los juegos de parámetros de síntesis obtenidos para cada una de las fuentes permite ventajosamente controlar globalmente los bloques codificados de síntesis paramétrica mutua.
La presente invención permite espacializar simultánea e independientemente numerosas fuentes sonoras sintetizadas a partir de un modelo de síntesis paramétrica, aplicándose las ganancias de espacialización a los parámetros de síntesis en lugar de a las muestras del dominio temporal o frecuencial. Esta realización asegura un ahorro sustancial de la potencia de cálculo requerida, ya que implica un escaso coste de cálculo.
Según una de las ventajas que proporciona la invención, dado que el número de etapas en la síntesis es independiente con relación al número de fuentes, sólo se puede aplicar una única síntesis por canal intermedio. Cualquiera que sea el número de fuentes sonoras, sólo está previsto un número constante M de cálculos de síntesis. Típicamente, en cuanto el número de fuentes N se vuelve mayor que el número M de canales intermedios, la técnica en el sentido de la invención requiere menos cálculos que las técnicas habituales en el sentido de la técnica anterior. Por ejemplo, en el orden ambiofónico 1 y en dos dimensiones (es decir tres canales intermedios), la invención permite ya una ganancia de cálculo para sólo cuatro fuentes a espacializar.
La presente invención permite asimismo disminuir el número de ganancias a aplicar. En efecto, las ganancias se aplican a los parámetros de síntesis, no a las muestras sonoras. Siendo la actualización de los parámetros tales como el volumen generalmente menos frecuente que la frecuencia de muestreo de una señal, se realiza un ahorro de cálculo. Por ejemplo, para una frecuencia de actualización de parámetros (tal como el volumen especialmente) de 200 Hz, se realiza un ahorro de multiplicaciones sustancial para una frecuencia de muestreo de la señal de 44100 Hz (según una relación de aproximadamente 200).
Los campos de aplicación de la presente invención pueden afectar tanto al ámbito musical (especialmente los timbres polifónicos de móviles), al ámbito multimedia (especialmente la sonorización de videojuegos), el ámbito de la realidad virtual (escenas sonoras), los simuladores (síntesis de ruidos de motores), u otros.
Otras características y ventajas de la invención aparecerán mediante el examen de la siguiente descripción detallada y de los dibujos adjuntos, en los cuales, además de la figura 1 relativa a la técnica anterior descrita previamente:
- la figura 2 ilustra el procesamiento general de espacialización y síntesis previsto en un procedimiento en el sentido de la invención,
- la figura 3 ilustra un procesamiento de las señales espacializadas y sintetizadas, para una descodificación espacial con objeto de una restitución,
- la figura 4 ilustra un modo de realización particular en el que se asignan varios parámetros de amplitud a cada fuente, estando asociado cada parámetro a una componente frecuencial,
- la figura 5 ilustra las etapas de un procedimiento en el sentido de la invención, y puede corresponder a un organigrama de un programa de ordenador para la aplicación de la invención.
En referencia a la figura 2, se asigna por lo menos un parámetro p_{i}, representativo de una amplitud, a una fuente S_{i}, entre una pluralidad de fuentes S_{1}, ..., S_{N} a sintetizar y espacializar (i estando incluida entre 1 y N). Se duplica cada parámetro p_{i} en tantos canales de espacialización como haya previstos en el bloque de espacialización SPAT. En el ejemplo representado, en el que se prevén M canales de codificación para la espacialización, se duplica M veces cada parámetro p_{i} para aplicar ganancias de espacialización respectivas g_{i}^{1}, g_{i}^{M} (siendo i, para recordatorio, un índice de fuente S_{i}).
Se obtiene entonces N.M parámetros multiplicados cada uno por una ganancia: p_{1}g_{1}^{1}, ..., P_{1}g_{1}^{M}, ..., p_{i}g_{i}^{1}, ..., p_{i}g_{i}^{M}, ..., p_{N}g_{N}^{1}, ..., p_{N}g_{N}^{M}.
A continuación, se agrupan dichos parámetros multiplicados (referencia R de la figura 2) por canales de espacialización (M canales en total), es decir:
-
p_{1}g_{1}^{1}, ..., p_{i}g_{i}^{1}, ..., p_{N}g_{N}^{1} agrupados en un primer canal de espacialización p_{g}^{1},
hasta:
-
p_{1}g_{1}^{M}, ..., p_{i}g_{i}^{M}, ..., p_{N}g_{N}^{M} agrupados en un M^{ésimo} canal de espacialización p_{g}^{M},
designando la letra g del índice el término "global".
De este modo, se calculan nuevos parámetros p_{i}^{m} (variando i de 1 a N y variando m de 1 a M) mediante multiplicación de los parámetros p_{i} por las ganancias de codificación g_{i}^{m}, obtenidas a partir de la posición de cada una de las fuentes. Los parámetros p_{i}^{m} se combinan (mediante suma en el ejemplo descrito) con el fin de proporcionar los parámetros p_{g}^{m} que alimentan M bloques de síntesis paramétrica mutua. Estos M bloques (con referencia SYNTH(1) a SYNTH(M) en la figura 2) constituyen el módulo de síntesis SYNTH, el cual suministra M señales temporales o frecuenciales ss^{m} (variando m de 1 a M), obtenidas mediante síntesis a partir de los parámetros p_{g}^{m}. Dichas señales ss^{m} pueden alimentar a continuación un bloque clásico de descodificación espacial, como se verá más adelante en referencia a la figura 3.
En un modo de realización particular, la síntesis utilizada es una síntesis aditiva con aplicación de una transformada de Fourier inversa (IFFT).
A tal efecto, un conjunto de N fuentes está caracterizado por una pluralidad de parámetros p_{i,k} que representan la amplitud en el dominio frecuencial de la k^{ésima} componente frecuencial para la i^{ésima} fuente S_{i}.
La señal temporal s_{i}(n) que correspondería a esta fuente S_{i}, si se sintetizara con independencia de las demás fuentes, vendría dada por:
1
\vskip1.000000\baselineskip
donde p_{i,k} es la amplitud de la componente de frecuencia f_{i,k}, cuya fase viene dada por \varphi_{i,k} para la fuente S_{i}, en el instante n. Es posible realizar la síntesis aditiva en el dominio frecuencial a partir de únicamente los parámetros p_{i,k}, f_{i,k} y \varphi_{i,k} dados, utilizando por ejemplo la técnica expuesta en el documento FR-2 679 689.
El parámetro p_{i,k} representa la amplitud de una componente frecuencial k dada para una fuente S_{i} dada. Por lo tanto, se deducen los parámetros p^{m}_{i,k} para cada fuente y cada uno de los M canales gracias a la relación:
2
\vskip1.000000\baselineskip
variando m de 1 a M. Las ganancias g^{m}_{i} están predeterminadas para una posición deseada para la fuente S_{i} y en función de la codificación de espacialización elegida.
En el caso de una codificación ambiofónica, por ejemplo, estas ganancias corresponden a los armónicos esféricas y pueden escribirse g^{m}_{i} = Y_{m}(\theta_{i},\delta_{i}), donde:
-
Y_{m} es una armónica esférica de orden m,
-
\theta_{i} y \delta_{i} son respectivamente el acimut y el sitio deseados para la fuente S_{i}.
A continuación, los parámetros p^{m}_{i,k} se combinan frecuencia por frecuencia, de manera a obtener un único parámetro global:
3 donde k' describe todas las frecuencias f_{i,k} presentes en todas las fuentes S_{i}.
En la práctica, el valor de k' es inferior a k.i ya que frecuencias comunes pueden caracterizar varias fuentes al mismo tiempo. En una realización, se puede prever la asociación de un mismo juego global de frecuencias a todas las fuentes, aún a riesgo de que algunos parámetros de amplitud para ciertas frecuencias de fuentes sean nulos.
En este caso, los valores de K y k' son iguales y la anterior relación se escribe simplemente:
4
\vskip1.000000\baselineskip
La etapa de síntesis consiste en utilizar estos parámetros p^{m}_{g,k} (variando m de 1 a M) para sintetizar cada uno de los M espectros en frecuencia ss^{m}(\omega) procedentes del módulo de síntesis SYNTH. A tal efecto, se puede prever la aplicación de la técnica descrita en el documento FR-2 679 689, añadiendo iterativamente envolventes espectrales correspondientes a la transformada de Fourier de una ventana temporal (por ejemplo de Hanning), siendo dichas envolventes espectrales previamente muestreadas, tabuladas, centradas en las frecuencias f_{k} y ponderadas mediante p^{m}_{g,k}, lo que se escribe:
5 donde env_{k}(\omega) es la envolvente espectral centrada en la frecuencia f_{k}.
Esta realización se ilustra en la figura 4. Se asignan K parámetros de amplitud p_{i,k} a cada fuente S_{i}. El índice i de fuente está incluido entre 1 y N. El índice k de frecuencia está incluido entre 1 y K. Para cada fuente S_{i}, se duplican dichos K parámetros M veces, para multiplicar cada uno por una ganancia de espacialización g_{i}^{m}. El índice m de canal de codificación de espacialización está incluido entre 1 y M.
En cada canal m, se agrupan, frecuencia por frecuencia, los K resultados de los productos g_{i}^{m}\cdotp_{i,k}, según la expresión indicada anteriormente:
6
\vskip1.000000\baselineskip
donde k varía de 1 a K en cada canal m, y m varía globalmente de 1 a M.
Se entenderá así que en cada canal m están previstos subcanales p^{m}_{g,k} asociados cada uno a una componente frecuencial k, designando el índice g, para recordatorio, el término "global".
El procesamiento continúa multiplicando el parámetro global de cada subcanal p^{m}_{g,k} asociado a una frecuencia f_{k} por una envolvente espectral env_{k}(\omega) centrada en dicha frecuencia f_{k}, para todos los K subcanales (k incluido entre 1 y K), y globalmente para todos los M canales (m incluido entre 1 y M). A continuación, se suman los K subcanales en cada canal m, de conformidad con la siguiente relación:
7 para m de entre 1 y M canales en total. Se obtienen entonces las señales ss^{m}(\omega) codificadas para su espacialización y sintetizadas en el sentido de la invención. Se expresan en el dominio frecuencial.
Para devolver estas M señales al dominio temporal (anotadas entonces SS^{m}(n)), se les puede aplicar a continuación una transformada de Fourier inversa (IFFT):
8
\vskip1.000000\baselineskip
El procesamiento por tramas sucesivas puede realizarse mediante una técnica clásica de adición/recubrimiento.
Cada una de las M señales temporales SS^{m}(n) puede proporcionarse a continuación a un bloque de descodificación de espacialización.
A tal efecto, se puede prever por ejemplo un par de filtros adecuados Fg^{m}(n), Fd^{m}(n) a aplicar, mediante convolución, a cada señal SSm(n), como se muestra en la figura 3, para una adaptación de una codificación ambiofónica hacia una restitución en binaural a dos vías, izquierda y derecha. Dichos filtros para esta transición ambiofónica/binaural pueden conseguirse mediante aplicación de la técnica de los altavoces virtuales citada anteriormente.
El procesamiento realizado por el bloque DECOD de descodificación espacial de la figura 3 puede ser del tipo:
9
\vskip1.000000\baselineskip
Después del filtrado, todas las señales destinadas a los oídos izquierdo y derecho se suman respectivamente, y se obtiene así un par de señales binaurales:
10
\vskip1.000000\baselineskip
que alimenta los altavoces de un casco con dos auriculares.
A continuación, se describe sin embargo una variante más ventajosa. Los filtros de adaptación del formato ambiofónico hacia el formato binaural pueden aplicarse directamente en el dominio frecuencial, evitando así una convolución en el dominio temporal y un coste de cálculo correspondiente.
\newpage
A tal efecto, cada uno de los M espectros en frecuencia ss^{m}(\omega) se multiplica directamente por las respectivas transformadas de Fourier de los filtros temporales, anotadas Fg^{m}(\omega) y Fd^{m}(\omega) (adaptadas en su caso para poseer un número de puntos coherente), lo que se escribe:
11
A continuación, se suman los espectros por oído antes de efectuar la transformada de Fourier inversa y la operación de adición/recubrimiento, es decir:
12
A continuación, para expresar las señales que alimentan el dispositivo de restitución en el dominio temporal, se aplica la transformada de Fourier inversa:
13
La presente invención se refiere asimismo a un producto programa de ordenador, almacenado bien en una memoria de una unidad central o de un terminal, o en un soporte amovible capaz de cooperar con un lector de dicha unidad central (CD-ROM, disquete u otro), o descargable vía una red de telecomunicaciones. Dicho programa incluye especialmente instrucciones para la aplicación del procedimiento descrito anteriormente y del que se puede ilustrar un organigrama a título de ejemplo en la figura 5, que resuma las etapas de dicho procedimiento.
La etapa a)
se refiere a la asignación de los parámetros representativos de una amplitud en cada fuente S_{i}. En el ejemplo representado, se asigna un parámetro p_{i,k} por componente frecuencial f_{k}, como se ha descrito anteriormente.
La etapa b)
se refiere a la duplicación de dichos parámetros y su multiplicación por las ganancias g_{i}^{m} de los canales de codificación.
La etapa c)
se refiere a la agrupación de los productos obtenidos en la etapa b) con, en particular, el cálculo de su suma en todas las fuentes S_{i}.
La etapa d)
se refiere a la síntesis paramétrica con multiplicación por una envolvente espectral env_{k} como se ha descrito anteriormente, seguida de una agrupación de los subcanales por aplicación, en cada canal, de una suma en todas las componentes frecuenciales (con índice k de entre 1 y K).
La etapa e)
se refiere a una descodificación de espacialización de las señales ss^{m} procedentes de los respectivos canales, sintetizados, espacializados y representados en el dominio frecuencial, para una restitución en dos altavoces por ejemplo de formato binaural.
La presente invención se refiere asimismo a un dispositivo de generación de sonidos sintéticos y espacializados, que incluye especialmente un procesador y, en particular, una memoria de trabajo capaz de almacenar instrucciones del producto programa de ordenador definido anteriormente.
Por supuesto, la presente invención no se limita al modo de realización descrito anteriormente a título de ejemplo; se extiende a otras variantes.
Por lo tanto, se ha descrito anteriormente a título de ejemplo una codificación de espacialización en formato ambiofónico realizado por el módulo SPAT de la figura 2, seguida de una adaptación del formato ambiofónico hacia el formato binaural. Como variante, se puede prever por ejemplo la aplicación directa de una codificación hacia el formato binaural.
Además, la multiplicación por envolventes espectrales de la síntesis paramétrica se ha descrito anteriormente a título de ejemplo, pudiendo preverse otros modelos como variante.

Claims (7)

1. Procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo:
a)
una etapa de asignación a cada fuente de por lo menos un parámetro (p_{i}), representativo de una amplitud de por lo menos una componente frecuencial de la fuente,
b)
una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud (p_{1}) para multiplicarlo por una ganancia (g_{i}^{m}) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (p_{g}^{m}) de codificación y, por otra, para una fuente (S_{i}) a espacializar,
c)
una etapa de agrupación (R) de los parámetros (p_{i}^{m}) multiplicados por las ganancias, en canales respectivos (p_{g}^{1}, ..., p_{g}^{M}), aplicando una suma de dichos parámetros multiplicados (p_{i}^{m}) en todas las fuentes (S_{i}) para cada canal (p_{g}^{m}), y
d)
una etapa de síntesis paramétrica (SYNTH(1), ..., SYNTH(M)) aplicada a cada uno de los canales (p_{g}^{m}).
2. Procedimiento según la reivindicación 1, en el cual:
a)
se asigna a cada fuente (S_{i}) una pluralidad de parámetros (_{pi,k}) representativos, cada uno, de una amplitud de una componente frecuencial (f_{k}),
b)
se duplica cada parámetro de amplitud (p_{i,k}) representativo de una componente frecuencial (f_{k}) para multiplicarlo por una ganancia (g_{i}^{m}) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (p_{g}^{m}) de codificación y, por otra parte, para una fuente (S_{i}) a espacializar.
c)
en cada canal, se agrupan, componente frecuencial por componente frecuencial, los productos de los parámetros (p_{i,k}) por las ganancias (g_{i}^{m}), en subcanales (p_{g,k}^{m}) asociados, cada uno, a una componente frecuencial (f_{k}).
3. Procedimiento según la reivindicación 2, en el que se realiza la síntesis, en cada canal:
d1)
multiplicando la salida de cada subcanal asociado a una componente frecuencial (f_{k}) por una envolvente espectral (env_{k}) centrada en una frecuencia correspondiente a dicha componente frecuencial (f_{k}),
d2)
y agrupando, mediante una suma en las componentes frecuenciales (f_{k}), los productos resultantes de la operación d1),
para obtener, tras la operación d2), una señal (ss^{m}) procedente de cada canal, codificada en espacialización y sintetizada.
4. Procedimiento según una de las reivindicaciones anteriores, en el que la espacialización se realiza mediante codificación ambiofónica y los parámetros representativos de una amplitud que se asignan a las fuentes corresponden a amplitudes de armónicos esféricos (Y_{m}).
5. Procedimiento según la reivindicación 4, en combinación con la reivindicación 3, en el que, para pasar de una codificación ambiofónica a una descodificación con objeto de una restitución en espacialización binaural, se aplica un procesamiento en el dominio frecuencial directamente a los resultados de los productos procedentes de los canales respectivos tras la operación d2).
6. Producto programa de ordenador, almacenado en una memoria de una unidad central o un terminal, y/o en un soporte amovible capaz de cooperar con el lector de dicha unidad central, y/o descargable vía una red de telecomunicaciones, caracterizado porque incluye instrucciones para la aplicación del procedimiento según una de las reivindicaciones 1 a 5.
7. Módulo de generación de sonidos sintéticos espacializados, que incluye especialmente un procesador, caracterizado porque incluye además una memoria de trabajo que almacena instrucciones del producto programa de ordenador según la reivindicación 6.
ES07731685T 2006-03-13 2007-03-01 Sintesis y especializacion sonora conjunta. Active ES2335246T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0602170 2006-03-13
FR0602170 2006-03-13

Publications (1)

Publication Number Publication Date
ES2335246T3 true ES2335246T3 (es) 2010-03-23

Family

ID=37400911

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07731685T Active ES2335246T3 (es) 2006-03-13 2007-03-01 Sintesis y especializacion sonora conjunta.

Country Status (8)

Country Link
US (1) US8059824B2 (es)
EP (1) EP1994526B1 (es)
JP (1) JP5051782B2 (es)
AT (1) ATE447224T1 (es)
DE (1) DE602007002993D1 (es)
ES (1) ES2335246T3 (es)
PL (1) PL1994526T3 (es)
WO (1) WO2007104877A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
US9788135B2 (en) 2013-12-04 2017-10-10 The United States Of America As Represented By The Secretary Of The Air Force Efficient personalization of head-related transfer functions for improved virtual spatial audio
JP2019530312A (ja) * 2016-10-04 2019-10-17 オムニオ、サウンド、リミテッドOmnio Sound Limited ステレオ展開技術

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2679689B1 (fr) * 1991-07-26 1994-02-25 Etat Francais Procede de synthese de sons.
JPH08502867A (ja) 1992-10-29 1996-03-26 ウィスコンシン アラムニ リサーチ ファンデーション 指向性音を作る方法及び装置
US5596644A (en) 1994-10-27 1997-01-21 Aureal Semiconductor Inc. Method and apparatus for efficient presentation of high-quality three-dimensional audio
FR2782228B1 (fr) 1998-08-05 2001-05-25 Ct Scient Tech Batiment Cstb Dispositif de simulation sonore et procede pour realiser un tel dispositif
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
FR2851879A1 (fr) * 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
WO2005069272A1 (fr) * 2003-12-15 2005-07-28 France Telecom Procede de synthese et de spatialisation sonores
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
JP5021809B2 (ja) * 2007-06-08 2012-09-12 ドルビー ラボラトリーズ ライセンシング コーポレイション アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出

Also Published As

Publication number Publication date
US8059824B2 (en) 2011-11-15
ATE447224T1 (de) 2009-11-15
DE602007002993D1 (de) 2009-12-10
EP1994526A1 (fr) 2008-11-26
US20090097663A1 (en) 2009-04-16
EP1994526B1 (fr) 2009-10-28
WO2007104877A1 (fr) 2007-09-20
JP2009530883A (ja) 2009-08-27
JP5051782B2 (ja) 2012-10-17
PL1994526T3 (pl) 2010-03-31

Similar Documents

Publication Publication Date Title
CN106105269B (zh) 音频信号处理方法和设备
Jot et al. Digital signal processing issues in the context of binaural and transaural stereophony
JP4606507B2 (ja) 多チャンネル信号のパラメータ表現からの空間ダウンミックスの生成
JP5147727B2 (ja) 信号デコーディング方法及び装置
CN101263741B (zh) 产生和处理表示hrtf的参数的方法和设备
BR112020000775A2 (pt) aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração
AU2017210021B2 (en) Synthesis of signals for immersive audio playback
CN102395098A (zh) 生成3d声音的方法和设备
JP2012503943A (ja) モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ
US20050069143A1 (en) Filtering for spatial audio rendering
EP1695335A1 (fr) Procede de synthese et de spatialisation sonores
ES2335246T3 (es) Sintesis y especializacion sonora conjunta.
Huopaniemi et al. Virtual Instruments in Virtual ooms-A Real-Time Binaural Room Simulation Environment for Physical Models of Musical Instruments.
Rocchesso Spatial effects
JP2009500669A (ja) パラメトリック・マルチチャンネル復号化
von Coler A JACK-based application for spectro-spatial additive synthesis
Peters et al. Spatial sound rendering in Max/MSP with ViMiC
Ziemer et al. Psychoacoustic Sound Field Synthesis
Savioja et al. Real-time virtual audio reality
US11924623B2 (en) Object-based audio spatializer
Musil et al. A library for realtime 3d binaural sound reproduction in pure data (pd)
WO2022196073A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2023066418A (ja) オブジェクトベースのオーディオ空間化器
CN117119369A (zh) 音频生成方法、计算机设备和计算机可读存储介质
JP2024512493A (ja) 電子機器、方法及びコンピュータプログラム