ES2335246T3

ES2335246T3 - Sintesis y especializacion sonora conjunta.

Info

Publication number: ES2335246T3
Application number: ES07731685T
Authority: ES
Inventors: Gregory Pallone; Marc Emerit; David Virette
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-03-13
Filing date: 2007-03-01
Publication date: 2010-03-23
Anticipated expiration: 2027-03-01
Also published as: US8059824B2; ATE447224T1; DE602007002993D1; EP1994526A1; US20090097663A1; EP1994526B1; WO2007104877A1; JP2009530883A; JP5051782B2; PL1994526T3

Abstract

Procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo: a) una etapa de asignación a cada fuente de por lo menos un parámetro (pi), representativo de una amplitud de por lo menos una componente frecuencial de la fuente, b) una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud (p1) para multiplicarlo por una ganancia (gim) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (pgm) de codificación y, por otra, para una fuente (Si) a espacializar, c) una etapa de agrupación (R) de los parámetros (pim) multiplicados por las ganancias, en canales respectivos (pg1, ..., pgM), aplicando una suma de dichos parámetros multiplicados (pim) en todas las fuentes (Si) para cada canal (pgm), y d) una etapa de síntesis paramétrica (SYNTH(1), ..., SYNTH(M)) aplicada a cada uno de los canales (pgm).

Description

Síntesis y espacialización sonora conjunta.

La presente invención se refiere a un procesamiento de audio y, más concretamente, una espacialización tridimensional de fuentes sonoras sintéticas.

Actualmente, la espacialización de una fuente sonora sintética suele realizarse sin tener en cuenta el modo de producción del sonido, es decir la manera misma en que se sintetiza el sonido. De esta manera, se han propuesto para la síntesis numerosos modelos, especialmente paramétricos. Paralelamente, se han propuesto asimismo numerosas técnicas de espacialización, sin proponer sin embargo una comparación con la técnica elegida para una síntesis.

Se conocen, entre las técnicas de síntesis, los métodos denominados "no paramétricos". A priori, no se utiliza parámetro particular alguno para modificar muestras anteriormente almacenadas en memoria. El representante más conocido de dichos métodos es la síntesis mediante tabla de onda clásica.

A este tipo de técnica se oponen los métodos de síntesis "paramétrica" que se basan en la utilización de un modelo que permite manipular un número reducido de parámetros, comparado con el número de muestras de señales producidas en el sentido de los métodos no paramétricos. Las técnicas de síntesis paramétricas se basan típicamente en modelos aditivos, sustractivos, fuente-filtro o no lineales.

Entre estos métodos paramétricos, se califican de "mutuos" aquellos que permiten manipular en común parámetros correspondientes a distintas fuentes sonoras, para utilizar entonces un único proceso de síntesis, para la totalidad de las fuentes. En los métodos denominados "sinusoidales", se construye típicamente un espectro en frecuencia a partir de los parámetros tales como la amplitud y la frecuencia de cada componente parcial del espectro sonoro global de las fuentes. En efecto, una implementación mediante transformada de Fourier inversa, seguida de una adición/recubrimiento, asegura una síntesis extremadamente eficaz de varias fuentes sonoras simultáneamente.

En lo que se refiere a la espacialización de fuentes sonoras, se conocen actualmente distintas técnicas. Algunas técnicas (como la "transaural" o la "binaural") se basan en tener en cuenta funciones de transferencia HRTF ("Head Related Transfer Function") que representan la perturbación de ondas acústicas por la morfología de un individuo, siendo dichas funciones HRTF propias de dicho individuo. La restitución sonora se efectúa de forma adaptada a los HRTF del oyente, típicamente en dos altavoces distantes ("transaural") o a partir de dos auriculares de un casco ("binaural"). Otras técnicas (por ejemplo la "ambiofónica" o el "multicanal" (5.1 a 10.1 o más) prevén una restitución en más de dos altavoces.

Más concretamente, algunas técnicas a base de HRTF utilizan la separación de las variables "frecuencia" y "posición" de las HRTF, proporcionando así un conjunto de p filtros de base (correspondientes a los p primeros valores propios de la matriz de covariancia de las HRTF cuyas variables estadísticas son las frecuencias), siendo dichos filtros ponderados mediante funciones espaciales (obtenidas mediante proyección de las HRTF en filtros de base). A continuación, las funciones espaciales pueden interpolarse como se describe en el documento US-5,500,900.

La espacialización de numerosas fuentes sonoras puede efectuarse gracias a una implementación multicanal aplicada a la señal de cada una de las fuentes sonoras. Las ganancias de los canales de espacialización se aplican directamente a las muestras sonoras de la señal, a menudo descritas en el dominio temporal (pero posiblemente también en el dominio frecuencial). Dichas muestras sonoras se procesan mediante un algoritmo de espacialización (con aplicación de ganancias que son en función de la posición deseada), con independencia del origen de dichas muestras. De este modo, la especialización propuesta podría aplicarse tanto a sonidos naturales como a sonidos sintéticos.

Por una parte, cada fuente sonora debe sintetizarse independientemente (con obtención de una señal temporal o frecuencial), con objeto de poder aplicar a continuación ganancias de espacialización independientes. Por lo tanto, para N fuentes sonoras, es necesario realizar N cálculos de síntesis.

Por otra parte, la aplicación de las ganancias a muestras sonoras, procedentes del dominio temporal o frecuencial, requiere como mínimo tantas multiplicaciones como muestras existentes. Por lo tanto, para un bloque de Q muestras, es necesario aplicar por lo menos N.M.Q. ganancias, siendo M el número de canales intermedios (por ejemplo canales ambiofónicos) y N el número de fuentes.

Por lo tanto, esta técnica requiere un elevado coste de cálculo en el caso de la espacialización de numerosas fuentes sonoras.

Entre las técnicas ambiofónicas, el método denominado de "altavoces virtuales" permite codificar las señales a espacializar aplicándoles especialmente ganancias, realizándose la descodificación mediante convolución de las señales codificadas mediante filtros precalculados (Jérôme Daniel, "Representación de campos acústicos, aplicación a la transmisión y reproducción de escenas sonoras complejas en un contexto multimedia", Tesis doctoral, 2000).

El documento WO-05/069272 presenta una técnica muy prometedora, que combina síntesis y espacialización.

Consiste en determinar amplitudes a asignar a señales que representan fuentes sonoras para definir, al mismo tiempo, la intensidad sonora (por ejemplo un "volumen") de una fuente a sintetizar y una ganancia de espacialización de dicha fuente. Este documento divulga especialmente una espacialización binaural con consideración de los retrasos y las ganancias (o "funciones espaciales") y, en particular, una mezcla de las fuentes sintetizadas en la parte codificación de la espacialización.

Más concretamente aún, un ejemplo de realización que se incluye en dicho documento WO-05/069272, en el que las fuentes se sintetizan asociando amplitudes a frecuencias que constituyen un "timbre sonoro" (por ejemplo una frecuencia fundamental y sus armónicos), prevé reagrupar por frecuencias idénticas señales de síntesis, con objeto de una espacialización posterior que opere sobre las frecuencias.

Este ejemplo de realización se ilustra en la figura 1. En un bloque de síntesis SYNTH (representado en trazo discontinuo), se asignan a frecuencias f_{0}, f_{1}, f_{2}, ..., f_{p} de cada fuente a sintetizar S_{1}, ..., S_{N} amplitudes respectivas a_{0}^{1}, a_{1}^{1}, ..., a_{p}^{1}, ..., a_{i}^{j}, ..., a_{0}^{N}, a_{1}^{N}, ..., a_{p}^{N} donde, en la notación general a_{i}^{j}, j es un índice de fuente incluido entre 1 y N e i es un índice de frecuencia incluido entre 0 y p. Por supuesto, algunas amplitudes de un juego a_{0}^{j}, a_{1}^{j}, ..., a_{p}^{j} a asignar a una misma fuente j pueden ser nulas si las frecuencias correspondientes no están representadas en el timbre sonoro de dicha fuente j.

Las amplitudes a_{i}^{1}, ..., a_{i}^{N} relativas a cada frecuencia f_{i} se agrupan ("mezclan") para ser aplicadas, frecuencia por frecuencia, al bloque de espacialización SPAT para una codificación que opera en las frecuencias (por ejemplo en binaural, previendo entonces un retraso interaural a aplicar a cada fuente). Las señales de los canales c_{1}, ..., c_{k}, procedentes del bloque de espacialización SPAT, están destinadas a continuación a ser transmitidas a través de una o varias redes, o almacenadas, o demás, con objeto de una restitución posterior (precedida en su caso de una descodificación de espacialización adaptada).

Esta técnica, aunque muy prometedora, merece aún algunas optimizaciones.

De manera general, los procedimientos actuales requieren potencias de cálculo notables para espacializar numerosas fuentes sonoras sintetizadas.

La presente invención viene a mejorar la situación.

Propone a tal efecto un procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo el procedimiento:

a): una etapa de asignación a cada fuente de por lo menos un parámetro de síntesis p_{i}, representativo de una amplitud de por lo menos una componente frecuencial de la fuente,

b): una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud para multiplicarlo por una ganancia de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal de codificación y, por otra, para una fuente a espacializar,

c): una etapa de agrupación de los parámetros multiplicados por las ganancias, en canales respectivos, aplicando una suma de dichos parámetros multiplicados en todas las fuentes para cada canal, y

d): una etapa de síntesis paramétrica aplicada a cada uno de los canales.

\vskip1.000000\baselineskip

Se propone asimismo un programa de ordenador según la reivindicación 6 y un módulo según la reivindicación 7.

Por lo tanto, la presente invención propone a tal efecto aplicar primero una codificación en espacialización, y una "pseudosíntesis", refiriéndose el término "pseudo" al hecho de que la síntesis se aplica especialmente a los parámetros codificados, resultantes de la espacialización y no a señales sonoras sintéticas habituales.

En efecto, una particularidad que propone la invención es la codificación espacial de algunos parámetros de síntesis, en lugar de realizar una codificación espacial de las señales correspondiente directamente a las fuentes. Esta codificación espacial se aplica más concretamente a parámetros de síntesis que son representativos de una amplitud y consiste ventajosamente en aplicar a dichos parámetros de síntesis unas ganancias de espacialización que se calculan en función de posiciones deseadas respectivas de las fuentes. Por lo tanto, se entenderá que los parámetros multiplicados por las ganancias en la etapa b) y agrupados en la etapa c) no son realmente señales sonoras, como en el sentido de la técnica anterior general descrita anteriormente.

La presente invención utiliza una síntesis paramétrica mutua en la que uno de los parámetros posee la dimensión de una amplitud. Al contrario que en las técnicas de la técnica anterior, saca partido de las ventajas de dicha síntesis para efectuar la espacialización. La combinación de los juegos de parámetros de síntesis obtenidos para cada una de las fuentes permite ventajosamente controlar globalmente los bloques codificados de síntesis paramétrica mutua.

La presente invención permite espacializar simultánea e independientemente numerosas fuentes sonoras sintetizadas a partir de un modelo de síntesis paramétrica, aplicándose las ganancias de espacialización a los parámetros de síntesis en lugar de a las muestras del dominio temporal o frecuencial. Esta realización asegura un ahorro sustancial de la potencia de cálculo requerida, ya que implica un escaso coste de cálculo.

Según una de las ventajas que proporciona la invención, dado que el número de etapas en la síntesis es independiente con relación al número de fuentes, sólo se puede aplicar una única síntesis por canal intermedio. Cualquiera que sea el número de fuentes sonoras, sólo está previsto un número constante M de cálculos de síntesis. Típicamente, en cuanto el número de fuentes N se vuelve mayor que el número M de canales intermedios, la técnica en el sentido de la invención requiere menos cálculos que las técnicas habituales en el sentido de la técnica anterior. Por ejemplo, en el orden ambiofónico 1 y en dos dimensiones (es decir tres canales intermedios), la invención permite ya una ganancia de cálculo para sólo cuatro fuentes a espacializar.

La presente invención permite asimismo disminuir el número de ganancias a aplicar. En efecto, las ganancias se aplican a los parámetros de síntesis, no a las muestras sonoras. Siendo la actualización de los parámetros tales como el volumen generalmente menos frecuente que la frecuencia de muestreo de una señal, se realiza un ahorro de cálculo. Por ejemplo, para una frecuencia de actualización de parámetros (tal como el volumen especialmente) de 200 Hz, se realiza un ahorro de multiplicaciones sustancial para una frecuencia de muestreo de la señal de 44100 Hz (según una relación de aproximadamente 200).

Los campos de aplicación de la presente invención pueden afectar tanto al ámbito musical (especialmente los timbres polifónicos de móviles), al ámbito multimedia (especialmente la sonorización de videojuegos), el ámbito de la realidad virtual (escenas sonoras), los simuladores (síntesis de ruidos de motores), u otros.

Otras características y ventajas de la invención aparecerán mediante el examen de la siguiente descripción detallada y de los dibujos adjuntos, en los cuales, además de la figura 1 relativa a la técnica anterior descrita previamente:

- la figura 2 ilustra el procesamiento general de espacialización y síntesis previsto en un procedimiento en el sentido de la invención,

- la figura 3 ilustra un procesamiento de las señales espacializadas y sintetizadas, para una descodificación espacial con objeto de una restitución,

- la figura 4 ilustra un modo de realización particular en el que se asignan varios parámetros de amplitud a cada fuente, estando asociado cada parámetro a una componente frecuencial,

- la figura 5 ilustra las etapas de un procedimiento en el sentido de la invención, y puede corresponder a un organigrama de un programa de ordenador para la aplicación de la invención.

En referencia a la figura 2, se asigna por lo menos un parámetro p_{i}, representativo de una amplitud, a una fuente S_{i}, entre una pluralidad de fuentes S_{1}, ..., S_{N} a sintetizar y espacializar (i estando incluida entre 1 y N). Se duplica cada parámetro p_{i} en tantos canales de espacialización como haya previstos en el bloque de espacialización SPAT. En el ejemplo representado, en el que se prevén M canales de codificación para la espacialización, se duplica M veces cada parámetro p_{i} para aplicar ganancias de espacialización respectivas g_{i}^{1}, g_{i}^{M} (siendo i, para recordatorio, un índice de fuente S_{i}).

Se obtiene entonces N.M parámetros multiplicados cada uno por una ganancia: p_{1}g_{1}^{1}, ..., P_{1}g_{1}^{M}, ..., p_{i}g_{i}^{1}, ..., p_{i}g_{i}^{M}, ..., p_{N}g_{N}^{1}, ..., p_{N}g_{N}^{M}.

A continuación, se agrupan dichos parámetros multiplicados (referencia R de la figura 2) por canales de espacialización (M canales en total), es decir:

-: p_{1}g_{1}^{1}, ..., p_{i}g_{i}^{1}, ..., p_{N}g_{N}^{1} agrupados en un primer canal de espacialización p_{g}^{1},

: hasta:

-: p_{1}g_{1}^{M}, ..., p_{i}g_{i}^{M}, ..., p_{N}g_{N}^{M} agrupados en un M^{ésimo} canal de espacialización p_{g}^{M},

: designando la letra g del índice el término "global".

De este modo, se calculan nuevos parámetros p_{i}^{m} (variando i de 1 a N y variando m de 1 a M) mediante multiplicación de los parámetros p_{i} por las ganancias de codificación g_{i}^{m}, obtenidas a partir de la posición de cada una de las fuentes. Los parámetros p_{i}^{m} se combinan (mediante suma en el ejemplo descrito) con el fin de proporcionar los parámetros p_{g}^{m} que alimentan M bloques de síntesis paramétrica mutua. Estos M bloques (con referencia SYNTH(1) a SYNTH(M) en la figura 2) constituyen el módulo de síntesis SYNTH, el cual suministra M señales temporales o frecuenciales ss^{m} (variando m de 1 a M), obtenidas mediante síntesis a partir de los parámetros p_{g}^{m}. Dichas señales ss^{m} pueden alimentar a continuación un bloque clásico de descodificación espacial, como se verá más adelante en referencia a la figura 3.

En un modo de realización particular, la síntesis utilizada es una síntesis aditiva con aplicación de una transformada de Fourier inversa (IFFT).

A tal efecto, un conjunto de N fuentes está caracterizado por una pluralidad de parámetros p_{i,k} que representan la amplitud en el dominio frecuencial de la k^{ésima} componente frecuencial para la i^{ésima} fuente S_{i}.

La señal temporal s_{i}(n) que correspondería a esta fuente S_{i}, si se sintetizara con independencia de las demás fuentes, vendría dada por:

1

\vskip1.000000\baselineskip

donde p_{i,k} es la amplitud de la componente de frecuencia f_{i,k}, cuya fase viene dada por \varphi_{i,k} para la fuente S_{i}, en el instante n. Es posible realizar la síntesis aditiva en el dominio frecuencial a partir de únicamente los parámetros p_{i,k}, f_{i,k} y \varphi_{i,k} dados, utilizando por ejemplo la técnica expuesta en el documento FR-2 679 689.

El parámetro p_{i,k} representa la amplitud de una componente frecuencial k dada para una fuente S_{i} dada. Por lo tanto, se deducen los parámetros p^{m}_{i,k} para cada fuente y cada uno de los M canales gracias a la relación:

2

\vskip1.000000\baselineskip

variando m de 1 a M. Las ganancias g^{m}_{i} están predeterminadas para una posición deseada para la fuente S_{i} y en función de la codificación de espacialización elegida.

En el caso de una codificación ambiofónica, por ejemplo, estas ganancias corresponden a los armónicos esféricas y pueden escribirse g^{m}_{i} = Y_{m}(\theta_{i},\delta_{i}), donde:

-: Y_{m} es una armónica esférica de orden m,

-: \theta_{i} y \delta_{i} son respectivamente el acimut y el sitio deseados para la fuente S_{i}.

A continuación, los parámetros p^{m}_{i,k} se combinan frecuencia por frecuencia, de manera a obtener un único parámetro global:

3 donde k' describe todas las frecuencias f_{i,k} presentes en todas las fuentes S_{i}.

En la práctica, el valor de k' es inferior a k.i ya que frecuencias comunes pueden caracterizar varias fuentes al mismo tiempo. En una realización, se puede prever la asociación de un mismo juego global de frecuencias a todas las fuentes, aún a riesgo de que algunos parámetros de amplitud para ciertas frecuencias de fuentes sean nulos.

En este caso, los valores de K y k' son iguales y la anterior relación se escribe simplemente:

4

\vskip1.000000\baselineskip

La etapa de síntesis consiste en utilizar estos parámetros p^{m}_{g,k} (variando m de 1 a M) para sintetizar cada uno de los M espectros en frecuencia ss^{m}(\omega) procedentes del módulo de síntesis SYNTH. A tal efecto, se puede prever la aplicación de la técnica descrita en el documento FR-2 679 689, añadiendo iterativamente envolventes espectrales correspondientes a la transformada de Fourier de una ventana temporal (por ejemplo de Hanning), siendo dichas envolventes espectrales previamente muestreadas, tabuladas, centradas en las frecuencias f_{k} y ponderadas mediante p^{m}_{g,k}, lo que se escribe:

5 donde env_{k}(\omega) es la envolvente espectral centrada en la frecuencia f_{k}.

Esta realización se ilustra en la figura 4. Se asignan K parámetros de amplitud p_{i,k} a cada fuente S_{i}. El índice i de fuente está incluido entre 1 y N. El índice k de frecuencia está incluido entre 1 y K. Para cada fuente S_{i}, se duplican dichos K parámetros M veces, para multiplicar cada uno por una ganancia de espacialización g_{i}^{m}. El índice m de canal de codificación de espacialización está incluido entre 1 y M.

En cada canal m, se agrupan, frecuencia por frecuencia, los K resultados de los productos g_{i}^{m}\cdotp_{i,k}, según la expresión indicada anteriormente:

6

\vskip1.000000\baselineskip

donde k varía de 1 a K en cada canal m, y m varía globalmente de 1 a M.

Se entenderá así que en cada canal m están previstos subcanales p^{m}_{g,k} asociados cada uno a una componente frecuencial k, designando el índice g, para recordatorio, el término "global".

El procesamiento continúa multiplicando el parámetro global de cada subcanal p^{m}_{g,k} asociado a una frecuencia f_{k} por una envolvente espectral env_{k}(\omega) centrada en dicha frecuencia f_{k}, para todos los K subcanales (k incluido entre 1 y K), y globalmente para todos los M canales (m incluido entre 1 y M). A continuación, se suman los K subcanales en cada canal m, de conformidad con la siguiente relación:

7 para m de entre 1 y M canales en total. Se obtienen entonces las señales ss^{m}(\omega) codificadas para su espacialización y sintetizadas en el sentido de la invención. Se expresan en el dominio frecuencial.

Para devolver estas M señales al dominio temporal (anotadas entonces SS^{m}(n)), se les puede aplicar a continuación una transformada de Fourier inversa (IFFT):

8

\vskip1.000000\baselineskip

El procesamiento por tramas sucesivas puede realizarse mediante una técnica clásica de adición/recubrimiento.

Cada una de las M señales temporales SS^{m}(n) puede proporcionarse a continuación a un bloque de descodificación de espacialización.

A tal efecto, se puede prever por ejemplo un par de filtros adecuados Fg^{m}(n), Fd^{m}(n) a aplicar, mediante convolución, a cada señal SSm(n), como se muestra en la figura 3, para una adaptación de una codificación ambiofónica hacia una restitución en binaural a dos vías, izquierda y derecha. Dichos filtros para esta transición ambiofónica/binaural pueden conseguirse mediante aplicación de la técnica de los altavoces virtuales citada anteriormente.

El procesamiento realizado por el bloque DECOD de descodificación espacial de la figura 3 puede ser del tipo:

9

\vskip1.000000\baselineskip

Después del filtrado, todas las señales destinadas a los oídos izquierdo y derecho se suman respectivamente, y se obtiene así un par de señales binaurales:

10

\vskip1.000000\baselineskip

que alimenta los altavoces de un casco con dos auriculares.

A continuación, se describe sin embargo una variante más ventajosa. Los filtros de adaptación del formato ambiofónico hacia el formato binaural pueden aplicarse directamente en el dominio frecuencial, evitando así una convolución en el dominio temporal y un coste de cálculo correspondiente.

\newpage

A tal efecto, cada uno de los M espectros en frecuencia ss^{m}(\omega) se multiplica directamente por las respectivas transformadas de Fourier de los filtros temporales, anotadas Fg^{m}(\omega) y Fd^{m}(\omega) (adaptadas en su caso para poseer un número de puntos coherente), lo que se escribe:

11

A continuación, se suman los espectros por oído antes de efectuar la transformada de Fourier inversa y la operación de adición/recubrimiento, es decir:

12

A continuación, para expresar las señales que alimentan el dispositivo de restitución en el dominio temporal, se aplica la transformada de Fourier inversa:

13

La presente invención se refiere asimismo a un producto programa de ordenador, almacenado bien en una memoria de una unidad central o de un terminal, o en un soporte amovible capaz de cooperar con un lector de dicha unidad central (CD-ROM, disquete u otro), o descargable vía una red de telecomunicaciones. Dicho programa incluye especialmente instrucciones para la aplicación del procedimiento descrito anteriormente y del que se puede ilustrar un organigrama a título de ejemplo en la figura 5, que resuma las etapas de dicho procedimiento.

La etapa a): se refiere a la asignación de los parámetros representativos de una amplitud en cada fuente S_{i}. En el ejemplo representado, se asigna un parámetro p_{i,k} por componente frecuencial f_{k}, como se ha descrito anteriormente.

La etapa b): se refiere a la duplicación de dichos parámetros y su multiplicación por las ganancias g_{i}^{m} de los canales de codificación.

La etapa c): se refiere a la agrupación de los productos obtenidos en la etapa b) con, en particular, el cálculo de su suma en todas las fuentes S_{i}.

La etapa d): se refiere a la síntesis paramétrica con multiplicación por una envolvente espectral env_{k} como se ha descrito anteriormente, seguida de una agrupación de los subcanales por aplicación, en cada canal, de una suma en todas las componentes frecuenciales (con índice k de entre 1 y K).

La etapa e): se refiere a una descodificación de espacialización de las señales ss^{m} procedentes de los respectivos canales, sintetizados, espacializados y representados en el dominio frecuencial, para una restitución en dos altavoces por ejemplo de formato binaural.

La presente invención se refiere asimismo a un dispositivo de generación de sonidos sintéticos y espacializados, que incluye especialmente un procesador y, en particular, una memoria de trabajo capaz de almacenar instrucciones del producto programa de ordenador definido anteriormente.

Por supuesto, la presente invención no se limita al modo de realización descrito anteriormente a título de ejemplo; se extiende a otras variantes.

Por lo tanto, se ha descrito anteriormente a título de ejemplo una codificación de espacialización en formato ambiofónico realizado por el módulo SPAT de la figura 2, seguida de una adaptación del formato ambiofónico hacia el formato binaural. Como variante, se puede prever por ejemplo la aplicación directa de una codificación hacia el formato binaural.

Además, la multiplicación por envolventes espectrales de la síntesis paramétrica se ha descrito anteriormente a título de ejemplo, pudiendo preverse otros modelos como variante.

Claims

1. Procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo:

a): una etapa de asignación a cada fuente de por lo menos un parámetro (p_{i}), representativo de una amplitud de por lo menos una componente frecuencial de la fuente,

b): una etapa de espacialización en la que se emplea una codificación en una pluralidad de canales, en la que se duplica cada parámetro de amplitud (p_{1}) para multiplicarlo por una ganancia (g_{i}^{m}) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (p_{g}^{m}) de codificación y, por otra, para una fuente (S_{i}) a espacializar,

c): una etapa de agrupación (R) de los parámetros (p_{i}^{m}) multiplicados por las ganancias, en canales respectivos (p_{g}^{1}, ..., p_{g}^{M}), aplicando una suma de dichos parámetros multiplicados (p_{i}^{m}) en todas las fuentes (S_{i}) para cada canal (p_{g}^{m}), y

d): una etapa de síntesis paramétrica (SYNTH(1), ..., SYNTH(M)) aplicada a cada uno de los canales (p_{g}^{m}).

2. Procedimiento según la reivindicación 1, en el cual:

a): se asigna a cada fuente (S_{i}) una pluralidad de parámetros (_{pi,k}) representativos, cada uno, de una amplitud de una componente frecuencial (f_{k}),

b): se duplica cada parámetro de amplitud (p_{i,k}) representativo de una componente frecuencial (f_{k}) para multiplicarlo por una ganancia (g_{i}^{m}) de espacialización, determinándose cada ganancia de espacialización, por una parte, para un canal (p_{g}^{m}) de codificación y, por otra parte, para una fuente (S_{i}) a espacializar.

c): en cada canal, se agrupan, componente frecuencial por componente frecuencial, los productos de los parámetros (p_{i,k}) por las ganancias (g_{i}^{m}), en subcanales (p_{g,k}^{m}) asociados, cada uno, a una componente frecuencial (f_{k}).

3. Procedimiento según la reivindicación 2, en el que se realiza la síntesis, en cada canal:

d1): multiplicando la salida de cada subcanal asociado a una componente frecuencial (f_{k}) por una envolvente espectral (env_{k}) centrada en una frecuencia correspondiente a dicha componente frecuencial (f_{k}),

d2): y agrupando, mediante una suma en las componentes frecuenciales (f_{k}), los productos resultantes de la operación d1),

: para obtener, tras la operación d2), una señal (ss^{m}) procedente de cada canal, codificada en espacialización y sintetizada.

4. Procedimiento según una de las reivindicaciones anteriores, en el que la espacialización se realiza mediante codificación ambiofónica y los parámetros representativos de una amplitud que se asignan a las fuentes corresponden a amplitudes de armónicos esféricos (Y_{m}).

5. Procedimiento según la reivindicación 4, en combinación con la reivindicación 3, en el que, para pasar de una codificación ambiofónica a una descodificación con objeto de una restitución en espacialización binaural, se aplica un procesamiento en el dominio frecuencial directamente a los resultados de los productos procedentes de los canales respectivos tras la operación d2).

6. Producto programa de ordenador, almacenado en una memoria de una unidad central o un terminal, y/o en un soporte amovible capaz de cooperar con el lector de dicha unidad central, y/o descargable vía una red de telecomunicaciones, caracterizado porque incluye instrucciones para la aplicación del procedimiento según una de las reivindicaciones 1 a 5.

7. Módulo de generación de sonidos sintéticos espacializados, que incluye especialmente un procesador, caracterizado porque incluye además una memoria de trabajo que almacena instrucciones del producto programa de ordenador según la reivindicación 6.