WO2024126242A1

WO2024126242A1 - Obtaining an impulse response of a room

Info

Publication number: WO2024126242A1
Application number: PCT/EP2023/084655
Authority: WO
Inventors: Srdan KITIC; Jérôme DANIEL
Original assignee: Orange
Priority date: 2022-12-15
Filing date: 2023-12-07
Publication date: 2024-06-20
Also published as: FR3143932A1

Abstract

It is proposed to process sound signals acquired by an array of microphones and generated by a sound source, with a view to acoustically characterizing a space (ESP) comprising the array (MIC) and the source and bounded by a wall (PAR). A time-frequency transform is applied to the acquired signals, and a generalized velocity vector is expressed in the frequency domain on the basis of the acquired signals. In particular, the generalized velocity vector is expressed in the time domain v(t) in the form of a succession of peaks comprising at least one peak associated with reflection from the wall and with a time abscissa dependent on the delay TAU1, and the expression in the time domain of the generalized velocity vector is modelled by an autoregressive moving average ARMA defined by an autoregressive filter AR and a moving average MA. Thus, provision is made to process the acquired sound signals by applying the autoregressive filter AR, to obtain an impulse response characterizing the space (ESP) and obtained from the moving average MA.

Description

Description Titre : Obtention d’une réponse impulsionnelle d’une salle Domaine technique [0001] La présente description concerne le domaine du traitement de données sonores. Elle concerne plus particulièrement l’obtention d’une réponse impulsionnelle d’une salle (espace cloisonné), à partir d’une réponse impulsionnelle dite « réponse impulsionnelle relative généralisée ». Technique antérieure [0002] La connaissance des propriétés acoustiques et géométriques d’un environnement peut permettre d’obtenir ou d’améliorer l’obtention de résultats pertinents dans le traitement de signaux audios pour une multitude de cas d’usages. Il peut être avantageux de réaliser simultanément des traitements audios incluant à la fois la localisation et la séparation des sources sonores dans un environnement, notamment dans des conditions défavorables (par exemple en présence d’obstacles empêchant une propagation sonore en ligne droite). Les besoins pour de tels traitements sont nombreux notamment dans des applications d’encodage spatial, de réalité augmentée, de navigation de robots, de caractérisation de salles, et autres. [0003] Lorsque la modalité sonore est utilisée pour estimer l’environnement acoustique, il est généralement nécessaire d’exploiter les caractéristiques de multi-microphones qui codent des informations spatiales. Une représentation particulièrement bien adaptée d’un champ sonore 3D est le format audio ambiophonique d’ordre élevé (ou HOA pour « Higher Order Ambisonics »), appelé « ambisonique » ci-après, se basant sur la décomposition en harmoniques sphériques de la pression acoustique sur une sphère. Des canaux ambisoniques coïncident entre eux mais diffèrent par leur directivité, c’est-à-dire par leur sensibilité aux excitations provenant de différentes directions spatiales. Ils peuvent être enregistrés par des dispositifs spécifiques (le plus souvent des réseaux de microphones sphériques dits « SMA » pour « Spherical Microphone Arrays ») ou créés artificiellement. Dans un environnement donné, et pour la source et une position de dispositif de microphone SMA données, chaque canal HOA admet une réponse impulsionnelle de salle (notée « RIR » pour « Room Impulse Response »), particulière. Ces réponses RIR fournissent l’information sur l’environnement où le son se propage, en particulier dans la première partie des réponses (c’est- à-dire dans les « premiers échos »). [0004] Même si l’empreinte spatiale est intégrée dans l’audio enregistré, la récupération de ces informations n’est pas simple. D’une part, les RIR sont liées au signal source (inconnu) et, d’autre part, l’enregistrement peut être contaminé par du bruit. Pour cette raison, toutes les méthodes d’inférence fondent leur analyse sur un ensemble de RIR préenregistrées ou estimées (pas nécessairement au format HOA). Bien qu’une telle analyse puisse être difficile en soi (par exemple, en raison du problème « d’étiquetage » de l’écho visant à attribuer chaque pic de signal à une réflexion sur une cloison), il s’agit d’une hypothèse très forte qui limite les applications aux seuls cas d’utilisation où des RIR sont disponibles. Pour contourner ce problème, une approche d’inférence aveugle peut être basée sur l’analyse des matrices de corrélation spatiale dites « alignées en phase ». Cependant, la complexité de calcul de cette approche semble prohibitive pour un traitement en temps réel. [0005] Comme alternative, on pourrait considérer des empreintes relatives, c’est-à-dire une fonction de transfert relative (notée « ReTF », dans le domaine fréquentiel) ou une réponse impulsionnelle relative (notée « ReIR », dans le domaine temporel) pour déduire les propriétés de l’environnement. ReTF et ReIR modélisent la relation entre les canaux individuels et un signal de référence donné, qui est généralement choisi comme étant l’un des canaux. Théoriquement, ces représentations sont indépendantes de la source, mais le prix à payer dans cette méthode est que certaines informations sont inévitablement perdues (en particulier, le temps de propagation et l’atténuation absolue d’un signal se propageant directement de la source au microphone). En règle générale, les réponses ReIR ne sont pas causales et leur analyse est beaucoup plus complexe que celle des RIR. [0006] Dans les travaux correspondant au document WO-2022/106765, il a été démontré néanmoins que l’utilisation du signal de référence qui est une combinaison linéaire de tous les canaux (c’est-à- dire une forme de faisceau référence) est avantageuse lors de l’extraction de l’information des ReIR des signaux ambisoniques. Plus particulièrement, si une formation de faisceau (ou « beamforming » ci-après) atténue suffisamment les réflexions acoustiques par rapport à la propagation directe, la ReIR correspondante (appelée « Vecteur Vélocité Généralisé », et notée « GTVV » ci-après) admet une expression informative et compacte dans le domaine temporel. Dans ces conditions, la ReIR généralisée est causale et relativement clairsemée, et permet donc une estimation, basée sur le pic de la direction d’arrivée du son (notée DoA), des directions des réflexions acoustiques et de leurs retards associés. [0007] Le vecteur GTVV (soit donc la ReIR dans le domaine ambisonique avec beamforming) est plus robuste aux conditions acoustiques défavorables que la ReIR « standard » pour laquelle le signal de référence est généralement le canal ambisonique omnidirectionnel d’ordre zéro. Cependant, il est limité par les performances du beamforming appliqué. Par exemple, si un beamforming de directivité maximale et indépendant du signal est utilisé, sa directivité est une fonction quadratique de l’ordre HOA donné. Cependant, les dispositifs de microphone SMA classiques ne fournissent généralement pas de formats ambisoniques d’ordre suffisamment élevé : le plus souvent, ils ne sont capables d’enregistrer que les signaux ambisoniques du premier ordre (FOA). Cela est particulièrement vrai pour des appareils simples, par exemple des appareils portatifs, prenant en charge les FOA seulement. En outre, la prise en charge des fréquences des canaux d’ordre supérieur diminue progressivement avec l’ordre HOA, à mesure que l’amplification du bruit aux basses fréquences et le phénomène d’aliasing spatial aux hautes fréquences commencent à se manifester. [0008] Toutefois, les propriétés théoriques favorables du vecteur GTVV ont tendance à diminuer à de faibles ordres ambisoniques, en raison de l’incapacité du beamforming à supprimer efficacement les réflexions. Le problème est encore aggravé par l’augmentation de la distance entre le microphone et la source, car davantage de réflexions tombent dans le lobe principal du beamforming et dans le même temps la prépondérance du son direct diminue vis-à-vis des réflexions. En pratique, on peut observer que l’empreinte GTVV n’est plus causale, et que les directions estimées sont moins précises. [0009] De plus, même lorsque la représentation GTVV reste valide, extraire les directions et les retards par l’identification/sélection de pics n’est pas forcément simple. Un vecteur GTVV facile d’utilisation peut être considéré comme la réponse RIR multicanal (sans délai, centré) impliqué par un filtre causal. La conséquence est que la même réflexion est infiniment répétée comme un écho, aux instances temporelles correspondant à des multiples entiers de son retard relatif, avec son signe alterné et une amplitude décroissante. Ainsi, ces séries peuvent interférer les unes avec les autres, altérant l’information qui peut en être déduite, ou même masquant la présence de réflexions d’amplitudes plus faibles par exemple. Résumé [0010] La présente description vient améliorer la situation. [0011] Elle propose à cet effet un procédé de traitement de signaux sonores acquis par au moins un réseau de microphones et issus d’au moins une source sonore, pour caractériser acoustiquement un espace comportant le réseau et la source et délimité par au moins une paroi, dans lequel : - On applique une transformée temps fréquences aux signaux acquis, - A partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V(f), complexe avec une partie réelle et une partie imaginaire, le vecteur vélocité caractérisant une composition entre : * un premier trajet acoustique, direct entre la source et le réseau de microphones, représenté par un premier vecteur U0, et * au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1, le deuxième trajet ayant, au réseau de microphones, un retard TAU1, par rapport au trajet direct, - On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporel v(t) sous la forme d’une succession de pics comportant au moins un pic lié à la réflexion sur ladite paroi et à une abscisse temporelle fonction du retard TAU1. [0012] En particulier dans ce procédé, l’expression dans le domaine temporel du vecteur vélocité généralisé est modélisée par une moyenne mobile autorégressive ARMA définie par un filtre autorégressif AR et une moyenne mobile MA, et le procédé comporte alors un traitement des signaux sonores acquis par application du filtre autorégressif AR, pour obtenir une réponse impulsionnelle caractérisant ledit espace et issue de la moyenne mobile MA. [0013] Grâce à cette disposition, les informations stockées dans la représentation du vecteur vélocité généralisé, exprimé dans le domaine temporel (et noté ci-après « GTVV »), peuvent être extraites de manière plus robuste car plus générale pour une situation acoustique quelconque, afin d’obtenir une réponse impulsionnelle caractérisant un espace à au moins une paroi (un espace tel qu’une salle et correspondant ainsi à une réponse impulsionnelle de type RIR pour « Room Impulse Response »). Plus particulièrement, comme décrit plus loin dans les exemples de réalisation, cette réponse impulsionnelle peut être qualifiée de « réduite » (et notée « RdRIR » pour « Reduced Room Impulse Response ») car l’expression temporelle du vecteur vélocité généralisé, de laquelle est déduite cette réponse impulsionnelle, ne présente des retards de réflexion que relativement au retard de réception au microphone du trajet acoustique direct depuis la source (et non pas des retards dans l’absolu). De même, les amplitudes des réflexions sont relatives par rapport à l’amplitude de la réception au microphone du son direct (non réfléchi par une paroi). Néanmoins, une telle réponse impulsionnelle, même relative, permet déjà de caractériser efficacement l’espace acoustique considéré, et ce simplement en traitant l’expression temporelle du vecteur vélocité généralisé comme un modèle ARMA. [0014] Ainsi, cette réponse impulsionnelle réduite RdRIR est issue du modèle ARMA, et se distingue en cela de la réponse impulsionnelle relative ReIR, introduite précédemment, et qui, elle, s’obtient directement de l’expression du vecteur vélocité généralisé. [0015] Dans une forme de réalisation, les signaux acquis sont appliqués à des canaux ambisoniques, et le filtre autorégressif AR est commun à tous les canaux. [0016] Une telle réalisation en représentation ambisonique présente l’avantage de ne pas nécessiter d’ordre ambisonique trop élevé (de premiers ordres ou « FOA » pour « First Order Ambisonic » pouvant suffire pour obtenir une réponse impulsionnelle satisfaisante). [0017] Dans une réalisation où l’espace précité est délimité par une pluralité de parois, l’expression dans le domaine temporel du vecteur vélocité généralisé comporte une série de pics comprenant un pic lié au trajet direct (ou « DoA » pour « Direction of Arrival ») suivi de pics liés chacun à au moins une réflexion sur une paroi n. Le procédé comporte alors : - optimiser le filtre autorégressif pour modéliser ladite série de pics sous la forme d’une moyenne mobile autorégressive multivariée. [0018] Ainsi, la représentation temporelle du vecteur vélocité généralisé se présente bien à la modélisation par une moyenne ARMA multivariée. [0019] Dans une telle réalisation notamment, le procédé peut comporter : - à partir de l’expression du vecteur vélocité généralisé dans le domaine temporel v(t) sous la forme de ladite série de pics, optimiser le filtre autorégressif en exploitant une propriété de causalité d’une réponse impulsionnelle. [0020] En effet, le vecteur vélocité généralisé peut s’exprimer dans le domaine temporel sous la forme :

où et sont des filtres causaux représentant respectivement la partie moyenne mobile MA et la partie régressive AR du modèle ARMA, et sont liés par , pour une formation de faisceau w à recevoir par le réseau de microphones et selon une direction d’arrivée du son depuis la source sonore, et où : , ^^ _^^ ∈ ]0,1[ et désignent les paramètres d’une nième onde plane réfléchie par une paroi n de l’espace, ^^ _^^ étant un vecteur d’encodage directionnel de propagation de la nième onde, ^^ _^^ étant une atténuation relative de la nième onde et ^^ _^^ étant un retard de la nième onde par rapport audit trajet direct, ^^₀ étant une vecteur de propagation propre au trajet direct,

étant une réponse de formations de faisceaux au nième front d’onde, avec . [0021] Dans une telle réalisation, la partie autorégressive

peut alors être estimée en minimisant :

est un canal du vecteur vélocité généralisé, représenté par un modèle ARMA multivarié, la partie autorégressive

étant commune à tous les canaux du vecteur vélocité généralisé. [0022] Dans une telle réalisation, l’estimation

par minimisation de ^^ revient à résoudre un système de prédiction linéaire, qui est avantageusement surdéterminé. [0023] Avec les notations présentées ci-dessus, la réponse impulsionnelle peut être donnée par la moyenne mobile , telle que :

[0025] Comme la représentation temporelle du vecteur vélocité généralisé peut présenter des amplitudes positives et négatives (comme illustré à titre d’exemple sur la figure 2), on peut appliquer une correction de signe d’amplitudes à la moyenne mobile

pour obtenir expression habituelle de la réponse impulsionnelle : sous forme positive. [0026] Par ailleurs, dans une réalisation, ladite réponse impulsionnelle est choisie de durée finie. Cette durée peut être choisie en particulier pour éviter de prendre en compte un champ diffus de réverbération (typiquement des réflexions multiples d’ordre élevé qui apparaitraient tout à droite de la figure 2) et ne traiter ainsi que les réflexions précoces sur la ou les parois de l’espace considéré. [0027] Dans une telle réalisation, il peut être exploité cette propriété selon laquelle la réponse impulsionnelle précitée est de durée finie pour fixer une limite maximale de longueur de filtres pour la partie autorégressive AR et pour la partie moyenne mobile MA. [0028] Dans une réalisation en outre, la partie moyenne mobile MA peut être centrée sur un retard correspondant à un instant de réception au microphone du son issu de la source. [0029] [0030] Selon un autre aspect, il est visé un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un circuit de traitement. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme. [0031] Selon un autre aspect, il est visé aussi un dispositif comportant un circuit de traitement comportant une interface pour recevoir des données de signaux sonores acquis par un réseau de microphones, et configuré pour mettre en œuvre le procédé ci-avant. Brève description des dessins [0032] D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels : [0033] La figure 1 illustre un exemple de succession d’étapes d’un procédé du type ci-avant, [0034] La figure 2 illustre un exemple d’une représentation temporelle du vecteur vélocité généralisé, [0035] La figure 3 montre des exemples réels de vecteurs vélocité généralisés (au centre) dans différentes conditions, les représentations ARMA correspondantes (à droite), et les réponses impulsionnelles réelles (à gauche), les modèles ARMA étant plus fidèles aux réponses impulsionnelles réelles, [0036] La figure 4, la figure 5 et la figure 6 illustrent les performances de résultats obtenus par la mise en œuvre du procédé ci-avant comparativement à d’autres traitements (ou absence de traitement), respectivement pour différentes durées de cycles de réverbération sonore, [0037] La figure 7 illustre une évaluation d’erreur sur la direction d’arrivée du son (DoA) uniquement, dans des conditions expérimentales similaires à celles des figures 4 à 6, montrant une performance plus nette de la mise en œuvre du procédé ci-avant sur les réflexions en particulier, [0038] La figure 8 illustre schématiquement un dispositif pour la mise en œuvre du procédé. Description des modes de réalisation [0039] On se réfère tout d’abord à la figure 1 illustrant des étapes d’un procédé du type ci-avant selon un exemple de réalisation. [0040] On décrit dans un premier temps les grands principes des étapes de la figure 1. [0041] Des signaux ambisoniques d’ordre quelconque sont par exemple enregistrés par un dispositif de type microphone SMA (ou sont générés autrement, par simulation ou autre). Ces signaux multicanaux sont ensuite utilisés pour l’estimation du vecteur vélocité généralisé GTVV. Cette estimation est souvent effectuée de manière pratique en calculant la transformée de Fourier inverse de la fonction de transfert relative ReTF, correspondante, dans le domaine fréquentiel, comme décrit notamment dans le document WO-2022/106765. Ainsi, les signaux ambisoniques sont généralement transformés en une représentation temps-fréquence (par exemple par STFT, pour « Short-Time-Fourier-Transform ») au préalable, et un estimateur robuste est utilisé pour obtenir la ReTF. [0042] La forme temporelle du vecteur GTVV est présentée à titre illustratif sur la figure 2 et montre : - un pic à retard nul et lié au chemin acoustique direct, associé à la DoA principale du son (pour « Direction of Arrival » ou « direction d’arrivée »), et - des pics liés à des retards supérieurs et liés à des réflexions sur des cloisons. [0043] L’empreinte temporelle du vecteur GTVV peut être considérée comme la réalisation d’un processus de moyenne mobile autorégressive multivariée ou « ARMA », où le filtre autorégressif AR (au dénominateur) est commun à tous les canaux. [0044] Par conséquent, une fois le vecteur GTVV obtenu, on procède aux calculs en estimant les paramètres du modèle ARMA correspondant. Le filtre AR est d’abord estimé à partir de la série chronologique donnée par le vecteur GTVV comme illustré à titre d’exemple sur la figure 2, reprise du document précité WO-2022/106765, en exploitant le fait que les réponses RIR sont causales (comme il en va de même pour les filtres AR et MA du modèle ARMA). [0045] On peut en outre fixer la limite maximale sur la longueur des filtres AR et MA, puisque la première partie des RIR est supposée avoir une durée finie ; en pratique, un tel filtre AR peut être calculé efficacement en estimant un modèle de prédiction linéaire appliqué à la partie appropriée de l’empreinte GTVV. [0046] Une fois que le filtre AR est disponible, les filtres MA peuvent être estimés en faisant simplement convoluer le vecteur GTVV par le filtre AR (une estimation efficace, de type Prony par exemple), ou par estimation au sens des moindres carrés (estimation de type Shanks par exemple) ; ici aussi, on peut envisager des procédures d’inférence plus avancées, par exemple en appliquant une certaine structure entre les entrées correspondantes des filtres MA. [0047] Idéalement, les filtres MA devraient se rapprocher des réponses RIR normalisées, dont le pic principal est centré sur le retard nul de la représentation (invariant aux gain et retard absolus, en raison de la perte d’information dans ReIR, comme mentionné précédemment). En raison de sa similitude avec les RIR, une telle séquence de filtres MA est appelée RdRIR pour « Reduced Room Impulse Response ». En réalité, les réponses RIR sont considérées comme ayant une amplitude positive et sont des fonctions continues dans le temps. Lorsqu’ils sont représentés par une série chronologique discrète (multicanal), les réponses RIR sont préfiltrées par un filtre anti-aliasing, qui présente souvent une réponse impulsionnelle contenant à la fois des amplitudes positives et négatives. Puisque le même filtre est appliqué à tous les canaux HOA, il est possible d’observer le signe de la réponse RdRIR estimée à l’ordre zéro et (s’il est négatif) inverser le signe de tous les canaux pour un échantillon de temps donné. [0048] Après avoir corrigé les signes de la représentation RdRIR, on peut procéder à l’inférence des fronts d’ondes acoustiques. Une façon non limitative de le faire est d’effectuer la sélection d’un pic sur la série des pics en amplitude de la réponse RdRIR à différents moments. [0049] L’application de la modélisation ARMA au vecteur GTVV (ReIR généralisée) dans le domaine ambisonique est décrite plus en détail ci-après. [0050] Les principes présentés peuvent être adaptés aux réponses ReIR standards (non ambisoniques) par exemple, dans le but d’estimer la différence de temps d’arrivée (ou TdoA), en considérant une paire de microphones enregistrant le même signal source. [0051] La description mathématique qui suit couvre la définition du vecteur GTVV, l’inférence de front d’onde lorsque cette dernière est théoriquement valide (c’est-à-dire lorsque la condition de convergence expliquée ci-dessous est satisfaite), ainsi que la dérivation de la méthode de « pré- conditionnement GTVV » basée sur l’ARMA et présentée ci-dessus. [0052] On note ci-après

le vecteur de coefficients d’expansion harmoniques sphériques (noté « SH ») concaténés (correspondant aux « canaux HOA ») jusqu’à l’ordre L, à la fréquence f. Les signaux enregistrés sont supposés être dus à une source sonore en champ lointain à l’azimut , à l’élévation et à la distance du réseau de microphones SMA, dans un environnement intérieur (une salle cloisonnée typiquement). Étant donné une formation de faisceau w (ou « beamforming » ci-après) à large bande et dirigée (approximativement) vers la DoA, le vecteur vélocité généralisé dans le domaine fréquentiel (GFVV) est défini comme suit, comme décrit notamment dans WO-2022/106765 :

[0054] où , ^^ _^^ ∈ ]0,1[ et désignent les paramètres de la nième onde plane réfléchie par une cloison de la salle, avec : [0055] , le vecteur d’expansion SH dans la direction

[0056] ^^ _^^ , son atténuation relative et [0057] ^^ _^^, son retard (par rapport à la composante de propagation directe). [0058] [0059] Ensuite, est le vecteur SH de l’onde plane dans la direction DoA donnée par

tandis que

est la réponse des formateurs de faisceaux au nième front d’onde (avec ). [0060] [0061] L’approximation est due aux hypothèses simplificatrices intégrées dans le côté droit de l’équation ci-dessus : la décomposition des ondes planes a été donnée en termes de réflexions acoustiques dominantes, et la formation de faisceaux et les atténuations relatives sont censées être indépendantes de la fréquence. [0062] [0063] La transformée de Fourier inverse par canal du vecteur GFVV, donne son homologue temporel GTVV :

[0064] [0065] En pratique, le traitement se fait dans le domaine STFT (pour « Short-Time-Fourier- Transform »), et la durée temporelle GTVV est dictée par la fenêtre choisie. La fenêtre de longueur est centrée par rapport au GTVV, à , c’est-à-dire

[0066] Sous la condition de convergence des séries de Taylor (géométriques), le GTVV admet une expression de la forme :

cumule des ''termes croisés'' (qui sont relatifs à l’interférence mutuelle entre différents fronts d’onde). [0067] L’expression ci-dessus « Équation1 » permet d’estimer immédiatement le front d’onde du son direct en évaluant

, tandis que le reste implique la sommation de la série infinie correspondant aux fronts d’onde réfléchis . [0068] Mais puisque , chaque série infinie a une amplitude qui décroit avec la position temporelle du pic :

[0070] Lorsque le beamforming est très sélectif, sa réponse est

. Si ce n’est pas le cas, on peut améliorer l’estimation de en « débiaisant » le vecteur observé

[0071] [0072] Étant donné une estimation de , et une collection de vecteurs SH (correspondant à un ensemble de directions ), et sachant que est strictement positif, on peut récupérer en trouvant un élément qui maximise la corrélation avec dans l’ Équatio, ce qui

Équation 3 [0073] Alternativement, on peut recourir à une optimisation non linéaire et résoudre l’Equation 2 sous forme paramétrique, où devient la fonction des variables de direction

. [0074]

[0075] La condition de convergence : implique que le beamforming atténue considérablement les réflexions, ce qui dépend du type de beamforming appliqué, mais aussi bien entendu de l’environnement acoustique et de l’ordre HOA. [0076] Pour des raisons de calcul, il est pratique d’utiliser des beamformings simples, tels que le beamforming de directivité maximale donné par

(en encodage ambisonique N3D, sachant qu’il suffit de pondérer les signaux acquis par le microphone ambisonique (à plusieurs capsules piézoélectriques pour recueillir plusieurs signaux sonores) pour passer d’un type d’encodage à un autre). [0077] Néanmoins, en raison de la largeur de son lobe principal, ce beamforming est trop permissif aux ordres ambisoniques bas (par exemple le ou les FOA), et donc, l’expression de l’ Équation1 peut ne plus être valide. [0078] [0079] Néanmoins, le vecteur GTVV peut toujours être écrit sous la forme :

où et sont tous deux des filtres causaux, liés par [0080] [0081] Cette expression révèle une structure particulière (chaque canal GTVV

peut être vu comme une réalisation du modèle ARMA multivarié, dont la partie autorégressive

est commune à tous les canaux). [0082] La partie MA, ou la série de la réponse RdRIR (Reduced Room Impulse Response), admet ainsi une expression de type:

[0083] Puisque , on peut estimer en minimisant sous la contrainte

[0084] [0085] Il s’agit avantageusement d’un problème surdéterminé : la longueur du filtre

est , tandis que le nombre de points de données est

(la partie non causale de la représentation du vecteur GTVV). Avec l’augmentation de l’ordre de HOA, l’estimation devrait devenir plus précise, car davantage de données deviennent disponibles pour la régression. [0086] [0087] Cette fonction de coût peut être étendue pour incorporer des poids , ainsi que la dernière partie de la série de front d’onde , qui est supposée être un signal de faible magnitude semblable à un bruit :

[0088] Comme les deux filtres sont liées par l’expression linéaire , en imposant le condition

, le support du filtre

est aussi implicitement raccourci de

à . [0089] En principe, il serait possible d’intégrer plus de structure dans

(ou ), en modifiant encore la fonction de coût d’origine. Un tel exemple peut consister à utiliser des normes favorisant le caractère épars d’un groupe pour modéliser le support

Cependant, résoudre un tel problème d’optimisation requiert habituellement des moyens additionnels de calcul. Par conséquent, il est proposé ici à titre d’exemple une minimisation au sens des moindres carrés. [0090] En prenant la dérivée partielle de ^^ par rapport à un élément filtrant AR et noté

, et en fixant le résultat à zéro, on obtient :

[0092] Les deux fonctions d’autocorrélation définies ci-dessus peuvent être calculées efficacement à l’aide d’une transformée de Fourier rapide. Leur somme globale (pondérée) peut être notée :

[0094] Puisque

l’estimation des coefficients restants revient à un problème de prédiction linéaire classique :

qui peut être résolu par diverses méthodes. [0095] Par exemple, en vue d’utiliser des solveurs rapides de Toeplitz (ou « fast Toeplitz-based solvers »), il est possible de modifier légèrement la fonction de coût originale et minimiser plutôt une fonction de substitution du type :

[0100] Une fois que a été calculé, on peut récupérer le segment non nul de

(la RdRIR) en évaluant . [0101] [0102] Une telle réalisation est très efficace sur le plan du calcul informatique. Cependant, on peut choisir d’appliquer une approche plus élaborée comme par exemple estimer la RdRIR dans le sens des moins carrés (méthode dite « de Shank »), ou même effectuer une optimisation alternée pour améliorer à la fois l’AR et la RdRIR (connu sous le nom d’algorithme de Steiglitz-McBride). Ces approches nécessitent l’estimation du filtre AR inverse, qui est généralement approximé par un filtre FIR optimal dans le sens des moindres carrés. [0103] [0104] La représentation des caractéristiques est donnée sous forme matricielle où représente la séquence des vecteurs GTVV de l’Équation 1 ou la séquence RdRIR estimée de l’Equation 3, pour chaque . [0105] [0106] Un exemple de ces séquences, pour un enregistrement à partir d’un dispositif SMA recueillant des FOA d’une source vocale, et pour une réponse RIR multicanale réelle (décalée de telle sorte que son pic principal est placé à ) est donné à la Erreur ! Source du renvoi introuvable.. Il apparait que la RdRIR proposée se rapproche alors plus fidèlement de la structure RIR que l’empreinte du vecteur GTVV. [0107] [0108] La DoA est évaluée à partir du vecteur correspondant au zéro retard dans la matrice , tandis que les directions restantes sont obtenues en sélectionnant les pics d’amplitude de ses vecteurs colonnes. L’indice du pic choisi révèle le retard relatif de la direction donnée par rapport au trajet direct du son. [0109] Ensuite, il peut être quantifié une erreur angulaire sur les directions associées aux dix plus grands pics de la séquence correspondante. [0110] [0111] Il est considéré ci-après trois approches: - aucune ou « none » (pas de post-traitement), - non biaisée ou « debias » (correction de biais à l’aide de l’Équation 3), et - avec correction « arma » (RdRIR) au sens du procédé présenté ci-avant, et ce pour différents ordres ambisoniques (ou « order ») , , ou . [0112] [0113] Plus particulièrement, les évaluations sont menées pour l’ordre HOA , , et , avec un SNR égal à 0dB, 10dB, 20dB et « Inf » dB (c’est-à-dire pratiquement sans bruit). Chaque résultat est l’estimation médiane de 10 répétitions de la configuration de simulation donnée (c’est-à-dire pour le temps de réverbération donné et le niveau de bruit gaussien blanc additif). Les expériences simulent une salle rectangulaire de taille 5 x 4 x 3 m³, avec le réseau de microphones et la source vocale positionnés de manière aléatoire, mais leur distance étant comprise entre 0,5 et 6 m. [0114] [0115] La réalisation de l’expérience pour trois cycles de réverbération (RT60=200ms, RT60=400ms et RT60=600ms) est présentée respectivement aux Erreur ! Source du renvoi introuvable., Erreur ! Source du renvoi introuvable. et 6. Les résultats présentent clairement que la RdRIR fournit les estimations les plus précises, les performances de toutes les approches augmentant avec l’ordre HOA, et s’aggravant avec l’augmentation du temps de réverbération et du niveau de bruit. Il est frappant, cependant, que la RdRIR surpasse souvent les approches restantes, même lorsque son ordre HOA est inférieur à celui des deux autres approches. [0116] [0117] Dans Erreur ! Source du renvoi introuvable. il est présenté une évaluation de l’erreur de DoA uniquement, dans des conditions expérimentales similaires, pour RT60 = 400ms. Bien que l’estimation de la RdRIR présente à nouveau l’erreur angulaire la plus faible, pour tous les niveaux de SNR, la différence ici est moins significative. Cela suggère que la principale amélioration du post- traitement ARMA réside dans la meilleure prédiction des fronts d’onde qui sont réfléchis en particulier. [0118] [0119] On a illustré sur la figure 8 un exemple de dispositif pour la mise en œuvre du procédé ci- avant, et comportant typiquement : - une interface INT de réception de signaux issus d’un microphone MIC par exemple ambisonique (à plusieurs capsules piézoélectriques par exemple), le microphone MIC étant disposé dans un espace ESP comportant au moins une paroi PAR, - un processeur PROC relié à l’interface INT pour traiter les signaux reçus par exemple en représentation ambisonique, exprimer le vecteur vélocité généralisé dans le temps en fonction de ces signaux, et en déduire le modèle ARMA pour délivrer une réponse impulsionnelle RdRIR de l’espace ESP, - une mémoire MEM stockant des données d’instruction d’un programme informatique au sens de la présente description, et accessible par le processeur PROC pour lire ces données et exécuter le procédé ci-avant. [0120] [0121] L’obtention de la réponse impulsionnelle de l’espace ESP permet notamment de quantifier les propriétés acoustiques et géométriques de cet espace (par exemple pour obtenir simultanément la localisation et la séparation des sources sonores dans l’espace ESP, ou autres). La connaissance des propriétés acoustiques et géométriques d’un tel environnement ESP peut permettre d’obtenir ou d’améliorer l’obtention de résultats pertinents dans le traitement de signaux audios pour diverses applications d’encodage spatial, de réalité augmentée, de navigation de robots, de caractérisation de salles, et autres. Comme démontré ci-avant, l’utilisation du modèle ARMA pour obtenir cette réponse impulsionnelle de salle est simple de mise en œuvre (notamment pour le faible ordre ambisonique nécessité) et donne des résultats satisfaisants comme illustré sur les figures 4 à 7. Description Title: Obtaining an impulse response from a room Technical field [0001] This description concerns the field of sound data processing. It concerns more particularly the obtaining of an impulse response of a room (partitioned space), from an impulse response called “generalized relative impulse response”. Prior technique [0002] Knowledge of the acoustic and geometric properties of an environment can make it possible to obtain or improve the obtaining of relevant results in the processing of audio signals for a multitude of use cases. It may be advantageous to simultaneously carry out audio processing including both the localization and separation of sound sources in an environment, particularly in unfavorable conditions (for example in the presence of obstacles preventing sound propagation in a straight line). The needs for such processing are numerous, particularly in applications of spatial encoding, augmented reality, robot navigation, room characterization, and others. [0003] When the sound modality is used to estimate the acoustic environment, it is generally necessary to exploit the characteristics of multi-microphones which encode spatial information. A particularly well-suited representation of a 3D sound field is the high-order surround audio format (or HOA for “Higher Order Ambisonics”), called “ambisonics” hereinafter, based on the decomposition of pressure into spherical harmonics. acoustics on a sphere. Ambisonic channels coincide with each other but differ in their directivity, that is to say by their sensitivity to excitations coming from different spatial directions. They can be recorded by specific devices (most often spherical microphone arrays called “SMA” for “Spherical Microphone Arrays”) or created artificially. In a given environment, and for the given source and SMA microphone device position, each HOA channel admits a particular room impulse response (denoted “RIR” for “Room Impulse Response”). These RIR responses provide information about the environment where the sound propagates, particularly in the first part of the responses (i.e. in the “first echoes”). [0004] Even if the spatial fingerprint is integrated into the recorded audio, recovering this information is not simple. On the one hand, RIRs are linked to the (unknown) source signal and, on the other hand, the recording may be contaminated by noise. For this reason, all inference methods base their analysis on a set of pre-recorded or estimated RIRs (not necessarily in HOA format). Although such analysis may be difficult in itself (e.g., due to the echo "labeling" problem of attributing each signal peak to a reflection off a septum), it is a very strong assumption which limits applications to only use cases where RIRs are available. To get around this problem, an inference approach blind can be based on the analysis of so-called “phase aligned” spatial correlation matrices. However, the computational complexity of this approach seems prohibitive for real-time processing. [0005] As an alternative, one could consider relative fingerprints, that is to say a relative transfer function (denoted "ReTF", in the frequency domain) or a relative impulse response (denoted "ReIR", in the domain temporal) to deduce the properties of the environment. ReTF and ReIR model the relationship between individual channels and a given reference signal, which is usually chosen to be one of the channels. Theoretically, these representations are source independent, but the price to pay in this method is that some information is inevitably lost (in particular, the propagation time and absolute attenuation of a signal propagating directly from the source to the microphone ). Typically, ReIR responses are not causal and their analysis is much more complex than that of RIRs. [0006] In the work corresponding to document WO-2022/106765, it has nevertheless been demonstrated that the use of the reference signal which is a linear combination of all the channels (that is to say a reference beam shape ) is advantageous when extracting ReIR information from ambisonic signals. More particularly, if beamforming (or “beamforming” hereinafter) sufficiently attenuates the acoustic reflections compared to direct propagation, the corresponding ReIR (called “Generalized Velocity Vector”, and denoted “GTVV” below) admits an informative and compact expression in the time domain. Under these conditions, the generalized ReIR is causal and relatively sparse, and therefore allows an estimation, based on the peak of the direction of arrival of the sound (denoted DoA), of the directions of the acoustic reflections and their associated delays. [0007] The GTVV vector (i.e. therefore the ReIR in the ambisonic domain with beamforming) is more robust to unfavorable acoustic conditions than the “standard” ReIR for which the reference signal is generally the zero-order omnidirectional ambisonic channel. However, it is limited by the performance of the applied beamforming. For example, if maximum directivity and signal-independent beamforming is used, its directivity is a quadratic function of the given HOA order. However, conventional SMA microphone devices generally do not provide sufficiently high-order ambisonic formats: most often, they are only capable of recording first-order ambisonic (FOA) signals. This is especially true for simple devices, e.g. handheld devices, supporting FOA only. Furthermore, the frequency support of higher-order channels gradually decreases with HOA order, as noise amplification at low frequencies and spatial aliasing phenomenon at high frequencies begin to manifest. [0008] However, the favorable theoretical properties of the GTVV vector tend to decrease at low ambisonic orders, due to the inability of beamforming to effectively suppress reflections. The problem is further aggravated by increasing the distance between the microphone and the source, as more reflections fall into the beamforming main lobe and into the at the same time the preponderance of direct sound decreases with respect to reflections. In practice, we can observe that the GTVV footprint is no longer causal, and that the estimated directions are less precise. [0009] Furthermore, even when the GTVV representation remains valid, extracting the directions and delays by the identification/selection of peaks is not necessarily simple. An easy-to-use GTVV vector can be thought of as the multi-channel (delay-free, centered) RIR response implied by a causal filter. The consequence is that the same reflection is infinitely repeated like an echo, at temporal instances corresponding to integer multiples of its relative delay, with its alternating sign and decreasing amplitude. Thus, these series can interfere with each other, altering the information that can be deduced from them, or even masking the presence of reflections of lower amplitudes for example. Summary [0010] The present description improves the situation. [0011] To this end, it proposes a method of processing sound signals acquired by at least one network of microphones and coming from at least one sound source, to acoustically characterize a space comprising the network and the source and delimited by at least one wall, in which: - We apply a time-frequency transform to the acquired signals, - From the acquired signals, we express in the frequency domain a generalized velocity vector V(f), complex with a real part and an imaginary part, the vector velocity characterizing a composition between: * a first acoustic path, direct between the source and the network of microphones, represented by a first vector U0, and * at least a second acoustic path resulting from a reflection on the wall and represented by a second vector U1, the second path having, at the microphone network, a delay TAU1, compared to the direct path, - We apply an inverse transform, from frequencies to time, to the generalized velocity vector to express it in the time domain v( t) in the form of a succession of peaks comprising at least one peak linked to the reflection on said wall and to a time abscissa function of the delay TAU1. [0012] In particular in this method, the expression in the time domain of the generalized velocity vector is modeled by an autoregressive moving average ARMA defined by an autoregressive filter AR and a moving average MA, and the method then includes processing of the sound signals acquired by application of the autoregressive filter AR, to obtain an impulse response characterizing said space and resulting from the moving average MA. [0013] Thanks to this arrangement, the information stored in the representation of the generalized velocity vector, expressed in the time domain (and denoted “GTVV” below), can be extracted in a more robust manner because it is more general for any acoustic situation. , in order to obtain an impulse response characterizing a space with at least one wall (a space such as a room and thus corresponding to an RIR type impulse response for “Room Impulse Response”). More particularly, as described later in the exemplary embodiments, this impulse response can be described as "reduced" (and denoted "RdRIR" for "Reduced Room Impulse Response") because the temporal expression of the generalized velocity vector, of which is deduced from this impulse response, only presents reflection delays relative to the reception delay at the microphone of the direct acoustic path from the source (and not delays in absolute terms). Likewise, the amplitudes of the reflections are relative to the amplitude of reception at the microphone of the direct sound (not reflected by a wall). However, such an impulse response, even relative, already makes it possible to effectively characterize the acoustic space considered, simply by treating the temporal expression of the generalized velocity vector as an ARMA model. [0014] Thus, this reduced impulse response RdRIR comes from the ARMA model, and is distinguished in this from the relative impulse response ReIR, introduced previously, and which is obtained directly from the expression of the generalized velocity vector. [0015] In one embodiment, the acquired signals are applied to ambisonic channels, and the autoregressive filter AR is common to all the channels. [0016] Such an embodiment in ambisonic representation has the advantage of not requiring too high an ambisonic order (first orders or “FOA” for “First Order Ambisonic” which may be sufficient to obtain a satisfactory impulse response). [0017] In an embodiment where the aforementioned space is delimited by a plurality of walls, the expression in the time domain of the generalized velocity vector comprises a series of peaks including a peak linked to the direct path (or "DoA" for "Direction of Arrival") followed by peaks each linked to at least one reflection on a wall n. The method then comprises: - optimizing the autoregressive filter to model said series of peaks in the form of a multivariate autoregressive moving average. [0018] Thus, the temporal representation of the generalized velocity vector presents itself well for modeling by a multivariate ARMA average. [0019] In such an embodiment in particular, the method may include: - from the expression of the generalized velocity vector in the time domain v(t) in the form of said series of peaks, optimize the autoregressive filter by exploiting a property causality of an impulse response. [0020] Indeed, the generalized velocity vector can be expressed in the time domain in the form:

where and are causal filters representing respectively the moving average part MA and the regressive part AR of the ARMA model, and are linked by , for a beam formation w to be received by the microphone array and according to a direction of arrival of the sound from the sound source, and where: , ^^ _^^ ∈ ]0,1[ and designate the parameters of an nth plane wave reflected by a wall n of space, ^^ _^^ being a directional encoding vector of propagation of the nth wave, ^^ _^^ being an attenuation relative of the nth wave and ^^ _^^ being a delay of the nth wave with respect to said direct path, ^^ ₀ being a propagation vector specific to the direct path,

being a response of beam formations to the nth wavefront, with . [0021] In such an embodiment, the autoregressive part

can then be estimated by minimizing:

is a channel of the generalized velocity vector, represented by a multivariate ARMA model, the autoregressive part

being common to all channels of the generalized velocity vector. [0022] In such an embodiment, the estimation

by minimization of ^^ amounts to solving a linear prediction system, which is advantageously overdetermined. [0023] With the notations presented above, the impulse response can be given by the moving average, such as:

[0025] As the temporal representation of the generalized velocity vector can have positive and negative amplitudes (as illustrated by way of example in FIG. 2), an amplitude sign correction can be applied to the moving average.

to obtain the usual expression of the impulse response: in positive form. Furthermore, in one embodiment, said impulse response is chosen to have a finite duration. This duration can be chosen in particular to avoid taking into account a diffuse reverberation field (typically multiple high order reflections which would appear on the far right of Figure 2) and thus only treat the early reflections on the wall(s). of the space considered. In such an embodiment, this property can be exploited according to which the aforementioned impulse response is of finite duration to set a maximum limit of filter length for the autoregressive part AR and for the moving average part MA. [0028] In another embodiment, the moving average part MA can be centered on a delay corresponding to an instant of reception at the microphone of the sound coming from the source. According to another aspect, the aim is a computer program comprising instructions for implementing the above method, when these instructions are executed by a processing circuit. According to another aspect, there is provided a non-transitory recording medium, readable by a computer, on which such a program is recorded. According to another aspect, it is also aimed at a device comprising a processing circuit comprising an interface for receiving sound signal data acquired by a network of microphones, and configured to implement the above method. Brief description of the drawings [0032] Other characteristics, details and advantages will appear on reading the detailed description below, and on analyzing the appended drawings, in which: [0033] Figure 1 illustrates an example of succession of steps of a method of the type above, [0034] Figure 2 illustrates an example of a temporal representation of the generalized velocity vector, [0035] Figure 3 shows real examples of generalized velocity vectors (in the center) under different conditions, the corresponding ARMA representations (on the right), and the real impulse responses (on the left), the ARMA models being more faithful to the real impulse responses, [0036] Figure 4, Figure 5 and Figure 6 illustrate the performance of results obtained by the implementation of the above method compared to other treatments (or absence of treatment), respectively for different durations of sound reverberation cycles, [0037] Figure 7 illustrates an error evaluation on the direction of arrival of the sound (DoA) only, under experimental conditions similar to those of Figures 4 to 6, showing a clearer performance of the implementation of the method above on the reflections in particular, [0038] The Figure 8 schematically illustrates a device for implementing the method. Description of the embodiments [0039] We first refer to Figure 1 illustrating steps of a process of the type above according to an exemplary embodiment. [0040] We first describe the main principles of the steps in Figure 1. [0041] Ambisonic signals of any order are for example recorded by an SMA microphone type device (or are generated otherwise, by simulation or other ). These multichannel signals are then used for the estimation of the generalized velocity vector GTVV. This estimation is often conveniently performed by computing the inverse Fourier transform of the corresponding relative transfer function ReTF in the frequency domain, as described in particular in document WO-2022/106765. Thus, ambisonic signals are generally transformed into a time-frequency representation (for example by STFT, for “Short-Time-Fourier-Transform”) beforehand, and a robust estimator is used to obtain the ReTF. [0042] The temporal form of the GTVV vector is presented for illustrative purposes in Figure 2 and shows: - a peak with zero delay and linked to the direct acoustic path, associated with the main DoA of the sound (for “Direction of Arrival” or “ direction of arrival"), and - peaks linked to greater delays and linked to reflections on partitions. [0043] The time footprint of the GTVV vector can be considered as the realization of a multivariate autoregressive moving average or “ARMA” process, where the autoregressive filter AR (in the denominator) is common to all the channels. Consequently, once the GTVV vector has been obtained, the calculations are carried out by estimating the parameters of the corresponding ARMA model. The AR filter is first estimated from the time series given by the GTVV vector as illustrated by way of example in Figure 2, taken from the aforementioned document WO-2022/106765, by exploiting the fact that the RIR responses are causal (as is the case for the AR and MA filters of the ARMA model). We can also set the maximum limit on the length of the AR and MA filters, since the first part of the RIR is supposed to have a finite duration; In practice, such an AR filter can be efficiently calculated by estimating a linear prediction model applied to the appropriate part of the GTVV fingerprint. Once the AR filter is available, the MA filters can be estimated by simply convolving the vector GTVV by the AR filter (an efficient estimation, of the Prony type for example), or by least squares estimation ( Shanks type estimation for example); here too, one can consider more advanced inference procedures, for example by applying a certain structure between the corresponding inputs of the MA filters. [0047] Ideally, the MA filters should approximate the normalized RIR responses, the main peak of which is centered on the zero delay of the representation (invariant to absolute gain and delay, due to the loss of information in ReIR, as mentioned previously). Due to its similarity to RIRs, such a sequence of MA filters is called RdRIR for “Reduced Room Impulse Response”. In reality, RIR responses are considered to have positive amplitude and are continuous functions over time. When represented as a discrete (multi-channel) time series, RIR responses are pre-filtered by an anti-aliasing filter, which often exhibits an impulse response containing both positive and negative amplitudes. Since the same filter is applied to all HOA channels, it is possible to observe the sign of the estimated RdRIR response at order zero and (if negative) reverse the sign of all channels for a time sample given. [0048] After correcting the signs of the RdRIR representation, we can proceed to the inference of the acoustic wave fronts. A non-limiting way of doing this is to select a peak from the series of peaks in amplitude of the RdRIR response at different times. The application of ARMA modeling to the GTVV vector (generalized ReIR) in the ambisonic domain is described in more detail below. [0050] The principles presented can be adapted to standard (non-ambisonic) ReIR responses, for example, with the aim of estimating the time difference of arrival (or TdoA), by considering a pair of microphones recording the same source signal. [0051] The mathematical description which follows covers the definition of the GTVV vector, the wavefront inference when the latter is theoretically valid (that is to say when the convergence condition explained below is satisfied), as well as the derivation of the “GTVV preconditioning” method based on ARMA and presented above. [0052] We note below

the vector of concatenated spherical harmonic expansion coefficients (denoted “SH”) (corresponding to the “HOA channels”) up to order L, at frequency f. The recorded signals are assumed to be due to a far-field sound source at the azimuth, elevation and distance of the SMA microphone array, in an indoor environment (typically a partitioned room). Given a broadband beamforming w (or “beamforming” below) and directed (approximately) towards the DoA, the generalized velocity vector in the frequency domain (GFVV) is defined as follows, as described in particular in WO- 2022/106765:

[0054] where, ^^ _^^ ∈ ]0.1[ and designate the parameters of the nth plane wave reflected by a partition of the room, with: [0055], the expansion vector SH in the direction

[0056] ^^ _^^ , its relative attenuation and [0057] ^^ _^^ , its delay (compared to the direct propagation component). [0058] [0059] Then, is the vector SH of the plane wave in the direction DoA given by

while

is the response of the beamformers to the nth wavefront (with ). [0060] [0061] The approximation is due to the simplifying assumptions built into the right side of the above equation: the plane wave decomposition was given in terms of dominant acoustic reflections, and the beamforming and relative attenuations are assumed be independent of frequency. [0062] [0063] The inverse Fourier transform per channel of the vector GFVV gives its temporal counterpart GTVV:

[0064] [0065] In practice, the processing is done in the STFT domain (for “Short-Time-Fourier-Transform”), and the temporal duration GTVV is dictated by the chosen window. The length window is centered relative to the GTVV, at , i.e.

[0066] Under the condition of convergence of the (geometric) Taylor series, the GTVV admits an expression of the form:

accumulates ''crossed terms'' (which relate to the mutual interference between different wave fronts). [0067] The above expression “Equation1” makes it possible to immediately estimate the wavefront of the direct sound by evaluating

, while the rest involves the summation of the infinite series corresponding to the reflected wavefronts. [0068] But since, each infinite series has an amplitude which decreases with the temporal position of the peak:

[0070] When beamforming is very selective, its response is

. If this is not the case, we can improve the estimation of by “debiasing” the observed vector

[0071] [0072] Given an estimate of , and a collection of vectors SH (corresponding to a set of directions), and knowing that is strictly positive, we can recover by finding an element that maximizes the correlation with in the Equatio, which

Equation 3 [0073] Alternatively, we can resort to a non-linear optimization and solve Equation 2 in parametric form, where becomes the function of the direction variables

. [0074]

[0075] The convergence condition: implies that beamforming considerably attenuates reflections, which depends on the type of beamforming applied, but also of course on the acoustic environment and the HOA order. [0076] For calculation reasons, it is practical to use simple beamformings, such as the maximum directivity beamforming given by

(in N3D ambisonic encoding, knowing that it is enough to weight the signals acquired by the ambisonic microphone (with several piezoelectric capsules to collect several sound signals) to move from one type of encoding to another). [0077] However, due to the width of its main lobe, this beamforming is too permissive to low ambisonic orders (for example the FOA(s), and therefore, the expression of Equation 1 may no longer be valid. [0078] [0079] Nevertheless, the GTVV vector can always be written in the form:

where and are both causal filters, linked by [0080][0081] This expression reveals a particular structure (each GTVV channel

can be seen as a realization of the multivariate ARMA model, whose autoregressive part

is common to all channels). [0082] The MA part, or the series of the RdRIR (Reduced Room Impulse Response) response, thus admits an expression of the type:

[0083] Since , we can estimate by minimizing under the constraint

[0084] [0085] This is advantageously an overdetermined problem: the length of the filter

is , while the number of data points is

(the non-causal part of the GTVV vector representation). With increasing HOA order, the estimation should become more accurate as more data becomes available for regression. [0086] [0087] This cost function can be extended to incorporate weights, as well as the last part of the wavefront series, which is assumed to be a low magnitude signal similar to noise:

[0088] As the two filters are linked by the linear expression, by imposing the condition

, the filter support

is also implicitly shortened from

has . [0089] In principle, it would be possible to integrate more structure into

(or ), further modifying the original cost function. Such an example may consist of using norms favoring the sparse nature of a group to model support

However, solving such an optimization problem usually requires additional computational resources. Consequently, a least squares minimization is proposed here as an example. [0090] By taking the partial derivative of ^^ with respect to a filter element AR and denoted

, and setting the result to zero, we obtain:

[0092] The two autocorrelation functions defined above can be calculated efficiently using a fast Fourier transform. Their overall (weighted) sum can be noted:

[0094] Since

the estimation of the remaining coefficients amounts to a classic linear prediction problem:

which can be solved by various methods. [0095] For example, in order to use fast Toeplitz solvers (or “fast Toeplitz-based solvers”), it is possible to slightly modify the original cost function and instead minimize a substitution function of the type:

[0100] Once has been calculated, we can recover the non-zero segment of

(the RdRIR) by evaluating. [0101] [0102] Such an achievement is very efficient in terms of computer calculation. However, we can choose to apply a more elaborate approach such as estimating the RdRIR in the least squares sense (the so-called “Shank” method), or even carrying out an alternating optimization to improve both the AR and the RdRIR. (known as the Steiglitz-McBride algorithm). These approaches require estimation of the inverse AR filter, which is typically approximated by a least-squares optimal FIR filter. [0103] [0104] The representation of the characteristics is given in matrix form where represents the sequence of the GTVV vectors of Equation 1 or the estimated RdRIR sequence of Equation 3, for each. [0105] [0106] An example of these sequences, for recording from an SMA device collecting FOAs from a voice source, and for a real multichannel RIR response (shifted such that its main peak is placed at ) is given to Error! Source of reference not found. It appears that the proposed RdRIR then approximates the RIR structure more faithfully than the footprint of the GTVV vector. [0107] [0108] The DoA is evaluated from the vector corresponding to zero delay in the matrix, while the remaining directions are obtained by selecting the amplitude peaks of its column vectors. The index of the chosen peak reveals the relative delay of the given direction compared to the direct path of the sound. [0109] Next, an angular error in the directions associated with the ten largest peaks of the corresponding sequence can be quantified. [0110] [0111] Three approaches are considered below: - none or “none” (no post-processing), - unbiased or “debias” (bias correction using Equation 3) , and - with “arma” correction (RdRIR) within the meaning of the process presented above, and this for different ambisonic orders (or “order”), , or . [0112] [0113] More particularly, the evaluations are carried out for the order HOA, , and , with an SNR equal to 0dB, 10dB, 20dB and “Inf” dB (that is to say practically noise-free). Each result is the median estimate of 10 repetitions of the given simulation setup (i.e. for the given reverberation time and additive white Gaussian noise level). The experiments simulate a rectangular room of size 5 x 4 x 3 m ³ , with the microphone array and the voice source randomly positioned, but their distance being between 0.5 and 6 m. [0114] [0115] The execution of the experiment for three reverberation cycles (RT60=200ms, RT60=400ms and RT60=600ms) is presented respectively in Error! Reference source not found., Error! Referral source not found. and 6. The results clearly show that RdRIR provides the most accurate estimates, with the performance of all approaches increasing with HOA order, and worsening with increasing reverberation time and noise level. He It is striking, however, that RdRIR often outperforms the remaining approaches, even when its HOA order is lower than that of the other two approaches. [0116] [0117] In Error! Referral source not found. An evaluation of the DoA error only is presented, under similar experimental conditions, for RT60 = 400ms. Although the RdRIR estimate again has the lowest angular error, for all SNR levels the difference here is less significant. This suggests that the main improvement of ARMA post-processing lies in the better prediction of which wavefronts are reflected in particular. [0118] [0119] Figure 8 illustrates an example of a device for implementing the above method, and typically comprising: - an INT interface for receiving signals from a MIC microphone, for example ambisonic ( with several piezoelectric capsules for example), the microphone MIC being arranged in an ESP space comprising at least one PAR wall, - a PROC processor connected to the INT interface to process the signals received for example in ambisonic representation, express the generalized velocity vector in time as a function of these signals, and deduce the ARMA model to deliver an RdRIR impulse response from the ESP space, - a MEM memory storing instruction data of a computer program within the meaning of this description, and accessible by the PROC processor to read this data and execute the above process. [0120] [0121] Obtaining the impulse response of the ESP space makes it possible in particular to quantify the acoustic and geometric properties of this space (for example to simultaneously obtain the location and separation of sound sources in the ESP space, or others). Knowledge of the acoustic and geometric properties of such an ESP environment can make it possible to obtain or improve the obtaining of relevant results in the processing of audio signals for various applications of spatial encoding, augmented reality, and robot navigation. , room characterization, and others. As demonstrated above, the use of the ARMA model to obtain this room impulse response is simple to implement (especially for the low ambisonic order required) and gives satisfactory results as illustrated in Figures 4 to 7.

Claims

Revendications [Revendication 1] 1. Procédé de traitement de signaux sonores acquis par au moins un réseau de microphones et issus d’au moins une source sonore, pour caractériser acoustiquement un espace comportant le réseau et la source et délimité par au moins une paroi, dans lequel : - On applique une transformée temps fréquences aux signaux acquis, - A partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V(f), complexe avec une partie réelle et une partie imaginaire, le vecteur vélocité caractérisant une composition entre : * un premier trajet acoustique, direct entre la source et le réseau de microphones, représenté par un premier vecteur U0, et * au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1, le deuxième trajet ayant, au réseau de microphones, un retard TAU1, par rapport au trajet direct, - On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporel v(t) sous la forme d’une succession de pics comportant au moins un pic lié à la réflexion sur ladite paroi et à une abscisse temporelle fonction du retard TAU1, dans lequel l’expression dans le domaine temporel du vecteur vélocité généralisé est modélisée par une moyenne mobile autorégressive ARMA définie par un filtre autorégressif AR et une moyenne mobile MA, Le procédé comportant un traitement des signaux sonores acquis par application du filtre autorégressif AR, pour obtenir une réponse impulsionnelle caractérisant ledit espace et issue de la moyenne mobile MA. [Revendication 2] 2. Procédé selon la revendication 1, dans lequel les signaux acquis sont appliqués à des canaux ambisoniques, le filtre autorégressif AR étant commun à tous les canaux. [Revendication 3] 3. Procédé selon l'une des revendications précédentes, dans lequel, pour un espace délimité par une pluralité de parois, l’expression dans le domaine temporel du vecteur vélocité généralisé comporte une série de pics comprenant un pic lié au trajet direct (DoA) suivi de pics liés chacun à au moins une réflexion sur une paroi n, Le procédé comportant : - optimiser le filtre autorégressif pour modéliser ladite série de pics sous la forme d’une moyenne mobile autorégressive multivariée. [Revendication 4] 4. Procédé selon la revendication 3, comportant : - à partir de l’expression du vecteur vélocité généralisé dans le domaine temporel v(t) sous la forme de ladite série de pics, optimiser le filtre autorégressif en exploitant une propriété de causalité d’une réponse impulsionnelle. [Revendication 5] 5. Procédé selon la revendication 4, dans lequel le vecteur vélocité généralisé s’exprime dans le domaine temporel sous la forme : et la partie régressive AR du modèle ARMA, et sont liés par , pour une formation de faisceau w à recevoir par le réseau de microphones et selon une direction d’arrivée du son depuis la source sonore, et où : , ^^ _^^ ∈ ]0,1[ et désignent les paramètres d’une nième onde plane réfléchie par une paroi n de l’espace, ^^ _^^ étant un vecteur d’encodage directionnel de propagation de la nième onde, ^^ _^^ étant une atténuation relative de la nième onde et ^^ _^^ étant un retard de la nième onde par rapport audit trajet direct, ^^₀ étant une vecteur de propagation propre au trajet direct, étant une réponse de formations de faisceaux au nième front d’onde, avec . [Revendication 6] 6. Procédé selon la revendication 5, dans lequel la partie autorégressive est estimée en minimisant :

étant commune à tous les canaux du vecteur vélocité généralisé. [Revendication 7] 7. Procédé selon la revendication 6, dans lequel l’estimation de

par minimisation de ^^ revient à résoudre un système de prédiction linéaire, surdéterminé. [Revendication 8] 8. Procédé selon l'une des revendications 5 à 7, dans lequel la réponse impulsionnelle est donnée par la moyenne mobile

telle que : [Revendication 9] 9. Procédé selon la revendication 8, dans lequel on applique une correction de signe d’amplitudes à la moyenne mobile

pour obtenir la réponse impulsionnelle sous forme positive. [Revendication 10] 10. Procédé selon l'une des revendications précédentes, dans lequel ladite réponse impulsionnelle est de durée finie. [Revendication 11] 11. Procédé selon la revendication 10, dans lequel il est fixé une limite maximale de longueur de filtres pour la partie autorégressive AR et pour la partie moyenne mobile MA. [Revendication 12] 12. Procédé selon l'une des revendications précédentes, dans lequel la partie moyenne mobile MA est centrée sur un retard correspondant à un instant de réception au microphone du son issu de la source. [Revendication 13] 13. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications précédentes, lorsque lesdites instructions sont exécutées par un circuit de traitement. [Revendication 14] 14. Dispositif comportant un circuit de traitement comportant une interface pour recevoir des données de signaux sonores acquis par un réseau de microphones, et configuré pour mettre en œuvre le procédé selon l’une des revendications 1 à 12. Claims [Claim 1] 1. Method for processing sound signals acquired by at least one network of microphones and coming from at least one sound source, to acoustically characterize a space comprising the network and the source and delimited by at least one wall, in which: - We apply a time-frequency transform to the acquired signals, - From the acquired signals, we express in the frequency domain a generalized velocity vector V(f), complex with a real part and an imaginary part, the velocity vector characterizing a composition between: * a first acoustic path, direct between the source and the network of microphones, represented by a first vector U0, and * at least a second acoustic path resulting from a reflection on the wall and represented by a second vector U1 , the second path having, at the microphone network, a delay TAU1, compared to the direct path, - We apply an inverse transform, from frequencies to time, to the generalized velocity vector to express it in the time domain v(t) in the form of a succession of peaks comprising at least one peak linked to the reflection on said wall and to a time abscissa function of the delay TAU1, in which the expression in the time domain of the generalized velocity vector is modeled by a moving average autoregressive ARMA defined by an autoregressive filter AR and a moving average MA, The method comprising processing of the sound signals acquired by application of the autoregressive filter AR, to obtain an impulse response characterizing said space and resulting from the moving average MA. [Claim 2] 2. Method according to claim 1, in which the acquired signals are applied to ambisonic channels, the autoregressive filter AR being common to all the channels. [Claim 3] 3. Method according to one of the preceding claims, in which, for a space delimited by a plurality of walls, the expression in the time domain of the generalized velocity vector comprises a series of peaks comprising a peak linked to the path direct (DoA) followed by peaks each linked to at least one reflection on a wall n, The method comprising: - optimize the autoregressive filter to model said series of peaks in the form of a multivariate autoregressive moving average. [Claim 4] 4. Method according to claim 3, comprising: - from the expression of the generalized velocity vector in the time domain v(t) in the form of said series of peaks, optimize the autoregressive filter by exploiting a property causality of an impulse response. [Claim 5] 5. Method according to claim 4, in which the generalized velocity vector is expressed in the time domain in the form: and the regressive part AR of the ARMA model, and are linked by , for a beam formation w to be received by the microphone array and according to a direction of arrival of the sound from the sound source, and where: , ^^ _^^ ∈ ]0,1[ and designate the parameters of an nth plane wave reflected by a wall n of space, ^^ _^^ being a directional encoding vector of propagation of the nth wave, ^^ _^^ being an attenuation relative of the nth wave and ^^ _^^ being a delay of the nth wave with respect to said direct path, ^^ ₀ being a propagation vector specific to the direct path, being a response of beam formations to the nth wave front, with . [Claim 6] 6. Method according to claim 5, in which the autoregressive part is estimated by minimizing:

being common to all channels of the generalized velocity vector. [Claim 7] 7. Method according to claim 6, in which the estimation of

by minimization of ^^ amounts to solving a linear, overdetermined prediction system. [Claim 8] 8. Method according to one of claims 5 to 7, in which the impulse response is given by the moving average

such as: [Claim 9] 9. Method according to claim 8, in which an amplitude sign correction is applied to the moving average

to obtain the impulse response in positive form. [Claim 10] 10. Method according to one of the preceding claims, wherein said impulse response is of finite duration. [Claim 11] 11. Method according to claim 10, in which a maximum limit of filter length is set for the autoregressive part AR and for the moving average part MA. [Claim 12] 12. Method according to one of the preceding claims, in which the moving average part MA is centered on a delay corresponding to an instant of reception at the microphone of the sound coming from the source. [Claim 13] 13. Computer program comprising instructions for implementing the method according to one of the preceding claims, when said instructions are executed by a processing circuit. [Claim 14] 14. Device comprising a processing circuit comprising an interface for receiving sound signal data acquired by a network of microphones, and configured to implement the method according to one of claims 1 to 12.