FR3121542A1

FR3121542A1 - Estimation d’un masque optimisé pour le traitement de données sonores acquises

Info

Publication number: FR3121542A1
Application number: FR2103400A
Authority: FR
Inventors: Alexandre Guerin; Henrique TOMAZ-AMORIM
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2022-10-07
Also published as: US20240212701A1; EP4315328A1; WO2022207994A1; CN117121104A

Abstract

Estimation d’un masque optimisé pour le traitement de données sonores acquises La présente description concerne un traitement de données sonores acquises par une pluralité de microphones (MIC), dans lequel : - à partir des signaux acquis par la pluralité de microphones, on détermine une direction d’arrivée d’un son issu d’au moins une source acoustique d’intérêt (S4), - on applique aux données sonores un filtrage spatial fonction de la direction d’arrivée du son (S5), - on estime dans le domaine temps-fréquence des ratios d’une grandeur représentative d’une amplitude de signal, entre les données sonores filtrées d’une part et les données sonores acquises d’autre part (S6), - en fonction des ratios estimés, on élabore un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises (S7) en vue de construire un signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant (S10 ; S9-S10). Figure de l’abrégé : Figure 2

Description

Estimation d’un masque optimisé pour le traitement de données sonores acquises

La présente description concerne le traitement de données sonores, notamment en contexte de prise de son lointaine.

La prise de son lointaine ou (“far-field” en anglais) se manifeste par exemple lorsqu’un locuteur est éloigné d’un équipement de prise de son. Elle offre toutefois des avantages se manifestant par un réel confort ergonomique pour l’utilisateur pour interagir “les mains-libres” avec un service en cours d’utilisation: passer un appel téléphonique, émettre des commandes vocales via un équipement de type « smartspeaker » (Google Home®, Amazon Echo®, etc).

En contrepartie, cette prise de son lointaine induit certains artefacts : la réverbération et les bruits environnants apparaissent amplifiés du fait de l’éloignement de l’utilisateur. Ces artefacts dégradent l’intelligibilité de la voix du locuteur, et par suite le fonctionnement des services. Il apparait que la communication est plus difficile, que ce soit avec un humain ou un moteur de reconnaissance vocale.

Aussi, les terminaux mains-libres (comme les smartspeakers ou les « pieuvres » de téléconférence) sont généralement équipés d’une antenne de microphones qui permet de rehausser le signal utile en réduisant ces perturbations. Le rehaussement à base d’antenne exploite les informations spatiales encodées lors de l’enregistrement multicanal et propres à chaque source pour discriminer le signal d’intérêt des autres sources de bruit.

De nombreuses techniques de traitement d’antenne existent telles qu’un filtre de type « Delay and Sum » réalisant un filtrage purement spatial grâce à la seule connaissance de la direction d’arrivée de la source d’intérêt ou d’autres sources, ou encore un filtre « MVDR » (pour « Minimum Variance Distorsionless Response ») se montrant un peu plus efficace grâce à la connaissance, en plus de la direction d’arrivée de la source d’intérêt, de la distribution spatiale du bruit. D’autres filtres encore plus performants comme les filtres de Wiener Multicanal nécessitent de disposer en outre de la distribution spatiale de la source d’intérêt.

En pratique, la connaissance de ces distributions spatiales découle de celle d’une carte temps-fréquence qui indique les points de cette carte dominés par la parole, et les points dominés par le bruit. L’estimation de cette carte, que l’on appelle aussi masque, est généralement inférée par un réseau de neurones préalablement entraîné.

Ci-après on note : un signal qui contient un mélange constitué et parole et bruit dans le domaine temps-fréquence, où est la parole et le bruit.

Un masque, noté (respectivement ), est défini comme un réel, généralement dans l’intervalle , tel qu’une estimation du signal d’intérêt (respectivement du bruit ) est obtenue par simple multiplication de ce masque avec les observations , soit :

On cherche alors une estimation de masques et , qui puisse mener à la dérivation de filtres de séparation ou de rehaussement qui soient efficaces.

L’utilisation de réseaux de neurones profonds (selon une approche mettant en œuvre une « intelligence artificielle ») a été utilisée pour la séparation de sources. Une description d’une telle réalisation est présentée par exemple dans le document [@umbachChallenge] dont les références sont données en annexe ci-après. Des architectures telles que les plus simples de type dit "Feed Forward" (FF) ont été investiguées et ont montré leur efficacité comparées aux méthodes de traitement du signal, généralement basées sur des modèles (comme décrit dans la référence [@heymannNNmask]). Des architectures « récurrentes » de type dit « LSTM » (Long-Short Term Memory, comme décrit dans [@laurelineLSTM]) ou Bi-LSTM (comme décrit dans [@heymannNNmask]), qui permettent de mieux exploiter les dépendances temporelles des signaux, montrent de meilleures performances, en contrepartie d’un coût de calcul très élevé. Pour réduire ce coût computationnel, que ce soit pour l’entraînement ou l’inférence, des architectures convolutionnelles dites « CNN » (Convolutional Neural Network) ont été proposées avec succès ([@amelieUnet], [@janssonUnetSinger]), améliorant les performances et réduisant le coût de calcul, avec en sus la possibilité de paralléliser les calculs. Si les approches d’intelligence artificielle pour la séparation exploitent généralement des caractéristiques dans le domaine temps-fréquence, des architectures purement temporelles ont aussi été employées avec succès ([@stollerWaveUnet]).

Toutes ces approches de rehaussement et de séparation par intelligence artificielle montrent une réelle valeur ajoutée pour les tâches où le bruit pose problème : transcriptions, reconnaissance, détection. Cependant, ces architectures ont en commun un coût élevé en termes de mémoire et de puissance de calcul. Les modèles de réseau de neurones profonds sont composées de dizaines de couches et des centaines de milliers, voire des millions, de paramètres. Par ailleurs, leur apprentissage nécessite de grandes bases des données exhaustives, annotées et enregistrées en conditions réalistes pour garantir une généralisation à toutes les conditions d’utilisation.

Résumé

La présente description vient améliorer la situation.

Il est proposé un procédé de traitement de données sonores acquises par une pluralité de microphones, dans lequel :
- à partir des signaux acquis par la pluralité de microphones, on détermine une direction d’arrivée d’un son issu d’au moins une source acoustique d’intérêt,
- on applique aux données sonores un filtrage spatial fonction de la direction d’arrivée du son,
- on estime dans le domaine temps-fréquence des ratios d’une grandeur représentative d’une amplitude de signal, entre les données sonores filtrées d’une part et les données sonores acquises d’autre part,
- en fonction des ratios estimés, on élabore un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises en vue de construire un signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant.

On entend ici par « grandeur représentative » d’une amplitude de signal, l’amplitude du signal mais aussi son énergie ou encore sa puissance, etc. Ainsi, les ratios précités peuvent être estimés en divisant l’amplitude (ou l’énergie, ou la puissance, etc.) du signal que représentent les données sonores filtrées par l’amplitude (ou l’énergie, ou la puissance, etc.) du signal que représentent les données sonores acquises (donc brutes).

Le masque de pondération ainsi obtenu est alors représentatif, en chaque point temps-fréquence du domaine temps-fréquence, d’un degré de prépondérance de la source acoustique d’intérêt, par rapport à du bruit ambiant.

Le masque de pondération peut être estimé pour construire directement un signal acoustique représentant le son issu de la source d’intérêt, et rehaussé par rapport à du bruit ambiant, ou encore pour calculer de seconds filtres spatiaux qui peuvent être plus efficaces pour réduire plus fortement le bruit que dans le cas précité d’une construction directe.

De manière générale, il est alors possible d’obtenir un masque temps-fréquence sans faire appel aux réseaux de neurones, avec pour seule connaissancea priorila direction d’arrivée de la source utile. Ce masque permet par la suite d’implémenter des filtres de séparation efficaces comme par exemple le filtre MVDR (pour « Minimum Variance Distorsionless Response ») ou ceux issus de la famille des filtres de Wiener Multicanal. L’estimation au fil de l’eau de ce masque permet de dériver des filtres à faible latence. En outre, son estimation reste efficace y compris en conditions adverses où le signal d’intérêt est noyé dans le bruit environnant.

Dans une réalisation, le premier filtrage spatial précité (appliqué aux données acquises avant d’estimer les ratios) peut être de type « Delay and Sum ».

En pratique, on peut appliquer dans ce cas des délais successifs aux signaux captés par les microphones agencés le long d’une antenne par exemple. Comme les distances entre les microphones et donc les déphasages inhérents à ces distances entre ces signaux captés sont connus, on peut procéder ainsi à une mise en phase de tous ces signaux que l’on peut sommer ensuite.

Dans le cas d’une transformation des signaux acquis dans le domaine ambisonique, l’amplitude des signaux représente ces déphasages inhérents aux distances entre microphones. Là encore, il est possible de pondérer ces amplitudes pour mettre en œuvre un traitement que l’on peut qualifier de « Delay and Sum ».

Dans une variante, ce premier filtrage spatial peut être de type MPDR (pour « Minimum Power Distortionless Response »). Il a l’avantage de mieux réduire le bruit environnant, tout en conservant le signal utile intact, et ne nécessite pas d’autre information que la direction d’arrivée. Ce type de procédé est décrit par exemple dans le document [@gannotResume] dont le contenu est détaillé plus loin et dont la référence complète est donnée en annexe.

Ici néanmoins, le filtrage spatial de type MPDR, noté , peut être donné dans une réalisation particulière par :

,

où représente un vecteur définissant la direction d’arrivée du son (ou « steering vector »), et est une matrice de covariance spatiale estimée en chaque point temps-fréquence par une relation de type :
où :
- est un voisinage du point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien.

Par ailleurs, comme indiqué précédemment, le procédé peut comporter optionnellement une étape ultérieure d’affinage du masque de pondération pour débruiter son estimation.

Pour mener cette étape ultérieure, l’estimation peut être débruitée par lissage en appliquant par exemple des moyennes locales, définies heuristiquement.

Alternativement, cette estimation peut être débruitée par définition d’un modèlea prioride distribution de masque.

La première approche permet de conserver une complexité faible, tandis-que la seconde approche, basée sur un modèle, obtient de meilleures performances, au prix d’une complexité accrue.

Ainsi, dans un premier mode de réalisation, le masque de pondération élaboré peut être en outre affiné par lissage en chaque point temps-fréquence en appliquant un opérateur statistique local, calculé sur un voisinage temps-fréquence du point temps-fréquence considéré. Cet opérateur peut prendre la forme d’une moyenne, d’un filtre Gaussien, d’un filtre médian, ou autre.

Dans un second mode de réalisation, pour mener la deuxième approche précitée, le masque de pondération élaboré peut être en outre affiné par lissage en chaque point temps-fréquence, en appliquant une approche probabiliste comportant :
- considérer le masque de pondération comme une variable aléatoire,
- définir un estimateur probabiliste d’un modèle de la variable aléatoire,
- chercher un optimum de l’estimateur probabiliste pour améliorer le masque de pondération.

Typiquement, le masque peut être considéré comme une variable aléatoire uniforme dans un intervalle [0,1].

L’estimateur probabiliste du masque peut être par exemple représentatif d’un maximum de vraisemblance, sur une pluralité d’observations d’un couple de variables , représentant respectivement :
- un signal acoustique issu de l’application du masque de pondération aux données sonores acquises, et
- les données sonores acquises ,
lesdites observations étant choisies dans un voisinage du point temps-fréquence considéré.

Ces deux modes de réalisation ont ainsi pour vocation d’affiner le masque après son estimation. Comme indiqué précédemment, le masque obtenu (affiné optionnellement) peut être appliqué directement, aux données acquises (brutes, captées par les microphones) ou servir à construire un second filtre spatial à appliquer à ces données acquises.

Ainsi, dans ce deuxième cas, la construction du signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant, peut impliquer l’application d’un second filtrage spatial, obtenu à partir du masque de pondération.

Ce second filtrage spatial peut être de type MVDR pour « Minimum Variance Distorsionless Response », et dans ce cas, on estime au moins une matrice de covariance spatiale du bruit ambiant, le filtrage spatial de type MVDR étant donné par , avec :
où :
- est un voisinage d’un point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien, et
- est l’expression du masque de pondération dans le domaine temps-fréquence.

Alternativement, le second filtrage spatial peut être de type MWF pour « Multichannel Wiener Filter », et dans ce cas on estime des matrices de covariance spatiale et , respectivement du signal acoustique représentant le son issu de la source d’intérêt, et du bruit ambiant,
le filtrage spatial de type MWF étant donné par :
, où , avec :
où :
- est un voisinage d’un point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien, et
- est l’expression du masque de pondération dans le domaine temps-fréquence.

La matrice de covariance spatiale ci-dessus représente le « bruit ambiant ». Ce dernier peut en réalité comporter des émissions de sources sonores qui n’ont pas été retenues toutefois comme étant la source sonore d’intérêt. Des traitements séparés peuvent être opérés pour chaque source dont une direction d’arrivée a été détectée (par exemple en dynamique) et, dans le traitement pour une source donnée, les émissions des autres sources sont considérées comme faisant partie du bruit.

On comprend dans cette forme de réalisation comment le filtrage spatial réalisé, de type MWF par exemple, peut être issu du masquage estimé pour des points temps-fréquence les plus avantageux car la source acoustique d’intérêt y est prépondérante. Il convient de noter en outre que deux optimisations conjointes peuvent être menées, l’une pour la covariance du signal acoustique faisant intervenir le masque temps-fréquence recherché et l’autre pour la covariance du bruit ambiant faisant intervenir un masque lié au bruit (en sélectionnant alors des points temps-fréquence en lesquels le bruit seul est prépondérant).

La solution décrite ci-avant permet ainsi, de façon générale, d’estimer dans un domaine temps-fréquence un masque optimal dans les points temps-fréquence où la source d’intérêt est prépondérante, à partir de la seule information de direction d’arrivée de la source d’intérêt, sans apport de réseau de neurones (soit pour appliquer le masque directement aux données acquises, soit pour construire un second filtrage spatial à appliquer aux données acquises).

La présente description propose aussi un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.

La présente description propose aussi un dispositif comportant (comme illustré sur la ) au moins une interface de réception (IN) de données sonores acquises par une pluralité de microphones (MIC) et un circuit de traitement (PROC, MEM) configuré pour :
- à partir des signaux acquis par la pluralité de microphones, déterminer une direction d’arrivée d’un son issu d’au moins une source acoustique d’intérêt,
- appliquer aux données sonores un filtrage spatial fonction de la direction d’arrivée du son,
- estimer dans le domaine temps-fréquence des ratios d’une grandeur représentative d’une amplitude de signal, entre les données sonores filtrées d’une part et les données sonores acquises d’autre part, et
- en fonction des ratios estimés, élaborer un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises en vue de construire un signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant.

Ainsi, le dispositif peut comporter en outre une interface de sortie (référence OUT de la ) pour délivrer ce signal acoustique. Cette interface OUT peut être reliée à un module de reconnaissance vocale par exemple pour interpréter correctement des commandes d’un utilisateur, malgré du bruit ambiant, le signal acoustique délivré ayant été alors traité selon le procédé présenté plus haut.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

Fig. 1

montre schématiquement un contexte possible de mise en œuvre du procédé présenté ci-avant.

Fig. 2

illustre une succession d’étapes que peut comporter un procédé au sens de la présente description, selon un mode de réalisation particulier.

Fig. 3

montre schématiquement un exemple de dispositif de traitement de données sonores selon un mode de réalisation.

En référence encore à la ici, le circuit de traitement du dispositif DIS présenté précédemment peut comporter typiquement une mémoire MEM apte à stocker notamment les instructions du programme informatique précité, ainsi qu’un processeur PROC apte à coopérer avec la mémoire MEM pour exécuter le programme informatique.

Typiquement, l’interface de sortie OUT peut alimenter un module MOD de reconnaissance vocale d’un assistant personnel capable d’identifier dans le signal acoustique précité une commande vocale d’un utilisateur UT qui, comme illustré sur la , peut prononcer une commande vocale captée par une antenne de microphones MIC, et ce notamment en présence de bruit ambiant et/ou de réverbérations sonores REV, générées par les murs et/ou cloisons d’une pièce par exemple dans laquelle se situe l’utilisateur UT. Le traitement des données sonores acquises, au sens de la présente description et qui est détaillé ci-après, permet néanmoins de surmonter de telles difficultés.

Un exemple de procédé global au sens de la présente description est illustré sur la . Le procédé commence par une première étape S1 d'acquisition des données sonores captées par les microphones. Ensuite, il est procédé à une transformée temps-fréquence des signaux acquis à l'étape S3, après une apodisation réalisée à l'étape S2. La direction d'arrivée du son issu de la source d’intérêt (DoA) peut ensuite être estimée à l'étape S4 en donnant en particulier le vecteur as(f) de cette direction d'arrivée (ou « steering vector »). Ensuite, à l'étape S5, il est appliqué un premier filtrage spatial aux données sonores acquises par les microphones, par exemple dans l'espace temps-fréquence, et en fonction de la direction d’arrivée DoA. Le premier filtrage spatial peut être de type Delay and Sum ou MPDR et il est « centré » sur la DoA. Dans le cas où le filtre est de type MPDR, les données acquises exprimées dans le domaine temps-fréquence sont utilisées, en outre de la DoA, pour construire le filtre (flèche illustrée en traits pointillés à cet effet). Ensuite, à l'étape S6, il est estimé des ratios d'amplitude (ou d'énergie ou de puissance) entre les données acquises filtrées et les données acquises brutes (notées x(t,f) dans le domaine temps-fréquence). Cette estimation des ratios dans le domaine temps-fréquence permet de construire une première forme, approximative, du masque de pondération favorisant déjà la DoA à l'étape S7 car les ratios précités sont de niveaux élevés principalement dans la direction d'arrivée DoA. On peut prévoir ensuite une étape ultérieure S8, optionnelle, consistant à lisser ce premier masque pour l'affiner. Ensuite, à l'étape S9 (optionnelle également), il est possible en outre de générer un second filtrage spatial à partir de ce masque affiné. Ce second filtrage peut être appliqué alors ensuite dans le domaine temps-fréquence aux données sonores acquises afin de générer à l’étape S10 un signal acoustique dénué substantiellement de bruit et qui peut alors être interprété proprement par un module de reconnaissance vocale ou autre. On détaille ci-après chacune des étapes de ce procédé.

On note ci-après un signal d’antenne composé de canaux, organisés sous forme d’un vecteur colonne à l’étape S1 :

Ce vecteur est nommé « observation » ou « mélange ».

Les signaux , peuvent être les signaux captés directement par les microphones de l’antenne, ou une combinaison de ces signaux microphoniques comme dans le cas d’une antenne collectant les signaux selon une représentation au format ambiophonique (dit aussi « ambisonique »).

Dans la suite, les différentes quantités (signaux, matrices de covariance, masques, filtres), sont exprimées dans un domaine temps-fréquence, à l’étape S3, comme suit :

où est par exemple la transformée de Fourier à court-terme de taille :

Dans la relation précédente, est une version potentiellement apodisée à l’étape S2 par une fenêtre et complétée avec des 0 de la variable :

avec et où est une fenêtre d’apodisation de type Hann ou autre.

On peut définir plusieurs filtres de rehaussement selon les informations dont on dispose. Ils pourront être alors utilisés pour la déduction du masque dans le domaine temps-fréquence.

Pour une source de position donnée, on note le vecteur colonne qui pointe dans la direction de cette source (la direction d’arrivée du son), vecteur appelé « steering vector ». Dans le cas d’une antenne uniforme linéaire formée de capteurs, où chaque capteur est espacé de son voisin d’une distance , le steering vector d’une onde plane d’incidence par rapport à l’antenne est défini à l’étape S4 dans le domaine fréquentiel par :

, où est la célérité du son dans l’air.

Le premier canal correspond ici au dernier capteur rencontré par l’onde sonore. Ce steering vector donne alors la direction d’arrivée du son ou « DOA ».

Dans le cas d’une antenne ambisonique 3D d’ordre 1, typiquement au format SID/N3D, le steering vector peut être donné aussi par la relation :

, où le couple correspond à l’azimuth et l’élévation de la source par rapport à l’antenne.

A partir de la seule connaissance de la direction d’arrivée d’une source sonore (ou DOA), à l’étape S5 on peut définir un filtre de type delay-and-sum (DS) qui pointe dans la direction de cette source, comme suit :

, où est l’opérateur transposé-conjugué d’une matrice ou d’un vecteur.

On peut également utiliser un filtre un peu plus complexe, mais également plus performant, comme le filtre MPDR (pour « Minimum Power Distortionless Response »). Ce filtre nécessite, en plus de la direction d’arrivée du son émis par la source, la distribution spatiale du mélange à travers sa matrice de covariance spatiale :

, où la covariance spatiale du signal multidimensionnel capté par l’antenne est donnée par la relation suivante :

Des détails d’une telle mise en œuvre sont décrits notamment dans la référence [@gannotResume] précisée en annexe.

Enfin, si on dispose des matrices de covariance spatiale et du signal d’intérêt et du bruit , on peut utiliser une famille de filtres beaucoup plus efficaces pour appliquer le second filtrage spatial précité (décrit plus loin en référence à l’étape S9 de la ). On indique simplement ici qu’à titre d’exemple, on peut utiliser comme second filtrage un filtrage spatial de type MWF pour « Multichannel Wiener Filter », donné par l’équation suivante :

, où ,

et faisant intervenir les matrices de covariance spatiale représentant la distribution spatiale de l’énergie acoustique, émise par une source d’intérêt ou par du bruit ambiant , et se propageant dans l’environnement acoustique. En pratique, les propriétés acoustiques - réflexion, diffraction, diffusion - des matériaux des parois rencontrées par les ondes sonores - murs, plafond, sol, vitrage, etc. - varient fortement en fonction de la bande de fréquences considérée. Par la suite, cette distribution spatiale de l’énergie dépend également de la bande de fréquences. Par ailleurs, dans le cas de sources mobiles, cette covariance spatiale peut varier au cours du temps.

Une façon d’estimer la covariance spatiale du mélange est d’opérer une intégration temps-fréquence locale :

où est un voisinage plus ou moins large autour du point temps-fréquence , et est l’opérateur « cardinal ».

A partir de là, il est déjà possible d’estimer le premier filtrage qui peut être appliqué à l’étape S5.

Pour les matrices et , la situation est différente car elles ne sont pas directement accessibles depuis les observations et doivent être estimées. En pratique, on utilise un masque (respectivement ) qui permet de “sélectionner” les points temps-fréquence où la source utile (respectivement le bruit) est prépondérante, ce qui permet de calculer ensuite sa matrice de covariance par une intégration classique, par pondération avec un masque adéquat de type :

Le masque du bruit peut être dérivé directement du masque utile (i.e. associé à la source d’intérêt) par la formule : . Dans ce cas, la matrice de covariance spatiale de bruit peut se calculer de la même façon que celle du signal utile, et plus particulièrement sous la forme :

L’objectif visé ici est d’estimer ces masques temps-fréquence et .

On considère connue la direction d’arrivée du son (ou « DOA », obtenue à l’étape S4), issu de la source utile à l’instant , notée . Cette DOA peut être estimée par un algorithme de localisation comme le « SRP-phat » ([@diBiaseSRPPhat]), et suivie par un algorithme de suivi ou (« tracking ») comme un filtre de Kalman par exemple. Elle peut être composée d’une seule composante comme dans le cas d’une antenne linéaire, ou des composantes d’azimut et d’élévation dans le cas d’une antenne sphérique de type ambisonique par exemple.

Ainsi, à partir de la seule connaissance de la DOA de la source utile , on cherche à l’étape S7 à estimer ces masques. On dispose d’une version rehaussée du signal utile dans le domaine temps-fréquence. Cette version rehaussée est obtenue par application à l’étape S5 d’un filtre spatial qui pointe dans la direction de la source utile. Ce filtre peut être de type Delay and Sum, ou ci-après de type présenté par :

A partir de ce filtre, on rehausse le signal d’intérêt par application du filtre à l’étape S5 :

Ce signal rehaussé permet de calculer un masque préliminaire à l’étape S7, donné par les ratios de l’étape S6 : ,
où est un canal de référence issu de la captation, et un réel positif. prend typiquement les valeurs entières (par exemple 1 pour l’amplitude ou 2 pour l’énergie). Il convient de noter que lorsque , le masque tend vers le masque binaire indiquant la prépondérance de la source par rapport au bruit.

Par exemple, pour une antenne ambisonique, on peut utiliser le premier canal qui est le canal omnidirectionnel. Dans le cas d’une antenne linéaire, ce peut être le signal correspondant à un quelconque capteur.

Dans le cas idéal où le signal est parfaitement rehaussé par le filtre , et , ce masque correspond à l’expression : , ce qui définit un masque au comportement souhaité, à savoir proche de 1 lorsque le signal est prépondérant, et proche de 0 lorsque le bruit est prépondérant. En pratique, du fait de l’effet de l’acoustique et des imperfections de mesure dans la DOA de la source, le signal rehaussé, quoique déjà dans une meilleure condition que les signaux bruts acquis, peut comporter encore du bruit et peut être perfectionné par un traitement de raffinement de l’estimation du masque (étape S8).

On décrit ci-après l’étape S8 de raffinement du masque. Bien que cette étape soit avantageuse, elle n’est en rien essentielle, et peut être menée optionnellement, par exemple si le masque estimé pour le filtrage à l’étape S7 s’avère bruité au-delà d’un seuil choisi.

Pour limiter le bruit du masque, on applique une fonction de lissage , à l’étape S8. L’application de cette fonction de lissage peut revenir à estimer une moyenne locale, en chaque point temps-fréquence, par exemple comme suit:

, où définit un voisinage du point temps-fréquence considéré .

On peut alternativement choisir une moyenne pondérée par un noyau Gaussien par exemple, ou encore un opérateur de médiane qui est plus robuste aux valeurs aberrantes.

Cette fonction de lissage peut être appliquée, soit aux observations , soit au filtre , comme suit :

Pour améliorer l’estimation, on peut appliquer une première étape de saturation, qui permet de garantir que le masque soit bien dans l’intervalle :

En effet, le procédé précédent mène parfois à une sous-estimation des masques. Il peut être intéressant de “redresser” les estimations précédentes par l’application d’une fonction de saturation du type :

où est un seuil à régler selon le niveau souhaité.

Une autre façon d’estimer le masque à partir des observations brutes consiste, plutôt que d’opérer des opérations de moyennage, à adopter une approche probabiliste, en posant une variable aléatoire définie par :

, où :
- correspond au signal rehaussé (i.e filtré par un filtre de rehaussement MPDR ou DS),
- correspond à un canal particulier du mélange et
- correspond au masque de la source utile estimé précédemment : ce peut être ou les différentes variantes de .

Ces variables peuvent être considérées comme dépendantes du temps et de la fréquence.

La variable suit une distribution normale, avec une moyenne nulle et une variance qui dépend de , comme suit :

où est l’opérateur variance.

On peut également admettre une distribution pour . Comme il s’agit d’un masque, avec des valeurs comprises entre 0 et 1, on pose que le masque suit une loi uniforme dans l’intervalle :

On peut définir une autre distribution favorisant la parcimonie du masque, comme une loi exponentielle par exemple, dans une variante.

À partir du modèle imposé pour les variables décrites, on peut calculer le masque en utilisant des estimateurs probabilistes. Ici on décrit l’estimateur du masque au sens du maximum de vraisemblance.

On suppose que l’on dispose d’un certain nombre d’observations du couple de variables . On peut sélectionner par exemple un ensemble d’observations en choisissant un pavé temps-fréquence autour du point où l’on estime :

La fonction de vraisemblance du masque s’écrit :

L’estimateur au sens du maximum de vraisemblance est donné directement par l’expression , avec :

, où et sont les variances des variables et .

Encore une fois, pour éviter les valeurs hors de l’intervalle [0,1], on peut appliquer une opération de saturation du type :

La procédure par approche probabiliste est moins bruitée que celle par moyennage local. Elle présente, au prix d’une complexité plus élevée du fait du calcul nécessaire des statistiques locales, une variance plus faible. Cela permet par exemple de correctement estimer les masques en l’absence de signal utile.

Le procédé peut se poursuivre à l’étape S9 par l’élaboration du second filtrage spatial à partir du masque de pondération donnant en particulier la matrice (ainsi que la matrice propre au bruit ) pour construire un second filtre par exemple de type MWF en estimant les matrices de covariance spatiale et propres à la source d’intérêt et au bruit, respectivement, et données par :
où :
- est un voisinage d’un point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien, et
- est l’expression du masque de pondération dans le domaine temps-fréquence.

Le filtrage spatial de type MWF est alors donné par :
, où .

Il convient de noter en variante que si le second filtrage retenu est de type MVDR, alors le second filtrage est donné par avec où et sont définis comme précédemment.

Une fois ce second filtrage spatial appliqué aux données acquises , on peut appliquer une transformée inverse (de l’espace temps-fréquence à l’espace direct) et obtenir à l’étape S10 un signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport au bruit ambiant (délivré typiquement par l’interface de sortie OUT du dispositif illustré sur la ).

Les présentes solutions techniques peuvent trouver à s’appliquer notamment dans le rehaussement de la parole par des filtres complexes par exemple de type MWF ([@laurelineLSTM], [@amelieUnet]), ce qui assure une bonne qualité auditive et un taux élevé de reconnaissance automatique de parole, sans besoin de réseau de neurones. L’approche peut être utilisées pour la détection de mots-clés ou "wake-up words" où même la transcription d’un signal de parole.

À toute fin utile, les éléments non-brevets suivants sont cités :

[@amelieUnet] : Amélie Bosca et al. “Dilated U-net based approach for multichannel speechenhancement from First-Order Ambisonics recordings”. In:Computer Speech& Language(2020), pp. 37–51

[@laurelineLSTM] : L. Perotin et al. “Multichannel speech separation with recurrent neuralnetworks from high-order Ambisonics recordings”. In:Proc. of ICASSP.ICASSP 2018 - IEEE International Conference on Acoustics, Speech andSignal Processing. 2018, pp. 36–40.

[@umbachChallenge] : Reinhold Heab-Umbach et al. “Far-Field Automatic Speech Recognition”. arXiv:2009.09395v1.

[@heymannNNmask] : J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” in Proc. of ICASSP, 2016, pp. 196–200.

[@janssonUnetSinger] : A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar, and T. Weyde, “Singing voice separation with deep U-net convolutional networks,” in Proc. of Int. Soc. for Music Inf. Retrieval, 2017, pp. 745–751.

[@stollerWaveUnet] : D. Stoller, S. Ewert, and S. Dixon, “Wave-U-Net: a multi-scale neural network for end-to-end audio source separation,” in Proc. of Int. Soc. for Music Inf. Retrieval, 2018, pp. 334–340.

[@gannotResume] : Sharon Gannot et al. “A Consolidated Perspective on Multimicrophone Speech Enhancement and Source Separation”. In:IEEE/ACM Transac-tions on Audio, Speech, and Language Processing25.4 (Apr. 2017), pp. 692–730.issn: 2329-9304.doi:10.1109/TASLP.2016.2647702.

[@diBiaseSRPPhat] : J. Dibiase, H. Silverman, and M. Brandstein, “Robust localization in reverberant rooms,” in Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001, pp. 157–180.

Claims

Procédé de traitement de données sonores acquises par une pluralité de microphones (MIC), dans lequel :
- à partir des signaux acquis par la pluralité de microphones, on détermine une direction d’arrivée d’un son issu d’au moins une source acoustique d’intérêt,
- on applique aux données sonores un filtrage spatial fonction de la direction d’arrivée du son,
- on estime dans le domaine temps-fréquence des ratios d’une grandeur représentative d’une amplitude de signal, entre les données sonores filtrées d’une part et les données sonores acquises d’autre part,
- en fonction des ratios estimés, on élabore un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises en vue de construire un signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant.
Procédé selon l'une des revendications précédentes, dans lequel le filtrage spatial est de type « Delay and Sum ».
Procédé selon la revendication 1, dans lequel le filtrage spatial est appliqué dans le domaine temps-fréquence et est de type MPDR, pour « Minimum Power Distortionless Response ».
Procédé selon la revendication 3, dans lequel le filtrage spatial de type MPDR, noté , est donné par , où représente un vecteur définissant la direction d’arrivée du son, et est une matrice de covariance spatiale estimée en chaque point temps-fréquence par une relation de type :
où :
- est un voisinage du point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien.
Procédé selon l’une des revendications précédentes, dans lequel le masque de pondération élaboré est en outre affiné par lissage en chaque point temps-fréquence en appliquant un opérateur statistique local, calculé sur un voisinage temps-fréquence du point temps-fréquence (t,f) considéré.
Procédé selon l’une des revendications 1 à 4, dans lequel le masque de pondération élaboré est en outre affiné par lissage en chaque point temps-fréquence, et dans lequel on applique une approche probabiliste comportant :
- considérer le masque de pondération comme une variable aléatoire,
- définir un estimateur probabiliste d’un modèle de la variable aléatoire,
- chercher un optimum de l’estimateur probabiliste pour améliorer le masque de pondération.
Procédé selon la revendication 6, dans lequel le masque est considéré comme une variable aléatoire uniforme dans un intervalle [0,1].
Procédé selon l’une des revendications 6 et 7, dans lequel l’estimateur probabiliste du masque est représentatif d’un maximum de vraisemblance, sur une pluralité d’observations d’un couple de variables , représentant respectivement :
- un signal acoustique issu de l’application du masque de pondération aux données sonores acquises, et
- les données sonores acquises ,
lesdites observations étant choisies dans un voisinage du point temps-fréquence considéré.
Procédé selon les revendications précédentes, dans lequel la construction du signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant, comporte l’application d’un second filtrage spatial, obtenu à partir du masque de pondération élaboré.
Procédé selon la revendication 9, dans lequel le second filtrage spatial est de type MVDR pour « Minimum Variance Distorsionless Response », et on estime au moins une matrice de covariance spatiale du bruit ambiant, le filtrage spatial de type MVDR étant donné par , avec :
où :
- est un voisinage d’un point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien, et
- est l’expression du masque de pondération dans le domaine temps-fréquence.
Procédé selon la revendication 9, dans lequel le second filtrage spatial est de type MWF pour « Multichannel Wiener Filter », et on estime des matrices de covariance spatiale et , respectivement du signal acoustique représentant le son issu de la source d’intérêt, et du bruit ambiant, le filtrage spatial de type MWF étant donné par , où , avec :
où :
- est un voisinage d’un point temps-fréquence ,
- est l’opérateur « cardinal »,
- est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et son conjugué hermitien, et
- est l’expression du masque de pondération dans le domaine temps-fréquence.
Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications précédentes lorsque ce programme est exécuté par un processeur.
Dispositif comportant au moins une interface de réception (IN) de données sonores acquises par une pluralité de microphones (MIC) et un circuit de traitement (PROC, MEM) configuré pour :
- à partir des signaux acquis par la pluralité de microphones, déterminer une direction d’arrivée d’un son issu d’au moins une source acoustique d’intérêt,
- appliquer aux données sonores un filtrage spatial fonction de la direction d’arrivée du son,
- estimer dans le domaine temps-fréquence des ratios d’une grandeur représentative d’une amplitude de signal, entre les données sonores filtrées d’une part et les données sonores acquises d’autre part, et
- en fonction des ratios estimés, élaborer un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises en vue de construire un signal acoustique représentant le son issu de la source d’intérêt et rehaussé par rapport à du bruit ambiant.