FR3142639A1 - Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication - Google Patents

Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication Download PDF

Info

Publication number
FR3142639A1
FR3142639A1 FR2212450A FR2212450A FR3142639A1 FR 3142639 A1 FR3142639 A1 FR 3142639A1 FR 2212450 A FR2212450 A FR 2212450A FR 2212450 A FR2212450 A FR 2212450A FR 3142639 A1 FR3142639 A1 FR 3142639A1
Authority
FR
France
Prior art keywords
signal
coefficients
voice
filter
mod
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2212450A
Other languages
English (en)
Inventor
Jonas GUERCHE
Gabriel GUERCHE
Denis EFIMOV
Rosane USHIROBIRA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
52 Hertz
Original Assignee
52 Hertz
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 52 Hertz filed Critical 52 Hertz
Priority to FR2212450A priority Critical patent/FR3142639A1/fr
Priority to PCT/EP2023/083395 priority patent/WO2024115504A1/fr
Publication of FR3142639A1 publication Critical patent/FR3142639A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • G10L2021/03643Diver speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PROCEDE DE CARACTERISATION D’UN FILTRE POUR LE TRAITEMENT D’UNE VOIX D’UN INDIVIDU, DISPOSITIF DE COMMUNICATION Procédé de caractérisation d’un filtre (F1) pour le traitement d’une voix d’un sujet donné, ladite voix étant acquise par un micro agencé dans un embout buccal, ledit procédé comportant : Acquisition d’un premier signal correspondant à une voix d’un sujet déformée ;Acquisition d’un second signal correspondant à une voix d’un sujet non déformé ;Echantillonnage du premier signal ;Estimation de valeurs moyennes de l’amplitude du premier signal ;Estimation de valeurs de vitesse du signal à partir d’une méthode du différenciateur homogène en temps-fini;Calcul d’un premier ensemble de coefficients ;Calcul d’une erreur entre un ensemble d’échantillons du second signal et les échantillons obtenus en sortie du premier modèle,Itération(s) du calcul des coefficients du premier modèle. Figure pour l’abrégé : Fig. 1

Description

PROCEDE DE CARACTERISATION D’UN FILTRE POUR LE TRAITEMENT D’UNE VOIX D’UN INDIVIDU, DISPOSITIF DE COMMUNICATION Domaine de l’invention
L’invention concerne un procédé pour traiter et corriger un flux audio altéré provenant d’un individu ayant par exemple en bouche un embout buccal lui permettant de respirer sous l’eau et comportant un micro. Le domaine de l’invention se rapporte aux procédés mis en œuvre par un ordinateur embarqué dans un équipement électronique pour être exécuté en temps réel, sans connexon extérieure et configurés pour rendre plus intelligible un flux audio déformé par la présence d’un élément maintenu en bouche.
État de la technique
On connait le document US2012/0213034 décrivant un embout buccal de détendeur à mettre dans la bouche et comprenant un microphone ainsi qu’un écouteur à conduction osseuse faisant vibrer un plateau de conduction acoustique pour faire passer le signal par les dents de l’utilisateur.
Un défaut est que le signal capté est peu intelligible du fait de la partie labiale de l’embout buccal empêchant l’utilisateur de bouger les lèvres de manière suffisante. Il existe un besoin de reconstruire un son intelligible à partir d’un procédé de traitement de la voix.
Un premier problème est que le flux audio dépend beaucoup de l’individu qui prononce les phrases qui sont déformées par la présence de l’embout. Un second problème est que certains algorithmes demandent des temps de calculs importants qui ne permettent pas d’obtenir un traitement en temps réel de la voix d’un individu, sur un système embarqué, rendant ainsi difficile la communication entre deux individus au moyen de ce type d’équipement. Tout au plus il est possible de récupérer la voix d’un nageur et de la traiter en différé.
L’invention propose un procédé mis en œuvre par ordinateur, notamment un ordinateur embarqué, tel qu’une unité de commande électronique, appelé MCU, un microprocesseur, un microcontrôleur ou un FPGA. Le procédé de l’invention permet la reconstruction et/ou la correction de certaines syllabes par un traitement en temps réel du flux audio acquis par un microphone situé au voisinage de la bouche d’un plongeur. Le procédé de l’invention permet notamment de transmettre ou de traiter en réception le flux audio afin qu’un autre plongeur puisse écouter de manière intelligible le flux audio émis par un premier plongeur.
Selon un premier aspect l’invention concerne un procédé de caractérisation d’un filtre pour le traitement d’une voix d’un sujet donné, ladite voix étant acquise par un micro agencé dans un dispositif d’aide à la respiration sous-marine destiné à être porté à proximité de la bouche d’un sujet, ledit procédé comportant :
  • Acquisition d’au moins un premier signal correspondant à la prononciation d’un premier ensemble de phonèmes par ledit sujet donné ; ledit premier signal correspondant à une voix d’un sujet acquise par le micro du dispositif d’aide à la respiration sous-marine lorsque ce dernier est porté par ledit sujet ;
  • Acquisition d’au moins un second signal correspondant à la prononciation du premier ensemble de phonèmes par ledit sujet ; ledit second signal correspondant à une voix d’un sujet acquise par un micro sans que le sujet porte un dispositif d’aide à la respiration sous-marine ;
  • Pour le premier signal, exécution des étapes suivantes :
    • Echantillonnage du premier signal ;
    • Estimation d’un premier ensemble de valeurs moyennes de l’amplitude du premier signal sur une pluralité de premières fenêtres prédéfinies, chaque première fenêtre comportant une pluralité d’échantillons du premier signal ;
    • Estimation d’un second ensemble de valeurs de vitesse du signal à partir d’une méthode du différenciateur homogène en temps-fini sur la pluralité de premières fenêtres prédéfinies ;
    • Calcul d’un premier ensemble de coefficients d’un système d’équations différentielles représentant un premier modèle dont les solutions sont le premier et le second ensemble de valeurs ;
  • Calcul d’une erreur entre au moins un ensemble d’échantillons du second signal et les échantillons obtenus en sortie du premier modèle exécuté avec des valeurs du premier signal et les coefficients estimés,
  • Itération(s) du calcul des coefficients du premier modèle en minimisant à chaque itération ladite erreur calculée, le nombre d’itérations étant configuré pour minimiser l’erreur en dessous d’un seuil prédéfini de manière à définir des coefficients d’exploitation, lesdits coefficients d’exploitation définissant les coefficients du filtre.
Un avantage est de permettre une caractérisation d’un filtre audio afin de reconstruire ensuite un son intelligible lorsqu’une voix est déformé par un embout buccal. Un avantage de la méthode de l’invention est de proposer un algorithme peu gourmand en puissance de calcul et en mémoire pour être implémenté sur un calculateur embarqué. Un autre avantage est de permettre un encodage en lignes de code simple et comportant un minimum de lignes de codes. Un autre avantage est de permettre un algorithme adaptatif à l’utilisateur et à son environnement.
Selon un mode de réalisation, le procédé de caractérisation comprend une étape de filtrage du premier signal réalisée préalablement à l’échantillonnage.
Un avantage est de permettre une caractérisation d’un filtre audio s’affranchissant des bruits, c’est-à-dire une caractérisation de la déformation induite de la voix du fait de l’équipement présent en bouche.
Selon un mode de réalisation, l’échantillonnage du premier signal comprend les étapes suivantes :
  • Analyse de la densité spectrale du signal afin de déterminer des seuils caractéristiques d’amplitude ou de puissance ;
  • Sélection d’un ensemble de fréquences caractéristiques pour lesquelles les seuils sont dépassés ;
  • Echantillonnage de segments du premier signal autour de chaque fréquence caractéristique ;
  • Génération d’un ensemble d’échantillons pour le traitement du premier signal.
Un avantage est de focaliser les temps de calculs sur les zones d’intérêts de la voix, c’est à dire les fréquences caractéristiques de la voix d’un individu, notamment celle qui un maximum de signal utile.
Selon un mode de réalisation, l’échantillonnage produit entre 400 et 96000 échantillons pendant une 1 seconde.
Un intérêt est de permettre différents modes de fonctionnement selon si on souhaite privilégier le temps de calcul ou la qualité du signal.
Un échantillonnage à 4000 échantillons par seconde permet notamment de garder un spectre de la voix entre 300 Hz et 1300 Hz et réduire la puissance de calcul.
Selon un mode de réalisation, le procédé est répété pour une pluralité d’acquisitions de premiers signaux, chaque premier signal acquis correspondant à la prononciation d’un nouvel ensemble de phonèmes par le même sujet, le calcul de l’erreur et sa minimisation étant réalisés pour chaque nouveau premier signal acquis.
Un avantage est de réaliser le procédé de l’invention pour quelques phonèmes, c’est-à-dire quelques phrases pour permettre de caractériser un filtre rapidement. Un avantage est de permettre un entrainement rapide de l’algorithme à partir de 3 ou 4 phrases prononcées par un individu. Ainsi, l’équipement peut être rapidement prêt, configuré et entrainé juste avant son utilisation, par exemple juste avant de réaliser une plongée.
Selon un mode de réalisation, le système d’équations différentielles est du premier ordre.
Un avantage est la simplification des calculs et donc le gain en temps de calcul.
Selon un mode de réalisation, le procédé de caractérisation comprend :
  • Estimation d’un troisième ensemble de valeurs d’accélération du signal à partir de la méthode du différenciateur homogène en temps-fini sur la pluralité de premières fenêtres prédéfinies ;
  • Calcul d’un premier ensemble de coefficients d’un système d’équations différentielles du premier ordre représentant un premier modèle dont les solutions sont le premier et le second ensemble de valeurs.
Un avantage est l’amélioration de la caractérisation du filtre permettant une meilleure reconstruction de la voie déformée d’un individu.
Selon un mode de réalisation, le procédé de caractérisation comprend :
  • Estimation d’un Nièmeensemble de valeurs d’une dérivée d’ordre N du signal à partir de la méthode du différenciateur homogène en temps-fini sur la pluralité de premières fenêtres prédéfinies ;
  • Calcul d’un premier ensemble de coefficients d’un système d’équations différentielles du Nièmeordre représentant un premier modèle dont les solutions sont le premier et le second ensemble de valeurs.
Un avantage est l’amélioration de la caractérisation du filtre permettant une meilleure reconstruction de la voie déformée d’un individu.
Selon un mode de réalisation, le premier modèle est un modèle linéaire et s’écrit :
  • ,
où G, F et H sont des matrices dont les coefficients sont à déterminer, la dimension de la matrice étant déterminée par l’ordre du système linéaire d’équations différentielles, y(t) est le signal qu’on cherche à identifier approchant le second signal, et x(t) est une variable d’état interne au premier modèle.
Selon un mode de réalisation, le premier modèle est un modèle non-linéaire et s’écrit :
où G, F et H sont des matrices dont les coefficients sont à déterminer, la dimension de la matrice étant déterminée par l’ordre du système d’équations différentielles, NN désigne un filtre non-linéaire, y(t) est le signal qu’on cherche à identifier approchant le second signal, et x(t) est une variable d’état interne au premier modèle,
  • le procédé comportant en outre, un calcul d’un ensemble de coefficients d’un réseau de neurones à partir d’une régression configurée pour minimiser l’erreur.
Selon un mode de réalisation, le calcul de l’étape de minimisation de l’erreur est réalisé à partir de la mise en œuvre d’un réseau de neurones dont les coefficients sont calculés par une régression pour minimiser l’erreur.
Un avantage est la simplicité et la rapidité de l’apprentissage.
Selon un mode de réalisation, à chaque itération une première condition est vérifiée, ladite première condition étant la vérification que l’erreur est inférieure à un seuil prédéfini et/ou qu’une seconde condition est vérifiée, ladite seconde condition étant la vérification qu’un nombre d’itérations prédéfini a été réalisé, le procédé comportant une étape de génération des coefficients du filtre dès qu’une des deux conditions est vérifiée.
Selon un autre aspect, l’invention concerne un produit programme d’ordinateur comportant une mémoire et un calculateur pour exécuter des instructions de codes mettant en œuvre le procédé de l’invention.
Un avantage est de permettre une caractérisation d’un filtre sur n’importe quel type d’équipement par exemple un téléphone intelligent, appelé Smartphone, ou encore tout autre équipement électronique mobile à partir duquel le filtre de caractérisation peut être élaboré puis transféré sur un équipement de plongée.
Selon un autre aspect, l’invention concerne un procédé de traitement d’une voix d’un sujet donné comprenant :
  • Acquisition d’un signal correspondant à une voix acquise par un micro agencé dans dispositif d’aide à la respiration sous-marine destiné à être porté dans la bouche d’un sujet, la voix acquise étant définie par un signal audio acquis en temps réel correspondant à une voix d’un sujet déformée par la présence de l’embout buccal en bouche ;
  • Application d’un premier modèle entrainé selon la méthode de caractérisation du filtre de l’invention, ladite application visant à obtenir un second signal de voix transformée à partir du premier signal de la voix déformée par un dispositif d’aide à la respiration sous-marine.
Un avantage est d’équiper en avance des équipements avec une pré-configuration du filtre et d’adapter l’entrainement avec la voix d’un individu donné.
Selon un autre aspect, l’invention concerne un dispositif de communication comprenant un embout buccal destiné à être porté dans la bouche d’un sujet comprenant :
  • un micro pour acquérir un signal acoustique provenant de la voix du sujet ;
une carte électronique comportant un filtre audio, un convertisseur analogique-numérique, un calculateur pour échantillonner le signal numérisé, une mémoire pour enregistrer les coefficients d’un filtre à appliquer au signal échantillonné et un calculateur permettant de générer un signal de sortie, lesdits coefficients enregistrés étant calculés à partir d’une méthode de l’invention.
Description de l’invention
L’invention se rapporte à un premier procédé mis en œuvre par ordinateur pour configurer un filtre de traitement et de correction d’un flux audio. Ce procédé est dénommé procédé de caractérisation d’un filtre pour le traitement d’une voix.
L’invention concerne également un second procédé mis en œuvre par ordinateur destiné à être embarqué et exécuté dans un équipement électronique pour communiquer notamment sous l’eau. Ce second procédé met en œuvre un filtre caractérisé par le premier procédé.
Ces deux procédés peuvent être exécutés l’un dans le prolongement de l’autre de manière successive ou de manière espacée dans le temps. Toutefois, on note que le premier procédé peut être exécuté au préalable du second procédé ou d’une alternative du second procédé. Néanmoins, il réalise le même objectif final de traiter le flux audio d’un plongeur ayant un embout buccal en bouche lorsqu’il s’exprime pour le rendre intelligible.
L’invention concerne également le dispositif de communication formant un élément d’un système de Talkie-Walkie sous-marin. Il s’agit d’un appareil de communication vocal entre plongeurs. Ce dispositif comporte généralement un embout contenant l’électronique nécessaire pour enregistrer et restituer le son. L’embout comporte une interface électronique telle qu’un câble lui permettant d’être relié à un boîtier. Une carte électronique agencée dans le boitier comprend des composants pour enregistrer les coefficients du filtre définissant sa caractérisation et pour réaliser les traitements de données et d’émission et de réception du signal audio.
Un intérêt de l’invention est de créer un appareil de communication vocale pour la plongée sous-marine en ne modifiant pas ou peu l’équipement du plongeur. Cette contrainte implique d’utiliser un embout de détendeur comme moyen de réception et d’émission du signal sonore audible. La voix étant modifiée par l’embout et son intelligibilité étant ainsi diminuée, l’invention permet de récupérer une partie de l’intelligibilité dégradée grâce au filtre qui a été caractérisé par le premier procédé.
Microphone
Selon un mode de réalisation, le micro peut être fixé sur une partie mécanique conduisant le flux d’air créé par la voix du plongeur, cette partie mécanique comprend au moins un canal ou une lumière s’étendant entre l’embout et le détendeur. Ainsi, selon différents modes de réalisation, le micro peut être fixé entre l’embout et le détendeur de manière à capter le flux audio prononcé par un plongeur. L’invention se rapporte à tous ces modes de réalisation.
Selon un autre exemple, le microphone peut être intégré dans un revêtement élastique peut être protégé par une paroi de protection agencée frontalement au capteur du microphone. La paroi de protection permet avantageusement de réduire les difficultés d’intégration du microphone dans le revêtement.
L’embout buccal 1 comprend préférentiellement une portion labiale 42. La portion labiale 42 est destinée à être recouverte par les lèvres de l’utilisateur pendant utilisation. Ladite portion labiale 42 comprend une lumière ou des lumières permettant le passage de l’air de part et d’autre de la portion labiale. Avantageusement, cette lumière ou ces lumières permet(tent) le passage de l’air depuis le canal du détendeur vers la bouche du sujet pendant utilisation. La portion labiale 42 permet de créer avec les lèvres de l’utilisateur une fermeture étanche entre l’environnement extérieur et la ou les lumière(s) de passage d’air.
La portion labiale 42 s’étend entre une zone de respiration comprenant les plateaux de conduction acoustique 20 et un moyen de connexion 43. Le moyen de connexion 43 permet avantageusement de faire coopérer l’embout avec un détendeur de plongée. Selon un mode de réalisation, le moyen de connexion 43 est de forme tubulaire dont les parois sont rigides ou souples.
Procédé de caractérisation / procédé de traitement
Les figures 1 et 2 se rapportent plus particulièrement aux étapes d’un procédé de traitement d’un flux audio PROC1mettant en œuvre un filtre caractérisé par un procédé de caractérisation du filtre selon l’invention.
Le flux audio traité par le procédé de traitement PROC1est noté SA(t). Ce flux audio est acquis et filtré grâce au filtre F1caractérisé par un premier procédé de caractérisation du filtre CARAC1. L’application du filtre F1permet de reconstruire une partie de l’intelligibilité perdue par la présence de l’embout EM1en bouche d’un individu.
L’invention concerne donc un procédé noté PROC1sur la qui consiste à appliquer APP1le filtre F1à une entrée acquise ACQ0d’un flux audio correspondant à la voix d’un individu, le filtre F1étant caractérisé par un premier procédé noté CARAC1qui est décrit ci-après grâce aux figures 3 et 4.
Les figures 3 et 4 se rapportent donc plus particulièrement aux étapes d’un procédé de caractérisation CARAC1d’un filtre à partir de quelques séquences prononcées par un utilisateur ayant un embout en bouche et les mêmes séquences prononcés sans embout en bouche. Le filtre étant ensuite utilisé pour l’équipement du plongeur.
Les flux audio traités par le procédé de caractérisation CARAC1d’un filtre F1sont notés S1(t) et S2(t).
Le procédé CARAC1comporte un apprentissage d’une fonction caractérisant le filtre afin d’être adapté pour corriger la déformation induite par la présence d’un embout en bouche et pour prendre en compte un type de voix, sa nature, sa tessiture, son timbre, etc.
La représente notamment le passage du flux audio et son en codage au sein de différents composants. A cet effet, la représente l’embout buccal EM1, noté également 1 sur la , d’un dispositif de communication sous-marine. Il peut comprendre une portion à maintenir en bouche par exemple formé par deux plateaux de conductions acoustiques 20. L’embout 1 comprend préférentiellement une portion labiale 42 et une connexion 43 avec par exemple un détendeur (non représenté). Des ouvertures 61 et 62 sont préférentiellement ménagées pour le passage de l’air entre la bouche et le détendeur. Un microphone MIC (non représenté sur la ) permet d’acquérir les sons produits par un individu parlant dans l’embout buccal 1 avant de transmettre le signal à un convertisseur analogique numérique CAN1. L’invention se rapporte à toute autre architecture mécanique d’un embout buccal 1 destiné à être raccordé à un détendeur. Notamment, le dispositif de l’invention peut comprendre différentes variantes, notamment sur le nombre de canaux envisagés, sur la présence ou non de plateaux de conductions acoustiques, leur disposition et leur matériau.
Dans l’exemple de la , un élément vibrant 3 peut être utilisé pour retranscrire l’audio émis par un autre individu et ainsi permettre une écoute par conduction osseuse. Un autre système pourrait toutefois être utilisé afin de retranscrire la voix et son intelligibilité qui a été traitée par le procédé de l’invention.
Phonèmes pour l’apprentissage
La décrit deux branches d’un procédé. La première branche comprend une étape ACQ1d’acquisition d’un flux audio entrant S1(t) comportant un premier ensemble de phonèmes déformé par l’embout buccal 1. La seconde branche comporte l’acquisition d’un flux audio entrant S2(t) comportant le même ensemble de phonèmes définissant un second flux audio non déformé par la présence d’un embout buccal 1. Préférentiellement, les phonèmes sont les mêmes et sont préférentiellement acquis par le même utilisateur. En effet, afin de permettre un apprentissage et une définition des coefficients du filtre optimal, il est nécessaire d’isoler au maximum l’influence de la déformation liée à la présence de l’embout 1 en bouche. Ainsi, l’invention est particulièrement pertinente dans le cas où les deux séquences de phonèmes sont sensiblement les mêmes. L’apprentissage sera également d’autant plus performant lorsqu’un même individu prononcera les deux flux audio S1(t) et S2(t)
Les phonèmes peuvent par exemple correspondre à quelques phrases à prononcer avec et sans embout buccal 1. L’invention propose ainsi un mode de réalisation dans lequel un individu prononce deux mêmes groupes de phrases avec et sans embout.
Les phonèmes peuvent correspondre à un groupement de lettres, de syllabes ou de phrases. Les deux groupes comprennent préférentiellement un même groupe de phonèmes et un même ordonnancement de ces phonèmes au sein de la séquence prononcé par un individu, avec et sans appareil.
On comprend qu’un apprentissage d’un algorithme se basant sur quelques phrases prononcées, par exemple entre 1 et 10 phrases permet un apprentissage rapide pour l’utilisateur.
L'enregistrement du flux audio réalisé avec l’embout buccal est traité notamment par un différenciateur. L’enregistrement du flux audio réalisé sans l’embout buccal est utilisé comme la sortie souhaitée lors de la création du filtre.
Un différentiateur de l’invention peut comprendre un ensemble de composants pour effectuer les opérations mathématiques de différenciation, c'est-à-dire fournissant une sortie proportionnelle à la dérivée de l'entrée par rapport à une ou plusieurs variables.
Selon une première variante, l’invention permet de considérer dans l’algorithme l’ensemble des phrases prononcées comprenant une pluralité de lettres, syllabes ou phrases. Dans ce cas, elles sont toutes traitées ensemble.
Selon une seconde variante, l’invention permet de considérer chaque phrase dans l’algorithme de manière séquentielle et indépendante les unes des autres. Dans ce cas, chaque phrase prononcée comprend une pluralité de lettres, syllabes et chaque phrase est traitée indépendamment des autres.
Les phrases peuvent être définies de manière à obtenir une répartition de syllabes les plus représentatives du langage pouvant être utilisé dans un environnement sous-marin et dans une langue donnée.
Selon un exemple de réalisation, les phrases sélectionnées pour l’apprentissage et la caractérisation du filtre F1comprennent un échantillon représentatif des différentes labiales, notamment des syllabes comprenant les lettres suivantes : B, P, M, F, V.
Selon un mode de réalisation, les phrases peuvent être affichées sur un afficheur de l’équipement de plongée de sorte que ce dernier les lise. Selon un autre exemple, les phrases sont affichées sur un afficheur d’un terminal électronique tel que celui d’un Smartphone au moyen d’une application permettant de sélectionner une langue. Ainsi, on comprend que le procédé de caractérisation CARAC1peut être effectué selon les modes de réalisation directement sur l’équipement de plongée ou sur un Smartphone. Lorsque le filtre est ainsi caractérisé à partir d’un Smartphone, différentes possibilités peuvent être mises en œuvre pour transférer le filtre caractérisé sur une mémoire d’une carte électronique disposée sur l’équipement de plongée, telle que l’embout buccal.
Selon un mode de réalisation, l’affichage des phrases comprend un curseur permettant d’indiquer une vitesse de lecture. L’affichage peut comprendre des indications graphiques permettant d’indiquer à un utilisateur une séquence de lecture avec ou sans embout en bouche afin d’acquérir les deux ensembles de phrases.
Ressources de calculs du filtre F1
Afin de réaliser cette étape préliminaire, selon un premier mode de réalisation, un utilisateur peut utiliser un terminal électronique tel qu’un Smartphone, c’est-à-dire un téléphone intelligent ou tout autre disposition comportant un micro. Les deux séquences de phrases prononcées peuvent être enregistrées grâce au microphone du terminal électronique et être émises à un serveur distant pour réaliser le procédé de l’invention. Selon ce mode, le procédé est réalisé à distance et peut profiter de ressources de calculs importantes.
Notamment, selon un mode préféré, les caractéristiques du filtre peuvent être calculées par un serveur distant disposant de ressources de calculs importantes sans contraintes matérielles liées à un équipement mobile en particulier. A cet effet, le signal de la voix émise par un utilisateur peut être acquis par un dispositif électronique mobile, tel qu’un Smartphone, autrement appelé téléphone intelligent, et être transmis à un serveur distant. Le filtre calculé par le serveur distant peut dans un second temps être réémis vers le Smartphone ou l’équipement électronique embarqué de plongée.
Selon un second mode de réalisation, un utilisateur peut utiliser l’équipement de plongée comportant un module électronique comportant un calculateur et une mémoire. Dans ce cas de figure, l’apprentissage est réalisé à partir de ressources moins importantes qu’un serveur. L’algorithme est alors optimisé pour être exécuté dans un environnement contraint. Un avantage est de n’avoir pas besoin de connexion réseau, ce cas peut se révéler intéressant dans un environnement de plongée en mer par exemple lorsqu’on se situe sur un bateau loin des côtes. Un autre avantage est d’utiliser le micro de l’équipement de plongée. Ainsi, l’apprentissage sera d’autant plus efficace qu’il s’affranchira des écarts liés aux différences de matériels entre l’équipement servant pour l’apprentissage et celui utilisé pour l’exploitation du filtre caractérisé.
Selon un troisième mode de réalisation hybride, le filtre peut être calculé sur un terminal électronique de type Smartphone à partir d’une application téléchargée permettant d’exploiter les ressources de calculs du terminal électronique. Un intérêt est de réaliser le filtre avec un peu plus de ressources que le cas d’une carte électronique embarquée dans l’équipement de plongée tout en permettant de réaliser l’opération localement, c’est-à-dire sans mise en œuvre d’un serveur distant.
Lorsque l’opération est réalisée par un terminal électronique de type Smartphone, il peut être prévu une liaison sans fil permettant le chargement du filtre F1calculé par une autre ressource que celle de l’équipement de plongée pour qu’il soit enregistré dans une mémoire ou une ressource dudit équipement de plongée.
Mode d’acquisition du signal audio
Le signal issu du micro avec l’embout buccal agencé dans la bouche d’un individu est dénommé le premier signal S1, le signal acquis par un micro sans que l’embout buccal soit agencé dans la bouche d’un individu est dénommé le second signal S2. Ces signaux S1et S2sont acquis dans l’objectif de caractériser un filtre audio.
Préférentiellement, un même et unique micro est utilisé pour acquérir les deux signaux S1et S2. Ce mode de réalisation permet de s’affranchir des caractéristiques intrinsèques du micro et de l’influence de ce dernier sur le signal acquis. Selon un mode de réalisation, ce micro est le micro de l’équipement de plongé, par exemple celui agencé dans la partir de l’embout distal situé entre la partie destinée à être positionnée en bouche et le détendeur. Selon un autre mode de réalisation, le micro est le micro d’un terminal électronique tel que celui d’un téléphone mobile de type Smartphone. Dans ce dernier cas, un individu positionne l’embout buccal 1 en bouche et dit les quelques phrases à proximité du micro du terminal électronique pour entrainer l’algorithme exécuté par ce dernier. Selon un mode de réalisation, un filtre correctif connu peut être utilisé afin de corriger le signal acquis par le Smartphone.
D’autres modes de réalisation peuvent être mis en œuvre, notamment des modes impliquant l’utilisation des signaux acquis par des différents micros.
Selon un mode de réalisation, les deux signaux S1et S2encodés numériquement après leur conversion dans un convertisseur analogique – numérique, appelée CAN. La conversion et l’encodage comprennent avantageusement un échantillonnage de chaque signal.
De la même manière lors de l’acquisition du signal dans le procédé de traitement utilisant un filtre caractérisé, une étape de conversion analogique - numérique est mise en œuvre et un échantillonnage est opéré du signal audio acquis.
Selon un mode de réalisation, le premier signal S1correspondant aux phrases prononcées avec l’embout buccal en bouche sont échantillonnés selon un premier échantillonnage ECH1. Les échantillonnages des signaux mis en œuvre dans le procédé de caractérisation CARAC1du filtre F1et dans le procédé de traitement PROC1peuvent être identiques, c’est-à-dire que la fréquence d’échantillonnage, les mesures réalisées sur les échantillons par regroupement de ces derniers en considérant des fenêtres temporelles sont configurés identiquement. Toutefois, l’invention pourrait mettre en œuvre un échantillonnage propre à la caractérisation du filtre F1et un échantillonnage propre au procédé de traitement du flux audio prononcé par un plongeur. Typiquement, dans ce mode de réalisation, les fréquences d’échantillonnage pourraient être différentes. Un intérêt est de consommer moins d’information lors des étapes de traitement lors d’une plongée dans laquelle on souhaite conserver le plus longtemps possible la liaison de communication alors que dans la phase d’apprentissage et de caractérisation du filtre F1, un échantillonnage plus fin, c’est-à-dire permettant d’obtenir plus d’échantillons permet d’obtenir un filtre F1plus performant.
Selon un exemple de réalisation, un échantillonnage aboutissant à l’enregistrement de valeurs numériques est configuré pour une valeur haute à 96000 échantillons par seconde. Toutefois, un nombre d’échantillon plus faible peut permettre d’obtenir de très bons résultats également avec une valeur comprise entre 4000 et 8000 échantillons par seconde.
Lors de l’acquisition du signal audio, un nombre d’échantillons glissants est conservé en mémoire pendant des cycles de calculs en temps réels des valeurs moyennes. Un nombre d’échantillons compris entre 200 et 400 échantillons est conservés à chaque cycle de calculs en temps réel.
Filtre passe-bande ou passe-bas additionnel
Selon un exemple de réalisation, un filtrage préalable peut être réalisé avant l’échantillonnage. Ce dernier filtrage a pour objectif d’éliminer un bruit ou de restreindre la bande d’analyse du signal.
Selon un exemple, l’invention comprend la mise en œuvre d’un filtre passe-bas dont la fréquence de coupure dépend de la fréquence d'échantillonnage. Selon un exemple de réalisation, un filtre adapté permet de filtrer l’effet produit par les bulles lors de la respiration ou lors d’émission d’un son par la bouche d’un plongeur. La fréquence spécifique peut être filtré de manière à améliorer l’intelligibilité en amont de la construction du filtre caractéristique F1.
Sélection d’échantillons
Selon un exemple de réalisation, afin de diminuer le temps de calcul, une sélection d’échantillons est choisie. A cette fin, la sélection d’un ensemble d’échantillons revient à choisir un ensemble de fenêtres temporelles Tf1comportant chacune un sous ensemble d’échantillons à partir desquels les valeurs moyennes seront calculées.
Afin de sélectionner les meilleurs échantillons ou les meilleurs groupes d’échantillons pour définir un filtre caractéristique F1performant, une étape de calcul de fréquences caractéristiques du spectre du signal acquis peut être réalisée. Un intérêt est de sélectionner quelques fréquences comportant soit les plus grandes intensités de signaux ou les fréquences ayant la grande densité spectrale, par exemple en considérant la puissance spectrale du signal acquis. Ces fréquences sélectionnées permettent de sélectionner un intervalle autour de la fréquence pour retenir des échantillons caractéristiques du flux audio.
Cette méthode permet un gain de temps et de calculs et permet donc d’embarquer le procédé de l’invention dans un composant électronique sur lequel l’apprentissage peut être réalisé pour définir le filtre caractéristique F1rapidement.
Selon un exemple entre 5 et 20 fréquences caractéristiques peuvent être configurés pour déterminer entre 5 et 20 intervalles autour de chaque fréquence permettant de définir entre 5 et 20 fenêtres temporelles d’échantillons.
Vitesse et accélération des sons prononcés
La représente une sortie S1(t) correspondant au flux audio acquis avec un embout et une sortie S2(t) correspondant au flux audio acquis sans embout. On rappelle que les phrases constituées de phonèmes dans chaque signal S1(t) et S2(t) sont identiques dans cet exemple. On remarque sur le graphique de la que la durée du flux audio S1(t) est plus longue que la durée du flux audio S2(t) du fait que la vitesse d’élocution est ralentie par la présence de l’embout en bouche.
Le procédé de l’invention permet de prendre en compte dans le modèle utilisé la déformation du son induite par la vitesse d’élocution et donc du son du flux audio qui est enregistrée et filtré.
Un intérêt de l’invention est de prendre en considération dans la caractérisation du filtre les artefacts du signal liés à la déformation du signal induite par le changement de vitesse et de l’accélération du son prononcé par un plongeur.
Estimation des grandeurs moyennes
Le procédé de l’invention s’appuie sur la mise en œuvre d’une méthode reposant sur la théorie de l’homogénéité par la définition d’un différentiateur homogène. Cette méthode permet de réaliser une estimation en temps fini de signaux bruités. Un avantage de la méthode de l’invention est que les algorithmes mis en œuvre sont simples, particulièrement rapides et de nature non asymptotique contrairement aux méthodes traditionnelles.
Cette méthode permet l’estimation des dérivées du signal selon l’ordre choisi en considérant l’ensemble des données échantillonnées. Afin de lisser les estimations et de réduire les artefacts liés à des erreurs d’acquisitions ou du signal bruité, des valeurs moyennes sont calculées afin de rendre le procédé de l’invention plus robuste.
Le procédé permet d’estimer EST1un premier ensemble de valeurs d’une donnée relative au signal acquis sur des fenêtres de temps prédéfinies Tf1, chaque première fenêtre Tf1comportant un nombre donné d’échantillons du signal.
Ainsi, selon un exemple, la grandeur physique relative au signal acquis est l’amplitude du signal. Selon un mode de réalisation, le procédé permet d’estimer les valeurs moyennes de l’amplitude du signal prise sur un ensemble d’échantillon d’une fenêtre temporelle donnée.
D’autres grandeurs physiques peuvent être utilisées ou traitées selon le procédé de l’invention, toutefois le mode de réalisation si après détaillé est relatif autre traitement des valeurs moyennes des amplitudes du signal acquis.
Le procédé prend en considération une valeur liée à la dynamique du signal : sa vitesse. A cet effet, le procédé de l’invention permet d’estimer EST2un second ensemble de grandeurs physiques relatif à la dynamique du signal. Selon un exemple, les valeurs de vitesse du premier signal S1sont estimées. La vitesse correspond à la rapidité avec laquelle les phrases sont prononcées. Afin de calculer la vitesse du premier signal S1, une méthode dite du différenciateur homogène en temps fini DHT est mise en œuvre. Le différenciateur est appliqué sur une pluralité de premières fenêtres temporelles prédéfinies comportant chacune un ensemble d’échantillons.
Selon un exemple amélioré, le procédé prend en considération une autre valeur liée à la dynamique du signal : son accélération. A cet effet, le procédé de l’invention permet d’estimer EST3un troisième ensemble de grandeurs physiques relatif à la dynamique du signal. Selon un exemple, les valeurs d’accélération du premier signal S1sont estimées. L’accélération correspond aux variations de la vitesse avec laquelle les phrases sont prononcées. Afin de calculer l’accélération du premier signal S1, une méthode équivalente dite du différenciateur homogène en temps fini DHT est mise en œuvre également. Le différenciateur est appliqué sur une pluralité de premières fenêtres temporelles prédéfinies comportant chacune un ensemble d’échantillons. Les échantillons sont préférentiellement les mêmes que ceux considérés pour estimer les vitesses.
De la même manière, lors du procédé de traitement PROC1, les valeurs des dérivées et accélérations du signal en entrée SA(t) qui est issue d’un signal correspondant à un flux audio d’un plongeur acquis avec un embout en bouche peuvent être calculées. Un intérêt est de générer le flux de sortie SB(t) à partir du filtre F1caractérisé par le procédé de caractérisation CARAC1obtenu dans la phase d’apprentissage.
Modélisation du système dynamique
Le procédé de l’invention permet de définir un modèle basé sur la modélisation des systèmes dynamiques et de résoudre le problème posé par l’obtention d’une solution approchée en optimisant les calculs par itération en minimisant une erreur. L’erreur peut être définie par la connaissance de l’entrée du système et la sortie du système. Une problématique résolue par l’invention est de définir un modèle qui converge suffisamment rapidement pour définir un filtre F1opérationnel et performant permettant de reconstruire par la suite le flux audio déformé par la présence de l’embout.
Le signal S2(t) désigne la voix normale en entrée qui n’a pas subi de déformation, et peut définir la sortie souhaitée du modèle. Le modèle de déformation de la voix du fait de la présence de l’embout peut être représenté par cette égalité .
Un intérêt de la modélisation par un système dynamique est d’introduire un opérateur de différentiation par rapport à la variable temps t.- Dans une telle modélisation, on peut écrire , où p est l’opérateur de différentiation par rapport à la variable temps, p = d/dt.
Le signal S2(t) défini la sortie du système dynamique dans la phase d’apprentissage du modèle. Il convient donc de définir le problème inverse consistant à trouver S2(t) à partir de S1(t).
Le problème inverse revient à calculer la fonction inverse W-1qui représente un modèle apprenant qu’on cherche à optimiser afin de calculer le signal SB(t) représenté sur la correspondant au flux audio corrigé lorsque le signal S2(t) connu ne sera plus disponible. Les premières séquences audio S2(t) permettent donc de réaliser un entrainement du modèle afin de paramétrer un filtre F1audio entrainé, c’est-à-dire dont les coefficients ont été produits par un algorithme comportant une opération de régression ou d’itération visant à minimiser une erreur.
Les coefficients ainsi produits sont les coefficients d’exploitation permettant de définir un filtre F1 opérationnel.
L’invention permet donc de générer un « modèle appris » pour dans un second temps utiliser un filtre caractéristique F1au sein de l’équipement pour corriger le flux audio déformé par la présence de l’embout en bouche.
Le problème inverse peut s’écrire : .
Modèle linéaire
Ce qui peut s’écrire en termes de la théorie des systèmes dynamiques à l’équation suivante selon un modèle linéaire MOD1où x(t) est une variable interne au système:
Selon un mode de réalisation, afin de résoudre ce système, une première hypothèse est de considérer un signal suffisamment lisse S2(t) afin de considérer une fonction dérivable ayant un ensemble de dérivées constituant différents ordres de la fonction S2(t) = y(t) où y(t) est la sortie du modèle MOD1ou MOD2. Ainsi, l’ensemble des dérivées, s’écrit [y(n)], « n » étant l’ordre la dérivée du signal échantillonné et étant supérieure ou égal à 1.
La sortie recherchée peut être modélisée par un vecteur z défini par le système d’équations différentielles qu’on cherche à estimer :
z = [y(1), y(2), y(3), … y(n -1 )]Tet
y(n)(t) = Thêta(t)
Il s’agit de l’ensemble des dérivées premières, secondes, troisièmes et ainsi de suite jusqu’à la nièmedérivée. Le nombre de dérivées considérées définies la dimension du système.
En considérant un ordre des dérivées retenues égal à 2 pour simplifier les calculs il est possible de définir un modèle MOD1simple du système qui soit performant. La suite est décrite pour un ordre n afin d’illustrer un mode plus général de réalisation.
On peut définir le système équivalent suivant :
Dans laquelle MA est définie par la matrice suivante :
Et « C » est un vecteur défini par le vecteur suivant :
C = [1, 0, 0 …, 0]
Et est un vecteur défini par le vecteur suivant :
Phi(t) = [0, …, Thêta(t)]T
On note , où alpha est strictement supérieur à 0 et x est un réel.
Le différentiateur homogène en temps fini est défini par le système suivant pour i = 2, …, n-1:
est l’estimation de z
Les coefficients k1, …, knforment un polynôme de Hurwitz.
Il est possible dans la résolution de ce système de choisir de manière appropriée pour assurer l’homogénéité du système les coefficients (a1, …an) dans l’espace des réels strictement positifs de dimension n.
Selon un exemple, pour un A donné dans l’intervalle [1 – 1/(n-1), 1], les séquences (r1, …, rn) et (a1, …an) peuvent être choisi ainsi :
, avec 1 ≤ i ≤ n
, avec 1 ≤ i ≤ n
De manière à assurer une convergence à temps fini, selon un exemple, la méthode peut être modélisée en prenant en compte les conditions nécessaires à la théorie de l’homogénéité. Dans ce cette hypothèse, il est possible d’écrire que
( j -1)(t) = j(t), j = 1, …, n après un temps fini des transitoires.
La dynamique des erreurs de différenciation prend la forme du système suivant :
  • (1)
On connait, en ayant choisi les coefficients qui puissent définir un polynôme de Hurwitz qu’il existe A dans l’intervalle [1-1/(n-1), 1] suffisamment proche de 1 tel que l’équation (1) est globalement stable à temps fini.
L’un des principaux avantages des systèmes homogènes stables en temps fini est la rapidité de leur taux de convergence et leur robustesse par rapport à différentes perturbations.
En raison du terme Thêta(t), il est impossible d’obtenir la convergence de l’erreur à zéro sans avoir des connaissances supplémentaires sur ce signal Thêta(t). Ce problème peut être surmonté en supposant que y(t) est localement polynomial et que sur un petit intervalle de temps, Thêta(t) = 0. Dans ce cas, il est alors possible de récupérer les dérivées.
Selon un mode de réalisation, le procédé comportant un nombre d’itérations visant à répéter la séquence de calcul des coefficients jusqu’à ce qu’une erreur calculée soit inférieure à un seuil donné.
Afin de quantifier la performance des résultats obtenus avec l’algorithme final, une erreur est définie basée sur la norme de la différence des sons reconstruits et sons originels.
Selon un mode de réalisation, à chaque itération une première condition C1est vérifiée. Selon un exemple la première condition C1correspond à la vérification que l’erreur est inférieure à un seuil prédéfini. Selon un exemple, une seconde condition C2est vérifiée. La seconde condition C2est la vérification qu’un nombre d’itérations prédéfini a été réalisé.
Avantageusement, le procédé comporte une étape de génération des coefficients du filtre dès qu’une des deux conditions C1ou C2est vérifiée.
La succession des étapes d’itérations correspond à l’étape d’apprentissage de l’algorithme qui aboutit à produire des coefficients du filtre permettant de reconstruire le signal SB(t) à partir d’un signal d’entrée SA(t) selon le procédé de traitement PROC1de l’invention.
Modèle non linéaire
Selon une alternative de réalisation, un modèle non linéaire MOD2peut être utilisé pour mettre en œuvre l’invention.
Où NN désigne un filtre non-linéaire.
Dans cette mise en œuvre le filtre F1= NN correspond à une correction additionnelle qui permet de corriger l’erreur de modélisation du modèle linéaire. Dans ce cas, l’erreur est minimisée en prenant en considération la partie non linéaire NN.
Dans le cas d’une mise en œuvre d’un modèle non linéaire MOD2, le filtre F1est un filtre non linéaire. Selon un exemple, une méthode de calcul des coefficients du filtre non linéaire F1peut être mise en œuvre à partir d’un réseau de neurones. À cette fin, un réseau de neurones à propagation avant est produit avec le résultat obtenu avec le filtre linéaire. Selon un exemple, l’invention comprend la mise en œuvre d’un réseau de type CNN, définissant un réseau de neurones convolutif. Dans cet exemple de mise en œuvre, un réseau d'anticipation conventionnel avec une couche cachée qui utilise des fonctions d'activation sigmoïdales permet d’obtenir de bonnes performances d’apprentissage.
Dans le cas d’un filtre non linéaire, l’apprentissage comprend également la phase de calcul des coefficients du réseau par une régression effectué à chaque itération.
Selon d’autres exemples, d’autres réseaux de neurones peuvent être utilisés.
Le procédé de l’invention repose sur la mise en œuvre d’un algorithme permettant le calcul de coefficients intégrant des phases itératives comportant le calcul d’une erreur. Cet algorithme est dit « algorithme apprenant » ou « fonction apprenante » dans la mesure où il prend en compte des étapes intermédiaires permettant de converger vers un résultat aboutissant à la construction du filtre caractéristique F1.
Une fois le filtre F1déterminé l’ensemble des paramètres du modèle MOD1pour le modèle linéaire et du modèle MOD2pour le modèle non linéaire sont déterminés. Les modèles peuvent ensuite être appliqués de manière à prédire la sorite SB(t) sur la .
Les figures 3 et 4 représentent l’étape de calcul de l’erreur er(t) à chaque itération à chaque en considérant S2(t) acquis directement et la sortie y(t) estimé.
Selon un mode de réalisation, un filtre initial Fi est pré-entrainé et enregistré dans une mémoire d’un équipement. Un tel filtre initial Fi peut être entrainé avec des profils de voix différents tels que des profils de voix de femme, de voix d’homme, voix d’enfant. Certains tessiture ou timbre de voix peuvent être utilisé pour pré-entrainé un filtre initial Fi au sein de l’équipement. Un intérêt est de définir des coefficients initiaux permettant d’améliorer la convergence de l’erreur en dessous d’un seuil donné lors de l’apprentissage.
Afin de définir un filtre initial Fi, la méthode de caractérisation CARAC1de l’invention peut être utilisée avec une première configuration. La première configuration peut bénéficier de ressources de calculs supplémentaires, ainsi l’ordre du système peut être augmenté, ainsi que les échantillons ou encore on peut disposer d’un plus grand nombre de phrases d’entrainement. Dans cette configuration, un modèle non linéaire MOD2peut être utilisé pour définir le filtre initial Fi et un ou le modèle linéaire peut être utilisé pour entrainer le modèle avec la véritable voix du plongeur.
Selon un autre mode de réalisation, le procédé de traitement PROC1 de l’invention peut être mis en œuvre pour corriger une erreur également pendant la phase de plongée par exemple avec un entrainement supervisé ou non supervisé.
Par exemple, une phrase répétée ou un signal indiquant une mauvaise compréhension peut être utilisé afin de labelliser des sorties du modèles afin d’améliorer la construction d’un filtre F2 lors du procédé de traitement PROC1.
Selon un exemple de réalisation, le procédé de l’invention peut comprendre trois entrainements successifs du modèle ou des modèles pouvant être réalisés à des moments espacés entre eux. Un premier entrainement du modèle permet de définir un filtre initial Fi à partir d’une première configuration du procédé de caractérisation CARAC1par exemple avec une voix pré sélectionnée correspondant à un premier signal S2(t).
Un second entrainement du modèle permet de définir un filtre caractéristique F1à partir d’une seconde configuration du procédé de caractérisation CARAC1avec la voix du plongeur correspondant à un second signal S2(t). Ce second entrainement peut être réalisé avec des coefficients du modèle initiaux qui ont été calculés à partir du premier entrainement.
Enfin, un troisième entrainement peut être réalisé lors des communications en utilisant le procédé de traitement PROC1 et une labellisation automatique des sorties qui peut être déduites de l’analyse du flux audio d’un ou des deux plongeurs, tels que par exemple :
  • Les répétitions de phrases prononcées à des mêmes vitesses ou à des vitesses différentes ;
  • L’identification de phrase prédéfinie telle que « pas compris », « je ne comprends pas », « peux-tu répéter », etc ;
  • Un changement de respiration ou une détection d’un taux de bulles ;
  • Etc.
Conversion du signal filtré et transmis pour conduction osseuse
Selon un mode de réalisation, la sortie filtrée par le filtre F1caractérisé par le procédé de caractérisation CARAC1du filtre est transmise via une interface de communication sans fil à un autre dispositif de communication d’un autre nageur. Selon un exemple, la sortie audio filtrée est modulée sur une fréquence porteuse. L’invention est compatible de toute forme de transmission sans fil par voie électromagnétique telle qu’une liaison radio ou par émission d’ondes sonores ou ultrasonores. Différentes modulations peuvent être utilisées, que ce soit de la modulation de fréquence, d’amplitude. Selon un mode de réalisation, le signal audio filtré est transmis en étant modulé par une technique d’évasion de fréquences.
L’embout buccal 1 peut comprendre des moyens de transmission de signal connectés au microphone 5 et/ou à l’élément vibrant 3. Les moyens de transmission peuvent comprendre des câbles électroniques et/ou une nappe de conduction. Ces moyens de transmissions peuvent être au moins partiellement intégré dans un revêtement élastique.
Lorsque le signal transmis d’un équipement à l’autre est démodulé en réception, le signal audio peut être converti de manière faire vibrer un plateau de conduction osseuse. La représente un exemple de plateau de conduction acoustique 20 agencé de manière à être mordu par l’utilisateur portant l’embout buccal 1. Selon cet exemple, l’embout buccal 1 comprend en outre un élément vibrant de type transducteur. L’élément vibrant est connecté au plateau de conduction de manière à transmettre les vibrations de l’élément vibrant au plateau de conduction acoustique.
L’élément vibrant 3 est configuré pour convertir une entrée audio en une sortie acoustique et se coupler acoustiquement aux dents supérieures et/ou inférieures du plongeur pour conduire la sortie acoustique des dents supérieures du plongeur à travers le crâne pour propager le signal acoustique jusqu’à l’oreille interne du plongeur via les os du crâne et de la mâchoire lorsque le plongeur porte l'embout dans la bouche.
Le plateau de conduction acoustique 20 est conçu et agencé pour se coupler acoustiquement aux dents supérieures de l’utilisateur pour conduire la sortie acoustique des dents supérieures du plongeur à travers le crâne jusqu'à la cochlée afin de générer un son audible dans au moins une des oreilles internes du plongeur lorsque le plongeur porte l'embout buccal 1.
Le plateau de conduction acoustique 20 est configuré pour s'engager et se coupler acoustiquement à la surface des dents du plongeur et est configuré pour conduire les vibrations de l’élément vibrant 3 en réponse à un signal électrique. La vibration de l’élément vibrant 3 produit un signal de sortie acoustique qui est conduit acoustiquement vers les dents du plongeur, via le plateau de conduction acoustique, puis à travers les os de sa mâchoire et de son crâne jusqu'à l'oreille interne, y compris la cochlée, où il est perçu comme un son.

Claims (15)

  1. Procédé de caractérisation (CARAC1) d’un filtre (F1) pour le traitement (PROC1) d’une voix d’un sujet donné, ladite voix étant acquise par un micro agencé dans un dispositif d’aide à la respiration sous-marine destiné à être porté à proximité de la bouche d’un sujet, ledit procédé comportant :
    • Acquisition (ACQ1) d’au moins un premier signal (S1) correspondant à la prononciation d’un premier ensemble de phonèmes par ledit sujet donné; ledit premier signal (S1) correspondant à une voix d’un sujet acquise par le micro du dispositif d’aide à la respiration sous-marine lorsque ce dernier est porté par ledit sujet;
    • Acquisition (ACQ2) d’au moins un second signal (S2) correspondant à la prononciation du premier ensemble de phonèmes (PHR1) par ledit sujet; ledit second signal (S2) correspondant à une voix d’un sujet acquise par un micro sans que le sujet porte un dispositif d’aide à la respiration sous-marine;
    • Pour le premier signal (S1), exécution des étapes suivantes :
      • Echantillonnage (ECH1) du premier signal (S1) pour générer une pluralité d’échantillons à partir du premier signal (S1) ;
      • Estimation (EST1) d’un premier ensemble (ENS1) de valeurs moyennes de l’amplitude du premier signal (S1) sur une pluralité de premières fenêtres prédéfinies, chaque première fenêtre comportant une pluralité d’échantillons du premier signal (S1) ;
      • Estimation (EST2) d’un second ensemble (ENS2) de valeurs de vitesse du signal (S1) à partir d’une méthode du différenciateur homogène en temps-fini sur la pluralité de premières fenêtres prédéfinies;
      • Calcul (ESTF) d’un premier ensemble de coefficients d’un système d’équations différentielles représentant un premier modèle (MOD1,MOD2) dont les solutions sont le premier et le second ensemble de valeurs (ENS1, ENS2) ;
    • Calcul d’une erreur (Er) entre au moins un ensemble d’échantillons du second signal (S2) et les échantillons obtenus en sortie du premier modèle (MOD1, MOD2) exécuté avec des valeurs du premier signal (S1) et les coefficients estimés (G, F, H),
    • Itération(s) du calcul des coefficients du premier modèle (MOD1, MOD2) en minimisant à chaque itération ladite erreur (Er) calculée, le nombre d’itérations étant configuré pour minimiser l’erreur en dessous d’un seuil prédéfini de manière à définir des coefficients d’exploitation, lesdits coefficients d’exploitation définissant les coefficients du filtre (F1).
  2. Procédé de caractérisation selon la revendication 1, caractérisé en ce qu’il comprend une étape de filtrage du premier signal (S1) réalisée préalablement à l’échantillonnage.
  3. Procédé de caractérisation selon l’une quelconque des revendications 1 à 2, caractérisé en ce que l’échantillonnage du premier signal (S1) comprend les étapes suivantes :
    • Analyse de la densité spectrale du signal (S1) afin de déterminer des seuils caractéristiques d’amplitude ou de puissance ;
    • Sélection d’un ensemble de fréquences caractéristiques pour lesquelles lesdits seuils déterminés sont dépassés ;
    • Echantillonnage de segments du premier signal (S1) autour de chaque fréquence caractéristique sélectionnée ;
    • Génération d’un ensemble d’échantillons (ECH1) pour le traitement du premier signal (S1) à partir de chaque segment échantillonné.
  4. Procédé de caractérisation selon l’une quelconque des revendications 1 à 3, caractérisé en ce que l’échantillonnage (ECH1) produit entre 400 et 96000 échantillons pendant une 1 seconde.
  5. Procédé de caractérisation selon l’une quelconque des revendications 1 à 4 caractérisé en ce que le procédé est répété pour une pluralité d’acquisitions de premiers signaux (S1), chaque premier signal (S1) acquis correspondant à la prononciation d’un nouvel ensemble de phonèmes par le même sujet, le calcul de l’erreur (Er) et sa minimisation étant réalisés pour chaque nouveau premier signal (S1) acquis.
  6. Procédé de caractérisation selon l’une quelconque des revendications 1 à 5 caractérisé en ce que le système d’équations différentielles est du premier ordre.
  7. Procédé de caractérisation selon l’une quelconque des revendications 1 à 6 caractérisé en ce qu’il comprend :
    • Estimation (EST3) d’un troisième ensemble (ENS3) de valeurs d’accélération du signal (S1) à partir de la méthode du différenciateur homogène en temps-fini sur la pluralité de premières fenêtres prédéfinies;
    • Calcul (ESTF) d’un premier ensemble de coefficients d’un système d’équations différentielles du premier ordre représentant un premier modèle (MOD1, MOD2) dont les solutions sont le premier et le second ensemble de valeurs (ENS1, ENS2,ENS3).
  8. Procédé de caractérisation selon l’une quelconque des revendications 1 à 7 caractérisé en ce qu’il comprend :
    • Estimation (ESTN) d’un Nièmeensemble (ENSN) de valeurs d’une dérivée d’ordre N du signal (S1) à partir de la méthode du différenciateur homogène en temps-fini sur la pluralité de premières fenêtres prédéfinies ;
    • Calcul (ESTF) d’un premier ensemble de coefficients d’un système d’équations différentielles du Nièmeordre représentant un premier modèle (MOD1, MOD2) dont les solutions sont le premier et le second ensemble de valeurs (ENS1, ENS2, …,ENSN).
  9. Procédé de caractérisation selon l’une quelconque des revendications 1 à 8 caractérisé en ce que le premier modèle est un modèle linéaire (MOD1) et s’écrit :
    • ,

    où G, F et H sont des matrices dont les coefficients sont à déterminer, la dimension de la matrice étant déterminée par l’ordre du système linéaire d’équations différentielles, y(t) est le signal qu’on cherche à identifier approchant le second signal (S2), et x(t) est une variable d’état interne au premier modèle (MOD1).
  10. Procédé de caractérisation selon l’une quelconque des revendications 1 à 8 caractérisé en ce que le premier modèle est un modèle non-linéaire (MOD2) et s’écrit :
    • ,

    où G, F et H sont des matrices dont les coefficients sont à déterminer, la dimension de la matrice étant déterminée par l’ordre du système d’équations différentielles, NN désigne un filtre non-linéaire, y(t) est le signal qu’on cherche à identifier approchant le second signal (S2), et x(t) est une variable d’état interne au premier modèle (MOD2),
    • le procédé comportant en outre, un calcul (ESTNN) d’un ensemble de coefficients d’un réseau de neurones à partir d’une régression configurée pour minimiser l’erreur (Er).
  11. Procédé de caractérisation selon l’une quelconque des revendications 1 à 10 caractérisé en ce que le calcul de l’étape de minimisation (ESTF, ESTNN) de l’erreur (Er) est réalisé à partir de la mise en œuvre d’un réseau de neurones dont les coefficients sont calculés par une régression pour minimiser l’erreur (Er).
  12. Procédé de caractérisation selon l’une quelconque des revendications 1 à 11 caractérisé en ce que à chaque itération une première condition est vérifiée, ladite première condition étant la vérification que l’erreur est inférieure à un seuil prédéfini et/ou qu’une seconde condition est vérifiée, ladite seconde condition étant la vérification qu’un nombre d’itérations prédéfini a été réalisé, le procédé comportant une étape de génération des coefficients du filtre dès qu’une des deux conditions est vérifiée.
  13. Procédé de traitement (PROC1) d’une voix d’un sujet donné comprenant :
    • Acquisition d’un signal (SA(t)) correspondant à une voix acquise par un micro agencé dans dispositif d’aide à la respiration sous-marine destiné à être porté dans la bouche d’un sujet, la voix acquise étant définie par un signal audio acquis en temps réel (SA) correspondant à une voix d’un sujet déformée par la présence de l’embout buccal en bouche ;
    • Application (APP1) d’un premier modèle (MOD1) entrainé selon la méthode de caractérisation du filtre (F1) de l’une quelconque des revendications 1 à 12, ladite application (APP1) visant à obtenir un second signal (SB) de voix transformée à partir du premier signal (SA) de la voix déformée par un dispositif d’aide à la respiration sous-marine (EB1).
  14. Dispositif de communication comprenant un embout buccal (1) destiné à être porté dans la bouche d’un sujet comprenant :
    • un micro pour acquérir un signal acoustique provenant de la voix du sujet ;
    une carte électronique comportant un filtre audio, un convertisseur analogique-numérique, un calculateur pour échantillonner le signal numérisé, une mémoire pour enregistrer les coefficients d’un filtre (F1) à appliquer au signal échantillonné (SA(t)) et un calculateur permettant de générer un signal de sortie (SB(t)), lesdits coefficients enregistrés étant calculés à partir d’une méthode selon l’une quelconque des revendication 1 à 12.
  15. Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par le dispositif de communication, conduisent ledit dispositif de communication à mettre en œuvre les étapes du procédé de l’une quelconque des revendications 1 à 12.
FR2212450A 2022-11-28 2022-11-28 Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication Pending FR3142639A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR2212450A FR3142639A1 (fr) 2022-11-28 2022-11-28 Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication
PCT/EP2023/083395 WO2024115504A1 (fr) 2022-11-28 2023-11-28 Procede de caracterisation d'un filtre pour le traitement d'une voix d'un individu, dispositif de communication

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2212450A FR3142639A1 (fr) 2022-11-28 2022-11-28 Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication
FR2212450 2022-11-28

Publications (1)

Publication Number Publication Date
FR3142639A1 true FR3142639A1 (fr) 2024-05-31

Family

ID=86007125

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2212450A Pending FR3142639A1 (fr) 2022-11-28 2022-11-28 Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication

Country Status (2)

Country Link
FR (1) FR3142639A1 (fr)
WO (1) WO2024115504A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020451A1 (en) * 2004-06-30 2006-01-26 Kushner William M Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US20120213034A1 (en) 2011-02-18 2012-08-23 Mir Imran Apparatus, system and method for underwater signaling of audio messages to a diver
US20220199103A1 (en) * 2020-12-23 2022-06-23 Plantronics, Inc. Method and system for improving quality of degraded speech

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020451A1 (en) * 2004-06-30 2006-01-26 Kushner William M Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US20120213034A1 (en) 2011-02-18 2012-08-23 Mir Imran Apparatus, system and method for underwater signaling of audio messages to a diver
US20220199103A1 (en) * 2020-12-23 2022-06-23 Plantronics, Inc. Method and system for improving quality of degraded speech

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PERRUQUETTI W ET AL: "Homogeneous finite time observer for nonlinear systems with linearizable error dynamics", PROCEEDINGS OF THE 46TH IEEE CONFERENCE ON DECISION AND CONTROL : NEW ORLEANS, LA, 12 - 14 DECEMBER 2007, IEEE, PISCATAWAY, NJ, USA, 1 December 2007 (2007-12-01), pages 390 - 395, XP031205399, ISBN: 978-1-4244-1497-0, DOI: 10.1109/CDC.2007.4434702 *

Also Published As

Publication number Publication date
WO2024115504A1 (fr) 2024-06-06

Similar Documents

Publication Publication Date Title
Liu et al. Deep neural network architectures for modulation classification
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
EP0768770B1 (fr) Procédé et dispositif de création d'un bruit de confort dans un système de transmission numérique de parole
JP3485508B2 (ja) 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置
CN110415728B (zh) 一种识别情感语音的方法和装置
CA2436318C (fr) Procede et dispositif de reduction de bruit
EP0932964A1 (fr) Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
US11922946B2 (en) Speech transcription from facial skin movements
CN116030823B (zh) 一种语音信号处理方法、装置、计算机设备及存储介质
FR2836571A1 (fr) Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique
WO2019232833A1 (fr) Procédé et dispositif de différentiation vocale, dispositif d'ordinateur et support d'informations
CN113053400B (zh) 音频信号降噪模型的训练方法、音频信号降噪方法及设备
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
FR3142639A1 (fr) Procede de caracterisation d’un filtre pour le traitement d’une voix d’un individu, dispositif de communication
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
US20140303980A1 (en) System and method for audio kymographic diagnostics
KR102471709B1 (ko) 다자간 화상 회의 또는 화상 교육을 위한 노이즈 및 에코 제거 시스템과 그 방법
CN116106827A (zh) 一种基于四麦克风阵列和深度学习的声源定位方法
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
EP4381476A1 (fr) Déchiffrement de parole silencieuse détectée
WO2005024786A1 (fr) Procede de transmission d'un flux d'information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre
Ou et al. Concealing audio packet loss using frequency-consistent generative adversarial networks
FR3052319A1 (fr) Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise.
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
CN113571081A (zh) 语音增强方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20240531