CH702399A2 - Appareil et procédé pour la saisie et le traitement de la voix. - Google Patents

Appareil et procédé pour la saisie et le traitement de la voix. Download PDF

Info

Publication number
CH702399A2
CH702399A2 CH01848/09A CH18482009A CH702399A2 CH 702399 A2 CH702399 A2 CH 702399A2 CH 01848/09 A CH01848/09 A CH 01848/09A CH 18482009 A CH18482009 A CH 18482009A CH 702399 A2 CH702399 A2 CH 702399A2
Authority
CH
Switzerland
Prior art keywords
arm
voice
leg
microphones
noise
Prior art date
Application number
CH01848/09A
Other languages
English (en)
Other versions
CH702399B1 (fr
Inventor
Herve Lissek
Martn Philippe
Jorge Carmona
Michel Imhasly
Xavier Falourd
Patrick Marmaroli
Ian Millar
Original Assignee
Veovox Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Veovox Sa filed Critical Veovox Sa
Priority to CH01848/09A priority Critical patent/CH702399B1/fr
Priority to EP10785422.6A priority patent/EP2508009B1/fr
Priority to PCT/EP2010/068649 priority patent/WO2011067292A1/fr
Priority to ES10785422.6T priority patent/ES2554622T3/es
Publication of CH702399A2 publication Critical patent/CH702399A2/fr
Priority to US13/483,904 priority patent/US9510090B2/en
Publication of CH702399B1 publication Critical patent/CH702399B1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • H04M1/035Improving the acoustic characteristics by means of constructional features of the housing, e.g. ribs, walls, resonating chambers or cavities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Appareil portatif (20) de saisie de la voix comprenant: un bras (23) orientable avec un premier réseau linéaire différentiel (25) de microphones comprenant au moins une paire de microphones, la directivité dudit premier réseau étant agencée en sorte à détecter la voix depuis une première direction en fonction de l’orientation dudit bras; un deuxième réseau linéaire différentiel (24) de microphones comprenant au moins une paire de microphones, la directivité dudit deuxième réseau étant agencée en sorte à détecter le bruit provenant d’une deuxième direction différente de la première direction; un circuit de réduction de bruit pour fournir un signal vocal avec un bruit réduit, sur la base du signal de sortie dudit premier réseau et du signal de sortie dudit deuxième réseau.

Description

Domaine de l’invention
[0001] La présente invention concerne un appareil et un procédé pour la saisie et le traitement de la voix, en particulier dans des environnements bruyants. L’invention porte entre autres sur un appareil mobile qui peut être utilisé dans des environnements bruyants tels que, à titre d’exemples non limitatifs, dans des restaurants, pour la saisie et le traitement de la voix et pour effectuer de la reconnaissance vocale.
Etat de la technique
[0002] Alors que la fréquence de reconnaissance des algorithmes de reconnaissance vocale s’est récemment améliorée, elle reste faible dans des conditions difficiles, notamment lorsque le rapport du signal au bruit est insuffisant. Pour cette raison, la saisie et la reconnaissance de la voix dans des environnements bruyants reste difficile ou peu fiable.
[0003] Toutefois, il existe un besoin pour des appareils capables d’effectuer de façon fiable de la reconnaissance vocale même dans des environnements très bruyants tels que (à titre d’exemples non limitatifs) dans des bars et des restaurants. Par exemple, il serait utile d’avoir un appareil capable de saisir et de reconnaître la voix d’un serveur dans un restaurant et d’utiliser cet appareil pour recevoir, reconnaître et transmettre des commandes vocales.
[0004] US 7 110 963, dont le contenu est incorporé par référence au sein de la présente demande, divulgue un système de reconnaissance vocale permettant à un serveur dans un restaurant de transmettre des commandes à la cuisine. Une application logicielle de reconnaissance vocale est utilisée pour contrôler le traitement et le flux de données pendant les opérations d’enregistrement des commandes et pour recevoir des informations sur les commandes de la part du serveur en temps réel pendant l’interaction avec le client.
[0005] US-A1-2002/0 007 315, dont le contenu est incorporé par référence au sein de la présente demande, divulgue un autre système à activation vocale de commande dans un établissement de restauration rapide, où les commandes de repas sont introduites dans un enregistreur au point de vente et convertis en messages vocaux pour le prépareur des aliments du restaurant. Un circuit de conversion de voix en texte est utilisé aux points de vente pour introduire les commandes vocales.
[0006] Les solutions présentées ci-dessus sont utiles et permettent une transmission plus rapide et plus naturelle des commandes entre le restaurant et la cuisine. Toutefois, la fiabilité de la reconnaissance vocale dans de nombreux restaurants avec un niveau de bruit élevé ou même moyen n’est pas satisfaisant; le rapport du signal au bruit est insuffisant pour être exécuté de façon fiable par les algorithmes de reconnaissance vocale actuels.
[0007] Il a été constaté que la qualité et la directivité du microphone est d’une importance capitale pour saisir un signal vocal de bonne qualité. Le document US-B2-7 120 477 (Microsoft Corporation) décrit un appareil informatique personnel mobile possédant une antenne avec microphone et reconnaissance vocale. L’antenne comprend un microphone disposé sur son extrémité distale et est adaptée pour être orientée vers un utilisateur, permettant ainsi de réduire la distance avec la bouche de l’utilisateur du microphone tandis que l’utilisateur tient l’appareil dans la paume de sa main. Réduire cette distance permet d’augmenter le rapport du signal au bruit des signaux vocaux fournis par le microphone. Cette solution reste toutefois insuffisante pour des environnements très bruyants.
[0008] Un autre module pour la saisie vocale dans des environnements bruyants est divulgué dans le document EP 694 833. Ce document décrit un premier réseau de microphones à faisceau orientable pour la saisie vocale et un réseau supplémentaire de microphones à faisceau orientable pour la reconnaissance de sources supplémentaires de données audio et de sources de bruit et/ou d’interférence. Le but ici est de repérer le locuteur (source audio) avec un algorithme de triangulation et de contrôler un système d’entraînement mécanique pour focaliser une caméra vidéo sur le locuteur.
[0009] Les deux réseaux de microphones sont bidimensionnels et occupent donc une large surface; il n’est donc pas possible de monter les réseaux sur un faisceau linéaire tout en maintenant une distance suffisante entre les microphones. En outre, le post-traitement des signaux audio fournis par deux réseaux multidimensionnels de microphones est difficile et nécessite un ensemble de circuits ou une puissance de calcul considérable, une consommation d’énergie accrue, et entraîne souvent un filtrage indésirable du signal de sortie.
[0010] Un but de la présente invention est donc de développer un appareil portatif amélioré qui soit capable d’effectuer la saisie et le traitement de la voix et de générer un signal vocal avec un rapport du signal au bruit suffisant pour des applications de reconnaissance vocale fiables.
[0011] Un autre but de l’invention est de développer un appareil avec microphone qui soit capable d’améliorer la détection de la voix de l’utilisateur tout en minimisant le bruit de fond et les locuteurs potentiellement parasitiques dans des conditions diffuses.
[0012] Les performances du dispositif doivent couvrir au moins la bande passante vocale moyenne mais doivent également s’étendre de façon à améliorer le processus de reconnaissance vocale, à savoir [300Hz-6kHz].
[0013] Un autre but est de développer un appareil qui soit capable d’extraire des informations vocales utiles (telle une commande ou un ordre dans un restaurant) hors du bruit de fond qui peut être plus ou moins diffus (aucun angle d’incidence privilégié), plus ou moins intense (en termes de niveaux de pression acoustique) et posséder différentes caractéristiques spectrales (musique amplifiée, voix individuelles, bruit «cocktail party», etc.).
[0014] Un autre but est de développer un appareil amélioré qui permette de détecter la voix émanant de la bouche du locuteur et le bruit provenant d’autres directions et que l’utilisateur puisse tenir dans la paume de sa main.
Bref résumé de l’invention
[0015] Selon un aspect de l’invention, un appareil portatif de saisie de la voix comprend: un bras orientable adapté pour être orienté en direction de la bouche d’un utilisateur, ledit bras comprenant un premier réseau linéaire différentiel de microphones, la directivité dudit premier réseau étant agencée en sorte à détecter la voix émanant de la bouche dudit utilisateur; un deuxième réseau linéaire différentiel de microphones, la directivité dudit deuxième réseau étant agencée en sorte à détecter le bruit provenant d’une direction différente de la bouche de l’utilisateur; un circuit de réduction de bruit pour fournir un signal vocal avec un bruit réduit, sur la base du signal de sortie dudit premier réseau et du signal de sortie dudit deuxième réseau.
[0016] Dans une forme d’exécution préférentielle, le premier réseau différentiel est utilisé pour saisir le bruit de fond depuis une direction arrière.
[0017] Des réseaux différentiels de microphones sont connus en tant que tels et sont décrits par exemple dans Elko, G.W. «Superdirectional Microphone Arrays», dans J. Benesty et S. Gay (éds), «Acoustic Signal Processing for Télécommunication», pp.181-236, Kluwer Académie Publishers, 2000. La plupart des réseaux de microphones sont relativement encombrants et peu adaptés à des appareils portatifs.
[0018] La présente invention concerne un arrangement spécifique de réseaux linéaires qui permet de saisir le son selon différentes directions. L’utilisateur peut orienter le bras vers sa bouche et s’assurer que la première direction est adaptée pour saisir la voix de l’utilisateur tandis que la deuxième direction saisit essentiellement le bruit de fond. Le circuit de réduction de bruit peut ensuite améliorer le signal vocal en supprimant le bruit de fond, en utilisant par exemple des techniques de cohérence.
[0019] Dans une forme d’exécution, le premier réseau de microphones effectue la saisie vocale dans une première direction avant et saisit le bruit de fond depuis une direction arrière, tandis que le deuxième réseau de microphones saisit le bruit de fond et d’autres voix depuis la droite et la gauche.
[0020] D’autres formes d’exécution peuvent utiliser un nombre de réseaux de microphones plus grand que deux et/ou des réseaux complexes en sorte à offrir un meilleur contrôle de la directivité de l’appareil. Les microphones sont de préférence, à titre d’exemple non limitatif, des microphones électrets.
[0021] Dans une forme d’exécution, le bras est en forme de L et comprend un réseau linéaire de microphones sur chacune des deux branches. D’autres dispositions, y compris des microphones avec une pluralité de branches non perpendiculaires, des microphones disposés en forme de U avec trois réseaux de microphones ou des dispositions avec des paires de microphones sur différentes branches d’un arbre commun, peuvent également être utilisées dans le cadre de l’invention.
[0022] Selon un autre aspect éventuellement indépendant de l’invention, le signal vocal de sortie du microphone est post-traité par un filtre de post-traitement comprenant une pluralité de couches de traitement de signal, permettant d’extraire la voix hors du bruit, de réduire le bruit résiduel et d’estimer la cohérence du signal résultant avec la détection vocale originale.
[0023] Selon un autre aspect de l’invention, un détecteur d’activité vocale automatique supplémentaire permet d’améliorer davantage le signal en supprimant les segments temporels pendant lesquels aucune activité vocale n’est détectée.
[0024] Les techniques de post-traitement de signaux vocaux sont connues en tant que telles et décrites par exemple par Kim KM, Choi YK, Park KS, «A new approach for rustle noise cancelling in pen-type voice recorder», IEEE Transactions on Consumer Electronics, Vol. 49(4), pp. 1118-1124, nov. 2003. Un autre exemple de procédé de post-traitement est décrit par O. Yilmaz et S. Rickard, «Blind Séparation of Speech Mixtures via Time-Frequency Masking», IEEE Transactions on Signal Processing, Vol. 52(7), pp. 1830-1847, juillet 2004. La combinaison spécifique des procédés décrits et revendiqués s’est avérée, au moyen de tests, être particulièrement efficace dans le but susmentionné et efficace pour supprimer le bruit d’un signal vocal saisi avec le microphone spécifique décrit et revendiqué au sein de cette demande, tout en évitant des composants matériels et logiciels requis par des dispositions plus complexes.
[0025] Un avantage clé du dispositif divulgué au sein de la description et dans les revendications est la capacité d’ajuster la directivité afin d’effectuer la saisie et la reconnaissance vocale à une distance confortable; le locuteur peut parler à une distance confortable (plus grande que 10 cm, de préférence plus grande que 15 cm même dans des conditions bruyantes telles que dans un restaurant) au travers de l’appareil portatif sans devoir approcher sa bouche très près de l’appareil avec microphone.
[0026] Dans une forme d’exécution préférentielle de l’invention, le réseau de microphones est suffisamment réduit pour garantir l’ergonomie et la portabilité du système et n’excède pas les dimensions des assistants numériques personnels ou ordinateurs de poche conventionnels (approximativement 150 mm x 70 mm, en tout cas plus petit que 180 mm x 100 mm).
Brève description des figures
[0027] La présente invention sera mieux comprise au moyen de la description de quelques formes d’exécution illustrées par les figures, dans lesquelles: la fig. 1<sep>illustre de façon schématique un système pour la saisie et la transmission de commandes vocales dans un restaurant; la fig. 2<sep>illustre de façon schématique un sous-système de microphones; la fig. 3<sep>est un diagramme démontrant l’influence de u sur le schéma de directivité d’un sous-système de premier degré de microphones; la fig. 4<sep>est un diagramme démontrant à quel point la sensibilité d’un réseau différentiel de premier degré dépend de l’angle et de la fréquence; la fig. 5<sep>illustre de façon schématique un réseau différentiel de deuxième degré; la fig. 6<sep>illustre un exemple d’appareil comprenant une installation différentielle bidimensionnelle de microphones (à gauche: réseau à rayonnement transversal; à droite: réseau orientable à rayonnement longitudinal). la fig. 7<sep>illustre de façon schématique la disposition des microphones de l’appareil de la fig. 5. la fig. 8<sep>est un organigramme du procédé de post-traitement appliqué au signal vocal pour le rehaussement de la voix.
Description détaillée de formes d’exécution préférentielles
[0028] La description qui suit est donnée en mettant l’accent sur la forme d’exécution comprenant un ordinateur de poche pour enregistrer les commandes vocales dans un restaurant. Toutefois, le dispositif de l’invention peut être également utilisé avec d’autres équipements, y compris et sans limitations un ordinateur fixe, des ordinateurs portables, des stations de travail, d’autres appareils mobiles tels que des téléphones portables et autres appareils ainsi que pour des applications autres que pour les restaurants et bars (dans l’industrie hôtelière, les hôpitaux, l’industrie du divertissement, les magasins d’alimentation, les laboratoires etc.).
[0029] Un exemple d’environnement dans lequel le procédé et l’appareil peuvent être utilisés est illustré à la fig. 1. Dans cet exemple, un serveur 2 dans un bar ou un restaurant prend une commande de clients 3 assis à une table. Le serveur du restaurant répète chaque commande et les énonce dans le microphone de son appareil mobile 1. Dans cette forme d’exécution, le signal vocal enregistré est post-traité localement, par exemple par le processeur de l’appareil mobile 1 ou de préférence par des moyens de traitement dédiés, afin d’améliorer le rapport du signal au bruit. Ce post-traitement peut également être effectué dans une autre forme d’exécution par un ordinateur ou un serveur à distance, bien que cela puisse entraîner un retard. Le signal vocal traité est ensuite transmis à travers l’air à un point d’accès 7 en utilisant un protocole de communication sans fil standard tel que 802.11, Bluetooth, etc. Le point d’accès 7 appartient à un réseau local 8 (LAN) auquel sont connectés divers autres appareils tels qu’un ordinateur personnel 5, un serveur 6 etc. Le signal vocal reçu depuis le point d’accès 7 est converti en commandes texte par le serveur 6 qui exécute un algorithme de reconnaissance vocale. L’algorithme de reconnaissance vocale pourrait être exécuté par l’appareil mobile si celui-ci possède une puissance de traitement suffisante; cela peut toutefois rendre plus difficile une mise à jour des modèles de voix et de langage (tels que la liste des commandes à reconnaître et la grammaire associée).
[0030] Dans une forme d’exécution préférentielle, la reconnaissance vocale dépend du locuteur et utilise des profils dépendants du locuteur et stockés dans une base de données 60. Une grammaire est également stockée dans la base de données 60 afin de limiter le nombre de mots ou d’expressions à reconnaître et pour définir certaines règles caractérisant le texte prononcé par le serveur du restaurant. Cette grammaire est avantageusement mise à jour chaque fois que des nouveaux articles sont proposés aux clients 3, par exemple chaque fois que le menu du restaurant est modifié.
[0031] Pour cette application, l’algorithme de reconnaissance vocale est avantageusement basé sur un classifieur statistique, par exemple un réseau de neurones artificiels, en combinaison avec un classifieur basé sur profiles. Des tests ont révélé que cet arrangement offre un taux de reconnaissance amélioré et une introduction de nouveaux mots ou de nouvelles expressions dans la grammaire facilitée. La grammaire peut inclure des unités de reconnaissance de profiles de différentes tailles (syntagme, phrase, mot, phonème). Une grammaire dépendante de l’utilisateur peut également être utilisée.
[0032] La grammaire et/ou le classifieur sont de préférence adaptatifs et des unités de reconnaissance de profiles appris sont incorporées dans les données vocales d’entrée. Cela permet un apprentissage en ligne de nouveaux mots ou de nouveaux profiles. Un feedback d’utilisateur peut être utilisé, par exemple dans l’appareil de l’utilisateur, pour entrer ou choisir le texte équivalent d’un profile nouvellement appris.
[0033] En outre, la grammaire est avantageusement organisée en catégories et sous-catégories séparées; cela accroît la qualité de la reconnaissance vocale puisque le système connaît la catégorie du prochain profile escompté. Cela facilite également l’introduction manuelle de nouveaux profiles. Par exemple, une catégorie de profiles peut correspondre à la carte des vins et une autre catégorie au menu de desserts.
[0034] Le texte reconnu par le système de reconnaissance vocale dans le serveur 6 est transmis par le biais du réseau local 8 et au travers du canal sans fil en retour à l’appareil 1 du serveur de restaurant et affiché en temps réel. Dans un autre environnement, la reconnaissance pourrait s’effectuer directement sur l’appareil du serveur de restaurant. Le serveur peut vérifier si la reconnaissance est correcte et confirmer ou corriger la commande reconnue par le serveur et affichée par l’appareil. Ce feedback de l’utilisateur peut être utilisé pour adapter le profile dépendant du locuteur, la grammaire et/ou pour ajouter des nouvelles unités de reconnaissance.
[0035] Lorsque le niveau de confiance atteint par l’algorithme de reconnaissance vocale se situe en dessous d’un niveau prédéfini ou lorsqu’il existe différentes options possibles qui sont très proches l’une de l’autre, un menu avec une liste à choix multiple des données vocales d’entrée les plus probables est affichée au serveur du restaurant qui peut choisir la commande visée dans ce menu en utilisant par exemple un écran tactile, un stylet ou tout autre moyen d’entrée approprié y compris la voix. Le serveur de restaurant peut également sélectionner d’autres options, par exemple pour préciser le nombre d’articles commandés (nombre ou volume), le type (par exemple le millésime d’un vin, les préférences du client concernant la cuisson, etc.) en fonction de l’article commandé ou si la commande originale n’est pas suffisamment précise.
[0036] Une fois validé par le serveur du restaurant, ce texte ainsi que la réponse du serveur de restaurant aux options de menu sont également affichés sur un ordinateur personnel 5 ou imprimés et lus par les employés du restaurant afin de préparer et fournir la commande requise. Dans une autre forme d’exécution, ce texte est prononcé en cuisine. La liste des articles commandés peut être stockée dans une base de données du serveur 6 qui peut être utilisée ultérieurement pour préparer la facture pour le client. Dans une variante, le signal vocal enregistré est post-traité par un ordinateur ou un serveur.
[0037] Dans une alternative, la reconnaissance vocale est effectuée localement, dans l’appareil 1 de l’utilisateur. Cela nécessite toutefois des appareils 1 avec une puissance de traitement accrue et une synchronisation des modèles dépendants du locuteur plus difficile si un utilisateur utilise plusieurs appareils différents.
[0038] Un exemple d’appareil 1 selon l’invention est illustré à la fig. 6. Il est avantageusement réalisé autour d’un assistant numérique personnel (PDA), un mini-ordinateur portatif (netbook) ou autre appareil similaire. Il comprend: un boîtier adapté pour transporter et manipuler l’appareil dans la paume de l’utilisateur; un affichage 21 pour afficher à l’utilisateur 2 le texte reconnu et tout autre texte ou des images; des moyens haptiques 22 tels que clavier, clavier numérique, bouton/touche électronique, molette cliquable etc. une interface de communication (non représentée), par exemple une interface WLAN et/ou Bluetooth; des moyens de traitement (non représentés) tels qu’un microprocesseur avec une mémoire RAM et ROM appropriée, pour le traitement audio du signal audio saisi par le biais du microphone et pour exécuter d’autres programmes et fonctions; un bras 23 orientable en forme de L comprenant plusieurs réseaux linéaires de microphones 24, 25 avec un espace différent entre les microphones de chaque réseau. L’utilisation d’une pluralité de réseaux de microphones offre une détection d’activité vocale améliorée et un contrôle de la directivité à large bande. Le bras est relié au boîtier au travers d’un lien rotatif afin de diriger de façon précise la jambe la plus longue en direction de la bouche du locuteur.
[0039] Le bras 23 est avantageusement un accessoire qui est adapté pour être ultérieurement installé et monté de façon semi permanente sur un appareil mobile existant. Un ensemble de circuits électroniques, tels que convertisseur analogique-numérique, retardeur, additionneur, etc. et/ou des processeurs de traitement numérique du signal (DSPs) peuvent être associés de façon opérationnelle avec ce bras pour le traitement des signaux audio de sortie par les réseaux de microphones. Cet accessoire (bras détachable avec ensemble de circuits optionnels) peut être vendu séparément de l’appareil mobile et installé ultérieurement sur un appareil mobile existant afin de le transformer en un appareil selon l’invention. L’installation peut également comprendre l’installation de pilotes de périphérique et de logiciels d’application appropriés dans l’appareil mobile pour accéder aux signaux depuis l’accessoire, post-traiter ces signaux, les envoyer au serveur à distance ou à l’appareil mobile et afficher le feedback depuis le serveur. La connexion électrique entre le bras et l’appareil utilise de préférence un connecteur existant de l’appareil portable, par exemple un USB, un RS-232 ou un connecteur propriétaire, ou une connexion sans fil.
[0040] Dans une autre forme d’exécution, non représentée, le bras avec les réseaux de microphones et l’ensemble de circuits électroniques associés est relié à un appareil mobile existant par le biais d’une interface sans fil, par exemple une interface Bluetooth ou Zigbee. Dans ce cas, le bras peut être détaché de l’appareil mobile et manipulé séparément. Il est également possible de séparer le bras en plusieurs parties et d’utiliser l’une des jambes comme stylet tenu vers la bouche et relié (sans fil ou par fil) aux autres parties et/ou à l’appareil mobile. En outre, le bras, ou chaque élément du bras, peut être un composant entièrement passif qui comprend uniquement des microphones ou un composant «intelligent» possédant un microprocesseur, un réseau prédiffusé programmable (FPGA, field programmable gâte array) ou un processeur audio. Les différents éléments peuvent être reliés mutuellement et reliés à l’appareil mobile et/ou à un module récepteur de l’appareil mobile au travers d’une interface par fil ou sans fil. En outre, le microphone ou les parties du microphone et/ou l’appareil mobile peuvent être reliés à distance depuis un module de contrôle à distance pour commander l’amplification, la réduction de bruit, la directivité etc. Dans une forme d’exécution, le système comprend des moyens de traitement de signal qui sont distribués entre le bras, ou différentes parties du bras, et l’appareil mobile.
[0041] Un exemple de réseau linéaire de microphones 24 est illustré à la fig. 2. Ce réseau simple comprend deux microphones 240, 241 espacés d’une distance d. Le signal de sortie d’un microphone est ajouté au moyen d’un élément additionneur 243 au signal de sortie différé de l’autre microphone à une distance d, le retard appliqué par l’élément retardeur 242 étant indiqué par τe. Ce réseau forme un système formateur de faisceau; un choix approprié du retard τe améliore le rapport du signal au bruit et améliore la sensibilité aux signaux audio en provenance de la direction du réseau linéaire.
[0042] Si l’on considère un signal acoustique entrant avec un angle d’incidence θ (par rapport à l’axe du sous-système) et en supposant un signal harmonique de fréquence f [Hz] (ou pulsation ω=2.π.f), le retard acoustique entre les deux microphones est τd =d/c [s] (où c’est la vitesse du son dans l’air) et la tension de sortie résultante U [V] du sous-système dépend de l’angle d’incidence θ[rad]:
où M1 [V/Pa] est la sensibilité du premier microphone, g1 [Pa] est la pression acoustique d’une onde plane au niveau du premier microphone, τe[s] est le retard appliqué au deuxième microphone et τd est le temps de propagation du premier au deuxième microphone. Avec τ = τe+ τd et µ= τd/τ, l’on obtient finalement la sensibilité M du sous-système:
qui est la caractéristique d’un microphone directif du premier ordre.
[0043] De cette équation, il ressort que la réponse en fréquence correspond à un filtre passe-haut avec une pente de +6dB/octave. Cela signifie que la sensibilité décroît dans la bande baisse-fréquence (LF). Cela peut constituer un désavantage dans la mesure où cela entraîne un rapport du signal au bruit plus bas dans le cas d’un champ diffus.
[0044] En posant µ=0.5, l’on obtient une directivité cardioïde du réseau de microphones et en posant µ=1, un microphone bidirectionnel. La fig. 3 illustre les schémas de directivité caractéristiques pour différentes valeurs de µ.
[0045] La directivité dépend hautement de la fréquence, comme illustré à la fig. 4. Pour assurer un schéma de directivité constant sur l’entière bande passante de fréquence, différentes paires de réseaux avec différentes distances entre les paires et différentes limites de fréquence sont combinées dans les réseaux de microphones 24, 25.
[0046] Le bras à microphones de l’invention utilise alors plusieurs paires de microphones qui sont disposés le long du même axe pour obtenir un réseau plus directif (dans l’axe du réseau). Chaque réseau est ainsi monodimensionnel et comprend une pluralité de paires toutes disposées sur une rangée.
[0047] En combinant deux réseaux différentiels du premier ordre et après avoir introduit un retard temporel supplémentaire, un réseau général différentiel de microphones du deuxième ordre peut être élaboré. La sensibilité globale d’un tel système peut être calculée en multipliant les sensibilités des sous-systèmes concernés, résultant en une directivité améliorée avec deux sous-systèmes en cascade plutôt qu’avec un seul, mais avec le désavantage d’un comportement d’un filtre passe-haut du deuxième ordre. En choisissant les dimensions de chaque sous-système, des bandes passantes de fréquence plus larges peuvent être couvertes avec des directivités et sensibilités constantes, formant ainsi des réseaux différentiels.
[0048] Un réseau différentiel est décrit par son ordre, c’est-à-dire par le nombre d’»étapes» de retards, comme décrit à la fig. 5 pour un réseau 24 du deuxième ordre. Dans cet exemple, le réseau comprend N=3 microphones disposés en quatre paires: {1;2}, {2;3}, {3;1}, {3;2}. Les distances dj entre les microphones successifs au sein des paires sont variables.
[0049] Le signal analogique u1(t), ui(t), ..., uN(t) à la sortie de chaque microphone 240, 241, 244 est converti en un signal numérique par des convertisseurs analogiques-numériques 2451, 2452, 2453. Pour chaque paire, une première étape de traitement 246 effectue ensuite la différentiation numérique entre un signal et le signal retardé de l’autre microphone de la paire. Une deuxième étape de traitement 247 effectue ensuite la différentiation entre les données de sortie d’un élément additionneur 243 et les données de sortie retardées d’un autre élément additionneur de la première étape. Le premier signal numérique fourni par cette deuxième étape forme un signal de faisceau avant 248 tandis que l’autre signal numérique fourni par cette deuxième étape forme un signal de faisceau arrière 248.
[0050] Théoriquement, il est possible de combiner autant de paires que souhaité, mais en pratique il est difficile d’aller au-delà d’un réseau de deuxième degré. Cela est dû principalement au fait qu’un réseau différentiel est un réseau différentiateur (filtre passe-haut) du même ordre que l’ordre du réseau, ce qui signifie que les basses fréquences sont hautement atténuées et que le rapport du signal au bruit est dégradé. Il y a ainsi un compromis à faire concernant les dimensions de chaque réseau, la bande passante de fréquence qui présente un intérêt et le nombre de canaux disponibles pour le traitement du signal.
[0051] Le bras à microphones de l’appareil 1 est disposé pour détecter le son non seulement depuis la direction utile (la direction de la bouche), mais également depuis au moins une autre direction, correspondant au bruit. Une meilleure connaissance du bruit émanant de différentes directions permet d’extraire le signal utile et de rejeter le signal de bruit, en utilisant des techniques de cohérence, et d’améliorer l’efficacité du post-filtrage ultérieur.
[0052] Dans une forme d’exécution, le bras à microphones 23 de la présente invention comprend un réseau de microphones bidimensionnel (plutôt qu’un réseau à une dimension comme décrit jusqu’à présent). Ce réseau bidimensionnel est constitué de deux réseaux monodimensionnels, comme représenté sur la fig. 7. Un premier réseau 24 est disposé sur la première et plus longue jambe du bras 23 en forme de L, tandis que le deuxième réseau est disposé sur l’autre jambe, plus courte, du même bras. Ce deuxième réseau transversal de microphones est utilisé pour améliorer la suppression du bruit d’interférence.
[0053] Comme mentionné, ce bras en forme de L est orientable, par rotation autour de l’axe de l’une des deux jambes (ici, la plus courte), en sorte que l’utilisateur peut ajuster la position afin qu’elle soit optimale (devant la bouche). Lorsque le bras 23 est orienté correctement, la jambe la plus longue (dans cet exemple) détecte le signal utile avant depuis la direction de la bouche du locuteur ainsi que le bruit depuis l’arrière. La deuxième jambe (ici la plus courte, sans que cela soit nécessairement le cas) détecte le bruit diffus à partir des directions gauche et droite.
[0054] Dans l’arrangement illustré, l’orientation de la deuxième jambe reste essentiellement inchangée lorsque le bras est pivoté; il n’y a qu’un degré de liberté pour orienter la première jambe en direction de la bouche de l’utilisateur.
[0055] Dans une forme d’exécution préférentielle, les deux jambes sont perpendiculaires l’une à l’autre; d’autres dispositions sont toutefois possibles.
[0056] Chaque jambe est équipée d’au moins un réseau différentiel linéaire de microphones.
[0057] Dans une autre forme d’exécution, le microphone est en forme de U et comprend deux jambes reliées par une troisième jambe, de préférence mais à titre d’exemple non limitatif perpendiculaire aux deux premières jambes.
[0058] Le dispositif de l’invention peut en outre utiliser des microphones ou réseaux de microphones supplémentaires y compris des microphones non orientables sur le boîtier de l’appareil ou des réseaux de microphones supplémentaires pour saisir le bruit de fond depuis différentes directions.
[0059] En outre, des microphones de différentes jambes peuvent être couplés par paires pour offrir une détection supplémentaire du bruit diffus le long d’autres directions.
[0060] Les différents signaux fournis par les différents réseaux sur le microphone sont ensuite post-traités afin de fournir un signal vocal avec un meilleur rapport du signal au bruit et capable de servir de donnée d’entrée pour un logiciel de reconnaissance vocale. La fig. 8est un organigramme illustrant divers filtres et procédés utilisés pour améliorer la sensibilité de détection de la voix.
[0061] Dans une première étape, les procédés formateurs de faisceaux (comme décrits ci-dessus) sont appliqués pour réduire le bruit et contrôler la directivité en calculant les différences entre les signaux fournis par différents microphones ou sous-systèmes de microphones.
[0062] Le bruit est en outre réduit davantage en utilisant un filtre Wiener. A cette fin, une estimation des caractéristiques spectrales d’un temps de 50 ms de bruit est effectuée (avant que la voix n’active le processus) et soustraite du reste du signal.
[0063] L’étape de post-filtrage entraîne une comparaison, dans le domaine fréquentiel, des quatre signaux fournis par le réseau de microphones (avant, arrière, gauche, droit), calculés par l’étape de formation de faisceau et débruités par la phase de réduction de bruit en utilisant un filtre adaptatif basé sur un algorithme DUET modifié (DUET, Degenerate Unmixing Estimation Technique). Pour chaque canal du formateur de faisceau, ces filtres adaptatifs permettent de diminuer l’influence du bruit dans le canal avant, par soustraction spectrale des signaux des trois autres canaux qui détectent essentiellement le bruit.
[0064] La quatrième étape implique un calcul de cohérence qui est effectué entre le signal avant fourni par le formateur de faisceau et le résultat du post-filtrage, afin de filtrer les signaux résiduels qui ne proviennent pas du locuteur. Deux signaux sont cohérents si l’un est une version proportionnellement à échelle et retardée de l’autre.
[0065] Finalement, l’appareil comprend également un détecteur d’activité vocale pour détecter lorsque le locuteur est en train de parler. La détection vocale est de préférence effectuée par analyse de la puissance du signal. Lorsqu’il n’y a pas de voix, le signal résiduel est supprimé afin d’éliminer tout bruit entre périodes de locution.
[0066] Cet appareil peut être utilisé par exemple pour des applications pour prendre des commandes vocales et des applications de reconnaissance vocale dans des restaurants, bars, discothèques, hôtels, hôpitaux, dans l’industrie du divertissement, magasins d’alimentation etc.

Claims (14)

1. Appareil portatif de saisie de la voix (1) comprenant: un bras orientable (23) adapté pour être orienté en direction de la bouche d’un utilisateur, ledit bras comprenant un premier réseau linéaire différentiel (25) de microphones, la directivité dudit premier réseau étant agencée en sorte à améliorer la détection de la voix émanant de la bouche dudit utilisateur; un deuxième réseau linéaire différentiel (24) de microphones, la directivité dudit deuxième réseau étant agencée en sorte à améliorer la détection du bruit provenant d’une direction différente de la bouche de l’utilisateur; un circuit de réduction de bruit pour fournir un signal vocal avec un bruit réduit, sur la base du signal de sortie dudit premier réseau et du signal de sortie dudit deuxième réseau.
2. L’appareil de la revendication 1, dans lequel le circuit de réduction de bruit est basé sur des techniques de cohérence pour supprimer le bruit du signal de sortie dudit premier réseau.
3. L’appareil de l’une des revendications 1 ou 2, dans lequel ledit bras comprend une première jambe avec ledit premier réseau linéaire (25) et une deuxième jambe avec ledit deuxième réseau linéaire (24), ladite première jambe et ladite deuxième jambe possédant différentes orientations.
4. L’appareil de la revendication 3, comprenant une connexion rotative pour pivoter ledit bras autour de l’axe de l’une desdites jambes, en sorte que l’utilisateur (2) puisse orienter une jambe vers sa bouche.
5. L’appareil de l’une des revendications 3 ou 4, ledit bras étant en forme de L, le premier réseau linéaire (25) étant disposé sur une première jambe et le deuxième réseau linéaire (24) sur une deuxième jambe dudit bras en forme de L, dans lequel ledit bras peut être pivoté autour d’un axe parallèle à ladite jambe.
6. L’appareil de l’une des revendications 3 ou 4, ledit bras étant en forme de U et comprenant trois réseaux de microphones.
7. L’appareil de l’une des revendications 1 à 6, ledit bras comprenant une pluralité de jambes, au moins un réseau de microphones comprenant un microphone sur deux jambes différentes.
8. L’appareil de l’une des revendications 1 à 7, construit autour d’un assistant numérique personnel avec ledit bras étant un accessoire externe détachable monté sur ledit assistant numérique personnel.
9. L’appareil de l’une des revendications 1 à 7, construit autour d’un assistant numérique personnel avec ledit bras étant connecté sans fil audit assistant numérique personnel.
10. L’appareil de l’une des revendications 1 à 9, comprenant en outre: des moyens de traitement de données; un écran d’affichage (21); une interface de communication sans fil; un filtre Wiener pour la réduction de bruit; un détecteur d’activité vocale.
11. L’appareil de l’une des revendications 1 à 10, connecté de manière opérationnelle à un module logiciel de reconnaissance vocale dépendant de l’utilisateur.
12. L’appareil de la revendication 11, ledit module de reconnaissance vocale dépendant de l’utilisateur comprenant une grammaire et un dictionnaire adapté pour des applications de commande et de contrôle et/ou pour prendre des commandes dans des restaurants.
13. L’appareil de l’une des revendications 1 à 12, la directivité dudit microphone étant adapté pour la saisie vocale à une distance de la bouche plus grande que 15 cm dans des conditions bruyantes.
14. Un procédé pour saisir la voix, comprenant: la saisie du signal vocal avec un premier réseau linéaire différentiel (25) de microphones montés sur une première jambe d’un bras rotatif (23) d’un appareil portatif (1), ledit bras étant dirigé vers la bouche du locuteur; la saisie du bruit à partir d’au moins une direction différente de la direction dudit signal utile, en utilisant un deuxième réseau différentiel linéaire (24) de microphones monté sur une deuxième jambe dudit bras, ladite première et deuxième jambe possédant différentes directions; la réduction du bruit à partir dudit signal vocal, utilisant les données de sortie dudit deuxième réseau.
CH01848/09A 2009-12-02 2009-12-02 Appareil et procédé pour la saisie et le traitement de la voix. CH702399B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CH01848/09A CH702399B1 (fr) 2009-12-02 2009-12-02 Appareil et procédé pour la saisie et le traitement de la voix.
EP10785422.6A EP2508009B1 (fr) 2009-12-02 2010-12-01 Dispositif et procédé de capture et de traitement d'une voix
PCT/EP2010/068649 WO2011067292A1 (fr) 2009-12-02 2010-12-01 Dispositif et procédé de capture et de traitement d'une voix
ES10785422.6T ES2554622T3 (es) 2009-12-02 2010-12-01 Dispositivo y método para capturar y procesar la voz
US13/483,904 US9510090B2 (en) 2009-12-02 2012-05-30 Device and method for capturing and processing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CH01848/09A CH702399B1 (fr) 2009-12-02 2009-12-02 Appareil et procédé pour la saisie et le traitement de la voix.

Publications (2)

Publication Number Publication Date
CH702399A2 true CH702399A2 (fr) 2011-06-15
CH702399B1 CH702399B1 (fr) 2018-05-15

Family

ID=43622622

Family Applications (1)

Application Number Title Priority Date Filing Date
CH01848/09A CH702399B1 (fr) 2009-12-02 2009-12-02 Appareil et procédé pour la saisie et le traitement de la voix.

Country Status (5)

Country Link
US (1) US9510090B2 (fr)
EP (1) EP2508009B1 (fr)
CH (1) CH702399B1 (fr)
ES (1) ES2554622T3 (fr)
WO (1) WO2011067292A1 (fr)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2832111B1 (fr) 2012-03-26 2018-05-23 University of Surrey Séparation de source acoustique
US9462362B2 (en) * 2013-03-29 2016-10-04 Nissan Motor Co., Ltd. Microphone support device for sound source localization
WO2015001105A1 (fr) 2013-07-04 2015-01-08 Veovox Sa Procédé d'assemblage de commandes, et terminal de paiement
CN104464739B (zh) 2013-09-18 2017-08-11 华为技术有限公司 音频信号处理方法及装置、差分波束形成方法及装置
US9633383B2 (en) * 2014-05-30 2017-04-25 Paypal, Inc. Voice and context recognition for bill creation
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US10229686B2 (en) * 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US9369186B1 (en) 2014-12-04 2016-06-14 Cisco Technology, Inc. Utilizing mobile devices in physical proximity to create an ad-hoc microphone array
US20160165341A1 (en) * 2014-12-05 2016-06-09 Stages Pcs, Llc Portable microphone array
US10609475B2 (en) * 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US9747367B2 (en) 2014-12-05 2017-08-29 Stages Llc Communication system for establishing and providing preferred audio
US9654868B2 (en) 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
EP3230827B1 (fr) * 2014-12-11 2024-08-07 Cerence Operating Company Amélioration de la parole lors de l'utilisation d'un dispositif électronique portatif
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11330368B2 (en) * 2015-05-05 2022-05-10 Wave Sciences, LLC Portable microphone array apparatus and system and processing method
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
CN105681988B (zh) * 2015-12-30 2019-01-22 临境声学科技江苏有限公司 一种线性阵列拾音器及控制方法
CN106950542A (zh) * 2016-01-06 2017-07-14 中兴通讯股份有限公司 声源的定位方法、装置及***
GB201607455D0 (en) 2016-04-29 2016-06-15 Nokia Technologies Oy An apparatus, electronic device, system, method and computer program for capturing audio signals
US9980042B1 (en) 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
US9980075B1 (en) 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN106658323A (zh) * 2017-02-28 2017-05-10 浙江诺尔康神经电子科技股份有限公司 人工耳蜗及助听器的双麦克风降噪***和方法
JP6874430B2 (ja) * 2017-03-09 2021-05-19 ティアック株式会社 音声レコーダ
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
FR3073067B1 (fr) * 2017-10-27 2020-11-13 Deepor Procede de pilotage d'une salle notamment operatoire d'un plateau medico-technique
DE102018202185A1 (de) * 2018-02-13 2019-08-14 Divvoice UG (haftungsbeschränkt) Vorrichtung zum Optimieren eines gastronomischen Betriebs
EP3528509B9 (fr) * 2018-02-19 2023-01-11 Nokia Technologies Oy Agencement de données audio
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
EP3942842A1 (fr) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Boîtiers et caractéristiques de conception associées pour microphones matriciels de plafond
CN114051738A (zh) 2019-05-23 2022-02-15 舒尔获得控股公司 可操纵扬声器阵列、***及其方法
CN114051637A (zh) 2019-05-31 2022-02-15 舒尔获得控股公司 集成语音及噪声活动检测的低延时自动混波器
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形***
WO2022260646A1 (fr) * 2021-06-07 2022-12-15 Hewlett-Packard Development Company, L.P. Ajustements de formation de faisceau directionnel de microphone

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2544535B2 (ja) 1991-04-24 1996-10-16 株式会社日立製作所 移動音源の計測装置及び計測方法
US5473701A (en) * 1993-11-05 1995-12-05 At&T Corp. Adaptive microphone array
CA2151073A1 (fr) 1994-07-28 1996-01-29 Bishnu Saroop Atal Interface utilisateur intelligente
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6473514B1 (en) * 2000-01-05 2002-10-29 Gn Netcom, Inc. High directivity microphone array
US20020007315A1 (en) 2000-04-14 2002-01-17 Eric Rose Methods and apparatus for voice activated audible order system
US7110963B2 (en) 2000-09-07 2006-09-19 Manuel Negreiro Point-of-sale customer order system utilizing an unobtrusive transmitter/receiver and voice recognition software
WO2003013185A1 (fr) 2001-08-01 2003-02-13 Dashen Fan Faisceau cardioide avec dispositifs acoustiques fondes sur le nul, systemes et procedes correspondants
US20030125959A1 (en) 2001-12-31 2003-07-03 Palmquist Robert D. Translation device with planar microphone array
EP1652404B1 (fr) * 2003-07-11 2010-11-03 Cochlear Limited Procede et dispositif de reduction du bruit
US20050026560A1 (en) * 2003-07-28 2005-02-03 Fellowes Inc. Audio communications system including wireless microphone and wireless speaker
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP2007027939A (ja) 2005-07-13 2007-02-01 Advanced Telecommunication Research Institute International 音響信号処理装置
CN1809105B (zh) 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及***
TW200808087A (en) 2006-07-17 2008-02-01 Fortemedia Inc External microphone module
US7957972B2 (en) * 2006-09-05 2011-06-07 Fortemedia, Inc. Voice recognition system and method thereof
US8837746B2 (en) * 2007-06-13 2014-09-16 Aliphcom Dual omnidirectional microphone array (DOMA)
JP4332753B2 (ja) * 2007-06-13 2009-09-16 ソニー株式会社 音声レコーダ
JP5228407B2 (ja) * 2007-09-04 2013-07-03 ヤマハ株式会社 放収音装置
JP4983630B2 (ja) 2008-02-05 2012-07-25 ヤマハ株式会社 放収音装置
JP2009260418A (ja) 2008-04-11 2009-11-05 Yamaha Corp 音響機器
JP4753978B2 (ja) * 2008-07-08 2011-08-24 株式会社ズーム ステレオ収録用マイクロホンユニット

Also Published As

Publication number Publication date
US20120330653A1 (en) 2012-12-27
EP2508009A1 (fr) 2012-10-10
CH702399B1 (fr) 2018-05-15
WO2011067292A1 (fr) 2011-06-09
US9510090B2 (en) 2016-11-29
ES2554622T3 (es) 2015-12-22
EP2508009B1 (fr) 2015-09-23

Similar Documents

Publication Publication Date Title
CH702399A2 (fr) Appareil et procédé pour la saisie et le traitement de la voix.
CN111630876B (zh) 音频设备和音频处理方法
EP2530673B1 (fr) Equipement audio comprenant des moyens de débruitage d&#39;un signal de parole par filtrage à délai fractionnaire
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入***
EP2518724B1 (fr) Combiné audio micro/casque comprenant des moyens de débruitage d&#39;un signal de parole proche, notamment pour un système de téléphonie &#34;mains libres&#34;
US20160240210A1 (en) Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
US20080175408A1 (en) Proximity filter
WO2014161309A1 (fr) Procédé et appareil pour qu&#39;un terminal mobile mette en œuvre un suivi de source vocale
CN112185408B (zh) 音频降噪方法、装置、电子设备以及存储介质
CN113203988B (zh) 声源定位方法及装置
WO2020043037A1 (fr) Dispositif, système et procédé de transcription vocale, et dispositif électronique
WO2014171920A1 (fr) Système et procédé de traitement d&#39;une réverbération de signal acoustique
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
Liu et al. Wavoice: An mmWave-Assisted Noise-Resistant Speech Recognition System
EP3149968B1 (fr) Procédé d&#39;aide au suivi d&#39;une conversation pour personne malentendante
CN110517682A (zh) 语音识别方法、装置、设备及存储介质
Geng et al. A speech enhancement method based on the combination of microphone array and parabolic reflector
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
WO2004112370A1 (fr) Procede et dispositif de traitement d’echo
FR3085784A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
EP4064725B1 (fr) Procede de selection dynamique de microphones
US20230421702A1 (en) Distributed teleconferencing using personalized enhancement models

Legal Events

Date Code Title Description
PL Patent ceased