FR2691829A1 - Système de reconnaissance de la parole. - Google Patents

Système de reconnaissance de la parole. Download PDF

Info

Publication number
FR2691829A1
FR2691829A1 FR9306412A FR9306412A FR2691829A1 FR 2691829 A1 FR2691829 A1 FR 2691829A1 FR 9306412 A FR9306412 A FR 9306412A FR 9306412 A FR9306412 A FR 9306412A FR 2691829 A1 FR2691829 A1 FR 2691829A1
Authority
FR
France
Prior art keywords
speech
data
signal
input
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9306412A
Other languages
English (en)
Other versions
FR2691829B1 (fr
Inventor
Ho-Sun Chung
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Goldstar Electron Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goldstar Electron Co Ltd filed Critical Goldstar Electron Co Ltd
Priority to FR9306412A priority Critical patent/FR2691829B1/fr
Publication of FR2691829A1 publication Critical patent/FR2691829A1/fr
Application granted granted Critical
Publication of FR2691829B1 publication Critical patent/FR2691829B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

Système de reconnaissance de la parole comprenant une unité d'entrée de parole (10, 20) pour entrer un signal de parole, un analyseur de parole (30) pour diviser le signal de parole provenant de l'unité d'entrée de parole en des bandes de fréquences prédéterminées pour exprimer le signal divisé sous la forme d'un niveau d'énergie dans chaque bande de fréquences, et un calculateur hôte (60) pour entrer le signal provenant de l'analyseur de parole, numériser le signal d'entrée en comparant le niveau d'énergie de chaque bande de fréquences par rapport au signal, et délivrer extérieurement un signal de parole correspondant aux données numérisées, permettant ainsi de réaliser un nouveau système de reconnaissance de la parole.

Description

Système de reconnaissance de la parole.
La présente invention a trait à un système de reconnaissance de la parole, et plus particulièrement à un système de reconnaissance de la parole monosyllabique coréenne. Lorsque des caractéristiques sont extraites en vue de la reconnaissance de la parole, la perception d'une caractéristique intrinsèque utilisée pour distinguer les syllabes parlées est très difficle par suite du débit vocal, de l'accent et des habitudes de prononciation d'un parleur donné, des variations environnementales durant la parole, l'état émotionnel du parleur etc De plus, par suite des variations du langage articulé, même un phonème représente différentes caractéristiques phonétiques qui,
sont, à leur tour, affectéespar les phonèmes le précé-
dant et le suivant Ces facteurs provoquent des difficultés
pour développer un algorithme pour extraire les caracté-
ristiques particulières de la parole, et rendent l'expres-
-sion et l'intégration de la connaissance obtenue au moyen
de l'algorithme incommode.
Une recherche dans l'usage de systèmes établis a
été largement effectuée pour résoudre les problèmes pré-
cités On connait ainsi différents procédés tels qu'une ana-
lyse de formant pour placer des sons vocaux en fonction d'une composante vocale, un procédé de distorsion de temps dynamique (DTW) selon lequel une distorsion entre les articulations individuelles d'un seul mot est diminuée au moyen d'une technique de programmation dynamique de sorte que la parole la plus cohérente peut être sélectionnée en vue d'une reconnaissance, et un procédé à modèle de Markov caché (HMM) pour une reconnaissance de la parole
par visualisation d'un-signal composé phonétiquement.
Toutefois, puisque la plupart des systèmes de reconnaissance de la parole jusqu'ici réalisés utilisant les procédés précités exigent une quantité considérable
de calculs pour reconnaître une voix humaine parlée natu-
rellement et acceptant les différentes articulations de la parole, leur utilisation et pertinence réelles est douteuse et une reconnaissance de la parole en temps réel
devient difficile Un modèle à réseau -
la théorie des ensembles flous est proposé en tant que
procédé pouvant résoudre les problèmes généraux de recon-
naissance de configuration (par exemple, reconnaissance
de la parole).
A la différence d'un calculateur de Fbhn-Noimann, le modèle à réseau neuronal peut non seulement apprendre les règles correctes pour résoudre les questions surgissant de données ambiguës, incomplètes et discordantes, mais également traiter en parallèle une multitude de neurones, de sorte que le modèle à réseau neuronal peut être utilisé dans un domaine nécessitant un traitement parallèle, tel que la reconnaissance de parole Le modèle à réseau neuronal
possède trois avantages principaux.
Tout d'abord, il est hautement adaptable C'est-
à-dire qu'une voie humaine est diversifiée selon le bruit
environnant et les caractéristiques d'un parleur qui peu-
vent être effectivement appris par le modèle à réseau neuronal En second lieu, la procédure d'apprentissage est raisonnable Tandis qu'un traitement algorithmique en extrayant correctement une caractéristique intangible d'une variété de données de parole est très difficile,
le modèle à réseau neuronal peut extraire lui-même la carac-
téristique pour apprendre par l'intermédiaire de l'appro-
che l'étude-par-l' exemple.
En troisième lieu, le traitement parallèle ci-
dessus peut être exécuté dans le modèle à réseauneuronal,le
résultant étant obtenu par les nombreux neurones fondamen-
taux qui accomplissent le traitement parallèle, de sorte qu'une énorme quantité de temps nécessaire pour l'appren-
tissage peut être manipulée par le traitement parallèle.
Dans les procédés établis, une configuration de référence spécifique est déterminée préalablement, ou une abondance de règles ayant trait à des données de parole sont programmées une par une Tandis que dans le système utilisant le réseau neuronal, puisque les caractéristiques révélées extérieurement d'information sont apprises, des configurations peuvent être classées sans nécessiter une instruction spécifique pour une information de variation de caractéristiques, et de meilleures performances peuvent
être obtenues par rapport à une configuration modifiée.
Un modèle de réseau neuronal représentatif qui introduit
réellement le réseau neuronal en tant que procédé de-recon-
naissance de la parole pour améliorer des performances de la parole est un réseau neuronal à retard temporel (TDNN) qui a montré des performances dans la reconnaissance de la parole par phonème syllabique Egalement, une expérience dans laquelle un sous-réseau correspondant à un groupe phonologique est formé en tant que module s'est traduite par une extension de la plage d'objets reconnus, sans
abaisser la vitesse de reconnaissance élevée du sous-
reseau.
Afin d'appliquer réellement et d'utiliser suf-
fisamment les caractéristiques du réseau neuronal décrit ci-dessus, une réalisation de circuit est nécessaire mais, contrairement à une simulation par logiciel, celle-ci présente de nombreuses limitations Par conséquent, un réseau neuronal de perception à couches multiples à entrée
commandée (IDMLP) est proposé.
Egalement, puisque la caractéristique de fréquence diffère selon chaque parleur même bien que le même mot soit prononcé (c'est-à-dire dûe à la diversité de vitesse de parole), la théorie des ensembles flous est introduite.
Un des buts de la présente invention est de pro-
poser un système de reconnaissance de la parole de mono-
syllabes coréennes, utilisant un réseau neuronal et un algo-
rithme s'adaptant à une configuration floue.
Pour atteindre le but précité de la présente invention, on prévoit un système de reconnaissance de la parole comportant: des moyens d'entrée de parole pour entrer un signal de parole; des moyens d'analyse de parole pour diviser le signal de parole provenant des moyens d'entrée de parole en des bandes de fréquences prédéterminées pour exprimer le signal de parole divisé en tant que niveau d'énergie dans chaque bande de fréquences; et
un calculateur hôte pour entrer le signal pro-
venant des moyens d'analyse de parole, numériser le signal de parole en comparant le niveau d'énergie de chaque bande de fréquences par rapport au niveau d'énergie d'une bande de fréquences voisine, et délivrer extérieurement
un signal de parole correspondant à des données numérisées.
Les buts précités et avantages de la présente
invention ressortiront mieux de la description détaillée
d'un mode de réalisation préféré de celle-ci en référence aux dessins annexés sur lesquels: la Figure 1 est un schéma synoptique représentant une structure de circuit pour effectuer une analyse de la parole selon la présente invention la Figure 2 représente un mode de réalisation d'un amplificateur analogique de la Figure 1 selon la présente invention; la Figure 3 représente un mode de réalisation de l'analyseur de parole de la Figure 1 selon la présente invention; la Figure 4 représente un signal de sortie à une seule trame de l'analyseur de parole par rapport à une voyelle coréenne parlée; la Figure 5 est un organigramme représentant l'analyse de parole de l'analyseur de parole; la Figure 6 est un organigramme représentant une étape d'extraction de données d'analyse de la parole; la Figure 7 représente la réponse spectrale d'un signal de parole
la Figure 8 représente une réponse spectrale nu-
mérisée du signal de parole de la Figure 7; la Figure 9 représente les étapes de numérisation de données rendues floues;
la Figure 10 représente une structure d'un ré-
seau neuronal modulaire IDMLP; la Figure 11 est un tableau représentant des syllabes à classer en consonnes-voyelles monosyllabiques; et les Figures 12 A à 12 E représentent un taux de
classification respectif par rapport à chaque module.
Sur la Figure 1, un système de reconnaissance de la parole comprend: un microphone 10 pour entrer une parole; un amplificateur analogique 20 pour amplifier la parole du microphone 10; un analyseur de parole 30 pour analyser un signal de parole provenant de l'amplificateur analogique 20; un panneau d'interface 40 pour assurer
l'interface avec un calculateur personnel (PC); des mé-
l O canismes d'entraînement de disques durs et souples (HDD et FDD) 50 pour échanger des données avec le calculateur un calculateur hôte 60 relié au panneau d'interface 40 et aux HDD et FDD 50; un clavier 70 qui constitue une unité d'entrée du calculateur hôte 60; et un moniteur 80 qui
constitue une unité de sortie du calculateur hôte 60.
Le circuit analogique pour l'entrée de la parole comme représenté sur la Figure 2 est conçu pour régler le volume de la parole entrée, en utilisant une résistance variable Un amplificateur différentiel 90 (par exemple une puce TLO 72 CP) possède une largeur de bande de fréquence au-delà de 10 K Hz puisque les fréquences vocales humaines normales vont jusqu'à 7 K Hz Puisque les signaux numériques et analogiques sont mélangés dans la partie d'analyse de
la parole, une grande attention doit être prêtée au bruit.
Dans la présente invention, un tel bruit est éliminé en utilisant un condensateur présentant une capacité d'environ
0,1 RF Le signal de sortie de l'étage amplificateur ana-
logique est utilisé en tant que signal d'entrée pour
l'analyseur de parole 30 qui délivre des données à 8 bits.
La Figure 3 est un schéma synoptique représentant un mode de réalisation de l'analyseur de parole 30 qui est divisé en deux parties L'une est une partie d'interface comprenant un comparateur à 8 bits 31 (par exemple une puce 74 L 5688) et une puce d'interface 32 (par exemple,
un 8255 PPI), et la partie effectuant l'analyse de la pa-
role (chiffre de référence 33 désignant par exemple, une puce p PD 7763) Puisque la puce 74 L 5688 est une puce du type à collecteur ouvert, une résistance élévatrice 35 est
montée entre la sortie (broche 19) et une source d'ali-
mentation (Vcc) En utilisant la puce 8255 P Pl pour consti-
tuer l'interface avec le PC, le panneau d'interface est conçu et fabriqué de façon simple Les puces 8255 P Pl et p PD 7763 sont commandées au moyen du calculateur hôte
, qui sera décrit plus en détail en référence au logiciel.
L'entrée d'adresse et de signaux de données à la puce d'analyseur de parole 33 utilise les bus de données et des bus d'adresses et une horloge à 4 M Hz est nécessaire pour synchroniser le fonctionnement de son circuit intérieur, ce qui est résolu au moyen d'un oscillateur à cristal
à 4 M Hz 34.
Une entrée RESTAURATION à la puce d'interface 32
restaure automatiquement lorsque le calculateur est ini-
tialisé en reliant la borne de restauration dans un secteur
I/O du calculateur hôte 60.
La restauration de la puce d'analyseur de parole 33 doit être effectuée avant de fixer un mode d'entrée, mais le circuit global devient excessivement encombrant en opérant ainsi Ce problème est résolu dans la présente invention par l'emploi de la puce 8255 P Pl et du logiciel associé Plus en détail, une valeur correspondant au signal de restauration est transférée le long du bus de données jusqu'à la borne de restauration de la puce d'analyseur de parole 33 par l'intermédiaire d'un port de sortie de
la puce d'interface 32.
Lorsqu'une borne de trame TRAME de la puce 33
de l'analyseur de parole délivre un " 1 " logique qui repré-
sente l'achèvement de l'analyse d'une trame, le calcula teur lit la valeur d'une série de filtres à 16 canaux à l'intérieur de la puce de l'analyseur de parole lui-même. En utilisant la puce d'interface 32 en tant qu'interface de cette partie, la partie de prétraitement exigeant le plus de temps pour reconnaître la parole est constituée
au moyen de circuits constituant ainsi un système de recon-
naissance de la parole en temps réel dans son ensemble.
Ainsi, bien qu'une quantité importante de temps est gaspillée pour analyser des signaux de parole en
utilisant une simulation logicielle générale, dans la pré-
sente invention, le signal de sortie d'un filtre passe-
bande à 16 canaux est obtenue dans le circuit, de sorte que le temps nécessaire est réduit pour ainsi former un système pouvant être utilisé pour une reconnaissance de
la parole en temps réel.
Le tableau 1 ci-après représente les caractéris-
tiques de fréquence des 16 filtres passe-bande à l'inté-
rieur de l'analyseur de parole 30 de la Figure 1.
TABLEAU 1
La Figure 5 représente les signaux de sortie d'une trame provenant de l'analyseur de parole 30 (Figure
1) par rapport à une voyelle coréenne, permettant l'obser-
vation du formant de la voyelle Ainsi, le système d'ana-
lyse de la parole conçu et fabriqué selon la présente
invention ne présente pas des inconvénients tels que l'exi-
gence d'un panneau de prétraitement.
FILTRE # FREQUENCE DE FREQUENCE FREQUENCE DE
COUPURE CENTRALE COUPURE
(BASSE) (HAUTE)
BPF 1 40 Hz 250 Hz 640 Hz BPF 2 120 Hz 450 Hz 820 Hz BPF 3 250 Hz 650 Hz 1060 Hz BPF 4 380 Hz 850 Hz 1240 Hz BPF 5 660 Hz 1050 Hz 1400 Hz BPF 6 850 Hz 1250 Hz 1650 Hz BPF 7 1080 Hz 1450 Hz 1940 Hz BPF 8 1210 Hz 1650 Hz 2140 Hz BPF 9 1450 Hz 1900 Hz 2500 Hz BPF 10 1510 Hz 2150 Hz 2800 Hz BPF 11 1810 Hz 2500 Hz 3280 Hz BPF 12 2200 Hz 2900 Hz 3720 Hz BPF I 3 2560 Hz 3300 Hz 4280 Hz BPF 14 2900 Hz 3800 Hz 4740 Hz BPF 15 3100 Hz 4500 Hz 6440 Hz BPF 16 3720 Hz 5400 Hz 7400 Hz La constitution du logiciel est double Tout d'abord, un programme de commande permet à un utilisateur d'utiliser aisément le panneau d'analyse de parole conçu et fabriqué comme dans ce qui précède Un tel programme de commande fixe les modes de fonctionnement de la puce d'interface 32 et de la puce d'analyseur de parole 33, et rythme l'entrée et/ou la sortie de données En second lieu, un autre programme détecte un intervalle de parole à partir des données interprétées comme se trouvant dans une région de fréquences spécifique après avoir traversé la puce d'analyseur de parole 33, normalise différemment des longueurs articulées, et enfin numérise des données
utilisées en tant qu'entrée au réseau neural IDMLP.
La détermination du mode de fonctionnement de la puce d'interface 32 est de désigner un point de connexion
qui effectue l'entrée et la sortie selon un mode opération-
nel fondamental Dans la présente invention, "PAO" et "P Bl" sont fixés en tant que ports de sortie, et le port "PBI" est désigné également en tant que port
d'entrée Le mode de fonctionnement ci-dessus est détermi-
né en utilisant des commandes de logiciel de langage C Port de sortie b(Ox 307, Ox 82);/*Sortie Port A&B, Entrée Port B*/ Dans la structure du circuit, la puce d'interface 32 est utilisée pour initialiser la puce d'analyseur de parole 33 et vérifier l'achèvement de l'analyse de la parole Par conséquent, le premier programme ci-dessus
pour commander la puce d'interface 32 est très simple.
Ensuite, le second programme ci-dessus pour com-
mander la puce d'analyseur de parole 33 est nécessaire.
A cet instant, le temps requis pour analyser les données
et lire les données analysées doit être calculé soigneuse-
ment pour s'assurer que la totalité du système est stable.
La puce d'analyse de parole doit être initialisée
en utilisant la puce d'interface 32 en exécutant les comman-
des en langage C suivantes: Port de sortie b( O x OO);/*Signal de Restauration p PD 7763 */ Retard( 1);/*Durée du Signal de Restauration*/ Port de sortie b( O xll);/*Signal de Restauration Libre*/ Puisque le signal de restauration initialise le
système, la commande ci-dessus retard (int) devient nécessaire.
Le contrôleur d'entrée/sortie de la puce d'analy-
seur de parole 33 commande les opérations de données d'en-
trée/sortie extérieures, en utilisant les bornes de bus
de données DBO-DB 7.
Le tableau 2 ci-dessous est donné pour expliquer des opérations selon cinq signaux de commande CS, WR, RD,
A O et A 1.
TABLEAU 2
CS RD WR A O A 1 Opération O 1 O O PC CSR-0 (gain & durée trame) 0 1 O 1 PC CSR-1 (fréquence coupure basse & ég marche/arrêt)
0 O 1 1 O CSR-0 ->PC
0 O 1 1 1 CSR-1 _>PC
0 O 1 O Premier entrée-premier sorti -> PC Après libération du signal de restauration, un mode de fonctionnement doit être fixé à l'intérieur de 378 gs Le mode de fonctionnement de la puce d'analyseur
de parole 33 est fixé en écrivant des données sur un re-
gistre de commande/état (CSR) à l'intérieur de la puce par l'intermédiaire du bus de données, dans lequel les types de mode de fonctionnement pouvant être commandés par le calculateur sont: ( 1) la durée d'une trame analysée, ( 2) le gain du préamplificateur, ( 3) la fonction marche/ arrêt d'un égaliseur, et ( 4) la fréquence de coupure d'un
filtre passe-bas.
Ces quatre informations élémentaires sont obte-
nues en écrivant des données sur le CSR par l'intermédiaire du bus de données à l'intérieur du calculateur Ici, en utilisant à nouveau le langage C, elles peuvent être obtenues comme suit: Port de sortie b(Ox 304, Ox 4 c);/*Od B, 16 ms*/ Port de sortie b(Ox 304, Ox 02);/* 25 Hz, EQ ARRET*/ La Figure 5 représente un organigramme global
depuis l'entrée de la parole jusqu'à la lecture des résul-
tats -analysés.
La Figure 6 représente une étape de détection
de l'intervalle de parole et d'obtention de données nu-
mérisées à utiliser en tant qu'entrée du réseau neuronal IDMLP, qui est exécutée après mémorisation du signal de sortie de l'analyseur de parole dans une mémoire du
calculateur par l'intermédiaire de la puce d'interface 32.
Dans la présente invention, une longueur de trame est fixée à 16 ms L'intervalle de parole doit être détecté
en données complètement analysées Dans la présente inven-
tion, lorsque le niveau d'énergie d'une trame est supérieur
à une tension de seuil prédéterminée, la trame est détermi-
née comme étant égale à la longueur de l'intervalle de parole Lorsqu'une personne répète plusieurs fois le même mot, les longueurs des mots prononcés sont rarement les mêmes, de sorte qu'une normalisation d'axe des temps doit être effectuée Lorsqu'un mot monosyllabique est répété, il dure généralement de 8 à 26 trames Ainsi, 15 trames sont fixées comme référence, la normalisation d'axe des temps est effectuée, et les données obtenues ci-dessus
sont numérisées.
Conformément à la présente invention, afin d'être utilisées en tant qu'entrée d'un réseau neuronal IDMLP, l'étape depuis l'entrée du microphone à la sortie de la série de filtres à 16 canaux est réalisée en circuit, pour ainsi économiser le temps de collecte des données d'entrée. L'étape d'extraction des données d'entrée est de saisir les données décrites ci-dessus finalement nor malisées et numérisées, et est effectuée comme ci-dessous
1 Le signal de parole est reçu par l'intermé-
diaire du microphone.
2 En utilisant le circuit de la Figure 2, le signal de parole reçu est amplifié à un volume correct pour être utilisé en tant qu'entrée de l'analyseur de
parole 30.
3 Le résultat de l'analyse est lu de l'analyseur
de parole.
4 L'intervalle de parole est détecté, en utili-
sant la valeur de seuil prédéterminée.
L'intervalle de parole est normalisé par rapport à l'axe des temps correspondant à la trame de référence. 6 La sortie de chaque filtre passe-bande est comparée à celle de son filtre adjacent, en numérisant
ainsi leurs niveaux d'énergie relatifs.
Le tableau 3 ci-après représente les données résultant de l'étape de détection d'intervalle de parole ci-dessus. 0 ú 1 Ol ú J 9 o Oz LZ LZ L L 91 IL O 6 11 0 O Il It 9 si 91 zi IL 8 V LI HI 8 O UL 09 811 O O 9 9 r 1V ZI L V Lú I 1 1 L L LIú Ol L 6 9 V Vz LE IL 9 V 8 V L Lz LI Vu L 98 911 0 t I Oz 81 Lt 61 LZ 6 Z 99 V 9 El' ti Ol VI L L 6 9 Iú 0 ú 8 8 S LZ 9 z 91 01 9 V 8 V 8 U 9 L IL Voi t II Vi 9 t I I UL O ú 1 Vz LZ oz IV z i Zú V 6 LIJI L LZ Iz si 91 zz PZ LE L E Il 1 VI i z 6 V 01 Z Il O ZI Vz s Z 9 1 91 Vz Vg 88 97 Z oz L I 8 V tzzl II s I 8 9 z 9 z 1 Vt 9 z 91 Vi Z 8 ú 9 9 V 6 L O V 09 LZ 011 L zz 81 zz Lt 61 CI VV Os Z 9 19 811 901 LJI 861 Z 91 1 it 61 Oz OL 9 V LC úZ 9 ú 9 V 19 IL 98 L O ZZI L 81 OLU 9 V 1 98 81 It 61 6 V t V OV çz 6 L Z: EL LOI M 6 99 V 81 91 Z OLI 8 L LI zi t I 1 z LL LL LL 8 Z LV 99 6 V Vt 011 O Vi 901 ZOI 91 ZI 91 8 Z 6 81 ZL O Lg OZ O i Z 69 69 Lú z 8 9 I 0 z VI ZI 9 ú 1 01 LI OL Vz 61 LI LZ LL 6 L 1 g t I z O Z 6 61 91 8 O I LI oz 61 Lz 91 9 9 z OV Uú 91 Ol z O 8 zz 8 i O 8 9 Il si O Il l I it lú ZI 81 ZI O ú ZI LI LT 61 L V Ll 1 91 z I IZ 91 t 1 tdzg l_Id 1,012 f_ 69 _J_ 8 L _ 9 9 A _V_ L _ 1Ii-_ I__ E flïa 1 'IúlVl On Lf, to 0, Nt La Figure 7 représente la réponse spectrale du
signal de parole.
La Figure 8 représente un spectre de fréquences
numérisé Ici, le niveau d'énergie de chaque filtre passe-
bande lu de l'analyseur de parole est comparé à la sortie du filtre dont la bande est immédiatement inférieure, de sorte qu'un " 1 " logique est fixé en tant que sortie du filtre lorsque sa valeur de sortie est supérieure à celle du filtre de fréquence inférieure (lorsque Ef Nî 1 C Ef N) et un "" logique est fixé dans le cas d'une valeur plus faible (lorsque Ef Nî > Ef N> Le tableau 4 ci-après représente le signal de sortie de parole numérisé obtenu en utilisant le procédé
décrit ci-dessus (Ici, le nombre de bits d'entrée corres-
pondant à une trame est quinze).
o I T O O O O O O O O O O O I 1 l O O O O O I I O O T T T T O O 1 Il
I O O O O T T O O T O O I O O I 111
O O I I O O O O O I I I O O O ZI Il
O O O O T I O O I I I O O O IIL
I I O O O I O O O O I I O O O O ll
O O O I O O O O I I I T O O 61
_ O O O O I T O O I t I O O O 8 L 1 I O I O O O O O O O I O O I I Li
O O I I I O O O O I O O O I _ 9 L
I O O O T O I O O I I O O I I
O I T O O O O O T I O O I I O t IL
O O O O _ I O O O I O I _ O O ú 1
I t O O I I I I O O I O O I ZL
O _ I O O O I O I O O O O TL
| _I_ |bl Ia |Z If | _Ia I| 01 Jl 6 _ | 8 J_ LJ | 9 I_ t_ afa J _L ___ -
17 flvt IE Li/ on a' Co O) to a' N Le tableau 4 représente le signal de sortie de
parole numérisé obtenu en utilisant le procédé décrit ci-
dessus (Ici, le nombre de bits d'entrée correspondant à
une trame est quinze).
Dans la présente invention, en tant qu'étape
antécédente de reconnaissance de parole coréenne monosyl-
labique, la théorie des ensembles flous et la capacité
d'adaptation précédente du réseau neuronal IDMLP sont expé-
rimentées pour reconnaître des chiffres prononcés de " O " à " 9 " (qui sont monosyllabiques en coréen) Egalement, dans la reconnaissance utilisant le réseauneuronal IDMLP, chaque syllabe des données de parole est rendue floue avec le résultat appris, de sorte que les expériences de reconnaissance sont effectuées par rapport au résultat appris au moyen d'une syllabe de données de parole, et la possibilité de combinaison du réseau neuronal et de la
théorie des ensembles flous est mesurée.
La Figure 9 représente l'étape de numérisation
des données rendues floues.
Chaque syllabe des données de parole obtenue en prononçant les chiffres de " O " à " 9 " dix fois est doublée
et rendue floue, et les données rendues floues sont en-
suite numérisées à une valeur de seuil appropriée.
Le tableau 5 ci-après représente le résultat
de la numérisation ci-dessus des données rendues floues.
I O O I O O I O O I O O O O SIL
O O O O I O I O O I O O O O 17 il
O O O I O I O O O O I O O () I ú 11
O O O i O I O O O O I O O O I ú 11 0 0 0 t 0 t 0 0 0 0 t 0 0 0 l Etú O O O 1 O O O O O I O O O 1 til
0 O O I O I O O O O I O O I I 011
O O O I O I O O O O I O O I I 6 L 1
0 O O I O I O O O O I O O I I 81
0 O O I O I O O O O I O O I I Li
0 O O I O I I O O I O O I I 91
0 0 0 t 0 t t 0 0 I t 0 0 t S Ig 0 O I O o I O O O I O O I I t'L 0 O O I O O O O I T 00 I I b L 0 O o O 1 O O O O O O Iúl 0 _ _ I O l t I O O J O O O O IL | Pl úId|bt 1 Zlà | J 14 01 J 6 J | 84 | L-4 | 9-q |d 5 q új | Zj | d s fl VîIa Ev J on Co t O on CO o. Puisque le nombre de noeuds d'entrée est régulier durant l'apprentissage du réseau, les longueurs des sons
prononcés différemment doivent être normalisées par rap-
port à l'axe des temps Dans la présente invention, en uti-
lisant 15 trames en tant que référence, si la trame d'une
configuration d'entrée est plus longue que la trame de ré-
férence, la normalisation selon l'axe des temps est réalisée
pour établir progressivement un intervalle de trame approprié.
Ici, 200 syllabes de données de parole prononcées par une personne sont utilisées en tant que données d'étude du réseau neural IDMLP, et l'expérience de reconnaissance est effectuée au moyen de 100 syllabes de données de parole à reconnaître qui sont extraites durant trois périodes de
temps différentes (le matin, à midi et le soir), respec-
tivement, afin de déterminer la capacité d'adaptation du système de reconnaissance de parole selon la présente
invention par rapport à la diversité de données de parole.
Après apprentissage, par rapport aux données d'étude, à la fois les données numérisées et les données rendues
floues présentent un taux de reconnaissance de 100 %.
De plus, par rapport aux données d'essai, l'apprentissage au moyen des données numérisées et des données rendues floues présentent tous deux un taux de reconnaissance élevé (plus de 94 %) Ces résultats expérimentaux sont
représentés sur les tableaux suivants.
Lorsque le réseau neuronal IDMLP est instruit au moyen des données numérisées, le taux de reconnaissance de l'expérience de reconnaissance est 94 % le matin (tableau 6 A), 99 % à midi (tableau 6 B) et 96 % le soir (tableau 6 C),
pour un taux de reconnaissance global de 96,3 %.
TABLEAU 6 A
X 1 " O " 1 " 1 " i" 2 " | " 3 g" 1 " 4 " 1 51 " ' " 6 " <<" 7 " " 8 ' " 911 reconnaissance
___ (%)
" O " 10 100
" 1 " 9 i 90
" 2 " 10 100
" 3 " 10 100
" 4 "' 10 100
I " 5 " 10 100
1 " 6 " 2 7 1 70
" 7 "' 2 8 80
" 8 " 10 100
" 9 " 10 100
TABLEAU 6 B
* i" O " " 1 " 1 " 21 '3 " 1 " 411 " 5 " 161 " 711 | 7 8 " 9 " ire onnaissance
" 1 " 10 100
" 2 "< 10 100
" 2 " 10 100
" 31 10 1000
" 14 " 1 0 100
l'5 " 10 100
" 6 " 9 I 90
1 " 7 "q 10 100 g" 8 " l 10 100
19 " 10 100
TABLEAU 6 C
D'autre part, lorsque le réseau neuronal IDMLP est instruit au moyen des données rendues floues, le taux de reconnaissance est 97 % le matin (tableau 6 D), 99 % à midi (tableau 6 E) et 98 % le soir (tableau 6 F), ou un taux de reconnaissance global de 98 %. j f O " s" 1 "'211 tg 3 " 1411 5115 " 6 " 7 " 11 " 8 11 9 recoimnnaissance
:0 " 10 100" 1 "X 9 1 90
" 2 " 10 100
1 " 3 " 10 100
" 4 " 10 100
" 5 " 10 100
" 6 " 1 2 7 1 70
lt" 7 " 10 100
" 8 " 10 100
" 9 19-10 100
TABLEAU 6 D
| O " 1 " | 1 "" 2 " |" 3 " |" 4 " 5 " 1 " 6 " -Q 7 " |" 8 " 1 " 9 " reconnaissance
" 10 I O 100
t 111 " 9 1 90
" 2 " 1 10 100
3 " 1 10 100
11 " 4 " l 10 100
11 " 511 10 100
11 " 6 " 1 8 1 80
11 " 711 10 100
11811 10 100
" 19 " 1 '10 100
TABLEAU 6 E
" 011 111 11211 3 t" 3 11411 11511 11611 11711 " 8 " " 119 l econnaissance
___ (%)
t" O " 10 100 " 1 "k 10 100
211 10 100
3 "' 10 100
14 " 11 10 100
t 5 10 100
1 " 6 " I 9 90
11711 10 100
11811 10 100
" 19 " 10 100
TABLEAU 6 F
Ainsi qu'on peut le comprendre des tableaux ci-
dessus, le taux de reconnaissance à midi est le plus élevé parmi les trois instants d'expériences, et les données ayant le taux de reconnaissance le plus mauvais est le chiffre prononcé " 6 " (en coréen). L'apprentissage du réseau neuronal IDMLP est terminé en une fois par rapport à l'apprentissage,soit par les données numérisées, soit par les données rendues floues Bien que la caractéristique structurale du réseau
neuronal IDMLP n'ait pas été vérifiéei le ésultat de recon-
naissance ne-présente pas une grande différence lorsque l'apprentissage est effectué à l'aide des données rendues floues, tandis que le taux de reconnaissance des chiffres
prononcés est légèrement accru.
" 1 | O " 1 l " 1 " " 12 " 3 "# 41 " 5 "' " 611 " 7 8 " " 9 " |reconnaissance
11 " O10 100
"Iit 9 1 90
" 2 "' 10 100
11311 10 100
I 14 " 1 10 100
1 " 5 " { 10 100
11 " 6 " 11 9 90
" 7 " 10 100
1 " 8 " 10 100
" 9 " 1 -10 100
Aux fins d'application du réseau neuronal IDMLP
à la reconnaissance de mots monosyllabiques coréens, un ré-
seau neuronal de classification de type pour classer les mots en cinq modules orientés sur des voyelles est tout d'abord réalisé, et le réseau total est constitué de six modules de manière à être finalement reconnu par chaque
sous-réseau par types classifiés Chaque module est consti-
tué d'un réseau neuronal IDMLP, la Figure 10 représente la
structure du réseau neuronal IDMLP modulaire.
Durant la classification de type, en utilisant
cinq sons de voyelles en tant que référence, un son d'en-
trée est classé en cinq groupes Les phonèmes objectifs à classer sont 70 monosyllabes coréennes d'une structure consonne-voyelle (C-V) formée conjointement avec cinq
voyelles coréennes, comme représenté sur la Figure 11.
Les données utilisées pour instruire le réseau Y-neu-
ronal de classification de type qui classe le son d'en-
trée en cinq groupes sont obtenues en extrayant uniquement la partie voyelle du son d'entrée, en effectuant ainsi l'apprentissage Dans chaque cas, les données utilisées sont de structure monosyllabique C-V et par conséquent, les voyelles peuvent être extraites simplement Puisqu'une
voyelle est positionnée à la fin du mot prononcé, l'extrac-
tion de plusieurs trames présentes à la fin des trames de référence (par exemple 15 trames) est suffisante pour être utilisée pour classer les types Cependant, si l'on considère l'extension progressive des mots objectifs à reconnaître, c'est-à-dire en considérant une parole ayant une structure monosyllabique consonne-voyelle-consonne
(C-V-C), l'algorithme ci-dessus ne convient pas.
Par conséquent, dans la présente invention, seule la partie centrale de la totalité de la trame est extraite pour être utilisée en tant que données d'étude du réseau neural de classification de type En utilisant un réseau
neural instruit au moyen des données extraites comme ci-
dessus, la classification de type est expérimentée le matin, à midi et le soir, en tant qu'expérience de recon-
naissance numérique prononcée.
Les données d'étude utilisent des données saisies en extrayant les parties voyelle de 350 syllabes de données de parole ( 70 syllabes formées conjointement avec les cinq
voyelles et chacune prononcée cinq fois par une personne).
Les données d'essai utilisent environ 420 syllabes de don-
nées de parole pour chacun de cinq modules, et au total 2500 syllabes, en effectuant ainsi le test d'analyse de module. Les Figures 12 A-F représentent un taux d'analyse
par rapport à des données de parole d'une structure mono-
syllabique C-V, représentant, en moyenne, un taux de succès
de classification de type de 98,4 % Les taux de classifi-
cation de type respectifs sont mesurés à 97,6 % pour le module "a", 98, 6 % pour le module "e", 98,1 % pour le module
"i", 98,3 % pour le module "o", et 98,1 % pour le module "u".
Ici, bien que l'apprentissage ait été effectué en extrayant les données à partir des données de parole monosyllabiques C-V, un taux de classification de type supérieur à 90 % est
obtenu en expérimentant une classification de type par rap-
port à des données de parole monosyllabiques C-V-C.
En résultat, le système de reconnaissance de la parole selon la présente invention peut obtenir un
résultat satisfaisant pour la reconnaissance de monosylla-
bes coréennes, ainsi que pour une reconnaissance de parole au-delà de cette parole monosyllabique, c'est-à-dire une parole à syllabes multiples, grâce une telle expérience
de reconnaissance De plus, un nouveau système de recon-
naissance de la parole peut être réalisé.
Bien que la présente invention ait été représentée
et décrite en particulier en référence à des modes de réali-
sation particuliers de celle-ci, l'homme de l'art compren-
dra que différentes variations de forme et de détails peu-
vent être effectuées sans s'écarter de l'esprit et de la
portée de l'invention.

Claims (2)

R E V E N D I C A T I O N S
1 Système de reconnaissance de la parole caractérisé
en ce qu'il comporte -
des moyens d'entrée de parole ( 10, 20) pour en-
trer un signal de parole, des moyens d'analyse de parole ( 30) pour diviser ledit signal de parole provenant desdits moyens d'entrée de parole en des bandes de fréquences prédéterminées pour exprimer le signal de parole divisé sous la forme d'un niveau d'énergie dans chaque bande de fréquences; et un calculateur hôte ( 60) pour entrer le signal provenant desdits moyens d'analyse de parole, numériser ledit signal de parole en comparant le niveau d'énergie
de chaque bande de fréquences par rapport au niveau d'éner-
gie d'une bande de fréquences adjacente, et délivrer exté-
rieurement un signal de parole correspondant aux données numérisées. -2 Système de reconnaissance de la parole selon la revendication 1, caractérisé en ce qu'il comporte en outre des moyens d'interface ( 40) pour assurer l'interface entre lesdits moyens d'analyse de parole ( 30) et ledit
calculateur hôte ( 60).
3 Procédé de reconnaissance de la parole dans un système de reconnaissance de la parole comprenant des moyens d'entrée de parole ( 10) pour entrer un signal de
parole, des moyens d'analyse de la parole ( 30) pour divi-
ser ledit signal de parole provenant desdits moyens d'en-
trée de parole en des bandes de fréquences prédéterminées pour exprimer le signal divisé sous la forme d'un niveau
d'énergie dans chaque bande de fréquences, et un calcula-
teur hôte ( 60) pour entrer le signal provenant desdits moyens d'analyse de la parole, numériser ledit signal d'entrée en comparant le niveau d'énergie de chaque bande
de fréquences par rapport au niveau d'énergie d'une bande de fréquences adjacente, et délivrer extérieurement un si-
gnal de parole correspondant aux données numérisées, le-
dit procédé étant caractérisé en ce qu'il comporte: une première étape d'entrée de données d'analyse de la parole dans ledit calculateur hôte; une seconde étape de détection dans l'intervalle de parole, en utilisant des données provenant de ladite première étape;
une troisième étape d'exécution d'une normalisa-
tion selon l'axe des temps, en utilisant des données pro-
venant de ladite seconde étape; une quatrième étape de numérisation des données qui ont été normalisées selon l'axe des temps; et une cinquième étape de mémorisation du résultat de ladite quatrième étape dans une mémoire dudit calculateur hôte.
FR9306412A 1993-05-28 1993-05-28 Système de reconnaissance de la parole. Expired - Fee Related FR2691829B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9306412A FR2691829B1 (fr) 1993-05-28 1993-05-28 Système de reconnaissance de la parole.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9306412A FR2691829B1 (fr) 1993-05-28 1993-05-28 Système de reconnaissance de la parole.

Publications (2)

Publication Number Publication Date
FR2691829A1 true FR2691829A1 (fr) 1993-12-03
FR2691829B1 FR2691829B1 (fr) 1995-03-31

Family

ID=9447542

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9306412A Expired - Fee Related FR2691829B1 (fr) 1993-05-28 1993-05-28 Système de reconnaissance de la parole.

Country Status (1)

Country Link
FR (1) FR2691829B1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3619509A (en) * 1969-07-30 1971-11-09 Rca Corp Broad slope determining network
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3619509A (en) * 1969-07-30 1971-11-09 Rca Corp Broad slope determining network
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Also Published As

Publication number Publication date
FR2691829B1 (fr) 1995-03-31

Similar Documents

Publication Publication Date Title
Reimao et al. For: A dataset for synthetic speech detection
EP0594480B1 (fr) Procédé de détection de la parole
US8566088B2 (en) System and method for automatic speech to text conversion
US5621857A (en) Method and system for identifying and recognizing speech
FR2520913A1 (fr) Procede et appareil de reconnaissance de mots-cles dans des paroles
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
FR2520911A1 (fr) Procede et appareil d&#39;analyse pour la reconnaissance de parole
EP1535276A2 (fr) Procede et appareil pour la classification de signaux sonores
Rangan et al. Exploiting spectral augmentation for code-switched spoken language identification
Dave et al. Speech recognition: A review
Radha et al. Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review
Barnard et al. Real-world speech recognition with neural networks
FR2691829A1 (fr) Système de reconnaissance de la parole.
Vu et al. Improved speech emotion recognition based on music-related audio features
Jegan et al. MFCC and texture descriptors based stuttering dysfluencies classification using extreme learning machine
Borrelli Data driven and signal processing techniques for audio forensics
Shahriar et al. Identification of Spoken Language using Machine Learning Approach
Cerna et al. An IOT-based Language Recognition System for Indigenous Languages using Integrated CNN and RNN
KR950003390B1 (ko) 음식 인식 시스템 및 이를 이용한 음성분석 데이타 추출방법
Ghai et al. Speaker Recognition for Hindi Language Using Deep Neural Network
Kruthika et al. Forensic Voice Comparison Approaches for Low‐Resource Languages
Grigaliūnaitė Accent identification using machine learning
Ibrahim et al. Predicting regional accents of Bengali language using deep learning
EP0595950B1 (fr) Procede et dispositif de reconnaissance de la parole en temps reel
Saini et al. A Robust Speech Emotion Detection Mechanism Using Supervised Deep Learning Paradigms

Legal Events

Date Code Title Description
R1 Appeal
DS Decision of the director general to state about an appeal
ST Notification of lapse

Effective date: 20070131