DE69030561T2

DE69030561T2 - Spracherkennungseinrichtung

Info

Publication number: DE69030561T2
Application number: DE69030561T
Authority: DE
Inventors: Toshio Akabane; Yoshiji Fujimoto; Kenji Sakamoto; Kouichi Yamaguchi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-12-28
Filing date: 1990-12-27
Publication date: 1997-10-09
Anticipated expiration: 2010-12-28
Also published as: EP0435282A3; EP0435282A2; US5404422A; EP0435282B1; DE69030561D1

Description

HINTERGRUND DER ERFINDUNG

1. Erfindungsgebiet

Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung nach dem Oberbegriff des Patentanspruchs 1, die ein neuronales Netzwerk einsetzt und jedes durch nicht spezifizierte Personen ausgesprochene Wort erkennen kann. Im Besonderen bezieht sich die Erfindung auf eine Spracherkennungseinrichtung, die in bezug auf die Zeitachse eine höhere effizientere nichtlineare Anpassung bietet.

2. Beschreibung des Standes der Technik

Heutzutage werden neuronale Netzwerke, die ein Modellsystem der Neuronen des menschlichen Gehirns sind, im Bereich der Spracherkennung eingesetzt. Den Erfindern der vorliegenden Anmeldung sind verschiedene Vorgehensweisen unter Verwendung eines neuronalen Netzwerks bekannt, die z.B. ein vielschichtiges neuronales Netzwerk des Perzeptrontyps mit einem Fehler-Backpropagation-Verfahren einsetzen (kurz: BP-Verfahren), das in Nakagawa: "Voice Information Processing", Septemberausgabe des Bit Magazine, Seiten 183-195, 1989, Vol. 21, Nr. 11 und in Shikano: "Application of Neural Network to Voice Information Processing" Proceedings on Communication Society, Seiten 27 bis 40, September 1988 beschrieben wurde.
Aus der US-A-3 310 783 ist ein Mustererkennungssystem bekannt, das im Besonderen für die Sprachanwendung geeignet ist, und das drei Stufen in Kaskade verbundener neuronaler Netzwerke enthält, wobei die letzte Stufe aus einem einfachen Netz besteht und jedes der Netze individuell trainiert wird. Das System ist so angelegt, daß die Merkmale eines unbekannten Musters in die erste Stufe der Netzwerke eingegeben werden und das letzte Netzwerk ein Ausgangssignal liefert, das ein Maß für die Gleichartigkeit des unbekannten Musters zu einem bekannten Muster ist.
Aus der Veröffentlichung "Phenome recognition using time-delay neural networks", Kapitel II-A, erster Absatz, von Waibel et al. ist ein Netzwerk bekannt, in dem gewichtete Summen verzögerter Eingangssignale verarbeitet werden.
Entsprechend der Veröffentlichung von D. Lubensky "Learning spectral-temporal dependencies using connectionist networks", Seite 419, rechte Spalte, Zeilen 8 bis 12, werden zwei benachbarte Spaltenvektoren der Eingangsschicht mit ihrer eigenen Gruppe versteckter Einheiten verbunden.
Allgemein werden Spracherkennungseinrichtungen in zwei Systeme aufgeteilt. In dem einen System wird eine eingehende Stimme in jedem Rahmen so analysiert, daß für jeden Rahmen Kennzeichen- oder charakteristische Vektoren (Kennzeichen- oder charakteristische Parameter) extrahiert werden. Die extrahierten Kennzeichen-Vektoren werden als zeitlich seriell angeordnete zweidimensionale Muster an eine Eingangsschicht eines neuronalen Netzwerks angelegt. In der Zwischenzeit wird ein Lehrersignal zur Identifizierung der eingegebenen Stimme auf eine Ausgangsschicht des neuronalen Netzwerks angewandt, wodurch unter Verwendung des BP-Verfahrens ein Gewichtungskoeffizient jeder Verbindung erhalten werden kann. Anschließend wird der Datenstrom der eingegebenen Stimme auf eine bestimmte Länge normiert, indem die Tatsache berücksichtigt wird, daß ein tatsächlich ausgesprochenes Wort eine individuelle Länge aufweist, auch wenn das gleiche Wort ausgesprochen wurde, da die Anzahl der in der Eingangsschicht des neuronalen Netzwerks enthaltenen Einheiten konstant ist. Weiter werden die Kennzeichen-Vektoren einer unbekannten eingegebenen Stimme auf das neuronale Netzwerk angewandt, das die Gewichtungskoeffizienten jeder Verbindung auf Grundlage der Kennzeichen-Vektoren gelernt hat. Anschließend kann die eingegebene Stimme abhängig von einem Ausgangswert jeder in der Ausgangsschicht des neuronalen Netzwerks enthaltenen Einheit erkannt werden.
In dem anderen System, das als System mit vielen Schablonen bezeichnet wird, werden die Sprachdaten jedes Worts, die durch viele und unspezifizierte Sprecher erzeugt wurden, in Segmente aufgeteilt. Anschließend werden die Sprachdaten auf Grundlage der Mitte jedes Segments oder eines Mittelwerts der zu jeder Gruppe gehörenden Sprachdaten als Referenzmuster gespeichert. Zur Segmentierung der Sprachdaten der Wörter wird eine Kombination verschiedener Algorithmen verwendet. Dann werden für eine unbekannte eingegebene Stimme alle Entfernungen zwischen dem Kennzeichen-Muster der eingegebenen Stimme und den Referenz- Mustern der gespeicherten Wörter mittels eines DP-Übereinstimmungs-Verfahrens so berechnet, daß das ausgesprochene Wort als ein mit der minimalen Entfernung zu einem Referenz-Muster passendes Wort erkannt wird.
Beide zuvor beschriebenen Systeme benötigen die Feststellung eines Anfangs und eines Endes des eingegebenen ausgesprochenen Worts. Die Feststellung eines Sprachintervalls, das durch Wortanfang und -ende definiert ist, hängt davon ab, ob eine Kurzzeitleistung, die größer als ein bestimmter Schwellenwert ist, für eine konstante Zeit oder länger andauert, oder nicht. Für die Kurzzeitleistung sind zwei Schwellenwerte vorgesehen. Das Sprachintervall kann festgestellt werden, indem diese beiden Schwellenwerte in Kombination verwendet werden. Alternativ kann es festgestellt werden, indem ein Nulldurchgang oder eine Differenz zwischen einem Rauschintervall und dem Sprachintervall selbst beobachtet wird.
Das ausgesprochene Wort ist jedoch ein zeitlich serielles Muster, wodurch ein tatsächlich ausgesprochenes Wort eine individuelle Dauer hat, auch wenn dasselbe Wort ausgesprochen wird. Außerdem weist es hinsichtlich der Zeit eine nichtlineare Fluktuation der Phoneme auf. Weiter ist es erwünscht einer falschen Erkennung aufgrund eines Hustens oder Papierraschelns vorzubeugen. Zur Unterscheidung nicht benötigter Töne von der Stimme wird jedoch ein Verfahren zur Worterkennung benötigt, das automatisch nur bestimmte Worte der ein Manuskript lesenden Stimme extrahiert.
Eines der zuvor beschriebenen Verfahren, hier das System mit vielen Schablonen, das das DP-Übereinstimmungs-Verfahren verwendet, setzt die Detektierung eines Sprachintervalls voraus, bevor die Erkennungsverarbeitung für die Stimme stattfindet. Jedoch ist es nicht leicht, das Sprachintervall richtig festzustellen, und sehr schwer, die Stimme eines Wortanfangs, einen Endkonsonanten und einen leisen Vokal zu detektieren. Weiter ist es nötig, Störgeräusche, wie z.B. an das Wortende hinzugefügte Atemgeräusche, korrekt zu entfernen. Die zuvor aufgeführten von der Kurzzeitleistung, Nulldurchgängen oder der Differenz zwischen dem Sprachintervall und dem Rauschintervall abhängigen Verfahren entsprechen diesen Bedürfnissen nicht. Daraus resultiert eine fehlerhafte Erkennung des Sprachintervalls und eine niedrige Erkennungsrate.
Wird das Verfahren zur Worterkennung eingesetzt, kann es den anderen Nachteil mit sich bringen, daß die kontinuierliche DP-Übereinstimmung eine große Anzahl Berechnungen benötigt, wodurch ein neues Wort hinzugefügt und ein tatsächliches Wortphonem gelöscht wird.
Das zuvor beschriebene Verfahren, welches das neuronale Netzwerk verwendet, benötigt eine Normalisierung des Intervalls der eingegebenen Stimme, da die im neuronalen Netzwerk enthaltene Eingangsschicht eine bestimmte Anzahl Einheiten enthält. Ist das Intervall der eingegebenen Stimme linear normalisiert, resultiert daraus jedoch sehr oft eine Transformation oder Verschiebung der dynamischen Information aufgrund des für die Identifizierung des ausgesprochenen Wortes benötigten Phonems, wodurch das längere oder kürzere nichtlineare Wort-Stimm- Muster nicht mehr korrigiert werden kann.
Weiter muß eine normale Spracherkennungseinrichtung sprachlose- und Rauschabschnitte vor und nach der Sprache aus dem durch das Mikrofon eingegebenen Signal entfernen, um ein Sprachintervall extrahieren zu können, also das Sprachintervall festzustellen.
Die Feststellung des Sprachintervalls ist nicht so schwer, wenn das Signal ein hohes S/R-Verhältnis aufweist. In diesem Fall kann das Sprachintervall als ein Intervall definiert werden, in dem die von einem Sprachsignal extrahierte Leistungsserie größer als ein Schwellenwert ist.
In tatsächlichen Umgebungen existieren jedoch verschiedene Rauschstörungen, wodurch sich das S/R-Verhältnis verschlechtern kann. Demzufolge ist es schwierig, einen schwachen bruchteilhaften Ton und einen ausgesprochenen Ton mit kleiner Amplitude festzustellen, wie sie oft am Anfang und Ende einer Stimme vorhanden sind. Weiter kann ein unregelmäßiges Störgeräusch fehlerhafterweise als Sprachintervall festgestellt werden.
Zur Feststellung eines Sprachintervalls mit Hintergrundstörungen wurde ein Verfahren zur Auswahl eines richtigen Sprachintervalls aus einer Mehrzahl von Kandidaten für dieses Intervall vorgeschlagen.
Dieses Verfahren beinhaltet im wesentlichen die zwei Schritte der Spracherkennung jedes Intervallkandidaten und der Auswahl des Intervalls als richtiges Sprachintervall, bei dem der höchste Testwert erhalten werden kann.
Als Verbesserung des zuvor beschriebenen Verfahrens wurde ein Verfahren vorgeschlagen, bei dem alle Zeitpunkte der Daten als Kandidaten für den vorderen Endpunkt und das Ende gesetzt werden, alle Intervalle eine Spracherkennung durchlaufen und das Intervall gefunden wird, bei dem der höchste Testwert erhalten werden kann. Ein Beispiel dieses Verfahrens ist die Worterkennung mittels eines kontinuierlichen DP-Verfahrens, wie sie zuvor beschrieben wurde.
Die Spracherkennungseinrichtung, die das Worterkennungsverfahren mit dem kontinuierlichen DP-Verfahren verwendet, hat einen Nachteil, daß sie eine niedrige Fähigkeit zur "Zurückweisung" und eine niedrige Resistenz gegen Störgeräusche aufweist. Weiter kann hier ein nicht benötigtes Wort hinzugefügt oder ein Wort oder Phonem ausgelassen werden, und es wird eine große Anzahl Berechnungen und ein großer Speicher benötigt, da die DP-Übereinstimmung immer durchgeführt werden muß.
Weiter muß die zuvor beschriebene Spracherkennungseinrichtung den vorderen Endpunkt im Voraus feststellen und kann das Testwort bei großem Erkennungsfehler fehlerhaft erkennen oder zurückweisen.

ZUSAMMENFASSUNG DER ERFINDUNG

Der Erfindung liegt die Aufgabe zugrunde, eine Spracherkennungseinrichtung anzugeben, die ein neuronales Netzwerk verwendet, das stabile Gewichtungskoeffizienten erhält und eine lokale Zeitverschiebung jedes Phonems der eingegebenen Wortäußerung kompensiert, das nichtlinear vom Muster des Referenzwortes fluktuiert.
Diese Aufgabe wird durch die Merkmale des kennzeichnenden Teils des Patentanspruchs 1 gelöst.
Weitere Aufgaben und Vorteile der Erfindung werden durch die folgende Beschreibung der bevorzugten Ausführungsformen der Erfindung verdeutlicht, wie sie in den beigefügten Zeichnungen dargestellt sind.

KURZBESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 zeigt ein Blockschaltbild einer Spracherkennungseinrichtung nach einer ersten Ausführungsform der Erfindung;
Fig. 2 zeigt eine Darstellung der Anordnung der Netzwerke entsprechend der ersten Ausführungsform der Erfindung;
Fig. 3 und 4 zeigen Darstellungen der Anordnungen von Ereignisnetzen entsprechend der ersten Ausführungsform der Erfindung;
Fig. 5 zeigt eine Bezeichnung und einen mittleren Rahmen des Ereignisnetzes entsprechend der ersten Ausführungsform der Erfindung;
Fig. 6 zeigt eine Darstellung der Beziehung zwischen einer Leistung eines Bandpaßfilters und einem Eingangsrahmen des Ereignisnetzes entsprechend der ersten Ausführungsform der Erfindung;
Fig. 7A und 7B zeigen Darstellungen der Anordnung von Wortnetzen entsprechend der ersten Ausführungsform der Erfindung;
Fig. 8 zeigt eine Darstellung einer Anordnung eines Supernetzes entsprechend der ersten Ausführunsform der Erfindung;
Fig. 9 zeigt ein Flußdiagramm der Arbeitsschritte eines Bereichs für die Bestimmung eines erkannten Ergebnisses entsprechend der ersten Ausführungsform der Erfindung;
Fig. 10 zeigt ein Blockschaltbild einer Spracherkennungseinrichtung nach einer zweiten Ausführungsform der Erfindung;
Fig. 11 zeigt eine Darstellung der Anordnung der Netze entsprechend der zweiten Ausführungsform der Erfindung;
Fig. 12 zeigt eine Darstellung, wie ein Wort "hachi (Bedeutung: Biene)" in der zweiten Ausführungsform der Erfindung verarbeitet wird;
Fig. 13 zeigt eine Darstellung der Anordnung eines Wortnetzes entsprechend einer dritten Ausführungsform der Erfindung;
Fig. 14 zeigt ein Flußdiagramm des Lernprozesses des Wortnetzes;
Fig. 15 zeigt eine Darstellung eines Eingangsmusters für das Wortnetz, wie es in dem in der Fig. 14 gezeigten Lernverfahren verwendet wird;
Fig. 16 zeigt ein Flußdiagramm des Lernprozesses des Wortnetzes;
Fig. 17 zeigt eine Darstellung eines Eingangsmusters für das Wortnetz, wie es in dem in der Fig. 16 gezeigten Lernen verwendet wird.
Fig. 18 zeigt eine Darstellung einer Anordnung eines Supernetzes entsprechend der dritten Ausführungsform der Erfindung;
Fig. 19 zeigt ein Flußdiagramm des Lernprozesses des in der Fig. 18 gezeigten Supernetzes;
Fig. 20 zeigt eine Darstellung eines Eingangsmusters für das Supernetz für das Fig. 19 gezeigte Lernverfahren;
Fig. 21 zeigt eine Darstellung eines anderen Lernverfahrens des in der Fig. 17 dargestellten Supernetzes;
Fig. 22 zeigt eine Darstellung eines Eingangsmusters für das Supernetz, wie es in der Fig. 21 verwendet wird;
Fig. 23 zeigt ein Blockschaltbild der Spracherkennungseinrichtung entsprechend der dritten Ausführungsform der Erfindung;
Fig. 24 zeigt ein Blockschaltbild einer Spracherkennungseinrichtung nach einer vierten Ausführungsform der Erfindung;
Fig. 25 zeigt eine Darstellung eines Speicherbereichs für Kennzeichen-Vektoren, der in der Spracherkennungseinrichtung vorhanden ist;
Fig. 26 zeigt ein Diagramm der Beziehung zwischen einer jetzigen Zeit und einem angenommenen vorderen Endpunkt;
Fig. 27 zeigt eine Darstellung der Anordnung der neuronalen Netzwerke in der vierten Ausführungsform; und
Fig. 28 zeigt eine Darstellung der Auswahl eines Maximalwerts aus den Ausgangssignalen der Ereignisnetze.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

(Erste Ausführungsform)

Nachfolgend wird eine erste Ausführungsform der Erfindung in bezug auf die Fig. 1 bis 9 erörtert.
Die Fig. 1 zeigt ein Blockschaltbild der Spracherkennungseinrichtung. Bei der Einrichtung wird eine Stimme über ein Mikrofon 101 eingegeben und an einen Verstärker 102 gesendet, durch den sie verstärkt wird. Anschließend wird das verstärkte Signal mittels eines A/D-Wandlers 103 in ein digitales Signal gewandelt und an einen Frequenzanalysebereich 104 angelegt, in dem ein Bandpaßfilter 105 die Frequenzanalyse der Stimme und die Ausgabe eines Leistungswerts für jeden Rahmen durchführt, wodurch ein Kennzeichen-Vektor gebildet wird. Zur Reduzierung der Größe des Netzwerkes werden die Kennzeichen-Vektoren durch eine K-L- Transformation so komprimiert, daß ihre Dimensionen reduziert werden können.
Die Kennzeichen-Vektoren der eingegangenen Wortäußerung werden an eine Ereignisnetzgruppe 114 (siehe auch die Fig. 2) angelegt, die aus einer Mehrzahl Ereignisnetzen 107 besteht. Jede Ereignisnetzgruppe 114 liefert ein Ausgangssignal an jedes Wortnetz 108. Die Anzahl der aus Ereignisnetzgruppen 114 und Wortnetzen 108 bestehenden Kombinationen ist gleich zur Anzahl der Wortkategorien, in die ein erkennbarer Wortschatz (alle erkennbaren Wörter) unterteilt ist. Jedes Wortnetz 108 liefert ein Ausgangssignal an ein Supernetz 109.
Die Fig. 2 zeigt die Anordnung einer Spracherkennungseinrichtung, die nach der ersten Ausführungsform der Erfindung aufgebaut ist.
In der Fig. 2 wird der definierte Bereich der Kennzeichen-Vektoren 110 der eingegangenen Wortäußerung an eine Eingangsschicht des Ereignisnetzes 107 angelegt. Der definierte Bereich paßt zu einem Eingangsrahmen 111 der Eingangsschicht. Zur Eingabe eines bestimmten Wortes in die Eingangsschicht wird der Eingangsrahmen 111 fünfmal so auf einer Zeitachse verschoben, daß fünf Eingangsrahmen 111 vorbereitet werden. Das Ereignisnetz 107 dient zur Überprüfung von Ähnlichkeiten zwischen den Kennzeichen-Vektoren 110, die durch den Eingangsrahmen 111 gebildet sind, und der partiellen Reihe von Phonemen des bestimmten Wortes, sowie der Ausgabe eines zur Ähnlichkeit passenden Wertes an das Wortnetz 108. Das Wortnetz 108 dient der Überprüfung der Ähnlichkeit zwischen der eingegangenen Wortäußerung und dem durch das Wortnetz 108 zu erkennenden bestimmten Wort und gibt einen der Ähnlichkeit entsprechenden Wert aus. Demnach ist die Anzahl der Wortnetze 108 gleich zu der Anzahl Wörter des erkennbaren Wortschatzes. Jeder durch jedes Wortnetz 108 ausgegebene Wert wird an eine Eingangsschicht des Supernetzes 109 angelegt.
Das Supernetz 109 enthält ebenfalls eine Ausgangsschicht, die aus 30 Einheiten besteht, wobei jede Einheit zu einer Kategorienummer des erkennbaren Wortschatzes paßt und eine Einheit die "Zurückweisung" darstellt. Das Supernetz 109 dient der Definition eines Gewichtungskoeffizienten für jede Verbindung. Ist die eingegangene Wortäußerung in dem erkennbaren Wortschatz enthalten, so wird der Gewichtungskoeffizient so definiert, daß die Einheit der Kategorienummer der eingegangenen Wortäußerung den größten Wert von allen Einheiten ausgeben kann.
Ist die eingangene Wortäußerung andererseits nicht in dem erkennbaren Wortschatz enthalten, so wird der Gewichtungskoeffizient jeder Verbindung so definiert, daß die Einheit zur Zurückweisung den größten Wert von allen Einheiten ausgeben kann.
Der vom Supernetz 109 ausgegebene Wert wird an einen Bestimmungsbereich 112 für ein erkanntes Ergebnis geleitet. Der Bereich 112 dient der Zurückgewinnung und der Ausgabe der Kategorienummer der den größten Wert ausgebenden Einheit der Ausgangsschicht des Supernetzes 109. Anschließend wird die Nummer der Einheit vom Bereich 112 an einen Ergebnis-Ausgabebereich 113 geleitet, in dem das erkannte Ergebnis dargestellt wird.
Der gesamte Ablauf vom Frequenzanalysebereich 104 zum Bestimmungsbereich 112 für ein erkanntes Ergebnis kann auf einem digitalen Signalprozessor aufgebaut werden.
Nachfolgend wird die Beschreibung in bezug auf die Fig. 3 und 4 darauf gerichtet sein, wie der Gewichtungskoeffizient jeder in dem neuronalen Netzwerk enthaltenen Verbindung erhalten werden kann, also auf ein Lernverfahren.

(A) Lernverfahren des Ereignisnetzes

Das nach dieser Ausführungsform aufgebaute Ereignisnetz 107 besteht aus einem dreischichtigen neuronalen Netzwerk des Perzeptrontyps.
Die Fig. 3 zeigt wie Eingangsschichteinheiten 201, Mittelschichteinheiten 202 und eine Ausgangsschichteinheit 203 miteinander verbunden sind. Die Eingangsschichteinheiten 201 werden durch die Kennzeichen-Vektoren begrenzt. Das heißt, daß sie zu den Kennzeichen-Vektoren hin orientiert sind (in der Fig. 3 senkrecht in bezug auf das Papier). Ihre Anzahl ist gleich zu den Dimensionen der Kennzeichen- Vektoren. In der Spracherkennung werden normalerweise einige Rahmen des Bandpaßfilters zur besseren Effizienz komprimiert, da nebeneinanderliegende Rahmen untereinander hoch korreliert sind. Diese Ausführungsform verwendet Daten, die durch die Komprimierung von zwei Rahmenleistungen eines 16-kanaligen Bandpaßfilters durch die K-L-Transformation in sechs Dimensionen erhalten wurden, wobei siebendimensionale Kennzeichen-Vektoren alle Rahmenleistungen des Bandpaßfilters enthalten. Die Eingabeschichteinheiten 201 sind auf diese Weise parallel zu den sieben Kennzeichen-Vektoren ausgerichtet. Da sich ein Analyseabschnitt zu 10 ms ergibt und zwei Rahmen in einen Rahmen komprimiert wurden, ergibt sich der Zeitunterschied zwischen nebeneinanderliegenden Eingangsschichteinheiten 201 (in der Fig. 3 transversal in bezug auf das Papier) zu 20 ms.
Die Mittelschichteinheiten 202 enthalten fünf parallel zu den Kennzeichen-Vektoren ausgerichtete Einheiten. Jede der Mittelschichteinheiten 202 ist mit allen Eingangsschichteinheiten 201 verbunden.
Ebenso enthalten die Ausgangsschichteinheiten 203 zwei parallel zu den Kennzeichen-Vektoren angeordnete Einheiten. Jede der Ausgangsschichteinheiten 203 ist mit allen Mittelschichteinheiten 202 verbunden.
Zur Darstellung einer Eingangs-Ausgangs-Charakteristik der Mittelschichteinheiten 202 und der Ausgangsschichteinheiten 203 wird eine Sigmoidfunktion verwendet.
Die Fig. 4 zeigt das klein ausgelegte Ereignisnetz 107, in dem die Anzahl der Verbindungsleitungen zwischen den Mittelschichteinheiten 202 und den Eingangsschichteinheiten 201 für eine schnellere Verarbeitung reduziert wurden.
Bei der Spracherkennung können die Verbindungsleitungen reduziert werden, da sich die voneinander weit entfernt befindlichen Kennzeichen-Vektoren nicht gegenseitig negativ beeinflussen.
Nachfolgend wird die Beschreibung darauf gerichtet sein, wie das Ereignisnetz die eingegebenen Daten lernt. Zunächst werden die Kennzeichen-Vektoren der eingegangenen Äußerung mittels eines Spektrograms entsprechend der Phoneme der eingegangenen Äußerung so unterteilt, wie es durch die in der Tabelle 1 gezeigten Bezeichnungen dargestellt ist. In einem in jeglicher Kategorie des erkennbaren Wortschatzes enthaltenen Wort wird unter der Annahme, daß Lk die k-te Bezeichnung des Wortes darstellt, durch tk(n) eine Zeit bezeichnet wird, bei der die Grenze zwischen der Bezeichnung Lk und der Bezeichnung Lk+1 erscheint, also eine Zeit, bei der die Bezeichnung Lk mit einem vorderen Endpunkt erscheint, der auf eine Zeit 0 gesetzt ist, W(n) eine Wortlänge (Zeitlänge über alles) bezeichnet und Nc die Anzahl der in der Kategorie enthaltenen Worte bezeichnet, eine mittlere Zeit tk, zu der die Grenze zwischen der Bezeichnung Lk und der Bezeichnung Lk+1 erscheint, durch die folgende Gleichung (1) erhalten:
Die Grenze der Bezeichnung, die bei der mittleren Zeit tk des Erscheinens der Grenze erscheint, wird als Bezeichnungsreferenzmuster bezeichnet.
Die Fig. 5 zeigt das Bezeichnungsreferenzmuster eines Wortes "ichi", bei dem jeder der Pfeile die mittleren Rahmen der Kennzeichen-Vektoren 110 anzeigt, die an das Ereignisnetz 107 angelegt werden (der mittlere Rahmen bedeutet vom ersten Rahmen an gezählt der vierte Rahmen, da die Eingangsschicht des Ereignisnetzes 107 eine Anzahl von sieben Rahmen aufweist, wie oben dargestellt).
Der mittlere Rahmen jedes der Kennzeichen-Vektoren 110 ist so definiert, daß die mittleren Rahmen von dem ersten bis zum fünften Ereignisnetz 107 in gleichen Abständen angeordnet sind, wie es in der Fig. 2 gezeigt ist.
In der Fig. 5 ist dargestellt, daß der mittlere Rahmen jedes Ereignisnetzes 107 beim Lernen an der Position definiert ist, an der die Kennzeichen-Variablen derselben partiellen Phonemreihe eingegeben sind, die durch Vergleich des Referenzmusters mit dem Bezeichnungsmuster der eingegangenen Äußerung bestimmt wurden.
Wurde der Kennzeichenvektor 107 der Wortäußerung in die Eingangsschicht des Ereignisnetzes 107 an der Position eingegeben, an der jeder mittlere Rahmen definiert ist, so ist es möglich, den Kennzeichen-Vektor 110 mit der konstanten partiellen Phonemreihe auch dann konstant zu halten, wenn durch die Abnahme der Stimme eine nichtlineare zeitliche Reihe der Phoneme erzeugt wird.
Unter der Annahme, daß Eij das j-te Ereignisnetz 107 zur Erkennung der i-ten Wortkategorie des erkennbaren Wortschatzes bezeichnet, weist das Ereignisnetz Eij zwei Einheiten cij, in der Ausgangsschicht aus. Empfängt das Ereignisnetz Eij die dadurch zu erkennende partielle Phonemreihe, so gibt das folgende Lehrersignal aus:
(cij, ) = (1, 0) .... (2)
Empfängt das Ereignisnetz Eij andere Phoneme, so gibt es das folgende Lehrersignal aus:
(cij, ) = (0, 1) .... (3)
Um den Lernvorgang zu beschleunigen, kann es möglich sein, das Lehrersignal von 1 auf 0,9 und von 0 auf 0,1 zu ändern. Um das Lehrersignal weiter einfacher zu erzeugen, wenn das Ereignisnetz Eij das dadurch zu erkennende Wort empfängt, kann es das folgende Lehrersignal ausgeben:
(cij, ) = (1, 0) .... (4)
Empfängt das Ereignisnetz Eij ein anderes Wort, so kann es das folgende Lehrersignal ausgeben:
(cij, )= (0, 1) .... (5)
Auf diese Weise wird der Gewichtungskoeffizient jeder Verbindung in dem Ereignisnetz Eij definiert.
Lernt das Ereignisnetz Eij mit Ausnahme des darin zu erkennenden Wortes ein anderes Wort, so wird der mittlere Rahmen jedes Ereignisnetzes Eij so definiert, daß jedes Ereignisnetz Eij in gleichen Intervallen angeordnet ist. Dies ist gleich zu dem Verfahren, bei dem der mittlere Rahmen auf dem Referenzmuster definiert ist.
Das resultierende Ereignisnetz Eij, also das Ereignisnetz Eij, das ein jegliches anderes Wort lernt, erlaubt der Einheit cij einen Maximalwert auszugeben, und der Einheit einen Minimalwert auszugeben, wenn es die partiellen Phoneme des dadurch zu erkennenden Wortes erkennt. Im Gegensatz dazu erlaubt das Ereignisnetz Eij der Einheit cij einen Minimalwert auszugeben und der Einheit einen Maximalwert auszugeben, wenn es die anderen Phoneme des Wortes empfängt.
Die Anzahl der Ereignisnetzte Eij ist nicht auf fünf beschränkt. Sie kann für jedes zu erkennende Wort verändert werden. Zum Beispiel kann die Anzahl der Ereignisnetze Eij auf zwei plus die Anzahl der Silben des zu erkennenden Wortes gesetzt werden.

(B) Lernverfahren des Wortnetzes

Bei der tatsächlichen Spracherkennung ist es nötig, das Ereignisnetz Eij genau zu positionieren, bevor der Kennzeichen-Vektor 110 der eingegebenen Äußerung empfangen wird. Die Position des Ereignisnetzes Eij ist so defniert, daß die Ausgangsschichteinheit cij des Ereignisnetzes Eij einen Maximalwert ausgeben kann.
Entsprechend dieser Ausführungsform wird das Ereignisnetz Eij bei der Definition des mittleren Rahmens des Ereignisnetzes Eij entlang der Zeitachse verschoben, und die durch die Ausgangsschichteinheiten ausgegebenen Ausgangswerte werden dreimal verglichen. Die Anzahl der Vergleiche kann hinsichtlich der Anzahl der Berechnungen eingestellt werden.
Nachfolgend wird angenommen, daß die 5 x 3 = 15 Ereignisnetze Eij in gleichen Intervallen angeordnet sind, um den Ort jedes Ereignisnetzes Eij leichter zu erhalten.
Jedes Ereignisnetz Eij, auch das verschobene, wird in der gleichen Weise so angeordnet, daß der mittlere Rahmen des Ereignisnetzes Eij auf dem Bezeichnungsreferenzmuster definiert ist.
Zunächst wird jedes Ereignisnetz Eij als Ei1-1, Ei1-2, Ei1-3, ..., Ei5-1, Ei5-2 und Ei5-3 bezeichnet. Das Ereignisnetz Ei1-2 wird so angeordnet, daß der mittlere Rahmen 20 ms hinter dem vorderen Endpunkt der eingegebenen Äußerung ist, das Ereignisnetz Ei5-2 wird so angeordnet, daß der mittlere Rahmen 20 Millisekunden vor dem Ende des Wortes liegt, die Ereignisnetze Ei1-3 bis Ei5-1, die sich zwischen Ei1-2 und Ei5-2 befinden, werden in gleichen Intervallen angeordnet, und die Ereignisnetze Ei1-1 und Ei5-3 werden so angeordnet, daß sie das gleiche Intervall wie das obige einhalten, wodurch alle Ereignisnetze Eij in gleichen Intervallen angeordnet wurden.
Bei den wie oben dargestellt angeordneten Ereignisnetzen Eij wird nun ein Ereignisnetz Eij betrachtet. Das Ereignisnetz Eij wird auf Eij-1, Eij-2 und Eij-3 verschoben, die jeweils Ausgangswerte ausgeben. Anschließend wird ihr Maximalwert an die Eingangsschichteinheit des Wortnetzes 108 angelegt. Dies wird für die fünf Ereignisnetze Eij durchgeführt.
Die Fig. 6 zeigt die Beziehung zwischen der zeitlichen Reihe der Leistung 301, die von dem 16-Kanal-Bandpaßfilter ausgegeben wird, und dem Eingangsrahmen 111, durch den die Kennzeichen-Vektoren gebildet werden. In dem Bereich, der die vom 16-Kanal-Bandpaßfilter ausgebene Leistung 301 darstellt (der untere Halbbereich der Fig. 6), zeigt die vertikale Achse einer Kanalnummer des Bandpaßfilters und die horizontale Achse eine Zeit an. Jede Kurve ist entlang der von den 16 Kanälen ausgegebenen Werte skizziert.
Die Fig. 6 zeigt, wie das Ereignisnetz Ei2 auf der Zeitachse verschoben wurde. Wie gezeigt, wird das Ereignisnetz Ei2 auf Ei2-1, Ei2-2 und Ei2-3 verschoben, die jeweils die durch den Eingangsrahmen 111 gebildeten Kennzeichen-Vektoren empfangen und den Wert ci2', ci2" und ci2"' ausgeben. Der Maximalwert dieser Werte wird an die Eingangsschichteinheit des Wortnetzes 108 angelegt, wie es in der Fig. 2 gezeigt ist.
Beschreibung des Wortnetzes 108. Wie in der Fig. 7A gezeigt ist, besteht das Wortnetz 108 aus einem dreischichtigen neuronalen Netzwerk des Perzeptrontyps.
Die Eingangsschicht des Wortnetzes 108 enthält zehn Einheiten 501, die jeweils den Ausgangswert der Ausgangsschichteinheit 203 (siehe Fig. 3 oder 4) jedes Ereignisnetzes Eij empfangen. Die Mittelschicht enthält fünf Einheiten 502 und die Ausgangsschicht enthält zwei Einheiten 503. Die Ausgangsschichteinheiten 503 werden als ci und bezeichnet.
Um die Spracherkennungsverarbeitung zu beschleunigen, kann das Netzwerk herunterskaliert und so angeordnet werden, daß das zweischichtige neuronale Netzwerk des Perzeptrontyps eingesetzt wird, wie es in der Fig. 7B gezeigt ist. In dieser Anordnung ist es bei dem Beginn des Lernens des Wortnetzes 108 besser, die Gewichtungskoeffizienten der Verbindungen ci, cij und Ci, positiv und die der Verbindungen ci, und Ci, cij negativ zu setzen, damit die Gewichtungskoeffizienten schneller konvergieren.
Empfängt das Wortznetz 108 beim Lernen ein Wort, das es erkennen kann, so gibt es das folgende Lehrersignal aus:
(ci, Ci) = (1, 0) .... (6)
Empfängt das Wortnetz 108 ein anderes Wort, so gibt es das folgende Lehrersignal aus:
(ci, Ci) = (0, 1) .... (7)
Beim Lernen des Wortnetzes 108 ist der Gewichtungskoeffizient jeder Verbindung des Ereignisnetzes Eij festgesetzt. Das Lernen wird solange fortgesetzt, bis der Gewichtungskoeffizient jeder Verbindung des Wortnetzes 108 hinreichend genau konvergiert ist.
Um die Effizienz der Erkennung zu verbessern, wird das folgende Verfahren durchgeführt. Zunächst werden das Ereignisnetz Eij und das Wortnetz 108 zusammengeschlossen, um ein vierschichtiges oder fünfschichtiges neuronales Netzwerk des Perzeptrontyps zu erzeugen. Das so angeordnete Netzwerk verwendet die durch das zuvor beschriebene Verfahren erhaltenen Werte als Startwerte der Gewichtungskoeffizienten jeder Verbindung. Duch dieses Verfahren kann der Gewichtungskoeffizient jeder Verbindung genauer eingestellt werden, als er mit dem einfachen Ereignisnetz Eij eingestellt werden kann. Lernt das Ereignisnetz Eij das Wort, so benötigt es die Lehrerdaten für bestimmte partielle Phoneme mit dem Ergebnis, daß das Lernergebnis mehrdeutig und hinsichtlich des Phonempegels widersprüchlich ist. Dieses Verfahren kann diese nachteiligen Effekte korrigieren.

(C) Lernverfahren des Supernetzes

Wie in der Fig. 8 gezeigt ist, besteht das Supernetz 109 aus einem dreischichtigen neuronalen Netzwerk des Perzeptrontyps. Die Eingangsschicht des Supernetzes 109 enthält 60 Einheiten, da in dieser Ausführungsform 30 Wörter erkannt werden können. Die Eingangsschichteinheiten 601 empfangen die vom Wortnetz 108 ausgesandten Ausgangswerte. Die Mittelschicht des Supernetzes 109 enthält 30 Einheiten 602. Die Ausgangsschicht enthält 30 Einheiten 603, die jeweils zu der Kategorienummer der zu erkennenden Worte passen und eine Einheit stellt eine "Zurückweisung" dar.
(a) Ist die eingegangene Äußerung in dem erkennbaren Wortschatz enthalten, so gibt das Supernetz 109 unter der Annahme, daß die eingehende Äußerung in die Kategorienummer 1 gehört, das folgende Lehrersignal an die Ausgangsschichteinheiten c&sub1;, c&sub2;, ...., c&sub3;&sub1;:
(c&sub1;, c&sub2;, ...., c&sub1;, ...., c&sub3;&sub1;) = (0, 0, ...., 1, ...., 0) .... (8)
Das heißt, das Lehrersignal gibt eine 1 nur an die I-te Einheit und an alle anderen Einheiten eine 0.
(b) Ist die eingehende Äußerung nicht in dem erkennbaren Wortschatz enthalten, so gibt das Supernetz 109 das folgende Lehrersignal an die Ausgangsschichteinheiten aus:
(c&sub1;, c&sub2;, ...., c&sub3;&sub0;, c&sub3;&sub1;) = (0, 0, ...., 0,1) .... (9)
Das heißt, das Lehrersignal legt eine 1 nur an die Einheit c&sub3;&sub1; an, alle anderen Einheiten werden mit 0 versorgt.
Durch das zuvor beschriebene Verfahren wird der Gewichtungskoeffizient jeder Verbindung in jedem Netzwerk erhalten.
Die nachfolgende Beschreibung ist auf das Verfahren zur Erkennung der Wortäußerung gerichtet. Wird die Wortäußerung an das Ereignisnetz Eij angelegt, so werden die Rahmen für den vorderen Endpunkt und das Ende des Wortes durch das Ausschneiden der Leistungsschwellwerte extrahiert. Die Position des mittleren Rahmens für jedes Ereignisnetz Eij wird mittels des Verfahrens definiert, bei dem das Wortnetz 108 zum Lernen verwendet wird. Ein Ereignisnetz Eij wird dreimal verschoben, um einen maximalen Wert der von den drei verschobenen Ereignisnetzen Eij-1, Eij-2 und Eij-3 erzeugten Ausgangswerte cij auszuwählen. Dies wird für fünf Ereignisnetze Eij ausgeführt. Tatsächlich wird dieses für alle Ereignisnetze ausgeführt, deren Anzahl gleich zum erkennbaren Wortschatz ist.
Ist die Verschiebung des Ereignisnetzes Eij definiert, so erzeugt die den Kennzeichen-Vektor 110 empfangende Eingangsschichteinheit des Ereignisnetzes Eij den Ausgangswert, der von der Ausgangsschichteinheit des Supernetzes 109 abgegeben wird. Der Ausgangswert wird an den Bestimmungsbereich für ein erkanntes Ergebnis 112 gegeben, in dem das erkannte Ergebnis erhalten wird.
Der zur Bestimmung des Ergebnisses verwendete Algorithmus ist in der Fig. 9 gezeigt. In der Fig. 9 wird der maximale Ausgangswert CI des Supernetzes 109 zu einer Zeit zurückgewiesen, wenn der Wert CI kleiner als ein bestimmter Schwellwert θ ist. In dieser Ausführungsform wird θ = 0,5 verwendet.
In dem zuvor erwähnten Verfahren wird zuerst der maximale Ausgangswert CI aus den Ci (i = 1, 2, ...., 30, 31) Einheiten erhalten (Schritt S1), wonach der erhaltene maximale Ausgangswert CI mit einem Schwellwert θ verglichen wird (Schritt S2).
Im Schritt S2 wird der Wert CI für einen Fall zurückgewiesen, daß der maximale Ausgangswert CI kleiner als der Schwellwert θ ist (Schritt S3). Andererseits wird für einen Fall, daß der maximale Ausgangswert CI nicht kleiner als der Schwellwert θ ist, überprüft, ob der Wert I gleich zu 31 ist, oder nicht (Schritt S4).
Im Schritt S4 wird der Wert CI zurückgewiesen, wenn der Wert I gleich zu 31 ist (Schritt S3). Jedoch wird die I-te Klasse des maximalenAusgangswerts CI als erkanntes Ergebnis gesetzt, wenn der Wert I nicht gleich zu 31 ist (Schritt S5).

(Zweite Ausführungsform)

Nachfolgend wird in bezug auf die Fig. 10 bis 12 die Spracherkennungseinrichtung nach der zweiten Ausführungsform beschrieben, in der die Elemente mit den gleichen Bezugszeichen wie die der ersten Ausführungsform dieselben Elemente anzeigen, wie sie in der ersten Ausführungsform beschrieben wurden.
In der Einrichtung wird eine Stimme durch ein Mikrofon 101 eingegeben und an einen Verstärker 102 geleitet, durch den sie verstärkt wird. Danach wird das verstärkte Signal durch einen A/D-Wandler 103 in ein digitales Signal gewandelt und an einen Frequenzanalysebereich 104 angelegt, in dem ein Bandpaßfilter 105 der Frequenzanalyse der Stimme dient und in jedem Rahmen einen Leistungswert ausgibt, wodurch Kennzeichen-Vektoren gebildet werden. Zur Reduzierung der Größe des Netzwerks werden die Kennzeichen-Vektoren mittels einer K-L-Transformation in einem Komprimierungsbereich 107 so komprimiert, daß die Dimensionen der Kennzeichen-Vektoren verringert werden können.
Die komprimierten Kennzeichen-Vektoren 106 werden an einen Wortanfang- Feststellungsbereich 100 geleitet, der den vorderen Endpunkt feststellt. Wird der vordere Endpunkt am Anfangsende der eingegebenen Äußerung detektiert, so sendet der Wortanfang-Feststellungsbereich 100 die Wortäußerung an jedes Ereignisnetz 107, das in einer Ereignisnetzgruppe 114 enthalten ist (siehe Fig. 11 und 12).
Wird der vordere Endpunkt andererseits nicht detektiert, so werden die Kennzeichen-Vektoren 110 nicht an die Ereignisnetzgruppe 114 angelegt.
Der Wortanfang-Feststellungsbereich 100 verwendet im wesentlichen eine Kurzzeitleistung als Standard zur Feststellung. Die Kurzzeitleistung ist davon abhängig, ob ein größerer Wert als ein Schwellenwert für eine konstante Zeit oder länger anhält, oder nicht. Weiter kann der Wortanfang-Feststellungsbereich 100 ein Tiefpaßleistungsverhältnis und ein Hochpaßleistungsverhältnis verwenden, wobei die letzteren beiden die Anzahl der Nulldurchgänge oder das von dem Bandpaßfilter analysierte Ergebnis einsetzen.
Der Kennzeichen-Vektor 110 wird zu einer Zeit an die Ereignisnetzgruppe 114 geschickt, die kurz vor der Feststellung des vorderen Endpunktes liegt. Demzufolge muß der Komprimierungsbereich 106 eine Reihe Kennzeichen-Vektoren 100' speichern, die aus einer Mehrzahl komprimierter Kennzeichen-Vektoren 110 besteht, wobei die Reihe Kennzeichen-Vektoren zu einer bestimmten Anzahl von Rahmen paßt (siehe Fig. 10 und 11).
Der Kennzeichen-Vektor 110 der eingegangenen Äußerung wird an jedes Ereignisnetz 107 angelegt. Das Ereignisnetz 107 legt ein Ausgangssignal an jedes Wortnetz 108 an. Die Anzahl der zwischen den Ereignisnetzen 107 und dem Wortnetz 108 bestehenden Kombinationen ist gleich zur Anzahl der in dem erkennbaren Wortschatz enthaltenen Kategorien. Anschließend wird das Ausgangssignal des Wortnetzes 108 an ein Supernetz 109 gesandt.
Der definierte Bereich des Kennzeichen-Vektors 110 der eingegangenen Äußerung wird an eine Eingangsschicht des Ereignisnetzes 107 angelegt. Der definierte Bereich paßt auf einen Eingangsrahmen 111 der Eingangsschicht. Zur Eingabe eines bestimmten Wortes in die Eingangsschicht wird der Eingangsrahmen 111 N- mal auf der Zeitachse verschoben, um N Eingangsrahmen 111 vorzubereiten (N ist eine positive Ganzzahl). In dieser Ausführungsform ist N gleich fünf.
Anschließend wird erörtert, wie der Eingangsrahmen 111 entlang einer positiven Zeitachse verschoben wird, wenn die eingegebene Stimme erkannt wird.
Unter der Annahme, daß Eij das j-te Ereignisnetz 107 zur Erkennung der i-ten Wortkategorie des erkennbaren Wortschatzes bezeichnet, weist das Ereignisnetz Eij die Einheiten cij, in der Ausgangsschicht auf.
Empfängt das Ereignisnetz Eij die partielle Phonemreihe des Wortes (i-tes Wort), das durch Eij erkannt werden soll (unter der Annahme, daß die Zeitlänge des Wortes 1 ist, paßt die partielle Phonemreihe zu der Länge vom Wortanfang zum j/N-ten Phonem), so lernt das Ereignisnetz Eij:
(cij, ) = (1,0) .... (8)
Empfängt es andere Phoneme, so lernt das Ereignisnetz Eij:
(cij, ) = (0,1) .... (9)
Dies bedeutet, daß Cij an einem Zeitpunkt des durch Eij zu erkennenden Wortes einen hohen Wert aufweist.
Das Verschiebeintervall des Eingangsrahmens 111 entlang der Zeitachse entspricht einem Rahmen des komprimierten Kennzeichen-Vektors 110. Wird das Verschiebeintervall so gewählt, daß es zwei Rahmen entspricht, resultiert daraus eine Reduzierung der Anzahl der Berechnungen.
Unter der Annahme, daß der Betrag der Verschiebung des Eingangsrahmens 111 entlang der Zeitachse, also die Anzahl der Eingangsrahmen 111 zu n gewählt wird, wird Eij aufeinanderfolgend vom Anfang an als Eij1, Eij2 ...., Eijn bezeichnet, die jeweils die Ausgangswerte von Cij1, Cij2 ...., Cijn erzeugen. Hier wird der maximale Wert der n Ausgangssignale an das Wortnetz 108 angelegt.
Der Wert von n hängt von Eij ab. In dieser Ausführungsform ist, wie es in der Fig. 11 gezeigt ist, n gleich fünf für Ei1 und für Ei2 ist n gleich 7. Der Suchbereich von jedem Ereignisnetz 107 wird durch einen horizontalen Balkenbereich angezeigt. Die fette durchgezogene Linie zeigt die Position, an die der Maximalwert von Cijl (j = 1, 2, ...., 5) ausgewählt wurde. Zum Beispiel wurde Ei12 für Ei1 und Ei25 für Ei2 ausgewählt.
Der Suchbereich von Ei1 kann so definiert sein, daß er einen konstanten Betrag aufweist, z.B. die jeweiligen drei Rahmen vor und nach dem festgestellten vorderen Endpunkt, oder daß er eine konstante Anzahl von Zeitabschnitten aufweist, die so lang sind, wie eine Standardabweichung einer Zeitlänge eines Wortes, die entsprechend der auf vielen und nicht spezifizierten Sprechern basierenden Statistik bestimmt wurde.
Der Suchbereich von Eij (j> 1) kann auf Grundlage eines Durchschnittes m und einer Standardabweichung j eines Zeitunterschiedes zwischen Eij und Eij-1 (das Symbol - betrifft nur "j"), die durch die Statistik bestimmt ist, abgeleitet werden. Nachfolgend wird beschrieben, wie er bestimmt wird. Der Durchschnitt m ist unabhängig von j konstant. Die Position von Eij-1 hängt von dem maximalen der von Cij-1, Cij-2, ..., Cij-n ab. Zum Beispiel ist in der Fig. 10 Ci12 der Maximalwert für j = 2.
Der Suchbereich von Eij reicht von n-k j bis zu m+k j auf Grundlage der Position des Maximums von Cij-1, wobei K eine Konstante ist, wie z.B. 2 oder 3. Ist die Position des Maximums von Cij-1 kleiner als m-k j, so kann der Suchbereich als m-k j definiert werden. Das heißt, daß unter der Annahme, daß der Suchbereich als (Lj, Rj) definiert ist, Lj und Rj wie folgt dargestellt werden:
Lj = MAX (m-k j, Position des Maximums von Cij-1)
Rj = m+K j.
Die Fig. 12 zeigt die Beziehung zwischen der zeitlichen Reihe einer von dem 16-Kanal Bandpaßfilter ausgegebenen Leistung und dem an das Ereignisnetz Eij eingegebenen Eingangsrahmen 111. In dem Bereich, der die vom 16-Kanal-Bandpaßfilter ausgegebene Leistung 301 zeigt (der untere Halbbereich der Fig. 11), zeigt die vertikale Achse eine Kanalnummer des Bandpaßfilters und die horizontale Achse eine Zeit an. Jede Kurve ist entlang der von den 16 Kanälen ausgegebenen Ausgangswerte skizziert.
Die Fig. 11 zeigt, wie das Ereignisnetz Ei2 auf der Zeitachse verschoben wird. Wie gezeigt, wird das Ereignisnetz Ei2 auf Ei2-1, Ei2-2 und Ei2-3 verschoben, die jeweils die durch den Eingangsrahmen 111 gebildeten Kennzeichen-Vektoren empfangen und die Werte ci21, ci22 ...., ci27 ausgeben. Der Ausgangswert des Ereignisnetzes Eijl (l = 1, 2, ...., 7), das den maximalen Wert liefert, wird an die Eingangsschichteinheit des Wortneztes 108 angelegt.
Hier zeigt eine fette durchgezogene Linie Ei25 an, aus dem der maximale Wert ausgegeben wird. Eine Bezeichnung stellt die Phonemsymbole eines Sprachbeispiels "hachi" (japanisch für "Biene") so dar, daß h auf [h], a auf [a], c1 auf einen ruhigen Bereich, ch auf [t ] und i auf [i] paßt.
In der Fig. 12 ist gezeigt, daß der Suchbereich von Ei2 bei Ei13 startet, da Ei12 ausgewählt wurde. l ist auf Grundlage der zuvor aufgeführten Information über das Zeitintervall von 1 bis 7 definiert.
Für j = 2 wird der maximale Wert Ci25 aus Ci21, Ci22, ..., Ci27 ausgewählt.
Bei der Auswahl des maximalen Wertes können hinsichtlich der Qualität und der Anzahl der Berechnungen des Ereignisnetzes die folgenden Transformationen betrachtet werden, ohne einheitlich auf MAX (Cijl) definiert zu sein.
Erstens, sind alle Werte von Cijl (l = 1, 2, ...., n) klein, so kann die Mitte des Suchbreichs, also l = m gewählt werden, ohne den maximalen Wert wählen zu müssen. Diese Auswahl erlaubt die Verhinderung einer nicht benötigten Anpassung, wenn ein anderes Wort als das durch das Eij erkennbare eingegeben wird. Hierdurch wird die Fähigkeit einer "Zurückweisung" verbessert.
Zweitens, sind alle Werte von Cijl (l = 1, 2, ...., n) groß, so kann wie in der ersten Transformation l = m ausgewählt werden. Diese Auswahl erlaubt das Vermeiden einer nicht natürlichen Anpassung, wenn gleiche Kennzeichen-Vektoren für eine lange Zeit gehalten werden, was z.B. durch lange Vokale entstehen kann.
Drittens, sind alle Werte von Cijl (l = 1, 2, ..., n) klein, so wird der Suchbereich um einen konstanten Betrag α auf m=m+α erweitert. Dann wird der Wert von Cijl über l = m+1, m+2, ...., m+α erhalten, um den maximalen Wert der erhaltenen Werte auszuwählen. Diese Auswahl ist besonders bei einer langsam ausgesprochenen Probe effektiv.
Viertens, sind alle Werte von Cij bis zum j-ten Ereignisnetz klein, ohne daß die hinter dem Ereignisnetz (j+1) liegenden Ereignisnetze berechnet wurden, so kann (0, 1) an das diese Ereignisnetze verbindende Wortnetz angelegt werden. Dieses Verfahren ist so erstellt, daß die Berechnung nach der Verarbeitung des i-ten Wortes beendet wird und die Verarbeitung des (i+1)-ten Wortes beginnt. Der richtige Wert für j ist 2 oder 3. Hat der erkennbare Wortschatz hinsichtlich der eingegebenen Äußerung eine kleine Anzahl analoger Worte, so wird die Anzahl der Berechnungen auf etwa die Hälfte reduziert.
Wie oben beschrieben, dient das Ereignisnetz 107 der Ausgabe eines zur Ähnlichkeit zwischen dem Kennzeichen-Vektor 110 des Eingangsrahmens 111 und der partiellen Phonemreihe eines spezifischen durch das Ereignisnetz 107 erkennbaren Wortes passenden Werts. Die Ausgangssignale der fünf Ereignisnetze 107 werden alle an die Eingangsschicht des Wortnetzes 108 angelegt. Das Wortnetz 108 dient der Ausgabe eines zur Ähnlichkeit zwischen der eingegangenen Äußerung und eines spezifischen durch das Wortnetz 108 erkennbaren Wortes passenden Werts. Demzufolge ist es unter der Annahme, daß der erkennbare Wortschatz 30 Worte aufweist, natürlich, daß 30 Wortnetze 108 vorhanden sein müssen. Alle Ausgangswerte werden an die Eingangsschicht des Supernetzes 109 angelegt. Das Supernetz 109 weist 30 Einheiten in der Ausgangsschicht auf, die zu den Kategorienummern der erkennbaren Worte passen und eine Einheit stellt die "Zurückweisung" dar. Ist die eingegangene Äußerung im erkennbaren Wortschatz enthalten, so dient das Supernetz 109 einer solchen Definition eines Gewichtungskoeffizienten jeder Verbindung, daß die zur Kategorienummer passende Ausgangsschichteinheit den größten Ausgangswert von allen Ausgangsschichteinheiten aufweist.
Ist andererseits die eingegangene Äußerung nicht in dem erkennbaren Wortschatz enthalten, so dient das Supernetz 109 einer solchen Definition eines Gewichtungskoeffizienten jeder Verbindung, daß die die "Zurückweisung" darstellende Ausgangsschichteinheit den größten Ausgangswert von allen Ausgangsschichteinheiten aufweist. Das Ausgangssignal des Supernetzes 109 wird an einen Bestimmungsbereich für ein erkanntes Ergebnis 112 geschickt, der zur Wiedergewinnung und Ausgabe der Nummer der Einheit der Ausgangsschichteinheiten des Supernetzes 109 dient, die das größte Ausgangssignal aufweist. Die Nummer der Ausgangseinheit wird an einen Ergebnis-Ausgabebereich 113 angelegt, in dem das erkannte Ergebnis dargestellt wird.
Der gesamte Ablauf vom Frequenzanalysebereich 104 bis zum Ergebnis-Ausgabebereich 113 kann auf einem digitalen Sinalprozessor aufgebaut werden.
In dem tatsächlichen Spracherkennungsvorgang starten die Berechnungen des Ereignisnetzes Ei1 jedes Referenzmusters unmittelbar nach der Feststellung des vorderen Endpunktes. Das heißt, daß Ei1, Ei2, ...., Ei5 synchron zum aufeinanderfolgenden Empfang der von jedem Ereignisnetz Ei1 zu erkennenden Kennzeichen-Vektoren von Ei1, Ei2, ..., Ei5 berechnet werden.
Nachfolgend startet das korrespondierende Wortnetz 108 unmittelbar nach der Beendigung der Berechnung von Ei5 seine Berechnung, ohne die Beendigung eines anderen Ereignisnetzes abzuwarten. Haben alle Wortnetze 108 ihre Berechnungen beendet, beginnt das Supemetz 109 zu rechnen, wonach die Steuerung auf den Bestimmungsbereich für ein erkanntes Ergebnis verschoben wird.
Im Gegensatz zur herkömmlichen Einrichtung, die die Erkennungsverarbeitung nach der Feststellung eines Wortendes beginnt, beginnt diese Spracherkennungseinrichtung unmittelbar nach der Feststellung eines vorderen Endpunktes mit der Verarbeitung und aktiviert das Ereignisnetz Eij schon während der Zeit mit der Erkennungsverarbeitung zu beginnen, wenn ein Wort ausgesprochen wird, wodurch die Antwortzeit für die Erkennung stark reduziert wird.
In dieser Ausführungsform ist das Erhalten eines Gewichtungskoeffizienten jeder Verbindung des neuronalen Netzwerks für das Ereignisnetz, das Wortnetz und das Supernetz, also das Lernverfahren des neuronalen Netzwerks, gleich zu dem in der ersten Ausführungsform beschriebenen. Hier wird auf (A) Lernverfahren des Ereignisnetzes, (B) Lernverfahren des Wortnetzes und (C) Lernverfahren des Supernetzes verwiesen, wie für die erste Ausführungsform beschrieben.

(Dritte Ausführungsform)

Die Fig. 13 zeigt die Anordnung eines in der nach der dritten Ausführungsform aufgebauten Spracherkennungseinrichtung enthaltenen Wortnetzes.
1011 bezeichnet ein Wortnetz, das aus einem dreischichtigen neuronalen Netzwerk des Perzeptrontyps besteht. Die Eingangsschicht 1012 des Wortnetzes 1011 weist fünf Einheiten 1013 auf, die Mittelschicht 1014 weist fünf Einheiten 1015 auf und die Ausgangsschicht 1016 weist eine Einheit 1017 auf. Die Anzahl der Mittelschichteinheiten 1015 hängt davon ab, wie kompliziert die geteilten Bereiche der Mittelschicht 1014 sind.
Das Ausgangssignal der Mittelschichteinheit 1015 wird durch eine Wandlung der Summe der Ausgangssignale der an die Einheit 1015 selbst angeschlossenen Eingangsschichteinheiten 1013 auf Grundlage einer Sigmoidfunktion gebildet. Das Ausgangssignal der Ausgangsschichteinheit 1016 wird analog durch die Wandlung der Summe der Ausgangssignale der an die Einheit 1017 selbst angeschlossenen Mittelschichteinheiten 1015 auf Grundlage der Sigmoidfunktion gebildet.
Die nachfolgende Beschreibung bezieht sich auf das erste Lernverfahren des Wortnetzes 1011.

(A) Erstes Lernen des Wortnetzes

a. Erstes Lernverfahren

Es wird angenommen, daß eine Ereignisnetzgruppe 1033 (siehe Fig. 23) aus fünf Ereignisnetzen 1032 besteht (siehe Fig. 23). Jedes Ereignisnetz 1032 weist eine Einheit in der Ausgangsschicht auf.
Die Ausgangsschichteinheiten jedes Ereignisnetzes 1032 lernen so, daß sie einen Wert 1 ausgeben, wenn die zu erkennende partielle Phonemreihe an das Ereignisnetz 1032 angelegt wird, während sie einen Wert 0 ausgeben, wenn daran eine andere Phonemreihe angelegt wird.
Das Wortnetz 1011 empfängt ein von der Ausgangsschichteinheit des Ereignisnetzes 1032 abgegebenes Ausgangssignal. Daraufhin bestimmt das Wortnetz 1011 ob das zu erkennende Wort eingegeben wurde, oder nicht. Ist dies der Fall, so gibt es einen Wert 1 aus, ist dies nicht der Fall, einen Wert 0.
Wird die Eingangsreihe (1,1,1,1,1) an das Wortnetz 1011 angelegt, so ist dieses so aufgebaut, einen Ausgangswert von 1 auszugeben. Werden andere Eingangsreihen, also die mit mindestens einem Wert 0, wie z.B. (0,0,0,0,0), (0,0,0,0,1) ...., (1,1,1,1,0), an das Wortnetz angelegt, so gibt dieses einen Ausgangswert von 0 aus.
Das Wortnetz 1011 lernt demzufolge so, daß bei einer Eingabe von (1,1,1,1,1) an die Eingangsschicht 1012 des Wortnetzes 1011 ein Lehrersignal von 1 an die Ausgangsschicht 1016 angelegt wird, während bei einer anderen daran angelegten Eingangsreihe ein Lehrersignal von 0 an die Ausgangsschicht 1016 angelegt wird. Im Ergebnis kann dadurch ein Verbindungskoeffizient zwischen einer Einheit einer Schicht und einer Einheit einer anderen Schicht erhalten werden.
In bezug auf die Fig. 14 wird nachfolgend der Ablauf des ersten Lernverfahrens des Wortnetzes erläutert. Zuerst wird die Eingangsreihe {0, 1} erzeugt (Schritt S11). Da der Wert [0,1] als Ausgangswert des Ereignisnetzes 1032 erlaubt ist, wird einem in der Eingangsreihe enthaltenen Wert von 0 eine Zufallszahl von [0,dθ&sub2;] zugewiesen und einem darin enthaltenen Wert von 1 eine Zufallszahl von [dθ&sub1;, 1]. Diese Zufallszahlen werden an die Eingangsschicht 1012 angelegt (Schritt S11'). Anschließend wird bestimmt, ob die an die Eingangsschicht 1013 angelegten Werte alle [dθ&sub1;, 1] sind, oder nicht (Schritt S12). Ist dies der Fall, so wird an die Ausgangsschicht 1016 ein Lehrersignal von 1 angelegt (Schritt S13). Ist dies nicht der Fall, so wird an die Ausgangsschicht 1016 ein Lehrersignal von 0 angelegt (Schritt S14). Nachfolgend wird ein Verbindungskoeffizient zwischen beiden Schichten, d.h. ein Verbindungskoeffizient zwischen einer Einheit einer Schicht und einer Einheit einer anderen Schicht, mittels des Fehler-Backpropagation-Verfahrens korrigiert (Schritt 15). Die Fehler-Backpropagation wird solange durchgeführt, bis der Koeffizient scharf eingestellt ist.
Die Fig. 15 zeigt den Eingangsraum des Wortnetzes 1020 nach dem ersten Lernverfahren. Hier enthält das Wortnetz 1020 zwei Eingangswerte. Nach diesem Lernverfahren lehrt ein Bereich I das Lehrersignal von 1, ein Bereich II lehrt das Lehrersignal von 0 und ein Bereich III lehrt nicht.

b. Zweites Lernverfahren

Mit Bezug auf die Fig. 16 wird nachfolgend das zweite Lernverfahren des Wortnetzes beschrieben, wodurch eine Erkennbarkeit weiter verbessert werden kann.
Eine Eingangsreihe {ai}, die aus einer Zufallszahl besteht, wird an die Eingangsschicht 1012 angelegt (Schritt S16). Für die Eingangsreihe {ai} ergibt sich d durch die Gleichung:
wobei 0< ai< 1 (Schritt S17). d wird zur Bestimmung der folgenden Beziehungen verwendet:
(1) d < dθ&sub3;
ein Lehrersignal = 1 (Schritt S19)
(2) d > dθ&sub4;
ein Lehrersignal = 0 (Schritt S20)
(3) dθ&sub3; ≤ d ≤ dθ&sub4;
Lernen wird nicht durchgeführt
Der Verbindungskoeffizient zwischen beiden Schichten wird mit dem Fehler-Backpropagation-Verfahren korrigiert (Schritt S22). Die Fehler-Backpropagation wird solange durchgeführt, bis der Koeffizient konvergiert (Schritt S22').
dθ&sub1;, dθ&sub2;, dθ&sub3; und dθ&sub4; sind Konstanten, die durch die Anzahl der in der Eingangsschicht 1012 des Wortnetzes 1011 enthaltenen Einheiten und die Verteilung des Ausgangswertes des Ereignisnetzes 1032 erhalten werden. Hier wird angenommen, daß dθ&sub1; = 0,75, dθ&sub2; = 0,25, dθ&sub3; = 0,25 und dθ&sub4; = 0,75 ist.
Die Fig. 17 zeigt den Eingangsraum des Wortnetzes 1011 nach dem zweiten Lernverfahren. Hier hat das Wortnetz zwei Eingangswerte.
In der Fig. 17 paßt der Bereich I zu dem Fall der zuvor beschriebenen Beziehung (1), der Bereich II paßt zu dem Fall der Beziehung (2) und der Bereich paßt zu dem Fall der Beziehung (3).
Die Fig. 18 zeigt die Anordnung des Supernetzes.
Wie gezeigt, besteht das Supernetz 1018 aus einem dreischichtigen neuronalen Netzwerk des Perzeptrontyps. Die Eingangsschicht 1019 des Supernetzes 1018 weist dreißig Einheiten 1020 auf. Die Mittelschicht 1021 weist dreißig Einheiten 1022 auf und die Ausgangsschicht 1023 weist einunddreißig Einheiten auf.
Die Anzahl der Mittelschichteinheiten 1022 hängt davon ab, wie kompliziert die geteilten Bereiche der Mittelschicht sind.
Das Ausgangssignal der Mittelschichteinheit 1022 wird durch die Wandlung der Summe der Ausgangssignale der an die Einheit 1022 selbst angeschlossenen Eingangsschichteinheiten 1020 auf Grundlage einer Sigmoidfunktion erhalten. Das Augangssignal der Ausgangsschichteinheit 1024 wird analog durch die Wandlung der Summe der Ausgangssignale der an die Einheit 1024 selbst angeschlossenen Mittelschichteinheiten 1022 auf Grundlage der Sigmoidfunktion erhalten.
Nachfolgend wird das erste Lernverfahren des Supernetzes 1018 beschrieben.

(A) Erstes Lernen des Supernetzes

a. Drittes Lernverfahren

Unter der Annahme, daß die Anzahl der zu erkennenden Worte 30 ist, weist das Supernetz 1018 eine Anzahl von 30 Einheiten 1020 auf, die zu der Anzahl der Wortnetze 1011 korrespondiert.
Die Anzahl der Ausgangsschichteinheiten 1024 des Supernetzes 1018 korrespondiert zur Anzahl der Kategorien des erkennbaren Wortschatzes. Das heißt, wird das Wort der i-ten Kategorie (i ist eine positive Ganzzahl) an die Eingangsschicht 1019 des Supernetzes 1018 angelegt, so gibt die i-te Einheit der Ausgangsschicht 1023 den größten Ausgangswert von allen Augangsschichteinheiten 1024 aus.
Die 31-te Einheit der Ausgangsschicht 1023 gibt den größten Ausgangswert aus, wenn andere als die erkennbaren Worte an die Eingangsschicht 1019 des Supernetzes 1019 angelegt werden.
Damit das Supernetz 1018 lernt, wird beim Empfang der Eingangsreihe (0, 0, ...., 0, 1 [i-ter], 0, ...., 0) durch das Supernetz 1018, die nur bei der i-ten Ausgangseinheit 1024 einen Wert von 1 aufweist, ein Lehrersignal von (0, 0, ...., 0, 1 [i-ter], 0, ...., 0, 0) an die Ausgangsschicht 1023 angelegt, das nur an der i-ten Ausgangseinheit 1024 einen Wert von 1 aufweist.
Empfängt das Supernetz 1018 die Eingangsreihe (0, 0 ...., 0), die nur Nullen aufweist, oder (0, ...., 0, 1, 0, ...., 0, 1, 0, ...), die zwei oder mehr Werte 1 aufweist, so wird ein Lehrersignal (0, 0, ...., 0, 1) mit einem Wert 1 an der 31-ten Ausgangseinheit 1024 an die Ausgangsschicht 1023 angelegt. Dieses Lehrersignal wird als Zurückweisungs-Lehrersignal bezeichnet. Im Ergebnis kann hierdurch ein Verbindungskoeffizient zwischen einer Schicht und einer Einheit einer anderen Schicht erhalten werden.
Die Fig. 19 zeigt das dritte Lernverfahren des Supernetzes (1018).
Zunächst wird die Eingangsreihe von {0,1} generiert (Schritt S23). Da der Wert von [0,1] als Ausgangswert des Wortnetzes 1011 erlaubt ist, wird einem in der Eingangsreihe enthaltenen Wert 0 eine Zufallszahl von [0, dθ&sub5;] zugewiesen und einem darin enthaltenen Wert 1 wird eine Zufallszahl von [dθ&sub6;, 1] zugewiesen. Diese Zufallszahlen werden an die Eingangsschicht 1012 angelegt (Schritt S24). Anschließend wird bestimmt, ob (0, ...., 0, 1, 0, ...., 0) die Eingangsreihe ist, die nur an der i-ten Ausgangseinheit 1024 einen Wert 1 aufweist, oder nicht (Schritt S25). Trifft dies zu, so wird ein Lehrersignal (0, ...., 0, 1, 0 ...., 0) mit einem Wert 1 nur an der i-ten Ausgangseinheit 1024 an die Ausgangsschicht 1023 angelegt (Schritt S26). Trifft dies nicht zu, so wird ein Zurückweisungs-Lehrersignal (0, ...., 0, ...., 0, 1) mit einem Wert 1 nur an der 31-ten Ausgangseinheit 1024 an die Ausgangsschicht 1023 angelegt (Schritt S27). Danach wird ein Verbindungskoeffizient zwischen einer Einheit einer Schicht und einer Einheit einer anderen Schicht mit dem Fehler-Backpropagation-Verfahren korrigiert (Schritt S28). Die Fehler-Backpropagation wird solange durchgeführt, bis der Koeffizient scharf eingestellt ist (Schritt S28').
Die Fig. 20 zeigt den Eingangsraum des Supernetzes 1018 nach dem dritten Lernverfahren. Hier empfängt das Supernetz 1018 zwei Eingangswerte.
In dem dritten Lernverfahren lehrt ein Bereich I das Lehrersignal (0, 0, ...., 1, 0, 0) mit einem Wert 1 nur an der i-ten Ausgangseinheit 24, ein Bereich II lehrt das Lehrersignal (0, 0, ...., 0, ...., 0, 1) mit einem Wert 1 nur an der 31-ten Ausgangseinheit 1024.

b. Viertes Lernverfahren

Mit Bezug auf die Fig. 21 wird nachfolgend das vierte Lernverfahren des Supernetzes beschrieben, wodurch eine Fähigkeit zur Zurückweisung weiter verbessert werden kann.
Dieses Lernverfahren des Supernetzes hat den nachfolgend erläuterten Ablauf. Zunächst wird eine Eingangsreihe {ai} mit einer Zufallszahl generiert und an die Eingangsschicht 1019 angelegt (Schritt S29'). Für die Eingangsreihe {ai} ergibt sich di durch die Gleichung:
wobei 0 ≤ ai ≤ 1 ist (Schritt S29). Der Wert von di wird zur Bestimmung der folgenden Beziehungen verwendet (Schritt S30).
(4) wird die Beziehung di < dθ&sub7; nur durch einen Wert von i erfüllt, so ergibt sich das Lehrersignal zu (0, ...., 0, 1, 0, ...., 0, 0). Dies bedeutet daß nur der i-te Wert 1 ist (Schritt S31).
(5) Erfüllen alle Werte i die Beziehung di > dθ&sub8;, so ergibt sich das Lehrersignal zu (0, ...., 0, 0, 0, ...., 0, 1). Das bedeutet, daß nur der 31-te Wert 1 ist (Schritt S32).
(6) Der andere Fall Es wird kein Lernen ausgeführt.
Lernt das Supernetz 1018, so wird der Verbindungskoeffizient zwischen beiden Schichten mit dem Fehler-Backpropagation-Verfahren korrigiert (Schritt S34). Das Fehler-Backpropagation-Verfahren wird solange durchgeführt, bis der Koeffizient scharf eingestellt ist (Schritt S34').
dθ&sub5;, dθ&sub6;, dθ&sub7; und dθ&sub8;, sind Konstanten, die durch die Anzahl der in der Eingangsschicht 1019 des Supernetzes 1018 vorhandenen Einheiten 1020 und durch die Verteilung des Ausgangswertes des Wortnetzes 1011 bestimmt werden. Hier wird angenommen, daß dθ&sub5; = 0,25, dθ&sub6; = 0,75, dθ&sub7;= 0,25 und dθ&sub8;= 0,75 ist.
Die Fig. 22 zeigt den Eingangsraum des Raumnetzes 1018 nach dem dritten Lernverfahren. Hier hat das Supernetz zwei Eingänge.
In der Fig. 22 paßt der Bereich I zur vorher beschriebenen Beziehung (4), der Bereich II paßt zur Beziehung (5) und der Bereich paßt zur Beziehung (6).
Der entstehende Verbindungskoeffizient zwischen der Eingangsschichteinheit 1020 des Supernetzes 1018 und der Ausgangsschichteinheit 1017 des Wortnetzes 1011 kann als Verbindungskoeffizienten zwischen den benachbarten Schichten des Wortnetzes 1011 und zwischen den benachbarten Schichten des Supernetzes 1018 verwendet werden. Um die eingegangene Äußerung effektiver erkennen zu können, ist es mit dem resultierenden Verbindungskoeffizient als Initialisierungswert nötig, das Wortnetz 1011 den Ausgangswert des Ereignisnetzes 1032 auf Grundlage der gerade eingehenden Äußerung und das Supernetz 1018 den Ausgangswert des Wortnetzes 1011 auf Grundlage der gerade eingehenden Äußerung lernen zu lassen. Die dadurch entstehenden Korrekturkoeffizienten ermöglichen ein besseres Erkennen der Stimme.
Die zuvor beschriebenen Lernverfahren werden nicht nur für eine Spracherkennungseinrichtung, sondern auch für eine Buchstabenmuster- Erkennungsvorrichtung verwendet.
Die Fig. 23 zeigt eine Anordnung einer Spracherkennungseinrichtung mit dem Wortnetz 1011 und dem Supernetz 1018.
Die in der Fig. 23 gezeigte Spracherkennungseinrichtung enthält ein Mikrofon 1025, einen an das Mikrofom 1025 angeschlossenen Verstärker 1026, einen an den Verstärker 1026 angeschlossenen Analog/Digital-Wandler (als A/D-Wandler bezeichnet), einen an den A/D-Wandler 1027 angeschlossenen Frequenzanalysebereich 1029, der eine Mehrzahl parallel angeordneter Bandpaßfilter 1028 aufweist, einen an den Frequenzanalysebereich 1029 angeschlossenen Komprimierungsbereich 1030, einen an den Komprimierungsbereich 1030 angeschlossenen Sprachabschnitt-Trennbereich 1031, eine Mehrzahl an den Sprachabschnitt- Trennbereich 1017 angeschlossene Ereignisnetzgruppen 1033, die eine Mehrzahl parallel angeordneter Ereignisnetze 1032 aufweisen, eine Mehrzahl jeweils an die Ereignisnetzgruppen 1033 angeschlossene Wortnetze 1011, ein an die Wortnetze 1011 angeschlossenes Supernetz 1018, ein an das Supernetz 1018 angeschlossenen Bestimmungsbereich 1034 für ein erkanntes Ergebnis und ein an den Bestimmungsbereich 1034 für ein erkanntes Ergebnis angeschlossenen Ergebnisbereich 1035.
Nachfolgend wird beschrieben, wie die Spracherkennungseinrichtung arbeitet.
Eine Wortäußerung wird über das Mikrofon 1025 an den Verstärker angelegt, durch den sie verstärkt wird. Die verstärkte Stimme wird mittels des A/D-Wandlers 1027 in ein digitales Signal gewandelt. Danach wird das digitale Signal an den Frequenzanalysebereich 1029 angelegt, in dem das digitale Sprachsignal durch die Bandpaßfilter 1028 frequenzanalysiert wird, wobei jeder Bandpaßfilter 1028 eine Leistung an den korrespondierenden Rahmen ausgibt.
Um die Größe des Netzwerkes zu reduzieren, werden die resultierenden Kennzeichen-Vektoren der eingegangenen Äußerung an den Komprimierungsbereich 1030 angelegt, in dem die Kennzeichen-Vektoren zur Reduzierung der Dimension der Kennzeichen-Vektoren mittels der K-L-Transformation komprimiert werden.
Die komprimierten Daten werden an den Sprachintervall-Trennbereich 1031 angelegt, in dem das Sprachintervall der eingegangenen Äußerung definiert wird. Die in jedem Sprachintervall enthaltenen Kennzeichen-Vektoren werden an das korrespondierende Ereignisnetz 1032 angelegt.
Wie zuvor erwähnt, ist eine Mehrzahl (hier fünf) Ereignisnetze 1032 vorhanden. Die Kennzeichen-Vektoren werden, während sie innerhalb eines bestimmten Bereichs mit einer bestimmten Rate bewegt werden, an jedes Ereignisnetz 1032 angelegt. Der größte Wert der Ausgangswerte der Ereignisnetze 1032 wird als wahrer Ausgangswert ausgewählt. Der größte Wert bedeutet die größte Ähnlichkeit zwischen den angelegten Kennzeichen-Vektoren und der partiellen Phonemreihe eines durch jedes Wortnetz 1032 zu erkennenden Wortes.
Der größte der von den Ereignisnetzen 1032 erzeugten Ausgangswerte wird an das korrespondierende Wortnetz 1011 angelegt. Die Mehrzahl der mit einem Wortnetz 1011 verbundenen Ereignisnetze 1032 wird als Ereignisnetzgruppe 1033 bezeichnet. Die Anzahl der Kombinationen zwischen der Ereignisnetzgruppe 1033 und dem Wortnetz 1011 korrespondiert zur Anzahl der in dem erkennbaren Wortschatz enthaltenen Worte.
Das Wortnetz 1011 gibt ein Ausgangssignal an das Supernetz 1018 ab. Das Supernetz 1018 gibt ein Ausgangssignal an den Bestimmungsbereich 1018 für ein erkanntes Ergebnis.
Der Bestimmungsbereich 1034 für ein erkanntes Ergebnis dient zur Wiedererlangung und Ausgabe der Nummer der den größten Ausgangswert der Ausgangsschichteinheiten 1024 des Supernetzes 1018 erzeugenden Einheit. Die Nummer der Ausgangseinheit wird an den Ergebnis-Darstellungsbereich 1035 angelegt, durch den das erkannte Ergebnis dargestellt wird.

(Vierte Ausführungsform)

Nachfolgend wird eine vierte Ausführungsform der Erfindung in bezug auf die Fig. 24 bis 28 beschrieben, in denen die gleichen Referenzzeichen, wie sie in der dritten Ausführungsform gezeigt sind, dieselben Elemente anzeigen.
Die Fig. 24 zeigt die Anordnung einer nach der vierten Ausführungsform aufgebauten Spracherkennungseinrichtung.
Die in der Fig. 24 gezeigte Spracherkennungseinrichtung enthält ein Mirkofon 1025, einen an das Mikrofon 1025 angeschlossenen Verstärker 1026, einen an das Mikrofon 1025 angeschlossenen Analog/Digital-Wandler (als A/D-Wandler bezeichnet) 1027, einen an den A/D-Wandler 1023 angeschlossenen Frequenzanalysebereich 1029, der eine Mehrzahl parallel angeordneter Bandpaßfilter 1028 aufweist, einen an den Frequenzanalysebereich 1029 angeschlossenen Komprimierungsbereich 1030, einen an den Komprimierungsbereich 1030 angeschlossenen Kennzeichen-Vektor-Speicherbereich 1031, eine jeweils an den Kennzeichen-Vektor-Speicherbereich 1031 angeschlossene Mehrzahl Ereignisnetzgruppen 1033, die jeweils eine Mehrzahl parallel angeschlossene Ereignisnetze 1032 enthalten, einen an jedes Ereignisnetz 1032 angeschlossenen Ereignisnetz-Ausgangswert-Speicherbereich 1036 für jede Ereignisnetzgruppe 1033, eine jeweils an die Mehrzahl der Ereignisnetzgruppen 1033 angeschlossene Mehrzahl Wortnetze 1011, eine Mehrzahl jeweils an die Mehrzahl Wortnetze 1011 angeschlossene Wortnetz-Ausgangssignal-Speicherbereiche 1037, ein an die Mehrzahl Wortnetze 1011 angeschlossenes Supernetz 1018, einen an das Supernetz 1018 angeschlossenen Ergebnis-Bestimmungsbereich 1034 und einen an den Ergebnis-Bestimmungsbereich 1034 angeschlossenen Ergebnis-Ausgabebereich 1035.
Nachfolgend wird beschrieben, wie die in der Fig. 24 gezeigte Spracherkennungseinrichtung arbeitet.
Die Stimme wird über das Mikrofon 1025 an den Verstärker 1026 angelegt, durch den sie verstärkt wird. Das verstärkte Stimmensignal wird mittels des A/D-Wandlers 1027 von einem analogen Signal in ein digitales gewandelt. Anschließend wird das digitale Signal an den Frequenzanalysebereich 1029 angelegt.
In dem Frequenzanalysebereich 1029 dienen die Bandpaßfilter 1028 der Frequenzanalyse des digitalen Signals und der Ausgabe der Ausgangsleistungen an den jeweiligen Rahmen.
Im Frequenzanalysebereich 1029 können nicht nur Bandpaßfilter eingesetzt werden, sondern auch mittels eines linearen prediktiven Kodierungssystems (als LPC- System bezeichnet) erhaltene Parameter oder mittels eines Cepstrumanalysesystems erhaltene Parameter.
Der Komprimierungsbereich 1030 dient der Reduzierung der Dimensionen der Kennzeichen-Vektoren der eingegebenen Stimme mit der K-L-Transformation, um die Größe des Netzwerkes zu reduzieren.
Der Kennzeichen-Vektor-Speicherbereich 1031 empfängt die durch den Komprimierungsbereich 1030 komprimierten Kennzeichen-Vektoren aufeinanderfolgend.
Unmittelbar nachdem die Einrichtung aktiviert wurde, wird tatsächlich vom Mikrofon keine Stimme angelegt. Demzufolge dient der Kennzeichen-Vektor-Speicherbereich 1031 der Speicherung der Kennzeichen-Vektoren eines Rauschens oder eines Abschnittes ohne Worte für eine Zeit von T Sekunden in einer Pseudoweise (ein Wert von T hängt von der Anzahl der erkennbaren Worte ab).
Da diese Spracherkennungseinrichtung keinen vorderen Endpunkt feststellt, werden alle vom Kennzeichen-Vektor-Speicherbereich 1031 ausgegebenen Rahmensignale an das Ereignisnetz 1032 gesendet. Wie gezeigt, bilden eine Mehrzahl parallel verbundener Ereignisnetze 1032 die Ereignisnetzgruppe 1033.
Der Kennzeichen-Vektor-Speicherbereich 1031 besteht aus einem Ringspeicher, wie er in der Fig. 24 gezeigt ist. Der gerade anliegende Kennzeichen-Vektor wird an der durch einen W-Zeiger angezeigten Speicherposition gespeichert (Einschreiben). Ein F-Zeiger zeigt eine angenommene Zeit (Rahmen) eines vorderen Endpunktes. Tatsächlich sollte der Wert von T zur effektiveren Verarbeitung mit jedem Wort neu definiert werden (wobei r=1, 2, ...., R; R ist die Anzahl der Worte), da jedes Wort eine korrespondierende Zeitlänge aufweist. Das Wort r ist ein im Ereignisnetz und im Wortnetz angeordnetes Referenzmuster.
Unter der Annahme, daß die jetzige Zeit tb ist, ist der W-Zeiger bei tb und der Wortbeginn r ist bei tfr.
Der Wert von T sollte etwa auf die Zeit des längsten in dem Wortschatz enthaltenen Wortes gesetzt werden. Hier ist er auf 1,2 Sekunden gesetzt.
Ist die jetzige Zeit tb, so wird für den für das Wort r angenommenen vorderen Endpunkt angenommen, daß er zu allen Rahmen in dem Abschnitt [ tfr, tfr+Δ] paßt, wobei Δ = tb-tfr-Tminr ist, und Tminr die kleinste mögliche Zeitlänge des Wortes r bezeichnet.
Die Fig. 26 zeigt die Beziehung zwischen der jetzigen Zeit tb, dem vorderen Endpunkt tfr des Wortes r, der kleinstmöglichen Zeit Tminr und Δ.
Nachfolgend wird beschrieben, wie diese Spracherkennungseinrichtung den vorderen Endpunkt feststellt.
Zunächst werden alle Rahmen in dem Abschnitt [tfr, tfr+Δ], also tfr, tfr+1, tfr+2, ...., tfr+Δ als vorderer Endpunkt angenommen.
Paßt tfr zum vorderen Endpunkt, so wird der Suchbereich des Ereignisnetzes Er1, das zum Anfang des Wortes r paßt, auf Grundlage des Ereignisnetzes Er1 auf den Bereich einer Anzahl von -K bis +K Rahmen gesetzt. In diesem Fall bleiben die durch das Ereignisnetz Er1 zu erkennenden Rahmen innerhalb des Bereiches von tfr-3, tfr-2, ...., tfr+3.
Paßt tfr+1 zum vorderen Endpunkt, so bleiben die durch das Ereignisnetz Er1 zu erkennenden Rahmen innerhalb des Bereichs von tfr-2, tfr-1, ...., tfr-4. Von diesem Rahmen wurden tfr-2, tfr-1, ...., tfr+3 schon berechnet und im Ereignisnetz-Ausgangssignal-Speicherbereich 1036 gespeichert, als tfr als vorderer Endpunkt angenommen wurde. Dadurch können die Berechnungsergebnisse in diesem Fall benutzt werden.
Wie der Kennzeichen-Vektor-Speicherbereich 1031 ist der Ereignisnetz-Ausgangssignal-Speicherbereich 1036 entsprechend einer Ringspeicherstruktur aufgebaut. Wie in der Fig. 24 gezeigt, ist für jede Ereignisnetzgruppe 1033, die auf das Wort r paßt, ein Ereignisnetz-Ausgangssignal-Speicherbereich 1036 vorhanden. Das heißt, daß N-Ereignisnetz-Ausgangssignal-Speicherbereiche 1030 für ein Wort r eingerichtet worden sind (N bedeutet die Nummer der Ereignisnetzgruppen 29. Hier ist N = 5).
Paßt tfr+1 zum vorderen Endpunkt, so muß das Ereignisnetz Er1 tatsächlich nur einen Rahmen tfr+4 berechnen.
Wie das Ereignisnetz Er1 verwenden die verbleibenden Ereignisnetze Er2, Er3, Er4 und Er5 jeweils überlappende Berechnungsbereiche, die aus jedem Ereignisnetz-Ausgangssignal-Speicherbereich 1036 gelesen werden. Weiter werden die neu berechneten Ergebnisse in jeden Ereignisnetz-Speicherbereich 1036 eingeschrieben.
Wird der vordere Endpunkt als tfr bis tfr+Δ angenommen, so wird das Ausgangssignal des Ereignisnetzes 1032 zum jetzigen Zeitpunkt tb so erhalten, wie es zuvor ausgeführt wurde.
Danach wird der auf dem größten Wert des Ereignisnetzes Er1 innerhalb des Abschnittes von [tfr, tfr+Δ] definierte vordere Endpunkt als f&sub1;r, f&sub2;r, ...., fpr dargestellt, wobei p einen Wert hat, der die Bedingung p< Δ erfüllt, normalerweise ist er 2 oder 3.
Der Wortnetz-Ausgangssignal-Speicherbereich 1037 speichert das Ausgangssignal des Wortnetzes 11, der ausgegeben wird, wenn das Ereignisnetz Er1 den vorderen Endpunkt fjr(j = 1, 2, ...., p) auswählt.
Anschließend wird der größte im Wortnetz-Ausgangssignal-Speicherbereich 1037 gespeicherte Wert ausgewählt und an das Supernetz 1018 ausgegeben.
Nachfolgend wird die grundlegende Funktion des Ereignisnetzes 1032 des Wortnetzes 1011 und des Supernetzes 1018 beschrieben.
In der Fig. 27 werden die durch jedes Ereignisnetz 1032 zu erkennenden spezifischen Kennzeichen-Vektore an die Eingangsschicht des Ereignisnetzes 1032 angelegt.
Um ein spezifisches Wort an die Eingangsschicht anzulegen, wird der Eingangsrahmen N mal auf der Zeitachse verschoben, um N-Eingangsrahmen 111 vorzubereiten (N ist eine positive Ganzzahl). In dieser Ausführungsform ist N gleich zu fünf.
Der Wert von N hängt von jedem Wort ab. Hat das Wort vier oder weniger Silben, so wird N vorzugsweise auf 5 gesetzt. Hat das Wort fünf oder mehr Silben, so wird N vorzugsweise auf N = [m/2+3,5] gesetzt (wobei m die Anzahl der Silben bezeichnet und [x] die größte Ganzzahl bezeichnet, die aber nicht größer als x ist).
Nachfolgend wird beschrieben, wie die Reihe der Kennzeichen-Vektoren auf der Zeitachse verschoben wird, wenn die angegebene Äußerung erkannt wurde.
Unter der Annahme, daß Eij das j-te Ereignisnetz zur Erkennung der i-ten Wortkategorie des erkennbaren Wortschatzes bezeichnet, weist das Ereignisnetz Eij zwei Einheiten cij, der Ausgangsschicht auf.
Empfängt das Ereignisnetz Eij die partielle Phonemreihe des Wortes (i-tes Wort), das durch Eij erkannt werden soll (unter der Annahme, daß die Zeitlänge des Wortes 1 ist, paßt die partielle Phonemreihe zur Länge vom vorderen Endpunkt bis zum j/N-tem Phonem), so lernt das Ereignisnetz Eij so, daß sich die zwei Einheiten wie folgt ergeben:
(cij, ) = (1,0) .... (9)
Empfängt es andere Phoneme, so lernt das Ereignisnetz Eij so, daß sich die zwei Einheiten wie folgt ergeben:
(cij, ) = (0,1) .... (10)
Das bedeutet, daß Cij an einem bestimmten Zeitpunkt des von Eij zu erkennenden Worts einen hohen Wert hat.
Das Verschiebeintervall der Reihe der Kennzeichen-Vektoren entlang der Zeitachse wird als Reihe der Kennzeichen-Vektoren aus komprimierten einfachen Rahmen bezeichnet. Um die Anzahl der Berechnungen weiter zu reduzieren kann sie als Reihe der Kennzeichen-Vektoren aus zwei Rahmen bezeichnet werden.
Unter der Annahme, daß sich der Betrag der Verschiebung (der gleich zur gleichen Anzahl von Rahmen im Suchbereich ist) zu n ergibt, hängt der Wert von n von jedem Ereignisnetz Eij ab. In der Fig. 26 hat das Ereignisnetz Ei1 einen Wert von n = 5. Das Ereignisnetz Ei2 hat einen Wert von n = 7.
Das Ereignisnetz Eij wird aufeinanderfolgend vom Beginn als Eij1, Eij2, ...., Eijn bezeichnet. Das Ausgangssignal des Ereignisnetzes Eij ist allgemein als Cij1, Cij2, ...., Cijn bezeichnet. In der Fig. 26 sind z.B. Ei11, Ei12, Ei13, Ei121, Ei22, Ci11 und Ci12 gezeigt. Der größte Wert von Cij1, Cij2, ...., Cijn wird für jeden Wert von i ausgewählt.
Der Suchbereich des Ereignisnetzes Ei1 ist so definiert, daß er einen konstanten Betrag hat, z.B. jeweils drei Rahmen vor und nach dem festgestellten vorderen Endpunkt, oder daß er eine konstante Zahl mal so lang wie die Zeit einer Standardabweichung einer Wortlänge entsprechend der auf vielen und nicht spezifizierten Sprechern basierenden Statistik ist.
In der Fig. 27 ist der Suchbereich des Ereignisnetzes Eij durch einen horizontalen Pfeil dargestellt. Die fette durchgezogene Linie zeigt die Position, an der der maximale Wert von Cijl (j = 1, 2, ...., 5) ausgewählt wurde. Zum Beispiel wurde Ei12 für Ei1 und Ei25 für Ei2 ausgewählt.
Das Ereignisnetz Eij-1 zeigt das Ereignisnetz an, das sich eins vor dem Ereignisnetz Eij befindet (j> 1) (z.B. ist das Ereignisnetz Ei4-1 ein Ereignisnetz vor dem Ereignisnetz Ei4, also das Ereignisnetz Ei3. Nachfolgend bezieht sich das Minuszeichensymbol nur auf "j").
Der Suchbereich von Eij (j> 1) kann aus einem Durchschnitt m und einer Standardabweichung j einer Zeitdifferenz zwischen Eij und Eij-1 abgeleitet werden (das Minuszeichensymbol bezieht sich nur auf j), die durch die Statistik bestimmt ist. Nachfolgend wird beschrieben, wie er erhalten wird. m ist eine von j unabhängige Konstante.
Indem der größte Wert aus den Ausgangssignalen Cij-1, Cij-2, ...., Cij-n ausgewählt wird, wird die Position des Ereignisnetzes Eij-1 definiert.
Der Suchbereich des Ereignisnetzes Eij reicht von m-k j bis zu m+k j auf Grundlage der Position, an der das Ausgangssignal Cij-1 am größten ist. K ist eine Konstante und kann z.B. 2 oder 3 sein.
Unter der Annahme, daß der Suchbereich (Lj, Rj) ist, Lj = max (m-k j, ein Bereich, in dem das Ausgangssignal Cij-1 maximal ist), ist dies:
Rj=m+K j
Ist z.B. j=2, so wird das Ausgangssignal Ci25 als größter Wert von den Ausgangssignalen Ci21, Ci22, ...., Ci27 ausgewählt (siehe Fig. 26 und 27).
Bei der Auswahl des maximalen Werts können die folgenden Transformationen hinsichtlich der Qualität und der Anzahl der Berechnungen des Ereignisnetzes betrachtet werden, ohne einheitlich auf MAX (Cijl) definiert zu sein.
Erstens, sind die Werte von Ci25 (l = 1, 2, ...., n) alle klein, so kann die Mitte des Suchbereiches, also l = m ohne die Auswahl des maximalen Wertes ausgewählt werden. Die Auswahl erlaubt eine Verhinderung einer nicht benötigten Anpassung, wenn ein anderes als das durch Eij zu erkennende Wort eingegeben wird. Hierdurch wird eine Fähigkeit für die "Zurückweisung" verbessert.
Zweitens, sind die Werte von Cijl (l = 1, 2, ...., n) alle groß, so kann wie in der ersten Transformation l = m ausgewählt werden. Diese Auswahl erlaubt eine Verhinderung einer unnatürlichen Anpassung, wenn gleiche Kennzeichen-Vektoren für eine lange Zeit vorhanden sind, was z.B. durch lange Vokale entstehen kann.
Drittens, sind die Werte von Cijl (l = 1, 2, ...., n) alle klein, so kann der Suchbereich um einen konstanten Bereich α auf m=m+α erweitert werden. Dann wird der Wert von Cijl aus l= m+1, m+2, ...., m+α erhalten, um den maximalen Wert der erhaltenen Werte auszuwählen. Diese Auswahl ist besonders bei einer langsam ausgesprochenen Probe effektiv.
Nachfolgend werden die Lernverfahren des Ereignisnetzes 1032, des Wortnetzes 1011 und des Supernetzes 1018 beschrieben.
Das Ereignisnetz 1032, das Wortnetz 1011 und das Supernetz 1018 bestehen jeweils aus einem vielschichtigen neuronalen Netzwerk des Perzeptrontyps. Diese Netzwerke lernen mit dem Fehler-Backpropagation-Verfahren.
Das Ereignisnetz 1032, das Wortnetz 1011 und das Supernetz 1018 können die Sprach- und die Rauschprobe oder die Probe ohne Worte, also das Rauschintervall lernen.
Wenn diese Netze die Rauschprobe lernen (Rauschintervall), so wird ein Lehrersignal von
(Cij, ) = (0,1)
an das Ereignisnetz so angelegt, daß die Rauschprobe nicht die durch das Ereignisnetz zu erkennende partielle Phonemreihe ist.
Ist jedoch die durch das Ereignis zu erkennende Phonemreihe ein langes sprachloses Intervall, wie z.B. ein doppelter Konsonant, so wird das Lehrersignal nicht daran angelegt.
Ob die Rauschprobe (das Lehrersignal) vorhanden ist oder nicht, wird durch das Erhalten einer Probe mit einem großen Fehler und dem Entfernen dieser Probe aus dem späteren Lernverfahren bestimmt, wenn es die Rauschprobe ist.
Wird die Rauschprobe an das Wortnetz angelegt, so wird ein Lehrersignal von
(Ci, ) = (0,1)
an das Wortnetz so angelegt, daß die Rauschprobe das von dem Wortnetz zu erkennende Wort ist.
Sendet solch ein Wortnetz ein Ausgangssignal an das Supernetz, so wird im Lernprozeß des Supernetzes ein Wert von 1 an die Einheit gelegt, die für die "Zurückweisung" zuständig ist.
Das tatsächliche Spracherkennungsverfahren benötigt die Schritte des Setzens von tb als jetzige Zeit und der Inkrementierung von tb Rahmen für Rahmen, so daß tb+1, tb+2, tb+3, .... ist. Synchron dazu wird der vordere Endpunkt tfr Rahmen für Rahmen inkrementiert.
Wurde der vordere Endpunkt tfr vollständig Rahmen für Rahmen inkrementiert, so hat der vordere Endpunkt tfr unabhängig vom Wort r den gleichen Wert.
Zum Zweck einer effizienteren Berechnung ist es möglich, den Rahmen auszulassen, an dem das Ereignisnetz Er1 den niedrigen Wert ausgibt, indem sich auf das berechnete Ergebnis des Ereignisnetzes Er1 im Intervall [tfr, tfr+Δ] bezogen wird, das in dem Ereignisnetz-Signal-Speicherbereich 1036 gespeichert ist.
Ist die Beziehung Cr1 < θl bei tfr+i (1≤i≤Δ) erfüllt, wobei θl ein Schwellenwert ist (normalerweise 0,1 bis 0,2), so wird tfr um i+1 inkrementiert, also ist der nächste Rahmen, an dem der vordere Endpunkt angenommen wird tfr+i+1.
Bei dem zuvor beschriebenen Verfahren existieren zur jeweiligen Zeit tb eine Vielzahl Kandidaten für den vorderen Endpunkt für jedes Wort r. Demzufolge kann das größte Ausgangssignal als Ausgangssignal jedes Wortnetzes 1001 ausgewählt werden.
Das ausgewählte Ausgangssignal wird an das Supernetz 1018 angelegt, das das Ausgangssignal zu jeder jeweiligen Zeit tb berechnen kann. Das Supernetz 1018 sendet das Ausgangssignal an den Ergebnis-Bestimmungsbereich 1034, in dem das Ausgangssignal durch den Schwellenwert bestimmt wird. Das erkannte Ergebnis wird an den Ergebnis-Ausgabebereich 1035 angelegt.
Nachfolgend wird beschrieben, wie das erkannte Ergebnis in dem Ergebnis- Bestimmungsbereich 1034 bestimmt wird.
Anzunehmen sei, daß Ci ein Ausgangssignal der Ausgangsschichteinheit des i-ten Wortes ist, die im Supernetz 1018 enthalten ist, n die Anzahl des Wortschatzes ist, Cn+1 ein Wert der Ausgangsschichteinheit für "Zurückweisung" ist, die in dem Supernetz 1018 enthalten ist und θa und θd Schwellenwerte sind, hier ist θa gleich 0,6 und θd ist gleich 0,1.
Unter diesen Voraussetzungen werden die folgenden Regeln zur Bestimmung des Ausgangssignals des Supernetzes 1018 verwendet.
Ist max (Ci) < θa (1≤i≤n), so wird das Ausgangssignal zurückgewiesen (Regel 1).
Ist max (Ci) (1≤i≤n) - max (Ci) (1≤i≤n, i≠I) < θd, (wobei I ein Wert ist, der max (Ci) = CI erfüllt), so wird das Ausgangssignal zurückgewiesen (Regel 2).
Ist Cn+1 > θa, so wird das Ausgangssignal zurückgewiesen (Regel 3).
Trifft für Ci keine dieser Regeln zu, so ist das erkannte Ergebnis I, daß die Gleichung max (Ci)=CI (1≤i≤n) erfüllt (Regel 4).
Das erkannte Ergebnis wird an den Ergebnis-Ausgabebereich 35 angelegt, in dem es dargestellt wird.
Zusätzlich können das Ereignisnetz 1032, das Wortnetz 1011 und das Supernetz 1018 ein ausgesprochenes Wort mit Ausnahme des erkennbaren Wortschatzes zum Lernen einsetzen. Sie lernen dieses nach dem gleichen Lernverfahren wie die Rauschprobe.
Wird die Lernprobe erhöht, so wird zum Lernen eine längere Zeit benötigt. Jedoch ist es möglich, eine Fähigkeit für die "Zurückweisung" für jedes außerhalb des erkennbaren Wortschatzes liegende Wort zu verbessern und ein in dem erkennbaren Wortschatz enthaltenes Wort aus den kontinuierlichen Wortäußerungen herauszufinden.
Diese Spracherkennungseinrichtung ist für ein vergleichsweise stationäres Rauschen effektiv. Dies resultiert daraus, daß das Ereignisnetz 1032 Sprachproben lernen darf, die verschiedene Pegel von stationärem Rauschen aufweisen, wodurch jede Stimme unter dem verschiedenen stationären Rauscharten durch die verallgemeinernde Möglichkeit des neuronalen Netzwerkes genau erkannt werden kann. TABELLE I

Claims

1. Spracherkennungseinrichtung, die durch die Verwendung eines neuronalen Netzwerkes jegliche Wortäußerung erkennen kann, mit:

einer Eingangsschaltung zur Aufnahme einer eingehenden Äußerung und zur Ausgabe von komprimierten Variablen, die für die eingehende Äußerung kennzeichnend sind, wobei die Eingangsschaltung einen Empfänger für die eingehende Äußerung, eine daran angeschlossene Verstärkerschaltung zur Verstärkung der eingehenden Äußerung, einen an die Verstärkerschaltung angeschlossenen Extrahierer zur Extraktion der kennzeichnenden Variablen aus einem elektrischen Signal und einen Komprimierer aufweist, der an den Extrahierer angeschlossen ist, um die kennzeichnen Variablen zu komprimieren;

das neuronale Netzwerk enthält

ein erstes Mittel, das zum Empfang des Ausgangssignals der komprimierten kennzeichnenden Variablen an die Eingangsschaltung angeschlossen ist und das einen Wert ausgibt, der hinsichlich der eingegangenen Äußerung zu einer Ähnlichkeit mit einer begrenzten Lautfolge eines bestimmten Wortes aus einem erkennbaren Wortschatz korrespondiert;

ein zweites Mittel, das an das erste Mittel angeschlossen ist, um alle von dem ersten Mittel ausgegebenen Werte zu empfangen und um einen Wert auszugeben, der hinsichtlich der eingegangenen Äußerung zu einer Ähnlichkeit des bestimmten Wortes korrespondiert; und

ein drittes Mittel, das an das zweite Mitttel angeschlossen ist, um alle von dem zweiten Mittel ausgegebenen Werte zu empfangen und um einen Wert auszugeben, der zu einer Klassifikation der Worterkennung korrespondiert, in die die eingegangene Äußerung gehört, um also einen Wert auszugeben, der zu einer Ähnlichkeit zwischen der eingegangenen Äußerung und zu erkennenden Worten korrespondiert;

dadurch gekennzeichnet, daß die Einrichtung weiter eine Wortanfang- Erkennungsschaltung aufweist, die aus den komprimierten kennzeichnende Variablen einen vorderen Endpunkt der eingegangenen Äußerung erkennt, wobei die Wortanfang-Erkennungsschaltung die komprimierten kennzeichnenden Variablen ausgibt, wenn der vordere Endpunkt als Anfang der eingegangenen Äußerung erkannt wurde, und die Wortanfang-Erkennungsschaltung die komprimierten kennzeichnenden Variablen nicht ausgibt, wenn der vordere Endpunkt nicht erkannt wurde,

und dadurch, daß das erste Mittel die eingegangene Äußerung so tonanalysieren kann, daß die kennzeichnenden Variablen erzeugt und zeitlich verschoben werden und ein Eingangsrahmen so ausgewählt wird, daß jeder von dem ersten Mittel ausgegebene zu einer Ähnlichkeit aus den verschobenen kennzeichnenden Variablen korrespondierende Ausgabewert maximiert wird, wobei das erste Mittel eine Mehrzahl von Ereignisnetzen enthält, um von einer eingegangenen Äußerung extrahierte kennzeichnende Variablen zu empfangen, wobei jedes der Ereignisnetze so angeordnet ist, daß es die kennzeichnenden Variablen innerhalb eines bestimmten Bereichs von einem von der Wortanfang-Erkennungsschaltung erkannten vorderen Endpunkt verschiebt und zu jeder Zeit entsprechend von Zeitabschnittsinformation, die durch die Analys von Sprachproben einer Mehrzahl von Personen und durch die Auswahl einer Position erhalten wurde, an der aus den verschobenen Positionen der kennzeichnenden Variablen ein maximales Ausgangssignal erreicht wird, so positioniert, daß ein zu einer Ähnlichkeit zwischen der begrenzten Lautfolge des korrespondierenden zu erkennenden Worts und der eingegebenen Äußerung korrespondierender Wert ausgegeben wird.

2. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das erste Mittel eine Mehrzahl von Ereignisnetzen enthält, um den Eingangsrahmen so auszuwählen, daß jedes der Ereignisnetze einen Maximalwert erzeugen kann, wenn die kennzeichnenden Variablen entlang der Zeitachse verschoben werden.

3. Spracherkennungseinrichtung nach Anspruch 2, dadurch gekennzeichnet, daß das zweite Mittel mindesten ein Wortnetz enthält, wobei jedes der Wortnetze an ein korrespondierendes Ereignisnetz angeschlossen ist und den Wert ausgibt, der hinsichtlich der eingegangenen Äußerung zu der Ähnlichkeit zu einem bestimmten Wort korrespondiert.

4. Spracherkennungseinrichtung nach Anspruch 3, dadurch gekennzeichnet, daß das dritte Mittel ein an das Wortnetz oder die Mehrzahl Wortnetze angeschlossennes Supernetz ist, um alle von dem Wortnetz oder den Wortnetzen ausgegebenen Werte zu empfangen und den Wert auszugeben, der zu der Klassifikation der Worterkennung korrespondiert, in die die eingegangene Äußerung gehört.

5. Spracherkennungseinrichtung nach Anspruch 4, dadurch gekennzeichnet, daß jedes des ersten, zweiten und dritten Mittels

eine Eingangsschicht zum Empfang der von der Mehrzahl der Ereignisnetze ausgegebenen Werte,

eine Mittelschicht, die jeweils an jedes der Ereigninetze angeschlossen ist, um ein erstes von der Eingangsschicht ausgegebenes Signal zu empfangen und ein zweites Signal auszugeben, das durch die Konvertierung des ersten Signals mittels einer Sigmoid-Funktion erzeugt wurde, und

eine Ausgangsschicht enthält, die den Wert ausgibt, der hinsichtlich der eingegangenen Äußerung zu der Ähnlichkeit in dem bestimmten Wort korrespondiert.

6. Spracherkennungseinrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die Anzahl der Wortnetze gleich zu der Anzahl der erkennbaren Worte des Wortschatzes ist.

7. Spracherkennungseinrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die Einrichtung weiter folgende Baugruppen enthält:

einen Speicher für kennzeichnende Variablen, der an den Kompressor angeschlossen ist, um die komprimierten kennzeichnenden Variablen zu speichern,

jeweilige Speicher für die Ausgangssignale der Ereignisnetze, die an die Ausgänge der Mehrzahl von Ereignisnetzen angeschlossen sind, um die Ausgangssignale der Ereignisnetze zu speichern, und

jeweilige Speicher für Ausgangssignale der Wortnetze, die an die Ausgänge der Wortnetze angeschlossen sind, um Ausgangssignale der Wortnetze zu speichern.

8. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung zur Überprüfung der Ähnlichkeit zwischen dem bestimmten Wort und der eingegangenen Äußerung ein dynamisches Programmierverfahren verwendet, und daß die Anzahl der Wortnetze gleich zu der Anzahl der erkennbaren Worte des Wortschatzes ist.

9. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der Empfänger für die eingehende Äußerung ein Mikrophon ist.

10. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die an den Empfänger angeschlossene Verstärkerschaltung zur Verstärkung der eingehenden Äußerung ein Verstärker ist.

11. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der Extrahierer einen Analog/Digital-Wandler enthält, um die eingegangene verstärkte Stimme in ein digitales elektrisches Signal zu wandeln.

12. Spracherkennungseinrichtung nach Anspruch 11, dadurch gekennzeichnet, daß der Extrahierer weiter eine Mehrzahl von Bandpaßfilter-Gruppen enthält, wobei sich jede der Gruppen aus einer Mehrzahl von Tiefpaßfiltern zusammensetzt, denen es jeweils möglich ist, die kennzeichnende Variable aus dem elektrischen Signal zu extrahieren.

13. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der an den Extrahierer angeschlosse Komprimierer zur Komprimierung der kennzeichnen Variablen eine Komprimierungseinrichtung ist.

14. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wortanfang-Erkennungsschaltung in einem Ausgangssignal des Komprimierers feststellt, ob eine kurzzeitige Leistung vorhanden ist, wobei die kurzzeitige Leistung als vorhanden definiert wird, wenn von dem Ausgangssignal mindestens eine bestimmte Schwellenspannung für mindestens einen bestimmten Zeitabschnitt gehalten wird.