DE3043516A1 - Verfahren und vorrichtung zur spracherkennung - Google Patents

Verfahren und vorrichtung zur spracherkennung

Info

Publication number
DE3043516A1
DE3043516A1 DE19803043516 DE3043516A DE3043516A1 DE 3043516 A1 DE3043516 A1 DE 3043516A1 DE 19803043516 DE19803043516 DE 19803043516 DE 3043516 A DE3043516 A DE 3043516A DE 3043516 A1 DE3043516 A1 DE 3043516A1
Authority
DE
Germany
Prior art keywords
characteristic parameters
parameters
speech
characteristic
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19803043516
Other languages
English (en)
Other versions
DE3043516C2 (de
Inventor
Nobuo Hachiouji Tokyo Hataoka
Akira Musashino Tokyo Ichikawa
Yoshiaki Sayama Saitama Kitazume
Akio Hachiouji Tokyo Komatsu
Kazuhiro Yokohama Kanagawa Umemura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE3043516A1 publication Critical patent/DE3043516A1/de
Application granted granted Critical
Publication of DE3043516C2 publication Critical patent/DE3043516C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung sowie eine Vorrichtung zur Durchführung des Verfahrens.
Allgemein kann eine Vorrichtung zur Spracherkennung konstruktiv aufgeteilt werden in (1) eine Recheneinheit zur Berechnung von charakteristischen Parametern der Sprache und (2) eine Entscheidungsschaltung zur Anpassung der charakteristischen Parameter an Standardparameter und zur Bestimmung und Erkennung der Sprache. Als charakteristische Paramter der Sprache sind bislang ein linearer Vorhersagekoeffizient, ein Teil-Autokorrelations-Kooffizient und ein Filterbankausgangssignal verwendet worden. Wenn irgendeiner dieser Parameter verwendet wird, wird das Sprachmuster im allgemeinen als Zeitfolge von Parametern einiger Ordnungen ausgedrückt. Wenn ein Autokorrelationskoeffizient achter Ordnung, der alle 10 Millisekungen abgetastet wird, zu berücksichtigen ist, sind beispielsweise 800 Paramter erforderlich, um die Sprache einer Sekunde auszudrücken, so daß eine große Zunahme bei der Verarbeitung erforderlich ist, um eine Verglexchsoperation mit den zur Erkennung erforderlichen Parametern der Standardmuster durchzuführen. Außerdem ist eine große Speicherkapazität erforderlich, um die Standardmuster zu speichern. Dementsprechend ist es erforderlich, effektive charakteristische Paramter zu erhalten, die in der Lage sind, die Sprachmuster mit einer möglichst hohen Wiedergabetreue zu repräsentieren.
Aufgabe der Fi-'findung ist es, ein Verfahren und eine Vorrichtung zur Spracherkennung anzugeben, die geeignet sind, in wirksamer Weise Parameter.der mit den Parametern von Standardmustern zu vergleichenden Eingangssprachmustern zu komprimieren, in erheblicher Weise die erforderliche Verarbeitungszeit für die Vergleichsoperation der beiden Arten von Parametern zu reduzieren und außerdem die Speicherkapazität für die Standardmuster zu verringern.
1 30033/0586
Die charakteristischen Merkmale der Erfindung zur Lösung der gestellten Aufgabe bestehen darin, daß aus der Eingangssprache errechnete ρ charakteristische Parameter jeweils mit p charakteristischen Parametern von η spezifischen Sprachen verglichen werden, um den Abstand oder die Wahrscheinlichkeit zwischen ihnen zu bestimmen, und daß die so erhaltenen Daten als charakteristische Parameter der Eingangssprachmuster verwendet und mit charakteristischen Paramtern von in gleicher Weise bestimmten Standardmustern verglichen werden, um auf diese Weise die Spracherkennung durchzuführen.
Als η charakteristische Parameter der spezifischen Sprache können z.B. charakteristische Parameter derjenigen Vokale, die klar voneinander unterschieden werden können und eine hohe Trennbarkeit besitzen, verwendet werden.
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme auf die beiliegende Zeichnung näher erläutert. Die Zeichnung zeigt in
Fig. 1 ein Blockschaltbild zur Erläuterung des grundsätzlichen Aufbaus einer erfindungsgemäßen Vorrichtung zur Spracherkennung;
Fig. 2 ein Blockschaltbild zur Erläuterung der wesentlichen Teile der erfindungsgemäßen Vorrichtung;
Fig. 3 ein Blockschaltbild eines Ausführungsbeispiels für eine Filterbank gemäß Fig. 2;
Fig. 4 ein Diagramm zur Erläuterung der charakteristischen Parameter von Vokalen; und in
Fig. 5 ein Blockschaltbild zur Erläuterung von Normierungsschaltung, Musterpufferspeicher und Abstandsrechen-
schaltung gemäß Fig. 2.
130038/0586
Fig. 1 zeigt den grundsätzlichen Aufbau der neuartigen Vorrichtung zu Spracherkennung, wobei das Bezugszeichen 1 ein Spracheingangssignal, das Bezugszeichen 2 eine Analysiereinheit, das Bezugszeichen 3 eine Musteranpassungseinheit, das Bezugszeichen 4 eine Entscheidungsdnheit und das Bezugszeichen 5 ein Ausgangssignal des Erkennungsergebnisses bezeichnen.
Bei einem derartigen Aufbau berechnet die Analysiereinheit 2 aus dem Spracheingangssignal 1 £ charakteristische Parameter, vergleicht die so berechneten charakteristischen Parameter mit den jeweiligen ρ charakteristischen Parametern von η spezifischen Sprachen und bestimmt solche charakteristischen Parameter, die den Abstand oder die Wahrscheinlichkeit zwischen den beiden Arten von Paramtern repräsentieren. Die so bestimmten charakteristischen Parameter werden dann in gleicher Weise mit charakteristischen Parametern des Standardmusters verglichen, die in gleicher Weise durch Vergleich mit charakteristischen Parametern von spezifischen Sprachen bestimmt worden sind, in der Musteranpassungseinheit 3, und die Entscheidungseinheit 4 erkennt das Spracheingangssignal und liefert das Ergebnis der Erkennung als Ausgangssignal 5.
Fig. 2 zeigt ein Blockschaltbild eines Ausführungsbeispiels für den Aufbau der wesentlichen Teile der neuartigen Vorrichtung zur Spracherkennung, wobei die wesentlichen Teile der Analysiereinheit 2 in ^ig. 1 entsprechen.
In Fig. 2 bezeichnet das Bezugszeichen 21 eine Steuerschaltung, bestehend aus Arbeitsfolgereglern oder dergleichen, die verschiedene Arten von Steuersignalen erzeugen. .Das Bezügszeichen bezeichnet einen Analog-Digital-Wandler, das Bezugszeichen 23 einen Eingangspufferspeicher, das Bezugszeichen 24 eine Filterbank,
130038/0586
das Bezugszeichen 25 einen Zwischenpufferspeicher, das Bezugszeichen 26 eine NormierschaItung, das Bezugszeichen 27 einen Musterpufferspeicher, das Bezugszeichen 28 einen Mikromuster-Pufferspeicher, das Bezugszeichen 29 eine Abstandsrechenschaltung und das Bezugszeichen 30 einen Parameterpufferspeicher.
Diese Ausführungsform ist so aufgebaut, daß sie die Ausgangssignale der Filterbank als charakteristische Parameter verwendet, welche das Spracheingangssignal repräsentieren.
Das an die Analysiereinheit 2 angelegte Spracheingangssignal wird mit dem Analog-Digital-Wandler 22 in digitale Signale umgewandelt und an den Eingangspufferspeicher 23 angeleq-t , wobei eineSteuerung durch die Steuerschaltung 21 erfolgt. Die an den Eingangspufferspeicher 23 angelegten digitalen Signale werden in gleicher WEise der Steuerung der Steuerschaltung 21 unterworfen und an die Filterbank 24 angelegt. Wie in Fig. 3 dargestellt, besteht diese Filterbank 21 beispielsweise aus Bandpaßfiltern 241-1 bis 241-16, die den Frequenzbereich im Telefonsystem, d.h. 300 bis 3.600 Hz in 16 äquidistante Kanäle logarithmisch unterteilen, sowie Glättungs- undAbtastschaltungen 242-1 bis 242-16 zum Glätten und erneuten Abtasten dieser Ausgangssignale der Bandpaßfilter». Die 16 geglätteten Teile von Daten, die z.B. in 10--Sekundenintervallen abgetastet werden, werden dem Zwischenpufferspeicher 2 5 als Vektor der charakteristischen Paramter a. zu den Zeiten t übermittelt. Die Zeitfolge dieses Vektors von charakteristischen Parametern a. wird sequentiell im Zwischenpufferspeicher 25 angeordnet. Hierbei wird angenommen, daß GiL t = £alt, a2t, ... alßtj-und a-t das Ausgangs signal des j-ten Filters zum Zeitpunkt t angibt. Im allgemeinen ändert sich die Größe von a... mit dem Eingangspegel des Spracheingangssignales 1 und mit einer Sprachumgebung, so daß der Vergleich von Absolut-
130038/0586
werten schwierig ist. Dementsprechend wird der Vektor von charakteristischen P-aramtern a., der aus dem Zwischenpufferspeicher 2 5 durch die Steuerwirkung der Steuerschaltung 21 ausgelesen wird, an die !formierschaltung 26 angelegt, um einen normierten Vektor von charakteristischen Parametern a.' zu erhalten. Das j-te Element dieses Vektors a.· wird gemäß der folgenden Gleichung erhalten:
16
aj't= Cajt' (ΣΙ V ·
Hierbei sind £ eine Konstante und a_ ein Koeffizient. Die Zeitfolge der normierten Vektoren a., von charakteristischen Parametern, die auf diese Weise erhalten werden, wird unter der Steuerwirkung der Steuerschaltung 21 in das Musterpufferspeicher 27 eingespeichert.
Im Mikromuster-Pufferspeicher 28 gemäß Fig. 2 ist ein Vektor von charakteristischen Parametern V, (K = lr»n) von η normierten Sprachen gespeichert, sog. Mikromustern, wie z.B. Vokalen, die charakteristische Merkmale besitzen und mit der gleichen Verarbeitung wie oben erhalten worden sind. Hierbei braucht V. keine Zeitfolge des Vektors von charakteristischen Parametern zu sein. Mit anderen Worten, da das Ausprechen von Vokalen z.B. beträchtlich stabil ist, kann der Vektor der charakteristischen Parameter zu einem Ze: cpunkt innerhalb dieser stabilen Periode ausreichend repräsentativ sein. Fig. 4 zeigt die Vektoren der normierten charakteristischen Parameter von 5 Vokalen, die von einem erwachsenen Mann ausgesprochen worden sind. Bei dieser Ausführungsform werden fünf Mikromuster verwendet, die den fünf Vokalen entsprechen,
Die Abstandsrechenschaltung 29 liest die Vektoren der charakteristischen Parameter, die in den Musterpufferspeicher 27 und den Mikromusterpufferspeicher 28 durch die Steuerwirkung der Steuerschaltung 21 eingespeichert worden sind, und berechnet
130038/0586
dieAbstände zwischen den Vektoren der 16 normierten charakteristischen Parameter a.,, die im Musterpufferspeicher 27 gespeichert sind, und den Vektoren der 16 normierten charakteristischen Parametern V, (k = l«-*5) der fünf Mikromuster, wobei schließlich fünf Abstandsparameter x. (k = l^ö und jt ein bestimmter Zeitpunkt) in den Parameterpufferspeicher 30 eingespeichert werden. In
k diesem Falle wird der Abstandsparameter x. durch die normale Abstandsberechnung erhalten, die sich durch die nachstehende Gleichung ausdrücken läßt:
,,16 . ?
Ca'.t - V^)2, (k = 1-5).
Somit wird die Zeitfolge von fünf Abstandsparametern x. in den Parameterpufferspeicher 30 eingespeichert. Diese Zeitfolge von Parametern wird der in Fig. 1 dargestellten Musteranpassungseinheit 3 übermittelt und einer Anpassungsoperation mit den Parametern des Standardmusters unterworfen, bei dem die Daten bereits komprimiert und im gleichen Mikromuster registriert sind. Somit wird das Resultat der Erkennung als Ausgangssignal der EntscheidungaaLnheit 4 in Fig. 1 erzeugt.
Bei dem System von herkömmlichen Vorrichtungen zur Spracherkennung ist die im Zwischenpufferspeicher 25 gespeicherte Zeitfolge von 16 Parametern für die an die Musteranpassungseinheit 3 zu liefernden charakteristischen Parameter verwendet worden, während bei dem erfindungsgemäßen Verfahren die Zeitfolge von nur fünf Parametern verwendet werden kann.
Im allgemeinen bestehen die Vektoren von charakteristischen Parametern a., oder V aus derselben Anzahl von Bits, z.B. 16 Bits als
130038/0586
Bitanzahl der Abstandsparameter χ. . Dementsprechend kann gemäß der Erfindung die Anzahl von Bits der charakteristischen Parameter, die für die Musteranpassung in der Musteranpassungseinheit 3 erforderlich sind, auf 5/16 verglichen mit den herkömmlichen Verfahren verringert werden, und somit läßt sich die erforderliche Zeit für die Vergleichsoperation mit den charakteristischen Pararatern der Standardmuster im gleichen Maße verkürzen. Somit läßt sich die Speicherkapazität zum Speichern von Standard-.mustern verringern.
Beim erfindungsgemäßen Verfahren ist es erforderlich, die Ver- . gleichsoperationen mit den charakteristischen Pararatern der Mikromuster separat durchzuführen, jedoch betragt die Anzahl von Mikromustern höchstens etwa S und ist viel kleiner im Vergleich zu der Anzahl von Standardmustern, z.B. 10. Somit kann die Vergleichsoperation bezüglich der Mikromuster virtuell vernachlässigt, werden. Außerdem wurden experimentelle Daten erhalten, die zeigen, daß auch dann, wenn die Anzahl von Bits der charakteristischen Paramter für die obige Musteranpassung verringert wird, eine Verschlechterung des ErkennungsVerhältnisses kaum zu beobachten ist.
Fig. 5 zeigt ein Blockschaltbild eines Ausführüngsbeispiels für den Aufbau von Normierungsschaltung 26, Musterpufferspeichern 27 und 28 sowie Abstandsrechenschaltung 29 gemäß Fig. 2.
In der Normierungsschaltung 26 bezeichnet das Bezugszeichen 261 einen Addierer mit parallelen Eingängen, während die Bezugszeichen 262-1 bis 262-16 Teiler bezeichnen. Der Mikromusterpufferspeicher 28 besteht aus fünf Mikromusterspeichern 281 bis 285, während die Abstandsrechenschaltung 29 aus fünf Mikromuster-Komparatoren 291 bis 295 besteht.
130038/0586
Wenn bei einem derartigen Aufbau ρ charakteristische Parameter zu einer vorgegebenen Zeit parallel aus dem Zwischenpufferspeicher 2 5 ausgelesen und an die Normierungsschaltung 26· angelegt werden, werden diese Eingangssignale^vom Addierer 261 der Normierungsschaltung 26 addiert, was JpL <l:t .,.
Die so erhaltenenAdditionsergebnisse werden an die Teiler 262-1 bis 262-16 angelegt, mit denen eine Division gemäß der obigen Gleichung (1) zwischen diesen Eingangssignalen bzw. den als Eingangssignalen angelegten charakteristischen Parametern a.^ (j = 1 «— 16) durchgeführt wird. Nach der Normierung wird das Ergebnis zeitweilig in den Musterpufferspeicher 27 eingespeichert.
Als nächstes werden die aus dem Musterpufferspeicher 27 ausgelesenen, normierten ρ charakteristischen Parameter parallel zueinander an die Mikromuster-Komparatoren 291 bis 295 angelegt. Da andererseits die aus den den Komparatoren entsprechenden Mikromusterspeichern 281 bis 28 5 ausgelesenen 16 charakteristischen Paramter an die Komparatoren 291 bis 295 angelegt werden, werden beide charakteristischen Paramter von EingangsSignalen miteinander verglichen und ihre Abstände in diesen Komparatoren berechnet. Dementsprechend werden die Ausgangssignale der Mikromuster-Komparatoren 291 bis 295 zu einer Zeitfolge von 5 Parametern und im Parameterpufferspeicher 30 gespeichert. Unter Verwendung der auf diese Weise im Parameterpufferspeicher 30 gespeicherten Parameter wird eine Anpassung an die Standardmuster in der Musteranpassungseinheit 3 gemäß Fig. 1 durchgeführt, und das Erkennungsergebnis wird als Ausgangssignal der Entscheidungseinheit U erzeugt.
Der Vollständigkeit halber darf darauf hingewiesen werden, daß die Schaltungsanordnung gemäß Fig. 5 ebenfalls von der Steuerschaltung 21 in Fig. 2 gesteuert ist.
130038/0 586
Obwohl 16 Teiler 262-1 bis 26 2-16 in Fig. 5 dargestellt sind, ist es auch möglich, nur einen Teiler vorzusehen und jeden charakteristischen Parameter auf einer Zeitteilerbasis unter Verwendung des einen Teilers zu normieren. Außerdem können die Mikromuster-Speicher 281 bis 285 gemeinsam mit den Mikromuster-Komparatoren 2 91 bis 29 5 verwendet werden.
Außerdem ist es möglich, eine solche Schaltung vorzusehen, welche die Zeitfolge der aus den angegebenen Mikromuster-Komparatoren erhaltenen fünf charakteristischen Parameter glättet und die Parameter erneut alle ein oder zwei Intervalle abtastet, um die charakteristischen Parameter in Richtung ihrer Zeitachse weiter auf 1/2 oder 1/3 zu komprimieren. Entsprechend den Versuchsergebnissen ist kaum eine Beeinträchtigung des Erkennungsverhältnisses zu beobachten, wenn diese komprimierten Parameter verwendet werden.
Des weiteren ist es auch möglich, eine Abtastung an einem Punkt als einem repräsentativen Punkt vorzunehmen, wo eine Änderung mit der Zeit maximal wird, nachdem die Zeitfolge von 5 charakteristischen Paramtern geglättet ist.
Bei der Ausführungsform nach Fig. 2 sind verschiedene Speicher 23, 25, 27, 28 und 30 separat angeordnet, wobei diese Speicher durch einen gemeinsamen Speicher ersetzt werden können.
Obwohl bei der oben beschriebenen Ausführungsform die Ausgangssignale der Filterbank als die Charakteristika des Spracheingangssignales repräsentierenden Paramter verwendet werden, kann die Erkennung des Spracheingangssignales auch mittels anderer Parameter realisiert werden, z.B. mit linearen Vorhersagekoeffizxenten, Teil-Autokorrelationskoeffizienten oder dergleichen.
Neben den charakteristischen Parametern der Vokale können auch andere charakteristische Parameter, wie z.B. Reibkonsonanten (z.B."S"oder dergleichen) oder Nasal-Konsonanten (z.B. "N" oder
"M") als Mikromuster entweder allein oder in Kombination mit den Vokalen verwendet werden. Ferner ist es möglich, solche Paramter zu verwenden, die künstlich vorgegeben sind und absichtlich betonte Charakteristika aufweisen.
Bei der obigen Ausführungsform berechnet die Mikromuster-Betriebs· schaltung den Abstand, jedoch kann auch die Wahrscheinlichkeit berechnet werden. In jedem Falle kann eine beliebige Methode solange verwendet werden, wie Vergleichsergebnisse von zwei Mustern dargestellt werden.
Obwohl bei der vorstehend beschriebenen Ausführungsform fünf Mikromuster verwendet werden, läßt sich das Ziel der Erfindung auch unter Verwendung von mindestens einem Mikromuster erreichen, ohne daß eine spezielle Beschränkung auf die obige Ausführungsform vorliegt.
Aus der vorstehenden Beschreibung ergibt sich, daß dann, wenn die Anpassung zwischen 7» charakteristischen Parametern des Spracheingangssignals und jeweils ρ charakteristischen Parametern von η Mikromustern erhalten wird, mit dem erfindungsgemäßen Verfahren der Wert der in der Anpassungseinheit miteinander zu vergleichenden charakteristischen Parameter auf n/p (mit der Maßgabe, daß n<C ρ gilt), komprimiert werden, wenn man es mit dem Stande der Technik vergleicht, wobei die Voraussetzung gemacht ist, daß die erforderliche Speicherkapazität für die jeweiligen charakteristischen Paramter und die erforderliche Speicherkapazität für die jeweiligen, so erhaltenen Abstände virtuell einander gleich sind. Da die Verarbeitungszeit bei der Musteranpassungseinheit sowie der Entscheidungseinheit erheblich verkürzt werden kann, ist es möglich, eine schnelle Erkennung zu realisieren, und zwar die Erkennung in einer Realzeitanordnung oder aber die Anzahl von zu erkennenden Worten zu erhöhen. Die
130038/0586
Speicherkapazität zum Speichern der Standardmuster kann ebenfalls in hohem Maße verringert werden.
Somit können beim erfindungsgemäßen Verfahren die charakteristischen Parameter des Spracheingangssignales in wirksamer Weise komprimiert und damit die Erkennungsgeschwindigkeit verbessert sowie die Erkennungs-Verarbeitungs-menge erhöht werden.
Das oben beschriebene Verfahren zur Spracherkennung zeichnet sich somit dadurch aus, daß die Vergleichsoperation..zwischen ρ charakteristischen Parametern, die durch Berechnung der Spracheingan<«signale zu entsprechenden Zeitpunkten berechnet sind, und den jeweiligen p_ charakteristischen Paramter von η vorgegebenen, spezifischen Sprachen durchgeführt werden, um charakteristische Paramter zu erhalten. Dann erfolgt eine Sortierung hinsichtlich der Koinzidenz zwischen den resultierenden charakteristischen Parametern und charakteristischen Parametern von Standardsprache, die in gleicher Weise durch Vornahme von Vergleichsoperationen mit charakteristischen Parametern von spezifischen Sprachen erhalten worden sind, um auf diese Weise die Spracherkennung vorzunehmen.
1 3 0 0 3 8/0586
-AS-.
Leerseite

Claims (8)

SCHIFF v. FÜNER STREHL SCHÜBEL-HOPF EBBINGHAUS FINCK MARIAHILFPLATZ 2 & 3, MÖNCHEN 9O POSTADRESSE: POSTFACH β5 OI 6Q, D-8OOO MÖNCHEN 95 HITACHI, LTD. 18. November 1980 DEA-25 344 Verfahren und Vorrichtung zur Spracherkennung Patentansprüche
1. Verfahren zur Spracherkennung, gekennzeichnet durch folgende Verfahrensschritte:
a) Berechnen von £ ersten charakteristischen Parametern aus Spracheingangssignalen bei entsprechenden Zeitpunkten, wobei £ eine positive ganze Zahl größer oder gleich 1 ist;
b) Durchführen einer Vergleichsoperation zwischen den
im erstenSchritt errechneten ersten charakteristischen Parametern und £ ersten charakteristischen Parametern von η vorgegebenen, spezifischen Sprachen zur Erzielung von zweiten charakteristischen Parametern, wobei η eine positive ganze Zahl größer oder gleich 1 ist; und
c) Sortieren der Koinzidenz zwischen den beim zweiten Schritt erhaltenen, zweiten charakteristischen Parametern und den vorher erhaltenen zweiten charakteristischen Parametern durch Vornahme der Vergleichsoperation
130038/0586
zwischen den ersten charakteristischen Parametern von Standardsprachen und den ersten charakteristischen Parametern von spezifischen Sprachen, um auf diese Weise die Erkennung des Spracheingangssignaleε vorzunehmen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim ersten Schritt eine Normierung der ersten charakteristischen Parameter durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß als zweite charakteristische Parameter solche Parameter verwendet werden, die den Abstand zwischen den ersten charakteristischen Parameter der Eingangssprachsignale und den ersten charakteristischen Parametern von spezifischen Sprachsignalen repräsentieren.
H. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß für die spezifischen Sprachsignale beliebige Vokale, Reib-Konsonanten und Nasal-Konsonanten verwendet werden.
5. Verfahren nach einem der Ansprüche 1 bis H, dadurch gekennzeichnet, daß beim zweiten Schritt eine Glättung der Zeitfolgedaten der zweiten charakteristischen Parameter durchgeführt und diese Daten in vorgegebenen Intervallen abgetastet werden.
6. Vorrichtung zur Spracherkennung, gekennzeichnet durch eine erste Einrichtung (21-26) zum Berechnen von £ ersten charakteristischen Parametern aus SpracheingangsSignalen (1)
130038/0586
zu entsprechenden Zeitpunkten, wobei £ eine positive ganze Zahl größer oder gleich 1 ist,
durch eine zweite Einrichtung (3) zur Durchführung der Vergleichsoperation zwischen den von der ersten Einrichtung (21-26) berechneten ersten .charakteristischen Parametern und p_ ersten charakteristischen Parametern von η vorgegebenen, spezifischen Sprachsignalen zur Erzielung von zweiten charakteristischen Parametern, wobei n_ eine positive ganze Zahl größer oder gleich 1 ist, und durch eine dritte Einrichtung (1I-) zur Bestimmung der Koinzidenz zwischen den von der zweiten Einrichtung (3) erhaltenen, charakteristischen Parametern und vorher erhaltenen zweiten charakteristischen Parametern durch Vornahme der Vergleichsoperation zwischen den ersten charakteristischen Parametern von Standardsprachsignalen und den ersten charakteristischen Parametern von spezifischen Sprachsignalen, mit denen die Erkennung von Spracheingangssignalen erfolgt.
7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die erste Einrichtung (21-26) eine Normierungseinrichtung (26) zum Normieren der ersten charakteristischen Parameter aufweist.
8. Vorrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die zweite Einrichtung (3) eine Einrichtung (242rl, 242-16) zum Glätten der Zeitfolgedaten der zweiten charakteristischen Parameter und Abtasten dieser Daten in vorgegebenen Intervallen aufweist.
130038/0586
DE3043516A 1979-11-19 1980-11-18 Verfahren und Vorrichtung zur Spracherkennung Expired DE3043516C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14890479A JPS5672499A (en) 1979-11-19 1979-11-19 Pretreatment for voice identifier

Publications (2)

Publication Number Publication Date
DE3043516A1 true DE3043516A1 (de) 1981-09-17
DE3043516C2 DE3043516C2 (de) 1984-10-11

Family

ID=15463261

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3043516A Expired DE3043516C2 (de) 1979-11-19 1980-11-18 Verfahren und Vorrichtung zur Spracherkennung

Country Status (3)

Country Link
US (1) US4426551A (de)
JP (1) JPS5672499A (de)
DE (1) DE3043516C2 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
EP0139642A1 (de) * 1983-03-28 1985-05-08 Exxon Research Engineering Co Spracherkennungsverfahren und vorrichtung.
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5814199A (ja) * 1981-07-17 1983-01-26 三洋電機株式会社 音声認識装置
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US5142657A (en) * 1988-03-14 1992-08-25 Kabushiki Kaisha Kawai Gakki Seisakusho Apparatus for drilling pronunciation
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
EP0139642A1 (de) * 1983-03-28 1985-05-08 Exxon Research Engineering Co Spracherkennungsverfahren und vorrichtung.
EP0139642A4 (de) * 1983-03-28 1985-11-07 Exxon Research Engineering Co Spracherkennungsverfahren und vorrichtung.
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity

Also Published As

Publication number Publication date
JPS5672499A (en) 1981-06-16
JPS6128998B2 (de) 1986-07-03
US4426551A (en) 1984-01-17
DE3043516C2 (de) 1984-10-11

Similar Documents

Publication Publication Date Title
DE3043516A1 (de) Verfahren und vorrichtung zur spracherkennung
DE3819178C2 (de)
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE2934489C2 (de)
DE69735396T2 (de) Akustischer Teilband-Echokompensator
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE4031638C2 (de)
DE19500494C2 (de) Merkmalsextraktionsverfahren für ein Sprachsignal
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE3733391C2 (de)
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE19961817B4 (de) Frequenzabweichung detektierendes Gerät und Frequenzabweichungs-Detektionsverfahren
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
EP0035761A2 (de) Verfahren zum Betrieb eines Spracherkennungsgerätes
EP0554494A1 (de) Adaptives nichtrekursives Digitalfilter
EP0340301B1 (de) Digitales adaptives transformationscodierverfahren
DE3642591C2 (de)
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
EP0292749B1 (de) Verfahren zum Bestimmen der Parameter eines Verzögerungsgliedes n-ter Ordnung mit gleichen Zeitkonstanten
EP0760151B1 (de) Verfahren zur erkennung von sprachsignalen und anordnung zum durchführen des verfahrens
EP0231490B1 (de) Verfahren zur Spracherkennung in geräuschvoller Umgebung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8128 New person/name/address of the agent

Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee