DE3043516A1 - Verfahren und vorrichtung zur spracherkennung - Google Patents
Verfahren und vorrichtung zur spracherkennungInfo
- Publication number
- DE3043516A1 DE3043516A1 DE19803043516 DE3043516A DE3043516A1 DE 3043516 A1 DE3043516 A1 DE 3043516A1 DE 19803043516 DE19803043516 DE 19803043516 DE 3043516 A DE3043516 A DE 3043516A DE 3043516 A1 DE3043516 A1 DE 3043516A1
- Authority
- DE
- Germany
- Prior art keywords
- characteristic parameters
- parameters
- speech
- characteristic
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000010606 normalization Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 abstract 3
- 230000015654 memory Effects 0.000 description 30
- 239000000872 buffer Substances 0.000 description 25
- 239000013598 vector Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000012723 sample buffer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Spracherkennung sowie
eine Vorrichtung zur Durchführung des Verfahrens.
Allgemein kann eine Vorrichtung zur Spracherkennung konstruktiv aufgeteilt werden in (1) eine Recheneinheit zur Berechnung von
charakteristischen Parametern der Sprache und (2) eine Entscheidungsschaltung zur Anpassung der charakteristischen Parameter
an Standardparameter und zur Bestimmung und Erkennung der Sprache. Als charakteristische Paramter der Sprache sind bislang ein
linearer Vorhersagekoeffizient, ein Teil-Autokorrelations-Kooffizient
und ein Filterbankausgangssignal verwendet worden. Wenn irgendeiner dieser Parameter verwendet wird, wird das Sprachmuster
im allgemeinen als Zeitfolge von Parametern einiger Ordnungen ausgedrückt. Wenn ein Autokorrelationskoeffizient achter
Ordnung, der alle 10 Millisekungen abgetastet wird, zu berücksichtigen
ist, sind beispielsweise 800 Paramter erforderlich, um die
Sprache einer Sekunde auszudrücken, so daß eine große Zunahme bei der Verarbeitung erforderlich ist, um eine Verglexchsoperation
mit den zur Erkennung erforderlichen Parametern der Standardmuster durchzuführen. Außerdem ist eine große Speicherkapazität
erforderlich, um die Standardmuster zu speichern. Dementsprechend ist es erforderlich, effektive charakteristische
Paramter zu erhalten, die in der Lage sind, die Sprachmuster mit einer möglichst hohen Wiedergabetreue zu repräsentieren.
Aufgabe der Fi-'findung ist es, ein Verfahren und eine Vorrichtung
zur Spracherkennung anzugeben, die geeignet sind, in wirksamer Weise Parameter.der mit den Parametern von Standardmustern zu
vergleichenden Eingangssprachmustern zu komprimieren, in erheblicher Weise die erforderliche Verarbeitungszeit für die Vergleichsoperation
der beiden Arten von Parametern zu reduzieren und außerdem die Speicherkapazität für die Standardmuster zu
verringern.
1 30033/0586
Die charakteristischen Merkmale der Erfindung zur Lösung der gestellten Aufgabe bestehen darin, daß aus der Eingangssprache
errechnete ρ charakteristische Parameter jeweils mit p charakteristischen
Parametern von η spezifischen Sprachen verglichen werden, um den Abstand oder die Wahrscheinlichkeit zwischen ihnen
zu bestimmen, und daß die so erhaltenen Daten als charakteristische Parameter der Eingangssprachmuster verwendet und mit charakteristischen
Paramtern von in gleicher Weise bestimmten Standardmustern verglichen werden, um auf diese Weise die Spracherkennung
durchzuführen.
Als η charakteristische Parameter der spezifischen Sprache können
z.B. charakteristische Parameter derjenigen Vokale, die klar voneinander unterschieden werden können und eine hohe Trennbarkeit
besitzen, verwendet werden.
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen
und unter Bezugnahme auf die beiliegende Zeichnung näher erläutert. Die Zeichnung zeigt in
Fig. 1 ein Blockschaltbild zur Erläuterung des grundsätzlichen Aufbaus einer erfindungsgemäßen Vorrichtung
zur Spracherkennung;
Fig. 2 ein Blockschaltbild zur Erläuterung der wesentlichen Teile der erfindungsgemäßen Vorrichtung;
Fig. 3 ein Blockschaltbild eines Ausführungsbeispiels für eine Filterbank gemäß Fig. 2;
Fig. 4 ein Diagramm zur Erläuterung der charakteristischen Parameter von Vokalen; und in
Fig. 5 ein Blockschaltbild zur Erläuterung von Normierungsschaltung, Musterpufferspeicher und Abstandsrechen-
schaltung gemäß Fig. 2.
130038/0586
Fig. 1 zeigt den grundsätzlichen Aufbau der neuartigen Vorrichtung
zu Spracherkennung, wobei das Bezugszeichen 1 ein Spracheingangssignal, das Bezugszeichen 2 eine Analysiereinheit,
das Bezugszeichen 3 eine Musteranpassungseinheit, das Bezugszeichen 4 eine Entscheidungsdnheit und das Bezugszeichen
5 ein Ausgangssignal des Erkennungsergebnisses bezeichnen.
Bei einem derartigen Aufbau berechnet die Analysiereinheit 2 aus dem Spracheingangssignal 1 £ charakteristische Parameter,
vergleicht die so berechneten charakteristischen Parameter mit den jeweiligen ρ charakteristischen Parametern von η spezifischen
Sprachen und bestimmt solche charakteristischen Parameter, die den Abstand oder die Wahrscheinlichkeit zwischen den beiden
Arten von Paramtern repräsentieren. Die so bestimmten charakteristischen
Parameter werden dann in gleicher Weise mit charakteristischen Parametern des Standardmusters verglichen, die in
gleicher Weise durch Vergleich mit charakteristischen Parametern von spezifischen Sprachen bestimmt worden sind, in der Musteranpassungseinheit
3, und die Entscheidungseinheit 4 erkennt das Spracheingangssignal und liefert das Ergebnis der Erkennung als
Ausgangssignal 5.
Fig. 2 zeigt ein Blockschaltbild eines Ausführungsbeispiels für den Aufbau der wesentlichen Teile der neuartigen Vorrichtung
zur Spracherkennung, wobei die wesentlichen Teile der Analysiereinheit
2 in ^ig. 1 entsprechen.
In Fig. 2 bezeichnet das Bezugszeichen 21 eine Steuerschaltung, bestehend aus Arbeitsfolgereglern oder dergleichen, die verschiedene
Arten von Steuersignalen erzeugen. .Das Bezügszeichen
bezeichnet einen Analog-Digital-Wandler, das Bezugszeichen 23 einen Eingangspufferspeicher, das Bezugszeichen 24 eine Filterbank,
130038/0586
das Bezugszeichen 25 einen Zwischenpufferspeicher, das Bezugszeichen 26 eine NormierschaItung, das Bezugszeichen 27 einen
Musterpufferspeicher, das Bezugszeichen 28 einen Mikromuster-Pufferspeicher,
das Bezugszeichen 29 eine Abstandsrechenschaltung und das Bezugszeichen 30 einen Parameterpufferspeicher.
Diese Ausführungsform ist so aufgebaut, daß sie die Ausgangssignale
der Filterbank als charakteristische Parameter verwendet, welche das Spracheingangssignal repräsentieren.
Das an die Analysiereinheit 2 angelegte Spracheingangssignal
wird mit dem Analog-Digital-Wandler 22 in digitale Signale umgewandelt und an den Eingangspufferspeicher 23 angeleq-t , wobei
eineSteuerung durch die Steuerschaltung 21 erfolgt. Die an den Eingangspufferspeicher 23 angelegten digitalen Signale werden
in gleicher WEise der Steuerung der Steuerschaltung 21 unterworfen und an die Filterbank 24 angelegt. Wie in Fig. 3 dargestellt,
besteht diese Filterbank 21 beispielsweise aus Bandpaßfiltern
241-1 bis 241-16, die den Frequenzbereich im Telefonsystem, d.h. 300 bis 3.600 Hz in 16 äquidistante Kanäle logarithmisch
unterteilen, sowie Glättungs- undAbtastschaltungen 242-1
bis 242-16 zum Glätten und erneuten Abtasten dieser Ausgangssignale der Bandpaßfilter». Die 16 geglätteten Teile von Daten,
die z.B. in 10--Sekundenintervallen abgetastet werden, werden dem
Zwischenpufferspeicher 2 5 als Vektor der charakteristischen Paramter a. zu den Zeiten t übermittelt. Die Zeitfolge dieses
Vektors von charakteristischen Parametern a. wird sequentiell im Zwischenpufferspeicher 25 angeordnet. Hierbei wird angenommen,
daß GiL t = £alt, a2t, ... alßtj-und a-t das Ausgangs signal des
j-ten Filters zum Zeitpunkt t angibt. Im allgemeinen ändert sich die Größe von a... mit dem Eingangspegel des Spracheingangssignales
1 und mit einer Sprachumgebung, so daß der Vergleich von Absolut-
130038/0586
werten schwierig ist. Dementsprechend wird der Vektor von charakteristischen P-aramtern a., der aus dem Zwischenpufferspeicher
2 5 durch die Steuerwirkung der Steuerschaltung 21 ausgelesen wird, an die !formierschaltung 26 angelegt, um einen
normierten Vektor von charakteristischen Parametern a.' zu
erhalten. Das j-te Element dieses Vektors a.· wird gemäß der
folgenden Gleichung erhalten:
16
aj't= Cajt' (ΣΙ V ·
Hierbei sind £ eine Konstante und a_ ein Koeffizient. Die Zeitfolge
der normierten Vektoren a., von charakteristischen Parametern, die auf diese Weise erhalten werden, wird unter
der Steuerwirkung der Steuerschaltung 21 in das Musterpufferspeicher 27 eingespeichert.
Im Mikromuster-Pufferspeicher 28 gemäß Fig. 2 ist ein Vektor
von charakteristischen Parametern V, (K = lr»n) von η normierten
Sprachen gespeichert, sog. Mikromustern, wie z.B. Vokalen, die charakteristische Merkmale besitzen und mit der gleichen Verarbeitung
wie oben erhalten worden sind. Hierbei braucht V. keine Zeitfolge des Vektors von charakteristischen Parametern zu sein.
Mit anderen Worten, da das Ausprechen von Vokalen z.B. beträchtlich
stabil ist, kann der Vektor der charakteristischen Parameter zu einem Ze: cpunkt innerhalb dieser stabilen Periode ausreichend
repräsentativ sein. Fig. 4 zeigt die Vektoren der normierten charakteristischen Parameter von 5 Vokalen, die von einem erwachsenen
Mann ausgesprochen worden sind. Bei dieser Ausführungsform werden fünf Mikromuster verwendet, die den fünf Vokalen entsprechen,
Die Abstandsrechenschaltung 29 liest die Vektoren der charakteristischen
Parameter, die in den Musterpufferspeicher 27 und den Mikromusterpufferspeicher 28 durch die Steuerwirkung der
Steuerschaltung 21 eingespeichert worden sind, und berechnet
130038/0586
dieAbstände zwischen den Vektoren der 16 normierten charakteristischen
Parameter a.,, die im Musterpufferspeicher 27 gespeichert sind, und den Vektoren der 16 normierten charakteristischen Parametern
V, (k = l«-*5) der fünf Mikromuster, wobei schließlich fünf
Abstandsparameter x. (k = l^ö und jt ein bestimmter Zeitpunkt)
in den Parameterpufferspeicher 30 eingespeichert werden. In
k diesem Falle wird der Abstandsparameter x. durch die normale
Abstandsberechnung erhalten, die sich durch die nachstehende Gleichung ausdrücken läßt:
,,16 . ?
Ca'.t - V^)2, (k = 1-5).
Somit wird die Zeitfolge von fünf Abstandsparametern x. in den
Parameterpufferspeicher 30 eingespeichert. Diese Zeitfolge von Parametern wird der in Fig. 1 dargestellten Musteranpassungseinheit
3 übermittelt und einer Anpassungsoperation mit den Parametern des Standardmusters unterworfen, bei dem die Daten
bereits komprimiert und im gleichen Mikromuster registriert sind. Somit wird das Resultat der Erkennung als Ausgangssignal der
EntscheidungaaLnheit 4 in Fig. 1 erzeugt.
Bei dem System von herkömmlichen Vorrichtungen zur Spracherkennung
ist die im Zwischenpufferspeicher 25 gespeicherte Zeitfolge von 16 Parametern für die an die Musteranpassungseinheit 3 zu liefernden
charakteristischen Parameter verwendet worden, während bei dem erfindungsgemäßen Verfahren die Zeitfolge von nur fünf
Parametern verwendet werden kann.
Im allgemeinen bestehen die Vektoren von charakteristischen Parametern
a., oder V aus derselben Anzahl von Bits, z.B. 16 Bits als
130038/0586
Bitanzahl der Abstandsparameter χ. . Dementsprechend kann gemäß
der Erfindung die Anzahl von Bits der charakteristischen
Parameter, die für die Musteranpassung in der Musteranpassungseinheit
3 erforderlich sind, auf 5/16 verglichen mit den herkömmlichen Verfahren verringert werden, und somit läßt sich die
erforderliche Zeit für die Vergleichsoperation mit den charakteristischen Pararatern der Standardmuster im gleichen Maße verkürzen.
Somit läßt sich die Speicherkapazität zum Speichern von Standard-.mustern
verringern.
Beim erfindungsgemäßen Verfahren ist es erforderlich, die Ver- .
gleichsoperationen mit den charakteristischen Pararatern der
Mikromuster separat durchzuführen, jedoch betragt die Anzahl von Mikromustern höchstens etwa S und ist viel kleiner im Vergleich
zu der Anzahl von Standardmustern, z.B. 10. Somit kann die Vergleichsoperation
bezüglich der Mikromuster virtuell vernachlässigt,
werden. Außerdem wurden experimentelle Daten erhalten, die zeigen,
daß auch dann, wenn die Anzahl von Bits der charakteristischen Paramter für die obige Musteranpassung verringert wird, eine
Verschlechterung des ErkennungsVerhältnisses kaum zu beobachten
ist.
Fig. 5 zeigt ein Blockschaltbild eines Ausführüngsbeispiels für
den Aufbau von Normierungsschaltung 26, Musterpufferspeichern 27 und 28 sowie Abstandsrechenschaltung 29 gemäß Fig. 2.
In der Normierungsschaltung 26 bezeichnet das Bezugszeichen 261
einen Addierer mit parallelen Eingängen, während die Bezugszeichen 262-1 bis 262-16 Teiler bezeichnen. Der Mikromusterpufferspeicher
28 besteht aus fünf Mikromusterspeichern 281 bis
285, während die Abstandsrechenschaltung 29 aus fünf Mikromuster-Komparatoren
291 bis 295 besteht.
130038/0586
Wenn bei einem derartigen Aufbau ρ charakteristische Parameter
zu einer vorgegebenen Zeit parallel aus dem Zwischenpufferspeicher 2 5 ausgelesen und an die Normierungsschaltung 26· angelegt
werden, werden diese Eingangssignale^vom Addierer 261
der Normierungsschaltung 26 addiert, was JpL <l:t .,.
Die so erhaltenenAdditionsergebnisse werden an die Teiler 262-1 bis 262-16 angelegt, mit denen eine Division gemäß der obigen
Gleichung (1) zwischen diesen Eingangssignalen bzw. den als Eingangssignalen angelegten charakteristischen Parametern a.^
(j = 1 «— 16) durchgeführt wird. Nach der Normierung wird das
Ergebnis zeitweilig in den Musterpufferspeicher 27 eingespeichert.
Als nächstes werden die aus dem Musterpufferspeicher 27 ausgelesenen,
normierten ρ charakteristischen Parameter parallel zueinander an die Mikromuster-Komparatoren 291 bis 295 angelegt.
Da andererseits die aus den den Komparatoren entsprechenden Mikromusterspeichern
281 bis 28 5 ausgelesenen 16 charakteristischen Paramter an die Komparatoren 291 bis 295 angelegt werden, werden
beide charakteristischen Paramter von EingangsSignalen
miteinander verglichen und ihre Abstände in diesen Komparatoren berechnet. Dementsprechend werden die Ausgangssignale der Mikromuster-Komparatoren
291 bis 295 zu einer Zeitfolge von 5 Parametern und im Parameterpufferspeicher 30 gespeichert. Unter Verwendung
der auf diese Weise im Parameterpufferspeicher 30 gespeicherten Parameter wird eine Anpassung an die Standardmuster in
der Musteranpassungseinheit 3 gemäß Fig. 1 durchgeführt, und das
Erkennungsergebnis wird als Ausgangssignal der Entscheidungseinheit
U erzeugt.
Der Vollständigkeit halber darf darauf hingewiesen werden, daß
die Schaltungsanordnung gemäß Fig. 5 ebenfalls von der Steuerschaltung 21 in Fig. 2 gesteuert ist.
130038/0 586
Obwohl 16 Teiler 262-1 bis 26 2-16 in Fig. 5 dargestellt sind, ist es auch möglich, nur einen Teiler vorzusehen und jeden
charakteristischen Parameter auf einer Zeitteilerbasis unter Verwendung des einen Teilers zu normieren. Außerdem können
die Mikromuster-Speicher 281 bis 285 gemeinsam mit den Mikromuster-Komparatoren
2 91 bis 29 5 verwendet werden.
Außerdem ist es möglich, eine solche Schaltung vorzusehen, welche die Zeitfolge der aus den angegebenen Mikromuster-Komparatoren
erhaltenen fünf charakteristischen Parameter glättet und die Parameter erneut alle ein oder zwei Intervalle abtastet, um
die charakteristischen Parameter in Richtung ihrer Zeitachse weiter auf 1/2 oder 1/3 zu komprimieren. Entsprechend den
Versuchsergebnissen ist kaum eine Beeinträchtigung des Erkennungsverhältnisses zu beobachten, wenn diese komprimierten Parameter
verwendet werden.
Des weiteren ist es auch möglich, eine Abtastung an einem Punkt als einem repräsentativen Punkt vorzunehmen, wo eine Änderung mit
der Zeit maximal wird, nachdem die Zeitfolge von 5 charakteristischen Paramtern geglättet ist.
Bei der Ausführungsform nach Fig. 2 sind verschiedene Speicher
23, 25, 27, 28 und 30 separat angeordnet, wobei diese Speicher durch einen gemeinsamen Speicher ersetzt werden können.
Obwohl bei der oben beschriebenen Ausführungsform die Ausgangssignale
der Filterbank als die Charakteristika des Spracheingangssignales repräsentierenden Paramter verwendet werden, kann die
Erkennung des Spracheingangssignales auch mittels anderer Parameter
realisiert werden, z.B. mit linearen Vorhersagekoeffizxenten, Teil-Autokorrelationskoeffizienten oder dergleichen.
Neben den charakteristischen Parametern der Vokale können auch andere charakteristische Parameter, wie z.B. Reibkonsonanten
(z.B."S"oder dergleichen) oder Nasal-Konsonanten (z.B. "N" oder
"M") als Mikromuster entweder allein oder in Kombination mit
den Vokalen verwendet werden. Ferner ist es möglich, solche Paramter zu verwenden, die künstlich vorgegeben sind und absichtlich
betonte Charakteristika aufweisen.
Bei der obigen Ausführungsform berechnet die Mikromuster-Betriebs·
schaltung den Abstand, jedoch kann auch die Wahrscheinlichkeit berechnet werden. In jedem Falle kann eine beliebige Methode
solange verwendet werden, wie Vergleichsergebnisse von zwei Mustern dargestellt werden.
Obwohl bei der vorstehend beschriebenen Ausführungsform fünf Mikromuster verwendet werden, läßt sich das Ziel der Erfindung
auch unter Verwendung von mindestens einem Mikromuster erreichen, ohne daß eine spezielle Beschränkung auf die obige Ausführungsform vorliegt.
Aus der vorstehenden Beschreibung ergibt sich, daß dann, wenn die Anpassung zwischen 7» charakteristischen Parametern des
Spracheingangssignals und jeweils ρ charakteristischen Parametern von η Mikromustern erhalten wird, mit dem erfindungsgemäßen
Verfahren der Wert der in der Anpassungseinheit miteinander zu vergleichenden charakteristischen Parameter auf n/p (mit der
Maßgabe, daß n<C ρ gilt), komprimiert werden, wenn man es mit
dem Stande der Technik vergleicht, wobei die Voraussetzung gemacht
ist, daß die erforderliche Speicherkapazität für die jeweiligen charakteristischen Paramter und die erforderliche
Speicherkapazität für die jeweiligen, so erhaltenen Abstände virtuell einander gleich sind. Da die Verarbeitungszeit bei der
Musteranpassungseinheit sowie der Entscheidungseinheit erheblich verkürzt werden kann, ist es möglich, eine schnelle Erkennung zu
realisieren, und zwar die Erkennung in einer Realzeitanordnung oder aber die Anzahl von zu erkennenden Worten zu erhöhen. Die
130038/0586
Speicherkapazität zum Speichern der Standardmuster kann ebenfalls in hohem Maße verringert werden.
Somit können beim erfindungsgemäßen Verfahren die charakteristischen
Parameter des Spracheingangssignales in wirksamer Weise komprimiert und damit die Erkennungsgeschwindigkeit verbessert
sowie die Erkennungs-Verarbeitungs-menge erhöht werden.
Das oben beschriebene Verfahren zur Spracherkennung zeichnet sich somit dadurch aus, daß die Vergleichsoperation..zwischen
ρ charakteristischen Parametern, die durch Berechnung der Spracheingan<«signale zu entsprechenden Zeitpunkten berechnet
sind, und den jeweiligen p_ charakteristischen Paramter von η vorgegebenen, spezifischen Sprachen durchgeführt werden, um
charakteristische Paramter zu erhalten. Dann erfolgt eine Sortierung hinsichtlich der Koinzidenz zwischen den resultierenden
charakteristischen Parametern und charakteristischen Parametern von Standardsprache, die in gleicher Weise durch Vornahme von
Vergleichsoperationen mit charakteristischen Parametern von spezifischen Sprachen erhalten worden sind, um auf diese Weise
die Spracherkennung vorzunehmen.
1 3 0 0 3 8/0586
-AS-.
Leerseite
Claims (8)
1. Verfahren zur Spracherkennung, gekennzeichnet durch folgende Verfahrensschritte:
a) Berechnen von £ ersten charakteristischen Parametern
aus Spracheingangssignalen bei entsprechenden Zeitpunkten, wobei £ eine positive ganze Zahl größer oder
gleich 1 ist;
b) Durchführen einer Vergleichsoperation zwischen den
im erstenSchritt errechneten ersten charakteristischen Parametern und £ ersten charakteristischen Parametern
von η vorgegebenen, spezifischen Sprachen zur Erzielung von zweiten charakteristischen Parametern, wobei
η eine positive ganze Zahl größer oder gleich 1 ist; und
c) Sortieren der Koinzidenz zwischen den beim zweiten Schritt erhaltenen, zweiten charakteristischen Parametern
und den vorher erhaltenen zweiten charakteristischen Parametern durch Vornahme der Vergleichsoperation
130038/0586
zwischen den ersten charakteristischen Parametern von Standardsprachen und den ersten charakteristischen
Parametern von spezifischen Sprachen, um auf
diese Weise die Erkennung des Spracheingangssignaleε
vorzunehmen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
beim ersten Schritt eine Normierung der ersten charakteristischen Parameter durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß als zweite charakteristische Parameter solche Parameter verwendet werden, die den Abstand zwischen den ersten
charakteristischen Parameter der Eingangssprachsignale und den ersten charakteristischen Parametern von spezifischen
Sprachsignalen repräsentieren.
H. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet,
daß für die spezifischen Sprachsignale beliebige Vokale, Reib-Konsonanten und Nasal-Konsonanten verwendet
werden.
5. Verfahren nach einem der Ansprüche 1 bis H, dadurch gekennzeichnet,
daß beim zweiten Schritt eine Glättung der Zeitfolgedaten der zweiten charakteristischen Parameter durchgeführt
und diese Daten in vorgegebenen Intervallen abgetastet werden.
6. Vorrichtung zur Spracherkennung, gekennzeichnet durch eine erste Einrichtung (21-26) zum Berechnen von £ ersten
charakteristischen Parametern aus SpracheingangsSignalen (1)
130038/0586
zu entsprechenden Zeitpunkten, wobei £ eine positive ganze
Zahl größer oder gleich 1 ist,
durch eine zweite Einrichtung (3) zur Durchführung der Vergleichsoperation zwischen den von der ersten Einrichtung
(21-26) berechneten ersten .charakteristischen Parametern und p_ ersten charakteristischen Parametern von η
vorgegebenen, spezifischen Sprachsignalen zur Erzielung von zweiten charakteristischen Parametern, wobei n_ eine positive
ganze Zahl größer oder gleich 1 ist, und durch eine dritte Einrichtung (1I-) zur Bestimmung der
Koinzidenz zwischen den von der zweiten Einrichtung (3) erhaltenen, charakteristischen Parametern und vorher erhaltenen
zweiten charakteristischen Parametern durch Vornahme der Vergleichsoperation zwischen den ersten charakteristischen
Parametern von Standardsprachsignalen und den ersten charakteristischen Parametern von spezifischen Sprachsignalen,
mit denen die Erkennung von Spracheingangssignalen erfolgt.
7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß
die erste Einrichtung (21-26) eine Normierungseinrichtung (26) zum Normieren der ersten charakteristischen Parameter
aufweist.
8. Vorrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet,
daß die zweite Einrichtung (3) eine Einrichtung (242rl,
242-16) zum Glätten der Zeitfolgedaten der zweiten charakteristischen
Parameter und Abtasten dieser Daten in vorgegebenen Intervallen aufweist.
130038/0586
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14890479A JPS5672499A (en) | 1979-11-19 | 1979-11-19 | Pretreatment for voice identifier |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3043516A1 true DE3043516A1 (de) | 1981-09-17 |
DE3043516C2 DE3043516C2 (de) | 1984-10-11 |
Family
ID=15463261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3043516A Expired DE3043516C2 (de) | 1979-11-19 | 1980-11-18 | Verfahren und Vorrichtung zur Spracherkennung |
Country Status (3)
Country | Link |
---|---|
US (1) | US4426551A (de) |
JP (1) | JPS5672499A (de) |
DE (1) | DE3043516C2 (de) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
EP0139642A1 (de) * | 1983-03-28 | 1985-05-08 | Exxon Research Engineering Co | Spracherkennungsverfahren und vorrichtung. |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5814199A (ja) * | 1981-07-17 | 1983-01-26 | 三洋電機株式会社 | 音声認識装置 |
JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
US4817158A (en) * | 1984-10-19 | 1989-03-28 | International Business Machines Corporation | Normalization of speech signals |
US4969193A (en) * | 1985-08-29 | 1990-11-06 | Scott Instruments Corporation | Method and apparatus for generating a signal transformation and the use thereof in signal processing |
US5142657A (en) * | 1988-03-14 | 1992-08-25 | Kabushiki Kaisha Kawai Gakki Seisakusho | Apparatus for drilling pronunciation |
IT1229782B (it) * | 1989-05-22 | 1991-09-11 | Face Standard Ind | Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento |
US5025471A (en) * | 1989-08-04 | 1991-06-18 | Scott Instruments Corporation | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns |
US5440661A (en) * | 1990-01-31 | 1995-08-08 | The United States Of America As Represented By The United States Department Of Energy | Time series association learning |
FR2727236B1 (fr) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | Detection d'activite vocale |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
-
1979
- 1979-11-19 JP JP14890479A patent/JPS5672499A/ja active Granted
-
1980
- 1980-11-18 DE DE3043516A patent/DE3043516C2/de not_active Expired
- 1980-11-19 US US06/208,251 patent/US4426551A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
EP0139642A1 (de) * | 1983-03-28 | 1985-05-08 | Exxon Research Engineering Co | Spracherkennungsverfahren und vorrichtung. |
EP0139642A4 (de) * | 1983-03-28 | 1985-11-07 | Exxon Research Engineering Co | Spracherkennungsverfahren und vorrichtung. |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
Also Published As
Publication number | Publication date |
---|---|
JPS5672499A (en) | 1981-06-16 |
JPS6128998B2 (de) | 1986-07-03 |
US4426551A (en) | 1984-01-17 |
DE3043516C2 (de) | 1984-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3043516A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE3819178C2 (de) | ||
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE2934489C2 (de) | ||
DE69735396T2 (de) | Akustischer Teilband-Echokompensator | |
EP1386307B1 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE4031638C2 (de) | ||
DE19500494C2 (de) | Merkmalsextraktionsverfahren für ein Sprachsignal | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE3733391C2 (de) | ||
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE19961817B4 (de) | Frequenzabweichung detektierendes Gerät und Frequenzabweichungs-Detektionsverfahren | |
DE3026055C2 (de) | Schaltungsanordnung zur maschinellen Zeichererkennung | |
EP0035761A2 (de) | Verfahren zum Betrieb eines Spracherkennungsgerätes | |
EP0554494A1 (de) | Adaptives nichtrekursives Digitalfilter | |
EP0340301B1 (de) | Digitales adaptives transformationscodierverfahren | |
DE3642591C2 (de) | ||
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
EP0292749B1 (de) | Verfahren zum Bestimmen der Parameter eines Verzögerungsgliedes n-ter Ordnung mit gleichen Zeitkonstanten | |
EP0760151B1 (de) | Verfahren zur erkennung von sprachsignalen und anordnung zum durchführen des verfahrens | |
EP0231490B1 (de) | Verfahren zur Spracherkennung in geräuschvoller Umgebung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |