DE3630518C2

DE3630518C2 - Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Info

Publication number: DE3630518C2
Application number: DE19863630518
Authority: DE
Inventors: Tetsuya Muroi; Seigou Yasuda; Toshiki Kawamoto; Junichiro Fujimoto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1985-09-06
Filing date: 1986-09-08
Publication date: 1996-05-02
Anticipated expiration: 2006-09-09
Also published as: DE3630518A1

Description

Die Erfindung betrifft eine Einrichtung zum lautweisen Iden tifizieren eines Sprechmusters nach dem Oberbegriff des An spruches 1.

Eine derartige Einrichtung zum lautweisen Identifizieren eines Sprechmusters ist aus der DE-OS 23 47 738 bekannt. Die se bekannte Einrichtung enthält eine Wandlereinrichtung zum Umwandeln einer zu erkennenden Sprache in ein elektrisches Sprechsignal. Es ist ferner eine Frequenzanalyseeinrichtung vorhanden, die Teil einer Verarbeitungseinrichtung ist zum Verarbeiten des Sprechsignals in einer vorbestimmten Weise zum Erzeugen eines Sprechmusters in Form einer Zeit-Frequenz- Verteilung. Die bekannte Einrichtung umfaßt ferner eine De tektoreinrichtung zum Ermitteln eines zeitlichen Abschnitts des Sprechmusters vom Beginn eines Beobachtungszeitraums ab, wobei dieser Abschnitt für die Sprechmustererkennung weiter verarbeitet wird, enthält ferner eine Einrichtung zum Bestim men der Übereinstimmung des Sprechmusters mit mindestens einem einer Anzahl registrierter Sprechmuster, wobei der Be obachtungszeitraum jeweils einen Laut umfaßt.

Aus der DE 32 36 000 A1 ist ein Verfahren zum Klassifizieren von Audiosignalen bekannt, bei dem die Nulldurchgänge eines Audiosignals in digitale Impulsfolgen umgewandelt und damit Signalpausen vorgegebener minimaler Dauer detektiert werden können. Dieses bekannte Verfahren ist aber beispielsweise nicht dafür geeignet, um bestimmte Lautabschnitte, wie bei spielsweise Zischlautabschnitte eines Sprachsignals, detek tieren zu können.

Aus der US-PS 3 909 532 ist eine Einrichtung zum Identifizie ren eines Sprechmusters bekannt, die darauf basiert, daß die Energie von Codeworten am Ausgang eines adaptiven Sprachko dierers dazu verwendet wird, den Anfang und das Ende eines Sprechmusters zu ermitteln. Der Beginn eines Sprechmusters wird beispielsweise dadurch ermittelt, indem festgestellt wird, ob die Energie des Sprechmusters einen vorbestimmten Schwellenwert für eine vorbestimmte Zeitdauer überschreitet. Diese bekannte Einrichtung basiert somit auf der Anwendung des Signalpegel-Detektorverfahrens, d. h. es werden Teile eines zu erkennenden Sprachmusters an sich gar nicht erfaßt, deren Energie unterhalb des genannten vorbestimmten Schwel lenwertes liegen. Bei dieser bekannten Einrichtung wird daher beispielsweise der Zischlautabschnitt eines zu erkennenden Sprechmusters überhaupt nicht erfaßt, sondern erst der nach folgende Explosionsabschnitt, der einen entsprechend höheren Signalpegel hat, so daß dieser Signalpegel oberhalb des Schwellenwertes liegt. Bei dieser bekannten Einrichtung wer den ferner auch immer Teile des Sprechmusters abgeschnitten, die aber unter Umständen für eine exakte Spracherkennung er forderlich sein können.

Auf dem Gebiet des Erkennens von Sprache ist es außerdem all gemein bekannt, mehrere Sprechmuster durch Wiederholen des selben Lautes oder Wortes zu erzeugen und die Sprechmuster dann zu überlagern, um ein zusammengesetztes Sprechmuster zur Registrierung in einer Sprachbibliothek zu definieren. Wenn man eine Anzahl von Sprechmustern erzeugt, kann dieselbe Per son denselben Laut oder dasselbe Wort eine bestimmte Anzahl von Malen wiederholen, oder zwei oder mehrere unterschiedli che Personen können solche Sprechmuster erzeugen. Der Grund für die Überlagerung einer Anzahl von Sprechmustern zum Defi nieren eines zusammengesetzten Sprechmusters für die Regi strierung ist jener, daß ein solches zusammengesetztes Sprech muster es ermöglicht, unbekannte Sprachdaten mit einer erhöh ten Erfolgschance zu identifizieren, weil üblicherweise eini ge Unterschiede zwischen den Sprechmustern vorliegen, selbst wenn dieselbe Person denselben Laut oder dasselbe Wort auf einanderfolgend ausspricht.

Beim Überlagern einer Anzahl von Sprechmustern für denselben Laut oder dasselbe Wort wird in Übereinstimmung mit einer Vorgehensweise aus dem Stand der Technik ein Sprechintervall für einen stimmhaften Laut zunächst bestimmt, und die Überla gerung wird unmittelbar vom Beginn des Sprechintervalls aus durchgeführt. Wenn in diesem Fall der beginnende Abschnitt eines stimmhaften Wortes einen Verschlußlaut aufweist oder ein einsilbiges Wort einen Verschlußlaut aufweist, dann ist es wahrscheinlich, daß die Verschlußlaute zweier oder mehre rer Sprechmuster nicht genau übereinanderliegen, und zwar beispielsweise infolge des Vorliegens oder Fehlens eines Zischabschnitts und/oder Unterschieden in der Zeitdauer eines solchen Zischabschnitts, wodurch es erschwert ist, ein ge naues, zusammengesetztes Sprechmuster zur Registrierung zu definieren. Zusätzlich wird beim Vorgang der Erkennung einer unbekannten Sprachinformation in Übereinstimmung mit der Vor gehensweise aus dem Stand der Technik ein Sprechmuster aus der unbekannten Sprachinformation erzeugt und das Sprechin tervall wird bestimmt, und dann wird die Übereinstimmung mit registrierten Sprechmustern hergestellt, um die unbekannte Sprachinformation zu identifizieren. In diesem Fall wird in Übereinstimmung mit dem Stand der Technik das Sprechmuster der unbekannten Sprachinformation verglichen mit den regi strierten Sprechmustern, und zwar unmittelbar vom Beginn des Sprechintervalls ausgehend. Wie oben erwähnt, ist dies nicht vorteilhaft, weil das Vorliegen oder das Fehlen eines Zisch abschnitts zu einer fehlerhaften Spracherkennung führen könn te.

Es ist zusätzlich auch bekannt, eine eingehende Sprachinfor mation zurückzuweisen, wenn ihr Sprechintervall zu kurz ist, weil dies eine Schwierigkeit beim Durchführen des Vorganges der Spracherkennung bieten könnte. Wenn unbekannte Sprachda ten, die zu identifizieren sind, im Schallpegel zu niedrig liegen, trifft oft eine Schwierigkeit bei der Identifizierung der unbekannten Sprachdaten auf. Es ist somit oftmals er wünscht, die Behandlung solcher unbekannter Sprachdaten zu rückzuweisen, deren Schallpegel zu niedrig liegt.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, eine Einrichtung zum lautweisen Identifizieren eines Sprech musters der angegebenen Gattung zu schaffen, welche die Mög lichkeit bietet, eine zeitgenauere Erkennung derjenigen Ab schnitte eines zu identifizierenden Sprechmusters zu ermögli chen, die für die Spracherkennung zu verwenden sind.

Diese Aufgabe wird erfindungsgemäß durch die im Kennzeich nungsteil des Anspruches 1 aufgeführten Merkmale gelöst.

Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.

Im folgenden wird die Erfindung anhand von Ausführungsbei spielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein Blockschaltbild, das eine Einrichtung zum Regi strieren von Sprechmustern zeigt und die in Über einstimmung mit einem Ausführungsbeispiel mit Merk malen nach der Erfindung aufgebaut ist,

Fig. 2 eine Darstellung, die ein Beispiel des Zeit-Fre quenz-Spektralmusters für einen stimmhaften Ver schlußlaut zeigt,

Fig. 3a und 3b jeweils ein Diagramm, die die zeitabhängige Änderung des Sprachsignalpegels eines stimmhaften Verschlußlautes mit und ohne Zischabschnitt A zei gen,

Fig. 4 ein Blockschaltbild, das eine Einrichtung zum Regi strieren von Sprechmustern zeigt, die in Überein stimmung mit einem anderen Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung aufgebaut ist,

Fig. 5 ein Blockschaltbild, das den detaillierten Aufbau eines Ausführungsbeispiels des Detektors 3 für den Startpunkt der Überlagerung zeigt, der in der in Fig. 1 gezeigten Einrichtung vorgesehen ist; und

Fig. 6 ein Blockschaltbild, das den detaillierten Aufbau eines Beispiels der Überlagerungseinheit 4 zeigt, die in der in Fig. 1 gezeigten Einrichtung vorgese hen ist.

Es wird zunächst auf Fig. 1 Bezug genommen; dort ist in Blockform eine Einrichtung zum Registrieren eines Sprechbe zugsmusters zur Verwendung bei der Wiedererkennung von Spra che gezeigt; diese weist ein Mikrophon 1 auf, um Schall in Form einer Druckwelle in ein elektrisches Sprachsignal umzu wandeln, einen Frequenzanalysator (Frequenzanalyseeinrichtung) 2 zum Verarbeiten des elek trischen Sprachsignals, um ein Sprechmuster in Form einer Zeit-Frequenz-Verteilung zu bilden, eine Einrichtung (Detektoreinrichtung) 3 zum Ermitteln des Ausgangspunkts für die Überlagerung sowie eine Überlagerungseinheit 4. Bei dieser Einrichtung wird derselbe Sprachlaut dem Mikrophon 1 mehrfach von derselben oder unter schiedlichen Personen zugeführt, und somit wird eine Anzahl von Sprechmustern aufeinanderfolgend erzeugt. Die vielen Sprechmuster werden aufeinanderfolgend überlagert, wobei man ein zusammengesetztes Sprechbezugsmuster für einen speziellen Sprachlaut registriert. Das so registrierte Sprechbezugsmu ster kann später zum Identifizieren unbekannter Sprache durch Herstellen einer Übereinstimmung verwendet werden, wie dies in der Technik bekannt ist.

In Übereinstimmung mit der vorliegenden Erfindung wird ein Sprachsignal der Frequenzanalyse unterzogen, um ein Sprech muster in Form einer Zeit-Frequenz-Verteilung zu erhalten, und ein Ausgangspunkt dieses Sprechmusters zur Überlagerung über ein bereits vorher erzeugtes Sprechmuster für denselben Sprachlaut wird durch die Einrichtung 3 zum Ermitteln des Ausgangspunkts für die Überlagerung ermittelt. Dieser Aus gangspunkt für die Überlagerung wird am Anfangsabschnitt des Sprechmusters auf eine solche Weise bestimmt, daß Sprach energie gleich oder kleiner ist als ein bestimmter Wert und eine Niederfrequenz-Komponente der Sprechenergie gleich oder größer ist als ein bestimmter Wert. Wenn dieser Ausgangspunkt für die Überlagerung gefunden ist, dann wird die Überlagerung über die vorangegangenen Sprechmuster für denselben Laut ein geleitet, wobei dieser Ausgangspunkt benutzt wird. Da das Sprechmuster über die bereits vorher registrierten Sprechmu ster für denselben Sprachlaut überlagert wird, wird stets ein einziges, zusammengesetztes Sprechbezugsmuster hinterlassen, das für einen speziellen Sprachlaut registriert bzw. aufge zeichnet wird. Als andere Vorgehensweise kann jener Abschnitt des Sprechmusters vom Beginn bis zu dem Ausgangspunkt für die Überlagerung, der auf diese Weise ermittelt wurde, abge schnitten oder vom Sprechmuster entfernt werden, und dann kann die Überlagerung durchgeführt werden.

Fig. 2 ist eine Perspektivdarstellung, die ein Zeit-Frequenz- Spektralverteilungsmuster des Lautes "gi" als stimmhaften Verschlußlaut zeigt. Wie gezeigt, weist das Muster einen Zischabschnitt A, einen Explosionsabschnitt B und einen Vo kalabschnitt C auf. Der Zischabschnitt A ist charakteristisch für einen stimmhaften Verschlußlaut und unterscheidet sich von Person zu Person sowie von Zeit zu Zeit selbst bei der selben Person, und sogar bei derselben Person erscheint er manchmal und erscheint manchmal nicht. Selbst wenn der Zisch abschnitt A erscheint, ist seine Zeitdauer vorhersagbar und äußerst unstabil. Im übrigen ist im Zischabschnitt A kein be merkenswerter Unterschied hinsichtlich der Form des Spektral musters unter den drei Arten von stimmhaften Verschlußlauten "b", "d" und "g" zu sehen. Deshalb kann, wenn zwei oder mehr Sprechmuster für denselben Sprachlaut einfach vom Beginn des Sprechintervalls eines jeden Musters überlagert werden, der Explosionsabschnitt B, der ein kritisches Element bei der Identifizierung eines stimmhaften Verschlußlautes ist, in Überlagerung mit dem Zischabschnitt A oder dem Vokalabschnitt C gelangen, wobei die Bildung eines überlagerten Sprechbe zugsmusters, das mit hoher Genauigkeit registriert werden soll, verhindert ist.

Die Grundlage der vorliegenden Erfindung für die Überlagerung zweier oder mehrerer Sprechmuster für einen speziellen Laut zur Registrierung wird unter Bezugnahme auf die Fig. 3a und 3b beschrieben. Fig. 3a zeigt die Änderung in der Sprachener gie eines speziellen stimmhaften Verschlußlautes mit einem Zischabschnitt A am Beginn als Funktion der Zeit. Fig. 3b zeigt die Änderung der Sprachenergie eines speziellen stimm haften Verschlußlautes, der keinen Zischabschnitt aufweist. Wie in Fig. 3a gezeigt, kann der Zischabschnitt A dann iden tifiziert werden, wenn zwei Bedingungen erfüllt sind. Das heißt, beim Beginn des Sprechmusters, wie in Fig. 3a anhand der zeitabhängigen Sprachenergie gezeigt, befindet sich ein Zeitraum, während welchem (1.) die Schallenergie gleich oder kleiner ist als ein bestimmter Wert und (2.) eine niederfre quente Komponente ein Verhältnis bzw. einen Anteil aufweist, der gleich oder größer ist als ein bestimmter Wert der Schallenergie. In Übereinstimmung mit der vorliegenden Erfin dung wird nach Abschluß eines solchen Zeitraums vom Beginn eines Sprechmusters an, d. h. nach dem Ende des Zischab schnitts A, die Überlagerung der Sprechmuster durchgeführt. Als Ergebnis ist stets sichergestellt, daß die Explosionsab schnitte B, die bei der Identifizierung eines stimmhaften Verschlußlauts kritisch sind, genau überlagert werden, wobei es gestattet ist, ein überlagertes Sprechbezugsmuster mit ho her Genauigkeit zu registrieren.

Es erfolgt nun die detailliertere Beschreibung unter Bezug nahme auf ein spezielleres Beispiel; der Frequenzanalysator 2 weist eine Bandpaßfilterbank bzw. eine Reihe von Bandpaßfil tern auf, die mit 29 Kanälen versehen sind, deren Mittelfre quenz von 250 Hz bis 6300 Hz in Stufen von 1/6 Oktaven verän dert ist. Wenn somit ein Sprechsignal von einem Mikrophon oder ein spezieller Sprachlaut durch den Frequenzanalysator verarbeitet wird, dann wird ein Zeit-Frequenz-Verteilungsmu ster bei jedem Zeitraum erhalten. Die während eines jeden Zeitraums erhaltenen Daten werden "Rahmen" genannt, und somit können die Daten auch durch eine Rahmennummer vom Beginn des Musters aus identifiziert werden. Ein Sprechmuster wird auf einanderfolgend durch den Frequenzanalysator 2 erzeugt und wird in die Einrichtung 3 zum Ermitteln des Ausgangspunktes für die Überlagerung eingespeist. An der Einrichtung 3 für die Ermittlung des Ausgangspunkts der Überlagerung wird die Sprachenergie eines Rahmens mit einer maximalen Sprachenergie während eines Sprechintervalls herausgezogen und als Emax identifiziert. Wenn während eines Zeitraums vom Beginnen des Sprechintervalls bis zu 100 bis 300 ms, vorzugsweise 200 ms, ein Intervall vorliegt, in welchem (1) die Sprachenergie gleich oder kleiner ist als 10 bis 40%, vorzugsweise 20%, und (2) eine Niederfrequenz-Komponente von 200 Hz bis 1 kHz, vor zugsweise 500 Hz, oder weniger, 60 bis 100%, vorzugsweise 80%, der Sprachenergie einnimmt, dann wird die Überlagerung nach dem Ende dieses Intervalls eingeleitet.

Ein Beispiel einer Einrichtung 3 zum Ermitteln des Ausgangs punkts für die Überlagerung ist im einzelnen in Fig. 5 ge zeigt. Bei dem in Fig. 5 gezeigten Beispiel weist die Ein richtung 3 zum Ermitteln des Ausgangspunktes für die Überla gerung ein Paar aus einem ersten bzw. zweiten Addierer 3a und 3b auf, die mit dem Frequenzanalysator 2 verbunden sind. Der erste Addierer 3a addiert die Ausgänge von allen Kanälen 1 bis 29, die den Frequenzbereich von 250 Hz bis 6300 Hz der Bandpaßfilterbank abdecken, die im Frequenzanalysator 2 vor gesehen ist. Andererseits ist der zweite Addierer 3b vorgese hen, um die Ausgänge aus den Kanälen 1 bis 7 zu addieren, und zwar entsprechend einem Niederfrequenzbereich von 250 Hz bis 500 Hz. Die beim ersten Addierer 3a erhaltenen, aufaddierten Daten werden zwischenzeitlich in einem ersten Register 3c ge speichert, während jene Daten, die im zweiten Addierer 3b addiert wurden, zwischenzeitlich in einem zweiten Register 3d gespeichert werden. Ein erster Multiplikator 3e ist ange schlossen, um die im ersten Register 3c gespeicherten Daten aufzunehmen, und ein erster bestimmter Faktor, etwa 0,8 (80%), wird mit den Daten aus dem ersten Register 3c multi pliziert und das resultierende Ergebnis wird zwischenzeitlich in einem dritten Register 3g abgespeichert. Die Angaben im zweiten Register 3d, die mit C2 bezeichnet sind, werden dann mit den Angaben im dritten Register 3g, die mit C1 bezeichnet sind, bei einem ersten Komparator 3j verglichen, der einen Ausgang "1" liefert, wenn C1 kleiner ist als C2, und "0", wenn C1 gleich oder größer ist als C2.

An das erste Register 3c ist auch ein Höchstwertdetektor 3f angeschlossen, der einen Höchstwert der addierten Daten für jeden Zeitraum oder Rahmen feststellt und diesen Maximalwert einem zweiten Multiplikator 3h zuführt. Am Multiplikator wird ein zweiter bestimmter Faktor, etwa 0,2 (20%), mit dem Höchstwert multipliziert, der vom Höchstwertdetektor 3f zuge führt wird, und die resultierenden Größen werden zwischen zeitlich in einem vierten Register 3i abgespeichert. Die Da ten im vierten Register 3i, die mit C3 bezeichnet sind, wer den dann mit den Daten im ersten Register 3c, die mit C4 be zeichnet sind, durch einen zweiten Komparator 3k verglichen, der an seinem Ausgang "1" abgibt, wenn C3 größer ist als C4, und "0", wenn C3 gleich oder kleiner ist als C4.

Es ergibt sich dann bei dieser Anordnung, wenn von erstem und zweitem Komparator 3j und 3k jeder "1" als Ausgang an eine UND-Schaltung 31 abgibt und somit die UND-Schaltung 31 "1" als ihren Ausgang abgibt, daß der Zischabschnitt A des Sprechmusters verarbeitet wird. Wenn die UND-Schaltung 31 "0" als ihren Ausgang zum erstenmal abgibt, dann bezeichnet dies das Ende des Zischabschnitts A, so daß der entsprechende Rah men als Ausgangspunkt für die Überlagerung an einem Ausgangs punkt-Detektor 3m ermittelt und dann der Überlagerungseinheit 4 zugeführt wird.

Ferner zeigt Fig. 6 im einzelnen ein Beispiel der Überlage rungseinheit 4 in der in Fig. 1 gezeigten Einrichtung. Wie gezeigt, weist die Überlagerungseinheit 4 ein Register 4a auf, um zwischenzeitlich ein Sprechmuster in Form einer Zeit- Frequenz-Verteilung zu speichern, welche gerade von einem eingehenden Sprachlaut erzeugt wurde. Die dargestellte Über lagerungseinheit 4 weist auch ein anderes Register 4d auf, welches die Anzahl von Rahmen eines jeden registrierten Sprechmusters speichert. Wenn das neue Sprechmuster in das Register 4a eingespeichert wird, dann wird die Anzahl der Rahmen, die dem neuem Sprechmuster überlagert werden soll (d. h. die Anzahl von Rahmen vom Überlagerungsausgangspunkt bis zum Ende des Sprechintervalls) verglichen mit der Anzahl von Rahmen, die im Register 4d für den entsprechenden Sprach laut gespeichert sind, und dann wird das Maß der linearen Expansion/Kontraktion (d. h. die Anzahl der Rahmen), die für das neue Sprechmuster ausgeführt werden muß, das im Register 4a gespeichert ist, bestimmt. Dann wird das neue, im Register 4a gespeicherte Sprechmuster der linearen Expansion bzw. Kon traktion unterzogen, wobei die Anzahl von Rahmen des neuen Sprechmusters, das überlagert werden soll, auf die Anzahl von Rahmen des registrierten Sprechmusters abgeglichen wird, wel ches im Register 4d gespeichert ist, wie oben erwähnt.

Es ist auch noch ein weiteres Register 4e zum Speichern der Anzahl von Überlagerungen für jedes registrierte Sprechbe zugsmuster und ein noch weiteres Register 4f zum Speichern der registrierten Sprechbezugsmuster vorgesehen. Der Wert des registrierten Sprechbezugsmusters, das im Register 4f gespei chert ist, wird mit der entsprechenden Anzahl von Überlage rungen, die im Register 4e gespeichert sind, an einem Multi plikator 4g multipliziert und dann werden die resultierenden Daten zum neuen Sprechbezugsmuster, das der Behandlung linea rer Expansion bzw. Kontraktion unterzogen wurde, bei einem Addierer 4h hinzuaddiert. Es wird dann das addierte Ergebnis dividiert durch (Anzahl von Überlagerungen + 1) an einem Di vidierer 4i und dessen Ergebnis wird im Register 4f als er neuertes Sprechbezugsmuster gespeichert. Um genauer auszufüh ren, wird davon ausgegangen, das Xÿ einen Wert eines regi strierten Sprechbezugsmusters am i-ten Kanal und j-ten Rahmen und Yÿ den Wert eines neu eingehenden Sprechmusters für den selben Laut am i-ten Kanal und j-ten Rahmen bezeichnet; dann kann der Wert Xÿ′ als durch Überlagerung erneuertes Sprech muster auf die folgende Weise ausgedrückt werden:

wobei m die Anzahl von Überlagerungen bezeichnet.

Es muß vermerkt werden, daß die Anzahl von Überlagerungen, die im Register 4e für den entsprechenden Sprachlaut gespei chert ist, durch den Schritt +1 jedesmal dann erneuert wird, wenn eine Überlagerung ausgeführt wird.

Fig. 4 zeigt in Blockform ein anderes Ausführungsbeispiel der vorliegenden Erfindung, welches eine Modifizierung der Anord nung ist, die in Fig. 1 gezeigt ist. Es muß vermerkt werden, daß, wie es durchgehend in der vorliegenden Beschreibung und den Zeichnungen praktiziert wurde, gleiche Bezugszeichen gleiche bzw. ähnliche Elemente bezeichnen, ohne daß diese sonstwie speziell vermerkt werden. Im vorliegenden Ausfüh rungsbeispiel wird eine Muster-Abschneideeinheit 5 anstelle der Detektoreinrichtung 3 für den Ausgangspunkt der Überlagerung ver wendet. In Übereinstimmung mit diesem Ausführungsbeispiel wird, wenn ein Zeitraum am Beginn eines Sprechmusters auf eine solche Weise vorliegt, daß die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und eine Nieder freuqnez-Komponente gleich oder größer ist als ein zweiter bestimmter Wert, der als Anteil der Sprachenergie bestimmt ist, ein solcher Zeitraum an der Muster-Abschneideeinheit 5 entfernt bzw. unterdrückt wird, bevor das Muster überlagert wird. Als ein Beispiel kann die Muster-Abschneideeinheit 5 jede Anordnung aufweisen, wie sie in Fig. 5 gezeigt ist. In diesem Fall sollte jedoch Ausgangspunkt-Detektor 3m ersetzt werden durch einen Abschneide-Endpunktdetektor, dessen Funktion es ist, einen Rahmen zu ermitteln, wenn der Ausgang von der UND-Schaltung 31 das erste Mal "0" wurde, und dann alle vorherigen Rahmen bis zu dem durch "0" ermittelten Rahmen abzutrennen und zu verwerfen.

Wenn somit ein Sprachlaut in Form einer Druckwelle als Ein gang in das Mikrophon 1 gelangt, wird er in ein elektrisches Sprechsignal umgewandelt, welches dann durch den Frequenzana lysator 2 so verarbeitet wird, daß ein Sprechmuster erzeugt wird. Wenn dann das Sprechmuster der Muster-Abschneideeinheit 5 zugeführt wird, werden dessen Sprachstärke und das Verhält nis der Stärke der Niederfrequenz-Komponente zur Sprachstär ke, welche eine Summe aller Ausgänge der Bandpaßfilterbank (29 Kanäle im dargestellten Beispiel) ist, ermittelt. Dann wird geprüft, ob ein solcher Zeitraum am vorderen Abschnitt des Sprechmusters vorliegt, bei welchem die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und die Stärke der Niederfrequenz-Komponente gleich oder größer ist als ein zweiter bestimmter Wert. Wenn es sich dann her ausgestellt hat, daß ein solcher Zeitraum vorliegt, wird die ser abgetrennt und verworfen, bevor das Sprechmuster der Überlagerungseinheit 4 zugeführt wird. Deshalb werden an der Überlagerungseinheit 4 mehrere Sprechmuster, deren anfängli che Abschnitte abgeschnitten wurden, überlagert, um ein zu sammengesetztes Sprechbezugsmuster für die Registrierung zu definieren.

Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel der Zischabschnitt A, der in Fig. 3a gezeigt ist, von der Mu ster-Abschneideeinheit 5 so entfernt, daß ein Sprechmuster gebildet ist, das nur aus dem Explosionsabschnitt B und dem Vokalabschnitt C zusammengesetzt ist.

Selbst wenn in diesem Fall das Sprechmuster eines stimmhaften Verschlußlauts, der einen Zischabschnitt aufweist, über das Sprechmuster eines stimmhaften Verschlußlauts überlagert wer den soll, der keinen Zischabschnitt aufweist, ist stets si chergestellt, daß die Explosionsabschnitte übereinander ange ordnet werden, wobei es ermöglicht ist, ein überlagertes Sprechbezugsmuster mit hoher Genauigkeit zu registrieren bzw. zu speichern.

Claims

1. Einrichtung zum lautweisen Identifizieren eines Sprechmusters, mit einer Wandlereinrichtung zum Umwandeln einer zu erkennenden Sprache in ein elektrisches Sprech signal, mit einer eine Frequenzanalyseeinrichtung enthal tenden Verarbeitungseinrichtung zum Verarbeiten des Sprech signals in einer vorbestimmten Weise zum Erzeugen eines Sprechmusters in Form einer Zeit-Frequenz-Verteilung, mit einer Detektoreinrichtung zum Ermitteln eines zeitlichen Abschnitts des Sprechmusters vom Beginn eines Beobach tungszeitraums ab, wobei dieser Abschnitt für die Sprech mustererkennung weiter verarbeitet wird, und mit einer Überlagerungseinheit zum Bestimmen der Übereinstimmung des Sprech musters mit mindestens einem einer Anzahl registrierter Sprechmuster, wobei der Beobachtungszeitraum jeweils einen Laut umfaßt, dadurch gekennzeichnet, daß

a) die der Frequenzanalyseeinrichtung (2) nachgeschalte te Detektoreinrichtung (3) die von der Frequenzanaly seeinrichtung (2) gelieferten Frequenzbänder in Grup pen gemäß einem Gesamtfrequenzbereich (215 Hz-6300 Hz) und gemäß einem unteren Frequenzbereich (250 Hz- 500 Hz) aufteilt, wobei die Frequenzbänder der jewei ligen Gruppe addiert werden,
b) die Detektoreinrichtung (3) ferner dafür ausgebildet ist, festzustellen, ob der Summenpegel der tiefen Fre quenzbänder größer als der gewichtete Summenpegel aller Frequenzbänder ist,
c) die Detektoreinrichtung (3) ferner dafür ausgebildet ist, festzustellen, ob der gewichtete Höchstwert des Summenpegels aller Frequenzbänder größer als der Sum menpegel aller Frequenzbänder ist, um diesen Teil des Sprachmusters dann als Zischabschnitt (A) mit re lativ niedrigem Signalpegel zu Beginn des Sprechmu sters zu erkennen und damit auch das Ende des Zisch lautabschnitts (A) und den Beginn des darauf folgenden Explosionsabschnitts (B) und/oder des Vokalabschnitts (C) des Sprechmusters zu ermitteln, und
d) die Überlagerungseinheit (4) zum Bestimmen der Übereinstimmung des Sprechmusters dafür ausgebildet ist, die relativ niedrigpegeligen Zischlaute am Beginn des Sprechmu sters abzuschneiden, relativ niedrigpegelige andere Laute jedoch nicht abzuschneiden.

2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Detektoreinrichtung (3) zwei Schwellenwerte vorgibt, von denen der erste so niedrig liegt, um den Zischlautabschnitt (A) zu unterdrücken und von denen der zweite so hoch liegt, um eine Niederfrequenzkomponente des Sprachmusters zu selek tieren.

3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wandlereinrichtung ein Mikrophon (1) aufweist.

4. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Frequenzanalyseeinrichtung (2) mehrere Bandpaßfilter mit unterschiedlichen Frequenzbereichen aufweist.

5. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung (6) einen Höchstwertdetektor aufweist, der den Höchstwert des Sprachmusters ermittelt.

6. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der untere Frequenzbereich von 200 Hz bis 1 kHz reicht.

7. Einrichtung nach Anspruch 1, bei der das Sprechmuster aus mehreren Rahmen besteht, die zeitlich aufeinanderfolgen, gekennzeichnet durch
eine Identifizierungseinrichtung (17), um das Sprechmu ster durch Herstellung der Übereinstimmung mit einer Mehrzahl registrierter Sprechmuster zu identifizieren,
eine Detektoreinrichtung (14) zum Ermitteln eines Sprechintervalls durch Vergleich des Sprechmusters mit einem ersten Bezugswert,
eine Addiereinrichtung (15) zum Aufaddieren der Sprech signalpegel des Sprechmusters über eine bestimmte Anzahl von Rahmen, und
eine Einrichtung zum Vergleichen (16) der addierten Sprachsignalpegel mit einem Paar aus einem oberen und einem unteren Bezugswert und zum Annullieren des Sprechmusters, wenn der aufaddierte Wert außerhalb eines Bereiches zwischen dem oberen und unteren Bezugswert liegt.

8. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Sprachsignalpegel der bestimmten Anzahl von Rahmen auf addiert werden, solange ihre Sprachsignalpegel gleich oder höher sind als ein zweiter Bezugswert.

9. Einrichtung nach Anspruch 7 oder 8, dadurch gekennzeich net, daß der zweite Bezugswert und der obere und der untere Bezugswert als Funktion des Hintergrundgeräuschpegels verän derbar sind.

10. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Addiereinrichtung (15) die Sprachsignalpegel des Sprech musters über den gesamten Sprechintervall hinweg aufaddiert und den Summen-Sprachsignalpegel durch die Gesamtzahl der Rahmen dividiert, um einen mittleren Rahmensignalpegel zu de finieren, und daß die Einrichtung (16) zum Vergleichen den mittleren Rahmensignalpegel mit dem Paar aus oberem und unte rem Bezugswert vergleicht.

11. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß der zweite Schwellenwert auf einen Wert im Bereich von 60 bis 100% des Höchstwertes des Sprechmusters eingestellt ist.