DE3630518C2 - Einrichtung zum lautweisen Identifizieren eines Sprechmusters - Google Patents

Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Info

Publication number
DE3630518C2
DE3630518C2 DE19863630518 DE3630518A DE3630518C2 DE 3630518 C2 DE3630518 C2 DE 3630518C2 DE 19863630518 DE19863630518 DE 19863630518 DE 3630518 A DE3630518 A DE 3630518A DE 3630518 C2 DE3630518 C2 DE 3630518C2
Authority
DE
Germany
Prior art keywords
speech
speech pattern
pattern
section
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19863630518
Other languages
English (en)
Other versions
DE3630518A1 (de
Inventor
Tetsuya Muroi
Seigou Yasuda
Toshiki Kawamoto
Junichiro Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP19725585A external-priority patent/JPS6257000A/ja
Priority claimed from JP60197254A external-priority patent/JPS6256999A/ja
Priority claimed from JP61061726A external-priority patent/JPS62217296A/ja
Priority claimed from JP61089138A external-priority patent/JPS62244100A/ja
Priority claimed from DE3645118A external-priority patent/DE3645118C2/de
Priority to DE19863645119 priority Critical patent/DE3645119C2/de
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority claimed from DE19863645119 external-priority patent/DE3645119C2/de
Publication of DE3630518A1 publication Critical patent/DE3630518A1/de
Publication of DE3630518C2 publication Critical patent/DE3630518C2/de
Application granted granted Critical
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Description

Die Erfindung betrifft eine Einrichtung zum lautweisen Iden­ tifizieren eines Sprechmusters nach dem Oberbegriff des An­ spruches 1.
Eine derartige Einrichtung zum lautweisen Identifizieren eines Sprechmusters ist aus der DE-OS 23 47 738 bekannt. Die­ se bekannte Einrichtung enthält eine Wandlereinrichtung zum Umwandeln einer zu erkennenden Sprache in ein elektrisches Sprechsignal. Es ist ferner eine Frequenzanalyseeinrichtung vorhanden, die Teil einer Verarbeitungseinrichtung ist zum Verarbeiten des Sprechsignals in einer vorbestimmten Weise zum Erzeugen eines Sprechmusters in Form einer Zeit-Frequenz- Verteilung. Die bekannte Einrichtung umfaßt ferner eine De­ tektoreinrichtung zum Ermitteln eines zeitlichen Abschnitts des Sprechmusters vom Beginn eines Beobachtungszeitraums ab, wobei dieser Abschnitt für die Sprechmustererkennung weiter­ verarbeitet wird, enthält ferner eine Einrichtung zum Bestim­ men der Übereinstimmung des Sprechmusters mit mindestens einem einer Anzahl registrierter Sprechmuster, wobei der Be­ obachtungszeitraum jeweils einen Laut umfaßt.
Aus der DE 32 36 000 A1 ist ein Verfahren zum Klassifizieren von Audiosignalen bekannt, bei dem die Nulldurchgänge eines Audiosignals in digitale Impulsfolgen umgewandelt und damit Signalpausen vorgegebener minimaler Dauer detektiert werden können. Dieses bekannte Verfahren ist aber beispielsweise nicht dafür geeignet, um bestimmte Lautabschnitte, wie bei­ spielsweise Zischlautabschnitte eines Sprachsignals, detek­ tieren zu können.
Aus der US-PS 3 909 532 ist eine Einrichtung zum Identifizie­ ren eines Sprechmusters bekannt, die darauf basiert, daß die Energie von Codeworten am Ausgang eines adaptiven Sprachko­ dierers dazu verwendet wird, den Anfang und das Ende eines Sprechmusters zu ermitteln. Der Beginn eines Sprechmusters wird beispielsweise dadurch ermittelt, indem festgestellt wird, ob die Energie des Sprechmusters einen vorbestimmten Schwellenwert für eine vorbestimmte Zeitdauer überschreitet. Diese bekannte Einrichtung basiert somit auf der Anwendung des Signalpegel-Detektorverfahrens, d. h. es werden Teile eines zu erkennenden Sprachmusters an sich gar nicht erfaßt, deren Energie unterhalb des genannten vorbestimmten Schwel­ lenwertes liegen. Bei dieser bekannten Einrichtung wird daher beispielsweise der Zischlautabschnitt eines zu erkennenden Sprechmusters überhaupt nicht erfaßt, sondern erst der nach­ folgende Explosionsabschnitt, der einen entsprechend höheren Signalpegel hat, so daß dieser Signalpegel oberhalb des Schwellenwertes liegt. Bei dieser bekannten Einrichtung wer­ den ferner auch immer Teile des Sprechmusters abgeschnitten, die aber unter Umständen für eine exakte Spracherkennung er­ forderlich sein können.
Auf dem Gebiet des Erkennens von Sprache ist es außerdem all­ gemein bekannt, mehrere Sprechmuster durch Wiederholen des­ selben Lautes oder Wortes zu erzeugen und die Sprechmuster dann zu überlagern, um ein zusammengesetztes Sprechmuster zur Registrierung in einer Sprachbibliothek zu definieren. Wenn man eine Anzahl von Sprechmustern erzeugt, kann dieselbe Per­ son denselben Laut oder dasselbe Wort eine bestimmte Anzahl von Malen wiederholen, oder zwei oder mehrere unterschiedli­ che Personen können solche Sprechmuster erzeugen. Der Grund für die Überlagerung einer Anzahl von Sprechmustern zum Defi­ nieren eines zusammengesetzten Sprechmusters für die Regi­ strierung ist jener, daß ein solches zusammengesetztes Sprech­ muster es ermöglicht, unbekannte Sprachdaten mit einer erhöh­ ten Erfolgschance zu identifizieren, weil üblicherweise eini­ ge Unterschiede zwischen den Sprechmustern vorliegen, selbst wenn dieselbe Person denselben Laut oder dasselbe Wort auf­ einanderfolgend ausspricht.
Beim Überlagern einer Anzahl von Sprechmustern für denselben Laut oder dasselbe Wort wird in Übereinstimmung mit einer Vorgehensweise aus dem Stand der Technik ein Sprechintervall für einen stimmhaften Laut zunächst bestimmt, und die Überla­ gerung wird unmittelbar vom Beginn des Sprechintervalls aus durchgeführt. Wenn in diesem Fall der beginnende Abschnitt eines stimmhaften Wortes einen Verschlußlaut aufweist oder ein einsilbiges Wort einen Verschlußlaut aufweist, dann ist es wahrscheinlich, daß die Verschlußlaute zweier oder mehre­ rer Sprechmuster nicht genau übereinanderliegen, und zwar beispielsweise infolge des Vorliegens oder Fehlens eines Zischabschnitts und/oder Unterschieden in der Zeitdauer eines solchen Zischabschnitts, wodurch es erschwert ist, ein ge­ naues, zusammengesetztes Sprechmuster zur Registrierung zu definieren. Zusätzlich wird beim Vorgang der Erkennung einer unbekannten Sprachinformation in Übereinstimmung mit der Vor­ gehensweise aus dem Stand der Technik ein Sprechmuster aus der unbekannten Sprachinformation erzeugt und das Sprechin­ tervall wird bestimmt, und dann wird die Übereinstimmung mit registrierten Sprechmustern hergestellt, um die unbekannte Sprachinformation zu identifizieren. In diesem Fall wird in Übereinstimmung mit dem Stand der Technik das Sprechmuster der unbekannten Sprachinformation verglichen mit den regi­ strierten Sprechmustern, und zwar unmittelbar vom Beginn des Sprechintervalls ausgehend. Wie oben erwähnt, ist dies nicht vorteilhaft, weil das Vorliegen oder das Fehlen eines Zisch­ abschnitts zu einer fehlerhaften Spracherkennung führen könn­ te.
Es ist zusätzlich auch bekannt, eine eingehende Sprachinfor­ mation zurückzuweisen, wenn ihr Sprechintervall zu kurz ist, weil dies eine Schwierigkeit beim Durchführen des Vorganges der Spracherkennung bieten könnte. Wenn unbekannte Sprachda­ ten, die zu identifizieren sind, im Schallpegel zu niedrig liegen, trifft oft eine Schwierigkeit bei der Identifizierung der unbekannten Sprachdaten auf. Es ist somit oftmals er­ wünscht, die Behandlung solcher unbekannter Sprachdaten zu­ rückzuweisen, deren Schallpegel zu niedrig liegt.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, eine Einrichtung zum lautweisen Identifizieren eines Sprech­ musters der angegebenen Gattung zu schaffen, welche die Mög­ lichkeit bietet, eine zeitgenauere Erkennung derjenigen Ab­ schnitte eines zu identifizierenden Sprechmusters zu ermögli­ chen, die für die Spracherkennung zu verwenden sind.
Diese Aufgabe wird erfindungsgemäß durch die im Kennzeich­ nungsteil des Anspruches 1 aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbei­ spielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild, das eine Einrichtung zum Regi­ strieren von Sprechmustern zeigt und die in Über­ einstimmung mit einem Ausführungsbeispiel mit Merk­ malen nach der Erfindung aufgebaut ist,
Fig. 2 eine Darstellung, die ein Beispiel des Zeit-Fre­ quenz-Spektralmusters für einen stimmhaften Ver­ schlußlaut zeigt,
Fig. 3a und 3b jeweils ein Diagramm, die die zeitabhängige Änderung des Sprachsignalpegels eines stimmhaften Verschlußlautes mit und ohne Zischabschnitt A zei­ gen,
Fig. 4 ein Blockschaltbild, das eine Einrichtung zum Regi­ strieren von Sprechmustern zeigt, die in Überein­ stimmung mit einem anderen Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung aufgebaut ist,
Fig. 5 ein Blockschaltbild, das den detaillierten Aufbau eines Ausführungsbeispiels des Detektors 3 für den Startpunkt der Überlagerung zeigt, der in der in Fig. 1 gezeigten Einrichtung vorgesehen ist; und
Fig. 6 ein Blockschaltbild, das den detaillierten Aufbau eines Beispiels der Überlagerungseinheit 4 zeigt, die in der in Fig. 1 gezeigten Einrichtung vorgese­ hen ist.
Es wird zunächst auf Fig. 1 Bezug genommen; dort ist in Blockform eine Einrichtung zum Registrieren eines Sprechbe­ zugsmusters zur Verwendung bei der Wiedererkennung von Spra­ che gezeigt; diese weist ein Mikrophon 1 auf, um Schall in Form einer Druckwelle in ein elektrisches Sprachsignal umzu­ wandeln, einen Frequenzanalysator (Frequenzanalyseeinrichtung) 2 zum Verarbeiten des elek­ trischen Sprachsignals, um ein Sprechmuster in Form einer Zeit-Frequenz-Verteilung zu bilden, eine Einrichtung (Detektoreinrichtung) 3 zum Ermitteln des Ausgangspunkts für die Überlagerung sowie eine Überlagerungseinheit 4. Bei dieser Einrichtung wird derselbe Sprachlaut dem Mikrophon 1 mehrfach von derselben oder unter­ schiedlichen Personen zugeführt, und somit wird eine Anzahl von Sprechmustern aufeinanderfolgend erzeugt. Die vielen Sprechmuster werden aufeinanderfolgend überlagert, wobei man ein zusammengesetztes Sprechbezugsmuster für einen speziellen Sprachlaut registriert. Das so registrierte Sprechbezugsmu­ ster kann später zum Identifizieren unbekannter Sprache durch Herstellen einer Übereinstimmung verwendet werden, wie dies in der Technik bekannt ist.
In Übereinstimmung mit der vorliegenden Erfindung wird ein Sprachsignal der Frequenzanalyse unterzogen, um ein Sprech­ muster in Form einer Zeit-Frequenz-Verteilung zu erhalten, und ein Ausgangspunkt dieses Sprechmusters zur Überlagerung über ein bereits vorher erzeugtes Sprechmuster für denselben Sprachlaut wird durch die Einrichtung 3 zum Ermitteln des Ausgangspunkts für die Überlagerung ermittelt. Dieser Aus­ gangspunkt für die Überlagerung wird am Anfangsabschnitt des Sprechmusters auf eine solche Weise bestimmt, daß Sprach­ energie gleich oder kleiner ist als ein bestimmter Wert und eine Niederfrequenz-Komponente der Sprechenergie gleich oder größer ist als ein bestimmter Wert. Wenn dieser Ausgangspunkt für die Überlagerung gefunden ist, dann wird die Überlagerung über die vorangegangenen Sprechmuster für denselben Laut ein­ geleitet, wobei dieser Ausgangspunkt benutzt wird. Da das Sprechmuster über die bereits vorher registrierten Sprechmu­ ster für denselben Sprachlaut überlagert wird, wird stets ein einziges, zusammengesetztes Sprechbezugsmuster hinterlassen, das für einen speziellen Sprachlaut registriert bzw. aufge­ zeichnet wird. Als andere Vorgehensweise kann jener Abschnitt des Sprechmusters vom Beginn bis zu dem Ausgangspunkt für die Überlagerung, der auf diese Weise ermittelt wurde, abge­ schnitten oder vom Sprechmuster entfernt werden, und dann kann die Überlagerung durchgeführt werden.
Fig. 2 ist eine Perspektivdarstellung, die ein Zeit-Frequenz- Spektralverteilungsmuster des Lautes "gi" als stimmhaften Verschlußlaut zeigt. Wie gezeigt, weist das Muster einen Zischabschnitt A, einen Explosionsabschnitt B und einen Vo­ kalabschnitt C auf. Der Zischabschnitt A ist charakteristisch für einen stimmhaften Verschlußlaut und unterscheidet sich von Person zu Person sowie von Zeit zu Zeit selbst bei der­ selben Person, und sogar bei derselben Person erscheint er manchmal und erscheint manchmal nicht. Selbst wenn der Zisch­ abschnitt A erscheint, ist seine Zeitdauer vorhersagbar und äußerst unstabil. Im übrigen ist im Zischabschnitt A kein be­ merkenswerter Unterschied hinsichtlich der Form des Spektral­ musters unter den drei Arten von stimmhaften Verschlußlauten "b", "d" und "g" zu sehen. Deshalb kann, wenn zwei oder mehr Sprechmuster für denselben Sprachlaut einfach vom Beginn des Sprechintervalls eines jeden Musters überlagert werden, der Explosionsabschnitt B, der ein kritisches Element bei der Identifizierung eines stimmhaften Verschlußlautes ist, in Überlagerung mit dem Zischabschnitt A oder dem Vokalabschnitt C gelangen, wobei die Bildung eines überlagerten Sprechbe­ zugsmusters, das mit hoher Genauigkeit registriert werden soll, verhindert ist.
Die Grundlage der vorliegenden Erfindung für die Überlagerung zweier oder mehrerer Sprechmuster für einen speziellen Laut zur Registrierung wird unter Bezugnahme auf die Fig. 3a und 3b beschrieben. Fig. 3a zeigt die Änderung in der Sprachener­ gie eines speziellen stimmhaften Verschlußlautes mit einem Zischabschnitt A am Beginn als Funktion der Zeit. Fig. 3b zeigt die Änderung der Sprachenergie eines speziellen stimm­ haften Verschlußlautes, der keinen Zischabschnitt aufweist. Wie in Fig. 3a gezeigt, kann der Zischabschnitt A dann iden­ tifiziert werden, wenn zwei Bedingungen erfüllt sind. Das heißt, beim Beginn des Sprechmusters, wie in Fig. 3a anhand der zeitabhängigen Sprachenergie gezeigt, befindet sich ein Zeitraum, während welchem (1.) die Schallenergie gleich oder kleiner ist als ein bestimmter Wert und (2.) eine niederfre­ quente Komponente ein Verhältnis bzw. einen Anteil aufweist, der gleich oder größer ist als ein bestimmter Wert der Schallenergie. In Übereinstimmung mit der vorliegenden Erfin­ dung wird nach Abschluß eines solchen Zeitraums vom Beginn eines Sprechmusters an, d. h. nach dem Ende des Zischab­ schnitts A, die Überlagerung der Sprechmuster durchgeführt. Als Ergebnis ist stets sichergestellt, daß die Explosionsab­ schnitte B, die bei der Identifizierung eines stimmhaften Verschlußlauts kritisch sind, genau überlagert werden, wobei es gestattet ist, ein überlagertes Sprechbezugsmuster mit ho­ her Genauigkeit zu registrieren.
Es erfolgt nun die detailliertere Beschreibung unter Bezug­ nahme auf ein spezielleres Beispiel; der Frequenzanalysator 2 weist eine Bandpaßfilterbank bzw. eine Reihe von Bandpaßfil­ tern auf, die mit 29 Kanälen versehen sind, deren Mittelfre­ quenz von 250 Hz bis 6300 Hz in Stufen von 1/6 Oktaven verän­ dert ist. Wenn somit ein Sprechsignal von einem Mikrophon oder ein spezieller Sprachlaut durch den Frequenzanalysator verarbeitet wird, dann wird ein Zeit-Frequenz-Verteilungsmu­ ster bei jedem Zeitraum erhalten. Die während eines jeden Zeitraums erhaltenen Daten werden "Rahmen" genannt, und somit können die Daten auch durch eine Rahmennummer vom Beginn des Musters aus identifiziert werden. Ein Sprechmuster wird auf­ einanderfolgend durch den Frequenzanalysator 2 erzeugt und wird in die Einrichtung 3 zum Ermitteln des Ausgangspunktes für die Überlagerung eingespeist. An der Einrichtung 3 für die Ermittlung des Ausgangspunkts der Überlagerung wird die Sprachenergie eines Rahmens mit einer maximalen Sprachenergie während eines Sprechintervalls herausgezogen und als Emax identifiziert. Wenn während eines Zeitraums vom Beginnen des Sprechintervalls bis zu 100 bis 300 ms, vorzugsweise 200 ms, ein Intervall vorliegt, in welchem (1) die Sprachenergie gleich oder kleiner ist als 10 bis 40%, vorzugsweise 20%, und (2) eine Niederfrequenz-Komponente von 200 Hz bis 1 kHz, vor­ zugsweise 500 Hz, oder weniger, 60 bis 100%, vorzugsweise 80%, der Sprachenergie einnimmt, dann wird die Überlagerung nach dem Ende dieses Intervalls eingeleitet.
Ein Beispiel einer Einrichtung 3 zum Ermitteln des Ausgangs­ punkts für die Überlagerung ist im einzelnen in Fig. 5 ge­ zeigt. Bei dem in Fig. 5 gezeigten Beispiel weist die Ein­ richtung 3 zum Ermitteln des Ausgangspunktes für die Überla­ gerung ein Paar aus einem ersten bzw. zweiten Addierer 3a und 3b auf, die mit dem Frequenzanalysator 2 verbunden sind. Der erste Addierer 3a addiert die Ausgänge von allen Kanälen 1 bis 29, die den Frequenzbereich von 250 Hz bis 6300 Hz der Bandpaßfilterbank abdecken, die im Frequenzanalysator 2 vor­ gesehen ist. Andererseits ist der zweite Addierer 3b vorgese­ hen, um die Ausgänge aus den Kanälen 1 bis 7 zu addieren, und zwar entsprechend einem Niederfrequenzbereich von 250 Hz bis 500 Hz. Die beim ersten Addierer 3a erhaltenen, aufaddierten Daten werden zwischenzeitlich in einem ersten Register 3c ge­ speichert, während jene Daten, die im zweiten Addierer 3b addiert wurden, zwischenzeitlich in einem zweiten Register 3d gespeichert werden. Ein erster Multiplikator 3e ist ange­ schlossen, um die im ersten Register 3c gespeicherten Daten aufzunehmen, und ein erster bestimmter Faktor, etwa 0,8 (80%), wird mit den Daten aus dem ersten Register 3c multi­ pliziert und das resultierende Ergebnis wird zwischenzeitlich in einem dritten Register 3g abgespeichert. Die Angaben im zweiten Register 3d, die mit C2 bezeichnet sind, werden dann mit den Angaben im dritten Register 3g, die mit C1 bezeichnet sind, bei einem ersten Komparator 3j verglichen, der einen Ausgang "1" liefert, wenn C1 kleiner ist als C2, und "0", wenn C1 gleich oder größer ist als C2.
An das erste Register 3c ist auch ein Höchstwertdetektor 3f angeschlossen, der einen Höchstwert der addierten Daten für jeden Zeitraum oder Rahmen feststellt und diesen Maximalwert einem zweiten Multiplikator 3h zuführt. Am Multiplikator wird ein zweiter bestimmter Faktor, etwa 0,2 (20%), mit dem Höchstwert multipliziert, der vom Höchstwertdetektor 3f zuge­ führt wird, und die resultierenden Größen werden zwischen­ zeitlich in einem vierten Register 3i abgespeichert. Die Da­ ten im vierten Register 3i, die mit C3 bezeichnet sind, wer­ den dann mit den Daten im ersten Register 3c, die mit C4 be­ zeichnet sind, durch einen zweiten Komparator 3k verglichen, der an seinem Ausgang "1" abgibt, wenn C3 größer ist als C4, und "0", wenn C3 gleich oder kleiner ist als C4.
Es ergibt sich dann bei dieser Anordnung, wenn von erstem und zweitem Komparator 3j und 3k jeder "1" als Ausgang an eine UND-Schaltung 31 abgibt und somit die UND-Schaltung 31 "1" als ihren Ausgang abgibt, daß der Zischabschnitt A des Sprechmusters verarbeitet wird. Wenn die UND-Schaltung 31 "0" als ihren Ausgang zum erstenmal abgibt, dann bezeichnet dies das Ende des Zischabschnitts A, so daß der entsprechende Rah­ men als Ausgangspunkt für die Überlagerung an einem Ausgangs­ punkt-Detektor 3m ermittelt und dann der Überlagerungseinheit 4 zugeführt wird.
Ferner zeigt Fig. 6 im einzelnen ein Beispiel der Überlage­ rungseinheit 4 in der in Fig. 1 gezeigten Einrichtung. Wie gezeigt, weist die Überlagerungseinheit 4 ein Register 4a auf, um zwischenzeitlich ein Sprechmuster in Form einer Zeit- Frequenz-Verteilung zu speichern, welche gerade von einem eingehenden Sprachlaut erzeugt wurde. Die dargestellte Über­ lagerungseinheit 4 weist auch ein anderes Register 4d auf, welches die Anzahl von Rahmen eines jeden registrierten Sprechmusters speichert. Wenn das neue Sprechmuster in das Register 4a eingespeichert wird, dann wird die Anzahl der Rahmen, die dem neuem Sprechmuster überlagert werden soll (d. h. die Anzahl von Rahmen vom Überlagerungsausgangspunkt bis zum Ende des Sprechintervalls) verglichen mit der Anzahl von Rahmen, die im Register 4d für den entsprechenden Sprach­ laut gespeichert sind, und dann wird das Maß der linearen Expansion/Kontraktion (d. h. die Anzahl der Rahmen), die für das neue Sprechmuster ausgeführt werden muß, das im Register 4a gespeichert ist, bestimmt. Dann wird das neue, im Register 4a gespeicherte Sprechmuster der linearen Expansion bzw. Kon­ traktion unterzogen, wobei die Anzahl von Rahmen des neuen Sprechmusters, das überlagert werden soll, auf die Anzahl von Rahmen des registrierten Sprechmusters abgeglichen wird, wel­ ches im Register 4d gespeichert ist, wie oben erwähnt.
Es ist auch noch ein weiteres Register 4e zum Speichern der Anzahl von Überlagerungen für jedes registrierte Sprechbe­ zugsmuster und ein noch weiteres Register 4f zum Speichern der registrierten Sprechbezugsmuster vorgesehen. Der Wert des registrierten Sprechbezugsmusters, das im Register 4f gespei­ chert ist, wird mit der entsprechenden Anzahl von Überlage­ rungen, die im Register 4e gespeichert sind, an einem Multi­ plikator 4g multipliziert und dann werden die resultierenden Daten zum neuen Sprechbezugsmuster, das der Behandlung linea­ rer Expansion bzw. Kontraktion unterzogen wurde, bei einem Addierer 4h hinzuaddiert. Es wird dann das addierte Ergebnis dividiert durch (Anzahl von Überlagerungen + 1) an einem Di­ vidierer 4i und dessen Ergebnis wird im Register 4f als er­ neuertes Sprechbezugsmuster gespeichert. Um genauer auszufüh­ ren, wird davon ausgegangen, das Xÿ einen Wert eines regi­ strierten Sprechbezugsmusters am i-ten Kanal und j-ten Rahmen und Yÿ den Wert eines neu eingehenden Sprechmusters für den­ selben Laut am i-ten Kanal und j-ten Rahmen bezeichnet; dann kann der Wert Xÿ′ als durch Überlagerung erneuertes Sprech­ muster auf die folgende Weise ausgedrückt werden:
wobei m die Anzahl von Überlagerungen bezeichnet.
Es muß vermerkt werden, daß die Anzahl von Überlagerungen, die im Register 4e für den entsprechenden Sprachlaut gespei­ chert ist, durch den Schritt +1 jedesmal dann erneuert wird, wenn eine Überlagerung ausgeführt wird.
Fig. 4 zeigt in Blockform ein anderes Ausführungsbeispiel der vorliegenden Erfindung, welches eine Modifizierung der Anord­ nung ist, die in Fig. 1 gezeigt ist. Es muß vermerkt werden, daß, wie es durchgehend in der vorliegenden Beschreibung und den Zeichnungen praktiziert wurde, gleiche Bezugszeichen gleiche bzw. ähnliche Elemente bezeichnen, ohne daß diese sonstwie speziell vermerkt werden. Im vorliegenden Ausfüh­ rungsbeispiel wird eine Muster-Abschneideeinheit 5 anstelle der Detektoreinrichtung 3 für den Ausgangspunkt der Überlagerung ver­ wendet. In Übereinstimmung mit diesem Ausführungsbeispiel wird, wenn ein Zeitraum am Beginn eines Sprechmusters auf eine solche Weise vorliegt, daß die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und eine Nieder­ freuqnez-Komponente gleich oder größer ist als ein zweiter bestimmter Wert, der als Anteil der Sprachenergie bestimmt ist, ein solcher Zeitraum an der Muster-Abschneideeinheit 5 entfernt bzw. unterdrückt wird, bevor das Muster überlagert wird. Als ein Beispiel kann die Muster-Abschneideeinheit 5 jede Anordnung aufweisen, wie sie in Fig. 5 gezeigt ist. In diesem Fall sollte jedoch Ausgangspunkt-Detektor 3m ersetzt werden durch einen Abschneide-Endpunktdetektor, dessen Funktion es ist, einen Rahmen zu ermitteln, wenn der Ausgang von der UND-Schaltung 31 das erste Mal "0" wurde, und dann alle vorherigen Rahmen bis zu dem durch "0" ermittelten Rahmen abzutrennen und zu verwerfen.
Wenn somit ein Sprachlaut in Form einer Druckwelle als Ein­ gang in das Mikrophon 1 gelangt, wird er in ein elektrisches Sprechsignal umgewandelt, welches dann durch den Frequenzana­ lysator 2 so verarbeitet wird, daß ein Sprechmuster erzeugt wird. Wenn dann das Sprechmuster der Muster-Abschneideeinheit 5 zugeführt wird, werden dessen Sprachstärke und das Verhält­ nis der Stärke der Niederfrequenz-Komponente zur Sprachstär­ ke, welche eine Summe aller Ausgänge der Bandpaßfilterbank (29 Kanäle im dargestellten Beispiel) ist, ermittelt. Dann wird geprüft, ob ein solcher Zeitraum am vorderen Abschnitt des Sprechmusters vorliegt, bei welchem die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und die Stärke der Niederfrequenz-Komponente gleich oder größer ist als ein zweiter bestimmter Wert. Wenn es sich dann her­ ausgestellt hat, daß ein solcher Zeitraum vorliegt, wird die­ ser abgetrennt und verworfen, bevor das Sprechmuster der Überlagerungseinheit 4 zugeführt wird. Deshalb werden an der Überlagerungseinheit 4 mehrere Sprechmuster, deren anfängli­ che Abschnitte abgeschnitten wurden, überlagert, um ein zu­ sammengesetztes Sprechbezugsmuster für die Registrierung zu definieren.
Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel der Zischabschnitt A, der in Fig. 3a gezeigt ist, von der Mu­ ster-Abschneideeinheit 5 so entfernt, daß ein Sprechmuster gebildet ist, das nur aus dem Explosionsabschnitt B und dem Vokalabschnitt C zusammengesetzt ist.
Selbst wenn in diesem Fall das Sprechmuster eines stimmhaften Verschlußlauts, der einen Zischabschnitt aufweist, über das Sprechmuster eines stimmhaften Verschlußlauts überlagert wer­ den soll, der keinen Zischabschnitt aufweist, ist stets si­ chergestellt, daß die Explosionsabschnitte übereinander ange­ ordnet werden, wobei es ermöglicht ist, ein überlagertes Sprechbezugsmuster mit hoher Genauigkeit zu registrieren bzw. zu speichern.

Claims (11)

1. Einrichtung zum lautweisen Identifizieren eines Sprechmusters, mit einer Wandlereinrichtung zum Umwandeln einer zu erkennenden Sprache in ein elektrisches Sprech­ signal, mit einer eine Frequenzanalyseeinrichtung enthal­ tenden Verarbeitungseinrichtung zum Verarbeiten des Sprech­ signals in einer vorbestimmten Weise zum Erzeugen eines Sprechmusters in Form einer Zeit-Frequenz-Verteilung, mit einer Detektoreinrichtung zum Ermitteln eines zeitlichen Abschnitts des Sprechmusters vom Beginn eines Beobach­ tungszeitraums ab, wobei dieser Abschnitt für die Sprech­ mustererkennung weiter verarbeitet wird, und mit einer Überlagerungseinheit zum Bestimmen der Übereinstimmung des Sprech­ musters mit mindestens einem einer Anzahl registrierter Sprechmuster, wobei der Beobachtungszeitraum jeweils einen Laut umfaßt, dadurch gekennzeichnet, daß
  • a) die der Frequenzanalyseeinrichtung (2) nachgeschalte­ te Detektoreinrichtung (3) die von der Frequenzanaly­ seeinrichtung (2) gelieferten Frequenzbänder in Grup­ pen gemäß einem Gesamtfrequenzbereich (215 Hz-6300 Hz) und gemäß einem unteren Frequenzbereich (250 Hz- 500 Hz) aufteilt, wobei die Frequenzbänder der jewei­ ligen Gruppe addiert werden,
  • b) die Detektoreinrichtung (3) ferner dafür ausgebildet ist, festzustellen, ob der Summenpegel der tiefen Fre­ quenzbänder größer als der gewichtete Summenpegel aller Frequenzbänder ist,
  • c) die Detektoreinrichtung (3) ferner dafür ausgebildet ist, festzustellen, ob der gewichtete Höchstwert des Summenpegels aller Frequenzbänder größer als der Sum­ menpegel aller Frequenzbänder ist, um diesen Teil des Sprachmusters dann als Zischabschnitt (A) mit re­ lativ niedrigem Signalpegel zu Beginn des Sprechmu­ sters zu erkennen und damit auch das Ende des Zisch­ lautabschnitts (A) und den Beginn des darauf folgenden Explosionsabschnitts (B) und/oder des Vokalabschnitts (C) des Sprechmusters zu ermitteln, und
  • d) die Überlagerungseinheit (4) zum Bestimmen der Übereinstimmung des Sprechmusters dafür ausgebildet ist, die relativ niedrigpegeligen Zischlaute am Beginn des Sprechmu­ sters abzuschneiden, relativ niedrigpegelige andere Laute jedoch nicht abzuschneiden.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Detektoreinrichtung (3) zwei Schwellenwerte vorgibt, von denen der erste so niedrig liegt, um den Zischlautabschnitt (A) zu unterdrücken und von denen der zweite so hoch liegt, um eine Niederfrequenzkomponente des Sprachmusters zu selek­ tieren.
3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wandlereinrichtung ein Mikrophon (1) aufweist.
4. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Frequenzanalyseeinrichtung (2) mehrere Bandpaßfilter mit unterschiedlichen Frequenzbereichen aufweist.
5. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung (6) einen Höchstwertdetektor aufweist, der den Höchstwert des Sprachmusters ermittelt.
6. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der untere Frequenzbereich von 200 Hz bis 1 kHz reicht.
7. Einrichtung nach Anspruch 1, bei der das Sprechmuster aus mehreren Rahmen besteht, die zeitlich aufeinanderfolgen, gekennzeichnet durch
eine Identifizierungseinrichtung (17), um das Sprechmu­ ster durch Herstellung der Übereinstimmung mit einer Mehrzahl registrierter Sprechmuster zu identifizieren,
eine Detektoreinrichtung (14) zum Ermitteln eines Sprechintervalls durch Vergleich des Sprechmusters mit einem ersten Bezugswert,
eine Addiereinrichtung (15) zum Aufaddieren der Sprech­ signalpegel des Sprechmusters über eine bestimmte Anzahl von Rahmen, und
eine Einrichtung zum Vergleichen (16) der addierten Sprachsignalpegel mit einem Paar aus einem oberen und einem unteren Bezugswert und zum Annullieren des Sprechmusters, wenn der aufaddierte Wert außerhalb eines Bereiches zwischen dem oberen und unteren Bezugswert liegt.
8. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Sprachsignalpegel der bestimmten Anzahl von Rahmen auf­ addiert werden, solange ihre Sprachsignalpegel gleich oder höher sind als ein zweiter Bezugswert.
9. Einrichtung nach Anspruch 7 oder 8, dadurch gekennzeich­ net, daß der zweite Bezugswert und der obere und der untere Bezugswert als Funktion des Hintergrundgeräuschpegels verän­ derbar sind.
10. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Addiereinrichtung (15) die Sprachsignalpegel des Sprech­ musters über den gesamten Sprechintervall hinweg aufaddiert und den Summen-Sprachsignalpegel durch die Gesamtzahl der Rahmen dividiert, um einen mittleren Rahmensignalpegel zu de­ finieren, und daß die Einrichtung (16) zum Vergleichen den mittleren Rahmensignalpegel mit dem Paar aus oberem und unte­ rem Bezugswert vergleicht.
11. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß der zweite Schwellenwert auf einen Wert im Bereich von 60 bis 100% des Höchstwertes des Sprechmusters eingestellt ist.
DE19863630518 1985-09-06 1986-09-08 Einrichtung zum lautweisen Identifizieren eines Sprechmusters Expired - Fee Related DE3630518C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19863645119 DE3645119C2 (de) 1985-09-06 1986-09-08 Einrichtung zum Feststellen eines Sprachintervalis

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP19725585A JPS6257000A (ja) 1985-09-06 1985-09-06 音声認識装置
JP60197254A JPS6256999A (ja) 1985-09-06 1985-09-06 パタ−ン登録方式
JP61061726A JPS62217296A (ja) 1986-03-19 1986-03-19 音声認識装置の入力キヤンセル法
JP61089138A JPS62244100A (ja) 1986-04-17 1986-04-17 音声区間検出方式
DE3645118A DE3645118C2 (de) 1985-09-06 1986-09-08
DE19863645119 DE3645119C2 (de) 1985-09-06 1986-09-08 Einrichtung zum Feststellen eines Sprachintervalis

Publications (2)

Publication Number Publication Date
DE3630518A1 DE3630518A1 (de) 1987-03-19
DE3630518C2 true DE3630518C2 (de) 1996-05-02

Family

ID=27544450

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19863630518 Expired - Fee Related DE3630518C2 (de) 1985-09-06 1986-09-08 Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Country Status (1)

Country Link
DE (1) DE3630518C2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10319606B4 (de) * 2003-05-02 2005-07-14 Saint-Gobain Sekurit Deutschland Gmbh & Co. Kg Antennenscheibe für Fahrzeuge

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen

Also Published As

Publication number Publication date
DE3630518A1 (de) 1987-03-19

Similar Documents

Publication Publication Date Title
DE3645118C2 (de)
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2719973A1 (de) Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE2347738A1 (de) Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
EP1647972A2 (de) Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE4031638C2 (de)
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE2720666C2 (de) Verfahren und Anordnung zur Geräuschanalyse
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE3630518C2 (de) Einrichtung zum lautweisen Identifizieren eines Sprechmusters
DE3048107A1 (de) Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem
DE19616103A1 (de) Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
DE69318223T2 (de) Verfahren zur sprachanalyse
DE3642591C2 (de)
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8172 Supplementary division/partition in:

Ref country code: DE

Ref document number: 3645118

Format of ref document f/p: P

Q171 Divided out to:

Ref country code: DE

Ref document number: 3645118

8172 Supplementary division/partition in:

Ref country code: DE

Ref document number: 3645119

Format of ref document f/p: P

Q171 Divided out to:

Ref country code: DE

Ref document number: 3645119

AH Division in

Ref country code: DE

Ref document number: 3645119

Format of ref document f/p: P

AH Division in

Ref country code: DE

Ref document number: 3645118

Format of ref document f/p: P

AH Division in

Ref country code: DE

Ref document number: 3645119

Format of ref document f/p: P

Ref country code: DE

Ref document number: 3645118

Format of ref document f/p: P

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee