DE1202517B

DE1202517B - Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern

Info

Publication number: DE1202517B
Application number: DET26689A
Authority: DE
Inventors: Heinz Kusch
Original assignee: Telefunken Patentverwertungs GmbH
Current assignee: Telefunken Patentverwertungs GmbH
Priority date: 1964-07-29
Filing date: 1964-07-29
Publication date: 1965-10-07
Also published as: US3445594A; GB1109496A

Description

Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Wörtern Die Erfindung betrifft eine Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Wörtern, z. B. Ziffernwörtern, bei der die den Schallschwingungen entsprechenden elektrischen Schwingungen in Zeitabständen auf in ihnen enthaltene Merkmale geprüft werden.
Es sind bereits Vorschläge bekanntgeworden, die auf eine automatische Erkennung gesprochener Laute und Wörter abzielen. Geräte, die dies leisten, könnten mit Vorteil unter anderem für die Dateneingabe in Rechenmaschinen, die Nummernwahl beim Telefon, das Schreiben von Texten und die Steuerung von Maschinen eingesetzt werden.
Ein bekannter Ansatz zur Lösung des Problems besteht darin, daß die den Schallschwingungen eines Lautes oder einer Lautverbindung entsprechenden elektrischen Schwingungen in Zeitabständen auf das jeweils in ihnen enthaltene Kurzzeitspektrum durch einen Raster von Bandfiltern geprüft und Signale entsprechend den Frequenzverteilungen in mehreren aufeinanderfolgenden Spektren in einer Durchschiebematrix gespeichert werden, wobei ein laufender Vergleich mit vorgegebenen Signalmustern stattfinden soll, die durch die Laute eines »Mustersprechers« gebildet wurden.
Die Einrichtung nach der vorliegenden Erfindung benutzt ebenfalls das Prinzip, die Sprachwellenformen in Zeitabständen auf in ihnen enthaltene Merkmale zu prüfen und eine Merkmalsverteilung als Signalmuster zu speichern. Sie ermöglicht es aber einerseits, gleich ganze Silben oder Wörter, z. B. Ziffernwörter, zu erkennen. Andererseits kommt sie mit wenigen zu prüfenden Grundmerkmalen aus und kann daher einfach und mit geringem Raumbedarf ausgebildet werden. Ihr Arbeitsprinzip beruht auf dem Ergebnis von Untersuchungen der Lautwellenformen auf Struktur-Grundmerkmale, die sowohl lautcharakteristisch als auch von den Artikulationseigenheiten unterschiedlicher Sprecher unabhängig sind. Mit einem Versuchsgerät nach der Erfindung konnte eine gute Erkennungssicherheit mit sehr verschiedenen Sprechern und wenig Sprechdisziplin erreicht werden.
Erfindungsgemäß wird dies Ergebnis in der Weise erzielt, daß jeweils eine einen Schwellenwert überschreitende Meßgröße das Auftreten oder Nichtauftreten einer langsamen (Grund-) Schwingung sowie das Auft reten oder Nichtauftreten einer wesentlich schnelleren (Ober-) Schwingung feststellt und diese Feststellungen mit ja/nein bewertet als Code zur Einstufung des untersuchten Lautes in eine Lautgruppe mittels einer Verknüpfungsschaltung dienen, und daß durch diese erzeugte Lautgruppen-Markiersignale in der Reihenfolge ihres Auftretens in einem Signalspeicher geordnet werden und nach Beendigung der gesprochenen Silbe (bzw. des Wortes) abgefragt zu deren Identifizierung herangezogen werden. Gegebenenfalls können verfeinerte Prüfungen zugesetzt werden, insbesondere Prüfungen der Zeitdauer oder auch der Häufigkeit des Auftretens der Schwingungsformen.
Nachfolgend wird ein Ausführungsbeispiel einer Einrichtung nach der Erfindung näher erläutert.
F i g. 1 zeigt eine Sprachwellenform eines bestimmten gesprochenen Wortes, F i g. 2 eine binäre Merkmalstabelle (Kodetabelle) für Laute, F i g. 3 eine Kodetabelle (Entschlüsselungstabelle) für Ziffernwörter, F i g. 4 ein Schaltbild einer Erkennungseinrichtung für Ziffernwörter.
In F i g. 1, Zeile w, ist ein Oszillogramm des gesprochenen Wortes »sieben« wiedergegeben. Im Verlauf der Wellenform lassen sich zwei Merkmale verfolgen, nämlich das deutliche Auftreten einer langsamen Schwingung oder »Grundschwingung«, die in Zeile a wiedergegeben ist, sowie das deutliche Auftreten wesentlich schnellerer Schwingungen, die dort, wo eine Grundschwingung vorhanden ist, auf dieser »Oberwellen« bilden. Man könnte diese wesentlich schnelleren Schwingungen auch als »Rauhigkeit« bezeichnen. Sie sind in Zeile b für sich herausgezogen. Diese beiden Teilschwingungen a und b lassen sich in hinreichender Weise aus der Gesamtschwingung ableiten. Jede hat zu verschiedenen Zeiten größere oder kleinere Amplituden, und zur Merkmalsgewinnung soll durch Setzen einer Schwelle unterschieden werden zwischen genügend großen Amplituden (Schwingung deutlich vorhanden: SignalL) und nicht genügend großen Amplituden (Schwingung nicht deutlich oder nicht vorhanden: Signal 0). Es kann nun festgestellt werden, daß die Kombination a =L, b = 0 bei dem Laut n auftritt, aber z. B. auch bei w, o, n; diese Lautgruppe sei als Lautgruppe N bezeichnet. Die Kombination a = 0, b = L gilt für den Lauts, aber z. B. auch ks, f (v), d, t; diese Lautgruppe wird als Lautgruppe S bezeichnet. Eine die Kombination a = L, b = L ergebende Lautgruppe I schließlich enthält außer dem Laut i z. B. die Laute a, b, e, 1, r, dr. Es ergibt sich so eine Merkmalstabelle gemäß F i g. 2. Diese einfache Kodierung ergibt einen Grundschritt zur Erkennung von Wörtern; von ihm ausgehend kann nun weiterhin die zeitliche Reihenfolge des Auftretens solcher Lautverbindungen selbsttätig ermittelt werden, um die Wortkodierung auszubauen. Mit wiederum wenigen Reihenfolgekriterien ist es dann möglich, z. B. die gesprochenen Ziffernwörter »null« bis »neun« automatisch zu erkennen. Hierfür kommt man damit aus, daß zusätzlich zu der Erkennung der drei Lautgruppen N, S, I noch das Vorkommen von Lautgruppen N, S vor und/oder nach der Lautgruppe I registriert wird. Wenn man vor der Lautgruppe I liegende Lautgruppen N, S mit N 1, S 1 und dahinterliegende mit N2, S2 bezeichnet, lassen sich die Ziffernwörter kodieren, wie in F i g. 3 angegeben.
Es sei nun die Schaltung einer mit dieser Kodierung arbeitenden Ziffernwort-Erkennungseinrichtung beschrieben. In F i g. 4 ist M ein Mikrofon, in das die Ziffernwörter gesprochen werden, MV i#t ein Mikrofonverstärker. Die verstärkten elektrischen Sprachschwingungen gelangen in eine Schaltung Ea zur Erkennung der Teilschwingung a (»Grundwelle«) und gleichzeitig in eine Schaltung Eb zur Erkennung der Schwingung b (»Oberwelle«, »Rauhigkeit«). Am Ausgang von Ea liegt ein Schmitt-Trigger STa und am Ausgang von Eb ein Schmitt-Trigger STb. Wenn die Schwingung a bzw. b mit genügender Amplitude auftritt, kippt der Schmitt-Trigger STa bzw. STb und gibt einen Kippimpuls auf ein bistabiles Flip-Flop FFa bzw. FFb. Die Ausgänge »0« und »L« der Flip-Flops FFa und FFb, deren Grundstellungs-Ausgangswerte eingetragen sind, sind über eine Verknüpfungsschaltung V 1 an UND-Tore N 1, S 1, 1, N 2, S 2 angeschlossen nach Maßgabe der Tabelle F i g. 2. Am Ausgang jedes UND-Tores liegt ein bistabiles Flip-Flop, so daß als Signalspeicher fünf Kodier-Flip-Flops FFN1, FFS1, FFI, FFN2 und FFS2 vorhanden sind. Während das UND-Tor I keine weitere Eingangsbedingung als die durch die Tabelle F i g. 2 gegebene hat, haben die UND-Tore N 1, S 1, N 2, S 2, noch jedes einen dritten Eingang. Die dritten Eingänge von Nl und Sl liegen an dem Ausgang von FFI, der bei dessen Grundstellung den Wert »L« führt, die dritten Eingänge von N2 und S2 liegen an dem anderen Ausgang von FFI. Infolgedessen betätigen LautgruppenN, S, die vor der Lautgruppe I liegen, die Kodier-Flip-Flops FFN1 bzw. FFS2, treten sie nach der Lautgruppe I auf, so werden FFN2 bzw. FFS2 umgeworfen.
Die »0«- und »L«-Ausgänge der genannten fünf Flip-Flops sind an eine DekodierungsmatrixD angeschlossen, aus der die Steuerspannungen für zehn UND-Tore UO, Ul ... U9 entnommen werden, und zwar nach Maßgabe der Verknüpfungstabelle F i g. 3. Am Ausgang jedes UND-Tores Ux (x = 0, 1 ... 9) liegt ein bistabiles Flip-Flop FFx (x= 0, 1 ... 9), und der Wirkausgang jedes dieser Flip-Flops gibt sein Signal über einen Verstärker Vx (x = 0, 1 ... 9) in einen Ziffernwert-Ausgabekanal Zx (x= 0, 1 ... 9), über den z. B. ein optischer ZiffernindikatorLx (x= 0, 1 ... 9), wie in F i g. 4 dargestellt, oder ein sonstiges Wirkglied vie e-ma ein,- Rechenmaschinentaste betätigt werden kann.
Um die Merkmalsk(,-lieruilg auf den fünf Kopier-Flip-Flops zu erhalten, muß die Wellenform jedes Ziffernwortes in Zeitabständen auf das Vorhandensein oder Nichtvorhandensein der Schwingungsform a und b abgefragt werden. Zu diesem Zweck ist ein Taktgenerator TG vorgesehen, der Abfrageimpulse z. B. in einem gleichmäßigen Rhythmus von etwa 10 Hz lielert. Diese stellen die Eingangs-Flip-FlopsFFa, FFb zurück, falls sie auf »L« gestellt waren, und dienen zugleich zur getakteten Einstellung der fünf Kodier-Flip-Flops und der End-Flip-Flops entsprechend den an den vorgeschalteten Toren liegenden Signalspannungen. Ferner ist ein monostabiles Flip-Flop fF vorhanden, das durch die Wellenanstiegsflanke jedes neu gesprochenen Ziffernwortes in seine instabile Stellung geworfen wird und nach einer fest vorgegebenen Zeit von etwa 1 bis 2 Sekunden wieder zurückkippt. Ein beim Rückkippen erzeugter Impuls bewirkt die Rückstellung und damit zugleich Abfrage der fünf Kodier-Flip-Flops, wobei die End-Flip-Flops FFx eingestellt werden. Diese können z. B. durch den Hinkipp-Impuls von fF beim Sprechen eines neuen Wortes gelöscht werden.
Eine andere Methode zur zeitlich aufeinanderfolgenden Abfrage der Merkmale besteht darin, daß der Taktgenerator TG Abfrage-Taktimpulse erzeugt, die aus der Sprachwelle selbst abgeleitet werden. Es ist denn zweckmäßig den Taktgeber so auszubilden, daß aus dem Schwingungsverlauf der Einhüllenden der Sprachwellenform die Maxima differenzierend erfaßt werden und an den Stellen dieser Maxima jeweils ein Abfrageimpuls z. B. durch ein monostabiles Flip-Flop erzeugt wird.
Die Schaltung Ea zur Erkennung der Teilschwingung a (»Grundwelle«) kann als ein Tiefpaß und die Schaltung Eb zur Erkennung der Teilschwingung b (»Oberwelle«) als ein Hochpaß ausgebildet werden. Jedoch sind auch andere Schaltungen, die eine Integration der Wellenform einerseits und eine Differentiation andererseits leisten, zur Diskriminierung der Teilschwingungen verwendbar. Eine andere Möglichkeit ist die, daß die »Oberwelle« oder »Rauhigkeit« gemittelt wird und Auslenkungen der gemittelten Welle sowie gegenüber der gemittelten Welle festgestellt werden. Schließlich ist eine Erkennung auch auf die Weise möglich, daß nur die Nulldurchgänge der gemittelten Welle und außerdem die auf die gemittelte Welle bezogenen Nulldurchgänge der Schwingungen herangezogen werden.
Bei dem vorstehend beschriebenen Ausführungsbeispiel der Schaltung ist für das Festhalten der in der Kodiertabelle F i g. 2 enthaltenen Kombination »00« (= Pause) kein Speicher vorgesehen. Es sei daher besonders angemerkt, daß auch diese Kombination (Nichtauftreten der langsamen und Nichtauftreten der schnellen Schwingung, wie es sich z. B. in der Mitte des Oszillogramms der F i g. 1 zeigt) zu den Merkmalen gehört, die für die Kodierung oftmals nützlich sein können.
Die angegebene Worterkennungsmethode kann dadurch weiter ausgebaut bzw. verfeinert werden, daß außer der Erkennung der Lautgruppen selbst und der Berücksichtigung ihrer zeitlichen Reihenfolge auch die Dauer erfaßt wird, während der sie jeweils vorhanden sind. Diese Dauer manifestiert sich durch die Länge des Rechteckimpulses, der von einem der Schmitt-Trigger STa und STb nach dem Ansprechen jeweils ausgegeben wird. Man kann dann, etwa mit Hilfe monostabiler Flip-Flops oder während der Impulsdauer ansteigender Sägezähne, z. B. wieder eine Dualisierung vornehmen, die angibt, ob die Dauer einer Lautgruppe, also einer 0-L-Kombination nach F i g. 2, lang (= L) oder kurz (= 0) ist. Eine solche Erweiterung der Kodierung kann unter anderem dazu herangezogen werden, gewisse Konsonanten, wie etwa s, die unter Umständen sehr stimmhaft ausgesprochen werden, von Vokalen sicherer zu unterscheiden. Ferner kann auch die Häufigkeit, mit der die einzelnen Lautgruppen auftreten, zur Erkennung mit herangezogen werden. Hierfür wären z. B. Zähler einzusetzen, die den einzelnen Lautgruppen zugeordnet sind und bei jedesmaligem Auftreten der Lautgruppe innerhalb eines Wortes um eine Einheit weiterzählen. Ihr Zählergebnis wird dann ein Bestandteil der Wortkodierung. Die bei derartigen Erweiterungen der Wortkodierung vorzunehmende Erweiterung des Entschlüsselungsschemas und der Dekodierinatrix D läßt sich unter Betrachtung des im obigen Ausführungsbeispiel angegebenen Prinzips ohne Schwierigkeiten durchführen.

Claims

Patentansprüche: 1. Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Wörtern, z. B. Ziffernwörtern, bei der die den Schallschwingungen entsprechenden elektrischen Schwingungen in Zeitabständen auf in ihnen enthaltene Merkmale geprüft werden, dadurch gekennzeichn e t, daß jeweils eine einen Schwellenwert überschreitende Meßgröße das Auftreten oder Nichtauftreten einer langsamen (Grund-) Schwingung (a in F i g. 1) sowie das Auftreten oder Nichtauftreten einer wesentlich schnelleren (Ober-) Schwingung (b in F i g. 1) feststellt und diese Feststellungen mit ja/nein bewertet als Code zur Einstufung des untersuchten Lautes in eine Lautgruppe mittels einer Verknüpfungsschaltung (V1) dienen und daß durch diese erzeugte Lautgruppen-Markiersignale in der Reihenfolge ihres Auftretens in einem Signalspeicher (FFN1 ... FFS2) geordnet werden und nach Beendigung der gesprochenen Silbe (bzw. des Wortes) abgefragt zu deren Identifizierung herangezogen werden.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß auch die Dauer und/oder Häufigkeit des Auftretens der Schwingungsformen (a, b) geprüft wird. 3. Einrichtung nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die die langsame und die die schnelle Schwingung erkennenden Schaltungen (Ea, STa, Eb, STb) jeweils einen Signalgeber (FFa, FFb) betätigen und die beiden Signalgeber in Kombination die Merkmals-Signalspeicher (FFN1 ... FFS2) betätigen. 4. Einrichtung nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß den Signalspeichern (FFN1 ... FFS2) Koinzidenztore (N1 ... S2) vorgeschaltet sind, an deren Eingängen die Signalgeber (FFa, FFb) und außerdem Signale (mindestens) eines der Signalspeicher (FFI) liegen, so, daß vor und nach dem Ansprechen dieses Signalspeichers jeweils eine andere Gruppe weiterer Signalspeicher an die Signalgeber angeschlossen wird. 5. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Abfrage der Merkmale durch einen frei laufenden Taktgenerator (TG) bewirkt wird. 6. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß Merkmals-Abfrageimpulse aus den Lautschwingungen selbst hergeleitet werden. 7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die Abfrageimpulse durch Maxima der Lautschwingungs-Hüllkurve ausgelöst werden. 8. Einrichtung nach Anspruch 1 bzw. den folgenden, dadurch gekennzeichnet, daß die Signalgeber (FFa, FFb) und die Signalspeicher (FFN1 ... FFS2) bistabile Kippschaltungen sind und die Ausgänge der die Signalspeicher bildenden Kippschaltungen in entsprechend den zu erkenneden Lautgruppen verknüpfter Weise (Dekodiermatrix D) an Koinzidenztore (Ux) angeschlossen sind, an deren jeweils eine Lautgruppe signalisierenden Ausgängen weitere Signalgeber (FFx) angeschlossen sind. 9. Einrichtung nach Anspruch 1 bis 8, dadurch gekennzeichnet, daß zur Prüfung auf das deutliche Auftreten bzw. Nichtauftreten der langsamen bzw. schnellen Schwingungen mindestens eine der folgenden Einrichtungen vorgesehen ist: a) ein Tiefpaß und ein Hochpaß, b) eine integrierende und eine differenzierende Schaltung, c) eine Schaltung, welche die getragene Welle mittelt und Auslenkungen der gemittelten Welle sowie gegenüber der gemittelten Welle feststellt, d) eine Schaltung zur Feststellung von Nulldurchgängen einer gemittelten Welle und von Nulldurchgängen der Schwingungen, bezogen auf die gemittelte Welle.