DE1194170B

DE1194170B - Verfahren und Schaltungsanordnung zur Spracherkennung

Info

Publication number: DE1194170B
Application number: DEJ25035A
Authority: DE
Inventors: Richard Kasper Orthuber; Charles Vincent Stanley; Thomas Patrick Dixon
Original assignee: International Standard Electric Corp
Current assignee: International Standard Electric Corp
Priority date: 1962-12-31
Filing date: 1963-12-24
Publication date: 1965-06-03
Also published as: US3280257A; NL302734A; FR1389539A; GB1039580A; BE641963A

Description

Verfahren und Schaltungsanordnung zur Spracherkennung Die Erfindung bezieht sich auf ein Verfahren zur Spracherkennung durch Vergleichen der aus dem zu erkennenden Wort gewonnenen Information mit gespeicherten Informationen, bei dem alle zu erkennendenWorte auf einem photographischenAufzeichnungsträger wafgezeichnet werden, wozu die in Frequenzbänder aufgeteilten Spektrogram.me der Wörter als Aniplituden-Zeit-Diagramme dargestellt werden.
Verfahren zur Spracherkennung werden in der Akustik und bei der Datenverarbeitung benötigt. Ein zuverlässiges Gerät zur Spracherkennung, das einen großen Wortschatz verarbeiten kann und das außerdem unempfindlich für die unvermeidlichen Schwankungen der Sprache, die sich bei wechselnden Sprechern ergeben, ist, kann als Eingabegerät für eine Schreibmaschine verwendet werden, mit der dann die Sprache direkt geschrieben werden kann.
Es sind bereits eine große Anzahl von Verfahren zur Spracherkennung bekanntgeworden, von denen im Zusammenhang mit der Erfindung nur ein kleiner Teil von Interesse ist. Man unterscheidet Verfahren, die Merkmale, Phoneme oder Wörter erkennen. Die Erfindung betrifft das letztgenannte Verfahren. Es sind Worterkennungsverfahren bekannt, mit denen es möglich ist, das beim Erkennungsgerät einlaufende Sprachsignal mit eingebauten Signalprototypen zu vergleichen, die als repräsentativ für das betreffende Wort angesehen werden. Die Erfindung geht von diesem allgemeinen Gedanken aus. Mit der Erfindun,- soll ein Verfahren angegeben werden, mit dem gesprochene Wörter unabhängig von den individuellen Eigenschaften des Sprechers oder der Sprechgeschwindigkeit erkannt werden können. Es ist ebenfalls bekannt, Sprache visuell erkennbar darzustellen (visible-speech-Diagramm) und aus den Diagrammen der einzelnen Worte die typischen Merkmale der Worte zu gewinnen. Diese visible-speech-Diagramme finden bei der Erfindung Verwendung.
Die Erfindung ist dadurch gekennzeichnet, daß die Amplituden-Zeit-Dia,o"ramme des Vergleichsspeichers wortweise mit Masken mit vertikalen Schlitzen abgedeckt werden, welche die Unterscheidungskriterien der Wortinformationen frei lassen, und daß danach zur Erkennung des Wortes mehrmals ein optischer Deckungsvergleich des aus dem zu erkennenden Wort gewonnenen Frequenzspektrums mit allen Wörtern im Wortspeicher vorgenommen wird, wobei der Zeitmaßstab des Frequenzspektogramms des zu erkennenden Wortes bei jedem Abfragen des Vergleichsspeichers geändert wird, und daß gleichzeitig mit dem Vergleichsspeicher ein anderer matrixförmicer Speicher abgefragt wird, in dem beim Eintreffen des Erkennungskriteriums der dem zu erkennenden Wort zugeordnete Kreuzungspunkt markiert und dadurch die Ausgabe des erkannten Wortes bewirkt wird.
Mit dem Verfahren gemäß der Erfindung ist - unabhängig von der Sprechgeschwindigkeit - eine sichere Erkennung der gesprochenen Wörter möglich, da die-zu erkennenden Wörter mehrmals mit den gespeicherten Wörtern verglichen werden, wobei bei jedem Vergleich der Zeitmaßstab der zu erkennenden Wörter anders ist. Diesen und andere Vorteile weisen die bekannten Verfahren zur Spracherkennung nicht auf.
Die Erfindung wird nun an Hand der Figuren beispielsweise erläutert. Es zeigt Fig. la, lb und le je ein Amplituden-Zeit-Svek-tro-ramm eines Satzes, der von drei verschiedenen Spr'echern gesprochen wurde, F i g. 2 die Amplituden-Zeit-Diagramme eines Frequenzbereichs eines Wortes aus den Spektrogrammen nach den Fi g. 1 a, 1 b und 1 c, F i g. 3 ein genormtes Amplituden-Zeit-Diagramm, das aus der F i g. 2 abgeleitet wurde, F i g. 4 die Abweichungen der Kurven nach F i g. 2 von der Normkurve, F i g. 5 den Amplitudenbereich im selben Frequenzbereich wie die F i g. 2 bis 4, in den die Amplituden aller Sprecher wahrscheinlich fallen, F i g. 6 verschiedene Bereiche mit unterschiedlicher Wahrscheinlichkeit, ein sogenanntes Wahrscheinlichkeitsmuster, F i g. 7 das mit einer Maske abgedeckte Wahrscheinlichkeitsmuster nach F i g. 6, F i g. 8 das Muster nach F i g. 7, derart mit einer Maske versehen, daß sich mit Gewichten versehene Abtastpunkte ergeben, F i g. 9 a, 10 a und 1 la Spektrogramme ohne und F i g. 9 b, 10 b und 11 b Spektrogramme mit Masken je für dieselben Wörter, F i g. 12 ein Blockschaltbild eines Teils der Spracherkennungseinrichtung, F i g. 13 ein Blockschaltbild eines anderen Teils der Spracherkennungseinrichtung, Fig. 14 ein Blockschaltbild eines logarithmischen Verstärkers.
Eine Möglichkeit zur Erkennung gesprochener Wörter besteht darin, daß ein Wortspeicher mit Wortspektrogrammen vorgesehen wird, daß außerdem ein Spektrogramm des unbekannten Wortes aufgenommen wird und daß das unbekannte Wort mit allen Wörtern ün Wortspeicher so lange verglichen wird, bis eine übereinstimmung gefunden ist. Eine der Schwierigkeiten, die sich bei einer solchen Spracherkennungseinrichtung ergibt, besteht darin, daß man genügend Zeit für den Vergleichsvorgang vorsehen muß. Eine weitere Schwierigkeit besteht darin, die Spracherkennungseinrichtung an die unterschiedlichen Sprechgeschwindigkeiten desselben oder verschiedener Sprecher anzupassen. Schwieriger ist es, die Einricht#mg so auszulegen, daß sie Wörter von Sprechern erkennen kann, die aus verschiedenen Teilen desselben Landes kommen und die Wörter mit unterschiedlicher Betonung und Aussprache sprechen.
Die drei angedeuteten Schwierigkeiten können mit der Anordnung gemäß der Erfindung bewältigt werden.
Der Wortspeicher enthält Muster aller vorgesehenen Wörter. Die Muster werden aus Spektrogrammen einer bestimmten Anzahl verschiedener Sprecher mit unterschiedlichen. Sprecheigenschaften gewonnen, wobei jeder Sprecher alle Wörter des Wortspeichers ausspricht.
Bestimmte Zeitabschnitte des zu erkennenden Textes werden in Amplituden-Zeit-Spektrogramme übertragen, die dann mit sehr hoher Geschwindigkeit mit den Vergleichsmustern im Wortspeicher verglichen werden, wobei nach dem ähnlichsten Muster gesucht wird. Um eine Anpassung an die unterschiedlichen Sprechgeschwindigkeiten verschiedener Sprecher oder des gleichen Sprechers zu verschiedenen Zeiten zu ermöglichen, wird die Länge des unbekannten Amplituden-Zeit-Spektrogramms während des Vergleichs zwischen vorgegebenen Grenzwerten geändert, so daß jedes Wort des Wortspeichers mehrmals mit dem unbekannten Spektrogramm verglichen wird, wobei bei jedem Vergleich das unbekannte Spektrogramm. eine andere Länge hat.
Im Wortspeicher ist ein Spektrogramm für jedes Wort vorgesehen. Dieses Spektrogramm wird so gebildet, daß es alle möglichen Sprachunterschiede verschiedener Sprecher, die die Einrichtung verarbeiten soll, enthält.
Die Spektrogramme und die Art und Weise, wie sie gebildet werden, wird nun zuerst beschrieben.
In den F i g. 1 a, 1 b und 1 c sind drei Gruppen 1, 2 und 3 des Amplituden-Zeit-Spektrogramms des Satzes »l can see it« gezeigt. Diese Spektrogramme sind an sich bekannt. Sie stammen von drei Sprechern aus drei verschiedenen Teilen eines Landes, wobei jeder Sprecher eine unterschiedliche Betonung hat. Jedes Spektrogramm besteht aus einer Gruppe von Amplituden-Zeit-Diagrammen, von denen jedes die Amplitude in einem von zehn verschiedenen Frequenzbändem darstellt. Die Bandmittenfrequenzen dieser Bänder sind 181, 256, 362, 512, 724, 1024, 1448, 2048, 2895 und 4096 Hz. Jedes Band hat eine Bandbreite von ± 7,5% der Bandmittenfrequenz. Es hat sich gezeigt, daß diese Frequenzbänder günstig sind, es können jedoch auch weniger oder mehr Bänder mit anderen Frequenzen gewählt werden. Diese Amplituden-Zeit-Diagramme gewinnt man, indem man die Amplitude des Sprachsignals bei jeder bestimmten Frequenz mißt und sie über der Zeit aufträgt. Aus den Figuren ist ersichtlich, daß die Amplituden-Zeit-Spektrogramme geringfügig wegen der unterschiedlichen Sprecheigenschaften der einzelnen Sprecher voneinander abweichen.
Solche Amplituden-Zeit-Diagramme werden von einer großen Anzahl, z. B. hundert Sprechern für jedes Wort aufgenommen. Der nächste Schritt zur Herstellung der Vergleichsmuster besteht darin, daß aus jedem Satz Amplituden-Zeit-Diagramme der hundert verschiedenen Sprecher ein einziges Muster für jedes Frequenzband gewonnen wird. Das einzelne Muster wird so gewählt, daß es die hundert Muster einschließt. Dazu gelangt man, wenn man je Frequenzband und je Sprecher die Amplituden aufzeichnet. In der F i g. 2 ist ein Amplituden-Zeit-Diagramm 3 im 724-11z-Band des einzelnen Wortes »I« aufgezeichnet, das vom Sprecher 1 von F i g. 1 herrührt. Die horizontale Linie 4 bedeutet die Zeitachse. Zum Zeichnen der Kurve wurden siebzehn einzelne Kurvenpunkte verwendet. Es hat sich gezeigt, daß diese Anzahl für die Genauigkeit ausreicht.
Es wird also ein derartiges Amplituden-Zeit-Diagramm für jedes Frequenzband aufgezeichnet, das dann ein Maß für die Energie des einzelnen Wortes ist. Auf diese Weise bildet man eine Familie von Amplituden-Zeit-Diagrammen des einzelnen Wortes. Auf ähnliche Weise werden ähnliche Familien von Amplituden-Zeit-Diagrammen für das gleiche Wort gebildet, die die Spracheigenschaften verschiedener Sprecher enthalten.
Die F i g. 2 zeigt außerdem zwei andere Amplituden-Zeit-Diagramme 6 und 7 im gleichen Frequenzband für das gleiche Wort »I«, die von zwei anderen Sprechern herrühren. Die Kurven der bestimmten Frequenz und des bestimmten Wortes werden für alle Sprecher zusammengefaßt. In der Figur sind nur die drei Kurven 3, 6 und 7 gezeigt, um das Verfahren zu erläutern. Aus der F i g. 2 ist ersichtlich, daß die größte Abweichung der Sprecheigenschaften der verschiedenen Sprecher am Beginn des Wortes auftritt und daß gegen Ende des Wortes die Abweichung von Sprecher zu Sprecher abnimmt.
Der nächste Schritt ist die Bestimmung einer theoretischen Normkurve, deren einzelne Punkte sich aus den durchschnittlichen Amplituden jeweils zu den gleichen Zeitpunkten ergeben. Eine Norinkurve für 724 Hz ist bei 8 in F i g. 3 gezeigt.
Die F i g. 4 enthält eine Kurve 9, die die Normabweichung a von der Normkurve 8 nach F i g. 3 und den anderen Kurven zeigt. Jeder Punkt der Kurve ist gleich der Quadratwurzel der Summe der Quadrate der Differenz zwischen jeder Kurve und der Normkurve geteilt durch die Anzahl der Kurven. Verbindet man die Normabweichung 9 und die Normkurve 8, indem man die Norinabweichung an jedem Punkt zu der Normkurve addiert bzw. von dieser abzieht, so ergibt sich eine Fläche, innerhalb der mit einer Wahrscheinlichkeit von 68 % ein Wortelement gefunden wird, wenn das entsprechende Wort gesprochen wird. Dieser Bereich ist für das 724-Hz-Band mit 10 in F i g. 5 bezeichnet.
Ein auf diese Weise aufgenommenes Muster hat den- Nachteil, daß der Aufnahmebereich fest und relativ beliebig breit ist und daß er keine weiter gehenden Änderungen der Sprecheigenschaften verarbeiten kann, wie bei der Aufnahme der Muster gegeben waren. Um diesen Nachteil zu vermeiden, ist die Möglichkeit vorgesehen, daß, abhängig von der Zeit, eine beliebige Amplitude auftreten kann. Dazu wird eine photometrische Größe vorgesehen, die stetig oder in kleinen Schnitten geändert werden kann. In der F i g. 6 ist das Muster nach F i g. 5 so geändert, daß man die Bereiche verschiedener Wahrscheinlichkeit eines bestimmten Musters erkennt. Der Bereich 1 in der Mitte des Musterfeldes ist der Bereich, in den das Amplituden-Zeit-Diagranim mit großer Wahrscheinlichkeit fällt. Dieser Bereich kommt der Normkurve am nächsten.
Neben dem Bereich 11, darunter und darüber sind Bereiche 12, in die das Amplituden-Zeit-Diagramm der Wahrscheinlichkeit nach fällt, wenn es nicht in den Bereich 11 fällt. Die Bereiche 13, 14 und 15 treten nach den Gesetzen der Wahrscheinlichkeit entsprechend seltener auf. Diese Bereiche werden nun auf einem durchscheinenden Aufzeichnungsträger 16 aufgebracht. Der Mittelbereich 11 ist voll durchscheinend. Der Grad der Lichtdurchlässigkeit nimmt von Bereich zu Bereich auf 0,89, 0,61, 0,33 und 0,14 ab.
Eine Quantisierung der wahrscheinlichen Bereiche wurde in F i g. 6 gezeigt, um die Bereiche verschiedener Wahrscheinlichkeit zu zeigen. Es ist jedoch vorteilhafter, das quantisierte Muster durch eines zu ersetzen, bei dem sich die Wahrscheinlichkeit stetig mit der vertikalen Koordinate ändert. Findet man, daß die Verteilung der Abweichung nicht mit der angenommenen Verteilung übereinstimmt, dann kann man experimentell abgewandelte Kurven bilden, die die Abweichungen bei den einzelnen Frequenzen enthalten.
Diese Muster, die eine analoge Darstellung der Ähnlichkeitsfunktion sind, nennt man »L«-Muster. Projiziert man nun das unbekannte Amplituden-Zeit-Muster als erleuchtete Linie auf den durchscheinenden Aufzeichnungsträger mit dem »L«-Muster, wobei man darauf achten muß, daß die Lichtmenge bei jedem Punkt des Musters konstant ist, dann ist die gesamte Lichtmenge, die durch jeden Punkt hindurchgeht, das Produkt der Lichtmenge durch das Vergleichsmuster und des unbekannten Musters. Mißt man die Lichtmenge getrennt an jedem Punkt mittels eines linearen photoelektrischen Wandlers und multipliziert man die Ausgänge miteinander, so ergibt sich ein Wert, der, rückwirkend betrachtet, die Wahrscheinlichkeit darstellt, daß die unbekannte Kurve durch das Wort hervorgerufen wurde, das dem Vergleichsmuster entspricht. Der beschriebene Weg hat gewisse Schwierigkeiten, da man die Produkte entweder ans aufeinanderfolgenden Meßwerten von allen Punkten oder durch gleichzeitiges Erfassen aller Meßwerte einer Anzahl unabhängiger photometrischer Kanäle gewinnt. Deshalb wird das Produkt in einem Arbeitsgang mit einem Photoelektronen-Vervielfacher erfaßt. Dazu bildet man die »L«-Muster so aus, daß sie die Logarithmen der Ähnlichkeitsfunktionen darstellen. Die Durchlässigkeit des Musters hat den Maximalwert 1 entlang der Norinkurve und nimmt oberhalb und unterhalb dieser Kurve proportional dem Logarithmus der Ähnlichkeit einer entsprechenden Abweichung ab. Wird nun die unbekannte Kurve auf das logarithnüsche»L«-Muster projiziert, wobei wiederum eine konstante Lichtmenge je Wert bzw. Abtastintervall verwendet wird, dann kann das das Licht messende Instrument so eingestellt werden, -daß es die Wahrscheinlichkeit direkt liefert.
Die Anzahl der Abweichungswerte, die man entlang der Kurve betrachtet, kann beliebig gewählt werden. Man kann z. B. die doppelte Bandbreite der Analysierschaltung verwenden und diese mit der zeitlichen Länge des Wortes multiplizieren. Diese Werte (Quantisierungspunkte) können gleichmäßig auf die der halben Bandbreite der Analysierungsschaltung entsprechende Anzahl Sekunden verteilt werden. Bei dem Amplituden-Zeit-Diagranun nach F i g. 2 war die Abtastgeschwindigkeit etwa 80 Quantisierungspunkte pro Sekunde.
Es hat sich gezeigt, daß man wesentlich bessere Ergebnisse erhält, wenn man die Quantisierungsgeschwindigkeit sehr sorgfältig wählt und im günstigsten Falle sogar entsprechend dem Eingabesignal variiert. Eine Quantisierungsgeschwindigkeit, die für schnell ansteigende und abfallende übergänge gewählt ist, ergibt eine große Redundanz, wenn sie bei langsam veränderlichen Tönen mit einfacher spektraler Zusammensetzung, wie z. B. Vokalen, verwendet wird.
Ein einfacher Weg, zu der gewünschten veränderlichen Quantisierung zu gelangen, besteht darin, daß man eine Maske für jedes Muster vorsieht, die über das entsprechende Muster gelegt wird, so daß eine Folge vertikaler Streifen an den gewünschten Abtastpunkten unbedeckt bleibt und der Rest des Musters bedeckt wird. Dadurch erreicht man ein für jedes Wort spezielles optimales Quantisierungsprogramm, ohne daß eine Erkennung des Wortes vorausgehen muß. Bei einem auf diese Weise mit einer Maske abgedeckten »L«-Muster ist es möglich, der veränderlichen Redundanz dadurch Rechnung zu tragen, daß man die Abstände der Quantisierungspunkte entsprechend ändert. F-in Beispiel eines mit einer Maske abgedeckten »L«-Musters ist in F i g. 7 gezeigt, in der die Quantisierungsstreifen 17 durch Abstände 18 getrennt sind. Der Abstand der Quantisierungsstreifen ist umgekehrt proportional dem Informations-Cr gehalt in verschiedenen Abschnitten des Musters gewählt. Eine optimale Quantisierung für ein Amplituden -Zeit-Diagramm ist jedoch nicht unbedingt optimal für die entsprechende Worterkennung, und zwar deshalb, weil die Amplituden-Zeit-Diagramme Informationen enthalten, die auf die Eigenschaften des Sprechers und das Wort zurückgehen. Es ist durchaus möglich, daß mit einem veränderlichen Quantisierungsabstand mehr die typischen Sprachübergänge des Sprechers betont werden als diejenigen des Wortes. F i g. 7 zeigt ein Beispiel dafür: Wie oben erwähnt wurde, ist die Variationsbreite der Eigenschaften der Sprecher im ersten Teil der Kurve enthalten, während die hinteren, genauer definierten Teile der Kurve das Wort kennzeichnen und nahezu unabhängig von den einzelnen Sprechern sind. Eine hohe Quantisierungsgeschwindigkeit am Anfang führt deshalb dazu, daß die Worteigenschaften verwaschen werden. Dies ist aber unerwünscht. Die Anpassung der Quantisierungsgeschwindigkeit führt nicht immer zu einer solchen unerwünschten Verschiebung der Betonung. Eine hohe Quantisierungsdichte im ersten Teil des Wortes »tea«, die durch den Anfangskonsonant hervorgerufen wird, ist erforderlich. In diesem Falle ergibt die hohe Quantisierungsdichte eine Wortbetonung, die bei der Unterscheidung gleichlautender Wörter, wie z. B. »pea«, »free«, »me« usw., nützlich ist. Der Quantisierungsvorgang wird deshalb so abgewandelt, daß die Betonung der Wortteile, die einen unwesentlichen Informationsgehalt haben, vermieden wird.
Das Problem wird dadurch gelöst, daß die einzelnen Quantisierungen entsprechend ihrer Bedeutung für die Worterkennung mit Gewichten versehen werden. Ein möglicher Weg zur Bestimmung dieser Bedeutung besteht darin, daß man einen Wert nimmt, der der Normabweichung in jedem Quantisierungspunkt umgekehrt proportional ist. Die Gewichte können dann als unterschiedliche Breite der Quantisierungsstreifen dargestellt werden. Die derart abgewandelte Kurve nach F i g. 7 ist in F i g. 8 gezeigt, in der die Quantisierungsstreifen 19 durch Zwischenräume 20 getrennt sind. Die Breite der Streifen wurde ermittelt, indem man eine Konstante durch die Normabweichung teilte. Die Konstante kann frei gewählt werden. Besonders günstig ist es jedoch, wenn man sie so wählt, daß die Gesamtbreite aller Quantisierungsstreifen für alle Wörter des Wortspeichers gleich wird. Die Konstante ändert sich dann von Wort zu Wort.
Dieses Verfahren, die Quantisierungsstreifen mit Gewichten zu versehen, bewirkt, daß mit Sicherheit die maximale Lichtmenge, die durch das maskierte »L«-Muster hindurchfällt, bei jeder Kurve des Wortspeichers der entsprechenden Kurve des zu vergleichenden Wortes, wenn dieses Wort mit dem Vergleichswort identisch ist, für alle Wörter gleich ist. Da die Wahrscheinlichkeitswerte als Verhältnis der beobachteten Lichtmenge zur maximalen Lichtmenge gegeben sind, gestattet diese Norinierung eine direkte und bequeme Messung des Logarithmus der Abweichung der unbekannten Kurve von der Normkurve, und zwar mit Hilfe der Lichtmenge.
Dieses Verfahren zur Reduzierung der stark redundanten Abschnitte mit Vokalen in den »L«-Mustern entspricht weitgehend der Technik, die geübte Sprecher anwenden, wenn sie Konsonanten gegenüber den Vokalen stärker betonen und auf diese Weise die Verständlichkeit normaler Sprache erhöhen.
Bei dem Erkennungsverfahren gemäß der Erfindung werden Entscheidungen auf Grund von Wahrscheinlichkeitsprodukten gefällt, die sich während der Durchsuchung eines großen Wortspeichers dauernd ändern. Um zuverlässige Entscheidungen zu erhalten muß das Vergleichsmuster so ausgebildet sein, daß die Wahrscheinlichkeit, daß das unbekannte Wort das gleiche wie das Vergleichswort ist, ein Maximum wird, wenn beide gleich sind, und so, daß die Wahrscheinlichkeit ein Minimum wird, wenn die beiden nicht gleich sind. Die erste Forderung wird mit dem bis jetzt beschriebenen Verfahren erfüllt. Die zweite Forderung ist jedoch nicht unbedingt erfüllt. Da bei dem seitherigen Verfahren nur die unbekannte Kurve und die Abweichung von der Nonnkurve betrachtet wurde und da das Muster mit anderen Mustern im Wortspeicher verglichen wurde, kann es vorkommen, daß die zweite Forderung nicht erfüllt ist. In den F i g. 9 a, 10 a und 11. a sind nicht abgedeckte Spektrogramme (keine »L«-Muster) 21, 22 und 23 der Worte »we«, »see« und »seat« gezeigt. Es ist ersichtlich, daß, wenn die Muster 21 und 22 mit der gleichen Maske abgedeckt werden, wie in den F i g. 9 b und 10 b bei 21' und 22' angedeutet, noch eine Unterscheidung zwischen den Wörtern »we« und »see« möglich ist. Wird jedoch das Muster 23, das das Wort »seat« darstellt, auf die gleiche Weise (nicht dargestellt) mit einer Maske abgedeckt, dann ist ersichtlich, daß die Wahrscheinlichkeit kein Minimum ist und daß die Endkonsonanten nicht voneinander unterschieden werden, wodurch eine falsche Aussage beinahe unvermeidbar ist. Daraus folgt, daß beim Betrieb mit einer großen Anzahl von Wortmustern eine Auswahl zwischen verschiedenen möcIichen Kurven getroffen werden muß, wobei eine Quantisierung mit hohem Inforinationsgehalt sogar bei solchen Teilen des »L«-Musters erforderlich ist, die ursprünglich stark redundant erschienen.
Um einen Satz von Vergleichsmustern zu erhalten, der Entscheidungen mit hoher Zuverlässigkeit ge- stattet, ist eine zusätzliche Korrektur des Quantisierungsprogramms erforderlich, das die Analyse des vollständigen Wortschatzes umfaßt. Diese letzte Korrektur kann wie folgt durchgeführt werden: Zuerst werden sämtliche »L«-Muster entsprechend der gewünschten Wortanzahl hergestellt. Die Muster sind mit abnehmbaren Masken versehen, wie oben im Zusammenhan- mit der Quantisierung beschrieben wurde. Der auf diese Weise hergestellte Inhalt des Wortspeichers wird photometrisch ausgewertet, um eine Aussage für die nachfolgende Erkennungswahrscheinlichkeit zu erhalten, und die maximale Wahrscheinlichkeit für eine richtige Entscheidung wird für jedes Wort erfaßt. Auf diese Weise kann die Wahrscheinlichkeit, daß bei einem bestimmten Eingangssignal an jedem Quantisierungspunkt einer Kurve ein Signal auftritt, beobachtet werden, und die Ergebnisse können in einer Matrix dargestellt werden, wobei die Zeilen den Eingangssignalen und die Spalten den aufgetretenen Signalen entsprechen.
Bei jedem Wortspeicher einer gewissen Größe wird es immer falsche Reaktionen geben, wenn ein Wahrscheinlichkeitswert an einer Stelle auftritt, der keiner sein sollte. Um dies zu vermeiden, ist es notwendig, jedes Paar von Mustern, bei denen ein solcher falscher Wahrscheinlichkeitswert auftritt, genauer zu untersuchen, um solche Bereiche zu finden, die am besten zur Unterscheidung der beiden Wörter geeignet sind. Die Quantisierungsstreifen können dann neu angeordnet werden, um sicherzustellen, daß diese unterscheidungskräftigen Bereiche erfaßt werden. Das Spektrogramm 23' in Fig. llb zeigt, wie d-e Quantisierungsstreifen nach den obengenannten Gesichtspunkten verteilt werden können. Die drei letzten Quantisierungsstreifen 24, 25 und 26 des Spektro-Gramms 22' in F i g. 10 b des Wortes » see« wurden in fünf engere Streifen 27, 28, 29, 30 und 31 über den ganzen Vokalteil verteilt, so daß die Erfassung der Endphase des Vokals sichergestellt ist und die Unterscheidung der Wörter »seat« und »see« möglich ist. Der letzte Quantisierungsstreifen 31, der die Unterscheidung zwischen den beiden Wörtern ermöglicht, hat nun eine verminderte Redundanz, und es kann deshalb möglich sein, daß man ihn breiter machen muß.
In extremen Fällen führt dieses Vorgehen dazu, daß man scheinbar unwichtige Einzelheiten des Vergleichsmusters betonen muß, wenn diese Einzelheiten nutzbare Information zur Unterscheidung gleichlautender Wörter haben. Diese Möglichkeit, die das Erkennungsverfahren gemäß der Erfindung bietet, nämlich solche unterscheidungskräftigen Einzelheiten zu erfassen, ist ein großer Vorteil.
Es wird darauf hingewiesen, daß man ähnlich vorgehen kann, um die Beiträge der einzelnen Frequenzbänder zu der Lichtmenge zu ändern, wenn es sich herausstellt, daß die Bedeutung dieser Frequenzbänder für die Erkennung sehr ungleich ist. Dies kann auftreten, wenn man die Bandmittenfrequenzen und die Bandbreiten der Filter ungünstig wählt.
In den F i g. 12 und 13 ist ein Blockschaltbild eines Ausführungsbeispiels einer Anordnung zur Durchführung des erfindungsgemäßen Verfahrens gezeigt. F i g. 12 zeigt die Aufzeichnungs- und Abtasteinrichtung und den Spektralanalysator, und F i g. 13 zeigt die elektronisch optische Vergleichseinrichtung. An die Eingangsklemme 35 der F i g. 12 kann ein Mikrophon oder eine andere NF-Quelle angeschlossen werden. Von der Eingangsklemme gelangen die Signale zu einem Aufnahmeverstärker 36, dessen Ausgangssignale auf den Aufzeichenkopf 37 gegeben werden. Ein Magnetband 38 läuft von einer Spule 39 ab und wird mit konstanter Geschwindigkeit am Kopf 37 vorbeigeführt. Der Antrieb des Bandes wird über eine Rolle 40, die wiederum von der Antriebsvorrichtung 41 angetrieben wird, bewirkt. Der Aufnahmeverstärker 36 enthält eine automatische Verstärkungsregelung 42, so daß sich ein konstanter Aufnahmepol ergibt.
Die Sprache wird dauernd auf dem Magnetband aufgezeichnet. Danach werden 2-Sekunden-Intervalle abgetastet, jedes in einer Sekunde, wodurch 1 Sekunde für die Suche und den Vergleichsvorgang übrigbleibt. Dazu wird das Band über Umlenkrollen 43 geführt, so daß sich eine freie Schleife 44 ergibt. Das Band gelangt weiter durch Führungsrollen 46 zum Abtastkopf 45 und von da zu einer intermittierend angetriebenen Rolle 47, die ihrerseits von der Antriebsanordnung 48 angetrieben wird. Hinter der Rolle 47 folgt eine zweite freie Schleife 49 zwischen Umlenkrollen 50. Von da gelangt das Band zu einer weiteren stetig umlaufenden Antriebsrolle 51 über eine Umlenkrolle 53 zur Aufwickelspule 52.
Mit dieser Anordnung wird ein 2-Sekunden-Inter- i vall von der Aufnahme, die durch den Aufnahmekopf 37 erfolgt ist, am Abtastkopf 45 mit doppelter Geschwindigkeit vorbeigeführt, so daß der Abtastkopi tr dieses Signal abgibt und dann das nächste 2-Sekunden-Intervall abwartet. Die Aufwickelspule 52 ist natürlich mit der bekannten Reibungskupplung ausgerüstet, damit sich die Wickelgeschwindigkeit dem unterschiedlichen Wickeldurchmesser anpassen kann. Während der 1 Sekunde dauernden Wartezeit wird der Wortspeicher durchsucht und das Wort erkannt.
Das Ausgangssignal des Abtastkopfes 45 gelangt auf einen Verstärker 54 und von dort zu einem Leistungsverstärker 55, dessen Ausgangssignal auf den Spektralanalysator 55 gelangt. Der Leistungsverstärker 55 enthält eine automatische Verstärkungsregelung 57, damit ein konstanter Durchschnittspegel auf den Analysator gelangt.
Der Analysator 56 enthält eine Anzahl Bandpässe 58, deren Durchlaßkurven und Bandbreiten an sich beliebig sein können. Bei dem Ausführungsbeispiel sind zehn Bandpässe vorgesehen, von denen jeder eine Bandbreite von etwa 300 Hz hat, und die die folgenden Bandmittenfrequenzen haben 3315, 2975, 2635, 2295, 1955, 1615, 1275, 935, 595 und 255 Hz. Bei dieser Anordnung von Bandpässen sind die Bandmittenfrequenzen _gleich voneinander entfernt und die Bandbreiten sind ebenfalls alle gleich. Man kann auch Bandplisse verwenden, deren Bandmittenfrequenzen logarithmische Abstände und gleiche prozentuale Bandbreiten haben. Der Ausgang jedes Bandpasses gelangt über einen Gleichrichter 59 auf einen 50-Hz-Tiefpaß 60, dessen Ausgang auf einen Verteiler 61 gelangt. An den Ausgängen der zehn Bandpässe 58 ist die Augenblicksamplitude im jeweiligen Frequenzband-verfügbar und die Tiefpässe 60 liefern die Einhüllende, also die Amplitudenschwankungen. Die Ausgangssignale der Tiefpässe 60 gelangen auf den Verteiler 61, der mit einer Geschwindigkeit von 2200 Hz umläuft. Der Verteiler wird von einem Impulsgenerator 62 und einem Dezimalzähler 63 gesteuert, die zusammen als Kontaktgeber für die gesamte Einrichtung dienen. Von dem auf diese Weise gesteuerten Verteiler läßt sich eine Folge von Punkten abnehmen, deren Größe und Helligkeit nicht stark schwankt, da die größtmöglichen Schwankungsgeschwindigkeiten der Amplituden durch die 50-ffz-Tiefpässe bestimmt sind.
Dabe Signale vom Verteiler 61 werden auf einen logarithmischen Verstärker 64 gegeben, so daß der Logarithmus des Pegels auf die elektronisch-optische Auswerteeinrichtung gegeben werden kann. Dieser Verstärker kann, wie in F i g. 14 gezeigt, ein Oszillo-"raph C, 65 sein, dessen Bildschirm mit einer logarith misch geformten undurchsichtigen Maske 66 abgedeckt ist. Der Bildschirm des Oszillographen hat eine sehr kurze Nachleuchtdauer, die bei 10-7 Sekunden liegt. Ein Photoelektronenvervielfacher 67 ist vor dem Bildschirm der Röhre angeordnet derart, daß er den Lichtpunkt auf dem Bildschirm des Oszillographen aufnehmen kann. Das NF-Signal vom Verteiler 61 gelangt auf die horizontale Ablenkstufe 68 der Oszillographenb.;ldröhre 65, so daß sich der Lichtfleck 65' iniolge dieses Signals nach links bewegt. Eine feste Spannung wird bei 69 zugeführt und so eingestellt, daß sich der Lichtfleck beim Eingangssignal Null auf der Grundlinie der Kurve der Maske befindet. Das Ausgangssignal 70 des Photoelektronenvervielfachers wird dann zu der festen Spannung 69 addiert.
Wenn ein Eingangssignal auftritt, dann bewirkt dieses, daß sich der Lichtfleck nach links bewegt und dieser langsam hinter der Maske verschwindet. Dadurch wird das Ausgangssignal des Photoelektronenvervielfachers weniger negativ, wodurch sich der Lichtfleck, gesteuert durch die vertikale Ablenkschaltung nach oben bewegt. Hat die vertikale Ablenkschaltung eine genügend große Verstärkung, dann kann man erreichen, daß der Lichtfleck der Maske entlang läuft, ohne daß sich sein Verdeckungsgrad während des ganzen Weges wesentlich ändert. Das Ausgangssignal des Photoelektronenvervielfachers ist dann der Logarithmus des Eingangssignals.
Der Logarithmus des Eingangssignals wird dann auf eine Addierschaltung 71 gegeben, die dazu vorgesehen ist, zum Signal jedesmal dann einen Spannungsschritt hinzuzuaddieren, wenn ein anderes Frequenzband bearbeitet wird. Dazu ist ein Treppenspannungsgenerator 72 vorgesehen, der, gesteuert durch den Zähler 63, Spannungsschritte abgibt. Der Treppenspannungsgenerator erhöht damit die Signalspannung um einen bestimmten Betrag jedesmal dann, wenn der Verteiler ein anderes Frequenzband erfaßt.
Das Ausgangssignal der Addierschaltung71 wird nun auf die elektronisch-optische Auswerteeinrichtung, die in Fig. 13 gezeigt ist, gegeben. Die Auswerteeinrichtung hat die Aufgabe, die Kurve jedes Sprachmusters mit jedem der im Wortspeicher gespeicherten Muster zu vergleichen, um zu bestimmen, ob und gegebenenfalls welches der Wörter im Wortspeicher mit dem unbekannten Wort übereinstimmt.
Das Signal gelangt auf die vertikale Ablenkstufe einer Speicherröhre 74, die das Schirinbild 1 Sekunde lang speichern kann. Während dieser Zeit wird der Wortspeicher durchsucht. Das Schirmbild der Speicherröhree wird mittels eines Spiegels75 durch eine veränderbare Verzerrungslinse 76 und durch eine Sammellinse 77 auf die Photokathode einer Bildwandlerröhre 78 gerichtet.
Die Verzerrungslinse 76 dient dazu, eine stetige Änderung der Horizontalausdehnung der Kurven der gesprochenen Wörter hervorzurufen, um einen Vergleich der unbekannten Wörter mit den Wörtern des Wortspeichers unabhängig von der Sprechgeschwindigkeit zu ermöglichen. Diese Linse wird von einem Motor 79 und einem Nocken 80 so angetrieben, daß das Bild sicher innerhalb vorgegebenerGrenzen stetig ausdehnt und zusammen ieht. Die Grenzwerte sind so gewählt, daß sie die verschiedenen Sprechgeschwindigkeiten und Sprecheigenschaften einer großen Anzahl von Sprechern einschließen. Die Grenzwerte liegen bei plus oder minus 1511/o.
Die Nocke, die die Linse antreibt, ist so ausgebildet, daß die Vergrößerung sich linear in Abhängigkeit von der Zeit ändert und daß ein vollständiger Durchlauf während des 1-Sekunden-Suchzyklus erfolgt. Da der Wortspeicher zehnmal in 1 Sekunde abgetastet wird, hat sich die horizontale Abmessung der unbekannten Kurve bei jedem Durchlauf durch einen bestimmten Punkt um 3 % geändert.
Ein Signalgeber 81 an der Zerstreuungslinse erzeugt ein Signal, das auf einen Ablenkgenerator 82 gegeben wird, der die horizontale Ablenkung der Bildwandlerröhre 78 steuert. Dadurch erreicht man eine konstante horizontale Verschiebung des von der Bildwandlerröhre erzeugten Bildes.
Eine mit 80a bezeichnete mechanische Kupplung ist zwischen der Zerstreuungslinse 76 und der Blende der Sammelinse 77 vorgesehen, um diese Blende stetig zu verstellen, so daß man eine konstante Lichtmenge erhält, wenn die horizontale Vergrößerung geändert wird.
Eine andere Sammellinse 83 dient zur Abbildung des unbekannten Musters, das auf der Bildwandlerröhre 78 erscheint, auf dem Wortspeicher 84. Die tausend Wörter des Wortspeichers sind in zweiunddreißig Zeilen zu je zweiunddreißig Mustern auf einem Film angeordnet. Der Platz, den jedes Wort im Wortspeicher einnimmt, muß dem Platz entsprechen, den das 2-Sekunden-Sprachmuster einnimmt, um zu verhindern, daß mehr als ein Wortmuster gleichzeitig abgetastet wird.
Ein Sprachmuster enthält maximal hundert Informationselemente in horizontaler Richtung, da die 50-Hz-Tiefpässe in der Analysierschaltung nicht mehr zulassen. Ein Wortplatz auf dem Film enthält deshalb hundert Linien oder fünfzig Linienpaare. Mit einem geeigneten Film, dessen Ortho-Litho-Emulsion guten Kontrast und gute Auflösung gewährleistet, läßt sich eine Auflösung von zweihundert Linienpaaren pro Millimeter erreichen. Wird die Anordnung für diese Auflösung ausgelegt, dann kann die Information der tausend Wörter auf einem Quadrat von 8 mm Seitenlänge untergebracht werden. Die Verwendung eines Films dieser Abmessungen ergibt aber große Schwierigkeiten bezüglich der mechanischen Toleranzen und es besteht außerdem die Möglichkeit, daß infolge von Oberflächenfehlem des Films Schäden auftreten. Es werden deshalb fünfundzwanzig Linienpaare pro Millimeter verwendet. Auf diese Weise erhält man einen höheren Kontrast, dessen lineare Skala einen großen dynamischen Bereich aufweist. Die Anforderungen an die mechanische Ge- nauigkeit sind nicht mehr so groß, und Oberflächenfehler des Films sind nicht mehr so schwerwiegend. Trotzdem ist der Wortspeicher noch klein genug. Ein Wort nimmt nun 2 mm2 ein, und der gesamte Wortspeicher ist 64X64 mm groß.
Die Ablenkschaltung 82 bewirkt, daß das Bild der Bildwandlerröhre über die zweiunddreißig Wortzeilen im Wortspeicher geführt wird. Schaltungsanordnungen dazu sind aus der Fernsehtechnik bekannt.
Eine Kondensorlinse 85 sitzt direkt hinter dem Wortspeicher 84 und nimmt das durch diesen hindurchfallende Licht auf. Die Brennweite dieser Linse und der Abstand der Teile sind so gewählt, daß das von der Sammellinse 83 gelieferte Bild auf die Photokathode einer Photoelektronenvervielfacherröhre 86 gelangt. Auf diese Weise wird erreicht, daß sich der Lichtfleck auf der Photokathode nur in seiner Helligkeit ändert und sich nicht bewegt, wenn der Wortspeicher abgetastet wird. Mit dieser Anordnung werden Fehler des Ausgangssignals der Photoelektronenvervielfacherröhre vermieden, die auf örtliche Ungleichmäßigkeiten der Empfindlichkeit der Photokathode zurückzuführen sind. Die Photoelektronenvervielfacherröhre wird so gewählt, daß sich mit dem Licht vom Bildschirm der Bildwandlerröhre ein maximales Signalstörverhältnis ergibt und daß sie die große Bandbreite verarbeiten kann, die sich aus der schnellen Abtastung des Wortspeichers ergibt.
Die Spannung an der Dynode der Photoelektronenvervielfacherröhre ist so eingestellt, daß sich im Betrieb kein größerer Anodenstrom als 200 Mikroampere ergibt. Bei diesem kleinen Anodenstrom ergeben sich sehr stabile Betriebsverhältnisse. Der Aaodenarbeitswiderstand der Photoelektronenvervielfacherröhre wird so gewählt, daß sein Wert klein gegenüber dem. schädlichen kapazitiven Scheinwiderstand im Anodenstromkreis bei maximaler Frequenz ist. Bei einer Frequenz von einem MHz und bei einer PhotoelektronenvervieIfacherröhre Typ 6342A" die auf einen Kathodenverstärker arbeitet, ergibt sich ein Wert des Anodenarbeitswiderstandes von 3900 Ohni.
Das Ausgangssignal der Photoelektronenvervielfacherröhre gelangt auf eÜien linearen Verstärker 87, der das Signal so verstärkt, daß es weiterverarbeitet werden kann. Das Signal vom Verstärker 87 wird auf eine Schwellwertschaltung 88 gegeben, die eine schnell wirkende getastete Festhalteschaltung und eine genau eingestellte Begrenzungsschaltung enthält> so daß sich ein Signalpegel, ergibt, der eine Aussage über die gewünschte Wahrscheinlichkeit der übereinstimmung zwischen dein unbekannten Wort und einem Wort iin Wortspeicher ennöglicht. Dieser Pegel kann durch Verändern der Vorspannung des Begrenzers eingestellt werden. Die von der Begrenzungsschaltung gelieferten Erkennungssignale werden in der Schwellwertschaltung weiter verstärkt, begrenzt und differenziert, derart, daß clie- Impulsen einem konstante Breite und eine konstante Ampjitude aufweisen. Die Signale gelangen dann auf den Wortwähler 89. Der Wortwähler 89 dient zur Bestimmung, welches der Wörter im Wortspeicher erkannt wurde. Er enthält eine Quantisierstufe 90, die mit der Ablenkschaltung 82 verbunden ist, und er ist so ausgelegt, daß er die Signale, die die augenblickliche Lage des unbekannten Sprachmusters repräsentieren, bei jedem Ablenkvorgang in zweiunddreißig diskrete Schritte quantisient. Die Quantisierstufe erzeugt Steuerimpulse für jeden dieser Schritte. Der Wärt:wähler enthält außerdem eine Matrix,aus 32 - 32 UND-SchaItungen. Jede UND-Schaltung 91 hat drei Eingänge. Die Steuerimpulse des einen Satzes, werden auf die Zeilen und die des anderen Satzes auf die Spalten, der Matrix gegeben. Der Erkennungsimpuls von der Schwellwertschaltung. gelangt auf alle UND-Schaltungen, gleichzeitig, es kann jedoch keine, UND-Schaltung öffnen, wenn nicht gleichzeitig Zeilen- und Spaltenimpulse anliegen.
Die UND-Schaltungen 91 liegen an den Kreuzungspunkten. Die Ausgänge der UND-Schaltungen 91 führen über Leitungen, die, bei 93 angedeutet sind, zu einer Wortanzeigevorrichtung 92, in der jedem Wort eine Lampe zugeordnet ist, die dann aufleuchtet, wenn die zugeordnete UND-Schaltung öffnet,. beispielsweise über nicht gezeigte Relais- Die Relais können Kontakte aufweisen, die AusgangsIeitungen 94 anschalten, die zu einem Drucker,. Lochstanzer, Feriischreiber oder zu einem sonstigen Ausgabe- bzw. Verarbeitungsgerät führen, Nachfolgend wird nun noch die Wirkungsweise der Anordnung zur schritthaltenden Spracherkennung im Zusammenhang beschrieben, Das NF-Signal vom Mikrophon oder von einem anderen Eingabegerät wird dauernd auf dem Magnetband 38 mittels des Aufzeichnungskopfes 37 aufgenom, mzn-. Das Band bildet,. angetrieben von einer stetig umlaufenden Rolle 40, eine freie Schleife 44, von der es, intermittierend von der intermittierend angeüiebenen, Rolle 47 abgezogen und dem Abtastkopf 45 mit doppelter Geschwindigkeit zugeführt wird. 2-Sekunden-Intervalle der aufgenommenen Sprache werden- auf diese Weise vom- Abitastkopf 45 abgelesen und nach Verstärkung durch den Verstärker 54 auf den Spektralanalygator 56 gegeben, nÜt dem verschiedene Frequenzbänder aus dem Signal ausgesiebt werden, die anschließend mit den Gleichrichtern 59 gleichgerichtet werden und über die Tiefpässe 60 zum Verteiler 61 gelangen. Auf diese Weise gelangen Signale aus jedem Frequenzband, die der augenblicklichen Amplitude entsprechen, auf den Verteiler.
Der Verteiler, gesteuert vom Impulsgenerator 62 und vom Zähler 63, verteilt die Amplituden der einzelnen Frequerizbänder nacheinander mit einer Ge- schwindigkeit von 2200 Punkten in der Sekunde und gibt diese Werte an einen logarithinischen Verstärker 64 weiter, in dem jeder Wert in den Logarithmus des Eingangswerteg umgewandelt wird-.
Die Addiergchalt-ung 71, gesteuert vom Treppenspannungsgenerator 72 und- dein Zähl-er 63- addiert einen Spannunggsehritt bei der Verteilung jedes weiteren Frequembandes, so daß das Signal, das auf die elektronisch-optische Auswerteeinrichtung gelangt, Spannungssehritte aufweist, wobei dier Amplituden jedes Freqgenzbarides in einem anderen Schritt liegen.
Das treppenförmige Aniplitudenzeitsignal wird dann auf die vertikale Ablenkschaltung 73- der Speicherröhre 74 (F i g. 13) gegeben, deren horizontale Ablenkung synchron mit der Verteilung der Werte eines Frequenzbandeg erfolgt, so daß ein Bild der Aniplitudemeitdiagrämme der 2-Sekunden-Intervalle auf dem Bildschirm der- Speicherröhre erscheint.
Der Spiegel 75 richtet das Bild auf die Verzerrungslinse 76, deren horizontale Vergrößerung sich stetig ändert. Die Sammellinse 77 wirft dieses sich dauernd ändernde Bild auf die Photokathode der Bildwandlerröhre 78, die, gesteuert von der- Ablenkschaltung 82, bewirkt daß das Bild von der, Bildwairdlerröhre, das auf den Wortspeicher 84 gerichtet ist, dieseit vollständig abtastet. Das Bild gleitet über jede Zeile des Wortspeichers zehnmal in der Sekunde, und bei je- dem Durchlauf hat sich die horizontale Größe um 3 O/o geändert.
Wenn das unbekannte Muster über die Muster im Wortspeicher- gleitet, fällt das Licht von der Bildwandlerröhre nacheinander durch jedes Wort hindurch und gelangt auf den Photoclektronenvervielfacher 96. Wenn die Lichtmeilge einen vorgegebenen Wahrscheinlichkeitspegel erreicht, der angibt, daß das Wort, welches das Bild- hervorruft, dem in diesem Augenblick abgetasteten Wort im Wartspeicher gleich ist, wobei diese Tatsache von der Schwellwertschaltung 99 erkannt wird, dann öffnet die diesem Wort zugeordnete Torschaltung 91, da Zeilen# und Spaltenleitung gleichzeitig erregt sind-, und dieses Tor öffnet und gibt einen Impuls zur Wärtanzeigevorrichtung 92, so, daß das Wort erkennbar ist. Gleichzeitig gelangt ein diesem Wort zugeordnetes Signal über eine Leitung 94 zu einem anderen Ausgabegerät, z. A einem Drucker.
Die Durchsuchung des gesarnten Wortspeichers bei der Erkennung der Wörter des 2-Sekunden-Intervalls dauert 1 Sekunde. Während der 1 Sekunde, die man zum Abtasten des 2-Sekunden-Intervalls vom Band benötigt, und während der zweiten Sekunde, während der der Suchvorgang stattfindet, wird ein weiteres 2-Sekunden-Intervall auf dem Band aufgezeichnet, so daß unmittelbar nach dem Endg des Suchvorganges das nächste 2--Sekunden-Intervall verarbeitet werden kann. Es kann vorkommen, daß die Trennstelle zwischen zwei aufeinanderfolgenden 2-Sekunden-Intervallen in der Mitte eines Wortes oder einer Silbe auftritt, so daß ein Wort am Anfang oder am Ende eines Intervalls verlorengeht. Um dies zu vermeiden, können zwei Bandgeräte vorgesehen werden, von denen jedes ein 2-Sekunden-Intervall aufnimmt. Die Bandgeräte müssen nur so zusammengeschaltet werden, daß sich die 2-Sekunden-Intervalle gegenseitig überlappen. Jedem Bandgerät sind ein Spektralanalysator und eine elektronisch-optische Auswerteeinrichtung zugeordnet, und ein Wort, das von der einen Einrichtung nicht erkannt werden kann, weil es fehlt, wird von der anderen Einrichtung verarbeitet.
Die Schwellwertschaltung 88 gibt dann ein Signal ab, wenn die Lichtinenge einen vorgegebenen Wert überschreitet. Kurze Wörter Wie »why« und »aisle«, sind beide in dem einzelnen Wort »while« enthalten. Um zu verhindern, daß solche kürzeren Wörter falsch erkannt werden, wenn sie in einem anderen Wort enthalten sind, ist derWortspeicher so programmiert, daß die längeren und komplizierter aufgebauten Wörter zuerst abgetastet werden. Sobald eine Erkennung erfolgt ist wird eine Sperrspannung im Wortwähler erzeugt, um zu verhindern, daß weitere Erkennungen auf Grund nachfolgender kürzerer Wörter erfolgen, die in dem Wort enthalten sind, das das Erkennungssignal erzeugte. Die Sperrspannung bleibt so lange aufrechterhalten, bis das nächste Muster auf der Bildwandlerröhre erscheint.

Claims

Patentansprüche: 1. Verfahren zur Spracherkennung durch Vergleichen der aus dem zu erkennenden Wort gewonnenen Information mit gespeicherten Informationen, bei dem alle zu erkennenden Worte auf einem photographischen Aufzeichnungsträger aufgezeichnet werden, wozu die in Frequenzbänder aufgeteilten Spektrogramme der Wörter als Amplituden-Zeit-Diagramme dargestellt werden, d adurch gekennzeichnet, daß die Amplituden-Zeit-Diagramme des Vergleichsspeichers wortweise mitMasken mit vertikalen Schlitzen abgedeckt werden, welche die Unterscheidungskriterien der Wortinformationen frei lassen, und daß danach zur Erkennung des Wortes mehrmals ein optischer Deckungsvergleich des aus dem zu erkennenden Wort gewonnenen Frequenzspektrums mit allen Wörtern im Wortspeicher vorgenonirnen wird, wobei der Zeitmaßstab des Frequenzspektrogramms des zu erkennenden Wortes bei jedem Abfragen des Vergleichsspeichers ge- ändert wird, und daß gleichzeitig mit dem Vergleichsspeicher ein anderer matrixförmiger Speicher abgefragt wird, in dem beim Eintreffen des Erkennungskriteriums der dem zu erkennenden Wort zugeordnete Kreuzungspunkt markiert und dadurch die Ausgabe des erkannten Wortes bewirkt wird. 2. Verfahren nach Ansprach 1, dadurch gekennzeichnet, daß.die zu erkennenden Werte über ein als Zeitraffer wirkendes magnetomotorisches Speichermittel eingegeben werden, auf das sie zeitrichtig aufgezeichnet und von dem sie schneller abgefühlt werden. 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Summe der Flächen aller Schlitze und aller Masken so festgelegt ist, daß sich beim erfolgreichen Deckungsvergleich für jedes Wort die gleiche Lichtmenge ergibt. 4. Verfahren nach den Ansprüchen 2 und 3, dadurch gekennzeichnet, daß zur Herstellung eines Vergleichswortmusters eines bestimmten Wortes von einer Anzahl Sprecher Spektrogramme dieses Wortes aufgenommen werden und daß diese je Frequenzbereich so ausgewertet werden, daß das Vergleichswortmuster Bereiche unterschiedlicher Wahrscheinlichkeit enthält. 5. Verfahren nach den Ansprüchen 2 bis 4, dadurch gekennzeichnet, daß bei der Vergleichswortmusterbildung die Schlitzzahl der Maske je Zeiteinheit für jedes Wort proportional dem Informationsgehalt festgelegt wird. 6. Anordnung zur Durchführung des Verfahrens nach den Ansprüchen 1 bis 5, dadurch gekennzeichnet, daß das Magnetband (38) am Aufzeichnungskopf (37) kontinuierlich und am Abtastkopf (45) intermittierend vorbeibewegt wird, wobei die Abtastung in einem Bruchteil der Aufnahmezeit erfolgt, und daß die abgetasteten Signale parallel auf eine Anzahl Bandpässe (58) gegeben werden, denen je Gleichrichter (59) und Tiefpässe (60) nachgeschaltet sind, deren Ausgangssignale auf einen Verteiler (61) gelangen, der diese zyklisch abtastet und an eine Speicherröhre (74) weitergibt, derart, daß auf deren Bildschirin ein Spektrogramm des unbekannten Wortes erscheint und daß dieses Bild durch eine stetig veränderliche Verzerrungslinse (76), deren Vergrößerung in einer Koordinatenrichtung zwischen vorgegebenen Grenzwerten während des Vergleichsvorganges geändert wird, auf eine Bildwandlerröhre (78) geworfen wird, deren Ausgangsbild so gesteuert wird, daß es nacheinander auf sämtliche Vergleichsmuster im Wortspeicher (84) und von da auf eine Photoelektronenvervielfacherröhre (86) gelangt, der eine auf eine bestimmte Lichtmenge ansprechende Schwelle (88) nachgeschaltet ist, die eine parallel mit der Bildwandlerröhre (78) gesteuerte Wortauswahlmatrix (89) markiert. 7. Verfahren nach den Ansprüchen 1 bis 5, dadurch gekennzeichnet, daß zur Vermeidung von Worttrennungen zwei Anordnungen nach Anspruch 5 vorgesehen sind, bei denen sich die Abtastzeiten der beiden Magnetbänder überlappen, so daß ein vom Abtastkopf der einen Anordnung nicht vollständig abgenommenes Wort vom Abtastkopf der anderen Anordnung vollständig abgenommen wird. 8. Verfahren nach Anspruch 1 oder 5, dadurch gekennzeichnet, daß zur sicheren Erkennung von kurzen Wörtern, deren Spektrogramme in den Spektrogrammen anderer längerer Wörter enthalten sind, die längeren Wörter zuerst verarbeitet werden und daß eine Verriegelungsschaltung vorgesehen ist, die eine mehrfache Erkennung des gleichen Spektrogramms während eines vollständigen Vergleichsvorganges verhindert. 9. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß zwischen Verteiler (61) und Speicherröhre (74) ein logarithmischer Verstärker (64) geschaltet ist, der eine Elektronenstrahlröhre und eine vor deren Bildschirm angeordnete Photoelektronenvervielfacherröhre (70) enthält, und daß der Bildschirm der Elektronenstrahlröhre teilweise mit einer logarithmisch geformten Maske abgedeckt ist und daß Elektronenstrahlröhre und Photoelektronenvervielfacherröhre durch eine Regelschaltung miteinander verbunden sind, die so wirkt, daß sich der Bildpunkt der Elektronenstrahlröhre am Rand des abgedeckten Bereichs bewegt, wobei an der Photoelektronenvervielfacherröhre der Logarithmus des auf die Elektronenstrahlröhre gelangenden Eingangssignals abgenommen werden kann. In Betracht gezogene Druckschriften: Artikel von H. F. 0 1 s o n und H. B e 1 a v: »Printout System for the Automatic Recording of the Spectral Analysis of Spoken Syllabes«, Journal of Acoustical Society of America, Vol. 34, No.
2, Februar 1962, S. 166 fl.; Artikel von F. Vilbig und K. H. Haase- »über einige Systeme zur Sprachkompensation«, Nachrichtentechnische Zeitschrift, 1956, Heft 3, S. 81 ff.