-
Verfahren und Schaltungsanordnung zur Spracherkennung Die Erfindung
bezieht sich auf ein Verfahren zur Spracherkennung durch Vergleichen der aus dem
zu erkennenden Wort gewonnenen Information mit gespeicherten Informationen, bei
dem alle zu erkennendenWorte auf einem photographischenAufzeichnungsträger wafgezeichnet
werden, wozu die in Frequenzbänder aufgeteilten Spektrogram.me der Wörter als Aniplituden-Zeit-Diagramme
dargestellt werden.
-
Verfahren zur Spracherkennung werden in der Akustik und bei der Datenverarbeitung
benötigt. Ein zuverlässiges Gerät zur Spracherkennung, das einen großen Wortschatz
verarbeiten kann und das außerdem unempfindlich für die unvermeidlichen Schwankungen
der Sprache, die sich bei wechselnden Sprechern ergeben, ist, kann als Eingabegerät
für eine Schreibmaschine verwendet werden, mit der dann die Sprache direkt geschrieben
werden kann.
-
Es sind bereits eine große Anzahl von Verfahren zur Spracherkennung
bekanntgeworden, von denen im Zusammenhang mit der Erfindung nur ein kleiner Teil
von Interesse ist. Man unterscheidet Verfahren, die Merkmale, Phoneme oder Wörter
erkennen. Die Erfindung betrifft das letztgenannte Verfahren. Es sind Worterkennungsverfahren
bekannt, mit denen es möglich ist, das beim Erkennungsgerät einlaufende Sprachsignal
mit eingebauten Signalprototypen zu vergleichen, die als repräsentativ für das betreffende
Wort angesehen werden. Die Erfindung geht von diesem allgemeinen Gedanken aus. Mit
der Erfindun,- soll ein Verfahren angegeben werden, mit dem gesprochene Wörter unabhängig
von den individuellen Eigenschaften des Sprechers oder der Sprechgeschwindigkeit
erkannt werden können. Es ist ebenfalls bekannt, Sprache visuell erkennbar darzustellen
(visible-speech-Diagramm) und aus den Diagrammen der einzelnen Worte die typischen
Merkmale der Worte zu gewinnen. Diese visible-speech-Diagramme finden bei der Erfindung
Verwendung.
-
Die Erfindung ist dadurch gekennzeichnet, daß die Amplituden-Zeit-Dia,o"ramme
des Vergleichsspeichers wortweise mit Masken mit vertikalen Schlitzen abgedeckt
werden, welche die Unterscheidungskriterien der Wortinformationen frei lassen, und
daß danach zur Erkennung des Wortes mehrmals ein optischer Deckungsvergleich des
aus dem zu erkennenden Wort gewonnenen Frequenzspektrums mit allen Wörtern im Wortspeicher
vorgenommen wird, wobei der Zeitmaßstab des Frequenzspektogramms des zu erkennenden
Wortes bei jedem Abfragen des Vergleichsspeichers geändert wird, und daß gleichzeitig
mit dem Vergleichsspeicher ein anderer matrixförmicer Speicher abgefragt wird, in
dem beim Eintreffen des Erkennungskriteriums der dem zu erkennenden Wort zugeordnete
Kreuzungspunkt markiert und dadurch die Ausgabe des erkannten Wortes bewirkt wird.
-
Mit dem Verfahren gemäß der Erfindung ist - unabhängig von
der Sprechgeschwindigkeit - eine sichere Erkennung der gesprochenen Wörter
möglich, da die-zu erkennenden Wörter mehrmals mit den gespeicherten Wörtern verglichen
werden, wobei bei jedem Vergleich der Zeitmaßstab der zu erkennenden Wörter anders
ist. Diesen und andere Vorteile weisen die bekannten Verfahren zur Spracherkennung
nicht auf.
-
Die Erfindung wird nun an Hand der Figuren beispielsweise erläutert.
Es zeigt Fig. la, lb und le je ein Amplituden-Zeit-Svek-tro-ramm eines Satzes,
der von drei verschiedenen Spr'echern gesprochen wurde,
F i
g. 2 die Amplituden-Zeit-Diagramme eines Frequenzbereichs eines Wortes aus
den Spektrogrammen nach den Fi g. 1 a, 1 b und 1 c, F i
g. 3 ein genormtes Amplituden-Zeit-Diagramm, das aus der F i g. 2
abgeleitet wurde, F i g. 4 die Abweichungen der Kurven nach F i
g. 2 von der Normkurve, F i g. 5 den Amplitudenbereich im selben Frequenzbereich
wie die F i g. 2 bis 4, in den die Amplituden aller Sprecher wahrscheinlich
fallen, F i g. 6 verschiedene Bereiche mit unterschiedlicher Wahrscheinlichkeit,
ein sogenanntes Wahrscheinlichkeitsmuster, F i g. 7 das mit einer Maske abgedeckte
Wahrscheinlichkeitsmuster nach F i g. 6,
F i g. 8 das Muster nach F
i g. 7, derart mit einer Maske versehen, daß sich mit Gewichten versehene
Abtastpunkte ergeben, F i g. 9 a, 10 a und 1 la Spektrogramme
ohne und F i g. 9 b, 10 b und 11 b Spektrogramme mit Masken
je für dieselben Wörter, F i g. 12 ein Blockschaltbild eines Teils
der Spracherkennungseinrichtung, F i g. 13 ein Blockschaltbild eines anderen
Teils der Spracherkennungseinrichtung, Fig. 14 ein Blockschaltbild eines logarithmischen
Verstärkers.
-
Eine Möglichkeit zur Erkennung gesprochener Wörter besteht darin,
daß ein Wortspeicher mit Wortspektrogrammen vorgesehen wird, daß außerdem ein Spektrogramm
des unbekannten Wortes aufgenommen wird und daß das unbekannte Wort mit allen Wörtern
ün Wortspeicher so lange verglichen wird, bis eine übereinstimmung gefunden ist.
Eine der Schwierigkeiten, die sich bei einer solchen Spracherkennungseinrichtung
ergibt, besteht darin, daß man genügend Zeit für den Vergleichsvorgang vorsehen
muß. Eine weitere Schwierigkeit besteht darin, die Spracherkennungseinrichtung an
die unterschiedlichen Sprechgeschwindigkeiten desselben oder verschiedener Sprecher
anzupassen. Schwieriger ist es, die Einricht#mg so auszulegen, daß sie Wörter von
Sprechern erkennen kann, die aus verschiedenen Teilen desselben Landes kommen und
die Wörter mit unterschiedlicher Betonung und Aussprache sprechen.
-
Die drei angedeuteten Schwierigkeiten können mit der Anordnung gemäß
der Erfindung bewältigt werden.
-
Der Wortspeicher enthält Muster aller vorgesehenen Wörter. Die Muster
werden aus Spektrogrammen einer bestimmten Anzahl verschiedener Sprecher mit unterschiedlichen.
Sprecheigenschaften gewonnen, wobei jeder Sprecher alle Wörter des Wortspeichers
ausspricht.
-
Bestimmte Zeitabschnitte des zu erkennenden Textes werden in Amplituden-Zeit-Spektrogramme
übertragen, die dann mit sehr hoher Geschwindigkeit mit den Vergleichsmustern im
Wortspeicher verglichen werden, wobei nach dem ähnlichsten Muster gesucht wird.
Um eine Anpassung an die unterschiedlichen Sprechgeschwindigkeiten verschiedener
Sprecher oder des gleichen Sprechers zu verschiedenen Zeiten zu ermöglichen, wird
die Länge des unbekannten Amplituden-Zeit-Spektrogramms während des Vergleichs zwischen
vorgegebenen Grenzwerten geändert, so daß jedes Wort des Wortspeichers mehrmals
mit dem unbekannten Spektrogramm verglichen wird, wobei bei jedem Vergleich das
unbekannte Spektrogramm. eine andere Länge hat.
-
Im Wortspeicher ist ein Spektrogramm für jedes Wort vorgesehen. Dieses
Spektrogramm wird so gebildet, daß es alle möglichen Sprachunterschiede verschiedener
Sprecher, die die Einrichtung verarbeiten soll, enthält.
-
Die Spektrogramme und die Art und Weise, wie sie gebildet werden,
wird nun zuerst beschrieben.
-
In den F i g. 1 a, 1 b und 1 c sind drei Gruppen
1, 2 und 3 des Amplituden-Zeit-Spektrogramms des Satzes
»l can see it« gezeigt. Diese Spektrogramme sind an sich bekannt. Sie stammen
von drei Sprechern aus drei verschiedenen Teilen eines Landes, wobei jeder Sprecher
eine unterschiedliche Betonung hat. Jedes Spektrogramm besteht aus einer Gruppe
von Amplituden-Zeit-Diagrammen, von denen jedes die Amplitude in einem von zehn
verschiedenen Frequenzbändem darstellt. Die Bandmittenfrequenzen dieser Bänder sind
181, 256, 362, 512, 724, 1024, 1448, 2048, 2895 und 4096 Hz. Jedes
Band hat eine Bandbreite von ± 7,5% der Bandmittenfrequenz. Es hat sich gezeigt,
daß diese Frequenzbänder günstig sind, es können jedoch auch weniger oder mehr Bänder
mit anderen Frequenzen gewählt werden. Diese Amplituden-Zeit-Diagramme gewinnt man,
indem man die Amplitude des Sprachsignals bei jeder bestimmten Frequenz mißt und
sie über der Zeit aufträgt. Aus den Figuren ist ersichtlich, daß die Amplituden-Zeit-Spektrogramme
geringfügig wegen der unterschiedlichen Sprecheigenschaften der einzelnen Sprecher
voneinander abweichen.
-
Solche Amplituden-Zeit-Diagramme werden von einer großen Anzahl, z.
B. hundert Sprechern für jedes Wort aufgenommen. Der nächste Schritt zur Herstellung
der Vergleichsmuster besteht darin, daß aus jedem Satz Amplituden-Zeit-Diagramme
der hundert verschiedenen Sprecher ein einziges Muster für jedes Frequenzband gewonnen
wird. Das einzelne Muster wird so gewählt, daß es die hundert Muster einschließt.
Dazu gelangt man, wenn man je Frequenzband und je Sprecher die Amplituden
aufzeichnet. In der F i g. 2 ist ein Amplituden-Zeit-Diagramm 3
im
724-11z-Band des einzelnen Wortes »I« aufgezeichnet, das vom Sprecher
1 von F i g. 1 herrührt. Die horizontale Linie 4 bedeutet die Zeitachse.
Zum Zeichnen der Kurve wurden siebzehn einzelne Kurvenpunkte verwendet. Es hat sich
gezeigt, daß diese Anzahl für die Genauigkeit ausreicht.
-
Es wird also ein derartiges Amplituden-Zeit-Diagramm für jedes Frequenzband
aufgezeichnet, das dann ein Maß für die Energie des einzelnen Wortes ist. Auf diese
Weise bildet man eine Familie von Amplituden-Zeit-Diagrammen des einzelnen Wortes.
Auf ähnliche Weise werden ähnliche Familien von Amplituden-Zeit-Diagrammen für das
gleiche Wort gebildet, die die Spracheigenschaften verschiedener Sprecher enthalten.
-
Die F i g. 2 zeigt außerdem zwei andere Amplituden-Zeit-Diagramme
6 und 7 im gleichen Frequenzband für das gleiche Wort »I«, die von
zwei anderen Sprechern herrühren. Die Kurven der bestimmten Frequenz und des bestimmten
Wortes werden für alle Sprecher zusammengefaßt. In der Figur sind nur die drei Kurven
3, 6 und 7 gezeigt, um das Verfahren zu erläutern. Aus der F i
g. 2 ist ersichtlich, daß die größte Abweichung der Sprecheigenschaften der
verschiedenen Sprecher am Beginn des Wortes auftritt
und daß gegen
Ende des Wortes die Abweichung von Sprecher zu Sprecher abnimmt.
-
Der nächste Schritt ist die Bestimmung einer theoretischen Normkurve,
deren einzelne Punkte sich aus den durchschnittlichen Amplituden jeweils zu den
gleichen Zeitpunkten ergeben. Eine Norinkurve für 724 Hz ist bei 8 in F i
g. 3 gezeigt.
-
Die F i g. 4 enthält eine Kurve 9, die die Normabweichung
a von der Normkurve 8 nach F i g. 3 und den anderen Kurven
zeigt. Jeder Punkt der Kurve ist gleich der Quadratwurzel der Summe der Quadrate
der Differenz zwischen jeder Kurve und der Normkurve geteilt durch die Anzahl der
Kurven. Verbindet man die Normabweichung 9 und die Normkurve 8,
indem
man die Norinabweichung an jedem Punkt zu der Normkurve addiert bzw. von dieser
abzieht, so ergibt sich eine Fläche, innerhalb der mit einer Wahrscheinlichkeit
von 68 % ein Wortelement gefunden wird, wenn das entsprechende Wort gesprochen
wird. Dieser Bereich ist für das 724-Hz-Band mit 10 in F i g. 5 bezeichnet.
-
Ein auf diese Weise aufgenommenes Muster hat den- Nachteil, daß der
Aufnahmebereich fest und relativ beliebig breit ist und daß er keine weiter gehenden
Änderungen der Sprecheigenschaften verarbeiten kann, wie bei der Aufnahme der Muster
gegeben waren. Um diesen Nachteil zu vermeiden, ist die Möglichkeit vorgesehen,
daß, abhängig von der Zeit, eine beliebige Amplitude auftreten kann. Dazu wird eine
photometrische Größe vorgesehen, die stetig oder in kleinen Schnitten geändert werden
kann. In der F i g. 6 ist das Muster nach F i g. 5 so geändert, daß
man die Bereiche verschiedener Wahrscheinlichkeit eines bestimmten Musters erkennt.
Der Bereich 1 in der Mitte des Musterfeldes ist der Bereich, in den das Amplituden-Zeit-Diagranim
mit großer Wahrscheinlichkeit fällt. Dieser Bereich kommt der Normkurve am nächsten.
-
Neben dem Bereich 11, darunter und darüber sind Bereiche 12,
in die das Amplituden-Zeit-Diagramm der Wahrscheinlichkeit nach fällt, wenn es nicht
in den Bereich 11 fällt. Die Bereiche 13, 14 und 15 treten
nach den Gesetzen der Wahrscheinlichkeit entsprechend seltener auf. Diese Bereiche
werden nun auf einem durchscheinenden Aufzeichnungsträger 16
aufgebracht.
Der Mittelbereich 11 ist voll durchscheinend. Der Grad der Lichtdurchlässigkeit
nimmt von Bereich zu Bereich auf 0,89, 0,61, 0,33 und 0,14 ab.
-
Eine Quantisierung der wahrscheinlichen Bereiche wurde in F i
g. 6 gezeigt, um die Bereiche verschiedener Wahrscheinlichkeit zu zeigen.
Es ist jedoch vorteilhafter, das quantisierte Muster durch eines zu ersetzen, bei
dem sich die Wahrscheinlichkeit stetig mit der vertikalen Koordinate ändert. Findet
man, daß die Verteilung der Abweichung nicht mit der angenommenen Verteilung übereinstimmt,
dann kann man experimentell abgewandelte Kurven bilden, die die Abweichungen bei
den einzelnen Frequenzen enthalten.
-
Diese Muster, die eine analoge Darstellung der Ähnlichkeitsfunktion
sind, nennt man »L«-Muster. Projiziert man nun das unbekannte Amplituden-Zeit-Muster
als erleuchtete Linie auf den durchscheinenden Aufzeichnungsträger mit dem »L«-Muster,
wobei man darauf achten muß, daß die Lichtmenge bei jedem Punkt des Musters konstant
ist, dann ist die gesamte Lichtmenge, die durch jeden Punkt hindurchgeht, das Produkt
der Lichtmenge durch das Vergleichsmuster und des unbekannten Musters. Mißt man
die Lichtmenge getrennt an jedem Punkt mittels eines linearen photoelektrischen
Wandlers und multipliziert man die Ausgänge miteinander, so ergibt sich ein Wert,
der, rückwirkend betrachtet, die Wahrscheinlichkeit darstellt, daß die unbekannte
Kurve durch das Wort hervorgerufen wurde, das dem Vergleichsmuster entspricht. Der
beschriebene Weg hat gewisse Schwierigkeiten, da man die Produkte entweder ans aufeinanderfolgenden
Meßwerten von allen Punkten oder durch gleichzeitiges Erfassen aller Meßwerte einer
Anzahl unabhängiger photometrischer Kanäle gewinnt. Deshalb wird das Produkt in
einem Arbeitsgang mit einem Photoelektronen-Vervielfacher erfaßt. Dazu bildet man
die »L«-Muster so aus, daß sie die Logarithmen der Ähnlichkeitsfunktionen darstellen.
Die Durchlässigkeit des Musters hat den Maximalwert 1 entlang der Norinkurve
und nimmt oberhalb und unterhalb dieser Kurve proportional dem Logarithmus der Ähnlichkeit
einer entsprechenden Abweichung ab. Wird nun die unbekannte Kurve auf das logarithnüsche»L«-Muster
projiziert, wobei wiederum eine konstante Lichtmenge je Wert bzw. Abtastintervall
verwendet wird, dann kann das das Licht messende Instrument so eingestellt werden,
-daß es die Wahrscheinlichkeit direkt liefert.
-
Die Anzahl der Abweichungswerte, die man entlang der Kurve betrachtet,
kann beliebig gewählt werden. Man kann z. B. die doppelte Bandbreite der Analysierschaltung
verwenden und diese mit der zeitlichen Länge des Wortes multiplizieren. Diese Werte
(Quantisierungspunkte) können gleichmäßig auf die der halben Bandbreite der Analysierungsschaltung
entsprechende Anzahl Sekunden verteilt werden. Bei dem Amplituden-Zeit-Diagranun
nach F i g. 2 war die Abtastgeschwindigkeit etwa 80 Quantisierungspunkte
pro Sekunde.
-
Es hat sich gezeigt, daß man wesentlich bessere Ergebnisse erhält,
wenn man die Quantisierungsgeschwindigkeit sehr sorgfältig wählt und im günstigsten
Falle sogar entsprechend dem Eingabesignal variiert. Eine Quantisierungsgeschwindigkeit,
die für schnell ansteigende und abfallende übergänge gewählt ist, ergibt eine große
Redundanz, wenn sie bei langsam veränderlichen Tönen mit einfacher spektraler Zusammensetzung,
wie z. B. Vokalen, verwendet wird.
-
Ein einfacher Weg, zu der gewünschten veränderlichen Quantisierung
zu gelangen, besteht darin, daß man eine Maske für jedes Muster vorsieht, die über
das entsprechende Muster gelegt wird, so daß eine Folge vertikaler Streifen an den
gewünschten Abtastpunkten unbedeckt bleibt und der Rest des Musters bedeckt wird.
Dadurch erreicht man ein für jedes Wort spezielles optimales Quantisierungsprogramm,
ohne daß eine Erkennung des Wortes vorausgehen muß. Bei einem auf diese Weise mit
einer Maske abgedeckten »L«-Muster ist es möglich, der veränderlichen Redundanz
dadurch Rechnung zu tragen, daß man die Abstände der Quantisierungspunkte entsprechend
ändert. F-in Beispiel eines mit einer Maske abgedeckten »L«-Musters ist in F i
g. 7 gezeigt, in der die Quantisierungsstreifen 17 durch Abstände
18
getrennt sind. Der Abstand der Quantisierungsstreifen ist umgekehrt proportional
dem Informations-Cr gehalt in verschiedenen Abschnitten des Musters gewählt. Eine
optimale Quantisierung für ein Amplituden
-Zeit-Diagramm ist jedoch
nicht unbedingt optimal für die entsprechende Worterkennung, und zwar deshalb, weil
die Amplituden-Zeit-Diagramme Informationen enthalten, die auf die Eigenschaften
des Sprechers und das Wort zurückgehen. Es ist durchaus möglich, daß mit einem veränderlichen
Quantisierungsabstand mehr die typischen Sprachübergänge des Sprechers betont werden
als diejenigen des Wortes. F i g. 7 zeigt ein Beispiel dafür: Wie oben erwähnt
wurde, ist die Variationsbreite der Eigenschaften der Sprecher im ersten Teil der
Kurve enthalten, während die hinteren, genauer definierten Teile der Kurve das Wort
kennzeichnen und nahezu unabhängig von den einzelnen Sprechern sind. Eine hohe Quantisierungsgeschwindigkeit
am Anfang führt deshalb dazu, daß die Worteigenschaften verwaschen werden. Dies
ist aber unerwünscht. Die Anpassung der Quantisierungsgeschwindigkeit führt nicht
immer zu einer solchen unerwünschten Verschiebung der Betonung. Eine hohe Quantisierungsdichte
im ersten Teil des Wortes »tea«, die durch den Anfangskonsonant hervorgerufen wird,
ist erforderlich. In diesem Falle ergibt die hohe Quantisierungsdichte eine Wortbetonung,
die bei der Unterscheidung gleichlautender Wörter, wie z. B. »pea«, »free«, »me«
usw., nützlich ist. Der Quantisierungsvorgang wird deshalb so abgewandelt, daß die
Betonung der Wortteile, die einen unwesentlichen Informationsgehalt haben, vermieden
wird.
-
Das Problem wird dadurch gelöst, daß die einzelnen Quantisierungen
entsprechend ihrer Bedeutung für die Worterkennung mit Gewichten versehen werden.
Ein möglicher Weg zur Bestimmung dieser Bedeutung besteht darin, daß man einen Wert
nimmt, der der Normabweichung in jedem Quantisierungspunkt umgekehrt proportional
ist. Die Gewichte können dann als unterschiedliche Breite der Quantisierungsstreifen
dargestellt werden. Die derart abgewandelte Kurve nach F i g. 7 ist in F
i g. 8 gezeigt, in der die Quantisierungsstreifen 19 durch Zwischenräume
20 getrennt sind. Die Breite der Streifen wurde ermittelt, indem man eine Konstante
durch die Normabweichung teilte. Die Konstante kann frei gewählt werden. Besonders
günstig ist es jedoch, wenn man sie so wählt, daß die Gesamtbreite aller Quantisierungsstreifen
für alle Wörter des Wortspeichers gleich wird. Die Konstante ändert sich dann von
Wort zu Wort.
-
Dieses Verfahren, die Quantisierungsstreifen mit Gewichten zu versehen,
bewirkt, daß mit Sicherheit die maximale Lichtmenge, die durch das maskierte »L«-Muster
hindurchfällt, bei jeder Kurve des Wortspeichers der entsprechenden Kurve des zu
vergleichenden Wortes, wenn dieses Wort mit dem Vergleichswort identisch ist, für
alle Wörter gleich ist. Da die Wahrscheinlichkeitswerte als Verhältnis der beobachteten
Lichtmenge zur maximalen Lichtmenge gegeben sind, gestattet diese Norinierung eine
direkte und bequeme Messung des Logarithmus der Abweichung der unbekannten Kurve
von der Normkurve, und zwar mit Hilfe der Lichtmenge.
-
Dieses Verfahren zur Reduzierung der stark redundanten Abschnitte
mit Vokalen in den »L«-Mustern entspricht weitgehend der Technik, die geübte Sprecher
anwenden, wenn sie Konsonanten gegenüber den Vokalen stärker betonen und auf diese
Weise die Verständlichkeit normaler Sprache erhöhen.
-
Bei dem Erkennungsverfahren gemäß der Erfindung werden Entscheidungen
auf Grund von Wahrscheinlichkeitsprodukten gefällt, die sich während der Durchsuchung
eines großen Wortspeichers dauernd ändern. Um zuverlässige Entscheidungen zu erhalten
muß das Vergleichsmuster so ausgebildet sein, daß die Wahrscheinlichkeit, daß das
unbekannte Wort das gleiche wie das Vergleichswort ist, ein Maximum wird, wenn beide
gleich sind, und so, daß die Wahrscheinlichkeit ein Minimum wird, wenn die beiden
nicht gleich sind. Die erste Forderung wird mit dem bis jetzt beschriebenen Verfahren
erfüllt. Die zweite Forderung ist jedoch nicht unbedingt erfüllt. Da bei dem seitherigen
Verfahren nur die unbekannte Kurve und die Abweichung von der Nonnkurve betrachtet
wurde und da das Muster mit anderen Mustern im Wortspeicher verglichen wurde, kann
es vorkommen, daß die zweite Forderung nicht erfüllt ist. In den F i g. 9
a, 10 a und 11. a sind nicht abgedeckte Spektrogramme (keine »L«-Muster)
21, 22 und 23 der Worte »we«, »see« und »seat« gezeigt. Es ist ersichtlich,
daß, wenn die Muster 21 und 22 mit der gleichen Maske abgedeckt werden, wie in den
F i g. 9 b und 10 b bei 21' und 22' angedeutet, noch eine Unterscheidung
zwischen den Wörtern »we« und »see« möglich ist. Wird jedoch das Muster
23, das das Wort »seat« darstellt, auf die gleiche Weise (nicht dargestellt)
mit einer Maske abgedeckt, dann ist ersichtlich, daß die Wahrscheinlichkeit kein
Minimum ist und daß die Endkonsonanten nicht voneinander unterschieden werden, wodurch
eine falsche Aussage beinahe unvermeidbar ist. Daraus folgt, daß beim Betrieb mit
einer großen Anzahl von Wortmustern eine Auswahl zwischen verschiedenen möcIichen
Kurven getroffen werden muß, wobei eine Quantisierung mit hohem Inforinationsgehalt
sogar bei solchen Teilen des »L«-Musters erforderlich ist, die ursprünglich stark
redundant erschienen.
-
Um einen Satz von Vergleichsmustern zu erhalten, der Entscheidungen
mit hoher Zuverlässigkeit ge-
stattet, ist eine zusätzliche Korrektur des
Quantisierungsprogramms erforderlich, das die Analyse des vollständigen Wortschatzes
umfaßt. Diese letzte Korrektur kann wie folgt durchgeführt werden: Zuerst werden
sämtliche »L«-Muster entsprechend der gewünschten Wortanzahl hergestellt. Die Muster
sind mit abnehmbaren Masken versehen, wie oben im Zusammenhan- mit der Quantisierung
beschrieben wurde. Der auf diese Weise hergestellte Inhalt des Wortspeichers wird
photometrisch ausgewertet, um eine Aussage für die nachfolgende Erkennungswahrscheinlichkeit
zu erhalten, und die maximale Wahrscheinlichkeit für eine richtige Entscheidung
wird für jedes Wort erfaßt. Auf diese Weise kann die Wahrscheinlichkeit, daß bei
einem bestimmten Eingangssignal an jedem Quantisierungspunkt einer Kurve ein Signal
auftritt, beobachtet werden, und die Ergebnisse können in einer Matrix dargestellt
werden, wobei die Zeilen den Eingangssignalen und die Spalten den aufgetretenen
Signalen entsprechen.
-
Bei jedem Wortspeicher einer gewissen Größe wird es immer falsche
Reaktionen geben, wenn ein Wahrscheinlichkeitswert an einer Stelle auftritt, der
keiner sein sollte. Um dies zu vermeiden, ist es notwendig, jedes Paar von Mustern,
bei denen ein solcher falscher Wahrscheinlichkeitswert auftritt, genauer zu untersuchen,
um solche Bereiche zu finden, die am besten zur Unterscheidung der beiden Wörter
geeignet sind. Die Quantisierungsstreifen können dann neu
angeordnet
werden, um sicherzustellen, daß diese unterscheidungskräftigen Bereiche erfaßt werden.
Das Spektrogramm 23' in Fig. llb zeigt, wie d-e Quantisierungsstreifen nach
den obengenannten Gesichtspunkten verteilt werden können. Die drei letzten Quantisierungsstreifen
24, 25 und 26 des Spektro-Gramms 22' in F i g. 10 b des Wortes
» see« wurden in fünf engere Streifen 27, 28, 29, 30 und
31 über den ganzen Vokalteil verteilt, so daß die Erfassung der Endphase
des Vokals sichergestellt ist und die Unterscheidung der Wörter »seat« und »see«
möglich ist. Der letzte Quantisierungsstreifen 31, der die Unterscheidung
zwischen den beiden Wörtern ermöglicht, hat nun eine verminderte Redundanz, und
es kann deshalb möglich sein, daß man ihn breiter machen muß.
-
In extremen Fällen führt dieses Vorgehen dazu, daß man scheinbar unwichtige
Einzelheiten des Vergleichsmusters betonen muß, wenn diese Einzelheiten nutzbare
Information zur Unterscheidung gleichlautender Wörter haben. Diese Möglichkeit,
die das Erkennungsverfahren gemäß der Erfindung bietet, nämlich solche unterscheidungskräftigen
Einzelheiten zu erfassen, ist ein großer Vorteil.
-
Es wird darauf hingewiesen, daß man ähnlich vorgehen kann, um die
Beiträge der einzelnen Frequenzbänder zu der Lichtmenge zu ändern, wenn es sich
herausstellt, daß die Bedeutung dieser Frequenzbänder für die Erkennung sehr ungleich
ist. Dies kann auftreten, wenn man die Bandmittenfrequenzen und die Bandbreiten
der Filter ungünstig wählt.
-
In den F i g. 12 und 13 ist ein Blockschaltbild eines
Ausführungsbeispiels einer Anordnung zur Durchführung des erfindungsgemäßen Verfahrens
gezeigt. F i g. 12 zeigt die Aufzeichnungs- und Abtasteinrichtung und den
Spektralanalysator, und F i g. 13 zeigt die elektronisch optische Vergleichseinrichtung.
An die Eingangsklemme 35 der F i g. 12 kann ein Mikrophon oder eine
andere NF-Quelle angeschlossen werden. Von der Eingangsklemme gelangen die Signale
zu einem Aufnahmeverstärker 36, dessen Ausgangssignale auf den Aufzeichenkopf
37 gegeben werden. Ein Magnetband 38 läuft von einer Spule
39 ab und wird mit konstanter Geschwindigkeit am Kopf 37 vorbeigeführt.
Der Antrieb des Bandes wird über eine Rolle 40, die wiederum von der Antriebsvorrichtung
41 angetrieben wird, bewirkt. Der Aufnahmeverstärker 36 enthält eine automatische
Verstärkungsregelung 42, so daß sich ein konstanter Aufnahmepol ergibt.
-
Die Sprache wird dauernd auf dem Magnetband aufgezeichnet. Danach
werden 2-Sekunden-Intervalle abgetastet, jedes in einer Sekunde, wodurch
1 Sekunde für die Suche und den Vergleichsvorgang übrigbleibt. Dazu wird
das Band über Umlenkrollen 43 geführt, so daß sich eine freie Schleife 44 ergibt.
Das Band gelangt weiter durch Führungsrollen 46 zum Abtastkopf 45 und von da zu
einer intermittierend angetriebenen Rolle 47, die ihrerseits von der Antriebsanordnung
48 angetrieben wird. Hinter der Rolle 47 folgt eine zweite freie Schleife 49 zwischen
Umlenkrollen 50. Von da gelangt das Band zu einer weiteren stetig umlaufenden
Antriebsrolle 51 über eine Umlenkrolle 53 zur Aufwickelspule
52.
-
Mit dieser Anordnung wird ein 2-Sekunden-Inter- i vall von der Aufnahme,
die durch den Aufnahmekopf 37 erfolgt ist, am Abtastkopf 45 mit doppelter
Geschwindigkeit vorbeigeführt, so daß der Abtastkopi tr dieses Signal abgibt und
dann das nächste 2-Sekunden-Intervall abwartet. Die Aufwickelspule 52 ist
natürlich mit der bekannten Reibungskupplung ausgerüstet, damit sich die Wickelgeschwindigkeit
dem unterschiedlichen Wickeldurchmesser anpassen kann. Während der 1 Sekunde
dauernden Wartezeit wird der Wortspeicher durchsucht und das Wort erkannt.
-
Das Ausgangssignal des Abtastkopfes 45 gelangt auf einen Verstärker
54 und von dort zu einem Leistungsverstärker 55, dessen Ausgangssignal auf
den Spektralanalysator 55 gelangt. Der Leistungsverstärker 55 enthält
eine automatische Verstärkungsregelung 57, damit ein konstanter Durchschnittspegel
auf den Analysator gelangt.
-
Der Analysator 56 enthält eine Anzahl Bandpässe 58,
deren Durchlaßkurven und Bandbreiten an sich beliebig sein können. Bei dem Ausführungsbeispiel
sind zehn Bandpässe vorgesehen, von denen jeder eine Bandbreite von etwa
300 Hz hat, und die die folgenden Bandmittenfrequenzen haben 3315, 2975,
2635,
2295, 1955, 1615, 1275, 935, 595 und 255 Hz. Bei dieser Anordnung von
Bandpässen sind die Bandmittenfrequenzen _gleich voneinander entfernt und die Bandbreiten
sind ebenfalls alle gleich. Man kann auch Bandplisse verwenden, deren Bandmittenfrequenzen
logarithmische Abstände und gleiche prozentuale Bandbreiten haben. Der Ausgang jedes
Bandpasses gelangt über einen Gleichrichter 59 auf einen 50-Hz-Tiefpaß
60, dessen Ausgang auf einen Verteiler 61 gelangt. An den Ausgängen
der zehn Bandpässe 58 ist die Augenblicksamplitude im jeweiligen Frequenzband-verfügbar
und die Tiefpässe 60
liefern die Einhüllende, also die Amplitudenschwankungen.
Die Ausgangssignale der Tiefpässe 60 gelangen auf den Verteiler
61, der mit einer Geschwindigkeit von 2200 Hz umläuft. Der Verteiler wird
von einem Impulsgenerator 62 und einem Dezimalzähler 63 gesteuert,
die zusammen als Kontaktgeber für die gesamte Einrichtung dienen. Von dem auf diese
Weise gesteuerten Verteiler läßt sich eine Folge von Punkten abnehmen, deren Größe
und Helligkeit nicht stark schwankt, da die größtmöglichen Schwankungsgeschwindigkeiten
der Amplituden durch die 50-ffz-Tiefpässe bestimmt sind.
-
Dabe Signale vom Verteiler 61 werden auf einen logarithmischen
Verstärker 64 gegeben, so daß der Logarithmus des Pegels auf die elektronisch-optische
Auswerteeinrichtung gegeben werden kann. Dieser Verstärker kann, wie in F i
g. 14 gezeigt, ein Oszillo-"raph C, 65 sein, dessen Bildschirm mit einer
logarith misch geformten undurchsichtigen Maske 66 abgedeckt ist. Der Bildschirm
des Oszillographen hat eine sehr kurze Nachleuchtdauer, die bei 10-7 Sekunden
liegt. Ein Photoelektronenvervielfacher 67 ist vor dem Bildschirm der Röhre
angeordnet derart, daß er den Lichtpunkt auf dem Bildschirm des Oszillographen aufnehmen
kann. Das NF-Signal vom Verteiler 61 gelangt auf die horizontale Ablenkstufe
68 der Oszillographenb.;ldröhre 65, so daß sich der Lichtfleck
65' iniolge dieses Signals nach links bewegt. Eine feste Spannung wird bei
69 zugeführt und so eingestellt, daß sich der Lichtfleck beim Eingangssignal
Null auf der Grundlinie der Kurve der Maske befindet. Das Ausgangssignal
70 des Photoelektronenvervielfachers wird dann zu der festen Spannung
69
addiert.
-
Wenn ein Eingangssignal auftritt, dann bewirkt dieses, daß sich der
Lichtfleck nach links bewegt und
dieser langsam hinter der Maske
verschwindet. Dadurch wird das Ausgangssignal des Photoelektronenvervielfachers
weniger negativ, wodurch sich der Lichtfleck, gesteuert durch die vertikale Ablenkschaltung
nach oben bewegt. Hat die vertikale Ablenkschaltung eine genügend große Verstärkung,
dann kann man erreichen, daß der Lichtfleck der Maske entlang läuft, ohne daß sich
sein Verdeckungsgrad während des ganzen Weges wesentlich ändert. Das Ausgangssignal
des Photoelektronenvervielfachers ist dann der Logarithmus des Eingangssignals.
-
Der Logarithmus des Eingangssignals wird dann auf eine Addierschaltung
71 gegeben, die dazu vorgesehen ist, zum Signal jedesmal dann einen Spannungsschritt
hinzuzuaddieren, wenn ein anderes Frequenzband bearbeitet wird. Dazu ist ein Treppenspannungsgenerator
72 vorgesehen, der, gesteuert durch den Zähler 63, Spannungsschritte
abgibt. Der Treppenspannungsgenerator erhöht damit die Signalspannung um einen bestimmten
Betrag jedesmal dann, wenn der Verteiler ein anderes Frequenzband erfaßt.
-
Das Ausgangssignal der Addierschaltung71 wird nun auf die elektronisch-optische
Auswerteeinrichtung, die in Fig. 13 gezeigt ist, gegeben. Die Auswerteeinrichtung
hat die Aufgabe, die Kurve jedes Sprachmusters mit jedem der im Wortspeicher gespeicherten
Muster zu vergleichen, um zu bestimmen, ob und gegebenenfalls welches der Wörter
im Wortspeicher mit dem unbekannten Wort übereinstimmt.
-
Das Signal gelangt auf die vertikale Ablenkstufe einer Speicherröhre
74, die das Schirinbild 1 Sekunde lang speichern kann. Während dieser Zeit
wird der Wortspeicher durchsucht. Das Schirmbild der Speicherröhree wird mittels
eines Spiegels75 durch eine veränderbare Verzerrungslinse 76 und durch eine
Sammellinse 77 auf die Photokathode einer Bildwandlerröhre
78 gerichtet.
-
Die Verzerrungslinse 76 dient dazu, eine stetige Änderung der
Horizontalausdehnung der Kurven der gesprochenen Wörter hervorzurufen, um einen
Vergleich der unbekannten Wörter mit den Wörtern des Wortspeichers unabhängig von
der Sprechgeschwindigkeit zu ermöglichen. Diese Linse wird von einem Motor
79 und einem Nocken 80 so angetrieben, daß das Bild sicher innerhalb
vorgegebenerGrenzen stetig ausdehnt und zusammen ieht. Die Grenzwerte sind
so gewählt, daß sie die verschiedenen Sprechgeschwindigkeiten und Sprecheigenschaften
einer großen Anzahl von Sprechern einschließen. Die Grenzwerte liegen bei plus oder
minus 1511/o.
-
Die Nocke, die die Linse antreibt, ist so ausgebildet, daß die Vergrößerung
sich linear in Abhängigkeit von der Zeit ändert und daß ein vollständiger Durchlauf
während des 1-Sekunden-Suchzyklus erfolgt. Da der Wortspeicher zehnmal in
1 Sekunde abgetastet wird, hat sich die horizontale Abmessung der unbekannten
Kurve bei jedem Durchlauf durch einen bestimmten Punkt um 3 % geändert.
-
Ein Signalgeber 81 an der Zerstreuungslinse erzeugt ein Signal,
das auf einen Ablenkgenerator 82
gegeben wird, der die horizontale Ablenkung
der Bildwandlerröhre 78 steuert. Dadurch erreicht man eine konstante horizontale
Verschiebung des von der Bildwandlerröhre erzeugten Bildes.
-
Eine mit 80a bezeichnete mechanische Kupplung ist zwischen der Zerstreuungslinse
76 und der Blende der Sammelinse 77 vorgesehen, um diese Blende stetig
zu verstellen, so daß man eine konstante Lichtmenge erhält, wenn die horizontale
Vergrößerung geändert wird.
-
Eine andere Sammellinse 83 dient zur Abbildung des unbekannten
Musters, das auf der Bildwandlerröhre 78 erscheint, auf dem Wortspeicher
84. Die tausend Wörter des Wortspeichers sind in zweiunddreißig Zeilen zu
je zweiunddreißig Mustern auf einem Film angeordnet. Der Platz, den jedes
Wort im Wortspeicher einnimmt, muß dem Platz entsprechen, den das 2-Sekunden-Sprachmuster
einnimmt, um zu verhindern, daß mehr als ein Wortmuster gleichzeitig abgetastet
wird.
-
Ein Sprachmuster enthält maximal hundert Informationselemente in horizontaler
Richtung, da die 50-Hz-Tiefpässe in der Analysierschaltung nicht mehr zulassen.
Ein Wortplatz auf dem Film enthält deshalb hundert Linien oder fünfzig Linienpaare.
Mit einem geeigneten Film, dessen Ortho-Litho-Emulsion guten Kontrast und gute Auflösung
gewährleistet, läßt sich eine Auflösung von zweihundert Linienpaaren pro Millimeter
erreichen. Wird die Anordnung für diese Auflösung ausgelegt, dann kann die Information
der tausend Wörter auf einem Quadrat von 8 mm Seitenlänge untergebracht werden.
Die Verwendung eines Films dieser Abmessungen ergibt aber große Schwierigkeiten
bezüglich der mechanischen Toleranzen und es besteht außerdem die Möglichkeit, daß
infolge von Oberflächenfehlem des Films Schäden auftreten. Es werden deshalb fünfundzwanzig
Linienpaare pro Millimeter verwendet. Auf diese Weise erhält man einen höheren Kontrast,
dessen lineare Skala einen großen dynamischen Bereich aufweist. Die Anforderungen
an die mechanische Ge-
nauigkeit sind nicht mehr so groß, und Oberflächenfehler
des Films sind nicht mehr so schwerwiegend. Trotzdem ist der Wortspeicher noch klein
genug. Ein Wort nimmt nun 2 mm2 ein, und der gesamte Wortspeicher ist 64X64 mm groß.
-
Die Ablenkschaltung 82 bewirkt, daß das Bild der Bildwandlerröhre
über die zweiunddreißig Wortzeilen im Wortspeicher geführt wird. Schaltungsanordnungen
dazu sind aus der Fernsehtechnik bekannt.
-
Eine Kondensorlinse 85 sitzt direkt hinter dem Wortspeicher
84 und nimmt das durch diesen hindurchfallende Licht auf. Die Brennweite dieser
Linse und der Abstand der Teile sind so gewählt, daß das von der Sammellinse
83 gelieferte Bild auf die Photokathode einer Photoelektronenvervielfacherröhre
86
gelangt. Auf diese Weise wird erreicht, daß sich der Lichtfleck auf der
Photokathode nur in seiner Helligkeit ändert und sich nicht bewegt, wenn der Wortspeicher
abgetastet wird. Mit dieser Anordnung werden Fehler des Ausgangssignals der Photoelektronenvervielfacherröhre
vermieden, die auf örtliche Ungleichmäßigkeiten der Empfindlichkeit der Photokathode
zurückzuführen sind. Die Photoelektronenvervielfacherröhre wird so gewählt, daß
sich mit dem Licht vom Bildschirm der Bildwandlerröhre ein maximales Signalstörverhältnis
ergibt und daß sie die große Bandbreite verarbeiten kann, die sich aus der schnellen
Abtastung des Wortspeichers ergibt.
-
Die Spannung an der Dynode der Photoelektronenvervielfacherröhre ist
so eingestellt, daß sich im Betrieb kein größerer Anodenstrom als 200 Mikroampere
ergibt. Bei diesem kleinen Anodenstrom ergeben sich sehr stabile Betriebsverhältnisse.
Der
Aaodenarbeitswiderstand der Photoelektronenvervielfacherröhre
wird so gewählt, daß sein Wert klein gegenüber dem. schädlichen kapazitiven Scheinwiderstand
im Anodenstromkreis bei maximaler Frequenz ist. Bei einer Frequenz von einem MHz
und bei einer PhotoelektronenvervieIfacherröhre Typ 6342A" die auf einen
Kathodenverstärker arbeitet, ergibt sich ein Wert des Anodenarbeitswiderstandes
von 3900 Ohni.
-
Das Ausgangssignal der Photoelektronenvervielfacherröhre gelangt auf
eÜien linearen Verstärker 87,
der das Signal so verstärkt, daß es weiterverarbeitet
werden kann. Das Signal vom Verstärker 87 wird auf eine Schwellwertschaltung
88 gegeben, die eine schnell wirkende getastete Festhalteschaltung und eine
genau eingestellte Begrenzungsschaltung enthält> so daß sich ein Signalpegel, ergibt,
der eine Aussage über die gewünschte Wahrscheinlichkeit der übereinstimmung zwischen
dein unbekannten Wort und einem Wort iin Wortspeicher ennöglicht. Dieser Pegel kann
durch Verändern der Vorspannung des Begrenzers eingestellt werden. Die von der Begrenzungsschaltung
gelieferten Erkennungssignale werden in der Schwellwertschaltung weiter verstärkt,
begrenzt und differenziert, derart, daß clie- Impulsen einem konstante Breite und
eine konstante Ampjitude aufweisen. Die Signale gelangen dann auf den Wortwähler
89. Der Wortwähler 89 dient zur Bestimmung, welches der Wörter im
Wortspeicher erkannt wurde. Er enthält eine Quantisierstufe 90, die mit der
Ablenkschaltung 82
verbunden ist, und er ist so ausgelegt, daß er die Signale,
die die augenblickliche Lage des unbekannten Sprachmusters repräsentieren, bei jedem
Ablenkvorgang in zweiunddreißig diskrete Schritte quantisient. Die Quantisierstufe
erzeugt Steuerimpulse für jeden dieser Schritte. Der Wärt:wähler enthält außerdem
eine Matrix,aus 32 - 32 UND-SchaItungen. Jede UND-Schaltung 91 hat
drei Eingänge. Die Steuerimpulse des einen Satzes, werden auf die Zeilen und die
des anderen Satzes auf die Spalten, der Matrix gegeben. Der Erkennungsimpuls von
der Schwellwertschaltung. gelangt auf alle UND-Schaltungen, gleichzeitig, es kann
jedoch keine, UND-Schaltung öffnen, wenn nicht gleichzeitig Zeilen- und Spaltenimpulse
anliegen.
-
Die UND-Schaltungen 91 liegen an den Kreuzungspunkten. Die
Ausgänge der UND-Schaltungen 91
führen über Leitungen, die, bei
93 angedeutet sind, zu einer Wortanzeigevorrichtung 92, in der jedem
Wort eine Lampe zugeordnet ist, die dann aufleuchtet, wenn die zugeordnete UND-Schaltung
öffnet,. beispielsweise über nicht gezeigte Relais- Die Relais können Kontakte aufweisen,
die AusgangsIeitungen 94 anschalten, die zu einem Drucker,. Lochstanzer, Feriischreiber
oder zu einem sonstigen Ausgabe- bzw. Verarbeitungsgerät führen, Nachfolgend wird
nun noch die Wirkungsweise der Anordnung zur schritthaltenden Spracherkennung im
Zusammenhang beschrieben, Das NF-Signal vom Mikrophon oder von einem anderen Eingabegerät
wird dauernd auf dem Magnetband 38 mittels des Aufzeichnungskopfes
37 aufgenom, mzn-. Das Band bildet,. angetrieben von einer stetig umlaufenden
Rolle 40, eine freie Schleife 44, von der es, intermittierend von der intermittierend
angeüiebenen, Rolle 47 abgezogen und dem Abtastkopf 45 mit doppelter Geschwindigkeit
zugeführt wird. 2-Sekunden-Intervalle der aufgenommenen Sprache werden- auf diese
Weise vom- Abitastkopf 45 abgelesen und nach Verstärkung durch den Verstärker 54
auf den Spektralanalygator 56 gegeben, nÜt dem verschiedene Frequenzbänder
aus dem Signal ausgesiebt werden, die anschließend mit den Gleichrichtern
59
gleichgerichtet werden und über die Tiefpässe 60
zum Verteiler
61 gelangen. Auf diese Weise gelangen Signale aus jedem Frequenzband, die
der augenblicklichen Amplitude entsprechen, auf den Verteiler.
-
Der Verteiler, gesteuert vom Impulsgenerator 62
und vom Zähler
63, verteilt die Amplituden der einzelnen Frequerizbänder nacheinander mit
einer Ge-
schwindigkeit von 2200 Punkten in der Sekunde und gibt diese Werte
an einen logarithinischen Verstärker 64 weiter, in dem jeder Wert in den Logarithmus
des Eingangswerteg umgewandelt wird-.
-
Die Addiergchalt-ung 71, gesteuert vom Treppenspannungsgenerator
72 und- dein Zähl-er 63- addiert einen Spannunggsehritt bei der Verteilung
jedes weiteren Frequembandes, so daß das Signal, das auf die elektronisch-optische
Auswerteeinrichtung gelangt, Spannungssehritte aufweist, wobei dier Amplituden jedes
Freqgenzbarides in einem anderen Schritt liegen.
-
Das treppenförmige Aniplitudenzeitsignal wird dann auf die vertikale
Ablenkschaltung 73- der Speicherröhre 74 (F i g. 13) gegeben, deren
horizontale Ablenkung synchron mit der Verteilung der Werte eines Frequenzbandeg
erfolgt, so daß ein Bild der Aniplitudemeitdiagrämme der 2-Sekunden-Intervalle auf
dem Bildschirm der- Speicherröhre erscheint.
-
Der Spiegel 75 richtet das Bild auf die Verzerrungslinse
76, deren horizontale Vergrößerung sich stetig ändert. Die Sammellinse
77 wirft dieses sich dauernd ändernde Bild auf die Photokathode der Bildwandlerröhre
78, die, gesteuert von der- Ablenkschaltung 82,
bewirkt daß das Bild
von der, Bildwairdlerröhre, das auf den Wortspeicher 84 gerichtet ist, dieseit vollständig
abtastet. Das Bild gleitet über jede Zeile des Wortspeichers zehnmal in der
Sekunde, und bei je-
dem Durchlauf hat sich die horizontale Größe um
3 O/o geändert.
-
Wenn das unbekannte Muster über die Muster im Wortspeicher- gleitet,
fällt das Licht von der Bildwandlerröhre nacheinander durch jedes Wort hindurch
und gelangt auf den Photoclektronenvervielfacher 96. Wenn die Lichtmeilge
einen vorgegebenen Wahrscheinlichkeitspegel erreicht, der angibt, daß das Wort,
welches das Bild- hervorruft, dem in diesem Augenblick abgetasteten Wort im Wartspeicher
gleich ist, wobei diese Tatsache von der Schwellwertschaltung 99 erkannt wird, dann
öffnet die diesem Wort zugeordnete Torschaltung 91, da Zeilen# und Spaltenleitung
gleichzeitig erregt sind-, und dieses Tor öffnet und gibt einen Impuls zur Wärtanzeigevorrichtung
92,
so, daß das Wort erkennbar ist. Gleichzeitig gelangt ein diesem Wort zugeordnetes
Signal über eine Leitung 94 zu einem anderen Ausgabegerät, z. A einem Drucker.
-
Die Durchsuchung des gesarnten Wortspeichers bei der Erkennung der
Wörter des 2-Sekunden-Intervalls dauert 1 Sekunde. Während der
1 Sekunde, die man zum Abtasten des 2-Sekunden-Intervalls vom Band benötigt,
und während der zweiten Sekunde, während der der Suchvorgang stattfindet, wird ein
weiteres 2-Sekunden-Intervall auf dem Band aufgezeichnet, so daß unmittelbar nach
dem Endg des Suchvorganges das nächste 2--Sekunden-Intervall verarbeitet werden
kann.
Es kann vorkommen, daß die Trennstelle zwischen zwei aufeinanderfolgenden
2-Sekunden-Intervallen in der Mitte eines Wortes oder einer Silbe auftritt, so daß
ein Wort am Anfang oder am Ende eines Intervalls verlorengeht. Um dies zu vermeiden,
können zwei Bandgeräte vorgesehen werden, von denen jedes ein 2-Sekunden-Intervall
aufnimmt. Die Bandgeräte müssen nur so zusammengeschaltet werden, daß sich die 2-Sekunden-Intervalle
gegenseitig überlappen. Jedem Bandgerät sind ein Spektralanalysator und eine elektronisch-optische
Auswerteeinrichtung zugeordnet, und ein Wort, das von der einen Einrichtung nicht
erkannt werden kann, weil es fehlt, wird von der anderen Einrichtung verarbeitet.
-
Die Schwellwertschaltung 88 gibt dann ein Signal ab, wenn die
Lichtinenge einen vorgegebenen Wert überschreitet. Kurze Wörter Wie »why« und »aisle«,
sind beide in dem einzelnen Wort »while« enthalten. Um zu verhindern, daß solche
kürzeren Wörter falsch erkannt werden, wenn sie in einem anderen Wort enthalten
sind, ist derWortspeicher so programmiert, daß die längeren und komplizierter aufgebauten
Wörter zuerst abgetastet werden. Sobald eine Erkennung erfolgt ist wird eine Sperrspannung
im Wortwähler erzeugt, um zu verhindern, daß weitere Erkennungen auf Grund nachfolgender
kürzerer Wörter erfolgen, die in dem Wort enthalten sind, das das Erkennungssignal
erzeugte. Die Sperrspannung bleibt so lange aufrechterhalten, bis das nächste Muster
auf der Bildwandlerröhre erscheint.