DE2001663C3 - Verfahren und Vorrichtung zur Zeichenerkennung - Google Patents

Verfahren und Vorrichtung zur Zeichenerkennung

Info

Publication number
DE2001663C3
DE2001663C3 DE19702001663 DE2001663A DE2001663C3 DE 2001663 C3 DE2001663 C3 DE 2001663C3 DE 19702001663 DE19702001663 DE 19702001663 DE 2001663 A DE2001663 A DE 2001663A DE 2001663 C3 DE2001663 C3 DE 2001663C3
Authority
DE
Germany
Prior art keywords
character
characters
unknown
type
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19702001663
Other languages
English (en)
Other versions
DE2001663B2 (de
DE2001663A1 (de
Inventor
Chao Kong Chappaqua N. Y. Chow (V.St.A.)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2001663A1 publication Critical patent/DE2001663A1/de
Publication of DE2001663B2 publication Critical patent/DE2001663B2/de
Application granted granted Critical
Publication of DE2001663C3 publication Critical patent/DE2001663C3/de
Expired legal-status Critical Current

Links

Description

Die Erfindung betrifft ein Verfahien zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge nach dem Oberbegriff des Anspruchs 1.
Bei d'en meisten bekannten Verfahren zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge 2US mehreren Zeichenarten, z.B. der Erkennung von Buchstaben in verschiedenen Schriftarten basiert die Erkennung des Zeichens und der Zeichenart auf einem Vergleich des unbekannten Zeichens mit allen bekannten Zeichen in sämtlichen Zeichenarten. .
Das Problem, das hieraus resultiert und das in der US-PS 3 167746 angesprochen ist. besteht darin, daß es aus ökonomischen Gründen wünschenswert ist, ein unbekanntes Zeichen nur mit den gespeicherten bekannten Zeichen einer Zeichenart zu vergleichen. Dieses Vorgehen würde aber schon zu zuverlässigen Zeichenbestimmungen führen, wenn nur die Zeichenart mit genügender Zuverlässigkeit bestimmt werden könnte. Eine Verbesserung der Zuverlässigkeit wird bereits durch den Gegenstand der genannten US-PS insofern erreicht, als nämlich das unbekannte Zeichen mit allen Zeichen einer einzigen Zeichenart und mit wenigen, statistisch in einer Sprache am häufigsten vorkommenden Zeichen in anderen Zeichenarten verglichen wird. Die statistische Häufigkeit, von der hier die Rede ist, ist beispielsweise wie Häufigkeit, mit der die Buchstaben T und e in der englischen Sprache vorkommen. Diese beiden Zeichen werden als Testzeichen in allen Schriftarten verwendet.
Die hierdurch erzielbare Genauigkeit bei der Bestimmung der Zeichenart (Schriftart) ist aber nicht für alle Fälle ausreichend, so daß hier fürZeichenerkonnungsmaschinen mit besonders hoher Zuverlässigkeit der Auswertung nach anderen Lösungen gesucht werden muß.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Zeichenerkennungsverfahren der genannten Art zu schaffen, welches mit hoher Zuverlässigkeit eine fehlerfreie Zeichenerkennung erlaubt, insbesondere auch dann, wenn ein häufiger Zeichenartwechsel vorliegt.
Diese Aufgabe wird durch ein Verfahren gelöst, welches durch die im kennzeichnenden Teil des Hauptanspruchs angegebenen Merkmale gekennzeichnet ist.
Durch dieses Verfahren erfolgt zuerst ein Vergleich
der in der Zeichenfolge enthaltenen unbekannten Zeichen mit den Zeichendarstellungen in den verschiedenen Zeichenarten, d.h. vor der eigentlichen Erkennung des Zeichens erfolgt eine Bestimmung der Zeichenart des unbekannten Zeichens. Die Resultate mehrerer Zeichenartbestimmungen werd.ti gespeichert und davon eine Häufigkeitsverteilungslunktion für jede Zeichenart innerhalb einer Zeichenfolge abgeleitet. Diese Häufigkeitsfunktionen werden kontinuierlich so verändert, daß jeweils eine feste Anzahl, beispielsweise 101 Zeichen in den Funktionsverlauf einbezogen \weden. Die eigentliche Zeichenerkennung basiert auf einem Vergleich, dem die Häufigkeitsfunktion zugrunde gelegt wird.
Weitere Ausgestaltungen und Weiterbildungen der Erfindung sind den Patentansprüchen zu entnehmen. Dadurch, daß zunächst das unbekannte Zeichen mit allen Zeichen in allen Schriftarten verglichen wird, kann mit außerordentlich hoher Zuverlässigkeit zunächst die Zeichenart bestimmt und wenn diese ermittelt ist, mif einer weiteren sehr hohen Zuverlässigkeit auch das unbekannte Zeichen in seiner eigenen Schriftart erkannt werden. Hieraus ergibt sich der Vorteil einer extrem hohen Zuverlässigkeit der Erkennungsoperation, die durch das Hinzutreten weiterer statistischer Merkmale, beispielsweise der Untersuchung der unmittelbaren Umgebung eines unbekannten Zeichens besonders hoch angesetzt werden kann.
Da dieses Verfahren auch mit adaptiven Techniken ausgestalte ι sein kann, lassen sich unbekannte Schriftzeichen ursprünglich nur in ähnlicher Darstellungsform vorgesehener und gespeicherter Schriftarten mit großer Zuverlässigkeit erkennen.
Zur Erläuterung der Beschreibung dienen die Figuren. Es zeigt
Fig. 1 ein Flußdiagramm der wichtigsten erfindungsgemäßen Verfahrensschritte,
Fig. 2 die Anordnung der Fig. 2 A bis 2E.
Fig. 2A, 2B, 2 C, 2D und 2E eme Ausfuhrungsform einer Einrichtung zur Durchführung des erfindungsgemäßen Verfahrens,
Fig. 1 stellt ein Flußdiagramm der Verfahrensschritte dar, die zur Erkennung von Schriftzeichen in drei verschiedenen Scbriftzeichenarten notwendig sind. Eine Anordnung zur Durchführung dieses Verfahrens ist in den Fig. 2 A bis 2E gezeigt Das Dokument, auf dem sich die zu identifizierenden Zeichen befinden, wird durch den Block 10 dargestellt Jedes Zeichen wird so abgetastet, daß eine maschinell verarbeitbare Darstellung des unbekannten Zeichens, in diesem Fall ein Binärwort von 100 Bit Länge - in Fig. 1 durch den Block 12 verkörpert - entsteht. In der Maschine gespeichert befinden sich Darslelluugen aller Zeichen von drei verschiedenen Zeichenarten. In jedem Satz befinden sich 62 Schriftzeichen: Großbuchstaben A bis Z, Kleinbuchstaben a bis ζ und Ziffern 0 bis 9.
Die gespeicherten Darstellungen sind die bedingten Wahrscheinlichkeiten für das Auftreten der Binärwerte 0 und 1 in jeder der 100 Stellen, die zur Darstellung eines Zeichens benutzt werden. Diese Wahrscheinlichkeiten werden gewonnen, indem das 'System zur Erkennung einer Mehrzahl von bekannten Zeichen, die durch verschiedene Verfahren erzeugt wurden, in jeder Zeichenart benutzt wird und dabei das Auftreten der Binärwerte 0 und 1 in den 100 Stellen des Binärwortes auf statistischer Grundlage speichert.
Wenn beispielsweise durch diese vorangehende Prüfung und Analyse festgestellt wird, daß die erste Binärposition für den Großbuchstaben T zu 95% den ßinärwert 1 enthält, wird die gespeicherte bedingte Wahrscheinlichkeit für den Binärwert 1 in dieser Position 0,95 betragen und die gespeicherte bedingte Wahrscheinlichkeit für den Binarwert 0 in dieser Position 1,00 minus 0,95 — 0,05 betragen. Demnach sind fur jedes Zeichen einer Zeichenart die Werte fur
ίο 200 bedingte Wahrscheinlichkeiter? innerhalb der Maschine gespeichert. Die Darstellung des unbekannten Zeichens - Block 12 in Fig. 1 - wird den die bedingten Wahrscheinlichkeiten aufnehmenden Speichern zur Ableitung von Zeiche η vergleichst unk tionen fur jedes Zeichen jeder Zeichenart zugeführt (Block 14). Die Binärwerte 1 und 0 des Binärwortes von 100 Bit Lange, welches das unbekannte Zeichen darstellt, werden benutzt, um den gespeicherten Wahrscheinlichkeitswert fur 0 oder 1 in jeder der 100 Positionen für das erste Zeichen (Großbuchstabe A) jeder Zeichenart auszuwählen. Diese Selektion kann sowohl parallel - wie in der vorliegenden Ausfuhrung — als auch seriell durchgeführt werden. Die 100 bedingten Wahrscheinlichkeiten fur das erste Zeichen (Großbuchstabe A) jeder Zeichenart werden sepaiai miteinander multipliziert, wobei man drei Zeichenvergleichsfunktionen basierend auf der gespeicherten Information fur den Großbuchstaben A in jeder der drei Zeichenarten fur das unbekannte Zeichen erhall Zusammen mit den bedingten Wahrscheinlichkeiten ist für jedes Zeichen ein Faktor gespeichert, der die Häufigkeit des Auftretens dieses Zeichens in normalem Text angibt Dieser Faktor wird ebenfalls bei der Multiplikation berücksichtigt. Die genannte Opera tion wird für jedes der 62 Zeichen in einem Zeichensatz durchgeführt. Zur späteren Verwendung werden die Zeichenvergleichst unktionen separat im Puffer speicher 16 gespeichert Außerdem werden sie diet Sumrmer-schaltungen (Akkumulatoren) zugeführt, in denen die 62 Zeichenvergkichsfunktionen fur jede Zeichenart getrennt summiert werden (Block 18)
Danach wird bestimmt, welche der akkumulierten Summen der Zeichenvergleichsfunktionen der drei Zeichenarten den größten Wert hat und dadurch die Zeichenan des unbekannten Zeichens festgelegt (Block 20) Ls boll noch darauf hingewiesen werden, dab diese Zeichenartbestimmung ohne eigentliche Zeichenerkennung durchgeführt wird, sie basiert auf einem Vergleich des unbekannten Zeichens mit der gespeicherten Information aller Zeichen jeder Zeichenart Die Resultate der Zeichenartbestimmung werden in einem Register (Block 22) gespeichert
Die Veriahrensschritte. die die Blocke 10. 12. 14. 18, 20 und 22 verkörpern, werden fur jedes unbekannte Zeichen durchlaufen und die Resultate der Zeichenartbestimmungen lui eme vorherbestimmte Anzahl von Zeichen gespeichert Ks, sei beispielsweise angenommen daß in 101 derartigen Zeichenartbestimmungen die erste Zeichenan KUmal. die /weite
6a Zeichenart 1 Smal und die dritte Zeichenart 6mal festgestellt wurde. Demnach werden die Werte ÖU, 15 iund 6 für die letzten 101 Zeichenartbestimmungen gespeichert. Es erfolgt eine laufende Verschiebung dieser Werte, da nur jeweils die letzten 101 Zeichenartbestimmungen eingehen. Nach jeder Zeichenartjbestimmung werden drei gewichtete Zeichenarthäuügkeitsfunktionen abgeleitet (Block 24).
Diese gewichteten Zeichenarthäufigkeitsfunktio-
nen werden bei der eigentlichen Zeichenidentifizierung (Block 26) benutzt. Der Pufferspeicher 16, in dem die Zeichenvergleichsfunktionen für jedes unbekannte Zeichen gespeichert sind - 62 Funktionen für jede Zeichenart — liefert diese Funktionen zur eigentlichen Zeichenerkennung nach einer Verzögerung, die für die Zeichenartbestimmung der auf das zu identifizierende Zeichen folgenden 50 Zeichen ausreicht. Es wurde oben bereits festgestellt, daß die gewichteten Häufigkeitsfunktionen auf 101 Zeichenartbestimmungen basieren. Die eigentliche Zeichenerkennung für jedes unbekannte Zeichen wird unter Benutzung der Zeichenarthäufigkeitsfunktionen durchgeführt, die unter Zugrundelegung der Zeichenartbestimmung des unbekannten Zeichens und der 50 vorhergehenden und 50 nachfolgenden Zeichen innerhalb der Zeichenfolge entwickelt wurden.
Der eigentliche Zeichenerkennungsprozeß bedient sich sämtlicher Zeichenvergleichsfunktionen in jeder Zeichenart. Die 62 Zeichenvergleichsfunktionen für jedes unbekannte Zeichen in jeder Zeichenart werden zuerst mit der entsprechenden Zeichenarthäufigkeitsfunktion multipliziert. Darauf werden die so modifizierten Zeichenvergleichsfunktionen für das gleiche Zeichen jeder Zeichenart summiert, wobei man 62 solche Summen, eine für jedes Zeichen einer Zeichenart erhält. Schließlich werden diese 62 Summen verglichen, um die Summe mit dem größten Wert festzustellen, womit das unbekannte Zeichen identifiziert ist.
Wie oben bereits erwähnt und in Fig. 1 durch den Block 24 angedeutet, sind die Zeichenarthäufigkeitsfunktionen, die zur Modifizierung der Zeichenvergleichsfunktionen benutzt werden, gewichtete Funktionen. Jede Gruppe der drei Zeichenarthäufigkeitsfunktionen basiert auf der Zeichenartbestimmung für 101 aufeinanderfolgende Zeichen. Diese drei Funktionen werden zur Identifizierung des innerhalb dieser Zeichenfolge zentral angeordneten, des 51. Zeichens benutzt. Um auch in den Fällen, in denen ein Zeichenwcchsel innerhalb einer geringeren Anzahl von Zeichen auftritt, für eine korrekte Erkennung zu sorgen, wird den dem zu identifizierenden Zeichen innerhalb der Zeichenfolge am nächsten liegenden Zeichen ein höheres Gewicht beigemessen. Dies kann beispielsweise direkt durch den Decoder zur Erzeugung der Zeichenarthäufigkeitsfunktionen oder getrennt durch Verdoppelung der Zeichenartbestimmungen für eine spezifische Anzahl von Zeichen beiderseits des zu identifizierenden Zeichens erfolgen. So kann beispielsweise die Anzahl der Zeichenartbestimmungcn vom 46. bis zum 56. Zeichen zur Erhöhung des Gewichts mit 2 multipliziert werden. Selbstverständlich kann jedes kompliziertere Wichtungsschema benutzt werden, beispielsweise kann das Gewicht abhängig gemacht werden von der räumlichen Nähe, in der sich das zu wichtende Zeichen vom zu identifizierenden Zeichen - dem 51. der Zeichenfolge - befindet.
Es ist außerdem ersichtlich, daß während der Erkennung der ersten 50 oder letzten 50 Zeichen einer Zeichenfolge die Zeichenarthäufigkeitsfunktionen notwendigerweise auf einer kleineren Anzahl von Zeichenartbestimmungen basieren. Das erste Zeichen einer Zeichenfolge wird identifiziert mit Hilfe von Zcichcnarthäufigkcitsfunktioncn, die auf den Bestimmungen für dieses und die 50 folgenden Zeichen berühren, währenddessen das letzte Zeichen einer Zeichenfolge unter Zugrundelegung von Zcichcnarthäufigkeitsfunktionen bestimmt wird, die sich von diesem Zeichen und den 50 ihni vorausgehenden herleiten. Die Fig. 2 A bis 2E— in Fig. 2 ist die richtige Zusammenfügung gezeigt ■ · zeigen eine Anordnung zur Durchführung des im Zusammenhang mit Fig; I beschriebenen Verfahrens. Das mit einer zu erkennenden Zeichenfolge bedruckte Dokument ist wiederum mit der Bezugszahl 10 bezeichnet. Soweit als möglich werden zur Bezeichnung der in den Fig 2 A bis 2E gezeigten Bauteile die gleichen Bezugszahlen (10 bis 26) wie in Fig. 1 benutzt. Das Dokument 10 wird mittels eines konventionellen Abtasters 12 und eines Detektors 12B abgetastet und derart verschlüsselt, daß ein Binärwort von 100 Bit Länge, welches im Register
1S 12C gespeichert wird, entsteht. Das Register 12 C enthalt 101 Flip-Flop-Stufen 12C-1 bis 12C-101. Das letzte dieser Flip-Flops 12C-101 enthält immer eine binäre 1, die Gründe ergeben sich aus dem unten gesagten. Die anderen 100 Flip-Flops im Register 12 ( enthalten eine binäre 1 oder 0 je nachdem, was bei der Abtastung des unbekannten Zeichens festgestellt wurde. Jede dieser Flip-Flop-Stufen hat eine »]«- Ausgangsleitung 12£> (1 bis 100) und eine »0«-Ausgangsleitung 12£ (1 bis 100), von denen jeweils eine aktiv ist, je nachdem ob das zugehörige Flip-Flop den Binärwert i oder 0 enthält. Die letzte Flip-Flop-Stufe 12C-101 hat verständlicherweise nur eine »1 «-Ausgangsleitung 12 D-101.
Die Ausgangsleitungen des Registers 12C (Leitungen 12D und 12E) sind parallel mit den Eingängen dreier Speicher 14 A-1,14/1-2 und 14/4-3 verbunden, wobei jeder Speicher für eine von drei verschiedenen Schriftarten vorgesehen ist. Diese Speicher enthalten die bedingten Wahrscheinlichkeiten für das Auftreten der Binärwerte 1 und 0 in den 100 Positionen für jedes der 62 Zeichen eines Zeichensatzes. Die Eingangsleitungen mit dem Binärwert 1 sind mit 14ß-l bis 14 ß-101 und die Eingänge mit dem Binärwert 0 sind mil 14 C-I bis 14 C-100 bezeichnet.
Jeder der Speicher hat 62 Zeilen, wobei jeweils einem Zeichen eine Zeile zugeordnet ist. Die Wahrscheinlichkeiten für den ersten Buchstaben, Großbuchstaben A, der ersten Zeichenart (Schrifttype; sind in der ersten Zeile des Speichers 14/4-1 enthalten. Der Wert PM1 bezeichnet die bedingte Wahrscheinlichkeit für das Auftreten des Binärwertes 1 ir der ersten Position des Registers 12 C, wenn dei Großbuchstabe A in der Schrifttype 1 abgetastet wird Der Wert l-PlAi bezeichnet die bedingte Wahrscheinlichkeit für das Auftreten des Binärwertes 0 ir der gleichen Position. Die anderen Werte P2A x bis 1 - P\w)A ι repräsentieren die bedingten Wahrscheinlichkeiten für die Binärwerte 0 und 1 in den anderen Positionen für den Großbuchstaben A. Die letzte Positior in der ersten Reihe speichert einen Wert P101-41, dei nicht in Beziehung steht mit der Zeichendarstellung sondern ein Häufigkeitsfaktor ist, der angibt, wie of der zu der Zeile gehörende Buchstabe in normalen Text zu erwarten ist. Beispielsweise wird der Häufig keitsfaktor für den Kleinbuchstaben e relativ hod und für den Kleinbuchstaben ζ relativ niedrig sein Sobald die Darstellung eines unbekannten Zei
chens in Form eines Binärwortes im Register 12 C ent halten ist, werden zu den diei Speichern 14/4-1 14/4-2 und 14/4-3 auf den entsprechenden Leitungei 14 ß oder 14 C Signale übertragen. Die Leitung 14 B 101 wird bei jeder Operation unabhängig von dei Ausgangssignali-n des Detektors 112B aktiviert.
Da die Operation der drei Speicher 14/4-1,14/1-2 und 14/4-3 identisch verläuft, erscheint eine Beschreibung des ersten dieser Speicher ausreichend. Der Speicher enthält 62 Zeilentreiberleitungen 14 D, eine für jeden der 62 Zeichen des Zeichensatzes. Diese Leitungen werden aufeinanderfolgend in Verbindung mit dem auf die gewählte Kolonne über die Leitungen 14B-1 oder 14C-I usw. gegebenen Signalen aktiviert. Dadurch werden die entsprechend bedingten Wahrscheinlichkeiten für das zugehörige bekannte Zeichen ebenso wie der Häufigkeitsfaktor aus dem Speicher ausgelesen und über die ODER-Schaltungen 14£ einem Ausgangsregister 14F zugeführt. Sobald eine Gruppe der bedingten Wahrscheinlichkeiten sich im Register befindet, wird sie aufeinanderfolgend einschließlich des Häufigkeitsfaktors ausgelesen und die Einzelwerte miteinander im Multiplikator 14G multipliziert.
Unter der Voraussetzung, daß die Binärwerte in der ersten, zweiten, dritten und hundertsten Position des Registers 12 ClOl... 1 sind, lautete das durch die Multiplikationsschaltung 14 G für den Großbuchstaben A errechnete Ergebnis folgendermaßen: (Pl/U) 1-P2Ai) (^.) ··■ CVn) (Λομι)· Dieses Produkt wird als Zeichenvergleichsfunktion des unbekannten Zeichens gegen den Großbuchstaben A der ersten Zeichenart bezeichnet.
Jedes der in der Multiplikationsschaltung 14G entwickelten Produkte repräsentiert eine Zeichcnvergleichsfunktion und wird sowohl auf einen Akkumulator 18/4 als auch auf einen Pufferspeicher 16/4 gegeben. Der beschriebene Lese- und Multiplikationsvorgang wird für die anderen 61 bekannten Zeichen des Zeichensatzes wiederholt, wodurch 61 weitere Produkte entstehen, deren jedes eine Zeichenvergleichsfunktion des unbekannten Zeichens mit der gespeicherten Darstellung eines der bekannten Zeichen im Zeichensatz ist.
Im Akkumulator 18/1 werden die Produkte getrennt für die drei Zeichenarten aufsummiert und nach Addition des 62. Produkts werden die Gesamtsummen auf eine Größtwertauswahlschaltung 20/4 gegeoen. Diese Schaltung bestimmt die Summe der drei, die den größten Wert aufweist, und damit die Zeichenart des unbekannten Zeichens. Nach jeder Zeichenartbestimmung wird ein den Binärwert 1 darstellendes Signal über eine der Ausgangsleitungen 20 B der Größtwertauswahlschaltung 20/4 auf das entsprechende von drei Schieberegistern 22/1 gegeben.
Jedes dieser Schieberegister 22/4 hat 101 Positionen, in denen die Ergebnisse der letzten 101 Zeichenartbestimmungen gespeichert sind. Anfang und Ende der Operation, d.h. die Abtastung der ersten oder letzten 100 unbekannten Zeichen soll in diesem Augenblick außer Betracht bleiben. Nach jeder Zeichenartbestimmung werden die Schieberegister 22/4 um eine Position nach rechts verschoben, so daß in der am weitesten links liegenden Stufe eines Registers eine 1 gespeichert ist, während die gleiche Position der beiden anderen Registern mit einer 0 belegt ist. Gleichzeitig werde η die Werte, die sich in der am weitesten rechts liegenden Position befinden - verständlicherweise handelt es sich dabei wiederum um eine Eins und zwei Nullen - aus dem Register herausgeschoben und nicht mehr weiter verwendet.
Demnach speichern die drei Schieberegister 22 A laufend die Resultate der lciztcn 101 Zeichenartbestimmungen. Unter der Voraussetzung, daß der Maximumdetektor 20/4 kein Zeichen zurückweist, werden sich also jeweils 101 binäre Einsen üben die drei Schieberegister verteilt befinden.
Jedes der Schieberegister 22 A besitzt 101 Aus-
gangsleitungen 22 B, für jede Stufe des Schieberegisters eine. Diese Ausgangsleitungen führen ein Signal, welches anzeigt, ob die zugehörige Stufe des Schieberegisters den Binärwert 0 oder 1 enthält. Die Leitungen 22 B sind mit drei Wichtungsschaltungen 24/1
ίο verbunden, deren Funktion darin besteht, den räumlich zentral innerhalb des Schieberegisters angeordneten Binärwerten 1 ein größeres Gewicht beizumessen. Das exakte Wichtungsschema ist natürlich von der Anwendung abhängig. Im vorliegenden Fall werden die elf zentral gelegenen Positionen des Schieberegisters (Position 46 bis 56) summiert, um die Häufigkeit des Binärwertes 1 festzustellen, und diese Summe wird verdoppelt. Die weiteren Binärwerte 1 im Schieberegister werden zu dieser verdoppelten Summe addiert, um eine einzige Summe zu erhalten, die repräsentativ ist für die gewichteten Werte, die während der letzten 101 Zeichenartbestimmungen für die drei Zeichenarten gespeichert wurden.
Durch die an die Wichtungsschaltungen 24/4 angeschlossenen Dekoder 24 B werden die in der oben beschriebenen Weise ermittelten Werte in Zeichenarthäufigkeitsfunktionen umgeformt, die bei der eigentlichen Zeichenerkennung benutzt werden. Diese Zeichenarthäufigkeitsfunktionen werden von den Decodern 24 B auf drei Pufferspeicher 24 C und von dort über die Leitungen 24 D auf drei Multiplikationsschaltungen 26/4 (Fig. 2E) gegeben. Die durch die Pufferspeicher 24C ausgeübte Zeitkontrolle bewirkt, daß die drei Zeichenarthäufigkeitsfunktionen zu dem Zeitpunkt auf die Multiplikationsschaltungen 26 A gegeben werden, zu dem die Zeichenvergleichsfunktionen des 51. Zeichens innerhalb des Zeichensatzes den anderen Eingang der Multiplikationsschaltungen 26/4 erreichen.
Die Zeichenvergleichsfunktionen sind - wie oben beschrieben - die 62 Produkte für jede Zeichenart, die durch die Multiplikationsschaltungen 14 G entwickelt wurden. Sie wurden im Pufferspeicher 16A so lange gespeichert, bis die dem zu identifizierenden Zeichen räumlich folgenden 50 Zeichen abgetastet, auf die Zeichenart untersucht und aus diesen Resultaten und den, die sich bei der Untersuchung der dem zu identifizierenden Zeichen vorausgehenden 50 Zeichen ergaben, die Zeichenarthäufigkeitsfunktionen bestimmt wurden.
Die 186 Zeichenvergleichsfunktionen (62 für jede Zeichenart) werden von den Pufferspeichern 16A in die drei Multiplikationsschaltungen 26/1 übertragen. In diesen werden jeweils die drei im Vergleich mit einem bekannten Zeichen gewonnenen Zeichenvergleichsfunktionen multipliziert mit den Zeichenarthäufigkeitsfunktionen und auf einen Akkumulator 26 B übertragen. Jede Multiplikation produziert eine modifizierte Zeichenvergleichsfunktion, und die drei Funktionen für jedes der 62 Zeichen werden aufeinanderfolgend im Akkumulator 26B summiert.
Diese Summe wird nun über die Torschaltung 26 D in eine Position des Registers 26£ gegeben. Wenn alle 62 Summen vom Akkumulator 26 B hergestellt und in das Register 26 £ übertragen wurden, werden sie auf einen Spitzenwertdetektor 26 F gegeben, der die Summe mit dem größten Wert feststellt und dadurch das Zeichen identifiziert.
709 620Π0Β
JiSL.
Aus dieser Beschreibung wird klar, daß die eigentliche Zeichenerkennung auf der aus dem Vergleich des unbekannten Zeichens mit dem in allen drei Zeichenarten enthaltenen bekannten Zeichen herrührenden Information basiert. Die in das Register 26 £ eingegebenen Summen sind die modifizierten Zeichenvergleichsfunktionen für jedes der 62 Zeichen innerhalb eines Zeichensatzes. Es wurde festgestellt, daß durch Anwendung dieses Zeichenerkennungsverfahrens eine Erkennung mit großer Sicherheit, d.h. eine geringe Fehlerrate erzielbar ist.
Bei Erkennung der ersten oder letzten hundert Zeichen einer Zeichenfolge arbeitet das System prinzipiell in gleicherweise wie oben beschrieben. Der einzige Unterschied besteht darin, daß die Zeichenarthäufigkeitsfunktionen von weniger als 101 Zeichenartbestimmungen abgeleitet werden müssen.
Die Schieberegister 22 A (Fig. 2D) werden vor Beginn der Operation auf 0 gestellt. Das erste Zeichen der Zeichenfolge wird identifiziert unter Benutzung einer von den ersten 51 Zeichen der Zeichenfolge abgeleiteten Zeichenarthäufigkeitsfunktion. Zur Erkennung des zweiten Zeichens innerhalb der Zeichenfolge basiert die Zeichenarthäufigkeitsfunktion auf der Zeichenartbestimmung der ersten 52 Zeichen der Folge, usw. Ähnlich ist die Arbeitsweise während der Erkennung der letzten 50 Zeichen einer Folge.
Die Steuer- und Taktgebersignalquellen, die zum Zusammenspiel aller Funktionen der beschriebenen Anordnung notwendig sind, werden durch den Block 30 in Fig. 2C dargestellt. Die Steuereinheit gibt sowohl Signale zur Einleitung von Operationen als sie auch Signale empfängt, die die Ausführung von Operationen anzeigen. Die Leitungen zwischen der Steuereinheit 30 und den Komponenten der Anordnung wurden der Übersichtlichkeit halber weggelassen; für die Funktion der Erfindung sind sie ohne Bedeutung.
Bei der Steuereinheit 30 kann es sich beispielsweise um eine programmier- oder steuerbare Einheit handeln, wodurch beispielsweise die Funktion der Wichtungsschaltungen 24A in einfacher und zweckentsprechender Weise von der Anwendung abhängig gemacht werden können.
Beispielsweise ist auch möglich, die Zeichenartauswahl in die eigentliche Zeichenerkennung eingreifen zu lassen: durch Auswahl des der bestimmten Zeichenart zugehörigen Pufferspeichers 16.4 mittels der als Torschaltungen wirksamen oder durch Torschaltungen ersetzten Multiplikationsschaltungen 26A ist ein Weglassen des Akkumulators 26 B möglich.
Auch kann beispielsweise ein Verfahren der zweifachen Abtastung der zu erkennenden Zeichen benutzt werden. Bei der ersten Abtastung wird die Zeichenart bestimmt, die daraus abgeleiteten Funktionen werden gespeichert und danach bei der zweiten Abtastung direkt die eigentliche Zeichenerkennung durch-
ao geführt.
Erwähnenswert erscheint noch, daß das Verfahren und die Anordnung auch zur Erkennung von unbekannten Zeichen benutzt werden kann, deren Zeichenart nur in ähnlicher Form in der Maschine als
as Darstellung gespeichert ist. Die kontinuierliche Entwicklung der Zeichenarthäufigkeitsfunktionen erlaubt diese Arbeitsweise. Die Genauigkeit kann noch gesteigert werden durch Erhöhung der Anzahl der in der Maschine gespeicherten Zeichenarten.
Schließlich soll noch darauf hingewiesen werden, daß die Einrichtung zur Durchführung des Verfahrens in Fig. 2 A bis 2E eine relativ große Anzahl von parallelarbeitenden Komponenten besitzt. Die Funktionen dieser Komponenten können natürlich bei Verminderung der Geschwindigkeit und bei gleichzeitiger Einsparung von Bauteilen auch seriell ausgeführt werden.
Hierzu 6 Blatt Zeichnungen

Claims (5)

Patentansprüche:
1. Verfahren zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge aus mehreren Zeichenarten, wobei zunächst eine maschinell verarbeitbare Darstellung jedes zu identifizierenden Zeichens der Zeichenfolge erzeugt, jede unbekannte Zeichendarstellung mit einer Vielzahl von bekannten Zeichendarstellungen jeder Zeichenart verglichen und die Zeichenart jedes unbekannten Zeichens aus dem vorhergegangenen Vergleich bestimmt wird, gekennzeichnet durch folgende Verfahrensschritte (Fig. 1):
- Ableitung einer Häufigkeitsverteilung jeder Zeicher.arf einer Zeichenfolge aus mehreren Zeichenartbestimmungen (24)
- Identifizierung jedes unbekannten Zeichens durch Vergleich der unbekannten Zeichendarstellung mit bekannten Zeichendarstellungen unter Berücksichtigung der Häufigkeitsverteilung, die für das zu identifizierende Zeichen und die es umgebende Zeichenfolge bestimmt wurde.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das unbekannte Zeichen als Binärwort mit einer vom Abtastverfahren abhängigen, bestimmten Ordnung dargestellt wird und daß als Darstellung jedes bekannten Zeichens die Wahrscheinlichkeiten für das Aultreten der Binärwerte »0« und »1 χ innerhalb eines in gleicher Ordnung befindlichen Wortes gespeichert sind.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Vergleich eines unbekannten und eines bekannten Zeichens durch Multiplikation der durch die Werte des Binärwortes des unbekannten Zeichens bestimmten Wahrscheinlichkeiten der Darstellung des bekannten Zeichens vorgenommen wird und daß die erhaltenen Wahrscheinlichkeitsprodukte für jede Zeichenart getrennt summiert werden und das unbekannte Zeichen derjenigen Zeichenart zugeordnet wird, deren Summe den größten Wert aufweist.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Bestimmung der Häufigkeitsfunktionen den innerhalb einer Zeichenfolge dem zu identifizierenden Zeichen räumlich am nächsten liegenden Zeichen ein höheres Gewicht beigemessen wird.
5. Einrichtung zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Vorrichtung (12, 12 B) zum Abtasten von Zeichen, die für jedes abgetastete Zeichen ein Binärwort als Ausgangssignal abgibt, über ein Register (12C) mit mehreren Speichern (14/4-1, 14/1-2, 14/4-3) verbunden ist, deren jeder die Wahrscheinlichkeitsdarstellung aller bekannten Zeichen einer Zeichenart enthält, daß an jedem Speicher (14/1-1, 14/1-2, 14/1-3) über ODER-Schaltungen (14£) und ein Register (14F) ein Multiplikator (14 G) angeschlossen ist, dessen Ausgang sowohl mit einer Summierschaltung (Akkumulator 18A) als auch mit einem Zwischenspeicher (Puffer 16A) verbunden ist, daß die Ausgänge aller Summierschaltungen (Akkumulatoren 18A) an eine Größtwertauswahlschaltung (20A) angeschlossen sind, die eine binäre »1« jeweils einem der festgestellten Zeichenart zugeordneten Schieberegister (22A) zuführt, und alle Schieberegister (22A) nach Abtastung eines Zeichens weitergeschaltet werden, daß die Ausgangsleitungen (22 B) jeder Stufe eines Schieberegisters (22/4) mit einer Wichtungsschaltung (24A) verbunden sind, deren Ausgangssignal über einen Decoder (24 B) einer an die genannten Zwischenspeicher (16/1) angeschlossenen Multiplikationsschaltung (26^4) zugeführt werden und daß die Ausgänge aller Multiplikationsschaltungen (26/1) über eine Summierschal tun° (Akkumulator 26 B) an ein durch Torschaltungen (26D) gesteuertes Register (26 E) angeschlossen sind, dessen Ausgangsleitungen mit einer die unbekannten Zeichen identifizierenden Größtwertauswahlschaltung (Spitzenwertdetektor 26F) verbunden sind.
DE19702001663 1969-01-15 1970-01-15 Verfahren und Vorrichtung zur Zeichenerkennung Expired DE2001663C3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79122269A 1969-01-15 1969-01-15
US79122269 1969-01-15

Publications (3)

Publication Number Publication Date
DE2001663A1 DE2001663A1 (de) 1970-07-23
DE2001663B2 DE2001663B2 (de) 1976-09-30
DE2001663C3 true DE2001663C3 (de) 1977-05-18

Family

ID=

Similar Documents

Publication Publication Date Title
DE3851867T2 (de) Zeichenerkennungsgerät.
DE2909153C2 (de) Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern
EP0312905B1 (de) Verfahren zur automatischen Zeichenerkennung
DE2755875C2 (de)
DE2654765C3 (de) Einrichtung zum Dekodieren von Daten, die in einer vorgegebenen Anzahl abwechselnd aufeinanderfolgender Striche und Leerfelder von verschiedenen Breiten kodiert sind
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE3112958A1 (de) "tastenfeld mit signalaufbereitungsschaltung fuer elektrische geraete"
DE2946857A1 (de) Wortspeichergeraet
DE3633743A1 (de) Zeichenerkennungssystem
DE2540101A1 (de) Automatisches zeichenerkennungs- system
DE68927625T2 (de) Folgenkollationierungssystem zum Suchen nach einer Charakterfolge willkürlicher Länge innerhalb eines gegebenen Abstands einer Referenzfolge
DE2106308B2 (de) Schwellwert-Steuerschaltung für die Erkennung von Zeichen auf einem Schriftstück
DE2836725A1 (de) Zeichenerkennungseinheit
DE1774314B1 (de) Einrichtung zur maschinellen zeichenerkennung
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
DE69030614T2 (de) Gerät zur Erkennung handgeschriebener Zeichen
DE68925312T2 (de) Verfahren zur Pixelfarbenwahrscheinlichkeitsbestimmung zur Verwendung in OCR-Logik
DE1212758B (de) Verfahren und Schaltungsanordnung zur maschinellen Erkennung von Schriftzeichen
DE69112434T2 (de) Kurvengenerator.
DE102014105218A1 (de) Suchvorrichtung mit Verwendung von endlichen Automaten für Teilworte
DE2064469A1 (de) Mustererkennungseinrichtung
DE3836789A1 (de) Vorrichtung zur erzeugung von helligkeitsstufen auf einem anzeigeschirm
DE2001663C3 (de) Verfahren und Vorrichtung zur Zeichenerkennung
DE1524416A1 (de) Anordnung zur Auswahl von Datenreferenzen zum Quervergleich mit einem unbekannten Datensatz
DE2823679C2 (de)