DE68915950T2

DE68915950T2 - Verfahren zum Trennen von Zeichen.

Info

Publication number: DE68915950T2
Application number: DE68915950T
Authority: DE
Inventors: Oleg Feldgajer
Original assignee: NCR Corp
Current assignee: NCR International Inc
Priority date: 1988-11-16
Filing date: 1989-11-15
Publication date: 1995-02-02
Anticipated expiration: 2009-11-16
Also published as: EP0369761A3; EP0369761A2; JP3035309B2; JPH02165392A; US4932065A; EP0369761B1; DE68915950D1; CA1316606C

Description

Diese Erfindung bezieht sich auf eine Methode zur Segmentierung von Zeichenabbildern, einschließlich des Schritts der Darstellung einer Matrix von Abbilddaten, wobei die Matrix aus Zeilen und Spalten binärer Bildelemente besteht, die einem Beleg zugeordnet sind, auf welchem sich mindestens ein Zeichenfeld befindet.
In den letzten Jahren hat sich ein Trend abgezeichnet, Abbilder von Belegen zu erstellen und, wo immer möglich, die Abbilder der Belege beim Verarbeiten der Information über die Belege zu verwenden. So können z. B. Belege wie Schecks und Einzahlungsscheine dadurch abgebildet werden, daß die Belege an einem Scanner vorbei bewegt werden, der jeden Beleg scannt und von jedem Beleg eine Matrix von "Pixel"-Daten (Bildelementdaten) erstellt. Ein Pixel oder Pel ist als ein Bildelement definiert, das sich auf einen kleinen Bereich des Belegs bezieht, der gescannt wird. Es können sich z. B. 600 oder 900 Bildelemente in einer Scanzeile oder einer vom Scanner erstellten Spalte befinden. Wenn der Beleg beim Abbilden am Scanner vorbei bewegt wird, erstellt der Scanner eine Aufeinanderfolge von Bildelement-Scanzeilen, um für jeden Beleg eine Matrix von Bildelementen zu erstellen.
Die Bildelementmatrix vom Scanner wird zum Beispiel durch Schwellenwertbildungen verarbeitet, um jedes Bildelement auf eine binäre "1" oder eine binäre "0" zu reduzieren, wobei die binäre 1 die Anwesenheit von Daten und eine binäre 0 die Abwesenheit von Daten darstellt. Durch diese Technik wird eine Bildelementmatrix für jeden Beleg erlangt, wobei die Bildelementmatrix mit dem Abbild des Belegs korrespondiert. Die einem Beleg zugeordnete Bildelementmatrix kann beispielsweise in einem Arbeitsspeicher gespeichert oder auf einem CRT-Bildschirm abgebildet werden, um von einem Bediener bei der Ausführung von abschließender Datenverarbeitung beispielsweise in einem Bankumfeld eingesehen zu werden.
Wie bereits oben erwähnt, enthält die einem Beleg zugeordnete Bildelementmatrix Abbilddaten über diesen Beleg. Wenn es sich bei den zu bearbeitenden Belegen um Bankbelege wie z. B. Schecks handelt, gibt es bestimmte Felder auf dem Scheck, die von Maschinen gelesen werden. Die zu lesenden Felder enthalten Zeichendaten, die in bestimmten Schriftarten wie z. B. E13B und CMC7 gedruckt sind. Bei einer Auflösung von beispielsweise circa 200 Bildelementen pro Zoll (25, 4 mm) auf der Scanzeile ist es möglich, bei der Verwendung der Bildelementmatrix die Zeichen in den Feldern mittels optischer Zeichenerkennungstechniken mit der Maschine zu lesen.
Ein Problem beim Arbeiten mit einer Bildelementmatrix ist, daß es nach dem Auffinden des das Zeichen enthaltenden Felds notwendig ist, die Bildelementmatrix in diesem bestimmten Feld zu segmentieren, um die einem Zeichen zugeordneten Bildelemente von den restlichen Zeichen in dem Feld zu trennen. Wenn die jedem Zeichen zugeordneten Bildelemente von dem zugeordneten Feld segmentiert werden, können sie Zeichenerkennungstechniken unterzogen werden. Zu solchen Techniken können beispielsweise gegenverbreitende Neuronalnetze oder andere Netze gehören, die zur Zeichenerkennung verwendet werden können.
JP-A-57 50 076 lehrt die Überlagerung aller Zeichen des Schriftartsatzes entlang einer Zeile (bei bekannter Zeichendichte) zur Bildung eines Zeichenfolgeprofils, das zur Identifizierung von Segmentierungslücken in einer Zeichenfolge verwendet wird, während FR-A-2 475 257 die aufeinanderfolgenden Korrelationen einer Bildelementmatrix lehrt, die ein unbekanntes Zeichen mit den Bildelementmatrizes der jeweiligen Bezugszeichen darstellt, um eine Erkennungsentscheidung zu treffen.
Es ist ein Gegenstand der vorliegenden Erfindung, eine Methode zur Segmentierung von Zeichenabbildern zu erstellen, die für verschiedene Zeichensätze oder Schriftarten verwendet werden kann.
Daher wird laut der vorliegenden Erfindung eine Methode zur Segmentierung von Zeichenabbildern der dargelegten Art erstellt, die durch folgende Schritte charakterisiert wird: (a) Wahl eines Prüffensters, dessen Größe eine vorbestimmte Anzahl von Zeilen und Spalten mit den Bildelementen umfaßt, die einem Zeichen in den Abbilddaten zugeordnet sind; (b) Errechnen einer Wahrscheinlichkeitsdichte für jedes Bildelement innerhalb des Prüffensters für jedes Zeichen in einem zu segmentierenden Zeichensatz, um eine zusammengesetzte Wahrscheinlichkeitsdichte für jedes Bildelement innerhalb des Prüffensters zu erstellen; (c) Positionieren des Prüffensters über einem Teil eines solchen Felds; (d) Erlangen eines Gesamtwerts für das Prüffenster durch Verwendung jedes Bildelements mit binären Einsen im Prüffenster und seiner zugeordneten zusammengesetzten Wahrscheinlichkeitsdichte; (e) Bewegen besagten Prüffensters in bezug auf besagtes Feld und Wiederholung von Schritt (d), um einen maximalen Gesamtwert für das Prüffenster zu erlangen; (f) Verwendung des besagten, durch Schritt (e) erlangten Gesamtwerts als ein Anzeichen dafür, daß das Prüffenster Bilddaten enthält, die einem Zeichen in dem Zeichensatz zugeordnet sind, und (g) Wiederholen der Schritte (c) bis (f) für die verbleibenden Bilddaten, die besagtem Feld zugeordnet sind.
Nunmehr wird ein Ausführungsbeispiel der vorliegenden Erfindung anhand eines Beispiels mit Bezug auf die begleitenden Zeichnungen beschrieben, wobei:
Abb. 1 ein generelles schematisches Diagramm ist, das eine Vorrichtung zeigt, die zur Ausführung dieser Erfindung verwendet werden kann;
Abb. 2 ein schematisches Diagramm ist, das eine Datenmatrix zeigt;
Abb. 3 ein schematisches Diagramm ist, das ein "Überlagerungsfenster" zeigt, welches bei der Ausführung dieser Erfindung verwendet wird;
Abb. 4 ein schematisches Diagramm ist, das die Wahrscheinlichkeitsdichte für jedes der Bildelemente in einem Prüffenster für einen Satz von Zeichen in einem bestimmten Schrifttyp oder einer bestimmten Schriftart zeigt, wobei die Größe des schwarzen Quadrats (falls vorhanden) innerhalb eines Bildelements die Wahrscheinlichkeitsdichte dieses Bildelements darstellt;
Abb. 5 ein Flußdiagramm ist, das einen Prozeß zum Lokalisieren von Datenfeldern beim Prüfen der Zeilen mit Bildelementdaten in einer Datenmatrix für einen Beleg zeigt;
Abb. 6 ein schematisches Diagramm ist, das eine Matrix aus Binärdaten zeigt, die einem Beleg zugeordnet sind;
Abb. 7 eine Tabelle ist, welche die Anfangs- und Endzeilen und die Anfangs- und Endspalten zeigt, die bestimmten Feldern der in Abb. 6 gezeigten Datenmatrix zugeordnet sind, wie in einem idealen Umfeld festgelegt;
Abb. 8 eine Tabelle ähnlich der in Abb. 7 ist, in der die gezeigten Werte jedoch dem entsprechen, was in einem störungsreichen Umfeld zu erwarten ist;
Abb. 9 ein Flußdiagramm ist, das einen Prozeß zum Lokalisieren von Datenfeldern beim Prüfen der Datenspalten in einer Datenmatrix für einen Beleg zeigt, und
Abb. 10 ein schematisches Diagramm ist, welches ein Überlagerungsfenster zeigt, das über einem Teil des in der Datenmatrix enthaltenen Zeichenfelds positioniert ist.
Nunmehr wird ein Prozeß zur Segmentierung von Bildelementdaten beschrieben, die einem Zeichen aus einer Bildelementmatrix in einem optischen Abbildsystem mit Mehrfachzeichensatz zugeordnet sind, um es den einem Zeichen zugeordneten Bildelementdaten zu gestatten, ein Zeichen zur Verwendung in nachfolgenden Arbeitsvorgängen wie z. B. der Zeichenerkennung auszuwählen. Zur Beschreibung des Prozesses ist es hilfreich, auf Abb. 1 Bezug zu nehmen, in welcher die Vorrichtung 10 gezeigt wird, die zur Ausführung der Erfindung verwendet werden kann.
Die Vorrichtung 10 beinhaltet eine Artikelbeförderung 12, die einen Artikel, wie z. B. einen Beleg 14 auf eine Scannerzeile 16 zu bewegt, wo der Beleg 14 auf konventionelle Weise von einem Scanner 18 abgebildet wird. Der Scanner 18 produziert beim Vorbeibewegen des Artikels 14 in einer Ablesebeziehung zum Scanner 18 eine Aufeinanderfolge von Scanzeilen oder Spalten von Bildelementdaten oder Bildelementen. Der Scanner 18 könnte beispielsweise ebenso ein Handscanner sein, der zum Zweck des Ablesens über einen stationären Beleg bewegt wird. Vom Scanner 18 wird die Aufeinanderfolge von Bildelementspalten verarbeitet, um die mit den Bildelementen verbundenen Störungen zu minimieren und die Bildelemente durch Schwellenwerte in eine binäre "1" zu verarbeiten, die die Anwesenheit von Daten darstellen kann, und eine binäre "0", welche die Abwesenheit von Daten darstellt. Diese Verarbeitung wird durch konventionelle Schaltlogik bewirkt, die lediglich als Verarbeitungsschaltlogik 20 gezeigt ist. Die Ausgabe der Verarbeitungsschaltlogik 20 ist eine Matrix 22 von (unverdichteten) Binärdaten oder Bildelementen, die mit dem Abbild des zugeordneten Belegs 14 korrespondiert. Die Datenmatrix 22 kann beispielsweise circa 900 Bildelemente pro Spalte mit einer Auflösung von 200 Bildelementen pro Zoll (25,4 mm) enthalten. Natürlich hängt die Gesamtgröße der Datenmatrix 22 von einer bestimmten Anwendung ab, jedoch ist die bestimmte Größe weder für ein Verständnis dieser Erfindung noch für ihren Betrieb von Wichtigkeit. Der Scanner 18 und die Artikelbeförderung 12 können beispielsweise durch einen separaten Regler 24 geregelt werden oder aber durch einen Regler 26, der dazu verwendet wird, die Daten- oder Bildelementmatrix 22 zu verarbeiten.
Der Regler 26 (Abb. 1) ist ein konventioneller Regler, der dazu verwendet werden kann, die Bildelementmatrix 22 laut dieser Erfindung zu verarbeiten. Der Regler 26 beinhaltet einen Nur-Lese- Speicher (ROM 28), einen Arbeitsspeicher (RAM 30), eine Tastatur (32), eine Anzeige 34, Schnittstellen 36 und 38 und Schnittstellen- und Schaltlogik 40, die zum konventionellen Verbinden aller abgebildeten Bauteile verwendet wird. Die Form des abgebildeten Reglers 26 wird einfach nur dazu verwendet, eine Diskussion der Arbeitsweise des Reglers 26 zu ermöglichen.
Bevor die einzelnen Schritte des dieser Erfindung entsprechenden Segmentierprozesses von Bildelementdaten, denen ein Zeichen zugeordnet ist, im Detail diskutiert werden, ist es nützlich, einige Betriebsgrundsätze des Prozesses zu diskutieren, der im folgenden generell als Prozeß 42 bezeichnet wird.
Wenn man eine Bildelementmatrix hat, die mit dem Abbild eines Belegs wie beispielsweise Beleg 14 korrespondiert, so ist es mitunter schwierig
herauszufinden, an welcher genauen Stelle sich die bestimmte Information oder die gesuchten Daten in der Matrix befinden. Man nehme z. B. an, daß die in Abb. 2 gezeigte Bildelementmatrix 44 (ähnlich der in Abb. 1 gezeigten Datenmatrix 22) mit dem Abbild eines Belegs 14 korrespondiert. Man nehme ebenfalls an, daß sich die gesuchten Abbilddaten oder Bildelemente in Feld #1 und Feld #2 befinden. Das gesamte in Abb. 2 gezeigte Abbild kann als eine Anzahl von Datenspalten und eine Anzahl von Daten- oder Bildelementzeilen ausgedrückt werden, die in dem beschriebenen Beispiel entweder binäre Einsen oder Nullen sind. So kann z. B. Spalte 0 auf der rechten Seite des Belegs 14 beginnen, während Spalte 600 auf die linke Seite des Belegs 14 zugeht. Entsprechend erscheint Zeile 1 am oberen Ende des Belegs 14, während Zeile 500 auf das untere Ende des Belegs 14 zugeht. Dementsprechend korrespondiert die obere rechte Ecke der Matrix 44 (Abb. 2) mit der oberen rechten Ecke des in Abb. 1 gezeigten Belegs 14. Natürlich können die Spalten und Zeilen auch umgekehrt sein, z. B. in Abhängigkeit des Vorgehens beim Scannen der Belege.
Der erste generelle Schritt beim Prozeß des Lokalisierens der in Abb. 2 gezeigten Felder #1 und #2 ist das vertikale und horizontale Verarbeiten der Bildelemente in der Matrix 44. Durch Prüfen der Bildelemente in der Matrix 44 wird festgestellt werden, daß die dem Feld #1 zugeordneten schwarzen Bildelemente oder Bildelemente mit binärer 1 in dem beschriebenen Beispiel bei Spalte 75 beginnen und in Spalte 175 enden. Beim Prüfen der Bildelemente in entgegengesetzter oder Zeilenrichtung kann festgestellt werden, daß Feld #1 bei Zeile 400 beginnt und bei Zeile 430 endet. Entsprechend wird man feststellen, daß Feld #2 bei Spalte 325 beginnt und bei Spalte 525 endet, und man wird ebenfalls feststellen, daß sich dieses Feld zwischen Zeile 450 und Zeile 480 erstreckt. Diese Prüfung kann von einem Regler 26 in Zusammenwirkung mit einem geeigneten Softwareprogramm ausgeführt werden, das im zugeordneten ROM 28 oder RAM 30 resident ist.
Das in bezug auf Abb. 2 diskutierte Konzept der Felder #1 und #2 wird dazu verwendet, die Verarbeitung der in einer Bildelementmatrix 44 enthaltenen Bildelemente zu beschleunigen. Wenn man beispielsweise die Breite von Feld #1 kennt, so kann man nach Auffinden der ganz rechts liegenden Kante (wie in Abb. 2 zu sehen) dieses Felds die für das Feld geeignete Anzahl von Bildelementspalten extrahieren. In dem beschriebenen Beispiel erstreckt sich die Breite von Feld #1 zwischen Spalte 75 und Spalte 175. Natürlich würde die für das Feld geeignete Anzahl von Bildelementzeilen ebenfalls extrahiert werden. In dem beschriebenen Beispiel erstreckt sich Feld #1 zwischen Zeile 400 und 430. Ein weiterer, hierin hervorzuhebender Punkt ist, daß obschon die bestimmten Zahlen, die in den Feldern #1 und #2 gezeigt sind, in deutlicher Druckschrift gezeigt sind, um eine Demonstration zu erleichtern, würden die Zahlen tatsächlich in den verschiedenen Schriftarten erscheinen, die hier an früherer Stelle erwähnt wurden.
Ein weiteres Konzept, das bei dem Prozeß 42 verwendet wird, ist ein Prüffenster, das als "Überlagerungsfenster" bezeichnet ist. Das Überlagerungsfenster ist dazu ausgelegt, die einem individuellen Zeichen zugeordneten Bildelemente zum Zweck der Prüfung einer bestimmten Schriftart zu bedecken oder zu umfassen. Wenn z. B. Zeichen in der hier an früherer Stelle erwähnten Schriftart E13B gedruckt sind, ist die Zeichendichte für diese Schriftart 0,125 Zoll (3,2 mm). Die Dichte wird als die Distanz von der Führungskante des einen Zeichens zur Führungskante des nächsten, benachbarten Zeichens definiert. Setzt man voraus, daß die Auflösung des zugeordneten Scanners 18 (Abb. 1) 200 Bildelemente pro Zoll (25,4 mm) ist, so hätte das sich daraus ergebende Überlagerungsfenster eine Breite von 25 Bildelementen (0,125·200). Die tatsächliche Höhe eines in der E13B-Schriftart gedruckten Zeichens beträgt 0,117 Zoll (2,97 mm); demnach beläuft sich die Anzahl der in der Höhe des Überlagerungsfensters beinhalteten Bildelemente auf 24. Natürlich hängt die Anzahl der im Überlagerungsfenster beinhalteten Bildelemente von einer bestimmten gewählten Schriftart und von der Auflösung des zugeordneten Scanners 18 ab, der verwendet wird. Außerdem können mit dieser Erfindung zusätzlich auch andere, nicht erwähnte Schriftarten verwendet werden. Mit anderen Worten, jede verwendete Schriftart hat ihr eigenes, bestimmtes Überlagerungsfenster.
Ein Prüffenster oder Überlagerungsfenster 46 ist allgemein in Abb. 3 gezeigt, wobei die vertikalen Spalten mit der in Abb. 1 gezeigten Scannerzeile 16 korrespondieren und wobei die Quadrate 48 und 50 mit durch Schwellenbildung verarbeiteten Binärdaten korrespondieren, die in einer Scannerzeile 16 Bildelemente darstellen.
Ein Merkmal dieser Erfindung ist, daß Neuronalnetztechnologie oder konventionelle Techniken verwendet werden können, um eine statistisch gleichmäßig verteilte Wahrscheinlichkeitsdichte für jedes im Überlagerungsfenster 46 befindliche Bildelement für einen gesamten Zeichensatz zu erhalten, der in einer bestimmten ausgewählten Schriftart enthalten ist. Die Bedeutung der vorstehenden Aussage wird durch ein Beispiel mehr Klarheit erlangen, das seine Herleitung erklärt.
Um ein Beispiel zu geben, muß das Überlagerungsfenster 46 "trainiert" werden, um es dem Prozeß 42 zu ermöglichen, die Segmentierung auszuführen, auf die hier an früherer Stelle verwiesen wurde. Der Trainingsprozeß kann damit beginnen, daß ein bekanntes Zeichen der Prüfung des Überlagerungsfensters 46 unterzogen wird. Diesbezüglich kann die Zahl 1 dem Fenster 46 präsentiert werden, wie in Abb. 3 gezeigt. Zur Vereinfachung der Diskussion nehme man an, daß die Zahl 1 dadurch einfach gestaltet ist, daß sie sich nur über 2 Spalten erstreckt, nämlich über die Spalten X und Y. Natürlich kann sich die Zahl 1, wenn sie in der bestimmten gewählten Schriftart gedruckt ist, über mehr als die beiden erwähnten Spalten erstrecken. Die binären Bildelementdaten würden für dieses Beispiel binäre Einsen in den Spalten X und Y enthalten, wobei bei sämtlichen restlichen Spalten im Überlagerungsfenster 46 binäre Nullen vorliegen. In Abb. 3 sind nur die binären Einsen gezeigt, um deren Demonstration zu vereinfachen. Der Regler 26 registriert oder zählt dann mittels der ihm zugeordneten und beispielsweise im RAM 30 gespeicherten Software die in jeder der Zeilen- und Spaltenpositionen des Überlagerungsfensters 46 vorhandenen binären Einsen.
In Fortsetzung des erwähnten Trainingsprozesses wird dem Überlagerungsfenster 46 ein zweiter Abtastwert der Zahl 1 präsentiert. Wiederum werden alle binären Einsen registriert oder gezählt, die im Überlagerungsfenster 46 für die darin enthaltenen diversen Zeilen- und Spaltenpositionen vorhanden sind. Man nehme wiederum an, daß alle binären Einsen in den Spalten X und Y erscheinen, was zu dem Ergebnis führt, daß in jeder der Zeilenpositionen der X- und Y-Spalten eine Summe von 2 enthalten ist. Man nehme an, daß derselbe Prozeß für acht weitere Abtastwerte wiederholt wird, was eine Summe von 10 Abtastwerten ergäbe. Das bedeutet, daß jede der Zeilenpositionen für die Spalten X und Y in sich einen Additionswert von 10 hätte. Diese erwähnten Additionswerte werden im RAM 30 des Reglers 26 in Positionen gespeichert, welche die zugeordneten Zeilen- und Spaltenpositionen für alle Bildelemente im Überlagerungsfenster 46 anzeigen. Um das Erlangte in eine verkürzte Ausdrucksweise zu fassen, kann man sagen, daß eine zweidimensionale Wertefeldgruppe von Werten für die Zahl 1 in der bestimmten Schriftart erlangt wurde.
Der im vorangehenden Absatz beschriebene Prozeß wird für alle Zeichen in der bestimmten Schriftart wiederholt. Mit anderen Worten, es werden 10 Abtastwerte für die Ziffer "2", Ziffer "3" usw. für alle Zeichen in dem Zeichensatz erlangt, der einer Segmentierung unterzogen werden soll. Es wird praktisch für jedes Zeichen der Schriftart seine eigene zweidimensionale Wertefeldgruppe (durch Zählen von binären Einsen) errechnet. Dann werden sämtliche errechneten Wertefeldgruppen für jedes Zeichen in dem Satz nach Zeilen- und Spaltenposition addiert, um zu zusammengesetzten Summen für jede Biidelementposition im Überlagerungsfenster 46 zu gelangen. Die zusammengesetzten Summen könnten auch als ein gewichteter Gesamtwert betrachtet werden. Wenn z. B. das Bildelement 52 in der linken oberen Ecke des Überlagerungsfensters 46 für keines der in der bestimmten diskutierten Schriftart enthaltenen Zeichen eine binäre 1 beinhaltet, dann ist die Wahrscheinlichkeit, daß diese Bildelementposition durch ein E13B-Zeichen auf eine binäre 1 gestellt wird gleich Null. Je höher der Wert oder Additionswert für eine bestimmte Bildelementposition ist, desto höher ist die Wahrscheinlichkeit, daß dieses bestimmte Bildelement auf eine binäre 1 gestellt wird, wenn ein Zeichen von einer zugeordneten Schriftart im Überlagerungsfenster 46 vorhanden ist. Bei einem Ausführungsbeispiel hat das Überlagerungsfenster eine Größe von 20 Bildelementen Breite mal 24 Bildelementen Höhe (wie in Abb. 3 zu sehen), was eine Matrix von 480 Bildelementen ergibt.
Abb. 4 zeigt ein anderes Ausführungsbeispiel, in dem das Überlagerungsfenster 48 eine Größe von 16 Bildelementen Breite und 22 Bildelementen Höhe hat, wobei die Werte für die einzelnen Bildelemente für den gesamten Zeichensatz gezeigt werden. Die Werte sind durch die jeweilige Größe der schwarzen Quadrate (falls vorhanden) innerhalb der Bildelementbereiche gezeigt. So bedeutet z. B. die Tatsache, daß Bildelement 50 völlig weiß ist, daß die Wahrscheinlichkeitsdichte für dieses Bildelement Null ist. Das völlig schwarze Bildelement 52 repräsentiert eine sehr hohe Wahrscheinlichkeitsdichte für dieses Bildelement für die bestimmte Schriftart, welches durch den in bezug auf Abb. 3 diskutierten Prozeß erlangt wurde. Das Bildelement 54 repräsentiert eine geringe, aber vorhandene Wahrscheinlichkeitsdichte.
Nachdem das Überlagerungsfenster 46, wie beschriebene trainiert ist, können zusätzliche Schritte im Prozeß 42 genutzt werden. Die Datenmatrix 22 (Abb. 1) für einen bestimmten Beleg 14 kann im RAM 30 des Reglers 26 gespeichert werden, wie bereits zuvor beschrieben. Wenn an der Datenmatrix 22 für einen bestimmten Beleg 14 gearbeitet werden soll, wird sie vom RAM 30 abgerufen und geprüft, um die Felder #1 und #2 aufzufinden, wie bereits zuvor allgemein beschrieben.
Abb. 6 zeigt eine Datenmatrix für einen Beleg, wobei die Matrix mit 56 bezeichnet ist und wobei die Daten aus binären Einsen und Nullen bestehen, wie bereits zuvor beschrieben. In Abb. 6 sind nur die Daten in bezug auf die Felder #1 und #2 gezeigt, um die Zeichnung zu vereinfachen; wie bereits zuvor diskutiert, ist jedoch nicht genau bekannt, wo sich die Datenfelder befinden. Für diese Datenmatrix 56 erscheinen die Anfangsdatenzeilen am unteren Ende des Belegs statt an dessen oberem Ende, wie in bezug auf Abb. 2 diskutiert.
Ein Teil des Prozesses 42 beinhaltet das Scannen oder Prüfen der Datenmatrix 56 (Abb. 6) durch den in Abb. 5 gezeigten Prozeß, um bestimmte Datenfelder oder -bereiche auf dem Beleg zu lokalisieren. So kann beispielsweise Feld #1 der Geldbetrag des Belegs sein, während sich Feld #2 beispielsweise auf bestimmte Bank- oder Kundenkontencodes bezieht. Es sollte beachtet werden, daß beispielsweise in den USA die Felder in magnetischer Druckfarbe in der E13B-Schriftart auf dem Beleg selbst gedruckt sind; jedoch beziehen sich die hierin erwähnten Abbild- und Zeichenerkennungstechniken auf optische Datenverarbeitung.
Um die Verarbeitung der Daten, die den in Abb. 6 gezeigten Abbilddaten zugeordnet sind, fortzusetzen, beinhaltet der Prozeß 42 das Scannen der Abbilddaten in einer horizontalen Richtung, wie in Abb. 5 gezeigt. Wie bereits zuvor dargelegt, wird die Abbilddatenmatrix 56 im RAM 30 des Reglers 26 gespeichert, und es kann beispielsweise eine im RAM 30 gespeicherte Softwareroutine dazu verwendet werden, die Daten wie in Abb. 5 gezeigt zu verarbeiten.
Das Verarbeiten oder Scannen der Datenmatrix 56 wird ausgeführt, um die Begrenzungen oder die Anfangszeile und die Endzeile der den in Abb. 6 gezeigten Felder #1 und #2 zugeordneten Daten festzulegen. Diesbezüglich umfaßt der Prozeß 42 (Abb. 5) den von Block 58 gezeigten Anfangsschritt. Im Prinzip scannt der Prozeß 42 die Datenmatrix 56, indem er immer eine Zeile durch Suchen nach einer binären "1" in dieser Zeile prüft; dies ist durch Block 60 gezeigt. Eine Leerzeile ist eine Zeile, in der sich keine binäre 1 befindet. Wenn die Zeile leer ist (Block 62), holt sich der Prozeß die nächste Datenzeile (Block 64) und sucht wiederum nach einer binären 1 in dieser Zeile. In dem beschriebenen Prozeß wird das Scannen von der in Abb. 6 gezeigten untersten Zeile ausgehend vorgenommen und nach oben in Richtung der obersten Zeile (in Abb. 6 gezeigt) fortgesetzt. Wenn in einer bestimmten Zeile eine binäre 1 gefunden ist, wird diese Zeile als die Anfangszeile des Felds markiert (durch Block 66 repräsentiert). Diese Anfangszeile ist auch in einer in Abb. 7 gezeigten Tabelle 68 verzeichnet, wobei die Tabelle 68 auch im RAM 30 gespeichert ist. Aus Gründen der Veranschaulichung nehme man an, daß das Feld #1 bei Zeile 8 beginnt.
Der Prozeß 42 (Abb. 5) fährt mit dem Prüfen der nächsten Zeile fort, wie durch Block 70 dargestellt. Aller Wahrscheinlichkeit nach enthält diese nächste Zeile eine binäre 1, weshalb diese Zeile nicht "leer" ist, wie durch Block 72 dargestellt. An diesem Punkt ist es äußerst wahrscheinlich, daß die Höhe mindestens eines Zeichens angetroffen wird. Folgerichtig wird die nächste Zeile erlangt (Block 74), und dieser Prozeß wird wiederholt, bis eine Zeile ohne eine binäre 1 gefunden wird, womit angezeigt wird, daß diese Zeile leer ist (Block 72) und daß das Feldende erreicht ist, wie durch Block 76 dargestellt. Das Feldende oder die Endzeile wird dann in der Tabelle 68 vermerkt; man nehme an, die Endzeile sei 28, wie in Abb. 7 gezeigt. Wenn diese Zeile 28 beispielsweise nicht die letzte Zeile im Puffer oder RAM 30 für die zugeordnete Datenmatrix 56 ist, wie bei Block 78 abgefragt, wird der Prozeß mit dem Beginn bei dem als Block 60 abgebildeten Prüfschritt wiederholt. Wenn die Zeile 28 die letzte Zeile in der Datenmatrix 56 ist, wird der Prozeß beendet, wie in Block 80 angezeigt.
Eine logische Frage bezieht sich an diesem Punkt darauf, wie Anfangs- und Endzeilen für verschiedene Felder festgelegt werden, bei denen in bestimmten Zeilen überlappende Stücke vorliegen. Wenn mehr als ein Datenfeld auf einem wie in Abb. 6 gezeigten Beleg erwartet wird, ist es diesbezüglich besser, nach den Anfangs- und Endspalten der Felder #1 und #2 zu suchen, bevor man nach den zugeordneten Anfangs- und Endzeilen dieser Felder sucht. Dadurch, daß die Anfangs- und Endspalten beispielsweise für Feld #1 bekannt sind, können nur Rohdaten, die sich zwischen diesen Anfangs- und Endspalten befinden, zur Festlegung der Anfangs- und Endzeilen für dieses Feld in Betracht kommen.
Das Suchen nach Daten, die den in Abb. 6 gezeigten Feldern zugeordnet sind, ist beim Suchen in einer vertikalen Richtung durch den in Abb. 9 gezeigten Prozeß 42-1 gezeigt. Der Prozeß 42-1 zum Suchen in einer vertikalen Richtung ist mit dem bereits beschriebenen Prozeß 42 zum Suchen in einer horizontalen Richtung identisch. Folgerichtig sind die einzelnen in Abb. 9 gezeigten Schritte durch einzelne Blocks dargestellt, deren Nummern mit den in Abb. 5 gezeigten Blocks korrespondieren, wobei die in Abb. 9 gezeigten Blocks jedoch den Zusatz (-1) haben. So korrespondiert z. B. der Prüfschritt für Zeilen, der in Abb. 5 durch Block 60 dargestellt ist, mit dem Prüfschritt für Spalten, der durch Schritt 60-1 in Abb. 9 dargestellt ist.
Die aus dem Ablauf des Prozesses 42-1 (Abb. 9) erhaltenen Werte werden in der in Abb. 7 gezeigten Tabelle 68 gespeichert. Aus Gründen der Veranschaulichung nehme man an, die Anfangsspalte für Feld #1 sei 20 und die Endspalte für dieses Feld sei 120. Entsprechend sei die Anfangszeile und Endzeile für Feld #2 Zeile 4 bzw. 22, wobei die Anfangs- und Endspalten 200 und 600 seien. Die in Tabelle 68 gezeigten Werte sind einfach nur Werte zur Veranschaulichung in einem idealen Umfeld, das beispielsweise störungsfrei ist.
Abb. 8 ist eine Tabelle, die einige veranschaulichende Werte für Feld #1 zeigt, wenn die Werte für die Anfangs- und Endzeilen in einem störungsreichen Umfeld erlangt wurden. "Störungen" können beispielsweise von Tintenspritzern oder Hintergrunddaten auf dem Scheck 14 herrühren. Man beachte bei Tabelle 82, daß sich dort bei Zeile 1 eine Anfangszeile und bei Zeile 2 eine Endzeile befindet sowie eine zweite Gruppierung von Anfangs- und Endzeilen bei Zeile 8 bzw. 28. Das Steuerteil 26 weiß, wie die zu erwartenden Höhen der Felder #1 und #2 sind und wird dementsprechend die den Zeilen 1 und 2 zugeordneten Anfangs- und Enddaten als Störung zurückweisen und die Anfangs- und Endzeilen 8 und 28 als gültige Daten akzeptieren. Dasselbe Zurückweisen von Daten als Störung gilt auch beim Scannen der Spalten, da der Regler auch die Breite der zu erwartenden Felder kennt.
Nachdem die Extrema der Anfangs- und Endzeilen und Anfangs- und Endspalten für die diversen Felder, wie beschrieben, in einer bestimmten Datenmatrix 56 erlangt sind, ist der nächste Schritt im Prozeß 42 das Verwenden des Überlagerungsfensters 46, das bereits in bezug auf Abb. 3 diskutiert wurde. Wie bereits zuvor erwähnt, reflektiert die Größe des Überlagerungsfensters 46 die Auflösung des Scanners 18 und die tatsächliche Größe der Dichte und der Höhe eines Zeichens in der in einem Feld geprüften Schriftart. Das Feld #1, das bereits in bezug auf Abb. 6, 7 und 8 diskutiert wurde, ist in Abb. 10 in vergrößerter Form gezeigt. Der Regler 26 hat die dem Feld #1 zugeordneten Anfangs- und Endzeilen und Anfangs- und Endspalten in seinem RAM 30, und diese Abbilddaten werden extrahiert, um in bezug auf das Überlagerungsfenster 46 verarbeitet zu werden
Das Überlagerungsfenster 46 ist in Beziehung zum in Abb. 10 gezeigten Feld #1 positioniert, so daß der vertikale Mittelpunkt des Prüf- oder Überlagerungsfensters 46 einige Spalten vor dem Mittelpunkt der Dichte für das Zeichen positioniert ist, wenn in einer Prüfungsrichtung vorgegangen wird oder von der rechten Seite des Felds in Richtung auf die linke Seite, wie in Abb. 10 zu sehen. Man nehme beispielsweise an, daß das Überlagerungsfenster 46 eine Größe von 20 Bildelementen Breite und 24 Bildelementen Höhe hat und die Zeichendichte der zu segmentierenden Schriftart 20 eine Breite von 20 Bildelementen hat. In diesem Beispiel befindet sich der vertikale Mittelpunkt des Überlagerungsfensters 46 in Spalte 28, welche sich 8 Spalten von der Anfangsspalte befindet, wie in Abb. 10 gezeigt.
Bei einer wie in Abb. 10 gezeigten Position des Überlagerungsfensters 46 addiert der Regler 24 den Informationsinhalt des Überlagerungsfensters 46, um zu einer Summe für diese Fensterposition zu gelangen. Mit anderen Worten, es befinden sich in dem beschriebenen Beispiel 20·24 oder 480 Bildelemente in dem Überlagerungsfenster. Man erinnere sich daran, daß jedes der Bildelemente im Überlagerungsfenster 46 seine zugeordnete Wahrscheinlichkeitsdichte hat, die an früherer Stelle erlangt wurde, wie beim Training des Überlagerungsfensters 46 beschrieben. Jedes der 480 Bildelemente wird geprüft, um zu ermitteln, ob es eine binäre Eins oder Null ist. Für jedes Bildelement, das eine binäre 1 ist, addiert der Regler dessen zugeordnete Wahrscheinlichkeitsdichte, um einen Fenstergesamtwert oder eine Fenstersumme für diese bestimmte Fensterposition zu erhalten, die in dem beschriebenen Beispiel Zeile 28 ist. Andererseits kann der Fenstergesamtwert auch durch die Multiplikation einer im Überlagerungsfenster 46 gefundenen binären 1 mit ihrer zusammengesetzten oder zugeordneten Wahrscheinlichkeitsdichte und dem Addieren der sich daraus ergebenden Werte erlangt werden. Zur Veranschaulichung nehme man an, daß die in dem Beispiel beschriebene Fenstersumme 280 sei. Der Regler 26 bewegt dann das Überlagerungsfenster 46, um die Fenstersumme zu erlangen, wenn sich das Überlagerungsfenster 46 bei Spalte 29 befindet; in dieser Position sei die Fenstersumme 330. Entsprechend sei die Fenstersumme 310, wenn das Überlagerungsfenster 46 zur Spalte 30 bewegt wird. Man beachte, daß das Maximum oder die Fensterhöchstsumme erlangt wurde, als sich das Überlagerungsfenster 46 in dem beschriebenen Beispiel bei Spalte 29 befand. Das bedeutet, daß das Überlagerungsfenster 46 am genauesten in Beziehung zum ersten Zeichen im Feld #1 positioniert ist, wenn der vertikale Mittelpunkt des Prüffensters 46 sich bei Spalte 29 befand.
Nach dem Auffinden der Abbilddaten, die in dem beschriebenen Beispiel dem ersten Zeichen in Feld #1 zugeordnet sind, extrahiert der Regler 26 die Bildelemente, die im Überlagerungsfenster 46 enthalten waren, als dieses Fenster bei Spalte 29 vertikal zentriert war; diese Bildelemente innerhalb des Überlagerungsfensters 46 umfassen eine erste Zeichenbildelementmatrix. Diese erste Zeichenbildelementmatrix, die gerade zuvor vom Feld #1 segmentiert wurde, wird dann im RAM 30 gespeichert, um später Zeichenerkennungstechniken unterzogen zu werden, oder sie kann zur Zeichenerkennung zur "Dialogverarbeitung" verarbeitet werden.
Die Position der dem zweiten Zeichen im Feld #1 (Abb. 10) in dem beschriebenen Beispiel zugeordneten Abbilddaten ist wie folgt. Da sich der vertikale Mittelpunkt der ersten Zeichenbildelementmatrix bei Spalte 29 befindet, und weil die Zeichendichte der diskutierten Schriftart 20 ist, bewegt der Regler 26 dann das Überlagerungsfenster 46 in Position oder zentriert es bei Spalte 48. Die Position bei Spalte 48 wird dadurch hergeleitet, daß die Zeichendichte (20 Spalten) und die Position des vertikalen Mittelpunkts des vorigen Zeichens (Spalte 29) addiert und um eine Spalte (- 1 Spalte) zurückgestellt wird, um es dem Regler 26 zu ermöglichen, wie schon bei der Auffindung des vertikalen Mittelpunkts der ersten Zeichendatenmatrix, nach einer Höchstsumme zu suchen. Bei einer Positionierung des Mittelpunkts des Überlagerungsfensters 46 bei Spalte 48 errechnet der Regler 26 dann eine Summe der in diesem Fenster enthaltenen Bildelemente. Wenn ein Höchstwert gefunden ist, indem das Überlagerungsfenster 46, wie bereits zuvor erwähnte nach links verschoben wird, werden die in dem Fenster enthaltenen Bildelemente als Repräsentation der Bildelementmatrix für das zweite Zeichen in Feld #1 extrahiert. Dieser Prozeß wird für die verbleibenden Zeichen in Feld #2 wiederholt. Man sollte beachten, daß zu dem Zeitpunkt, wenn sich das Überlagerungsfenster 46 in zentrierter Position über der Bildelementmatrix befindet, die ein Zeichen darstellt, die tatsächliche Identifikation des Zeichens nicht bekannt ist; es wird einfach von seinem zugeordneten Feld segmentiert, um eine Zeichenerkennung zu ermöglichen.

Claims

1. Eine Methode zur Segmentierung von Zeichenabbildern, einschließlich des Schritts der Darstellung einer Matrix von Abbilddaten, wobei die Matrix aus Zeilen und Spalten binärer Bildelemente besteht, die einem Beleg zugeordnet sind, auf welchem sich mindestens ein Zeichenfeld befindet, wobei diese Methode aus folgenden Schritten besteht: (a) Wahl eines Prüffensters (46), dessen Größe eine vorbestimmte Anzahl von Zeilen und Spalten mit den Bildelementen umfaßt, die einem Zeichen in den Abbilddaten zugeordnet sind; (b) Errechnen einer Wahrscheinlichkeitsdichte für jedes Bildelement innerhalb des Prüffensters (46) für jedes Zeichen in einem Bezugszeichensatz, aus welchem die zu segmentierenden Zeichen entnommen sind, um eine zusammengesetzte Wahrscheinlichkeitsdichte für jedes Bildelement innerhalb des Prüffensters (46) zu erstellen; (c) Positionieren des Prüffensters (46) über einem Teil dieses Felds; (d) Erlangen eines Gesamtwerts für das Prüffenster (46) durch Verwendung jedes Bildelements mit binären Einsen im Prüffenster (46) und seiner zugeordneten zusammengesetzten Wahrscheinlichkeitsdichte; (e) Bewegen besagten Prüffensters (46) in bezug auf besagtes Feld und Wiederholung von Schritt (d), um einen maximalen Gesamtwert für das Prüffenster (46) zu erlangen; (f) Verwendung des durch Schritt (e) erlangten Gesamtwerts als ein Anzeichen dafür, daß das Prüffenster (46) Bilddaten enthält, die einem Zeichen im Bezugszeichensatz zugeordnet sind, und (g) Wiederholen der Schritte (c) bis (f) für die verbleibenden Bilddaten, die besagtem Feld zugeordnet sind.

2. Eine Methode laut Patentanspruch 1, die durch folgende Schritte charakterisiert wird: (h) Extrahieren der binären Bildelementdaten, die dem in Schritt (f) erwähnten Prüffenster zugeordnet sind, und (i) Speichern der extrahierten Bildelementdaten.

3. Eine Methode laut Patentanspruch 1, die dadurch charakterisiert wird, daß besagter Bewegungsschritt (e) dazu verwendet wird, die Abbilddaten im wesentlichen zu zentrieren, die einem Zeichen innerhalb des Prüffensters (46) zugeordnet sind.

4. Eine Methode laut Patentanspruch 1, die dadurch charakterisiert wird, daß besagter Wahlschritt (a) durch die Verwendung der Dichte des Zeichensatzes bewirkt wird.

5. Eine Methode laut Patentanspruch 1, die dadurch charakterisiert wird, daß besagter Positionierungsschritt (c) durch die Verwendung der Dichte der Zeichenreihe bewirkt wird.

6. Eine Methode laut Patentanspruch 1, die dadurch charakterisiert wird, daß besagter Erlangungsschritt (d) durch die Addition der zugeordneten zusammengesetzten Wahrscheinlichkeitsdichte für jedes Bildelement mit binärer Eins im Prüffenster (46) bewirkt wird.

7. Eine Methode laut Patentanspruch 1, die dadurch charakterisiert wird, daß besagter Errechnungsschritt (b) bewirkt wird durch: die Sichtbarmachung gegenüber dem Prüffenster (46) von Abbilddaten für ein bekanntes Zeichen in einem Zeichensatz, wobei ein Bildelement mit binärer Eins die Anwesenheit von Daten und ein Bildelement mit binärer Null die Abwesenheit von Daten darstellt; die Speicherung der Bildelemente mit binären Einsen und Nullen in einem Speicher entsprechend der Zeilen- und Spaltenpositionen im Prüffenster für das vom Sichtbarmachungsschritt bekannte Zeichen; die Wiederholung mit festgelegter Häufigkeit des Sichtbarmachungsschritts und des Speicherschritts für dasselbe bekannte Zeichen, um eine Wahrscheinlichkeitsdichte für jedes Bildelement im Prüffenster für das präsentierte Zeichen zu erlangen; das Erlangen und Speichern der Wahrscheinlichkeitsdichten für jedes Bildelement im Prüffenster für die verbleibenden Zeichen in einem zu segmentierenden Zeichensatz, und das Summieren der Wahrscheinlichkeitsdichten für jedes Bildelement im Prüffenster für alle Zeichen im Zeichensatz, um zu einem gewichteten Gesamtwert für jedes Bildelement im Prüffenster für die Zeichenreihe zu gelangen.

8. Eine Methode laut Patentanspruch 1, die dadurch charakterisiert wird, daß besagter Positionierungsschritt (c) dadurch bewirkt wird, daß zuerst nach den Zeilen und Spalten gesucht wird, in denen sich besagtes Feld befindet, um die Position besagten Felds innerhalb besagter Abbilddatenmatrix zu erstellen.