DE60317455T2

DE60317455T2 - Segmentierung eines zusammengesetzten Bildes mittels Basis-Rechtecken

Info

Publication number: DE60317455T2
Application number: DE60317455T
Authority: DE
Inventors: Johannes W.M. Jacobs
Original assignee: Oce Technologies BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 2002-11-22
Filing date: 2003-11-10
Publication date: 2008-09-18
Anticipated expiration: 2023-11-11
Also published as: JP2004282701A; US20040105583A1; ATE378648T1; JP4390523B2; US7336825B2; DE60317455D1

Description

Die Erfindung betrifft ein Verfahren zum Segmentieren eines aus Pixeln aufgebauten zusammengesetzten Bildes in eine Anzahl von Feldern, die Layoutelementen des Bildes entsprechen, wobei die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, welches Verfahren das Auffinden von initialen Feldseparatoren umfaßt, die Gebieten von zusammenhängenden Pixeln des Bildes entsprechen, die eine vordefinierte, für einen Hintergrund des Bildes kennzeichnende Eigenschaft haben.
Die Erfindung bezieht sich weiterhin auf eine Vorrichtung zum Segmentieren eines aus Pixeln aufgebauten zusammengesetzten Bildes in eine Anzahl von Feldern, die Layoutelementen des Bildes entsprechen, wobei die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, welche Vorrichtung eine Eingabeeinheit zur Eingabe eines Bildes und eine Verarbeitungseinheit zum Auffinden von initialen Feldseparatoren aufweist, die Gebieten von zusammenhängenden Pixeln des Bildes entsprechen, die eine vordefinierte, für einen Hintergrund des Bildes kennzeichnende Eigenschaft haben.
Die Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt.
Ein Verfahren zur Seitensegmentierung ist bekannt aus dem Artikel "Flexible Page segmentation using the background" von A. Antonacopoulos und R. T Ritchings in "Proceedings 12 th International Conference an Pattern Recognition, Jerusalem, Israel, 9.–12. Oktober, IEEE-CS Press, 1994, Band 2, Seiten 339–344". Das Bild wird repräsentiert durch Pixel, die einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert. Der Wert wird als Hintergrund (gewöhnlich weiß) oder Vordergrund (gewöhnlich schwarz, bedruckter Raum) klassifiziert. Es wird der weiße Hintergrundraum analysiert, der die bedruckten Regionen auf einer Seite umgibt. Der weiße Hintergrundraum wird mit Kacheln bedeckt, d. h., mit nicht überlappenden Flächen aus Hintergrundpixeln.
Die Kontur eines Vordergrundfeldes in dem Bild wird identifiziert, indem man an den weißen Kacheln entlangfährt, die es umgeben, so daß die inneren Ränder der Kacheln den Rand eines Feldes für die weitere Analyse bilden. Ein Problem des Verfahrens besteht darin, daß die Ränder der Felder durch eine komplexe Beschreibung repräsentiert werden, die eine effiziente weitere Analyse erschwert.
Es ist eine Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zum Segmentieren eines Bildes zu schaffen, die zuverlässiger und weniger kompliziert sind.
Gemäß einem ersten Aspekt der Erfindung wird die Aufgabe durch ein Verfahren der im einleitenden Absatz angegebenen Art gelöst, das gekennzeichnet ist durch die weiteren Schritte der Erweiterung der Feldseparatoren entlang wenigstens einer Separationsrichtung zu einem äußeren Rand des Bildes, der Konstruktion eines Mosaikgitters aus Linien, die den erweiterten Feldseparatoren entsprechen, der Konstruktion eines Satzes von Basisrechtecken, wobei ein Basisrechteck ein von Linien des Mosaikgitters umschlossenes Gebiet ist, und der Konstruktion der Felder durch Verbinden von Basisrechtecken, die aneinander angrenzen und nicht durch einen initialen Feldseparator getrennt sind.
Gemäß einem zweiten Aspekt der Erfindung wird die Aufgabe gelöst durch eine Vorrichtung der im einleitenden Absatz angegebenen Art, die dadurch gekennzeichnet, daß die Verarbeitungseinheit dazu ausgebildet ist, die Feldseparatoren entlang wenigstens einer Separationsrichtung zu einem äußeren Rand des Bildes zu erweitern, ein Mosaikgitter aus Linien zu konstruieren, die den (erweiterten) Feldseparatoren entsprechen, einen Satz von Basisrechtecken zu konstruieren, wobei ein Basisrechteck ein von Linien des Mosaikgitters umschlossenes Gebiet ist, und die Felder zu konstruieren, indem Basisrechtecke verbunden werden, die zueinander benachbart und nicht durch einen initialen Feldseparator getrennt sind.
Gemäß einem dritten Aspekt der Erfindung wird die Aufgabe gelöst durch ein Computerprogrammprodukt zur Ausführung des Verfahrens.
Normalerweise enthält ein Bild Feldseparatoren, die eine von wenigstens zwei Separationsrichtungen haben, gewöhnlich horizontal und vertikal, und die sich aneinander anschließen und/oder einander kreuzen und zusammen die Layoutelemente wie etwa Textfelder umschließen. Der Effekt des vorliegenden Verfahrens besteht darin, daß durch Linien, die auf einer Erweiterung der Feldseparatoren zu den äußeren Rändern basieren, ein Mosaikgitter gebildet wird. Jedes Gebiet, das von dem Gitter umschlossen aber nicht unterteilt wird, wird als ein Basisrechteck bezeichnet, und die weitere Analyse wird an diesen Basisrechtecken vorgenommen. Der Vorteil des Satzes von Basisrechtecken besteht darin, daß Felder leicht durch Verbinden der Basisrechtecke konstruiert werden können. Es ist auch festzustellen, daß Berechnungen auf der Ebe ne der Basisrechtecke rechentechnisch wesentlich effizienter sind als das Verbinden von einzelnen Pixeln oder kleinen pixelbasierten Objekten.
Die Erfindung beruht auf der folgenden Erkenntnis. Die Segmentierung ist der Prozeß der Identifizierung von Objekten in dem Bild auf einem relevanten hierarchischen Niveau. Zum Beispiel könnte bei einer Zeitungsseite eine Hierarchie eine niedrigste Ebene der Pixel, dann eine Ebene von Objekten aus verbundenen Pixeln (Schriftzeichen oder Separatoren), dann Textzeilen, dann Textfelder, dann Spalten und schließlich Artikel umfassen. Die Erfinder haben erkannt, daß zum Auffinden von Feldern in einem strukturierten Bild ein Baustein, der gerade unterhalb der geforderten Ebene der Felder liegt, durch eine Transformation von der unteren Ebene der Feldseparatoren auf eine Bausteinebene konstruiert werden kann. Die Basisrechtecke sind die Bausteine, die mit Hilfe des Mosaikgitters effizient konstruiert werden können. Der Schritt der Verbindung der Basisrechtecke zu einem Gebiet erfolgt auf der Bausteinebene. Schließlich wird eine Transformation von der Bausteinebene auf die Feldebene dadurch erreicht, daß Basisrechtecke auf der Grundlage der ursprünglichen Verbindungspunkte der Feldseparatoren oder Knoten in dem Bild zu Feldern konsolidiert werden. Somit bietet die Konstruktion von Basisrechtecken einen bequem Weg zur Bestimmung von Bausteinen von Feldern während der Segmentierung eines digitalen Bildes, das vorwiegend polygonale Felder hat.
In einer Ausführungsform des Verfahrens umfaßt der Schritt der Konstruktion des Satzes von Basisrechtecken die Konstruktion einer Matrixkarte, die das Mosaikgitter durch ein zweidimensionales Feld von Elementen repräsentiert, die jeweils entweder ein Basisrechteck oder ein Liniensegment des Mosaikgitters repräsentieren, wobei ein Element einen ersten vordefinierten Wert zur Repräsentation einer einem Feldseparator entsprechenden Linie oder einen anderen, verschiedenen Wert zur Repräsentation eines Basisrechtecks oder einer einem erweiterten Feldseparator entsprechenden Linie hat. Der Vorteil besteht darin, daß die Matrixkarte die Basisrechtecke und die Grenzen zwischen den Basisrechtecken umfaßt. Die Matrixkarte kann leicht verarbeitet werden, weil sie das Bild auf einer Ebene von Bausteinen von Feldern ohne geometrische Details repräsentiert, die andernfalls die Berechnungen verkomplizieren würden.
In einer Ausführungsform des Verfahrens sind Knoten definiert als Punkte an Stellen in den ursprünglichen Bild, wo die Feldseparatoren sich miteinander verbinden, und an entsprechenden Positionen in dem Mosaikgitter, und der Schritt der Konstruktion der Felder umfaßt die Konstruktion einer dem Mosaikgitter entsprechenden Knotenmatrix und das Einbeziehen von Elementen, die auf Knoten verweisen, in das Mosaikgitter.
Der Vorteil besteht darin, daß die Knotenmatrix Verweisungen auf die Knoten in einer geometrischen Repräsentation enthält. Die Knotenmatrix erlaubt eine leichte Transformation von der Ebene der Bausteine von Feldern, d. h., Basisrechtecke, zu einer Repräsentation der Felder durch Knoten.
Weitere bevorzugte Ausführungsformen der Vorrichtung gemäß der Erfindung sind in den weiteren Ansprüchen angegeben.
Diese und weitere Aspekte der Erfindung werden verdeutlicht und näher erläutert anhand der in der nachstehenden Beschreibung als Beispiel beschriebenen Ausführungsformen, unter Bezugnahme auf die beigefügten Zeichnungen, in denen zeigen:
1 eine Gesamtdarstellung eines Beispiels für ein Segmentierungsverfahren;
2 einen Teil einer japanischen Zeitschrift als Muster;
3 die Vereinigung von Objekten entlang einer einzigen Richtung;
4 die Segmentierung und zweidimensionale Vereinigung von Objekten;
5 die Konstruktion eines maximalen Rechtecks aus weißen Läufen;
6 die Konstruktion von maximalen weißen Rechtecken;
7 die Säuberung von überlappenden maximalen weißen Rechtecken;
8 einen Graphen auf einer Zeichnungsseite;
9 zwei Typen von Schnitten von maximalen Rechtecken;
10 eine Vorrichtung zur Segmentierung eines Bildes;
11 ein Diagramm eines Verfahrens zur Definition von Feldern auf der Basis von Feldseparatoren;
12 eine Repräsentation eines Bildes;
13 ein Mosaikgitter auf einem Bild;
14 eine Matrixkarte des Mosaikgitters;
15 ein einzelnes zusammenhängendes Gebiet in einer Matrix;
16 die Kontur eines zusammenhängenden Gebietes; und
17 eine Knotenmatrix.
Die Figuren sind schematisch und nicht maßstäblich. In den Figuren haben Elemente, die bereits beschriebenen Elementen entsprechen, die gleichen Bezugszeichen.
1 zeigt eine Gesamtdarstellung eines Beispiels für ein Segmentierungsverfahren mit drei Grundschritten, die von bekannten Segmentierungssystemen bekannt sind.
Das eingegebene Bild 11 wird in einem CCA-Modul 14 verarbeitet, das die Pixel des Bildes mit Hilfe von Connected Component Analyse (Analyse verbundener Komponenten) analysiert. Zunächst wird ein ursprüngliches Bild, bei dem es sich um ein Schwarz/Weiß-, Grauton- oder Farbdokument handeln kann, z. B. eine Zeitungsseite, eingescannt, vorzugsweise als Grautonbild. Die eingescannten Grautonbilder werden einer Halbtonverarbeitung unterzogen, um jedem Pixel einen Vordergrundwert (z. B. schwarz) oder einen Hintergrundwert (z. B. weiß) zuzuordnen. Das CCA-Modul 14 findet Vordergrundelemente in dem Bild durch Detektion von verbundenen Komponenten (CC) aus benachbarten Pixeln, die ähnliche Eigenschaften haben. Ein Beispiel für die ersten Schritte in dem Segmentierungsprozeß wird z. B. in US 5 856 877 beschrieben. Das CCA-Modul liefert als Output CC-Objekte 12, bei denen es sich um verbundene Komponenten von verbundenen Vordergrundpixeln handelt. Ein LA-Modul 15 empfängt die CC-Objekte 12 als Input und erzeugt Layout-Objekte 13, indem es CC-Objekte vereinigt und gruppiert, um größere Layout-Objekte wie etwa Textzeilen und Textblöcke zu bilden. Während dieser Phase werden heuristische Verfahren dazu benutzt, Layoutelemente zu gruppieren und größere Layoutelemente zu bilden. Dies ist ein logischer Schritt in einer gewöhnlichen bottom-up Prozedur. Ein AF-Modul 16 empfängt die Layout-Objekte 13 als Input und erzeugt durch Artikelbildung Artikel 17 als Output. In diesem Modul werden mehrere Layout-Objekte, die eine größere Einheit bilden, zusammengruppiert. Die größere Einheit wird unter Verwendung von Layoutregeln zusammengesetzt, die auf das ursprüngliche Bild anzuwenden sind. Zum Beispiel gruppiert bei einer Zeitungsseite das AF-Modul entsprechend den Layoutregeln für diesen spezifischen Zeitungsstil die Textblöcke und graphischen Elementen wie Bilder, um die verschiedenen Artikel zu bilden. Kenntnis über den Layouttyp des Bildes, z. B. Magazin im wesentlichen Stil, wissenschaftlicher Text oder japanisches Artikel-Layout, kann für einen regelbasierten Ansatz zur Artikelbildung verwendet werden, was zu einer verbesserten Gruppierung von Textblöcken führt.
Gemäß der Erfindung werden zu dem Segmentierungsprozeß zusätzliche Schritte hinzugefügt, wie nachstehend beschrieben wird. Die Schritte beziehen sich auf die Segmentierung des Bildes in Felder, bevor Elemente innerhalb eines Feldes detektiert werden, d. h., bevor Layout-Objekte gebildet werden, die aus kleineren, getrennten jedoch zusammengehörenden Einheiten zusammengesetzt sind. 2 zeigt ein Beispiel einer japanischen Zeitung. Solche Zeitungen haben ein bestimmtes Layout, das sowohl Textzeilen 22 in horizontaler Leserichtung als auch Textzeilen 21 in vertikaler Leserichtung umfaßt. Das Problem für eine traditionelle bottom-up Gruppierung der erkannten verbundenen Komponenten besteht darin, daß nicht bekannt ist, in welcher Richtung die Gruppierung fortschreiten sollte. Deshalb wird die Segmentierung ergänzt durch einen zusätzlichen Schritt der Verarbeitung des Hintergrunds zur Detektion von Feldern in dem Bild. Anschließend wird die Leserichtung für jedes Feld der japanischen Zeitschrift detektiert, bevor die Gruppierung der Schriftzeichen ausgeführt wird.
In einer Ausführungsform des Verfahrens werden Trennelemente, z. B. schwarze Linien 23 zum Trennen von Spalten, detektiert und in Hintergrundelemente umgewandelt. Mit dieser Option ist es möglich, große Elemente von schwarzen Linien 23 zu trennen, die vertikale und horizontale Linien umfassen, die tatsächlich zu verschiedenen Trennelementen verbunden sind. In japanischen Zeitschriften sind Zeilen sehr wichtige Objekte zur Trennung von Feldern in dem Layout. Es wird verlangt, daß diese Objekte als Linien entlang Separationsrichtungen erkannt werden. Ohne diese Option würden diese Objekte als Graphik klassifiziert. Durch Verwendung der Option können die Linien für jede Separationsrichtung gesondert als Trennelemente in den verschiedenen Orientierungen behandelt werden.
3 zeigt ein grundlegendes Verfahren zur Vereinigung von Objekten in einer einzigen Richtung. Die Figur zeigt die grundlegende Funktion des LA-Moduls 15 zum Auffinden der Layout-Objekte, die in einer bekannten Richtung orientiert sind, etwa von Textblöcken, für den Fall, daß die Lesereihenfolge bekannt ist. Verbundene Komponenten 12 werden in einem ersten Analyseschritt 31 durch statistische Analyse verarbeitet, was zu berechneten Schwellenwerten 32 führt. In einem zweiten Klassifizierungsschritt 33 wird die CC-Klassifizierung korrigiert, was zu den korrigierten verbundenen Komponenten 34 führt, die in einem dritten Vereinigungsschritt 35 verarbeitet werden, um Zeichen zu Textzeilen zu verbinden, was zu Textzeilen und anderen Objekten 36 führt. In einem vierten Textvereinigungsschritt 37 werden die Textzeilen zu Textblöcken 38 (und möglicherweise anderen graphischen Objekten) verbunden. Entsprechend den Anforderungen für japanische Zeitschriften muß die traditionelle Vereinigung von Objekten entlang wenigstens zweier Leserichtungen erfolgen, und das oben beschriebene grundlegende Verfahren muß dazu verbessert werden.
4 zeigt die Segmentierung und bidirektionale Vereinigung von Objekten. Im Vergleich zu der Verarbeitung in einer einzigen Richtung in 3 sind neue zusätzliche Schritte hinzugefügt worden. In einem ersten (Vor-) Verarbeitungsschritt wird ein Graph 41 des Bildes konstruiert. Die Konstruktion des Graphen durch Auffinden von Feldseparatoren wird weiter unten beschrieben. In dem Graphen werden in einem Felddetektionsschritt 42 Felder detektiert, indem Gebiete aufgesucht werden, die von den Rändern des Graphen eingeschlossen sind. Die relevanten Gebiete werden als Felder klassifiziert, die Textblöcke 47 enthalten. In dem Textblock 47 wird in Schritt 44 die Lesereihenfolge bestimmt (unter Verwendung der verbundenen Komponenten 43 oder der korrigierten verbundenen Komponenten 34, die sich in dem Textblockgebiet befinden). Die Detektion der Leserichtung basiert auf dem Spektrum des Dokuments. Unter Verwendung der Felder aus den Textblöcken 47, der enthaltenen verbundenen Komponenten 43 und der Lesereihenfolge 45 als Input werden in dem Reihenbildungsschritt 46 die Zeichen wie gefordert entlang der gefundenen Richtung zu Reihen zusammengefügt.
Es wird nun die Konstruktion des Graphen 41 beschrieben. In einer Graphenrepräsentation wird ein Dokument unter Verwendung des Hintergrunds eines Scans erzeugt. Pixel in dem Scan werden als Hintergrund (gewöhnlich weiß) oder Vordergrund (gewöhnlich schwarz) klassifiziert. Da nur große weiße Gebiete Information über Felder liefern, werden kleine Rauschobjekte entfernt, z. B. durch Heruntersampeln des Bil des. Das heruntergesampelte Bild kann weiter gesäubert werden, um einzelne (schwarze) Vordergrundpixel zu entfernen.
Die nächste Aufgabe besteht darin, die wichtigen weißen Gebiete zu extrahieren. Der erste Schritt besteht darin, sogenannte weiße Läufe zu detektieren, das sind ein Pixel hohe Gebiete aus zusammenhängenden Hintergrundpixeln. Weiße Läufe, die kürzer sind als eine vorbestimmte Minimallänge, werden von der Verarbeitung ausgeschlossen.
5 zeigt als ein Beispiel vier horizontale Läufe 51 von weißen Pixeln, die in vertikaler Richtung aneinandergrenzen. Von dem Vordergrundgebiet 53 wird angenommen, daß es Vordergrundpixel hat, die die weißen Läufe 51 direkt umgeben. Ein "maximales weißes Rechteck" wird definiert als die größte rechteckige Fläche, die aus den zusammenhängenden weißen Läufen 51 konstruiert werden kann, also eine rechteckige weiße Fläche, die nicht erweitert werden kann, ohne daß schwarze (Vordergrund-) Pixel einbezogen werden. Es ist ein maximales weißes Rechteck 52 gezeigt, das auf den vier weißen Läufen 51 beruht und eine durch vertikale punktierte Linien angegebene Länge und eine Breite von 4 Pixeln hat. Wenn ein weißes Rechteck nicht erweitert werden kann, so hat es eine sogenannte maximale Separationskraft. Bei einem solchen Rechteck handelt es sich nicht um einen kleineren Teil eines signifikanteren weißen Gebietes. Somit ist das Rechteck 52 das einzig mögliche maximale Rechteck mit der Breite 4. Es können weitere Rechtecke mit der Breite 3 oder 2 konstruiert werden. Ein weiteres Beispiel ist in 6 gezeigt.
Die Konstruktion von weißen Rechtecken erfolgt getrennt in unterschiedlichen Separationsrichtungen, z. B. horizontale und vertikale weiße Rechtecke. Vertikale weiße Rechtecke werden detektiert, indem das Bild gedreht wird und horizontale weiße Läufe für das gedrehte Bild detektiert werden. Es ist anzumerken, daß je nach Art des Bildes oder der Anwendung auch andere Separationsrichtungen ausgewählt werden können, beispielsweise diagonal.
Ein Algorithmus zur Konstruktion maximaler weißer Rechtecke ist der folgende. Der Input des Algorithmus besteht aus allen horizontalen, ein Pixel hohen weißen Läufen (WR), die in einem gegebenen Bild detektiert werden. Jeder weiße Lauf wird durch ein Rechteck dargestellt, das durch einen Satz von Koordinaten ((x₁, y₁), (x₂, y₂)) gekenn zeichnet ist, wobei x₁ und y₁ Koordinaten seiner oberen linken Ecke und x₂ und y₂ die Koordinaten seiner unteren rechten Ecke sind. Jeder weiße Lauf, der in dem aktiven geordneten Objekt INPUT LIST vorhanden ist, wird auf seine Erweiterbarkeit geprüft. Die Erweiterbarkeit wird als die Bedingung formuliert, ob ein gegebener weißer Lauf (WR), der mit p bezeichnet wird, ein maximales weißes Rechteck (MWR) liefern kann oder nicht. Wenn die Erweiterbarkeit den logischen Wert FALSCH hat, so ist p bereits maximal, p wird aus der aktiven Liste INPUT LIST entfernt und in eine aktive Liste RESULT LIST geschrieben, Wenn die Erweiterbarkeit WAHR ist, so wird die Prüfung auf Erweiterung wiederholt, bis alle durch p initiierten MWRs konstruiert worden sind. Dann wird p aus der Liste INPUT LIST gelöscht, und alle MWRs, die von p erhalten wurden, werden in die Liste RESULT LIST geschrieben. Wenn alle weißen Rechtecke aus der Liste INPUT LIST verarbeitet worden sind, so wird die Liste RESULT LIST alle MWRs enthalten. Um die Effizienz des Algorithmus zu steigern wird auf die Liste IN-PUT LIST eine Sortierung nach dem y-Wert angewandt. Zunächst wird der Algorithmus für horizontale WRs angewandt, d. h., für weiße Läufe, deren Breite größer ist als ihre Höhe. Nach einer Drehung des Bildes um 90° kann er auf vertikale WRs angewandt werden.
In einer Ausführungsform ist der Algorithmus zur Konstruktion der maximalen Rechtecke der folgende. Die Rechteckdaten werden als eine verknüpfte Liste gespeichert, die wenigstens die Koordinaten der Ecken der Rechtecke enthält. Die Listen INPUT LIST und RESULT LIST werden ebenfalls als verknüpfte Listen gespeichert, mit wenigstens drei Elementen, etwa der Anzahl der weißen Rechtecke und Zeigern auf das erste und das letzte Element in der verknüpften Liste. Es werden die folgenden Schritte ausgeführt: Aktiviere INPUT LIST; initiiere RESULT LIST; initiiere BUFFER für temporäre Koordinaten des gewählten Rechtecks. Beginne mit dem ersten weißen Rechteck mit dem Label p₁ aus der aktiven geordneten Liste INPUT LIST. Das nächste weiße Rechteck in der Liste erhält das Label p₂. Untersuche für jedes weitere Rechteck in der Liste INPUT LIST, ob p₁ erweiterbar ist. Für das aktive weiße Rechteck p₁, finde das erste mit dem Label p_nj, j = 1, ..., l in der aktiven geordneten Liste INPUT LIST, das die Bedingungen erfüllt:
y₂(p₁) = y₁(p_nj)
x₁(p_nj)£x₂(p₁)
x₂(p_nj) ≥ x₁(p₁)
Diese Suche führt zu der Menge {pn₁, pn₂, ..., p_nl}. Nur wenn die Menge {pn₁, pn₂, ..., p_nl} nicht leer ist, wird p₁ als erweiterbar bezeichnet.

– Wenn p₁ nicht erweiterbar ist, so ist p₁ ein maximales weißes Rechteck. Schrei be p₁ in die Liste RESULT LIST und entferne p₁ aus der Liste INPUT LIST und fahre mit p₂ fort.
– Wenn p₁ erweiterbar ist, wenden wir die Erweiterungsprozedur auf p₁ an. Fahre mit p₁ fort. Wir bemerken hier, daß p₁ erweiterbar sein kann, während es selbst maximal ist. Die Erweiterungsprozedur ist die folgende. Es sei angenommen, daß p₁ erweiterbar ist, dann gibt es die Menge {pn₁, pn₂, ..., p_nl}. Die Erweiterungsprozedur wird konsistent auf jedes Element von {pn₁, pn₂, ..., p_nl} angewandt. Für das weiße Rechteck pn₁, das mit dem Rechteck p_nj, j = 1, ..., l erweiterbar ist, konstruiere ein neues Rechteck p_1,nj mit den Koordinaten: x₁(p_1,nj) = max {x₁, (p₁), x₁(p_nj)}, x₂(p_1,nj) = min {x₂, (p₁), x₂(p_nj)}, y₁(p_1,nj) = y₁(p₁) y₂(p_1,nj) = y₂(p_nj)

Schreibe die Koordinaten von p_1,nj, j = 1, ..., l in den Puffer für "Koordinaten". Wiederhole die Prüfung auf Erweiterbarkeit jetzt für p_1,nj. Wenn das Ergebnis WAHR ist, so ist p_1,nj maximal. Schreibe p_1,nj in die Liste RESULT LIST, andernfalls erweitere p_1,nj.
Bevor die Erweiterungsprozedur auf p_1,nj angewandt wird, prüfen wir p₁ und p_nj auf Absorptionseffekte. Die Prüfung von p₁ und p_nj auf Absorptionseffekte mit p_1,nj ist die folgende. Mit Absorptionseffekt meinen wir die Situation, in der p₁(p_nj) oder beide vollständig in p_1,nj enthalten ist (sind). In Koordinaten bedeutet dies:
x₁(p_1,nj) ≤ x₁(p_k),
x₂(p_1,nj) ≥ x₂(p_k), mit k = 1, nj, j = 1, ..., l)
Wenn die Bedingung für p₁ WAHR ist, so wird p₁ von p_1,nj absorbiert. Entferne p₁ aus der Liste INPUT LIST. Wenn die Bedingung für p_nj WAHR ist, so wird p_nj in p_1,nj absorbiert. Entferne p_nj aus der Liste INPUT LIST.
Der Algorithmus nimmt an, daß das Rechteck breiter ist als seine Höhe, und somit sind die Rechtecke primär horizontal. Um MWRs in vertikaler Richtung zu konstruieren, wird das ursprüngliche binäre Bild im Uhrzeigersinn um 90° gedreht. Der oben angegebene Algorithmus wird für das gedrehte Bild wiederholt. Als Ergebnis werden alle vertikalen MWRs für das ursprüngliche Bild konstruiert.
6 zeigt die Konstruktion von maximalen weißen Rechtecken. Die Pixelkoordinaten sind auf einer horizontalen x-Achse und einer vertikalen y-Achse angegeben. In der Figur sind links vier weiße Läufer 61 gezeigt. Die weißen Läufe (WR) werden als Rechtecke mit den Koordinaten ihrer oberen und unteren Ecken beschrieben, dementsprechend:
WR₁: ((10,1), (50,2)),
WR₂: ((10,2), (50,3)),
WR₃: ((5,3), (30,4)),
WR₄: ((40,3), (60,4)).
Aus diesen weißen Läufen werden alle maximalen weißen Rechtecke konstruiert. Die resultierenden fünf maximalen weißen Rechtecke (MWR) sind im rechten Teil der Figur gezeigt und mit 62, 63, 64, 65 und 66 bezeichnet. Die gezeigten fünf MWRs bilden den vollständigen Satz von MWRs für den im linken Teil der Figur gezeigten WR. Ein Konstruktionsalgorithmus ist der folgende.
Die Liste INPUT LIST enthalte die vier weißen Läufe 61. Das erste Element aus der Liste ist WR₁: ((10,1), (50,2)). WR₁ erhält das Label p₁. Untersuche p₁ auf Erweiterbarkeit wie oben beschrieben. Der erste Kandidat für die Erweiterung ist WR₂: ((10,2), (50,3)). WR₂ erhält das Label p_n1. Erweitere p₁ mit p_n1 entsprechend der obigen Formel für die Erweiterung, was ein neues Rechteck p_1,n1 mit den Koordinaten ((10,1), (50,3)) ergibt. Prüfe p₁ und p_n1 auf den Absorptionseffekt mit p_1,n1. Wie sich aus dem Absorptionstest ergibt, werden sowohl p₁ als auch p_n1 von p_1,n1 absorbiert. Deshalb lösche p₁ und p_n1 aus der Liste INPUT LIST. Fahre fort mit p_1,n1. Prüfe p_1,n1 auf Erweiterbarkeit, was als ersten Kandidaten WR₃: ((5,3), (30,4)) ergibt. WR₃ erhält das Label p_t1. Erweitere p_1,n1 mit p_t1 entsprechend der Erweiterungsformel. Als Ergebnis erhalten wir ein neues Rechteck p_(1,n1),t1 mit den Koordinaten ((10,1), (30,4)). Prüfe p_1,n1 mit p_t1 auf den Absorptionseffekt mit p_(1,n1),t1. Der Test schlägt fehl.
Wiederholte den Test auf Erweiterbarkeit für p_(1,n1),t1. Der Test schlägt fehl, d. h., p_(1,n1),t1 ist nicht erweiterbar. Das bedeutet, daß p_(1,n1),t1 maximal ist. Schreibe p_(1,n1),t1 mit den Koordinaten (10,1), (30,4)) in die Liste RESULT LIST.
Fahre wieder fort mit p_1,n1 und prüfe auf Erweiterbarkeit. Als zweiter Kandidat wird WR₄: ((40,3), (60,4)) gefunden. WR₄ erhält das Label p_t2. Erweitere p_1,n1 gemäß der Erweiterungsformel mit p_t2. Als Ergebnis erhalten wir ein neues Rechteck p_(1,n1),t2 mit den Koordinaten ((40,1), (50,4)).
Prüfe p_1,n1 mit p₂ auf den Absorptionseffekt mit p_(1,n1),t2. Der Test schlägt fehl, d. h., es gibt keine Absorption. Wiederholte den Test auf Erweiterbarkeit für p_(1,n1),t2, und der Test schlägt fehl, d. h., p_(1,n1),t2 ist nicht erweiterbar. Das bedeutet, daß p_(1,n1),t2 maximal ist. Schreibe p_(1,n1),t2 mit den Koordinaten ((40,1), (50,4)) in die Liste RESULT LIST.
Prüfe p_1,n1 erneut auf Erweiterbarkeit. Der Test schlägt fehl, und p_1,n1 ist maximal. Schreibe p_1,n1 mit den Koordinaten ((10,1), (50,3)) in die Liste RESULT LIST.
Kehre zurück zur Liste INPUT LIST. Diese Liste enthält in diesem Stadium zwei weiße Läufe, nämlich WR₃: ((5,3), (30,4)), WR₄: ((40,3), (60,4)). Beginne mit WR₃ und gib ihm das Label p₂. Wiederhole den Test auf Erweiterbarkeit für p₂. Der Test schlägt fehl, p₂ ist maximal. Schreibe p₂ mit den Koordinaten ((5,3), (30,4)) in die Liste RESULT LIST. Entferne p₂ aus der Liste IN- PUT LIST. Fahre fort mit WR₄ und gibt ihm das Label p₃. Der Test auf Erweiterbarkeit für p₃ ergibt, daß p₃ maximal ist. Schreibe p₃ mit den Koordinaten ((40,4), (60,4)) in die Liste RESULT LIST. Entferne p₃ aus der Liste INPUT LIST. Schließlich enthält die Liste RESULT LIST fünf maximale weiße Rechtecke, nämlich MWR₁: ((10,1), (50,3)), in 6 mit 64 bezeichnet, MWR₂: ((10,1), (30,4)), mit 62 bezeichnet, MWR₃: ((40,1), (50,4)), mit 63 bezeichnet, und MWR₄: (5,3), (30,4)) mit 65, MWR₅: ((40,3), (60,4)) mit 66.
7 zeigt einen nächsten Schritt in dem Verfahren gemäß der Erfindung, nämlich einen Säuberungsschritt für überlappende maximale weiße Rechtecke. In dem Säuberungsschritt werden mehrere überlappende maximale weiße Rechtecke zu einem sogenannten "informativen maximalen Rechteck" (IWR) konsolidiert, daß die relevantesten Eigenschaften der ursprünglichen maximalen weißen Rechtecke kombiniert, wie nachstehend im einzelnen erörtert werden wird.
Das Säubern kann weiterhin Schritte umfassen wie die Überprüfung auf Größe und räumliche Beziehung. Der obere Teil der 7 zeigt, als Beispiel, zwei maximale weiße Rechtecke MWR1 und MWR2. Das Paar wird in dem Säuberungsschritt zu einem einzigen informativen weißen Rechteck IWR konsolidiert, wie im unteren Teil der Figur gezeigt ist. Der Prozeß der Detektion von Überlappung und Konsolidierung wird wiederholt, bis keine relevanten Paare mehr gebildet werden können. Ein Kriterium für die Bildung von Paaren mag die Größe des Überlappungsgebietes sein.
Weitere Säuberungsschritte können das Entfernen von dünnen oder kurzen Rechtecken oder von Rechtecken, die ein Seitenverhältnis unterhalb eines bestimmten vordefinierten Wertes haben, umfassen. Die Kriterien für das Entfernen basieren auf dem Typ des Bildes, z. B. weist eine Breite unterhalb einer bestimmten Anzahl von Pixeln auf einen Separator für Textzeilen hin und ist zum Trennen von Feldern nicht relevant, und eine Länge unterhalb eines gewissen Wertes ist nicht relevant im Hinblick auf die erwarteten Größen der Felder.
Ein Algorithmus für den Säuberungsschritt ist der folgende. Ausgangspunkt für den Säuberungsprozeß ist der gesamte Satz von MWRs, der so konstruiert wurde, wie oben mit Bezug auf 5 und 6 beschrieben wurde. Die Säuberungsprozedur wird angewandt, um uninformative MWRs zu verwerfen. Aus diesem Grund wird ein Maß für Informationslosigkeit definiert. Zum Beispiel ist ein langes MWR informativer als ein kurzes. Ein kleines Seitenverhältnis gibt ein mehr oder weniger quadratisches Rechteck an, das weniger informativ ist. Weiterhin müssen extrem dünne Rechtecke ausgeschlossen werden, die z. B. zwei Textzeilen voneinander trennen. Zunächst werden alle MWRs durch Berechnung des Verhältnisses zwischen ihren Höhen und Breiten als horizontal, vertikal oder quadratisch klassifiziert. Quadratische MWRs werden aufgrund ihrer Informationslosigkeit verworfen. Für die verbleibenden horizontalen und vertikalen MWRs wird die Säuberungstechnik angewandt, die aus drei Schritten besteht:

– Jedes MWR mit einer Länge oder Breite unterhalb eines gegebenen Wertes wird gelöscht.
– Jedes MWR mit einem Seitenverhältnis (AR), definiert als das Verhältnis der längeren Seite zur kürzeren Seite, unterhalb eines gegebenen Wertes wird gelöscht.
– Für jedes überlappende Paar aus einem horizontalen (oder vertikalen) MWR1 ((x₁, y₁), (x₂, y₂)) und einem horizontalen (oder vertikalen) MWR2 ((a₁, b₁), (a₂, b₂)) wird ein informatives weißes Rechteck IWR mit den folgenden Koordinaten konstruiert: (a) horizontale Überlappung: x₁ = min {x₁, a₁}, y₁ = max {y₁, b₁}, x₂ = max {x₂, a₂}, y₂ = min {y₂, b₂}. (b) vertikale Überlappung: x'₁ = max {x₁, a₁}, y'₁ = min {y₁, b₁} x'₂ = min {x₂, a₂}, y'₂ = max {y₂, b₂}.

Dieser Prozeß wird für alle Paare von überlappenden MWRs wiederholt. Der Satz der MWRs enthält nun informative weiße Rechtecke IWR. Diese IWRs bilden den Ausgangspunkt für einen Algorithmus zur Segmentierung des Bildes in Felder, die den Layoutelementen entsprechen. Die IWRs sind potentielle Feldseparatoren und werden deshalb als "separierende Elemente" bezeichnet. Unter Verwendung der IWRs konstruiert der Algorithmus einen Graphen für die weitere Verarbeitung zu einer geographischen Beschreibung des Bildes.
8 zeigt einen solchen Graphen auf einer Zeitungsseite. Das Bild zeigt ein heruntergesampeltes digitales Bild 80 einer Zeitungsseite. Der ursprüngliche Text ist in schwarz in einer heruntergesampelten Version entsprechend 2 sichtbar. Die informativen Rechtecke IWR, die die separierenden Elemente bilden, sind grau dargestellt. Für die Konstruktion des Graphen werden Schnittpunkte von separierenden Elementen bestimmt, die durch horizontale und verti kale weiße IWRs gebildet werden. Der Schnittpunkt zweier IWRs wird durch ein kleines schwarzes Quadrat angegeben, das in dem Graphen einen Vertex oder Vertex 81 bildet. Kanten 82, die Linien repräsentieren, die die Felder in der Seite trennen, werden konstruiert, indem Paare von Vertices 81 durch "Feldseparatoren" verbunden werden. Die Kanten 82 des Graphen sind in weiß dargestellt. Der Abstand zwischen den beiden Vertices einer Kante, d. h. die Länge, wird der Kante für die weitere Verarbeitung als Gewicht zugewiesen. In einer alternativen Ausführungsform wird zum Zuweisen des Gewichts ein anderer Parameter verwendet, z. B die Farbe des Pixels. Ein Algorithmus zur Konstruktion des Graphen ist der folgende.
Zunächst werden die folgenden Notationen und Definitionen für IWRs eingeführt. Sei R = {r₁, ..., r_m} der nicht leere und endliche Satz aller IWRs, die aus einem gegebenen Bild I erhalten werden, wobei jedes IWR durch die x- und y-Koordinaten seiner linken oberen Ecke und seiner rechten unteren Ecke definiert ist ((x₁ ^(τ), y₁ ^(τ), (x₂ ^(τ), x₂ ^(τ)), τ = 1, 2, ...., m. Jedes Rechteck r_τ wird auf der Grundlage des Verhältnisses seiner Höhe und Breite als horizontal, vertikal oder quadratisch klassifiziert. H = {h₁, ..., h_l}, V = {v₁, ..., v_k} und S = {S₁, ..., s_d} geben die Teilmengen horizontaler, vertikaler bzw. quadratischer IWRs an, so daß
H U S U R und m = l + k + d und
H ∩ V = ⌀, V ∩ S = ⌀, H ∩ S = ⌀
wobei angenommen wird, daß
H ≠ ⌀, V ≠ ⌀.
Weiterhin wird der Inhalt von S ignoriert, und es werden nur die Teilmengen H und V benutzt. Dies beruht auf der Überlegung, daß in den meisten Fällen Zwischenräume, die die Grenze von Text- oder Nichttext-Blöcken bilden, längliche oder vertikale horizontale Gebiete sind. Sei h ein Element H mit den Koordinaten ((x₁, y₁), (x₂, y₂)), und v ein Element von V mit den Koordinaten ((a₁, b₁), (a₂, b₂)). Dann überlappen h und v, wenn
x₁ ≤ a₂ und
y₁ ≤ b₂ und
x₂ ≥ a₁ und
y₂ ≥ b₁.
Im Fall der Überlappung nehmen wir als den Schnittpunkt von h und v den einzigen Punkt P, der definiert ist durch die Koordinaten: xP = (1/2) (max {x1, a1} + min {x2, a2}), yP = (1/2) (max {y1, b1} + min {y2, b2}).
Für IWRs treten von allen möglichen Typen von Überlappung nur zwei Typen auf, nämlich Überlappung, die zu einem Rechteck führt, und Überlappung, die zu einem Punkt führt. Linienförmige Überlappung kann nicht auftreten, weil dies im Widerspruch zu der Konzeption der MWRs stünde.
9 zeigt zwei Typen der Überlappung von maximalen Rechtecken. Zur Konstruktion des Graphen werden die Schnittpunkte der vertikalen und horizontalen informativen maximalen Rechtecke bestimmt, um die Positionen der Vertices in dem Graphen zu finden, d. h. die genauen Koordinaten der Vertices zu bestimmen. Der linke Teil der Figur zeigt einen ersten Typ des Schnittpunkts eines vertikalen IWA v mit einem horizontalen IWA h, der zu einem Rechteck im Gebiet 88 mit dem Mittelpunkt P als Schnittpunkt führt. Der rechte Teil der Figur zeigt einen zweiten Typ des Schnittpunkts eines vertikalen IWA v' mit einem horizontalen IWA h', der zu einem einzigen Schnittpunkt 89 bei P' führt.
Ein Algorithmus zur Konstruktion des Graphen auf der Grundlage der Schnittpunkte ist der folgende.
P = {p₁, ..., p_n} gibt die Menge aller Schnittpunkte von vertikalen IWRs und horizontalen IWRs an, wobei jedes p in P durch seine x- und y-Koordinaten (x_p, y_p) spezifiziert ist, mit p = 1, ..., N. Die Menge P sei gefunden, und G = (X, A) sei ein ungerichteter Graph mit Korrespondenz zu P. Der Graph G = (X, A) besteht aus einer endlichen Anzahl von Vertices X, die direkt auf die Schnittpunkte bezogen sind, und einer endlichen Anzahl von Kanten A, die die Beziehung zwischen den Schnittpunkten beschreiben. Mathematisch wird dies ausgedrückt als G(P) = (X(P), A(P × P)), P: H × V ⇒ {xP, yP},mit
X = {1, ..., N} und
A = ({1, ..., N} × {1, ..., ~})
mit
wobei d_j den euklidischen Abstand zwischen den Punkten i und j angibt und "4-verbunden" bedeutet, daß die Vertices eines rechteckigen Blockes in vier möglichen Bewegungsrichtungen verbunden sind. In dem obigen Beispiel sind zwei Punkte i und j 4-verbunden, wenn sie er reicht werden können, indem man mit Hilfe von 4-verbundenen Kettencodes mit min d_ij in einer Richtung herumgeht.
Der so konstruierte Graph kann nun weiterverarbeitet werden, um die Gebiete innerhalb des Graphen je nach Art des Bildes als Textblöcke oder ähnliche Klassifizierungsobjekte zu klassifizieren. In einer Ausführungsform wird der Graph erweitert durch Einbeziehung von Vordergrundseparatoren, z. B. schwarze Linien oder gemusterte Linien wie etwa gestrichelte/punktierte Linien, in die Analyse. Auch Ränder von Fotos oder Graphikobjekten, die detektiert werden, können in die Analyse einbezogen werden.
Das vorliegende Segmentierungsverfahren kann auch einen Schritt der Entfernung von Vordergrundseparatoren umfassen. Zunächst werden Vordergrundseparatoren erkannt und als einzelne Objekte rekonstruiert. Die Komponenten, die eine gemusterte Linie bilden, werden verbunden durch Analyse von Elementheuristik, Heuristik der räumlichen Beziehung und Linienheuristik, d. h. Aufbau eines kombinierten Elements in einer Richtung und Detektieren, ob es als eine Linie zu klassifizieren ist. Ein weiteres Verfahren zur Rekonstruktion einer durchgehenden Linie aus einer gemusterten Linie ist das Heruntersampeln und/oder die Verwendung des Lauflängenglättungsalgorithmus (Run Length Smoothing Algorithm (RLSA), wie von K. Y. Wong, R. G. Casey, F. M. Wahl in "Document analysis system" IBM J. Res. Dev. 26 (1982) 647–656 beschrieben wird. Nach der Detektion der Vordergrundseparatoren werden sie durch Hintergrundpixel ersetzt. Der Effekt ist, daß größere maximale weiße Rechtecke konstruiert werden können, oder Unterstützung irgendwelcher anderer geeigneter Verfahren, bei denen die Hintergrundpixel sinnvoll zum Auffinden von Hintergrundseparatoren verwendet werden.
11 zeigt ein Diagramm eines Verfahrens zur Definition von Feldern auf der Grundlage von Feldseparatoren.
Im Grunde besteht die Aufgabe dieses Verfahrens darin, Felder in einem Bild zu bestimmen, wobei Felder definiert sind als Gebiete, die zusammengehörige Vordergrundelemente enthalten, z. B. Textblöcke in einem Bild einer Zeitungsseite. Die Felder in einem Bild sind getrennt durch Feldseparatoren, die als geometrische Linien aufgefaßt werden, die eine Richtung und die Dicke null haben. Feldseparatoren entsprechen Gebieten aus verbundenen Hintergrundpixeln, die eine längliche Form in einer Separationsrichtung haben, gewöhnlich horizontal oder vertikal. Die Kreuzungspunkte der Feldseparatoren werden als Knoten bezeichnet. Bei dem Verfahren werden zunächst die Feldseparatoren in dem Bild detektiert, und dann werden die Felder auf der Grundlage einer Analyse der Feldseparatoren bestimmt.
In einem Trennschritt 95 wird das Bild analysiert, um Feldseparatoren abzuleiten. Die Feldseparatoren basieren vorzugsweise auf der Analyse unter Verwendung maximaler weißer Rechtecke, wie oben beschrieben wurde. Die Analyse unter Verwendung maximaler weißer Rechtecke liefert einen Graphen, der Kanten und Vertices hat, wo die Kanten miteinander verbunden sind. Für das Verfahren gemäß der vorliegenden Erfindung entsprechen die Feldseparatoren und Knoten den Kanten bzw. Vertices des Graphen. Zur Bestimmung der Feldseparatoren können auch andere geeignete Verfahren verwendet werden. Es sei angemerkt, daß das Verfahren zur Ableitung der Separatoren bereits früher abgeschlossen worden sein kann oder das Bild eine Wiedergabe einer Struktur auf einer höheren Ebene ist, die bereits Separatoren zeigt.
Die so gefundenen Feldseparatoren können etwas von den zugrunde liegenden horizontalen und vertikalen Richtungen abweichen, z. B. als Folge von Fehlausrichtungen beim Scannen, und dies kann zu Fehlern in den weiteren Verarbeitungsschritten führen. Deshalb kann zu dem Verfahren an diesem Punkt ein Schritt der "Ausrichtung am Gitter" hinzugefügt werden, der kleine Abweichungen der x- oder y-Koordinate eines Feldseparators zwangsweise auf null bringt.
In einem Mosaikschritt 96 wird eine Transformation auf eine Bausteinebene ausgeführt. In diesem Schritt wird das Bild in Basisrechtecke aufgeteilt, die die Bausteine der Felder in dem Bild bilden, indem die Feldseparatoren verlängert werden, bis sie den äußeren Rand des Bildes erreichen. Auf diese Weise wird ein sogenanntes Mosaikgitter gebildet, und die von den (verlängerten) Feldseparatoren umschlossenen Gebiete werden als Basisrechtecke definiert.
Die Erzeugung des Mosaikgitters wird nachstehend anhand der 12 und 13 im einzelnen erläutert.
Im Kern verbindet das Verfahren nun die Basisrechtecke, die nicht durch einen Feldseparator getrennt sind, zu Feldern. Ein besonders effizienter Weg zur Ausführung dieses Prozesses umfaßt die folgenden Schritte.
In einem Matrixschritt 97 wird in der Form einer Matrixkarte eine neue Repräsentation des mosaikierten Bildes erstellt. In der Matrixkarte werden die Basisrechtecke und die Elemente des Mosaikgitters durch die Matrixelemente repräsentiert. Dieser Schritt wird weiter unten mit Bezug auf 14 näher beschrieben werden.
In einem Verbindungsschritt 98 werden die Basisrechtecke verbunden, um Gebiete aus verbundenen Basisrechtecken zu bilden. Basisrechtecke werden als verbunden angesehen, wenn sie durch einen verlängerten Teil einer Linie getrennt sind, und als nicht verbunden, wenn sie durch einen Teil einer Linie verbunden sind, der einem Feldseparator zugeordnet ist. In diesem Schritt wird ein CC-Algorithmus (Connected Component Algorithm) verwendet, wie mit Bezug auf 14 beschrieben werden wird.
Die Sätze der verbundenen Basisrechtecke, wie sie in diesem Schritt bestimmt wurden, entsprechen nun den Feldern des ursprünglichen Bildes.
In einem Knoten-Schritt 99 werden die ursprünglichen Knoten, die die im Verbindungsschritt gefundenen Felder begrenzen, aufgerufen, um die Positionen der Felder in dem ursprünglichen Bild zu definieren.
Schließlich werden in einem Feld-Schritt 100 die in dem vorherigen Schritt aufgerufenen ursprünglichen Knoten zu Datenstrukturen kombiniert, die für jedes Gebiet aus verbundenen Basisrechtecken ein Feld definieren. Dies läuft auf eine Transformation von der Matrixrepräsentation zurück auf die Pixeldomäne hinaus. Dieser Schritt wird weiter unten mit Bezug auf 15–17 näher beschrieben.
Es wird nun der Mosaikierungsschritt des Algorithmus näher beschrieben werden.
12 zeigt eine Repräsentation eines Bildes. Das Bild wird repräsentiert durch Linien, die Feldseparatoren 110 zugeordnet sind, die die Felder 109 einschließen. Die Feldseparatoren 110 repräsentieren Hintergrund, in einer Zeitung gewöhnlich weiß, und sind als schwarze Linien dargestellt. Die Vordergrundgebiete zwischen den Feldseparatoren, etwa das Feld 109 in diesem Beispiel, sollen als Felder definiert werden. Die auszuführende Aufgabe besteht darin, die Felder in dem Bild zu identifizieren.
13 zeigt ein Mosaikgitter auf einem Bild, das auf dem eingegebenen Bild gemäß 12 basiert. Zum Erzeugen des Mosaikgitters werden alle Feldseparatoren (ununterbrochene Linien 110 in 13) bis zu den Rändern des Bildes verlängert. Dadurch wird das Bild durch vertikale Linien in vier X-Segmente ΔX₁ bis ΔX₄ und durch horizontale Linien in sechs Y-Segmente ΔY₁ bis ΔY₆ aufgeteilt. Die Verlängerungen der Feldseparatoren 110 sind als gestrichelte Linien 111 dargestellt. Zum Beispiel sind die Knoten 2 und 6 die tatsächlichen Knoten eines Feldseparators, und die Verlängerung erzeugt einen virtuellen Knoten 116 zwischen den Knoten 2 und 6. Zwei Basisrechtecke werden in dem Gebiet direkt rechts von der Linie zwischen den Knoten 2 und 6 gebildet. Jedes Rechteck in dem Mosaikgitter, das durch die Linien auf der Grundlage der Verlängerung der Feldseparatoren gebildet wird, ist ein sogenanntes Basisrechteck. Zum Beispiel ist das Basisrechteck 113 Teil eines verbundenen Gebietes, das durch die schattierte Fläche angegeben wird, die durch alle Basisrechtecke gebildet wird, die von dem Basisrechteck 113 nicht durch einen Feldseparator getrennt sind. Die Fläche der verbundenen Basisrechtecke kann leicht konstruiert werden, wie nachstehend mit Bezug auf 14 beschrieben wird.
Es sei angemerkt, daß er Ansatz auf Gebiete erweitert werden kann, bei denen es sich nicht um im wesentlichen rechteckige Strukturen handelt. Zur Verarbeitung von Bildern, die Flächen mit gekrümmten Rändern enthalten, können stückweise Linearisierung und/oder die elastische Verformung des planaren Graphen angewandt werden.
In dem Matrixschritt des grundlegenden Algorithmus wird das mosaikierte Bild, wie es in 13 gezeigt ist, in eine Matrixdarstellung konvertiert, in der jedem Basisrechteck und jedem Liniensegment ein Matrixelement zugeordnet ist. Wenn man das Bild in horizontaler Richtung durchquert, so erstreckt sich das mosaikierte Bild über 4 Basisrechtecke und 5 vertikale Linien, die zu den Feldseparatoren gehören, und dementsprechend hat die Matrixdarstellung neun Spalten. In vertikaler Richtung erstreckt sich das mosaikierte Bild über 6 Basisrechtecke und sieben horizontale Linien, und demgemäß hat die Matrixdarstellung 13 Zeilen.
Am Anfang erhält jedes Matrixelement den Wert eins. Dann werden alle Matrixelemente systematisch darauf geprüft, ob sie zu einem Feldseparator des ursprünglichen Bildes gehören, und, wenn ja, wird ihr Wert in null geändert. So wird ein Vordergrundelement durch eine 1 und ein Hintergrundelement durch eine 0 repräsentiert.
Alternativ können die Matrixelemente zu 0 geändert werden, indem die Liste der Feldseparatoren geprüft wird, was normalerweise zu weniger Operationen führen wird.
14 zeigt die resultierende Matrixkarte 120 des Bildes in 13. Zum Beispiel ist das Basisrechteck 113 nun auf ein einzelnes Element 123 der Matrix reduziert, und das verlängerte Liniensegment 111 ist nun das Element 121 der Matrix. Die Knoten 2 und 6 werden durch die Elemente 124 und 125 repräsentiert. Ebenso ist das Matrixelement gezeigt, das dem virtuellen Knoten 116 entspricht. Dieses Element hat den Wert eins, weil es Teil eines Feldseparators ist. Es ist zu bemerken, daß die geographische Gestalt nicht erhalten bleibt, weil die Längen der Linien zwischen den Knoten nicht berücksichtigt werden. Die Beziehung zwischen den ur sprünglichen Knoten in der Repräsentation des Bildes und dem Mosaikgitter wird getrennt gespeichert, wie weiter unten mit Bezug auf 17 beschrieben werden wird.
Die Fläche 109 (12) ist in 14 als die schattierte Fläche 122 gezeigt, deren Elemente alle den Wert 1 haben.
In dem Verbindungsschritt des Algorithmus wird die so erzeugte Matrixkarte anschließend einem CC-Prozeß unterzogen, um Sätze von verbundenen Elementen zu finden, die in der Matrix den Wert 1 haben. CC-Algorithmen sind in der Literatur allgemein bekannt und werden deshalb hier nicht näher beschrieben.
Es wird nun der Knoten-Schritt des Algorithmus näher erläutert werden. Als ein Beispiel zeigt 15 ein einzelnes verbundenes Gebiet 130 in der Matrix nach 14. Die gezeigte Matrix basiert auf dem oben beschriebenen Mosaikgitter, doch wird durch die schattierte Fläche nur das verbundene Gebiet 130 angegeben, wie es durch den CC-Prozeß detektiert wurde. Die konstituierenden Elemente des verbunden Gebietes haben einen Wert 1 und sind von Elementen mit dem Wert 0 umgeben. In den folgenden Schritten wird ein Feld auf der Grundlage einer Kontur um das verbundene Gebiet herum definiert.
16 zeigt die Kontur 140 eines verbundenen Gebietes. Die Kontur ist durch eine schraffierte Fläche mit Werten 1 um eine Fläche mit den Werten 0 herum angegeben, die dem verbundenen Gebiet 130 entspricht. Zum Auffinden der Kontur wird zunächst das Gebiet 130 um ein Pixel gedehnt, und dann wird das ursprüngliche Gebiet abgezogen.
17 zeigt eine Knotenmatrix. Die Matrix hat die gleiche Dimension wie die Matrixkarte. Der Wert der Elemente ist entweder eine Knotennummer (zwischen 0 und 18) oder leer. Die Knotennummern beziehen sich auf die Knoten in dem ursprünglichen Bild, wie sie in 12 gezeigt sind. Die Kontur 140 des oben abgeleiteten verbundenen Gebietes 130 ist auf die Knotenmatrix projiziert und als ein schattiertes Gebiet 141 dargestellt.
Die Knotenmatrix wird wie folgt konstruiert. Anfangs werden die Werte der Elemente auf "leer" gesetzt. Dann werden tatsächliche Knoten der Feldseparatoren in die Matrix eingetragen, z. B. auf der Grundlage der Vertexliste des Graphen.
Die Aufgabe besteht darin, alle Knoten zu extrahieren, die zu der Kontur 140 des Gebietes 130 gehören. Die in der Kontur vorhandenen Knoten werden ermittelt durch Verfolgen der Kontur und Kennzeichnen der darin enthaltenen Knoten.
Nach dem Verfolgen der Konturen werden die Knoten in dem Feld-Schritt des Algorithmus an die Repräsentation des ursprünglichen Bildes gekoppelt. Erforderlichenfalls wird eine Umkehrung des Prozesses "Einrasten am Gitter angewandt, und die Knotennummern werden wieder mit dem ursprünglichen Satz der Knoten gekoppelt. Schließlich werden erforderlichenfalls die Knoten und/oder Kanten eines Feldes geordnet, z. B in Uhrzeigersinn. Die Ordnung kann für Flächenberechnungen oder die Wiedergabe erforderlich sein.
Die Extraktion der Knoten und die Bestimmung des Feldes muß natürlich für alle Felder des Bildes vorgenommen werden.
Es ist zu bemerken, daß Gebiete einander umschließen können, was zu disjunkten Polygonen führt, z. B. eine Textumrahmung. Damit man in der Lage ist, auf Gebieten zu operieren, die durch mehrere disjunkte Polygone begrenzt sind, wird eine bekannte Technik benutzt, die solche Polygone verbindet. Die beiden Konturen des Polygons werden durch eine sogenannte "Nullflächenbrücke" verbunden, eigentlich zwei Liniensegmente, von denen eines in die innere Kontur eintritt und das andere sie verläßt.
10 zeigt eine Vorrichtung, bei der das Verfahren zum Segmentieren eines Bildes in Übereinstimmung mit der vorliegenden Erfindung implementiert ist. Die Vorrichtung hat eine Eingabeeinheit 91 zur Eingabe eines digitalen Bildes. Die Eingabeeinheit kann einen Scanner zum Scannen eines Bildes auf Papier umfassen, etwa einen elektrooptischen Scanner, oder eine digitale Kommunikationseinheit zum Empfang des Bildes von einem Netzwerk wie etwa dem Internet, oder eine Wiedergabeeinheit zur Wiedergabe von digitaler Bildinformation von einem Aufzeichnungsträger wie einem optischen Plattenlaufwerk. Die Eingabeeinheit 91 ist mit einer Verarbeitungseinheit 94 verbunden, die mit einer Speichereinheit 92 zusammenwirkt. Die Prozessoreinheit kann eine zentrale Prozessoreinheit (CPU) eines Vielzweckcomputers und unterstützende Schaltungen umfassen und arbeitet mit Software zur Ausführung der oben beschriebenen Segmentierung. Insbesondere umfaßt die Software Module (in der Zeichnung nicht gesondert dargestellt) zur Konstruktion des Mosaikgitters durch Verlängern der Feldseparatoren zu den äußeren Rändern des Bildes, zur Konstruktion der Basisrechtecke und zur Konstruktion der Felder durch Verbinden benachbarter Basisrechtecke die nicht durch einen Feldseparator getrennt sind. Außerdem umfaßt die Software Module zur Konstruktion einer Matrixkarte, die das Mosaikgitter repräsentiert, und zur Konstruktion einer Knotenmatrix, die sich auf die Knoten in dem Mosaikgitter bezieht.
Die Verarbeitungseinheit kann weiterhin eine Benutzerschnittstelle 95 umfassen, die mit Steuereinrichtungen wie etwa einer Tastatur, einer Maus oder Bedienungstasten versehen ist. Der Output der Verarbeitungseinheit ist auf eine Anzeigeeinheit 93 geschaltet. In einer Ausführungsform ist die Anzeigeeinheit ein Drucker zur Ausgabe eines verarbeiteten Bildes auf Papier, oder eine Aufzeichnungseinheit zum Speichern des segmentierten Bildes auf einem Aufzeichnungsträger wie einem Magnetband oder einer optischen Platte.
Obgleich die Erfindung hauptsächlich anhand von Ausführungsformen erläutert wurde, bei denen eine Zeitungsseite das zu segmentierende digitale Bild war, ist die Erfindung auch für irgendeine digitale Repräsentation geeignet, die Felder auf einem Hintergrund enthält, etwa elektrische Schaltungen in Layoutbildern für die Konstruktion von integrierten Schaltkreisen, oder für Straßen und Gebäude auf Stadtkarten. Weiterhin sei angemerkt, daß der Graph als Ausgangspunkt für die Ausführung der Segmentierung durch kürzeste Zyklen anders konstruiert sein kann als der oben beschriebene Graph auf der Basis des MWR-Systems. Zum Beispiel kann ein Graph unter Verwendung von Kacheln konstruiert werden, wie in dem oben erwähnten Artikel von Antonacopoulos beschrieben wird. Weiterhin ist das einer Kante in dem Graphen zugewiesene Gewicht nicht notwendigerweise der Abstand. Es muß so ausgewählt werden, daß es einem Beitrag zu dem kürzesten Zyklus entspricht, z. B. kann das Gewicht die Oberfläche der Kachel sein. Es sei angemerkt, daß in diesem Dokument die Verwendung des Verbes "umfaßt" und seiner Konjugationen nicht das Vorhandensein von anderen Elementen oder Schritten als den aufgezählten ausschließt und das Wort "ein" oder "eine" vor einem Element nicht das Vorhandensein mehrerer solcher Elemente ausschließt, daß irgendwelche Bezugszeichen den Umfang der Ansprüche nicht beschränken, daß die Erfindung und jede erwähnte Einheit oder Einrichtung durch geeignete Hardware und/oder Software implementiert werden kann, und daß mehrere "Einrichtungen" oder "Einheiten" durch denselben Begriff repräsentiert werden können.

Claims

Verfahren zum Segementieren eines aus Pixeln aufgebauten zusammengesetzten Bildes in eine Anzahl von Feldern, die Layoutelementen des Bildes entsprechen, wobei die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelementes repräsentiert, welches Verfahren umfaßt: – Auffinden initialer Feldseparatoren, die Gebieten von zusammenhängenden Pixeln des Bildes entsprechen, die eine vordefinierte Eigenschaft haben, die einen Hintergrund des Bildes kennzeichnet, gekennzeichnet durch die weiteren Schritte: – Verlängern der Feldseparatoren in wenigstens einer Separationsrichtung bis zu einem äußeren Rand des Bildes, – Konstruktion eines Mosaikgitters aus Linien, die den verlängerten Feldseparatoren entsprechen, – Konstruktion eines Satzes von Basisrechtecken, wobei ein Basisrechteck eine von Linien des Mosaikgitters umschlossene Fläche ist, und – Konstruktion der Felder durch Verbinden von Basisrechtecken, die einander benachbart sind und nicht durch einen initialen Feldseparator getrennt sind.
Verfahren nach Anspruch 1, bei dem der Schritt der Konstruktion des Satzes von Basisrechtecken die Konstruktion einer Matrixkarte umfaßt, die das Mosaikgitter durch ein zweidimensionales Feld von Elementen repräsentiert, die jeweils entweder ein Basisrechteck oder ein Liniensegment des Mosaikgitters repräsentieren, wobei ein Element einen ersten vordefinierten Wert hat, um eine Linie zu repräsentieren, die einem Feldseparator entspricht, oder einen weiteren, anderen Wert zur Repräsentation eines Basisrechtecks oder einer Linie, die einem verlängerten Feldseparator entspricht.
Verfahren nach Anspruch 2, bei dem der Schritt der Konstruktion der Felder das Verbinden von Elementen in der Matrixkarte umfaßt, die den genannten weiteren, anderen Wert haben.
Verfahren nach Anspruch 1, 2 oder 3, bei dem Knoten an Punkten definiert werden, an denen sich die Feldseparatoren vereinigen, wobei der Schritt der Konstruktion der Felder die Konstruktion einer Knotenmatrix umfaßt, die dem Mosaikgitter entspricht und Elemente einschließt, die auf Knoten in dem Mosaikgitter verweisen.
Verfahren nach Anspruch 4, bei dem – der Schritt der Konstruktion der Felder die Konstruktion einer Kontur für jede Fläche aus verbundenen Elementen in der Matrixkarte und das Auffinden der das Feld definierenden Knoten durch Projektion der Kontur auf die Knotenmatrix umfaßt.
Verfahren nach Anspruch 5, bei dem die Kontur konstruiert wird, indem die Fläche gedehnt und die Fläche von der gedehnten Fläche subtrahiert wird.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem die Segmentierung umfaßt: – die Konstruktion eines Graphen, der Kanten hat, die Gebieten von benachbarten Pixeln entsprechen, die eine vordefinierte Eigenschaft haben, die für einen Hintergrund des Bildes kennzeichnend ist, sowie von Vertices, wo die Kanten miteinander verbunden sind, und Zuordnen von Feldseparatoren zu den Kanten des Graphen und – Erzeugen des Mosaikgitters durch Verlängern der Feldseparatoren zu einem äußeren Rand des Bildes.
Verfahren nach Anspruch 7, bei dem die Konstruktion des Graphen das Säubern des Graphen durch Entfernen von Vertices, die mit weniger als zwei Kanten verbunden sind, und/oder das Entfernen etwaiger Kanten umfaßt, die mit solchen Vertices verbunden sind.
Verfahren nach einem der vorstehenden Ansprüche, bei dem das Verfahren das Einrasten der Linien in dem Mosaikgitter in zwei orthogonalen Separationsrichtungen einschließt.
Computerprogramm zum Segmentieren eines aus Pixeln aufgebauten Bildes in eine Anzahl von Feldern, welches Programm bewirkt, daß ein Prozessor das Verfahren nach einem der Ansprüche 1 bis 9 ausführt.
Vorrichtung zum Segmentieren eines aus Pixeln aufgebauten zusammengesetzten Bildes in eine Anzahl von Feldern, die Layoutelementen des Bildes entsprechen, wobei die Pixel einen Wert haben, der die Intensität und/oder Farbe eines Bildelements repräsentiert, und welche Vorrichtung aufweist: – eine Eingabeeinheit (91) zur Eingabe eines Bildes und – eine Verarbeitungseinheit (94) zum Auffinden von initialen Feldseparatoren, die Gebieten von zusammenhängenden Pixeln entsprechen, die eine vorbestimmte Eigenschaft haben, die für einen Hintergrund des Bildes kennzeichnend ist, dadurch gekennzeichnet, daß die Verarbeitungseinheit (94) dazu ausgebildet ist: – die Feldseparatoren in wenigstens einer Separationsrichtung zu einem äußeren Rand des Bildes zu verlängern, – ein Mosaikgitter aus Linien zu konstruieren, die den (verlängerten) Feldseparatoren entsprechen, – einen Satz von Basisrechtecken zu konstruieren, wobei ein Basisrechteck eine von Linien des Mosaikgitters umschlossene Fläche ist, und – die Felder zu konstruieren, indem Basisrechtecke, die aneinander angrenzen und nicht durch einen initialen Feldseparator getrennt sind, miteinander verbunden werden.
Vorrichtung nach Anspruch 11, bei der eine Verarbeitungseinheit (94) dazu ausgebildet ist, – eine Matrixkarte zu konstruieren, die das Mosaikgitter durch ein zweidimensionales Feld aus Elementen repräsentiert, die jeweils ein Basisrechteck oder ein Liniensegment des Mosaikgitters repräsentieren, wobei ein Element einen ersten vordefinierten Wert zur Darstellung einer Linie, die einem Feldseparator entspricht, oder einen weiteren, anderen Wert zur Darstellung eines Basisrechtecks oder einer einem verlängerten Feldseparator entsprechenden Linie hat.
Vorrichtung nach Anspruch 11 oder 12, bei der eine Verarbeitungseinheit (94) dazu ausgebildet ist, – eine Knotenmatrix zu konstruieren, die dem Mosaikgitter entspricht und Elemente enthält, die auf Knoten in dem Mosaikgitter verweisen.
Vorrichtung nach Anspruch 11, 12 oder 13, bei der die Vorrichtung eine Anzeigeeinheit (93) zum Anzeige von Feldern des Bildes nach der Segmentierung aufweist.