DE68924606T2 - Dokumentenbildverarbeitungsgerät. - Google Patents

Dokumentenbildverarbeitungsgerät.

Info

Publication number
DE68924606T2
DE68924606T2 DE68924606T DE68924606T DE68924606T2 DE 68924606 T2 DE68924606 T2 DE 68924606T2 DE 68924606 T DE68924606 T DE 68924606T DE 68924606 T DE68924606 T DE 68924606T DE 68924606 T2 DE68924606 T2 DE 68924606T2
Authority
DE
Germany
Prior art keywords
sub
tree
regions
areas
separating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE68924606T
Other languages
English (en)
Other versions
DE68924606D1 (de
Inventor
Shuichi C O Patent D Tsujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of DE68924606D1 publication Critical patent/DE68924606D1/de
Application granted granted Critical
Publication of DE68924606T2 publication Critical patent/DE68924606T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Dokumentenbildverarbeitungsgerät und insbesondere auf ein solches Gerät, das ein Dokumentenbild mit einer Anzahl von Artikeln und Spalten richtig lesen kann.
  • Osamu IWAKI u.a., "Eine Unterteilungsmethode auf der Basis der hierarchischen Struktur eines Bürodokumentes", IEEE 1987, offenbaren eine Unterteilungsmethode, die Zeichen und Grafiken aus Bürodokumenten unter Verwendung der Dokumenteneigenschaften gewinnt, die auf einer hierarchischen Struktur basieren.
  • Y. MAEDA u.a., "Zeichenunterteilung in handschriftlichen japanischen Dokumentenbildern", IEEE 1986, offenbaren einen zweistufigen Algorithmus.
  • Die erste Stufe ist die Textzeilenunterteilung. In dieser Stufe wird das Dokument zuerst in winzig kleine, rechteckige Bilder (MOI) unterteilt. Dann werden der Grundtext und der Kopftext mit einer hohen Geschwindigkeit sowohl durch die Merkmale der MOI und das auf der Dokumentenstruktur basierende Wissen unterteilt. Wenn die unterteilte Textzeile eine Unterstreichung hat, kann die Unterstreichung in dieser Stufe gelöscht werden.
  • Die zweite Stufe ist die Zeichenunterteilung. In dieser Stufe werden die Zeichen durch die Musterinformation und die Lage in der Textzeile, in der ersten Stufe aus dem Dokumentenbild gewonnen, unterteilt.
  • Das bekannte Dokumentenbildverarbeitungsgerät kann jedoch nicht automatisch ein Dokument lesen, das eine große Anzahl von Artikeln und Spalten aufweist. Ein solches Gerät kann nur von oben nach unten in einem Dokument mit einem Artikel in einer Spalte lesen.
  • Wenn daher ein Dokument eine große Anzahl von Artikeln und Spalten aufweist, das mit Hilfe eines bekannten Gerätes gelesen werden muß, muß das Eingabe-Dokumentenbild in Unterbereiche unterteilt werden, die durch die Textzeilen und Absätze dargestellt sind. Ferner muß die Beziehung der Verbindungen zwischen den jeweiligen Unterbereichen durch einen Menschen bestimmt werden.
  • Darüberhinaus muß jedes zu lesende Dokument einzeln in bezug auf seine Layout-Form definiert werden. Somit muß ein Dokument mit einer großen Anzahl von Artikeln und Spalten mittels Verfahren gelesen werden, die mit beschwerlichem und zeitaufwendigem menschlichen Eingriff verbunden sind.
  • Eine Aufgabe der vorliegenden Erfindung ist es, ein Dokumentenbildverarbeitungsgerät zur Verfügung zu stellen, das automatisch eingegebene Dokumentenbilder ohne zusätzlichen menschlichen Eingriff lesen kann.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Dokumentenbildverarbeitungsgerät mit einer die Struktur analysierenden Einrichtung zum analytischen Auftrennen des Bildes eines Dokumentes in Unterbereiche, welche analoge körperliche Eigenschaften haben, wie beispielsweise Zeichengröße und -neigung, Zeichenabstand, Schriftart und Unterstreichungen, und zum Aufteilen der Unterbereiche in Gruppen (H, B) gemäß ihrer körperlichen Eigenschaften; einer Gestaltungseinrichtung für geometrische Strukturen, um eine geometrische Struktur zu bilden, welche entsprechend der körperlichen Positionsbeziehung zwischen den Unterbereichen ein Baumdiagramm mit Knoten und Listen darstellt; und einer Einrichtung zum Erfassen der Struktur, mit (i) einer Einrichtung, um die geometrische Struktur in eine Logische Struktur zu transformieren, indem auf die Knoten und Listen der geometrischen Struktur verschiedene Regeln zur Gewinnung von Informationen hinsichtlich der Prioritätsreihenfolge angewendet werden, (ii) mit einer Verarbeitungseinrichtung für mehrere Texte und (iii) mit einer Gruppenverknüpfungseinrichtung, um ein verändertes Dokumentenbild mit einer vorbestimmten Beziehung zwischen den Unterbereichen auszugeben, die die Prioritätsreihenfolge guter Lesbarkeit für den Menschen angibt, zur Verfügung gestellt.
  • Gemäß einem anderen Aspekt der Erfindung wird ein Dokumentenbildverarbeitungsgerät zur Verfügung gestellt, mit Einrichtungen zum analytischen Auftrennen des Bildes eines Dokumentes in Unterbereiche, welche analoge körperliche Eigenschaften haben; mit Einrichtungen, um jeden Unterbereich mit einem Code zur Kennzeichnung der Position, wobei jeder Code eine vorgeschriebene Priorität hat, und entsprechend einer vorbestimmten Kategorie der Unterbereiche mit einem Unterscheidungscode zu versehen; mit Baumeinrichtungen zum Gruppieren der Codes zur Kennzeichnung der Position der Unterbereiche, die die gleiche vorgeschriebene Priorität haben, wobei die Baumeinrichtungen Einrichtungen enthalten, um die Codegruppen in erste Knotengruppen, in denen mehrere Gruppen kennzeichnender Codes in der vorgeschriebenen Prioritätsreihenfolge die nachfolgende Priorität haben, und in zweite Knotengruppen aufzuteilen, in denen lediglich eine einzelne Gruppe kennzeichnender Codes in der vorgeschriebenen Prioritätsreihenfolge die nachfolgende Priorität hat; und mit Einrichtungen zum Darstellen der Codes zur Kennzeichnung der Position der Unterbereiche, die an verschiedenen Knoten der gleichen Ebene auf gleicher Ebene des Baumes liegen, wobei die Codes zur Kennzeichnung der Position aus den Codes zur Kennzeichnung der Position der Unterbereiche ausgewählt sind, die an den Knoten des Baumes dargestellt sind und wobei die Darstellung der Codes zur Kennzeichnung der Position der Unterbereiche durch die Unterbereiche an den Knoten im unteren Bereich des Baumes gesteuert wird.
  • Zum besseren Verständnis der Erfindung wird sie nachfolgend auf dem Wege der Beschreibung lediglich eines Beispiels unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. In den Zeichnungen sind:
  • Fig. 1 ein Blockdiagramm, das eine Ausführung gemäß der vorliegenden Erfindung zeigt;
  • Fig. 2a und 2b sind Diagramme, die den Betrieb einer Ausführung gemäß der vorliegenden Erfindung darstellen: Fig. 2a ist ein Diagramm, das den Betrieb einer strukturanalysierenden Einheit darstellt und Fig. 2b ist ein Diagramm, das den Betrieb einer die geometrische Struktur bildenden Einheit zeigt;
  • Fig. 3 ist ein detailliertes Blockdiagramm, das eine Ausführung der vorliegenden Erfindung darstellt;
  • Fig. 4a und 4b sind Diagramme, die den Betrieb einer Ausführung gemäß der vorliegenden Erfindung darstellen: Fig. 4a ist ein Diagramm, das den Betrieb der strukturanalysierenden Einheit unter Verwendung verschiedener Bestimmungen für die Unterbereiche darstellt und Fig. 4b ist ein Diagramm, das den Betrieb der strukturerfassenden Einheit zeigt;
  • Fig. 5 bis 8 sind Diagramme die den Betrieb der strukturerfassenden Einheit für verschiedene Dokumentenbildanordnungen und verschiedene Darstellungsformen zeigen;
  • Fig. 9 ist ein Diagramm, das die Betriebsergebnisse einer Ausführung gemäß der vorliegenden Erfindung zeigt; und
  • Fig. 10a und 10b sind Diagramme die den Betrieb einer Ausführung der vorliegenden Erfindung zeigen: Fig. 10a ist ein Diagramm, das den Betrieb der strukturanalysierenden Einheit darstellt und Fig. 10b ist ein Diagramm, das den Betrieb der die geometrische Struktur bildenden Einheit und der strukturerfassenden Einheit zeigt.
  • In Fig. 1 werden die Eingabe-Dokumentenbilder einer strukturanalysierenden Einheit 1 zugeführt. In der strukturanalysierenden Einheit 1 werden die Eingabe-Dokumentenbilder analytisch in Unterbereiche aufgetrennt, die gleiche körperlich Eigenschaften haben (wie z.B. Zeichengröße und -neigung, Zeichenabstand, Schriftart und Unterstreichungen). Hier werden die Unterbereiche nach ihren körperlichen Eigenschaften in zwei Gruppen klassifiziert, wie z.B. "Grundtext" und" Kopftext". Der Ausdruck "Kopftext" (H) wird einem Unterbereich zugewiesen, der sich über mehrere Spalten erstreckt oder der Zeichen enthält, die durch Zentrierung bearbeitet sind. Der Ausdruck "Grundtext" (B) wird einem Unterbereich zugewiesen, der kein "Kopftext" (H)-Unterbereich ist, wie in Fig. 2a dargestellt ist. Ferner geben die H oder B der Unterbereiche zugeordneten Ziffern die richtige Lesereihenfolge an.
  • Als nächste wird die positionelle Beziehung der Unterbereiche durch die Verwendung eines Baumdiagrammes (hierin nachfolgend einfach als Baum bezeichnet) in einer die geometrische Struktur bildenden Einheit 2 dargestellt. Die so gebildete positionelle Beziehung wird als eine geometrische Struktur definiert (Fig. 2b).
  • Wie aus Fig. 2b ersichtlich ist haben die jeweiligen Knoten des Baumes eine oder mehrere Ziffern in Folge. Diese Zifferngruppe wird als eine Liste definiert. Die Ziffern der Listen stellen die positionelle Beziehung der Unterbereiche in Fig. 2a dar. Die Reihenfolge der Ziffern stimmt mit der richtigen Lesereihenfolge durch den Menschen überein.
  • Im einzelnen betrachtet hat der oberste Knoten des Baumes von Fig. 2b eine Liste mit den Ziffern 0, 1, 2. Diese Ziffern entsprechen den Unterbereichen OH, 1H bzw. 2B, die in der gleichen Spalte im oberen Teil von Fig. 2a positioniert sind. Ferner sind in Fig. 2a die Unterbereiche 3H und 13H unter dem Unterbereich 2B positioniert. Drei Spalten gibt es unter dem Unterbereich 3H. Jede Spalte schließt Unterbereiche wie zum Beispiel 4H, 5B und 6B, und 7B und 8B, und 9H, 10B, 11H und 12B ein.
  • Als nächste ist nur die eine Spalte mit den Unterbereichen 14B, 15H und 16B unter dem Unterbereich 13H positioniert. Daher hat in Fig. 2b der linke Knoten im Zwischenabschnitt des Baumes die Ziffer 3, die die 3 des Unterbereiches 3H in Fig. 2a darstellt. Der rechte Knoten hat eine Liste mit den Ziffern 13, 14, 15 bzw. 16, die die Unterbereiche 13H, 14B, 15H und 16B in Fig.2a repräsentieren. In gleicher Weise haben die drei Knoten, die unter dem Knoten mit der Liste, die 3 einschließt, die Listen, die die Ziffern 4, 5 und 6, 7 und 8 und 9, 10, 11 und 12 haben, die jeweils die Unterbereiche 4H, 5B und 6B, der Unterbereiche 7B und 8H, der Unterbereiche 9H, 10B, 11H und 12B in Fig. 2a repräsentieren.
  • Als nächstes wird in der strukturerfassenden Einheit 3 von Fig. 1 eine logische Struktur auf der Basis der vorher beschriebenen geometrischen Struktur hergestellt. Die logische Struktur entspricht einem modifiziertem Dokumentenbild mit einer vorherbestimmten Beziehung zwischen den Unterbereichen.
  • Als nächstes wird die Ausführung von Fig. 1 ausführlicher unter Bezugnahme auf Fig. 3 beschrieben. Die strukturanalysierende Einheit 1 von Fig. 1 umfaßt eine Zeilenlänge-Kodiereinheit 23, eine Spalteninformations-Trenneinheit 24, eine Zeileninformations-Trenneinheit 25, eine Unterbereichsinformation-Trenneinheit 26 und eine Gruppenverknüpfungseinheit 27. Ferner enthält die Gestaltungseinheit für die geometrische Struktur 2 von Fig. 1 eine Einrichtung 28 zum Trennen von Informationen, die in der gleichen Spalte benachbart nebeneinanderliegen und eine Gestaltungseinrichtung für die Baumstruktur 29. Die strukturerfassende Einheit 3 von Fig. 1 enthält eine Transformationseinheit 30, eine Einheit für die Verarbeitung mehrerer Texte 31 und eine Gruppenverknüpfungseinheit 32.
  • In Fig. 3 werden die Eingabe-Dokumkentenbilder 21 optisch durch einen Bildscanner 22 gelesen. Die vom Bildscanner 22 erzeugten Ausgangssignale werden der Zeilenlänge-Kodiereinheit 23 zugeführt. In der Einheit 23 werden auf der Basis der Eingabe-Dokumentenbildsignale die Zeilenlänge-Kodesignale gebildet. Als nächstes werden die Zeilenlänge-Kodesignale in vorgeschriebener Weise durch die Spalteninformations-Trenneinheit 24, die Zeileninformations-Trenneinheit 25 und die Unterbereichsinformation-Trenneinheit 26 verarbeitet. Als ein Ergebnis werden die Eingabe-Dokumentenbilder hinsichtlich ihrer körperlichen Eigenschaften in Unterbereichsinformationen entsprechend den jeweiligen Unterbereichen der Eingabe-Dokumentenbilder aufgeteilt. Die so erhaltene Unterbereichsinformation wird mittels der Gruppenverknüpfungseinheit 27 entsprechend den Gruppen der Eingabe- Dokumentenbilder bezeichnet.
  • Danach werden die von der Gruppenverknüpfungseinheit 27 erzeugten Ausgangssignale der Einheit 28 zum Trennen von Informationen, die in der gleichen Spalte benachbart nebeneinanderliegen zugeführt. In der Einheit 28 werden die in der gleichen Spalte nebeneinanderliegenden Unterbereiche als nebeneinanderliegende Informationen getrennt. Die von der Einheit 28 erzeugten nebeneinanderliegenden Informationen werden der Baumstruktur-Gestaltungseinheit 29 zugeführt. In der Einheit 29 werden die Bäume der geometrischen Struktur, die Knoten mit den so erhaltenen nebeneinanderliegenden Informationen aufweisen, gestaltet.
  • Nachfolgend werden die von der Einheit 29 erzeugten Signale der Transformationseinheit 30 zugeführt. In der Einheit 30 werden die Bäume der geometrischen Struktur in Bäume logischer Struktur durch die Verwendung verschiedener Regeln für das Heraustrennen von Prioritätsreihenfolgeinformationen transformiert. Danach werden die von der Einheit 30 erzeugten Ausgangssignale der Verarbeitungseinheit für mehrere Texte 31 zugeführt. In der Einheit 31 wird in der vorgeschriebenen Art und Weise eine große Anzahl von Texten verarbeitet. Abschließend werden die von der Einheit 31 erzeugten Signale der Gruppenverknüpfungseinheit 32 zugeführt. In der Einheit 32 werden korrespondierende Gruppen jeweils den so erhaltenen Unterbereichen zugefügt. Im Ergebnis werden die Ausgänge 33 logischer Struktur von der Einheit 2 erzeugt.
  • Es soll nun die logische Struktur beschrieben werden. Gemäß dem Dokumenteninhalt können die Unterbereiche in bibliografische Gruppen wie Titel, Untertitel, Kurzfassung usw. und in Haupttextgruppen, wie z.B. Absätze klassifiziert werden. Die Prioritätsbeziehung der Unterbereiche wird durch einen Baum logisch dargestellt. Die jeweiligen Baumknoten haben Listen mit den Ziffern von Unterbereichen der gleichen Priorität. Die Reihenfolge der Ziffern in der jeweiligen Liste stimmt mit der Prioritätsreihenfolge des richtigen Lesens überein. Ferner entspricht die Größe des Baumes den verschiedenen Prioritätsbeziehungen zwischen den Unterbereichen des Dokumentenbildes.
  • Fig. 4a zeigt eine geometrische Struktur. In Fig. 4a stellt T einen Titel, N den Namen eines Autors, S einen Untertitel, A eine Kurzfassung und P einen Textabsatz dar. Ferner zeigen die Ziffern der jeweiligen Unterbereiche die logische Reihenfolge des Dokumentes von oben nach unten, d.h. in der Reihenfolge der richtigen Lesereihenfolge durch den Menschen. Die geometrische Struktur von Fig. 4a wird in eine logische Struktur in Form eines Baumes transformiert, wie es in Fig. 4b dargestellt ist. Der oberste Knoten des Baumes von Fig. 4b hat eine Liste mit den Zifern 0 und 1. Diese Ziffern stellen den Titel und den Namen des Autors dar, die hinsichtlich der Priorität in der gleichen Ebene liegen. Die Reihenfolge der Ziffern 0 und 1 entspricht der richtigen Lesereihenfolge. Der unmittelbar unter dem obersten Knoten gelegene Knoten hat eine Liste mit der Ziffer 2. Diese Ziffer stellt den Unterbereich 2A dar, der eine Kurzfassung ist. Die nächsten drei Knoten haben Listen mit einer der Ziffern 3, 13, 15. Diese Ziffern entsprechen den Unterbereichen 3S, 13S und 15S, die die Untertitel auf der gleichen Ebene sind. Die drei Knoten unter der Ziffer 3 haben eine Liste mit den Ziffern 4, 8 und 9, bzw. 11. Diese Ziffern entsprechen den Unterbereichen 4S, 8S, 9S und 11S, von denen jeder ein Untertitel ist und vom Untertitel 3S dominiert ist. Zwischen den Untertiteln 8S und 9S gibt es keinen Absatz. Somit erscheinen die entsprechenden Ziffern 8 und 9 am gleichen Knoten. Die Absätze 5, 6 und 7 werden durch den Untertitel 4S dominiert.
  • Somit sind im Baum von Fig. 4b die Ziffern 5, 6 und 7 zusammen unter der Ziffer 4 angeordnet. In gleicher Weise wird der Absatz 10 durch den Untertitel 9S dominiert. Somit ist die Ziffer 10 unter dem Knoten mit der Liste angeordnet, die die Ziffern 8 und 9 hat. Der Absatz 12 ist unter dem Knoten angeordnet, der die Liste mit der Ziffer 11 hat. Der Absatz 16P wird durch den Untertitel 15S dominiert, so daß die Ziffer 16 unter dem Knoten angeordnet ist, der die Liste mit der Ziffer 15 hat.
  • Als nächstes werden die Transformationsbeispiele in der strukturerfassenden Einheit 3 unter Bezugnahme auf Fig. 5 bis Fig. 8 beschrieben. Eine logische Struktur kann durch Transformation einer geometrischen Struktur gemäß den folgenden vier Regeln a bis d erhalten werden. In Fig. 5 bis Fig. 8 stellt S einen Unterbereich, H einen Kopftext-Unterbereich und B einen Grundtext- Unterbereich dar.
  • Regel a (siehe Fig. 5)
  • Durch den linken Baum wird eine geometrische Struktur dargestellt. Der Baum wird entsprechend den Unterbereichen a und b erhalten. Der Baum der geometrischen Struktur wird in eine logische Struktur transformiert, die durch den rechten Baum dargestellt ist. Die Transformation wird wie folgt ausgeführt.
  • Der Endknoten (A) des linken Baumes hat gemäß dem Inhalt des Unterbereiches a eine Liste mit B, S, ...S. Der Endknoten (B) des linken Baumes hat entsprechend dem Inhalt von Unterbereich b eine Liste mit S...S.
  • Hierbei wird B, das am Anfang der Zeile in der Liste des Endknotens (A) des Baumes steht, zum Ende der Zeile in der Liste des Endknotens (B) des rechten Baumes bewegt.
  • Das ist die Regel a, die anzuwenden ist, wenn ein Endknoten (A) eine mit B beginnende Liste hat und wenn der Knoten vor dem Endknoten (A) ein Endknoten (B) ist.
  • Regel b (siehe Fig. 6)
  • Durch den linken Baum wird eine geometrische Struktur dargestellt. Der Baum wird entsprechend den Unterbereichen a und b erhalten. Der Baum der geometrischen Struktur wird in eine logische Struktur transformiert, die durch den rechten Baum dargestellt wird. Die Transformation wird wie folgt ausgeführt.
  • Der Endknoten (A) des linken Baumes hat entsprechend dem Inhalt des Unterbereiches eine Liste mit S...S. Der Endknoten (B) des linken Baumes hat gemäß dem Inhalt des Unterbereiches b eine Liste mit S...S, H.
  • Hier wird S, das in der Liste des Endknotens (A) des linken Baumes am Anfang der Zeile steht, in den Bereich unmittelbar hinter H in der Liste des Endknotens (B) des rechten Baumes bewegt.
  • Das ist die Regel b, die anzuwenden ist, wenn die Liste des Endknotens (B) des Baumes mit H endet und wenn der nächste dem Endknoten (B) nachfolgende Knoten ein Endknoten (A) ist.
  • Regel c (siehe Fig. 7)
  • Eine durch den linken Baum dargestellte geometrische Struktur wird in eine logische Struktur transformiert, die durch den rechten Baum dargestellt wird.
  • Ein Knoten (A) des Baumes hat eine Liste mit S...S, B und eine H-B-Folge (eine Kombination von aufeinanderfolgenden H und B).
  • In diesem Falle wird ein Knoten (D) neu erzeugt, so daß er eine Liste hat, die nur die H-B-Folge hat, die aus der Liste des Knotens (A) des Baumes herausgetrennt wurde. Der so erzeugte Knoten (D) wird mit dem Elternknoten des Baumes als Bruderknoten verknüpft. Wenn der Knoten (A) eine nachfolgende Knotengruppe (C) hat, wird die Knotengruppe (C) zusammen mit dem Knoten (D) bewegt. Ferner wird, wenn ein Elternknoten nicht vorhanden ist, ein NULL-Elternknoten erzeugt und der vorher beschriebene Prozeß wird durchgeführt.
  • Das ist die Regel c, die ein vorbereitender Prozeß ist, der zum Ergebnis hat, daß ein Knoten eine spezielle Beziehung darstellt.
  • Regel d (siehe Fig. 8)
  • Eine durch den linken Baum dargestellte geometrische Struktur wird in eine logische Struktur transformiert, die durch den rechten Baum dargestellt wird.
  • Ein Knoten (A) des Baumes hat eine Liste mit einer H-B-Folge. In diesem Falle wird ein Knoten (C) neu erzeugt, so daß die Liste nur die B-Folge enthält, die aus der Liste des Knotens (A) des Baumes herausgetrennt wurde. Der so erzeugte Knoten (C) wird mit dem Knoten (A) des Baumes als Kindknoten verknüpft.
  • Das ist die Regel d, die zum Ergebnis führt, daß ein Knoten eine andere spezifizierte Beziehung darstellt.
  • Fig. 9 zeigt ein Beispiel der Transformation von der geometrischen Struktur von Fig. 2b in die logische Struktur von Fig. 4b durch Verwendung einer Kombination der vorher beschriebenen vier Regeln a bis d.
  • In der Beschreibung der vier Regeln a bis d kann der Unterbereich S eine größere Informationsmenge enthalten. Ferner kann H, der Kopftext-Unterbereich, der ein Wurzelknoten ist, einen Titel oder den Namen eines Autors darstellen. Die Kopftext-Unterbereiche in den Knoten, außer im Wurzelknoten, können einen Untertitel darstellen. Ferner kann B, der Grundtext-Unterbereich innerhalb eines Endknotens, einen Absatz darstellen. Die Grundtext-Unterbereiche in den Knoten, außer im Endknoten, können eine Kurzfassung oder etwas ähnliches darstellen.
  • Die vorher beschriebenen Prozesse werden unter Bezugnahme auf eine einzelne geometrische Struktur ausgeführt. Ein Dokument mit einer großen Anzahl von Texten, kann jedoch auch durch Vergrößerung der Anzahl der Bäume dargestellt werden. In diesem Falle wird die Lesereihenfolge dieser Bäume auf der Basis des Prinzips festgelegt, das man beim Lesen nicht nach oben in der vorhergehenden linken Spalte zurückgeht. So werden zum Beispiel, wie in Fig. 10a und 10b dargestellt ist, mehrere Bäume verwendet, um ein Dokument mit mehreren Texten darzustellen. Fig. 10a zeigt ein Dokument mit mehreren Unterbereichen. Fig. 10b zeigt die durch die drei Bäume a, b und c dargestellten geometrischen Strukturen.
  • Die geometrischen Strukturen werden wie folgt in die logischen Strukturen transformiert. Spezifisch ist der Baum a entsprechend den Unterbereichen 1H und 2B erzeugt. Der Baum b ist entsprechend dem Unterbereich 5B erzeugt, und der Baum c ist entsprechend den Unterbereichen 3H, 4B und 6B erzeugt. Der Baum a, der Baum b und der Baum c sind in alphabetischer Reihenfolge angeordnet. Hierin kann der Baum a, der einen Wurzelknoten hat, der einn "Kopftext" ist, unabhängig einen Textbereich darstellen. Der Baum b ohne den einen "Kopftext" darstellenden Wurzelknoten (es ist nur ein "Grundtext" vorhanden) kann jedoch nicht unabhängig einen Textbereich darstellen. Somit wird der Baum b mit dem Baum a verknüpft, der der nächste vorhergehende Baum zum Baum b ist. Im Ergebnis stellt der Baum a einen Textbereich und der Baum c einen anderen Textbereich dar, wie in Fig. 10b gezeigt ist.
  • Wie vorher beschrieben, werden die logischen Strukturen durch Prozesse erzeugt, die in der strukturerfassenden Einheit 3 ablaufen. Im Ergebnis dessen werden mehrere Bäume in bezug auf die Unterbereiche entsprechend den jeweiligen Textbereichen definiert. In diesem Falle wurden die jeweiligen Unterbereiche vorher als solche Gruppen, wie ein Titel, ein Untertitel, ein Absatz oder ähnliches gekennzeichnet. Daher müssen nicht alle Unterbereiche der jeweiligen Textbereiche herausgetrennt werden, sondern nur die Titel oder die Titel mit Untertiteln.
  • Als nächstes werden die Wiedergabetechnologien der aus den jeweiligen Texten herausgetrennten Ergebnisse beschrieben. Die Rahmen, die die Unterbereiche des gleichen Textbereiches umgeben werden in der gleichen Farbe, jedoch in anderen Farben als die anderer Textbereiche wiedergegeben. Ferner kann die gesamte Fläche des Unterbereiches des gleichen Textbereiches ebenfalls in der gleichen Farbe wiedergegeben werden. Im Ergebnis dessen kann die Beziehung zwischen den jeweiligen Unterbereichen deutlich dargestellt werden. Bei einer anderen Wiedergabetechnologie werden mehrere Unterbereiche, wie zum Beispiel die Untertitel- Unterbereiche und ihre Absatz-Unterbereiche mit einem Programm übersetzt und durch Verwendung der gleichen Farbe dargestellt. Weiterhin können die Unterbereiche auch durch Helligkeitsunterschiede, durch Unterscheidungen von ausgezogenen und gestrichelten Linien oder durch blinkende oder flackernde Zeichen im Hintergrund voneinander unterschieden werden. Zusätzlich können alle Unterbereiche der jeweiligen Texte mit Rahmen versehen werden.
  • Die entsprechenden Textziffern können den linken Rändern der jeweiligen Rahmen zugefügt werden. Wenn Bild-Unterbereiche, wie zum Beispiel Grafiken und Fotografien von den Satz-Unterbereichen durch die in der strukturanalysierenden Einheit 1 ablaufenden Prozesse unterschieden werden können, können diese Unterbereiche ebenfalls in der vorher beschriebenen Weise unterschieden werden. In diesem Falle können die Bild-Unterbereiche auch unter Verwendung von Bildern im Original wiedergegeben werden. In der vorhergehenden Beschreibung werden die jeweiligen Unterbereiche vollständig wiedergegeben. Die jeweiligen Unterbereiche können jedoch auch durch Verwendung von Zeichen allein, durch Rahmen, die die Zeichen umgeben oder durch Mittellinien, die die Zeichenreihen darstellen, dargestellt werden. Ferner können die jeweiligen Unterbereiche auch durch Verwendung von Basislinien, durch Zeichenmuster allein oder durch Rahmen, die die Zeichenmuster umgeben, dargestellt werden. In diesem Falle kann ebenfalls die vorher beschriebene Mehrfarben-Unterscheidungstechnologie praktiziert werden.
  • Als nächstes werden die Technologien für die Kennzeichnung der herausgetrennten Texte beschrieben. Hierbei sind die Texte, zu denen die jeweiligen Unterbereiche gehören, bereits klar. Weiterhin ist die logische Beziehung zwischen den jeweiligen Unterbereichen bereits erkannt worden. Somit kann auch ein Unterbereich durch eine Maus oder ähnliches herausgetrennt werden, der die von der Maus gekennzeichnete Position einnimmt oder dieser Position am nächsten liegt. Weiterhin kann auch ein Unterbereich herausgetrennt werden, der eine logische, dominierende Beziehung mit einer durch eine Maus oder ähnliches gekennzeichnete Position hat. Darüberhinaus kann auch ein Text herausgetrennt werden, der eine solche durch eine Maus oder ähnliches gekennzeichnete Position einnimmt. Daher kann die Zeichenerkennung der Texte auf der Basis der so herausgetrennten Ergebnisse erreicht werden. Ferner können das Bild selbst oder das Bild in Form seiner binären Werte oder das durch Verwendung einer Bildpunkt- Schwanktechnik (Zittertechnik) erzeugte Bild ebenfalls eine Ausgabe sein. Die vorher beschriebene Kennzeichnung kann leicht durchgeführt werden, weil die jeweiligen Texte durch verschiedene Farben klar voneinander unterschieden werden können.
  • Wie vorher beschrieben kann gemäß der vorliegenden Erfindung die Bedeutungs- und die Verbindungsbeziehung zwischen den Unterbereichen durch Ausnutzung der körperlichen Eigenschaften (Merkmale) des Dokumentes allein bestimmt werden, ohne den Kontext der Unterbereiche zu untersuchen.
  • Ferner kann gemäß der vorliegenden Erfindung ein Dokumentenbildverarbeitungsgerät zur Verfügung gestellt werden, das automatisch spezifizierte Textbereiche aus einem Dokument mit einer großen Anzahl von Textbereichen heraustrennen kann, ohne daß der Mensch zusätzlich eingreifen muß. Ferner kann das Gerät auch nur den Titel aus den jeweiligen Textbereichen heraustrennen.
  • Offensichtlich sind zahlreiche zusätzliche Modifikationen und Variationen der vorliegenden Erfindung gemäß den vorhergehenden Ausführungen möglich. Es ist daher so zu verstehen, daß die Erfindung im Schutzumfang der beigefügten Ansprüche anders ausgeführt werden kann, als sie hierin spezifisch beschrieben ist.

Claims (9)

1. Dokumentenbildverarbeitungsgerät, mit einer die Struktur analysierenden Einrichtung (1) zum analytischen Auftrennen des Bildes eines Dokumentes in Unterbereiche, welche analoge körperliche Eigenschaften haben, wie beispielsweise Zeichengröße und -neigung, Zeichenabstand, Schriftart und Unterstreichungen, und zum Aufteilen der Unterbereiche in Gruppen (H, B) gemäß ihrer körperlichen Eigenschaften; einer Gestaltungseinrichtung (2) für geometrische Strukturen, um eine geometrische Struktur zu bilden, welche entsprechend der körperlichen Positionsbeziehung zwischen den Unterbereichen ein Baumdiagramm mit Knoten und Listen darstellt; und einer Einrichtung (3) zum Erfassen der Struktur, mit (i) einer Einrichtung, um die geometrische Struktur in eine logische Struktur zu transformieren, indem auf die Knoten und Listen der geometrischen Struktur verschiedene Regeln zur Gewinnung von Informationen bezüglich der Prioritätsreihenfolge angewendet werden, (ii) mit einer Verarbeitungseinrichtung für mehrere Texte und (iii) mit einer Gruppenverknüpfungseinrichtung, um ein verändertes Dokumentenbild mit einer vorbestimmten Beziehung zwischen den Unterbereichen aus zugeben, die die Prioritätsreihenfolge guter Lesbarkeit für den Menschen angibt.
2. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß die Struktur-Gestaltungseinrichtung eine Einrichtung (29) enthält, um die körperliche Positionsbeziehung zwischen den Unterbereichen in Form eines Baumes darzustellen.
3. Gerät nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Einrichtung zum Erfassen der Struktur eine Einrichtung (30) enthält, um die Darstellungsform entsprechend der vorbestimmten Beziehung zu einem logischen Baum neu anzuordnen.
4. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß die die Struktur analysierende Einrichtung eine Zeilenlänge-Kodiereinrichtung, eine Spalteninformations-Trenneinrichtung, eine Zeileninformations-Trenneinrichtung, eine Unterbereichsinformations-Trenneinrichtung und eine Gruppenverknüpfungseinrichtung enthält.
5. Gerät nach Anspruch 2, dadurch gekennzeichnet, daß die Gestaltungseinrichtung für geometrische Strukturen eine Einrichtung zum Trennen von Informationen, die in der gleichen Spalte benachbart nebeneinanderliegen, und eine Gestaltungseinrichtung für die Baumstruktur enthält.
6. Dokumentenbildverarbeitungsgerät, mit Einrichtungen zum analytischen Auftrennen des Bildes eines Dokumentes in Unterbereiche, welche analoge körPerliche Eigenschaften haben; mit Einrichtungen, um jeden Unterbereich mit einem Code zur Kennzeichnung der Position, wobei jeder Code eine vorgeschriebene Priorität hat, und entsprechend einer vorbestimmten Kategorie der Unterbereiche mit einem Unterscheidungs-Code zu versehen; mit Baum-Einrichtungen zum Gruppieren der Codes zur Kennzeichnung der Position der Unterbereiche, die die gleiche vorgeschriebene Priorität haben, wobei die Baum-Einrichtungen Einrichtungen enthalten, um die Codegruppen in erste Knotengruppen, in denen mehrere Gruppen kennzeichnender Codes in der vorgeschriebenen Prioritätsreihenfolge die nachfolgende Priorität haben, und in zweite Knotengruppen auf zuteilen, in denen lediglich eine einzelne Gruppe kennzeichnender Codes in der vorgeschriebenen Prioritätsreihenfolge die nachfolgende Priorität hat; und mit Einrichtungen zum Darstellen der Codes zur Kennzeichnung der Position der Unterbereiche, die an verschiedenen Knoten der gleichen Ebene auf gleicher Ebene des Baumes liegen, wobei die Codes zur Kennzeichnung der Position aus den Codes zur Kennzeichnung der Position der Unterbereiche ausgewählt sind, die an den Knoten des Baumes dargestellt sind, und wobei die Darstellung der Codes zur Kennzeichnung der Position der Unterbereiche durch die Unterbereiche an den Knoten im unteren Bereich des Baumes gesteuert wird.
7. Gerät nach Anspruch 6, dadurch gekennzeichnet, daß die Einrichtung zum Auftrennen des Bildes eines Dokumentes in Unterbereiche eine Zeilenlänge-Kodiereinrichtung, eine Spalteninformations-Trenneinrichtung, eine Zeileninformations-Trenneinrichtung und eine Gruppenverknüpfungseinrichtung enthält.
8. Gerät nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Einrichtung zum Gruppieren der Codes zur Kennzeichnung der Position der Unterbereiche eine Einrichtung zum Trennen von Informationen, die in der gleichen Spalte benachbart nebeneinanderliegen, und eine Gestaltungseinrichtung für die Baumstruktur enthält.
9. Gerät nach Anspruch 8, 9 oder 10, dadurch gekennzeichnet, daß die Einrichtung zum Darstellen der Codes zur Kennzeichnung der Position der Unterbereiche eine Einrichtung, um die geometrischen Strukturen unter Anwendung von Regeln zum Auftrennen von Prioritätsreihenfolgeinformationen in logische Strukturen zu transformieren, eine Verarbeitungseinrichtung für mehrere Texte und eine Gruppenverknüpfungseinrichtung enthält.
DE68924606T 1988-01-19 1989-01-18 Dokumentenbildverarbeitungsgerät. Expired - Fee Related DE68924606T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63007518A JPH01183784A (ja) 1988-01-19 1988-01-19 文書画像処理装置

Publications (2)

Publication Number Publication Date
DE68924606D1 DE68924606D1 (de) 1995-11-30
DE68924606T2 true DE68924606T2 (de) 1996-04-11

Family

ID=11667993

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68924606T Expired - Fee Related DE68924606T2 (de) 1988-01-19 1989-01-18 Dokumentenbildverarbeitungsgerät.

Country Status (3)

Country Link
EP (1) EP0325417B1 (de)
JP (1) JPH01183784A (de)
DE (1) DE68924606T2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2701350B2 (ja) * 1988-08-25 1998-01-21 日本電気株式会社 文書読取装置
US5148520A (en) * 1988-12-30 1992-09-15 Chipsoft Ca, Corp. Determining the locations of the contents of bordered areas of a generic form
US5144693A (en) * 1988-12-30 1992-09-01 Chipsoft Ca Corp. Method and apparatus for generic form generation
US5208906A (en) * 1988-12-30 1993-05-04 Chipsoft Ca, Corp. Method and apparatus for representing bordered areas of a generic form with records
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
CA2027253C (en) * 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
EP0461817A3 (en) * 1990-06-15 1993-11-18 American Telephone & Telegraph Image segmenting apparatus and methods
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP3302147B2 (ja) * 1993-05-12 2002-07-15 株式会社リコー 文書画像処理方法
JPH07131641A (ja) * 1993-11-08 1995-05-19 Canon Inc 画像処理装置
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
AUPM704494A0 (en) * 1994-07-25 1994-08-18 Canon Information Systems Research Australia Pty Ltd Efficient methods for the interpretation of a graphical programming language
AU694512B2 (en) * 1994-07-25 1998-07-23 Canon Kabushiki Kaisha Efficient methods for the interpretation of a graphical programming language
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
TW367447B (en) * 1994-12-21 1999-08-21 Canon Kk Block selection review and editing system
US6005680A (en) 1995-04-04 1999-12-21 Canon Information Systems, Inc. Method for capturing a document image, a scanner using the method and a document image management system using the scanner
US6389162B2 (en) 1996-02-15 2002-05-14 Canon Kabushiki Kaisha Image processing apparatus and method and medium
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
WO2007070010A1 (en) * 2005-12-16 2007-06-21 Agency For Science, Technology And Research Improvements in electronic document analysis
CN103186510B (zh) * 2011-12-30 2016-08-03 北大方正集团有限公司 一种转换文档格式的方法和装置

Also Published As

Publication number Publication date
EP0325417A3 (de) 1992-03-25
DE68924606D1 (de) 1995-11-30
EP0325417B1 (de) 1995-10-25
EP0325417A2 (de) 1989-07-26
JPH01183784A (ja) 1989-07-21

Similar Documents

Publication Publication Date Title
DE68924606T2 (de) Dokumentenbildverarbeitungsgerät.
DE69525401T2 (de) Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
DE69033079T2 (de) Aufbereitung von Text in einem Bild
DE3629104C2 (de)
DE69132816T2 (de) Veränderung eines graphischen Anzeigebildes
DE69724557T2 (de) Dokumentenanalyse
DE3850595T2 (de) Dokumentverarbeitungssystem.
DE3722444C2 (de) Verfahren und Vorrichtung zum Erzeugen von Entwurfsmusterdaten
DE60120810T2 (de) Verfahren zur Dokumenterkennung und -indexierung
DE69605255T2 (de) Vorrichtung und Verfahren für die Extraktion von Artikeln eines Dokuments
DE3335162C2 (de) Vorrichtung und Verfahren für graphische Darstellungen mittels Computer
DE3729023C2 (de) Bildbearbeitungsgerät
DE3926327A1 (de) Verfahren und system zur erkennung von zeichen auf einem medium
DE69226609T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE69026885T2 (de) Dynamische Selektion von Datenformaten für rekursiv geschachtelte logische Elemente
DE10162156A1 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle
DE19627472A1 (de) Datenbanksystem
EP0048941A2 (de) Verfahren zum Verkleinern von grafischen Mustern
WO2005119580A1 (de) Verfahren und einrichtung zur strukturanalyse eines dokuments
DE69328279T2 (de) Apparat zum Ersetzen von Variablen
DE2435982A1 (de) Verfahren und vorrichtung zur verarbeitung von durch abtastung eines mehrfarbigen musters erhaltenen informationen
DE68913475T2 (de) Verfahren zum Durchsuchen einer Matrix binärer Daten.
EP1596351B1 (de) Verfahren zur Beschriftung eines Kennzeichnungsschildersatzes
DE69226316T2 (de) Zweifarbendrucker
EP0206214B1 (de) Verfahren zur einheitlichen symbolischen Beschreibung von Dokumentenmustern in Form von Datenstrukturen in einem Automaten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee