DE69634459T2 - Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten - Google Patents

Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten Download PDF

Info

Publication number
DE69634459T2
DE69634459T2 DE69634459T DE69634459T DE69634459T2 DE 69634459 T2 DE69634459 T2 DE 69634459T2 DE 69634459 T DE69634459 T DE 69634459T DE 69634459 T DE69634459 T DE 69634459T DE 69634459 T2 DE69634459 T2 DE 69634459T2
Authority
DE
Germany
Prior art keywords
document
difference
structured
structured documents
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69634459T
Other languages
English (en)
Other versions
DE69634459D1 (de
Inventor
Yuki Miyamae-ku Aoyama
Junichi Higashino
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of DE69634459D1 publication Critical patent/DE69634459D1/de
Publication of DE69634459T2 publication Critical patent/DE69634459T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Unterschiedserkennungsverfahren für Buchstabenfolgen in strukturierten Dokumenten und auf ein Gerät für einen Dokumentenprozessor wie zum Beispiel ein Textverarbeitungssystem, das eine Unterschiedsbuchstabenfolge zwischen als elektronische Dateien gespeicherten strukturierten Dokumenten erkennen kann.
  • Ein strukturiertes Dokument ist definiert als ein Dokument, das darin eingebettet Informationen über die logische Struktur eines Dokuments enthält, das heißt Informationen wie zum Beispiel „Dieser Teil des Dokuments bildet ein Kapitel" oder „Dieser Teil ist ein Titel".
  • Die Unterschiedserkennung zwischen Dokumenten ist definiert als das Erkennen einer meist übereinstimmenden Kombination von Elementen, die jeweils ein Dokument bilden, einschließlich Absätze, Zeilen und Buchstaben, und das Erkennen nicht übereinstimmender Elemente als Unterschied. Nehmen wir an, zwei Dokumente, deren Unterschied festgestellt werden soll, sind „ABCDEFG" und „ACDAEFH". Wenn die beiden Dokumente anhand ihrer Elemente einschließlich A, B, C, D, E, F, G und H verglichen werden, wird die am meisten übereinstimmende Kombination als „Entsprechung von ACDEF" erkannt. Außerdem wird der Unterschied erkannt in der Form von „B ist gestrichen", „A ist nach D eingefügt" bzw. „G ist in H geändert".
  • Ein herkömmliches Verfahren zur Unterschiedserkennung ist in JP-A-2-255964 beschrieben, bei dem der Vergleich anhand von Satzzeichen, Zeilen, Wörtern und Buchstaben erfolgt. Nach diesem Verfahren wird eine Buchstabenfolge, die eine in dem Dokument enthaltene logische Struktur darstellt, in der gleichen Weise wie andere Buchstabenfolgen in den Dokumenten verglichen.
  • Das Erkennen eines Unterschieds in einem strukturierten Dokument mit denselben Mitteln wie bei einem normalen Dokument kann jedoch ungeeignet sein, weil das Ergebnis eventuell nicht mit der logischen Struktur des Dokuments übereinstimmt. Ein Beispiel wird nachstehend erläutert.
  • Beispiel 1 nach dem Stand der Technik
  • Unter Bezugnahme auf die in 3A und 3B gezeigten strukturierten Dokumente wird ein Fall erläutert, bei dem Dokumente mit nicht übereinstimmender logischer Struktur bei dem Prozess der Unterschiedserkennung fälschlicherweise einander zugeordnet werden, wodurch es zu einem für den Dokumenteneditor ungeeigneten Erkennungsergebnis kommt.
  • Die strukturierten Dokumente in 3A und 3B sind in SGML (Standard Generalized Markup Language, ISO 8879) geschrieben, was bedeutet, dass eine in als „Tags" bezeichnete Markierungen wie zum Beispiel <A> und </A> eingeschlossene Buchstabenfolge einer logischen Struktur A zugeordnet sind. Mit anderen Worten, die zwischen „<NAME>" und „</NAME>" eingeschlossene Buchstabenfolge „TARO HEISEI" in 3A entspricht der logischen Struktur „NAME". HTML (Hypertext Markup Language), das im Internet bzw. World Wide Web benutzt wird, ist eine Anwendung von SGML und für die vorliegende Erfindung ebenfalls anwendbar.
  • Die Markierung für diese logische Struktur wird auch als „Tag" bezeichnet. „<A>" und „</A>" werden daher alternativ als Anfangs- bzw. Ende-Tag bzw. -Markierung bezeichnet.
  • Das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge zwischen den beiden strukturierten Dokumenten in 3A und 3B nach dem herkömmlichen Verfahren ist in 4A und 4B gezeigt.
  • 4B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 3B im Vergleich zu dem strukturierten Dokument in 3A. 4A zeigt das Ergebnis der Erkennung von Unter schiedsbuchstabenfolgen in dem strukturierten Dokument in 3A im Vergleich zu dem strukturierten Dokument in 3B.
  • Wie aus 4A und 4B ersichtlich, wird „HEISEI" bei „<NAME>" und „HEISEI" bei „<ÜBERTRAGUNGSDATUM>" nicht als Unterschied erkannt. Dies ist darauf zurückzuführen, dass „HEISEI" übereinstimmte und fälschlicherweise einander zugeordnet wurde. Diese in der logischen Struktur nicht übereinstimmende Entsprechung von „HEISEI" ist für den Dokumenteneditor offensichtlich bedeutungslos.
  • Beispiel 2 nach dem Stand der Technik
  • Unter Bezugnahme auf die in 5A und 5B gezeigten strukturierten Dokumente wird ein Fall erläutert, bei dem Buchstabenfolgen bei dem Prozess der Unterschiedserkennung aufgrund des Einfügens einer Dokumentstruktur fälschlicherweise über unterschiedliche Dokumentstrukturen zugeordnet werden, wodurch es zu einem für den Dokumenteneditor ungeeigneten Erkennungsergebnis kommt. 5A zeigt ein strukturiertes Dokument mit Kapitel 1 und 5B ein strukturiertes Dokument mit einem anderen vor Kapitel 1 eingefügten Kapitel.
  • 6A und 6B zeigen ein Beispiel für die Erkennung einer Unterschiedsbuchstabenfolge zwischen den beiden strukturierten Dokumenten in 5A und 5B.
  • 6A und 6B zeigen einen Fall ähnlich wie in 4A und 4B, wobei 6B das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in 5B im Vergleich zu 5A zeigt. 6A hingegen zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in 5A im Vergleich zu 5B.
  • Wie aus 6A ersichtlich, wird Kapitel 1 in 6A Kapitel 1 und Kapitel 2 in 6B zugeordnet, trotz der Tatsache, dass Kapitel 1 in 6A identisch ist mit Kapitel 2 in 6B. Dies ist ein weiterer für den Dokumenteneditor ungeeigneter Fall.
  • Das doppelte Vorkommen derselben Buchstabenfolge „STRUCTURED DOCUMENT" in 5B im Gegensatz zu 5A führt zu der fehlerhaften Entscheidung in 6B, dass das erste Vorkommen von „STRUCTURED DOCUMENT" übereinstimmend ist, während das zweite Vorkommen von „STRUCTURED DOCUMENT" nicht übereinstimmend ist, so dass das zweite „STRUCTURED DOCUMENT" als Unterschied erkannt wird. Dies gilt für alle nachfolgenden Fälle der Unterschiedserkennung.
  • Beispiel 3 nach dem Stand der Technik
  • Unter Bezugnahme auf die in 7A und 7B gezeigten strukturierten Dokumente wird ein Fall erläutert, bei dem Unterschiede in den Markierungen zur Angabe der logischen Struktur eines Dokuments es trotz der identischen logischen Bedeutung der Dokumente unmöglich machen, den Inhalt der Dokumente einander zuzuordnen, wodurch die Erkennung für den Dokumenteneditor ungeeignet ist.
  • In 7A und 7B ist ein Tag bzw. eine Markierung <ERSTER PUNKT> nur dem Punkt zugeordnet, der als erster erscheint, trotz der Tatsache, dass die logische Bedeutung des Dokuments unverändert bleibt, und der Angabe „PUNKT".
  • 8A und 8B zeigen den Fall, bei dem Unterschiedsbuchstabenfolgen zwischen den beiden strukturierten Dokumenten in 7A und 7B nach dem herkömmlichen Verfahren erkannt werden.
  • 8A und 8B zeigen einen Fall ähnlich wie in 4A und 4B, wobei 8B das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in 7B im Vergleich zu 7A zeigt, während 8A das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in 7A im Vergleich zu 7B zeigt.
  • Aus 8A und 8B ist ersichtlich, dass die Vorkommen von „ERSTER PUNKT" einander zugeordnet werden und dass die zugehörigen Buchstabenfolgen als deren Inhalte miteinander verglichen werden. Die logische Bedeutung von „ERSTER PUNKT" und „PUNKT" ist für den Dokumenteneditor gleich, weshalb die Inhalte der Markierungen mit Vorrang gegenüber den Markierungen zugeordnet werden müssen.
  • Bei der Unterschiedserkennung zwischen strukturierten Dokumenten müssen diese unter Berücksichtigung der logischen Bedeutung und der Struktur der strukturierten Dokumente miteinander verglichen werden. Diese Anforderung wird von dem herkömmlichen Verfahren, bei dem Buchstabenfolgen zur Angabe einer logischen Struktur in ähnlicher Weise wie andere Buchstabenfolgen in dem Dokument verglichen werden, nicht erfüllt.
  • In „Identifying syntactic differences between two programs", erschienen in Software Practice and Experience, Bd. 21, Nr. 7, S. 739 bis 755, von Wuu Yang, wird vorgeschlagen, die Unterschiede zwischen zwei Programmcodes unter Berücksichtigung der grammatikalischen Syntax der Programmiersprache zu erkennen. Dabei wird jedoch nicht auf Tags, Markierungen oder eine Auszeichnungssprache bzw. Markup Language verwiesen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens und eines Geräts zur Erkennung einer Unterschiedsbuchstabenfolge zwischen strukturierten HTML- oder SGML-Dokumenten in einer für das linguistische Verständnis des Dokumenteneditors geeigneten Art und Weise.
  • Ein anderes Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens und eines Geräts zur Steuerung des Editierens eines strukturierten Dokuments für ein Dokumentenverarbeitungssystem, das in der Lage ist, das Editieren auf der Grundlage des Vergleichs und der Unterscheidung der logischen Strukturen von strukturierten Dokumenten zu steuern.
  • Um die vorstehend genannten Ziele zu erreichen, werden ein Erkennungsverfahren für Unterschiede in strukturierten Dokumenten nach Anspruch 1 und ein Gerät zur Erkennung von Unterschieden in strukturierten Dokumenten nach Anspruch 4 bereitgestellt. Die Unteransprüche beziehen sich auf bevorzugte Ausführungsformen derselben.
  • Die Vergleichskriterien umfassen Markierungen zur Angabe logischer Strukturen und Typen von Vergleichskriterien entsprechend den Markierungen, deren Inhalte in einer Tabelle gespeichert sind.
  • Die Markierungen sind so definiert, dass sie einem der folgenden vier Typen von Vergleichskriterien entsprechen:
    • (1) Markierungen mit Inhalten, die nur verglichen werden, falls die einzelnen Markierungen untereinander übereinstimmen (Identitäts-Markierungen),
    • (2) Markierungen mit Inhalten, deren Unterschied während des Vergleichs ignoriert wird (Ignorierungs-Markierungen),
    • (3) einem Satz Markierungen mit gleicher logischer Bedeutung (Äquivalenz-Markierungen, wie zum Beispiel „ERSTER PUNKT" und „PUNKT"),
    • (4) einem Satz Markierungen mit Inhalten, die nicht miteinander verglichen werden (Nichtvergleichs-Markierungen).
  • Weiterhin wird ein die Struktur jedes strukturierten Dokuments darstellender Dokumentbaum erzeugt, und der Unterschied zwischen den strukturierten Dokumenten wird durch Vergleich zwischen den Knoten der jeweiligen Dokumentbäume erkannt. Im Falle von nicht übereinstimmenden Knoten wird der Unterschied zwischen den Knoten durch Vergleich zwischen den Buchstaben der Knoten erkannt.
  • Darüber hinaus wird bei der Erzeugung eines die Struktur jedes Dokuments darstellenden Dokumentbaums bzw. einer Hierarchie die Zuordnung der Knoten der Dokumentbäume entsprechend dem vorstehend beschriebenen Vergleichskriterium geändert.
  • Mit den vorstehend beschriebenen Lösungen werden strukturierte Dokumente editiert, die logische Struktur der editierten strukturierten Dokumente wird mit der Einrichtung zum Analysieren strukturierter Dokumente analysiert, ein Vergleichskriterium zur Erkennung des Unterschieds gemäß der logischen Struktur wird im Voraus festgelegt, und eine Unterschiedsbuchstabenfolge zwischen den strukturierten Dokumenten vor und nach der Editierung wird so erkannt, dass das Vergleichskriterium erfüllt ist. Der relevantere Unterschied entsprechend dem linguistischen Verständnis des Editors kann daher automatisch gemäß der logischen Struktur erkannt werden.
  • Außerdem wird der Unterschied zwischen Dokumentbäumen knotenweise erkannt, während der Unterschied zwischen nicht übereinstimmenden Knoten buchstabenweise erkannt wird, so dass eine fehlerhafte Erkennung des Unterschieds über unterschiedliche Strukturen hinweg vermieden werden kann.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein Blockdiagramm für den Aufbau nach einer Ausführungsform der vorliegenden Erfindung.
  • 2A zeigt ein Ablaufdiagramm der Verarbeitungsschritte nach einer Ausführungsform der Erfindung.
  • 2B zeigt ein Ablaufdiagramm eines detaillierten Beispiels der in 2A gezeigten Schritte zur Erzeugung eines Dokumentbaums.
  • 3A und 3B sind Diagramme, die ein erstes Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
  • 4A und 4B sind Diagramme, die das erste Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
  • 5A und 5B sind Diagramme, die ein zweites Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
  • 6A und 6B sind Diagramme, die das zweite Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
  • 7A und 7B sind Diagramme, die ein drittes Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
  • 8A und 8B sind Diagramme, die das dritte Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
  • 9 zeigt ein Beispiel einer Vergleichskriterientabelle für das erste Beispiel für strukturierte Dokumente nach der vorliegenden Erfindung.
  • 10A und 10B sind Diagramme der aus dem in 3A und 3B gezeigten ersten Beispiel für strukturierte Dokumente vor und nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 9 erzeugten Dokumentbäume.
  • 10C zeigt ein Ablaufdiagramm für das Verfahren zur Erzeugung eines Dokumentbaums in 10A.
  • 11A und 11B sind Diagramme, die das erste Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 9 zeigen.
  • 12 zeigt ein Beispiel einer Vergleichskriterientabelle für das in 5 gezeigte zweite Beispiel für strukturierte Dokumente.
  • 13A und 13B sind Diagramme der aus dem in 5A bzw. 5B gezeigten zweiten Beispiel für strukturierte Dokumente vor und nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 12 erzeugten Dokumentbäume.
  • 14A und 14B sind Diagramme, die das in 5A und 5B gezeigte zweite Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 12 zeigen.
  • 15 zeigt ein Beispiel einer Vergleichskriterientabelle für ein in 7A und 7B gezeigtes drittes Beispiel für strukturierte Dokumente.
  • 16A und 16B sind Diagramme der aus dem in 7A bzw. 7B gezeigten dritten Beispiel für strukturierte Dokumente vor und nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 15 erzeugten Dokumentbäume.
  • 17A und 17B sind Diagramme, die das in 7A und 7B gezeigte dritte Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 15 zeigen.
  • 18A und 18B sind Diagramme, die ein viertes Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
  • 19 zeigt ein Beispiel einer Vergleichskriterientabelle für das in 18 gezeigte vierte Beispiel für strukturierte Dokumente.
  • 20A und 20B sind Diagramme der aus dem in 18 gezeigten vierten Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 19 erzeugten Dokumentbäume.
  • 21A und 21B sind Diagramme, die das in 18 gezeigte vierte Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 19 zeigen.
  • 22 zeigt ein Ablaufdiagramm einer weiteren Ausführungsform der Erfindung.
  • 23A und 23B sind Diagramme, die ein Beispiel für einen Vergleich der zu vergleichenden Dokumente nach der Ausführungsform in 22 zeigen.
  • 24A und 24B sind Diagramme, die ein Beispiel für das Ergebnis eines Vergleichs zwischen den strukturierten Dokumenten in 23A bzw. 23B zeigen.
  • 25 ist ein Diagramm, das ein Beispiel für ein strukturiertes Dokument zur Veranschaulichung der Unterschiedsdaten zwischen strukturierten Dokumenten zeigt.
  • 26A und 26B sind Diagramme, die ein Beispiel für die Bildschirmanzeige von strukturierten Dokumenten vor bzw. nach dem Editieren zeigen.
  • 27 ist ein Diagramm, das ein Beispiel für die Bildschirmanzeige von Unterschiedsdaten zwischen strukturierten Dokumenten zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Ausführungsformen der Erfindung werden nachstehend anhand der anliegenden Zeichnungen beschrieben.
  • 1 zeigt den Aufbau nach einer Ausführungsform der Erfindung.
  • In 1 bezeichnet das Bezugszeichen 101 einen Prozessor (CPU), das Bezugszeichen 102 ein Terminal mit einem Ein- und Ausgabegerät, einem Anzeigegerät und einem Programmspeicher-Ladegerät 103A, in dem ein Speichermedium für Verarbeitungsprogramme wie zum Beispiel eine Diskette oder dergleichen installiert ist, und das Bezugszeichen 103 eine Speichereinheit zum Speichern von Dokumenten und/oder Verarbeitungsprogrammen, die als alternativer Programmspeicher anstelle der Diskette dienen kann. Der Prozessor 101 weist darin ausführbar ein Dokument-Editierprogramm 104 zum Editieren von Dokumenten, ein Analyseprogramm 105 für strukturierte Dokumente zur Umwandlung jedes strukturierten Dokuments in eine Baumkonfiguration, ein Unterschiedserkennungsprogramm 106 für strukturierte Dokumente zum Erkennen der nicht übereinstimmenden Teile der strukturierten Dokumente als Unterschied sowie eine Vergleichskriterientabelle 107 zum Speichern von Vergleichskriterien für die Erkennung von Unterschiedsbuchstabenfolgen auf. Diese Programme können dem Prozessor 101 in einer Form zugeführt werden, die im Voraus auf der Diskette gespeichert worden ist.
  • Jedes des strukturierten Dokumente nach dieser Ausführungsform hat die Form eines SGML-Dokuments. SGML ist, wie vorstehend beschrieben, definiert als eine Dokumentbeschreibungssprache nach einer weltweiten ISO-Norm für markierte strukturierte Dokumente. SGML-Dokumente haben eine logische Struktur, die im Voraus durch die Dokumenttypdefinition (DTD) festgelegt ist. Dennoch ist zu beachten, dass die vorliegende Ausführungsform auch für die Verarbeitung von strukturierten Dokumenten mit einer ähnlichen Funktion wie SGML anwendbar ist.
  • Die spezifischen Verarbeitungsschritte nach der vorliegenden Ausführungsform werden anhand der Ablaufdiagramme in 2A und 2B beschrieben.
  • Schritt 201:
  • Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert, d.h. bearbeitet.
  • Schritt 202:
  • Die Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente wird in den Arbeitsbereich des Prozessors 101 eingelesen.
  • Bei Fehlen einer Vergleichskriterientabelle entsprechend der DTD der SGML-Dokumente wird eine geeignete Tabelle erstellt und im Voraus eingegeben.
  • Diese Vergleichskriterientabelle enthält Markierungen, die den folgenden vier Kriterien entsprechen:
    • (1) Identitäts-Markierungen: Hierbei handelt es sich um verschiedene Markierungen, die es ermöglichen, deren jeweilige Inhalte, das heißt die zwischen den jeweiligen Anfangs- und Ende-Markierungen eingebetteten Buchstaben, nur dann miteinander zu vergleichen, wenn die Markierungspaare miteinander übereinstimmen.
    • (2) Ignorierungs-Markierungen: Hierbei handelt es sich um Markierungen mit Inhalten, deren Unterschied während des Vergleichs ignoriert wird.
    • (3) Äquivalenz-Markierungen: Hierbei handelt es sich um einen Satz scheinbar unterschiedlicher Markierungen mit gleicher logischer Bedeutung.
    • (4) Nichtvergleichs-Markierungen: Hierbei handelt es sich um einen Satz von Markierungen, die den Vergleich der jeweiligen Inhalte negieren.
  • Schritt 203:
  • Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 in 2A werden die strukturierten Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente unter Bezugnahme auf die Vergleichskriterientabelle 107 analysiert, um so die Dokumentbäume zu erzeugen. Die Schritte eines Analyseprogramms für strukturierte Dokumente sind im Detail in 2B gezeigt.
  • In diesem Verfahren werden die jedem Knoten des Dokumentbaums zugeordneten Elemente entsprechend der wie folgt festgelegten Regeln bestimmt:
    • Regel 1: Zuordnen jeder Markierung zu einem Knoten.
    • Regel 2: Zuordnen der zwischen einer Anfangs- und einer Ende-Markierung eingebetteten Buchstabenfolgen zu einem Unterknoten der Anfangs-Markierung.
    • Regel 3: Zuordnen jeder Ende-Markierung zu einem Unterknoten der zu der betreffenden Ende-Markierung gehörenden Anfangs-Markierung.
    • Regel 4: Zuordnen der zwischen Identitäts-Markierungen eingebetteten Buchstabenfolgen zu einem einzelnen Knoten, zusammen mit dessen Anfangs- und Ende-Markierungen.
    • Regel 5: Nicht-Zuordnen von Ignorierungs-Markierungen und der zwischen den Ignorierungs-Markierungen eingebetteten Buchstabenfolgen zu irgendeinem Knoten.
    • Regel 6: Zuordnen von Äquivalenz-Markierungen zu Knoten durch Umwandeln von deren scheinbar unterschiedlichen Namen in einen identischen Markierungsnamen.
  • Schritt 204:
  • Die mit den oben genannten Schritten erzeugten Dokumentbäume werden knotenweise miteinander verglichen, und der Unterschied wird knotenweise erkannt. Handelt es sich bei den zu vergleichenden Markierungen um Nichtvergleichs-Markierungen, werden die betreffenden Knoten und untergeordneten Knoten (Unterknoten) nicht verglichen.
  • Schritt 205:
  • Der Unterschied wird dieses Mal buchstabenweise nur für die als nicht übereinstimmend befundenen Knoten erkannt.
  • Für einen Knoten mit einer Identitäts-Markierung erfolgt der buchstabenweise Vergleich jedoch nur, wenn das eine Markierung des Knotens darstellende führende Zeichen (bzw. die Zeichenfolge) übereinstimmt. Die Ignorierungs-Markierungen, die in Schritt 204 nicht verglichen wurden, werden im vorliegenden Schritt verglichen.
  • Schritt 206:
  • Das Ergebnis der Unterschiedserkennung in Schritt 205 wird auf der Anzeigeeinrichtung des Terminals 102 angezeigt (Schritt 206A). Gleichzeitig kann das Unterschiedsergebnis auch parallel zu der Anzeigeeinrichtung einer Einrichtung zur Nutzung von Unterschiedsdaten zugeführt werden. Der Prozessor 101 kann automatisch Prozesse wie das Aktualisieren und Überarbeiten von relevanten Parametern gemäß dem Unterschiedsergebnis ausführen. Diese Funktionen können als eine Überprüfung angesehen werden. 2B zeigt das Verfahren zum Analysieren von strukturierten Dokumenten in den Schritten 301 bis 311.
  • Verarbeitungsbeispiel 1
  • Ein spezifisches Beispiel für die Verarbeitung nach der Ausführungsform mit einer Identitäts-Markierung wird nachstehend anhand der Beispieldokumente in 3A und 3B beschrieben.
  • Schritt 201:
  • Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert (1). Es wird angenommen, dass das Dokument in 3B durch Editieren des Dokuments in 3A erhalten wurde.
  • Schritt 202:
  • Die Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente wird in den Prozessor 101 eingelesen.
  • Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird zuerst eine geeignete Tabelle erzeugt und eingegeben.
  • Eine Vergleichskriterientabelle wie zum Beispiel in 9 wird aus 3A und 3B erzeugt. Im Einzelnen sind „<NAME>" und „<ÜBERTRAGUNGSDATUM>" als Identitäts-Markierungen definiert, was bedeutet, dass die Buchstabenfolgen nur verglichen werden, wenn die Markierungen zwischen den zu vergleichenden Dokumenten übereinstimmen.
  • Schritt 203:
  • Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 werden die miteinander zu vergleichenden strukturierten Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente unter Bezugnahme auf die Vergleichskriterientabelle 107 analysiert, um so die zugehörigen Dokumentbäume zu erzeugen.
  • Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 10A und 10B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 9 aus den strukturierten Dokumenten in 3A bzw. 3B erzeugt.
  • Die strukturierten Dokumente 1001 und 1002 in 10A und 10B weisen Identitäts-Markierungen auf, weshalb die Markierungen und deren Buchstabeninhalte nach Regel 4 kollektiv einem einzigen Knoten zugeordnet werden. Das Verfahren zum Erzeugen der Dokumentbäume in 10A und 10B für die Unterschiedserkennung ist als die Schritte 401 bis 406 in 10C gezeigt.
  • Schritt 204:
  • Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
  • Weil der Vergleich knotenweise erfolgt, werden „<NAME>" und „<ÜBERTRAGUNGSDATUM>", bei denen es sich um Identitäts-Markierungen handelt, einander nicht zugeordnet, so lange die jeweiligen Markierungen und die Buchstabenfolgen ihrer Inhalte miteinander übereinstimmen. In diesem Fall werden wegen der Nichtübereinstimmung zwischen den Markierungen 1001 und 1002 sowohl die Markierungen als auch deren Inhalte als Unterschied erkannt.
  • Schritt 205:
  • Der Unterschied zwischen nicht übereinstimmenden Knoten wird buchstabenweise erkannt. Knoten mit einer Identitäts-Markierung werden jedoch nur dann buchstabenweise verglichen, wenn die führende Buchstabenfolge, die jede der Markierungen der jeweiligen Knoten darstellt, übereinstimmt. Schritt 206:
  • Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
  • Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 3A und 3B ist in 11 gezeigt.
  • 11B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 3B im Vergleich mit dem strukturierten Dokument in 3A. 11A hingegen zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 3A im Vergleich mit dem strukturierten Dokument in 3B.
  • In 11B stimmen die Markierungen „<NAME>" und „<ÜBERTRAGUNGSDATUM>" der Knoten 1001 und 1002 nicht überein, weshalb die Buchstabenfolge „<ÜBERTRAGUNGSDATUM> NOVEMBER 20, SIXTH YEAR OF HEISEI </ÜBERTRAGUNGSDATUM>" (20. November, 6. Jahr von Heisei) in Knoten 1002 in ihrer Gesamtheit als Unterschied erkannt wird. Weil 3A keine Beschreibung von „ARE YOU FINE?" in 3B enthält, wird auch „ARE YOU FINE?" als Unterschied erkannt.
  • Wenn die Unterschiedserkennung nach den vorstehend beschriebenen Schritten ausgeführt wird, so lange eine Markierung mit Buchstaben, deren Vergleich bedeutungslos ist, bei Fehlen einer Markierungs-Übereinstimmung als Identitäts-Markierung eingegeben wird, werden strukturierte Dokumente mit nicht übereinstimmender logischer Struktur einander nicht zugeordnet. Somit kann dem Editor ein besser geeignetes Ergebnis der Unterschiedserkennung zugeführt werden.
  • Verarbeitungsbeispiel 2
  • Die in 5A und 5B gezeigten Beispieldokumente werden als ein zweites spezifisches Verfahren nach der Ausführungsform unter Bezugnahme auf den Fall mit einer Identitäts-Markierung und einer Ignorierungs-Markierung sowie einer Strukturverschiebung beschrieben.
  • Schritt 201:
  • Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert. Es wird angenommen, dass das Dokument in 5B durch Editieren des Dokuments in 5A erhalten wurde.
  • Schritt 202:
  • In diesem Schritt wird die Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente gelesen.
  • Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird eine geeignete Tabelle erzeugt und eingegeben. Im Fall von 5A und 5B wird zum Beispiel eine Vergleichskriterientabelle wie in 12 erzeugt. Hierin ist „<NAME DES AUTORS>" als eine Identitäts-Markierung definiert. In diesem Fall werden, wie oben beschrieben, die Buchstabenfolgen nur dann miteinander verglichen, wenn die Markierungen übereinstimmen. Außerdem ist „<KAPITELNUMMER>" als eine Ignorierungs-Markierung definiert. In diesem Fall wird der Unterschied in der Kapitelnummer ignoriert, weil sie keinen Einfluss auf die Unterschiedserkennung hat.
  • Schritt 203:
  • Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 werden die SGML-Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente analysiert, und die zugehörigen Dokumentbäume werden unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
  • Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 13A und 13B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 12 aus den strukturierten Dokumenten in 5A bzw. 5B erzeugt. „<KAPITELNUMMER>" als eine Ignorierungs-Markierung wird nach der vorstehenden Regel 5 nicht als ein Knoten zugeordnet.
  • Schritt 204:
  • Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
  • Die Ignorierungs-Markierungen, die nicht als Knoten ausgewiesen sind, werden nicht verglichen und haben keinen Einfluss auf dem gesamten Prozess der Unterschiedserkennung.
  • Schritt 205:
  • Der Unterschied zwischen nicht übereinstimmenden Knoten wird anhand der Buchstabenfolgen erkannt. Die Ignorierungs-Markierungen und deren Inhalte, die in Schritt 204 nicht verglichen wurden, werden ebenfalls in diesem Schritt verglichen.
  • Schritt 206:
  • Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
  • Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 5A und 5B ist in 14A und 14B gezeigt. 14B zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 5B im Vergleich mit dem strukturierten Dokument in 5A. 14A hingegen zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 5A im Vergleich mit dem strukturierten Dokument in 5B.
  • Nachstehend wird der Fall erläutert, bei dem der Unterschied aus dem strukturierten Dokument in 5B im Vergleich mit dem strukturierten Dokument in 5A erkannt und das in 14B gezeigte Ergebnis der Erkennung der Unterschiedsbuchstabenfolge erhalten wird.
  • Bei der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in Schritt 204 werden „<ABHANDLUNG>", „</ABHANDLUNG>", „<NAME DES AUTORS> TARO HEISEI </NAME DES AUTORS>" und „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION METHOD </KAPITEL>" (Erkennungsverfahren für Unterschiede in strukturierten Dokumenten) in 13A und 13B als übereinstimmend erkannt, so dass sie in 14B als übereinstimmende Teile gezeigt sind.
  • Weil in Schritt 204 entschieden wird, dass „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION METHOD </KAPITEL>" übereinstimmt, entscheidet Schritt 205, dass die zu dem übereinstimmenden Teil gehörenden Angaben „<KAPITELNUMMER> und </KAPITELNUMMER>" ebenfalls übereinstimmen. Andererseits wird „CHAPTER 2" (Kapitel 2), das nicht mit „CHAPTER 1" (Kapitel 1) übereinstimmt, als Unterschied erkannt und angezeigt, wie in 14B gezeigt.
  • Ebenfalls aufgrund der Entscheidung in Schritt 204, dass „<KAPITEL> WHAT IS STRUCTURED DOCUMENT? </KAPITEL>" in 13B nicht übereinstimmt, werden diese Angabe „<KAPITEL> WHAT IS STRUCTURED DOCUMENT? </KAPITEL>" und das zu dem betreffenden nicht übereinstimmenden Teil gehörende „<KAPITELNUMMER> CHAPTER 1 </KAPITELNUMMER>" als Unterschied erkannt und angezeigt, wie in 14B gezeigt.
  • Bei der Unterschiedserkennung nach den vorstehend beschriebenen Schritten werden die Dokumentbäume knotenweise, das heißt nach ihrer Struktur, verglichen, und deshalb werden in diesem Prozess zum Beispiel die Knoten 1301 und 1302 einander zugeordnet. Folglich ist zu erkennen, dass eine fälschliche Zuordnung über unterschiedliche Strukturen, wie in 6 gezeigt, nicht geschehen kann. Weil der knotenweise Vergleich der Dokumentbäume keinen Vergleich von Ignorierungs-Markierungen einschließt, werden eventuelle Unterschiede im Inhalt der Ignorierungs-Markierungen so behandelt, als haben sie keinen Einfluss auf den Unterschiedserkennungsprozess als Ganzes.
  • Verarbeitungsbeispiel 3
  • Ein drittes spezifisches Verarbeitungsbeispiel nach einer Ausführungsform mit einer Identitäts-Markierung und einer Äquivalenz-Markierung wird nachstehend anhand der Beispieldokumente in 7A und 7B beschrieben.
  • Schritt 201:
  • Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert. Es wird angenommen, dass das Dokument in 7B durch Editieren des Dokuments in 7A erhalten wurde.
  • Schritt 202:
  • In diesem Schritt wird eine Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente gelesen.
  • Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird eine geeignete Tabelle erzeugt und eingegeben. Im Fall von 7A und 7B wird eine Vergleichskriterientabelle wie in 15 erzeugt. Mit anderen Worten, „<NAME DES AUTORS>" ist als eine Identitäts-Markierung definiert. In diesem Fall werden, so lange bestimmte Markierungen nicht übereinstimmen, die zu diesen gehörenden Buchstabenfolgen einander nicht zugeordnet. Außerdem sind „<PUNKT>" und „<ERSTER PUNKT>" als Äquivalenz-Markierungen definiert. In letzterem Fall werden „<PUNKT>" und „<ERSTER PUNKT>" so behandelt, als hätten sie dieselbe logische Struktur.
  • Schritt 203:
  • Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 werden die SGML-Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente analysiert, und die Dokumentbäume werden unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
  • Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 16A und 16B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 15 aus den strukturierten Dokumenten in 7A bzw. 7B erzeugt.
  • Die Knoten 1601, 1602 und 1603 in 16 werden nach Regel 6 in denselben Markierungsnamen umgewandelt.
  • Schritt 204:
  • Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt. Die Äquivalenz-Markierungen erhalten denselben Markierungsnamen und werden daher nicht als Unterschied erkannt.
  • Schritt 205:
  • Nur die Markierungen, die als nicht miteinander übereinstimmend befunden wurden, werden erkannt, dieses Mal buchstabenweise.
  • Schritt 206:
  • Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
  • Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 7A und 7B ist in 17A und 17B gezeigt.
  • 17B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 7B im Vergleich mit dem strukturierten Dokument in 7A, und 17A zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 7A im Vergleich mit dem strukturierten Dokument in 7B.
  • Nachstehend wird der Fall erläutert, bei dem der Unterschied aus dem strukturierten Dokument in 7B im Vergleich mit dem strukturierten Dokument in 7A erkannt und das in 17B gezeigte Ergebnis der Erkennung erhalten wird.
  • Bei der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in Schritt 204 wird entschieden, dass „<ABHANDLUNG>", „</ABHANDLUNG>", „<NAME DES AUTORS> TARO HEISEI </NAME DES AUTORS" und „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION METHOD </KAPITEL>" in 16A und 16B übereinstimmen, so dass sie in 17B als übereinstimmende Teile gezeigt sind.
  • Aufgrund der Entscheidung in Schritt 204, dass „<PUNKT> WHAT IS STRUCTURED DOCUMENT? </PUNKT>" (Was sind strukturierte Dokumente?) nicht übereinstimmt, wird in Schritt 205 der Unterschied des nicht übereinstimmenden Teils buchstabenweise erkannt, so dass „<PUNKT> WHAT IS STRUCTURED DOCUMENT? </PUNKT>" als Unterschied erkannt und angezeigt wird, wie in 17B gezeigt.
  • Nach Durchführung der Unterschiedserkennung gemäß den vorstehend beschriebenen Schritten werden die Dokumente mit derselben logischen Struktur als übereinstimmend erkannt, trotz des unterschiedlichen Markierungsnamens.
  • Verarbeitungsbeispiel 4
  • Ein viertes spezifisches Verarbeitungsbeispiel nach einer Ausführungsform mit einer Nichtvergleichs-Markierung wird nachstehend anhand der Dokumente in 18A und 18B beschrieben.
  • Schritt 201:
  • Ein strukturiertes Dokument wird mit dem Dokument-Editierprogramm 104 editiert. Es wird angenommen, dass das Dokument in 18B durch Editieren des Dokuments in 18A erhalten wurde.
  • Schritt 202:
  • Eine Vergleichskriterientabelle 107 wird eingelesen, die der DTD des zu vergleichenden SGML-Dokuments entspricht.
  • Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird eine geeignete Tabelle erzeugt und eingegeben. Im Fall von 18A und 18B wird zum Beispiel eine Vergleichskriterientabelle wie in 19 erzeugt. Mit anderen Worten, es wird angenommen, dass „<ABSENDER>" und „<EMPFÄNGER>" eine Nichtvergleichs-Markierung aufweisen. In diesem Fall werden „<ABSENDER>" und „<EMPFÄNGER>" nicht inhaltlich verglichen.
  • Schritt 203:
  • Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 wird das SGML-Dokument von dem, Analyseprogramm 105 für strukturierte Dokumente analysiert, und ein Dokumentbaum wird unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
  • Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 20A und 20B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 19 aus den Dokumenten in 18A bzw. 18B erzeugt.
  • Schritt 204:
  • Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt. „<ABSENDER>" und „<EMPFÄNGER>" weisen Nichtvergleichs-Markierungen auf, weshalb die untergeordneten Knoten, das heißt die Unterknoten „<ORGANISATION>" und „<NAME>", nicht miteinander verglichen werden.
  • Schritt 205:
  • Der Unterschied nur zwischen den Knoten, die nicht miteinander übereinstimmen, wird erkannt, dieses Mal buchstabenweise.
  • Schritt 206:
  • Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
  • Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 18A und 18B ist in 21 gezeigt.
  • 21B zeigt das Ergebnis der Erkennung der Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 18B im Vergleich mit dem strukturierten Dokument in 18A, und 21A zeigt das Ergebnis der Erkennung der Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 18A im Vergleich mit dem strukturierten Dokument in 18B.
  • Nachstehend wird der Fall erläutert, bei dem der Unterschied aus dem strukturierten Dokument in 18B im Ver gleich mit dem strukturierten Dokument in 18A erkannt und das in 21B gezeigte Ergebnis der Erkennung der Unterschiedsbuchstabenfolge erhalten wird.
  • Bei der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in Schritt 204 wird entschieden, dass, wie in 18A und 18B gezeigt, „<MEMO>", „</MEMO>", „<TEXT>" und „</TEXT>" miteinander übereinstimmen, während „<EMPFÄNGER>", „</EMPFÄNGER>" und der Inhalt einschließlich „<ORGANISATION> 00 BANK </ORGANISATION>" und „<NAME> TARO HEISEI </NAME>" als Unterschied erkannt werden, weil „<ABSENDER>" und „<EMPFÄNGER>" Nichtvergleichs-Markierungen sind. „HELLO. ARE YOU FINE?" (Hallo. Geht es Ihnen gut?) wird als nicht übereinstimmend erkannt.
  • Aufgrund der Nichtübereinstimmungs-Entscheidung zu „HELLO. ARE YOU FINE?" in Schritt 204, erkennt Schritt 205 den Unterschied für den nicht übereinstimmenden Teil buchstabenweise, so dass „HELLO. ARE YOU FINE?" als Unterschied erkannt wird.
  • Folglich wird das in 21B gezeigte Dokument angezeigt.
  • Bei der Unterschiedserkennung gemäß den vorstehend beschriebenen Schritten werden, nachdem Markierungen, deren Inhalte nicht verglichen werden, als Nichtvergleichs-Markierungen eingegeben sind, untergeordnete Knoten (Unterknoten) nicht verglichen, und daher erfolgt keine Zuordnung der in „<ABSENDER>" und „<EMPFÄNGER>" enthaltenen Organisationen und Namen, wodurch dem Editor ein besser geeignetes Ergebnis der Unterschiedserkennung zugeführt werden kann.
  • Eine andere Ausführungsform der Erfindung ist in 22 gezeigt. Die Unterschiedsinformation, die als Änderung zwischen strukturierten Dokumenten vor und nach dem Editieren mit dem in den vorstehend beschriebenen Ausführungsformen offen gelegten Verfahren erkannt wird, weist die folgenden von einem Vergleich zwischen nicht strukturierten Dokumenten abweichenden Merkmale auf:
    • (1) Es geht sowohl um die Änderung der Struktur an sich als auch um die Änderung der Buchstabenfolgen in der Struktur.
    • (2) Die Unterschiedsinformation hat eine logische Struktur. Dies wird anhand der strukturierten Dokumente in 23A und 23B beschrieben.
  • 24A zeigt ein Ergebnisbeispiel für den Vergleich eines strukturierten Dokuments a vor dem Editieren mit einem strukturierten Dokument a' nach dem Editieren in 23A bzw. 23B. Die Positionen 1 (601) und 3 (603) stellen ein Beispiel dar, bei dem die Buchstabenfolgen in einer Struktur geändert worden sind, ohne die Dokumentstruktur zu ändern, einschließlich „<NAME>" und „<TEXT>". Position 2 (602) zeigt ein Beispiel, bei dem die Struktur für „<ORGRNISATION>" neu eingefügt worden ist.
  • Als Nächstes wird ein Beispiel erläutert, bei dem die Unterschiedsinformation zwischen strukturierten Dokumenten eine logische Struktur aufweist. Die Positionen 1 (601) und 3 (603) stellen zum Beispiel eine Änderung in der Buchstabenfolge dar. Wenn die Unterschiedsinformation durch Angabe einer Struktur ausgedrückt werden soll, zum Beispiel um anzugeben, dass die Änderung der Buchstabenfolge in der Struktur von „<NAME>" bzw. „<TEXT>" erfolgt ist, müssen die Unterschiedsdaten Strukturinformationen aufweisen. Außerdem weist die Position 2 (602) die Strukturinformation auf, dass die eingefügte Angabe „<ORGANISATION>", die im Rahmen der logischen Struktur „<ABSENDER>" liegt, eine Unterstruktur von „<ABSENDER>" ist.
  • Nach dem Verfahren nach dem Stand der Technik konnten diese Merkmale der Unterschiedsdaten von strukturierten Dokumenten jedoch nicht sinnvoll angezeigt werden. Nach dem bisher üblichen Verfahren, wird dies, selbst wenn es sich um eine Änderung der Information in Bezug auf die logische Struktur eines Dokuments handelt, durch Ändern des Anzeigeattributs der Buchstaben zur Angabe der Struktur angezeigt, ohne dass gegenüber einer Änderung in der Buchstabenfolge unterschieden wird. Das sich daraus ergebende Problem be steht darin, dass es für den Benutzer schwierig ist, festzustellen, ob die Struktur oder der Inhalt der Struktur geändert worden ist. Dieses Problem wird anhand eines spezifischen Beispiels beschrieben. 24B zeigt ein Beispiel für eine Anzeige von Unterschiedsdaten nach einem Vergleichsbeispiel aus JP-A-7-200370. Bei diesem Anzeigeverfahren werden die Strukturinformationen ignoriert, ohne die Änderung einer Struktur von einer Änderung einer Buchstabenfolge in der Struktur zu unterscheiden. Folglich kann der Benutzer, der das strukturierte Dokument mit Hilfe von Dokumentbearbeitungs-Software oder dergleichen editiert, die eigentliche Änderung nicht ohne weiteres erkennen. Auch wenn die Dokumentbearbeitungs-Software oder dergleichen ein eigenes Anzeigeprogramm zur Darstellung der Strukturinformation in einem Baum zur Anzeige eines strukturierten Dokuments benutzt, ist ein getrenntes Anzeigeprogramm zur Anzeige der Unterschiedsdaten erforderlich, wie in 24A und 24B gezeigt, wodurch das Programm unnötig kompliziert wird.
  • Die Ausführungsform in 22 unterscheidet sich von der Ausführungsform in 1, bei der die geänderten Teile zwischen strukturierten Dokumenten auf der Grundlage von logischen Strukturinformationen erkannt werden, darin, dass Schritt 507 zum Anzeigen und Speichern (Editieren) der Unterschiedsinformation aus einem Schritt 505 zur Ausgabe einer strukturierten Unterschiedsinformation hinzugekommen ist. Die Schritte 501 bis 506 sind daher im Wesentlichen vergleichbar mit den Schritten 201 bis 206 in 1.
  • Schritt 507 zeigt den erhaltenen Unterschied mit einem Anzeige-/Sicherungsprogramm 110 auf dem Terminal 102 an und speichert die strukturierten Unterschiedsdaten in einer zweiten Speichereinheit 103. Weil die Unterschiedsdaten wie in 25 gezeigt in SGML-Form ausgegeben werden, können die Unterschiedsdaten direkt mit einem Editor oder einem speziellen SGML-Viewer angezeigt werden. 26A und 26B zeigen ein Beispiel für die Anzeige eines strukturier ten Dokuments in einem speziellen SGML-Editor, während 27 ein Beispiel für die Anzeige der Unterschiedsdaten zeigt. In 26A und 26B bezeichnet das Bezugszeichen 2301 ein Fenster zur Anzeige der Struktur und das Bezugszeichen 2302 ein Fenster zur Anzeige der Buchstabenfolgen in der Struktur. 27 zeigt ein Beispielfenster für die Anzeige der Unterschiedsdaten aus 25 in strukturierter Form. Bei dem Verfahren wird eine Änderung einer Struktur durch Änderung der Farbe oder Schrift der die Struktur darstellenden Markierung angezeigt, indem der geänderte Teil mit einer durchgezogenen Linie unterstrichen oder anderweitig gekennzeichnet wird. Ein geänderter Teil einer Buchstabenfolge wird in ähnlicher Weise ebenfalls unterschiedlich von anderen Buchstabenfolgen angezeigt. Diese Unterscheidungsanzeige kann hervorgehoben sein.
  • Mit den vorstehenden beschriebenen Schritten können die Unterschiedsdaten direkt in strukturierter Form angezeigt werden, indem dieses System als eine Dokument-Vergleichsfunktion in die Editier-Software für SGML-Dokumente einbezogen wird. Durch Unterscheiden einer Änderung in einer Struktur von der einer Buchstabenfolge in einer Struktur kann zum Beispiel der Benutzer, der das strukturierte Dokument mit Hilfe von Dokumentbearbeitungs-Software oder dergleichen editiert, die eigentliche Änderung ohne weiteres erkennen. Selbst wenn die Dokumentbearbeitungs-Software oder dergleichen ein eigenes Anzeigeprogramm zur Darstellung der Strukturinformation in Form eines Baums zur Anzeige eines strukturierten Dokuments benutzt, kann ein geänderter Teil ohne ein getrenntes Anzeigeprogramm angezeigt werden. Ähnlich wie bei der Ausführungsform in 2A können die strukturierten Unterschiedsdaten benutzt werden, um strukturierte Dokumente zu aktualisieren und/oder zu überarbeiten, die in Schritt 507 editiert werden sollen, oder nach Abschluss des Editierens mit bekannten Programmen zum Bearbeiten (Editieren) von Dokumenten.
  • Aus der vorstehenden Beschreibung ist daher ersichtlich, dass nach der vorliegenden Erfindung ein Vergleichskriterium, das einer logischen Struktur eines strukturierten Dokuments entspricht, definiert und der Unterschied eines zu vergleichenden strukturierten Dokuments so erkannt wird, dass das Vergleichskriterium erfüllt sein muss, wodurch ein dem Verständnis des Editors entsprechender Unterschied gemäß der Bedeutung der logischen Struktur erkannt wird. Auch der Unterschied zwischen Strukturen darstellenden Dokumentbäumen wird knotenweise erkannt, und jeder Unterschied zwischen den nicht übereinstimmenden Knoten der zu vergleichenden Dokumente wird buchstabenweise erkannt. Folglich wird ein eventueller Unterschied über unterschiedliche Strukturen hinweg nicht erkannt, mit dem Ergebnis, dass der Editor den für die betreffende logische Struktur geeigneten Unterschied erfassen kann, wodurch die Effizienz des Editieren von strukturierten Dokumenten verbessert wird. Die vorliegende Erfindung eignet sich für das automatische Aktualisieren von Dokumenten, die wahrscheinlich überarbeitet werden müssen, einschließlich verschiedener juristischer Unterlagen und Bedienungsanleitungen in SGML oder einer ähnlichen Sprache. Darüber hinaus ist das effiziente erfindungsgemäße Editieren zur Verwaltung von Platten von Dokumenten geeignet, die häufig aktualisiert werden müssen.

Claims (11)

  1. Erkennungsverfahren für Unterschiede in strukturierten Dokumenten, bei dem strukturierte Dokumente vor und nach ihrer Editierung, einschließlich Löschen, Einfügen oder Ändern, in einer Speichereinheit (103) gespeichert werden und eine zwischen den strukturierten Dokumenten vor und nach der Editierung nicht übereinstimmende Buchstabenfolge durch einen Prozessor (101) als Unterschied erkannt wird, wobei in dem Verfahren strukturierte Dokumente editiert und vor und nach der Editierung in der Speichereinheit (103) gespeichert (201) werden, ein Vergleichskriterium für die logische Struktur jedes der strukturierten Dokumente vor und nach der Editierung definiert (202) wird, wobei das Vergleichskriterium wenigstens eine eine logische Struktur darstellende Markierung und einen Vergleichskriteriumstyp für die wenigstens eine Markierung umfaßt, eine logische Struktur jedes strukturierten Dokuments, das aus der Speichereinheit (103) ausgelesen ist, vor und nach der Editierung auf Grundlage des Vergleichskriteriums analysiert (203) wird, und ein Unterschied zwischen den strukturierten Dokumenten erkannt (204, 205) wird, der das Vergleichskriterium bezüglich des Analyseergebnisses erfüllt.
  2. Verfahren nach Anspruch 1, wobei ferner ein eine Dokumentstruktur darstellender Dokumentbaum erzeugt (203) wird, indem jedes strukturierte Dokument analysiert wird, der Unterschied zwischen den Dokumentbäumen knotenweise als Unterschied zwischen den strukturierten Dokumenten erkannt (204) wird, und der Unterschied zwischen nicht übereinstimmenden Knoten buchstabenweise erkannt (205) wird.
  3. Verfahren nach Anspruch 2, wobei ferner das Verfahren der Zuordnung der Knoten eines die Dokumentstruktur darstellenden Dokumentbaums gemäß dem Vergleichskriterium während der Erzeugung des Dokumentbaums durch Analyse des strukturierten Dokuments geändert wird.
  4. Gerät zur Unterschiedserkennung strukturierter Dokumente mit einer Speichereinheit (103) zum Speichern strukturierter Dokumente vor und nach ihrer Editierung, einschließlich Löschen, Einfügen oder Ändern, und einem Prozessor (101) zum Erkennen einer nicht übereinstimmenden Buchstabenfolge zwischen den zwei strukturierten Dokumenten vor und nach der Editierung als Unterschied, wobei der Prozessor aufweist: eine Einrichtung (104) zum Editieren und Speichern der strukturierten Dokumente in der Speichereinheit (103); eine Einrichtung zum Definieren eines Vergleichskriteriums für die logische Struktur jedes der strukturierten Dokumente vor und nach der Editierung, wobei das Vergleichskriterium wenigstens eine eine logische Struktur darstellende Markierung und einen Vergleichskriteriumstyp für die wenigstens eine Markierung umfaßt; eine Einrichtung (105) zum Analysieren einer logischen Struktur jedes strukturierten Dokuments, das aus der Speichereinheit (103) ausgelesen ist, vor und nach der Editierung auf Grundlage des Vergleichskriteriums; und eine Einrichtung (106) zum Erkennen des Unterschieds zwischen den strukturierten Dokumenten, so daß das Vergleichskriterium gemäß dem Analyseergebnis der strukturierten Dokumente erfüllt ist.
  5. Verfahren nach Anspruch 1 oder Gerät nach Anspruch 4, wobei das Vergleichskriterium in einer Tabelle (107) gespeichert wird.
  6. Verfahren oder Gerät nach Anspruch 5, wobei die Markierungen so definiert sind, daß sie wenigstens vier Typen von Vergleichskriterien aufweisen, nämlich Markierungen mit Inhalten, die nur verglichen werden, falls die einzelnen Markierungen untereinander übereinstimmen, Markierungen mit Inhalten, deren Unterschied während des Vergleichs ignoriert wird, einen Satz Markierungen mit gleicher logischer Bedeutung, und einen Satz Markierungen mit Inhalten, die nicht miteinander verglichen werden.
  7. Gerät nach einem der Ansprüche 4 bis 6, wobei die Einrichtung (105) zum Analysieren der strukturierten Dokumente dazu ausgelegt ist, wenigstens einen die Dokumentstruktur darstellenden Dokumentbaum zu erzeugen, und die Einrichtung (106) zur Unterschiedserkennung der strukturierten Dokumente dazu ausgelegt ist, den Unterschied zwischen den Dokumentbäumen knotenweise als Unterschied zwischen den strukturierten Dokumenten zu erkennen, wobei der Unterschied zwischen nicht übereinstimmenden Knoten buchstabenweise erkannt wird.
  8. Gerät nach Anspruch 7, wobei die Einrichtung (105) zum Analysieren des strukturierten Dokuments dazu ausgelegt ist, die Zuordnung der Verknüpfungen eines die Dokumentstruktur darstellenden Dokumentbaums gemäß dem Vergleichskriterium während der Erzeugung des Dokumentbaums zu ändern.
  9. Gerät nach Anspruch 4, ferner mit einer Einrichtung (102) zum Anzeigen des strukturierten Dokuments, um das Ergebnis des durch die Einrichtung (106) zur Unterschiedserkennung der strukturierten Dokumente erkannten Unterschieds als Unterschiedsinformation auszugeben, so daß das Unterschiedsergebnis auf Grundlage der strukturierten Unterschiedsinformation angezeigt wird, und einer Dokumentaktualisierungseinrichtung (103A) zum Aktualisieren/Überarbeiten von zu aktualisierenden/überarbeitenden strukturierten Dokumenten auf Grundlage der strukturierten Unterschiedsinformation, die durch die Einrichtung (106) zur Unterschiedserkennung strukturierter Dokumente erzeugt wurde.
  10. Prozessor-lesbares Medium, das Programmcodes speichert, die einen Computer mit einer Speichereinheit (103) und einem Prozessor (101) ermöglichen, nicht übereinstimmende Buchstabenfolgen zwischen strukturierten Dokumenten vor und nach deren Editierung zu erkennen, indem das Verfahren nach einem der Ansprüche 1, 2, 3, 5 oder 6 ausgeführt wird.
  11. Medium nach Anspruch 10, ferner mit einem Programmcodeabschnitt (206, 506), um den Computer dazu zu veranlassen, den erkannten Unterschied zwischen den strukturierten Dokumenten auf eine Benutzungseinrichtung anzuwenden.
DE69634459T 1995-06-05 1996-06-04 Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten Expired - Fee Related DE69634459T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP16139895 1995-06-05
JP16139895A JP3724847B2 (ja) 1995-06-05 1995-06-05 構造化文書差分抽出方法および装置

Publications (2)

Publication Number Publication Date
DE69634459D1 DE69634459D1 (de) 2005-04-21
DE69634459T2 true DE69634459T2 (de) 2006-01-12

Family

ID=15734343

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69634459T Expired - Fee Related DE69634459T2 (de) 1995-06-05 1996-06-04 Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten

Country Status (4)

Country Link
US (3) US5956726A (de)
EP (1) EP0747836B1 (de)
JP (1) JP3724847B2 (de)
DE (1) DE69634459T2 (de)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH09297768A (ja) * 1996-05-07 1997-11-18 Fuji Xerox Co Ltd 文書データベース管理装置及び文書データベース検索方法
JP3566457B2 (ja) * 1996-05-31 2004-09-15 株式会社日立製作所 構造化文書の版管理方法および装置
US6658624B1 (en) * 1996-09-24 2003-12-02 Ricoh Company, Ltd. Method and system for processing documents controlled by active documents with embedded instructions
JPH10143403A (ja) * 1996-11-12 1998-05-29 Fujitsu Ltd 情報管理装置および情報管理プログラム記憶媒体
US6289121B1 (en) * 1996-12-30 2001-09-11 Ricoh Company, Ltd. Method and system for automatically inputting text image
US7212632B2 (en) 1998-02-13 2007-05-01 Tecsec, Inc. Cryptographic key split combiner
US6694433B1 (en) * 1997-05-08 2004-02-17 Tecsec, Inc. XML encryption scheme
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US6411974B1 (en) * 1998-02-04 2002-06-25 Novell, Inc. Method to collate and extract desired contents from heterogeneous text-data streams
US8077870B2 (en) * 1998-02-13 2011-12-13 Tecsec, Inc. Cryptographic key split binder for use with tagged data elements
US6665836B1 (en) * 1998-06-17 2003-12-16 Siemens Corporate Research, Inc. Method for managing information on an information net
US6263332B1 (en) 1998-08-14 2001-07-17 Vignette Corporation System and method for query processing of structured documents
US7281203B2 (en) * 1998-09-29 2007-10-09 Netscape Communications Corporation Selecting a DTD for transforming malformed layout expressions into wellformed ones
US6964011B1 (en) * 1998-11-26 2005-11-08 Canon Kabushiki Kaisha Document type definition generating method and apparatus, and storage medium for storing program
CA2255047A1 (en) * 1998-11-30 2000-05-30 Ibm Canada Limited-Ibm Canada Limitee Comparison of hierarchical structures and merging of differences
US7039637B2 (en) * 1998-12-31 2006-05-02 International Business Machines Corporation System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search
US6813747B1 (en) 1998-12-31 2004-11-02 International Business Machines Corporation System and method for output of multipart documents
US6760887B1 (en) 1998-12-31 2004-07-06 International Business Machines Corporation System and method for highlighting of multifont documents
US6718519B1 (en) 1998-12-31 2004-04-06 International Business Machines Corporation System and method for outputting character sets in best available fonts
US6539118B1 (en) 1998-12-31 2003-03-25 International Business Machines Corporation System and method for evaluating character sets of a message containing a plurality of character sets
US7031002B1 (en) 1998-12-31 2006-04-18 International Business Machines Corporation System and method for using character set matching to enhance print quality
US7103532B1 (en) 1998-12-31 2006-09-05 International Business Machines Corp. System and method for evaluating character in a message
JP3390357B2 (ja) * 1999-02-12 2003-03-24 日本電気株式会社 木構造データ編集システムにおける木構造差分出力方法及び装置
WO2000062243A1 (fr) * 1999-04-14 2000-10-19 Fujitsu Limited Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document
JP2000339312A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書編集システム及びタグ情報管理テーブル作成方法
US6959415B1 (en) 1999-07-26 2005-10-25 Microsoft Corporation Methods and apparatus for parsing Extensible Markup Language (XML) data streams
US6560620B1 (en) * 1999-08-03 2003-05-06 Aplix Research, Inc. Hierarchical document comparison system and method
US6502112B1 (en) * 1999-08-27 2002-12-31 Unisys Corporation Method in a computing system for comparing XMI-based XML documents for identical contents
US7191114B1 (en) 1999-08-27 2007-03-13 International Business Machines Corporation System and method for evaluating character sets to determine a best match encoding a message
US7661062B1 (en) * 1999-09-20 2010-02-09 Business Objects Americas System and method of analyzing an HTML document for changes such that the changed areas can be displayed with the original formatting intact
JP2001092707A (ja) * 1999-09-24 2001-04-06 Nec Corp 情報処理システム、構造化文書処理システム、その更新方法及びその更新プログラムを記録した記録媒体
US6675354B1 (en) * 1999-11-18 2004-01-06 International Business Machines Corporation Case-insensitive custom tag recognition and handling
JP3754253B2 (ja) * 1999-11-19 2006-03-08 株式会社東芝 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
WO2001052032A1 (en) * 2000-01-07 2001-07-19 Winlook Corporation Method and apparatus for displaying, retrieving, filing and organizing various kinds of data and images
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
EP1290575B1 (de) * 2000-05-16 2005-06-08 O'Carroll, Garrett System und verfahren zur dokumentverarbeitung
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
JP2002024211A (ja) * 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
GB0018042D0 (en) * 2000-07-21 2000-09-13 Monsell Edm Ltd Method of and software for recordal and validation of changes to markup language files
US7103838B1 (en) * 2000-08-18 2006-09-05 Firstrain, Inc. Method and apparatus for extracting relevant data
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
AU2000276398A1 (en) * 2000-09-30 2002-04-15 Intel Corporation (A Corporation Of Delaware) A method and apparatus for determining text passage similarity
JP2002149874A (ja) * 2000-11-07 2002-05-24 Ricoh Co Ltd 電子マニュアル提供システムおよび方法、並びにサーバ装置
CA2328566A1 (en) * 2000-12-15 2002-06-15 Ibm Canada Limited - Ibm Canada Limitee System and method for providing language-specific extensions to the compare facility in an edit system
FR2818409B1 (fr) * 2000-12-18 2003-03-14 Expaway Procede pour diviser des documents structures en plusieurs parties
US20020169803A1 (en) * 2000-12-18 2002-11-14 Sudarshan Sampath System and user interface for generating structured documents
US6978420B2 (en) * 2001-02-12 2005-12-20 Aplix Research, Inc. Hierarchical document cross-reference system and method
US7028024B1 (en) * 2001-07-20 2006-04-11 Vignette Corporation Information retrieval from a collection of information objects tagged with hierarchical keywords
JP4045400B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 検索装置及び検索方法
US8041739B2 (en) * 2001-08-31 2011-10-18 Jinan Glasgow Automated system and method for patent drafting and technology assessment
US6754676B2 (en) * 2001-09-13 2004-06-22 International Business Machines Corporation Apparatus and method for providing selective views of on-line surveys
US7085996B2 (en) * 2001-10-18 2006-08-01 International Business Corporation Apparatus and method for source compression and comparison
US20040205675A1 (en) * 2002-01-11 2004-10-14 Thangaraj Veerappan System and method for determining a document language and refining the character set encoding based on the document language
US20030145278A1 (en) * 2002-01-22 2003-07-31 Nielsen Andrew S. Method and system for comparing structured documents
US7191395B2 (en) * 2002-03-12 2007-03-13 International Business Machines Corporation Method and system for stylesheet-centric editing
US20040205509A1 (en) * 2002-03-18 2004-10-14 Sun Microsystems, Inc. System and method for comparing parsed XML files
US7096421B2 (en) * 2002-03-18 2006-08-22 Sun Microsystems, Inc. System and method for comparing hashed XML files
US7260773B2 (en) 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
US20030233621A1 (en) * 2002-06-13 2003-12-18 International Business Machines Corporation Editor for smart version control
GB0217201D0 (en) * 2002-07-24 2002-09-04 Beach Solutions Ltd XML database differencing engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
US7353225B2 (en) * 2002-11-13 2008-04-01 Sun Microsystems, Inc. Mechanism for comparing content in data structures
US7603371B1 (en) * 2002-12-17 2009-10-13 Vignette Corporation Object based system and method for managing information
US20070245228A9 (en) * 2003-04-10 2007-10-18 Andre Lavoie Financial document change identifier
US7296223B2 (en) * 2003-06-27 2007-11-13 Xerox Corporation System and method for structured document authoring
WO2005006192A1 (ja) * 2003-07-10 2005-01-20 Fujitsu Limited 構造化文書処理方法及び装置並びに記憶媒体
US7877399B2 (en) * 2003-08-15 2011-01-25 International Business Machines Corporation Method, system, and computer program product for comparing two computer files
US8495099B2 (en) * 2003-10-24 2013-07-23 Enrico Maim Method of manipulating information objects and of accessing such objects in a computer environment
US20050138542A1 (en) * 2003-12-18 2005-06-23 Roe Bryan Y. Efficient small footprint XML parsing
US7373586B2 (en) * 2004-09-03 2008-05-13 International Business Machines Corporation Differencing and merging tree-structured documents
US8082259B2 (en) * 2005-03-16 2011-12-20 Sony Corporation Information processing apparatus for extracting objects
US20070005701A1 (en) * 2005-06-30 2007-01-04 International Business Machines Corporation Synchronizing email content with IM content
JP4932227B2 (ja) * 2005-10-26 2012-05-16 ヤフー株式会社 情報抽出方法
EP1791293A1 (de) * 2005-11-29 2007-05-30 Ipanto Konfigurationsverwaltung von Netzwerkdiensten
US20070162486A1 (en) * 2005-12-30 2007-07-12 Thomas Brueggemann Merge tool for structured object models
US20070294610A1 (en) * 2006-06-02 2007-12-20 Ching Phillip W System and method for identifying similar portions in documents
US20080005148A1 (en) * 2006-06-30 2008-01-03 Rearden Commerce, Inc. Automated knowledge base of feed tags
US7984375B1 (en) * 2006-10-10 2011-07-19 Adobe Systems Incorporated Automated detection and implementation of state and object modifications
US8321197B2 (en) * 2006-10-18 2012-11-27 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
GB0623068D0 (en) * 2006-11-18 2006-12-27 Ibm A client apparatus for updating data
US8918717B2 (en) * 2007-05-07 2014-12-23 International Business Machines Corporation Method and sytem for providing collaborative tag sets to assist in the use and navigation of a folksonomy
US8090747B2 (en) * 2007-05-21 2012-01-03 New York University Method, system, computer-accessible medium and software arrangement for organization and analysis of multiple sets of data
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US20090088997A1 (en) * 2007-09-28 2009-04-02 Hitachi High Technologies Corporation Data processing system
US8126882B2 (en) * 2007-12-12 2012-02-28 Google Inc. Credibility of an author of online content
US8918369B2 (en) * 2008-06-05 2014-12-23 Craze, Inc. Method and system for classification of venue by analyzing data from venue website
US8230325B1 (en) * 2008-06-30 2012-07-24 Amazon Technologies, Inc. Structured document customizable comparison systems and methods
US20100131617A1 (en) * 2008-11-25 2010-05-27 John Osborne Method and system for differential transmission of web page structures
JP5336895B2 (ja) * 2009-03-24 2013-11-06 株式会社日立システムズ ドキュメント管理システムおよびドキュメント管理方法ならびにそのためのプログラム
JP5648236B2 (ja) * 2009-10-22 2015-01-07 大日本法令印刷株式会社 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム
WO2011089683A1 (ja) * 2010-01-19 2011-07-28 富士通株式会社 解析方法、解析装置及び解析プログラム
GB2477307A (en) * 2010-01-28 2011-08-03 Adsensa Ltd Embedding authentication data into an electronic document image
JP2012043047A (ja) * 2010-08-16 2012-03-01 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
US10108590B2 (en) * 2013-05-03 2018-10-23 International Business Machines Corporation Comparing markup language files
US9817804B2 (en) * 2013-09-12 2017-11-14 Wix.Com Ltd. System for comparison and merging of versions in edited websites and interactive applications
WO2015145556A1 (ja) * 2014-03-25 2015-10-01 株式会社 日立製作所 ソフトウェア仕様間依存関係検証装置、及びソフトウェア仕様間依存関係検証方法
JP6631527B2 (ja) 2014-10-08 2020-01-15 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
US10558679B2 (en) * 2016-02-10 2020-02-11 Fuji Xerox Co., Ltd. Systems and methods for presenting a topic-centric visualization of collaboration data
US10783138B2 (en) * 2017-10-23 2020-09-22 Google Llc Verifying structured data
US11314807B2 (en) 2018-05-18 2022-04-26 Xcential Corporation Methods and systems for comparison of structured documents
CN112908487B (zh) * 2021-04-19 2023-09-22 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及***
US20220405499A1 (en) * 2021-06-18 2022-12-22 Jpmorgan Chase Bank, N.A. Method and system for extracting information from a document

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4807182A (en) * 1986-03-12 1989-02-21 Advanced Software, Inc. Apparatus and method for comparing data groups
US5261040A (en) * 1986-07-11 1993-11-09 Canon Kabushiki Kaisha Text processing apparatus
JPH02255964A (ja) * 1989-01-23 1990-10-16 Sumitomo Metal Ind Ltd 文書変更部分の自動識別装置
US5146552A (en) * 1990-02-28 1992-09-08 International Business Machines Corporation Method for associating annotation with electronically published material
US5428529A (en) * 1990-06-29 1995-06-27 International Business Machines Corporation Structured document tags invoking specialized functions
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
CA2067633C (en) * 1991-07-24 1996-10-01 Eric Jonathan Bauer Method and apparatus for accessing a computer-based file system
JP2659896B2 (ja) * 1992-04-29 1997-09-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 構造化文書複製管理方法及び構造化文書複製管理装置
JPH08506911A (ja) * 1992-11-23 1996-07-23 パラゴン、コンセプツ、インコーポレーテッド ファイル・アクセスを行うためにユーザーがカテゴリを選択するコンピュータ・ファイリング・システム
JPH06250895A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 構造化データベースシステム
JP2770715B2 (ja) * 1993-08-25 1998-07-02 富士ゼロックス株式会社 構造化文書検索装置
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents
JP3287679B2 (ja) * 1993-12-28 2002-06-04 キヤノン株式会社 文書処理装置及び方法
JP3444948B2 (ja) * 1993-12-28 2003-09-08 キヤノン株式会社 文書編集装置および文書編集方法
US5787449A (en) * 1994-06-02 1998-07-28 Infrastructures For Information Inc. Method and system for manipulating the architecture and the content of a document separately from each other
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
US5878421A (en) * 1995-07-17 1999-03-02 Microsoft Corporation Information map
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources

Also Published As

Publication number Publication date
EP0747836A1 (de) 1996-12-11
EP0747836B1 (de) 2005-03-16
US6526410B1 (en) 2003-02-25
US5956726A (en) 1999-09-21
JP3724847B2 (ja) 2005-12-07
JPH08329079A (ja) 1996-12-13
US6098071A (en) 2000-08-01
DE69634459D1 (de) 2005-04-21

Similar Documents

Publication Publication Date Title
DE69634459T2 (de) Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten
DE69426714T2 (de) Dokumentverarbeitungsverfahren und Gerät
DE10135445B4 (de) Integriertes Verfahren für das Schaffen einer aktualisierbaren Netzabfrage
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE3650417T2 (de) Informationsaufzeichnungs- und Wiederauffindungssystem.
DE69028592T2 (de) Gerät zur automatischen Generierung eines Index
DE60314806T2 (de) Extrahierung von Information aus strukturierten Dokumenten
DE69722652T2 (de) System und verfahren zum ferngruppieren des inhalts eines historischen kellerspeichers
DE69427848T2 (de) Unterstützungssystem zur Herstellung von Wörterbüchern
DE102005032046A1 (de) Verfahren, System und Computerprogramm-Produkt zum Übertragen von Daten aus einer Dokumentenanwendung in eine Datenanwendung
DE3901485A1 (de) Dokumenten-wiedergewinnungssystem
DE10149693A1 (de) Objekte in einem Computersystem
DE69405622T2 (de) Vorrichtung zur Anpassung einer Benutzerschnittstelle
DE2801610A1 (de) Verfahren zum definieren von anfangswerten fuer die textverarbeitung
DE69425480T2 (de) Dokumentaufbereitungsapparat
DE69131471T2 (de) Textverarbeitungsvorrichtung mit Textformatierung
DE102015115797B4 (de) Verfahren zum Erzeugen von elektronischen Dokumenten
DE69328621T2 (de) Automatisiertes verfahren zur ueberpruefung von patentanmeldungen
DE3546140A1 (de) Blockverarbeitungseinrichtung
DE3714514A1 (de) Vorrichtung und verfahren zur textverarbeitung
DE2613703C2 (de) Schaltungsanordnung zum Übersetzen von Programmtexten
DE3838732A1 (de) Informationsverarbeitungsgeraet
DE19635351C2 (de) Verfahren zur Formatkonvertierung
EP2682866B1 (de) Verfahren zur Umsetzung von Datenformaten
EP4260173A1 (de) System zur erstellung und verwaltung von patentanmeldeentwürfen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee