DE69634459T2

DE69634459T2 - Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten

Info

Publication number: DE69634459T2
Application number: DE69634459T
Authority: DE
Inventors: Yuki Miyamae-ku Aoyama; Junichi Higashino
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-06-05
Filing date: 1996-06-04
Publication date: 2006-01-12
Anticipated expiration: 2016-06-05
Also published as: EP0747836A1; EP0747836B1; US6526410B1; US5956726A; JP3724847B2; JPH08329079A; US6098071A; DE69634459D1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Unterschiedserkennungsverfahren für Buchstabenfolgen in strukturierten Dokumenten und auf ein Gerät für einen Dokumentenprozessor wie zum Beispiel ein Textverarbeitungssystem, das eine Unterschiedsbuchstabenfolge zwischen als elektronische Dateien gespeicherten strukturierten Dokumenten erkennen kann.
Ein strukturiertes Dokument ist definiert als ein Dokument, das darin eingebettet Informationen über die logische Struktur eines Dokuments enthält, das heißt Informationen wie zum Beispiel „Dieser Teil des Dokuments bildet ein Kapitel" oder „Dieser Teil ist ein Titel".
Die Unterschiedserkennung zwischen Dokumenten ist definiert als das Erkennen einer meist übereinstimmenden Kombination von Elementen, die jeweils ein Dokument bilden, einschließlich Absätze, Zeilen und Buchstaben, und das Erkennen nicht übereinstimmender Elemente als Unterschied. Nehmen wir an, zwei Dokumente, deren Unterschied festgestellt werden soll, sind „ABCDEFG" und „ACDAEFH". Wenn die beiden Dokumente anhand ihrer Elemente einschließlich A, B, C, D, E, F, G und H verglichen werden, wird die am meisten übereinstimmende Kombination als „Entsprechung von ACDEF" erkannt. Außerdem wird der Unterschied erkannt in der Form von „B ist gestrichen", „A ist nach D eingefügt" bzw. „G ist in H geändert".
Ein herkömmliches Verfahren zur Unterschiedserkennung ist in JP-A-2-255964 beschrieben, bei dem der Vergleich anhand von Satzzeichen, Zeilen, Wörtern und Buchstaben erfolgt. Nach diesem Verfahren wird eine Buchstabenfolge, die eine in dem Dokument enthaltene logische Struktur darstellt, in der gleichen Weise wie andere Buchstabenfolgen in den Dokumenten verglichen.
Das Erkennen eines Unterschieds in einem strukturierten Dokument mit denselben Mitteln wie bei einem normalen Dokument kann jedoch ungeeignet sein, weil das Ergebnis eventuell nicht mit der logischen Struktur des Dokuments übereinstimmt. Ein Beispiel wird nachstehend erläutert.
Beispiel 1 nach dem Stand der Technik
Unter Bezugnahme auf die in 3A und 3B gezeigten strukturierten Dokumente wird ein Fall erläutert, bei dem Dokumente mit nicht übereinstimmender logischer Struktur bei dem Prozess der Unterschiedserkennung fälschlicherweise einander zugeordnet werden, wodurch es zu einem für den Dokumenteneditor ungeeigneten Erkennungsergebnis kommt.
Die strukturierten Dokumente in 3A und 3B sind in SGML (Standard Generalized Markup Language, ISO 8879) geschrieben, was bedeutet, dass eine in als „Tags" bezeichnete Markierungen wie zum Beispiel <A> und </A> eingeschlossene Buchstabenfolge einer logischen Struktur A zugeordnet sind. Mit anderen Worten, die zwischen „<NAME>" und „</NAME>" eingeschlossene Buchstabenfolge „TARO HEISEI" in 3A entspricht der logischen Struktur „NAME". HTML (Hypertext Markup Language), das im Internet bzw. World Wide Web benutzt wird, ist eine Anwendung von SGML und für die vorliegende Erfindung ebenfalls anwendbar.
Die Markierung für diese logische Struktur wird auch als „Tag" bezeichnet. „<A>" und „</A>" werden daher alternativ als Anfangs- bzw. Ende-Tag bzw. -Markierung bezeichnet.
Das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge zwischen den beiden strukturierten Dokumenten in 3A und 3B nach dem herkömmlichen Verfahren ist in 4A und 4B gezeigt.
4B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 3B im Vergleich zu dem strukturierten Dokument in 3A. 4A zeigt das Ergebnis der Erkennung von Unter schiedsbuchstabenfolgen in dem strukturierten Dokument in 3A im Vergleich zu dem strukturierten Dokument in 3B.
Wie aus 4A und 4B ersichtlich, wird „HEISEI" bei „<NAME>" und „HEISEI" bei „<ÜBERTRAGUNGSDATUM>" nicht als Unterschied erkannt. Dies ist darauf zurückzuführen, dass „HEISEI" übereinstimmte und fälschlicherweise einander zugeordnet wurde. Diese in der logischen Struktur nicht übereinstimmende Entsprechung von „HEISEI" ist für den Dokumenteneditor offensichtlich bedeutungslos.
Beispiel 2 nach dem Stand der Technik
Unter Bezugnahme auf die in 5A und 5B gezeigten strukturierten Dokumente wird ein Fall erläutert, bei dem Buchstabenfolgen bei dem Prozess der Unterschiedserkennung aufgrund des Einfügens einer Dokumentstruktur fälschlicherweise über unterschiedliche Dokumentstrukturen zugeordnet werden, wodurch es zu einem für den Dokumenteneditor ungeeigneten Erkennungsergebnis kommt. 5A zeigt ein strukturiertes Dokument mit Kapitel 1 und 5B ein strukturiertes Dokument mit einem anderen vor Kapitel 1 eingefügten Kapitel.
6A und 6B zeigen ein Beispiel für die Erkennung einer Unterschiedsbuchstabenfolge zwischen den beiden strukturierten Dokumenten in 5A und 5B.
6A und 6B zeigen einen Fall ähnlich wie in 4A und 4B, wobei 6B das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in 5B im Vergleich zu 5A zeigt. 6A hingegen zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in 5A im Vergleich zu 5B.
Wie aus 6A ersichtlich, wird Kapitel 1 in 6A Kapitel 1 und Kapitel 2 in 6B zugeordnet, trotz der Tatsache, dass Kapitel 1 in 6A identisch ist mit Kapitel 2 in 6B. Dies ist ein weiterer für den Dokumenteneditor ungeeigneter Fall.
Das doppelte Vorkommen derselben Buchstabenfolge „STRUCTURED DOCUMENT" in 5B im Gegensatz zu 5A führt zu der fehlerhaften Entscheidung in 6B, dass das erste Vorkommen von „STRUCTURED DOCUMENT" übereinstimmend ist, während das zweite Vorkommen von „STRUCTURED DOCUMENT" nicht übereinstimmend ist, so dass das zweite „STRUCTURED DOCUMENT" als Unterschied erkannt wird. Dies gilt für alle nachfolgenden Fälle der Unterschiedserkennung.
Beispiel 3 nach dem Stand der Technik
Unter Bezugnahme auf die in 7A und 7B gezeigten strukturierten Dokumente wird ein Fall erläutert, bei dem Unterschiede in den Markierungen zur Angabe der logischen Struktur eines Dokuments es trotz der identischen logischen Bedeutung der Dokumente unmöglich machen, den Inhalt der Dokumente einander zuzuordnen, wodurch die Erkennung für den Dokumenteneditor ungeeignet ist.
In 7A und 7B ist ein Tag bzw. eine Markierung <ERSTER PUNKT> nur dem Punkt zugeordnet, der als erster erscheint, trotz der Tatsache, dass die logische Bedeutung des Dokuments unverändert bleibt, und der Angabe „PUNKT".
8A und 8B zeigen den Fall, bei dem Unterschiedsbuchstabenfolgen zwischen den beiden strukturierten Dokumenten in 7A und 7B nach dem herkömmlichen Verfahren erkannt werden.
8A und 8B zeigen einen Fall ähnlich wie in 4A und 4B, wobei 8B das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in 7B im Vergleich zu 7A zeigt, während 8A das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in 7A im Vergleich zu 7B zeigt.
Aus 8A und 8B ist ersichtlich, dass die Vorkommen von „ERSTER PUNKT" einander zugeordnet werden und dass die zugehörigen Buchstabenfolgen als deren Inhalte miteinander verglichen werden. Die logische Bedeutung von „ERSTER PUNKT" und „PUNKT" ist für den Dokumenteneditor gleich, weshalb die Inhalte der Markierungen mit Vorrang gegenüber den Markierungen zugeordnet werden müssen.
Bei der Unterschiedserkennung zwischen strukturierten Dokumenten müssen diese unter Berücksichtigung der logischen Bedeutung und der Struktur der strukturierten Dokumente miteinander verglichen werden. Diese Anforderung wird von dem herkömmlichen Verfahren, bei dem Buchstabenfolgen zur Angabe einer logischen Struktur in ähnlicher Weise wie andere Buchstabenfolgen in dem Dokument verglichen werden, nicht erfüllt.
In „Identifying syntactic differences between two programs", erschienen in Software Practice and Experience, Bd. 21, Nr. 7, S. 739 bis 755, von Wuu Yang, wird vorgeschlagen, die Unterschiede zwischen zwei Programmcodes unter Berücksichtigung der grammatikalischen Syntax der Programmiersprache zu erkennen. Dabei wird jedoch nicht auf Tags, Markierungen oder eine Auszeichnungssprache bzw. Markup Language verwiesen.
ZUSAMMENFASSUNG DER ERFINDUNG
Ein Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens und eines Geräts zur Erkennung einer Unterschiedsbuchstabenfolge zwischen strukturierten HTML- oder SGML-Dokumenten in einer für das linguistische Verständnis des Dokumenteneditors geeigneten Art und Weise.
Ein anderes Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens und eines Geräts zur Steuerung des Editierens eines strukturierten Dokuments für ein Dokumentenverarbeitungssystem, das in der Lage ist, das Editieren auf der Grundlage des Vergleichs und der Unterscheidung der logischen Strukturen von strukturierten Dokumenten zu steuern.
Um die vorstehend genannten Ziele zu erreichen, werden ein Erkennungsverfahren für Unterschiede in strukturierten Dokumenten nach Anspruch 1 und ein Gerät zur Erkennung von Unterschieden in strukturierten Dokumenten nach Anspruch 4 bereitgestellt. Die Unteransprüche beziehen sich auf bevorzugte Ausführungsformen derselben.
Die Vergleichskriterien umfassen Markierungen zur Angabe logischer Strukturen und Typen von Vergleichskriterien entsprechend den Markierungen, deren Inhalte in einer Tabelle gespeichert sind.
Die Markierungen sind so definiert, dass sie einem der folgenden vier Typen von Vergleichskriterien entsprechen:

(1) Markierungen mit Inhalten, die nur verglichen werden, falls die einzelnen Markierungen untereinander übereinstimmen (Identitäts-Markierungen),
(2) Markierungen mit Inhalten, deren Unterschied während des Vergleichs ignoriert wird (Ignorierungs-Markierungen),
(3) einem Satz Markierungen mit gleicher logischer Bedeutung (Äquivalenz-Markierungen, wie zum Beispiel „ERSTER PUNKT" und „PUNKT"),
(4) einem Satz Markierungen mit Inhalten, die nicht miteinander verglichen werden (Nichtvergleichs-Markierungen).

Weiterhin wird ein die Struktur jedes strukturierten Dokuments darstellender Dokumentbaum erzeugt, und der Unterschied zwischen den strukturierten Dokumenten wird durch Vergleich zwischen den Knoten der jeweiligen Dokumentbäume erkannt. Im Falle von nicht übereinstimmenden Knoten wird der Unterschied zwischen den Knoten durch Vergleich zwischen den Buchstaben der Knoten erkannt.
Darüber hinaus wird bei der Erzeugung eines die Struktur jedes Dokuments darstellenden Dokumentbaums bzw. einer Hierarchie die Zuordnung der Knoten der Dokumentbäume entsprechend dem vorstehend beschriebenen Vergleichskriterium geändert.
Mit den vorstehend beschriebenen Lösungen werden strukturierte Dokumente editiert, die logische Struktur der editierten strukturierten Dokumente wird mit der Einrichtung zum Analysieren strukturierter Dokumente analysiert, ein Vergleichskriterium zur Erkennung des Unterschieds gemäß der logischen Struktur wird im Voraus festgelegt, und eine Unterschiedsbuchstabenfolge zwischen den strukturierten Dokumenten vor und nach der Editierung wird so erkannt, dass das Vergleichskriterium erfüllt ist. Der relevantere Unterschied entsprechend dem linguistischen Verständnis des Editors kann daher automatisch gemäß der logischen Struktur erkannt werden.
Außerdem wird der Unterschied zwischen Dokumentbäumen knotenweise erkannt, während der Unterschied zwischen nicht übereinstimmenden Knoten buchstabenweise erkannt wird, so dass eine fehlerhafte Erkennung des Unterschieds über unterschiedliche Strukturen hinweg vermieden werden kann.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Blockdiagramm für den Aufbau nach einer Ausführungsform der vorliegenden Erfindung.
2A zeigt ein Ablaufdiagramm der Verarbeitungsschritte nach einer Ausführungsform der Erfindung.
2B zeigt ein Ablaufdiagramm eines detaillierten Beispiels der in 2A gezeigten Schritte zur Erzeugung eines Dokumentbaums.
3A und 3B sind Diagramme, die ein erstes Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
4A und 4B sind Diagramme, die das erste Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
5A und 5B sind Diagramme, die ein zweites Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
6A und 6B sind Diagramme, die das zweite Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
7A und 7B sind Diagramme, die ein drittes Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
8A und 8B sind Diagramme, die das dritte Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
9 zeigt ein Beispiel einer Vergleichskriterientabelle für das erste Beispiel für strukturierte Dokumente nach der vorliegenden Erfindung.
10A und 10B sind Diagramme der aus dem in 3A und 3B gezeigten ersten Beispiel für strukturierte Dokumente vor und nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 9 erzeugten Dokumentbäume.
10C zeigt ein Ablaufdiagramm für das Verfahren zur Erzeugung eines Dokumentbaums in 10A.
11A und 11B sind Diagramme, die das erste Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 9 zeigen.
12 zeigt ein Beispiel einer Vergleichskriterientabelle für das in 5 gezeigte zweite Beispiel für strukturierte Dokumente.
13A und 13B sind Diagramme der aus dem in 5A bzw. 5B gezeigten zweiten Beispiel für strukturierte Dokumente vor und nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 12 erzeugten Dokumentbäume.
14A und 14B sind Diagramme, die das in 5A und 5B gezeigte zweite Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 12 zeigen.
15 zeigt ein Beispiel einer Vergleichskriterientabelle für ein in 7A und 7B gezeigtes drittes Beispiel für strukturierte Dokumente.
16A und 16B sind Diagramme der aus dem in 7A bzw. 7B gezeigten dritten Beispiel für strukturierte Dokumente vor und nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 15 erzeugten Dokumentbäume.
17A und 17B sind Diagramme, die das in 7A und 7B gezeigte dritte Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 15 zeigen.
18A und 18B sind Diagramme, die ein viertes Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren zeigen.
19 zeigt ein Beispiel einer Vergleichskriterientabelle für das in 18 gezeigte vierte Beispiel für strukturierte Dokumente.
20A und 20B sind Diagramme der aus dem in 18 gezeigten vierten Beispiel für strukturierte Dokumente vor bzw. nach dem Editieren auf der Grundlage der Vergleichskriterientabelle in 19 erzeugten Dokumentbäume.
21A und 21B sind Diagramme, die das in 18 gezeigte vierte Beispiel für strukturierte Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle in 19 zeigen.
22 zeigt ein Ablaufdiagramm einer weiteren Ausführungsform der Erfindung.
23A und 23B sind Diagramme, die ein Beispiel für einen Vergleich der zu vergleichenden Dokumente nach der Ausführungsform in 22 zeigen.
24A und 24B sind Diagramme, die ein Beispiel für das Ergebnis eines Vergleichs zwischen den strukturierten Dokumenten in 23A bzw. 23B zeigen.
25 ist ein Diagramm, das ein Beispiel für ein strukturiertes Dokument zur Veranschaulichung der Unterschiedsdaten zwischen strukturierten Dokumenten zeigt.
26A und 26B sind Diagramme, die ein Beispiel für die Bildschirmanzeige von strukturierten Dokumenten vor bzw. nach dem Editieren zeigen.
27 ist ein Diagramm, das ein Beispiel für die Bildschirmanzeige von Unterschiedsdaten zwischen strukturierten Dokumenten zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Ausführungsformen der Erfindung werden nachstehend anhand der anliegenden Zeichnungen beschrieben.
1 zeigt den Aufbau nach einer Ausführungsform der Erfindung.
In 1 bezeichnet das Bezugszeichen 101 einen Prozessor (CPU), das Bezugszeichen 102 ein Terminal mit einem Ein- und Ausgabegerät, einem Anzeigegerät und einem Programmspeicher-Ladegerät 103A, in dem ein Speichermedium für Verarbeitungsprogramme wie zum Beispiel eine Diskette oder dergleichen installiert ist, und das Bezugszeichen 103 eine Speichereinheit zum Speichern von Dokumenten und/oder Verarbeitungsprogrammen, die als alternativer Programmspeicher anstelle der Diskette dienen kann. Der Prozessor 101 weist darin ausführbar ein Dokument-Editierprogramm 104 zum Editieren von Dokumenten, ein Analyseprogramm 105 für strukturierte Dokumente zur Umwandlung jedes strukturierten Dokuments in eine Baumkonfiguration, ein Unterschiedserkennungsprogramm 106 für strukturierte Dokumente zum Erkennen der nicht übereinstimmenden Teile der strukturierten Dokumente als Unterschied sowie eine Vergleichskriterientabelle 107 zum Speichern von Vergleichskriterien für die Erkennung von Unterschiedsbuchstabenfolgen auf. Diese Programme können dem Prozessor 101 in einer Form zugeführt werden, die im Voraus auf der Diskette gespeichert worden ist.
Jedes des strukturierten Dokumente nach dieser Ausführungsform hat die Form eines SGML-Dokuments. SGML ist, wie vorstehend beschrieben, definiert als eine Dokumentbeschreibungssprache nach einer weltweiten ISO-Norm für markierte strukturierte Dokumente. SGML-Dokumente haben eine logische Struktur, die im Voraus durch die Dokumenttypdefinition (DTD) festgelegt ist. Dennoch ist zu beachten, dass die vorliegende Ausführungsform auch für die Verarbeitung von strukturierten Dokumenten mit einer ähnlichen Funktion wie SGML anwendbar ist.
Die spezifischen Verarbeitungsschritte nach der vorliegenden Ausführungsform werden anhand der Ablaufdiagramme in 2A und 2B beschrieben.
Schritt 201:
Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert, d.h. bearbeitet.
Schritt 202:
Die Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente wird in den Arbeitsbereich des Prozessors 101 eingelesen.
Bei Fehlen einer Vergleichskriterientabelle entsprechend der DTD der SGML-Dokumente wird eine geeignete Tabelle erstellt und im Voraus eingegeben.
Diese Vergleichskriterientabelle enthält Markierungen, die den folgenden vier Kriterien entsprechen:

(1) Identitäts-Markierungen: Hierbei handelt es sich um verschiedene Markierungen, die es ermöglichen, deren jeweilige Inhalte, das heißt die zwischen den jeweiligen Anfangs- und Ende-Markierungen eingebetteten Buchstaben, nur dann miteinander zu vergleichen, wenn die Markierungspaare miteinander übereinstimmen.
(2) Ignorierungs-Markierungen: Hierbei handelt es sich um Markierungen mit Inhalten, deren Unterschied während des Vergleichs ignoriert wird.
(3) Äquivalenz-Markierungen: Hierbei handelt es sich um einen Satz scheinbar unterschiedlicher Markierungen mit gleicher logischer Bedeutung.
(4) Nichtvergleichs-Markierungen: Hierbei handelt es sich um einen Satz von Markierungen, die den Vergleich der jeweiligen Inhalte negieren.

Schritt 203:
Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 in 2A werden die strukturierten Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente unter Bezugnahme auf die Vergleichskriterientabelle 107 analysiert, um so die Dokumentbäume zu erzeugen. Die Schritte eines Analyseprogramms für strukturierte Dokumente sind im Detail in 2B gezeigt.
In diesem Verfahren werden die jedem Knoten des Dokumentbaums zugeordneten Elemente entsprechend der wie folgt festgelegten Regeln bestimmt:

Regel 1: Zuordnen jeder Markierung zu einem Knoten.
Regel 2: Zuordnen der zwischen einer Anfangs- und einer Ende-Markierung eingebetteten Buchstabenfolgen zu einem Unterknoten der Anfangs-Markierung.
Regel 3: Zuordnen jeder Ende-Markierung zu einem Unterknoten der zu der betreffenden Ende-Markierung gehörenden Anfangs-Markierung.
Regel 4: Zuordnen der zwischen Identitäts-Markierungen eingebetteten Buchstabenfolgen zu einem einzelnen Knoten, zusammen mit dessen Anfangs- und Ende-Markierungen.
Regel 5: Nicht-Zuordnen von Ignorierungs-Markierungen und der zwischen den Ignorierungs-Markierungen eingebetteten Buchstabenfolgen zu irgendeinem Knoten.
Regel 6: Zuordnen von Äquivalenz-Markierungen zu Knoten durch Umwandeln von deren scheinbar unterschiedlichen Namen in einen identischen Markierungsnamen.

Schritt 204:
Die mit den oben genannten Schritten erzeugten Dokumentbäume werden knotenweise miteinander verglichen, und der Unterschied wird knotenweise erkannt. Handelt es sich bei den zu vergleichenden Markierungen um Nichtvergleichs-Markierungen, werden die betreffenden Knoten und untergeordneten Knoten (Unterknoten) nicht verglichen.
Schritt 205:
Der Unterschied wird dieses Mal buchstabenweise nur für die als nicht übereinstimmend befundenen Knoten erkannt.
Für einen Knoten mit einer Identitäts-Markierung erfolgt der buchstabenweise Vergleich jedoch nur, wenn das eine Markierung des Knotens darstellende führende Zeichen (bzw. die Zeichenfolge) übereinstimmt. Die Ignorierungs-Markierungen, die in Schritt 204 nicht verglichen wurden, werden im vorliegenden Schritt verglichen.
Schritt 206:
Das Ergebnis der Unterschiedserkennung in Schritt 205 wird auf der Anzeigeeinrichtung des Terminals 102 angezeigt (Schritt 206A). Gleichzeitig kann das Unterschiedsergebnis auch parallel zu der Anzeigeeinrichtung einer Einrichtung zur Nutzung von Unterschiedsdaten zugeführt werden. Der Prozessor 101 kann automatisch Prozesse wie das Aktualisieren und Überarbeiten von relevanten Parametern gemäß dem Unterschiedsergebnis ausführen. Diese Funktionen können als eine Überprüfung angesehen werden. 2B zeigt das Verfahren zum Analysieren von strukturierten Dokumenten in den Schritten 301 bis 311.
Verarbeitungsbeispiel 1
Ein spezifisches Beispiel für die Verarbeitung nach der Ausführungsform mit einer Identitäts-Markierung wird nachstehend anhand der Beispieldokumente in 3A und 3B beschrieben.
Schritt 201:
Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert (1). Es wird angenommen, dass das Dokument in 3B durch Editieren des Dokuments in 3A erhalten wurde.
Schritt 202:
Die Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente wird in den Prozessor 101 eingelesen.
Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird zuerst eine geeignete Tabelle erzeugt und eingegeben.
Eine Vergleichskriterientabelle wie zum Beispiel in 9 wird aus 3A und 3B erzeugt. Im Einzelnen sind „<NAME>" und „<ÜBERTRAGUNGSDATUM>" als Identitäts-Markierungen definiert, was bedeutet, dass die Buchstabenfolgen nur verglichen werden, wenn die Markierungen zwischen den zu vergleichenden Dokumenten übereinstimmen.
Schritt 203:
Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 werden die miteinander zu vergleichenden strukturierten Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente unter Bezugnahme auf die Vergleichskriterientabelle 107 analysiert, um so die zugehörigen Dokumentbäume zu erzeugen.
Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 10A und 10B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 9 aus den strukturierten Dokumenten in 3A bzw. 3B erzeugt.
Die strukturierten Dokumente 1001 und 1002 in 10A und 10B weisen Identitäts-Markierungen auf, weshalb die Markierungen und deren Buchstabeninhalte nach Regel 4 kollektiv einem einzigen Knoten zugeordnet werden. Das Verfahren zum Erzeugen der Dokumentbäume in 10A und 10B für die Unterschiedserkennung ist als die Schritte 401 bis 406 in 10C gezeigt.
Schritt 204:
Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
Weil der Vergleich knotenweise erfolgt, werden „<NAME>" und „<ÜBERTRAGUNGSDATUM>", bei denen es sich um Identitäts-Markierungen handelt, einander nicht zugeordnet, so lange die jeweiligen Markierungen und die Buchstabenfolgen ihrer Inhalte miteinander übereinstimmen. In diesem Fall werden wegen der Nichtübereinstimmung zwischen den Markierungen 1001 und 1002 sowohl die Markierungen als auch deren Inhalte als Unterschied erkannt.
Schritt 205:
Der Unterschied zwischen nicht übereinstimmenden Knoten wird buchstabenweise erkannt. Knoten mit einer Identitäts-Markierung werden jedoch nur dann buchstabenweise verglichen, wenn die führende Buchstabenfolge, die jede der Markierungen der jeweiligen Knoten darstellt, übereinstimmt. Schritt 206:
Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 3A und 3B ist in 11 gezeigt.
11B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 3B im Vergleich mit dem strukturierten Dokument in 3A. 11A hingegen zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 3A im Vergleich mit dem strukturierten Dokument in 3B.
In 11B stimmen die Markierungen „<NAME>" und „<ÜBERTRAGUNGSDATUM>" der Knoten 1001 und 1002 nicht überein, weshalb die Buchstabenfolge „<ÜBERTRAGUNGSDATUM> NOVEMBER 20, SIXTH YEAR OF HEISEI </ÜBERTRAGUNGSDATUM>" (20. November, 6. Jahr von Heisei) in Knoten 1002 in ihrer Gesamtheit als Unterschied erkannt wird. Weil 3A keine Beschreibung von „ARE YOU FINE?" in 3B enthält, wird auch „ARE YOU FINE?" als Unterschied erkannt.
Wenn die Unterschiedserkennung nach den vorstehend beschriebenen Schritten ausgeführt wird, so lange eine Markierung mit Buchstaben, deren Vergleich bedeutungslos ist, bei Fehlen einer Markierungs-Übereinstimmung als Identitäts-Markierung eingegeben wird, werden strukturierte Dokumente mit nicht übereinstimmender logischer Struktur einander nicht zugeordnet. Somit kann dem Editor ein besser geeignetes Ergebnis der Unterschiedserkennung zugeführt werden.
Verarbeitungsbeispiel 2
Die in 5A und 5B gezeigten Beispieldokumente werden als ein zweites spezifisches Verfahren nach der Ausführungsform unter Bezugnahme auf den Fall mit einer Identitäts-Markierung und einer Ignorierungs-Markierung sowie einer Strukturverschiebung beschrieben.
Schritt 201:
Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert. Es wird angenommen, dass das Dokument in 5B durch Editieren des Dokuments in 5A erhalten wurde.
Schritt 202:
In diesem Schritt wird die Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente gelesen.
Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird eine geeignete Tabelle erzeugt und eingegeben. Im Fall von 5A und 5B wird zum Beispiel eine Vergleichskriterientabelle wie in 12 erzeugt. Hierin ist „<NAME DES AUTORS>" als eine Identitäts-Markierung definiert. In diesem Fall werden, wie oben beschrieben, die Buchstabenfolgen nur dann miteinander verglichen, wenn die Markierungen übereinstimmen. Außerdem ist „<KAPITELNUMMER>" als eine Ignorierungs-Markierung definiert. In diesem Fall wird der Unterschied in der Kapitelnummer ignoriert, weil sie keinen Einfluss auf die Unterschiedserkennung hat.
Schritt 203:
Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 werden die SGML-Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente analysiert, und die zugehörigen Dokumentbäume werden unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 13A und 13B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 12 aus den strukturierten Dokumenten in 5A bzw. 5B erzeugt. „<KAPITELNUMMER>" als eine Ignorierungs-Markierung wird nach der vorstehenden Regel 5 nicht als ein Knoten zugeordnet.
Schritt 204:
Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
Die Ignorierungs-Markierungen, die nicht als Knoten ausgewiesen sind, werden nicht verglichen und haben keinen Einfluss auf dem gesamten Prozess der Unterschiedserkennung.
Schritt 205:
Der Unterschied zwischen nicht übereinstimmenden Knoten wird anhand der Buchstabenfolgen erkannt. Die Ignorierungs-Markierungen und deren Inhalte, die in Schritt 204 nicht verglichen wurden, werden ebenfalls in diesem Schritt verglichen.
Schritt 206:
Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 5A und 5B ist in 14A und 14B gezeigt. 14B zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 5B im Vergleich mit dem strukturierten Dokument in 5A. 14A hingegen zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 5A im Vergleich mit dem strukturierten Dokument in 5B.
Nachstehend wird der Fall erläutert, bei dem der Unterschied aus dem strukturierten Dokument in 5B im Vergleich mit dem strukturierten Dokument in 5A erkannt und das in 14B gezeigte Ergebnis der Erkennung der Unterschiedsbuchstabenfolge erhalten wird.
Bei der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in Schritt 204 werden „<ABHANDLUNG>", „</ABHANDLUNG>", „<NAME DES AUTORS> TARO HEISEI </NAME DES AUTORS>" und „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION METHOD </KAPITEL>" (Erkennungsverfahren für Unterschiede in strukturierten Dokumenten) in 13A und 13B als übereinstimmend erkannt, so dass sie in 14B als übereinstimmende Teile gezeigt sind.
Weil in Schritt 204 entschieden wird, dass „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION METHOD </KAPITEL>" übereinstimmt, entscheidet Schritt 205, dass die zu dem übereinstimmenden Teil gehörenden Angaben „<KAPITELNUMMER> und </KAPITELNUMMER>" ebenfalls übereinstimmen. Andererseits wird „CHAPTER 2" (Kapitel 2), das nicht mit „CHAPTER 1" (Kapitel 1) übereinstimmt, als Unterschied erkannt und angezeigt, wie in 14B gezeigt.
Ebenfalls aufgrund der Entscheidung in Schritt 204, dass „<KAPITEL> WHAT IS STRUCTURED DOCUMENT? </KAPITEL>" in 13B nicht übereinstimmt, werden diese Angabe „<KAPITEL> WHAT IS STRUCTURED DOCUMENT? </KAPITEL>" und das zu dem betreffenden nicht übereinstimmenden Teil gehörende „<KAPITELNUMMER> CHAPTER 1 </KAPITELNUMMER>" als Unterschied erkannt und angezeigt, wie in 14B gezeigt.
Bei der Unterschiedserkennung nach den vorstehend beschriebenen Schritten werden die Dokumentbäume knotenweise, das heißt nach ihrer Struktur, verglichen, und deshalb werden in diesem Prozess zum Beispiel die Knoten 1301 und 1302 einander zugeordnet. Folglich ist zu erkennen, dass eine fälschliche Zuordnung über unterschiedliche Strukturen, wie in 6 gezeigt, nicht geschehen kann. Weil der knotenweise Vergleich der Dokumentbäume keinen Vergleich von Ignorierungs-Markierungen einschließt, werden eventuelle Unterschiede im Inhalt der Ignorierungs-Markierungen so behandelt, als haben sie keinen Einfluss auf den Unterschiedserkennungsprozess als Ganzes.
Verarbeitungsbeispiel 3
Ein drittes spezifisches Verarbeitungsbeispiel nach einer Ausführungsform mit einer Identitäts-Markierung und einer Äquivalenz-Markierung wird nachstehend anhand der Beispieldokumente in 7A und 7B beschrieben.
Schritt 201:
Die strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert. Es wird angenommen, dass das Dokument in 7B durch Editieren des Dokuments in 7A erhalten wurde.
Schritt 202:
In diesem Schritt wird eine Vergleichskriterientabelle 107 entsprechend der DTD der zu vergleichenden SGML-Dokumente gelesen.
Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird eine geeignete Tabelle erzeugt und eingegeben. Im Fall von 7A und 7B wird eine Vergleichskriterientabelle wie in 15 erzeugt. Mit anderen Worten, „<NAME DES AUTORS>" ist als eine Identitäts-Markierung definiert. In diesem Fall werden, so lange bestimmte Markierungen nicht übereinstimmen, die zu diesen gehörenden Buchstabenfolgen einander nicht zugeordnet. Außerdem sind „<PUNKT>" und „<ERSTER PUNKT>" als Äquivalenz-Markierungen definiert. In letzterem Fall werden „<PUNKT>" und „<ERSTER PUNKT>" so behandelt, als hätten sie dieselbe logische Struktur.
Schritt 203:
Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 werden die SGML-Dokumente von dem Analyseprogramm 105 für strukturierte Dokumente analysiert, und die Dokumentbäume werden unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 16A und 16B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 15 aus den strukturierten Dokumenten in 7A bzw. 7B erzeugt.
Die Knoten 1601, 1602 und 1603 in 16 werden nach Regel 6 in denselben Markierungsnamen umgewandelt.
Schritt 204:
Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt. Die Äquivalenz-Markierungen erhalten denselben Markierungsnamen und werden daher nicht als Unterschied erkannt.
Schritt 205:
Nur die Markierungen, die als nicht miteinander übereinstimmend befunden wurden, werden erkannt, dieses Mal buchstabenweise.
Schritt 206:
Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 7A und 7B ist in 17A und 17B gezeigt.
17B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 7B im Vergleich mit dem strukturierten Dokument in 7A, und 17A zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument in 7A im Vergleich mit dem strukturierten Dokument in 7B.
Nachstehend wird der Fall erläutert, bei dem der Unterschied aus dem strukturierten Dokument in 7B im Vergleich mit dem strukturierten Dokument in 7A erkannt und das in 17B gezeigte Ergebnis der Erkennung erhalten wird.
Bei der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in Schritt 204 wird entschieden, dass „<ABHANDLUNG>", „</ABHANDLUNG>", „<NAME DES AUTORS> TARO HEISEI </NAME DES AUTORS" und „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION METHOD </KAPITEL>" in 16A und 16B übereinstimmen, so dass sie in 17B als übereinstimmende Teile gezeigt sind.
Aufgrund der Entscheidung in Schritt 204, dass „<PUNKT> WHAT IS STRUCTURED DOCUMENT? </PUNKT>" (Was sind strukturierte Dokumente?) nicht übereinstimmt, wird in Schritt 205 der Unterschied des nicht übereinstimmenden Teils buchstabenweise erkannt, so dass „<PUNKT> WHAT IS STRUCTURED DOCUMENT? </PUNKT>" als Unterschied erkannt und angezeigt wird, wie in 17B gezeigt.
Nach Durchführung der Unterschiedserkennung gemäß den vorstehend beschriebenen Schritten werden die Dokumente mit derselben logischen Struktur als übereinstimmend erkannt, trotz des unterschiedlichen Markierungsnamens.
Verarbeitungsbeispiel 4
Ein viertes spezifisches Verarbeitungsbeispiel nach einer Ausführungsform mit einer Nichtvergleichs-Markierung wird nachstehend anhand der Dokumente in 18A und 18B beschrieben.
Schritt 201:
Ein strukturiertes Dokument wird mit dem Dokument-Editierprogramm 104 editiert. Es wird angenommen, dass das Dokument in 18B durch Editieren des Dokuments in 18A erhalten wurde.
Schritt 202:
Eine Vergleichskriterientabelle 107 wird eingelesen, die der DTD des zu vergleichenden SGML-Dokuments entspricht.
Bei Fehlen einer entsprechenden Vergleichskriterientabelle wird eine geeignete Tabelle erzeugt und eingegeben. Im Fall von 18A und 18B wird zum Beispiel eine Vergleichskriterientabelle wie in 19 erzeugt. Mit anderen Worten, es wird angenommen, dass „<ABSENDER>" und „<EMPFÄNGER>" eine Nichtvergleichs-Markierung aufweisen. In diesem Fall werden „<ABSENDER>" und „<EMPFÄNGER>" nicht inhaltlich verglichen.
Schritt 203:
Nach dem Aufrufen des Unterschiedserkennungsprogramms 106 wird das SGML-Dokument von dem, Analyseprogramm 105 für strukturierte Dokumente analysiert, und ein Dokumentbaum wird unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
Durch Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln werden die in 20A und 20B gezeigten Dokumentbäume durch Bezugnahme auf die Vergleichskriterientabelle in 19 aus den Dokumenten in 18A bzw. 18B erzeugt.
Schritt 204:
Der Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt. „<ABSENDER>" und „<EMPFÄNGER>" weisen Nichtvergleichs-Markierungen auf, weshalb die untergeordneten Knoten, das heißt die Unterknoten „<ORGANISATION>" und „<NAME>", nicht miteinander verglichen werden.
Schritt 205:
Der Unterschied nur zwischen den Knoten, die nicht miteinander übereinstimmen, wird erkannt, dieses Mal buchstabenweise.
Schritt 206:
Der als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
Ein Beispiel für das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 18A und 18B ist in 21 gezeigt.
21B zeigt das Ergebnis der Erkennung der Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 18B im Vergleich mit dem strukturierten Dokument in 18A, und 21A zeigt das Ergebnis der Erkennung der Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 18A im Vergleich mit dem strukturierten Dokument in 18B.
Nachstehend wird der Fall erläutert, bei dem der Unterschied aus dem strukturierten Dokument in 18B im Ver gleich mit dem strukturierten Dokument in 18A erkannt und das in 21B gezeigte Ergebnis der Erkennung der Unterschiedsbuchstabenfolge erhalten wird.
Bei der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in Schritt 204 wird entschieden, dass, wie in 18A und 18B gezeigt, „<MEMO>", „</MEMO>", „<TEXT>" und „</TEXT>" miteinander übereinstimmen, während „<EMPFÄNGER>", „</EMPFÄNGER>" und der Inhalt einschließlich „<ORGANISATION> 00 BANK </ORGANISATION>" und „<NAME> TARO HEISEI </NAME>" als Unterschied erkannt werden, weil „<ABSENDER>" und „<EMPFÄNGER>" Nichtvergleichs-Markierungen sind. „HELLO. ARE YOU FINE?" (Hallo. Geht es Ihnen gut?) wird als nicht übereinstimmend erkannt.
Aufgrund der Nichtübereinstimmungs-Entscheidung zu „HELLO. ARE YOU FINE?" in Schritt 204, erkennt Schritt 205 den Unterschied für den nicht übereinstimmenden Teil buchstabenweise, so dass „HELLO. ARE YOU FINE?" als Unterschied erkannt wird.
Folglich wird das in 21B gezeigte Dokument angezeigt.
Bei der Unterschiedserkennung gemäß den vorstehend beschriebenen Schritten werden, nachdem Markierungen, deren Inhalte nicht verglichen werden, als Nichtvergleichs-Markierungen eingegeben sind, untergeordnete Knoten (Unterknoten) nicht verglichen, und daher erfolgt keine Zuordnung der in „<ABSENDER>" und „<EMPFÄNGER>" enthaltenen Organisationen und Namen, wodurch dem Editor ein besser geeignetes Ergebnis der Unterschiedserkennung zugeführt werden kann.
Eine andere Ausführungsform der Erfindung ist in 22 gezeigt. Die Unterschiedsinformation, die als Änderung zwischen strukturierten Dokumenten vor und nach dem Editieren mit dem in den vorstehend beschriebenen Ausführungsformen offen gelegten Verfahren erkannt wird, weist die folgenden von einem Vergleich zwischen nicht strukturierten Dokumenten abweichenden Merkmale auf:

(1) Es geht sowohl um die Änderung der Struktur an sich als auch um die Änderung der Buchstabenfolgen in der Struktur.
(2) Die Unterschiedsinformation hat eine logische Struktur. Dies wird anhand der strukturierten Dokumente in 23A und 23B beschrieben.

24A zeigt ein Ergebnisbeispiel für den Vergleich eines strukturierten Dokuments a vor dem Editieren mit einem strukturierten Dokument a' nach dem Editieren in 23A bzw. 23B. Die Positionen 1 (601) und 3 (603) stellen ein Beispiel dar, bei dem die Buchstabenfolgen in einer Struktur geändert worden sind, ohne die Dokumentstruktur zu ändern, einschließlich „<NAME>" und „<TEXT>". Position 2 (602) zeigt ein Beispiel, bei dem die Struktur für „<ORGRNISATION>" neu eingefügt worden ist.
Als Nächstes wird ein Beispiel erläutert, bei dem die Unterschiedsinformation zwischen strukturierten Dokumenten eine logische Struktur aufweist. Die Positionen 1 (601) und 3 (603) stellen zum Beispiel eine Änderung in der Buchstabenfolge dar. Wenn die Unterschiedsinformation durch Angabe einer Struktur ausgedrückt werden soll, zum Beispiel um anzugeben, dass die Änderung der Buchstabenfolge in der Struktur von „<NAME>" bzw. „<TEXT>" erfolgt ist, müssen die Unterschiedsdaten Strukturinformationen aufweisen. Außerdem weist die Position 2 (602) die Strukturinformation auf, dass die eingefügte Angabe „<ORGANISATION>", die im Rahmen der logischen Struktur „<ABSENDER>" liegt, eine Unterstruktur von „<ABSENDER>" ist.
Nach dem Verfahren nach dem Stand der Technik konnten diese Merkmale der Unterschiedsdaten von strukturierten Dokumenten jedoch nicht sinnvoll angezeigt werden. Nach dem bisher üblichen Verfahren, wird dies, selbst wenn es sich um eine Änderung der Information in Bezug auf die logische Struktur eines Dokuments handelt, durch Ändern des Anzeigeattributs der Buchstaben zur Angabe der Struktur angezeigt, ohne dass gegenüber einer Änderung in der Buchstabenfolge unterschieden wird. Das sich daraus ergebende Problem be steht darin, dass es für den Benutzer schwierig ist, festzustellen, ob die Struktur oder der Inhalt der Struktur geändert worden ist. Dieses Problem wird anhand eines spezifischen Beispiels beschrieben. 24B zeigt ein Beispiel für eine Anzeige von Unterschiedsdaten nach einem Vergleichsbeispiel aus JP-A-7-200370. Bei diesem Anzeigeverfahren werden die Strukturinformationen ignoriert, ohne die Änderung einer Struktur von einer Änderung einer Buchstabenfolge in der Struktur zu unterscheiden. Folglich kann der Benutzer, der das strukturierte Dokument mit Hilfe von Dokumentbearbeitungs-Software oder dergleichen editiert, die eigentliche Änderung nicht ohne weiteres erkennen. Auch wenn die Dokumentbearbeitungs-Software oder dergleichen ein eigenes Anzeigeprogramm zur Darstellung der Strukturinformation in einem Baum zur Anzeige eines strukturierten Dokuments benutzt, ist ein getrenntes Anzeigeprogramm zur Anzeige der Unterschiedsdaten erforderlich, wie in 24A und 24B gezeigt, wodurch das Programm unnötig kompliziert wird.
Die Ausführungsform in 22 unterscheidet sich von der Ausführungsform in 1, bei der die geänderten Teile zwischen strukturierten Dokumenten auf der Grundlage von logischen Strukturinformationen erkannt werden, darin, dass Schritt 507 zum Anzeigen und Speichern (Editieren) der Unterschiedsinformation aus einem Schritt 505 zur Ausgabe einer strukturierten Unterschiedsinformation hinzugekommen ist. Die Schritte 501 bis 506 sind daher im Wesentlichen vergleichbar mit den Schritten 201 bis 206 in 1.
Schritt 507 zeigt den erhaltenen Unterschied mit einem Anzeige-/Sicherungsprogramm 110 auf dem Terminal 102 an und speichert die strukturierten Unterschiedsdaten in einer zweiten Speichereinheit 103. Weil die Unterschiedsdaten wie in 25 gezeigt in SGML-Form ausgegeben werden, können die Unterschiedsdaten direkt mit einem Editor oder einem speziellen SGML-Viewer angezeigt werden. 26A und 26B zeigen ein Beispiel für die Anzeige eines strukturier ten Dokuments in einem speziellen SGML-Editor, während 27 ein Beispiel für die Anzeige der Unterschiedsdaten zeigt. In 26A und 26B bezeichnet das Bezugszeichen 2301 ein Fenster zur Anzeige der Struktur und das Bezugszeichen 2302 ein Fenster zur Anzeige der Buchstabenfolgen in der Struktur. 27 zeigt ein Beispielfenster für die Anzeige der Unterschiedsdaten aus 25 in strukturierter Form. Bei dem Verfahren wird eine Änderung einer Struktur durch Änderung der Farbe oder Schrift der die Struktur darstellenden Markierung angezeigt, indem der geänderte Teil mit einer durchgezogenen Linie unterstrichen oder anderweitig gekennzeichnet wird. Ein geänderter Teil einer Buchstabenfolge wird in ähnlicher Weise ebenfalls unterschiedlich von anderen Buchstabenfolgen angezeigt. Diese Unterscheidungsanzeige kann hervorgehoben sein.
Mit den vorstehenden beschriebenen Schritten können die Unterschiedsdaten direkt in strukturierter Form angezeigt werden, indem dieses System als eine Dokument-Vergleichsfunktion in die Editier-Software für SGML-Dokumente einbezogen wird. Durch Unterscheiden einer Änderung in einer Struktur von der einer Buchstabenfolge in einer Struktur kann zum Beispiel der Benutzer, der das strukturierte Dokument mit Hilfe von Dokumentbearbeitungs-Software oder dergleichen editiert, die eigentliche Änderung ohne weiteres erkennen. Selbst wenn die Dokumentbearbeitungs-Software oder dergleichen ein eigenes Anzeigeprogramm zur Darstellung der Strukturinformation in Form eines Baums zur Anzeige eines strukturierten Dokuments benutzt, kann ein geänderter Teil ohne ein getrenntes Anzeigeprogramm angezeigt werden. Ähnlich wie bei der Ausführungsform in 2A können die strukturierten Unterschiedsdaten benutzt werden, um strukturierte Dokumente zu aktualisieren und/oder zu überarbeiten, die in Schritt 507 editiert werden sollen, oder nach Abschluss des Editierens mit bekannten Programmen zum Bearbeiten (Editieren) von Dokumenten.
Aus der vorstehenden Beschreibung ist daher ersichtlich, dass nach der vorliegenden Erfindung ein Vergleichskriterium, das einer logischen Struktur eines strukturierten Dokuments entspricht, definiert und der Unterschied eines zu vergleichenden strukturierten Dokuments so erkannt wird, dass das Vergleichskriterium erfüllt sein muss, wodurch ein dem Verständnis des Editors entsprechender Unterschied gemäß der Bedeutung der logischen Struktur erkannt wird. Auch der Unterschied zwischen Strukturen darstellenden Dokumentbäumen wird knotenweise erkannt, und jeder Unterschied zwischen den nicht übereinstimmenden Knoten der zu vergleichenden Dokumente wird buchstabenweise erkannt. Folglich wird ein eventueller Unterschied über unterschiedliche Strukturen hinweg nicht erkannt, mit dem Ergebnis, dass der Editor den für die betreffende logische Struktur geeigneten Unterschied erfassen kann, wodurch die Effizienz des Editieren von strukturierten Dokumenten verbessert wird. Die vorliegende Erfindung eignet sich für das automatische Aktualisieren von Dokumenten, die wahrscheinlich überarbeitet werden müssen, einschließlich verschiedener juristischer Unterlagen und Bedienungsanleitungen in SGML oder einer ähnlichen Sprache. Darüber hinaus ist das effiziente erfindungsgemäße Editieren zur Verwaltung von Platten von Dokumenten geeignet, die häufig aktualisiert werden müssen.

Claims

Erkennungsverfahren für Unterschiede in strukturierten Dokumenten, bei dem strukturierte Dokumente vor und nach ihrer Editierung, einschließlich Löschen, Einfügen oder Ändern, in einer Speichereinheit (103) gespeichert werden und eine zwischen den strukturierten Dokumenten vor und nach der Editierung nicht übereinstimmende Buchstabenfolge durch einen Prozessor (101) als Unterschied erkannt wird, wobei in dem Verfahren strukturierte Dokumente editiert und vor und nach der Editierung in der Speichereinheit (103) gespeichert (201) werden, ein Vergleichskriterium für die logische Struktur jedes der strukturierten Dokumente vor und nach der Editierung definiert (202) wird, wobei das Vergleichskriterium wenigstens eine eine logische Struktur darstellende Markierung und einen Vergleichskriteriumstyp für die wenigstens eine Markierung umfaßt, eine logische Struktur jedes strukturierten Dokuments, das aus der Speichereinheit (103) ausgelesen ist, vor und nach der Editierung auf Grundlage des Vergleichskriteriums analysiert (203) wird, und ein Unterschied zwischen den strukturierten Dokumenten erkannt (204, 205) wird, der das Vergleichskriterium bezüglich des Analyseergebnisses erfüllt.
Verfahren nach Anspruch 1, wobei ferner ein eine Dokumentstruktur darstellender Dokumentbaum erzeugt (203) wird, indem jedes strukturierte Dokument analysiert wird, der Unterschied zwischen den Dokumentbäumen knotenweise als Unterschied zwischen den strukturierten Dokumenten erkannt (204) wird, und der Unterschied zwischen nicht übereinstimmenden Knoten buchstabenweise erkannt (205) wird.
Verfahren nach Anspruch 2, wobei ferner das Verfahren der Zuordnung der Knoten eines die Dokumentstruktur darstellenden Dokumentbaums gemäß dem Vergleichskriterium während der Erzeugung des Dokumentbaums durch Analyse des strukturierten Dokuments geändert wird.
Gerät zur Unterschiedserkennung strukturierter Dokumente mit einer Speichereinheit (103) zum Speichern strukturierter Dokumente vor und nach ihrer Editierung, einschließlich Löschen, Einfügen oder Ändern, und einem Prozessor (101) zum Erkennen einer nicht übereinstimmenden Buchstabenfolge zwischen den zwei strukturierten Dokumenten vor und nach der Editierung als Unterschied, wobei der Prozessor aufweist: eine Einrichtung (104) zum Editieren und Speichern der strukturierten Dokumente in der Speichereinheit (103); eine Einrichtung zum Definieren eines Vergleichskriteriums für die logische Struktur jedes der strukturierten Dokumente vor und nach der Editierung, wobei das Vergleichskriterium wenigstens eine eine logische Struktur darstellende Markierung und einen Vergleichskriteriumstyp für die wenigstens eine Markierung umfaßt; eine Einrichtung (105) zum Analysieren einer logischen Struktur jedes strukturierten Dokuments, das aus der Speichereinheit (103) ausgelesen ist, vor und nach der Editierung auf Grundlage des Vergleichskriteriums; und eine Einrichtung (106) zum Erkennen des Unterschieds zwischen den strukturierten Dokumenten, so daß das Vergleichskriterium gemäß dem Analyseergebnis der strukturierten Dokumente erfüllt ist.
Verfahren nach Anspruch 1 oder Gerät nach Anspruch 4, wobei das Vergleichskriterium in einer Tabelle (107) gespeichert wird.
Verfahren oder Gerät nach Anspruch 5, wobei die Markierungen so definiert sind, daß sie wenigstens vier Typen von Vergleichskriterien aufweisen, nämlich Markierungen mit Inhalten, die nur verglichen werden, falls die einzelnen Markierungen untereinander übereinstimmen, Markierungen mit Inhalten, deren Unterschied während des Vergleichs ignoriert wird, einen Satz Markierungen mit gleicher logischer Bedeutung, und einen Satz Markierungen mit Inhalten, die nicht miteinander verglichen werden.
Gerät nach einem der Ansprüche 4 bis 6, wobei die Einrichtung (105) zum Analysieren der strukturierten Dokumente dazu ausgelegt ist, wenigstens einen die Dokumentstruktur darstellenden Dokumentbaum zu erzeugen, und die Einrichtung (106) zur Unterschiedserkennung der strukturierten Dokumente dazu ausgelegt ist, den Unterschied zwischen den Dokumentbäumen knotenweise als Unterschied zwischen den strukturierten Dokumenten zu erkennen, wobei der Unterschied zwischen nicht übereinstimmenden Knoten buchstabenweise erkannt wird.
Gerät nach Anspruch 7, wobei die Einrichtung (105) zum Analysieren des strukturierten Dokuments dazu ausgelegt ist, die Zuordnung der Verknüpfungen eines die Dokumentstruktur darstellenden Dokumentbaums gemäß dem Vergleichskriterium während der Erzeugung des Dokumentbaums zu ändern.
Gerät nach Anspruch 4, ferner mit einer Einrichtung (102) zum Anzeigen des strukturierten Dokuments, um das Ergebnis des durch die Einrichtung (106) zur Unterschiedserkennung der strukturierten Dokumente erkannten Unterschieds als Unterschiedsinformation auszugeben, so daß das Unterschiedsergebnis auf Grundlage der strukturierten Unterschiedsinformation angezeigt wird, und einer Dokumentaktualisierungseinrichtung (103A) zum Aktualisieren/Überarbeiten von zu aktualisierenden/überarbeitenden strukturierten Dokumenten auf Grundlage der strukturierten Unterschiedsinformation, die durch die Einrichtung (106) zur Unterschiedserkennung strukturierter Dokumente erzeugt wurde.
Prozessor-lesbares Medium, das Programmcodes speichert, die einen Computer mit einer Speichereinheit (103) und einem Prozessor (101) ermöglichen, nicht übereinstimmende Buchstabenfolgen zwischen strukturierten Dokumenten vor und nach deren Editierung zu erkennen, indem das Verfahren nach einem der Ansprüche 1, 2, 3, 5 oder 6 ausgeführt wird.
Medium nach Anspruch 10, ferner mit einem Programmcodeabschnitt (206, 506), um den Computer dazu zu veranlassen, den erkannten Unterschied zwischen den strukturierten Dokumenten auf eine Benutzungseinrichtung anzuwenden.