-
HINTERGRUND
DER ERFINDUNG
-
Die
vorliegende Erfindung bezieht sich auf ein Unterschiedserkennungsverfahren
für Buchstabenfolgen
in strukturierten Dokumenten und auf ein Gerät für einen Dokumentenprozessor
wie zum Beispiel ein Textverarbeitungssystem, das eine Unterschiedsbuchstabenfolge
zwischen als elektronische Dateien gespeicherten strukturierten
Dokumenten erkennen kann.
-
Ein
strukturiertes Dokument ist definiert als ein Dokument, das darin
eingebettet Informationen über
die logische Struktur eines Dokuments enthält, das heißt Informationen wie zum Beispiel „Dieser
Teil des Dokuments bildet ein Kapitel" oder „Dieser Teil ist ein Titel".
-
Die
Unterschiedserkennung zwischen Dokumenten ist definiert als das
Erkennen einer meist übereinstimmenden
Kombination von Elementen, die jeweils ein Dokument bilden, einschließlich Absätze, Zeilen
und Buchstaben, und das Erkennen nicht übereinstimmender Elemente als
Unterschied. Nehmen wir an, zwei Dokumente, deren Unterschied festgestellt
werden soll, sind „ABCDEFG" und „ACDAEFH". Wenn die beiden
Dokumente anhand ihrer Elemente einschließlich A, B, C, D, E, F, G und H
verglichen werden, wird die am meisten übereinstimmende Kombination
als „Entsprechung
von ACDEF" erkannt.
Außerdem
wird der Unterschied erkannt in der Form von „B ist gestrichen", „A ist
nach D eingefügt" bzw. „G ist
in H geändert".
-
Ein
herkömmliches
Verfahren zur Unterschiedserkennung ist in JP-A-2-255964 beschrieben, bei
dem der Vergleich anhand von Satzzeichen, Zeilen, Wörtern und
Buchstaben erfolgt. Nach diesem Verfahren wird eine Buchstabenfolge,
die eine in dem Dokument enthaltene logische Struktur darstellt,
in der gleichen Weise wie andere Buchstabenfolgen in den Dokumenten
verglichen.
-
Das
Erkennen eines Unterschieds in einem strukturierten Dokument mit
denselben Mitteln wie bei einem normalen Dokument kann jedoch ungeeignet
sein, weil das Ergebnis eventuell nicht mit der logischen Struktur
des Dokuments übereinstimmt.
Ein Beispiel wird nachstehend erläutert.
-
Beispiel 1 nach dem Stand
der Technik
-
Unter
Bezugnahme auf die in 3A und 3B gezeigten
strukturierten Dokumente wird ein Fall erläutert, bei dem Dokumente mit
nicht übereinstimmender
logischer Struktur bei dem Prozess der Unterschiedserkennung fälschlicherweise
einander zugeordnet werden, wodurch es zu einem für den Dokumenteneditor
ungeeigneten Erkennungsergebnis kommt.
-
Die
strukturierten Dokumente in 3A und 3B sind
in SGML (Standard Generalized Markup Language, ISO 8879) geschrieben,
was bedeutet, dass eine in als „Tags" bezeichnete Markierungen wie zum Beispiel <A> und </A> eingeschlossene Buchstabenfolge
einer logischen Struktur A zugeordnet sind. Mit anderen Worten,
die zwischen „<NAME>" und „</NAME>" eingeschlossene
Buchstabenfolge „TARO
HEISEI" in 3A entspricht
der logischen Struktur „NAME". HTML (Hypertext
Markup Language), das im Internet bzw. World Wide Web benutzt wird,
ist eine Anwendung von SGML und für die vorliegende Erfindung
ebenfalls anwendbar.
-
Die
Markierung für
diese logische Struktur wird auch als „Tag" bezeichnet. „<A>" und „</A>" werden daher alternativ als Anfangs-
bzw. Ende-Tag bzw. -Markierung bezeichnet.
-
Das
Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge zwischen
den beiden strukturierten Dokumenten in 3A und 3B nach dem
herkömmlichen
Verfahren ist in 4A und 4B gezeigt.
-
4B zeigt
das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in dem
strukturierten Dokument in 3B im
Vergleich zu dem strukturierten Dokument in 3A. 4A zeigt
das Ergebnis der Erkennung von Unter schiedsbuchstabenfolgen in dem
strukturierten Dokument in 3A im
Vergleich zu dem strukturierten Dokument in 3B.
-
Wie
aus 4A und 4B ersichtlich,
wird „HEISEI" bei „<NAME>" und „HEISEI" bei „<ÜBERTRAGUNGSDATUM>" nicht als Unterschied erkannt. Dies
ist darauf zurückzuführen, dass „HEISEI" übereinstimmte und fälschlicherweise
einander zugeordnet wurde. Diese in der logischen Struktur nicht übereinstimmende
Entsprechung von „HEISEI" ist für den Dokumenteneditor
offensichtlich bedeutungslos.
-
Beispiel 2 nach dem Stand
der Technik
-
Unter
Bezugnahme auf die in 5A und 5B gezeigten
strukturierten Dokumente wird ein Fall erläutert, bei dem Buchstabenfolgen
bei dem Prozess der Unterschiedserkennung aufgrund des Einfügens einer
Dokumentstruktur fälschlicherweise über unterschiedliche
Dokumentstrukturen zugeordnet werden, wodurch es zu einem für den Dokumenteneditor
ungeeigneten Erkennungsergebnis kommt. 5A zeigt
ein strukturiertes Dokument mit Kapitel 1 und 5B ein
strukturiertes Dokument mit einem anderen vor Kapitel 1 eingefügten Kapitel.
-
6A und 6B zeigen
ein Beispiel für die
Erkennung einer Unterschiedsbuchstabenfolge zwischen den beiden
strukturierten Dokumenten in 5A und 5B.
-
6A und 6B zeigen
einen Fall ähnlich
wie in 4A und 4B, wobei 6B das
Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge in 5B im
Vergleich zu 5A zeigt. 6A hingegen
zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge
in 5A im Vergleich zu 5B.
-
Wie
aus 6A ersichtlich, wird Kapitel 1 in 6A Kapitel
1 und Kapitel 2 in 6B zugeordnet, trotz der Tatsache,
dass Kapitel 1 in 6A identisch ist mit Kapitel
2 in 6B. Dies ist ein weiterer für den Dokumenteneditor ungeeigneter
Fall.
-
Das
doppelte Vorkommen derselben Buchstabenfolge „STRUCTURED DOCUMENT" in 5B im
Gegensatz zu 5A führt zu der fehlerhaften Entscheidung
in 6B, dass das erste Vorkommen von „STRUCTURED
DOCUMENT" übereinstimmend
ist, während
das zweite Vorkommen von „STRUCTURED
DOCUMENT" nicht übereinstimmend
ist, so dass das zweite „STRUCTURED DOCUMENT" als Unterschied
erkannt wird. Dies gilt für
alle nachfolgenden Fälle
der Unterschiedserkennung.
-
Beispiel 3 nach dem Stand
der Technik
-
Unter
Bezugnahme auf die in 7A und 7B gezeigten
strukturierten Dokumente wird ein Fall erläutert, bei dem Unterschiede
in den Markierungen zur Angabe der logischen Struktur eines Dokuments
es trotz der identischen logischen Bedeutung der Dokumente unmöglich machen,
den Inhalt der Dokumente einander zuzuordnen, wodurch die Erkennung
für den
Dokumenteneditor ungeeignet ist.
-
In 7A und 7B ist
ein Tag bzw. eine Markierung <ERSTER
PUNKT> nur dem Punkt
zugeordnet, der als erster erscheint, trotz der Tatsache, dass die
logische Bedeutung des Dokuments unverändert bleibt, und der Angabe „PUNKT".
-
8A und 8B zeigen
den Fall, bei dem Unterschiedsbuchstabenfolgen zwischen den beiden strukturierten
Dokumenten in 7A und 7B nach
dem herkömmlichen
Verfahren erkannt werden.
-
8A und 8B zeigen
einen Fall ähnlich
wie in 4A und 4B, wobei 8B das
Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in 7B im
Vergleich zu 7A zeigt, während 8A das
Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen in 7A im
Vergleich zu 7B zeigt.
-
Aus 8A und 8B ist
ersichtlich, dass die Vorkommen von „ERSTER PUNKT" einander zugeordnet
werden und dass die zugehörigen
Buchstabenfolgen als deren Inhalte miteinander verglichen werden.
Die logische Bedeutung von „ERSTER PUNKT" und „PUNKT" ist für den Dokumenteneditor gleich,
weshalb die Inhalte der Markierungen mit Vorrang gegenüber den
Markierungen zugeordnet werden müssen.
-
Bei
der Unterschiedserkennung zwischen strukturierten Dokumenten müssen diese
unter Berücksichtigung
der logischen Bedeutung und der Struktur der strukturierten Dokumente
miteinander verglichen werden. Diese Anforderung wird von dem herkömmlichen
Verfahren, bei dem Buchstabenfolgen zur Angabe einer logischen Struktur
in ähnlicher Weise
wie andere Buchstabenfolgen in dem Dokument verglichen werden, nicht
erfüllt.
-
In „Identifying
syntactic differences between two programs", erschienen in Software Practice and Experience,
Bd. 21, Nr. 7, S. 739 bis 755, von Wuu Yang, wird vorgeschlagen,
die Unterschiede zwischen zwei Programmcodes unter Berücksichtigung der
grammatikalischen Syntax der Programmiersprache zu erkennen. Dabei
wird jedoch nicht auf Tags, Markierungen oder eine Auszeichnungssprache
bzw. Markup Language verwiesen.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Ein
Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens
und eines Geräts
zur Erkennung einer Unterschiedsbuchstabenfolge zwischen strukturierten
HTML- oder SGML-Dokumenten in
einer für
das linguistische Verständnis
des Dokumenteneditors geeigneten Art und Weise.
-
Ein
anderes Ziel der vorliegenden Erfindung ist die Bereitstellung eines
Verfahrens und eines Geräts
zur Steuerung des Editierens eines strukturierten Dokuments für ein Dokumentenverarbeitungssystem,
das in der Lage ist, das Editieren auf der Grundlage des Vergleichs
und der Unterscheidung der logischen Strukturen von strukturierten
Dokumenten zu steuern.
-
Um
die vorstehend genannten Ziele zu erreichen, werden ein Erkennungsverfahren
für Unterschiede
in strukturierten Dokumenten nach Anspruch 1 und ein Gerät zur Erkennung
von Unterschieden in strukturierten Dokumenten nach Anspruch 4 bereitgestellt.
Die Unteransprüche
beziehen sich auf bevorzugte Ausführungsformen derselben.
-
Die
Vergleichskriterien umfassen Markierungen zur Angabe logischer Strukturen
und Typen von Vergleichskriterien entsprechend den Markierungen, deren
Inhalte in einer Tabelle gespeichert sind.
-
Die
Markierungen sind so definiert, dass sie einem der folgenden vier
Typen von Vergleichskriterien entsprechen:
- (1)
Markierungen mit Inhalten, die nur verglichen werden, falls die
einzelnen Markierungen untereinander übereinstimmen (Identitäts-Markierungen),
- (2) Markierungen mit Inhalten, deren Unterschied während des
Vergleichs ignoriert wird (Ignorierungs-Markierungen),
- (3) einem Satz Markierungen mit gleicher logischer Bedeutung
(Äquivalenz-Markierungen,
wie zum Beispiel „ERSTER
PUNKT" und „PUNKT"),
- (4) einem Satz Markierungen mit Inhalten, die nicht miteinander
verglichen werden (Nichtvergleichs-Markierungen).
-
Weiterhin
wird ein die Struktur jedes strukturierten Dokuments darstellender
Dokumentbaum erzeugt, und der Unterschied zwischen den strukturierten
Dokumenten wird durch Vergleich zwischen den Knoten der jeweiligen
Dokumentbäume
erkannt. Im Falle von nicht übereinstimmenden
Knoten wird der Unterschied zwischen den Knoten durch Vergleich zwischen
den Buchstaben der Knoten erkannt.
-
Darüber hinaus
wird bei der Erzeugung eines die Struktur jedes Dokuments darstellenden
Dokumentbaums bzw. einer Hierarchie die Zuordnung der Knoten der
Dokumentbäume
entsprechend dem vorstehend beschriebenen Vergleichskriterium geändert.
-
Mit
den vorstehend beschriebenen Lösungen
werden strukturierte Dokumente editiert, die logische Struktur der
editierten strukturierten Dokumente wird mit der Einrichtung zum
Analysieren strukturierter Dokumente analysiert, ein Vergleichskriterium
zur Erkennung des Unterschieds gemäß der logischen Struktur wird
im Voraus festgelegt, und eine Unterschiedsbuchstabenfolge zwischen
den strukturierten Dokumenten vor und nach der Editierung wird so
erkannt, dass das Vergleichskriterium erfüllt ist. Der relevantere Unterschied
entsprechend dem linguistischen Verständnis des Editors kann daher
automatisch gemäß der logischen
Struktur erkannt werden.
-
Außerdem wird
der Unterschied zwischen Dokumentbäumen knotenweise erkannt, während der
Unterschied zwischen nicht übereinstimmenden Knoten
buchstabenweise erkannt wird, so dass eine fehlerhafte Erkennung
des Unterschieds über
unterschiedliche Strukturen hinweg vermieden werden kann.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
1 zeigt
ein Blockdiagramm für
den Aufbau nach einer Ausführungsform
der vorliegenden Erfindung.
-
2A zeigt
ein Ablaufdiagramm der Verarbeitungsschritte nach einer Ausführungsform
der Erfindung.
-
2B zeigt
ein Ablaufdiagramm eines detaillierten Beispiels der in 2A gezeigten
Schritte zur Erzeugung eines Dokumentbaums.
-
3A und 3B sind
Diagramme, die ein erstes Beispiel für strukturierte Dokumente vor
bzw. nach dem Editieren zeigen.
-
4A und 4B sind
Diagramme, die das erste Beispiel für strukturierte Dokumente vor bzw.
nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
-
5A und 5B sind
Diagramme, die ein zweites Beispiel für strukturierte Dokumente vor
bzw. nach dem Editieren zeigen.
-
6A und 6B sind
Diagramme, die das zweite Beispiel für strukturierte Dokumente vor bzw.
nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
-
7A und 7B sind
Diagramme, die ein drittes Beispiel für strukturierte Dokumente vor
bzw. nach dem Editieren zeigen.
-
8A und 8B sind
Diagramme, die das dritte Beispiel für strukturierte Dokumente vor bzw.
nach der Unterschiedserkennung nach dem Stand der Technik zeigen.
-
9 zeigt
ein Beispiel einer Vergleichskriterientabelle für das erste Beispiel für strukturierte Dokumente
nach der vorliegenden Erfindung.
-
10A und 10B sind
Diagramme der aus dem in 3A und 3B gezeigten
ersten Beispiel für
strukturierte Dokumente vor und nach dem Editieren auf der Grundlage
der Vergleichskriterientabelle in 9 erzeugten
Dokumentbäume.
-
10C zeigt ein Ablaufdiagramm für das Verfahren zur Erzeugung
eines Dokumentbaums in 10A.
-
11A und 11B sind
Diagramme, die das erste Beispiel für strukturierte Dokumente vor bzw.
nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle
in 9 zeigen.
-
12 zeigt
ein Beispiel einer Vergleichskriterientabelle für das in 5 gezeigte
zweite Beispiel für
strukturierte Dokumente.
-
13A und 13B sind
Diagramme der aus dem in 5A bzw. 5B gezeigten
zweiten Beispiel für
strukturierte Dokumente vor und nach dem Editieren auf der Grundlage
der Vergleichskriterientabelle in 12 erzeugten
Dokumentbäume.
-
14A und 14B sind
Diagramme, die das in 5A und 5B gezeigte
zweite Beispiel für
strukturierte Dokumente vor bzw. nach der Unterschiedserkennung
auf der Grundlage der Vergleichskriterientabelle in 12 zeigen.
-
15 zeigt
ein Beispiel einer Vergleichskriterientabelle für ein in 7A und 7B gezeigtes drittes
Beispiel für
strukturierte Dokumente.
-
16A und 16B sind
Diagramme der aus dem in 7A bzw. 7B gezeigten
dritten Beispiel für
strukturierte Dokumente vor und nach dem Editieren auf der Grundlage
der Vergleichskriterientabelle in 15 erzeugten
Dokumentbäume.
-
17A und 17B sind
Diagramme, die das in 7A und 7B gezeigte
dritte Beispiel für strukturierte
Dokumente vor bzw. nach der Unterschiedserkennung auf der Grundlage
der Vergleichskriterientabelle in 15 zeigen.
-
18A und 18B sind
Diagramme, die ein viertes Beispiel für strukturierte Dokumente vor bzw.
nach dem Editieren zeigen.
-
19 zeigt
ein Beispiel einer Vergleichskriterientabelle für das in 18 gezeigte
vierte Beispiel für
strukturierte Dokumente.
-
20A und 20B sind
Diagramme der aus dem in 18 gezeigten
vierten Beispiel für strukturierte
Dokumente vor bzw. nach dem Editieren auf der Grundlage der Vergleichskriterientabelle
in 19 erzeugten Dokumentbäume.
-
21A und 21B sind
Diagramme, die das in 18 gezeigte vierte Beispiel
für strukturierte Dokumente
vor bzw. nach der Unterschiedserkennung auf der Grundlage der Vergleichskriterientabelle
in 19 zeigen.
-
22 zeigt
ein Ablaufdiagramm einer weiteren Ausführungsform der Erfindung.
-
23A und 23B sind
Diagramme, die ein Beispiel für
einen Vergleich der zu vergleichenden Dokumente nach der Ausführungsform
in 22 zeigen.
-
24A und 24B sind
Diagramme, die ein Beispiel für
das Ergebnis eines Vergleichs zwischen den strukturierten Dokumenten
in 23A bzw. 23B zeigen.
-
25 ist
ein Diagramm, das ein Beispiel für ein
strukturiertes Dokument zur Veranschaulichung der Unterschiedsdaten
zwischen strukturierten Dokumenten zeigt.
-
26A und 26B sind
Diagramme, die ein Beispiel für
die Bildschirmanzeige von strukturierten Dokumenten vor bzw. nach
dem Editieren zeigen.
-
27 ist
ein Diagramm, das ein Beispiel für die
Bildschirmanzeige von Unterschiedsdaten zwischen strukturierten
Dokumenten zeigt.
-
BESCHREIBUNG DER BEVORZUGTEN
AUSFÜHRUNGSFORMEN
-
Ausführungsformen
der Erfindung werden nachstehend anhand der anliegenden Zeichnungen beschrieben.
-
1 zeigt
den Aufbau nach einer Ausführungsform
der Erfindung.
-
In 1 bezeichnet
das Bezugszeichen 101 einen Prozessor (CPU), das Bezugszeichen 102 ein Terminal
mit einem Ein- und Ausgabegerät,
einem Anzeigegerät
und einem Programmspeicher-Ladegerät 103A, in dem ein
Speichermedium für
Verarbeitungsprogramme wie zum Beispiel eine Diskette oder dergleichen
installiert ist, und das Bezugszeichen 103 eine Speichereinheit
zum Speichern von Dokumenten und/oder Verarbeitungsprogrammen, die
als alternativer Programmspeicher anstelle der Diskette dienen kann.
Der Prozessor 101 weist darin ausführbar ein Dokument-Editierprogramm 104 zum
Editieren von Dokumenten, ein Analyseprogramm 105 für strukturierte
Dokumente zur Umwandlung jedes strukturierten Dokuments in eine
Baumkonfiguration, ein Unterschiedserkennungsprogramm 106 für strukturierte
Dokumente zum Erkennen der nicht übereinstimmenden Teile der
strukturierten Dokumente als Unterschied sowie eine Vergleichskriterientabelle 107 zum
Speichern von Vergleichskriterien für die Erkennung von Unterschiedsbuchstabenfolgen
auf. Diese Programme können
dem Prozessor 101 in einer Form zugeführt werden, die im Voraus auf
der Diskette gespeichert worden ist.
-
Jedes
des strukturierten Dokumente nach dieser Ausführungsform hat die Form eines SGML-Dokuments.
SGML ist, wie vorstehend beschrieben, definiert als eine Dokumentbeschreibungssprache
nach einer weltweiten ISO-Norm für markierte
strukturierte Dokumente. SGML-Dokumente haben eine logische Struktur,
die im Voraus durch die Dokumenttypdefinition (DTD) festgelegt ist.
Dennoch ist zu beachten, dass die vorliegende Ausführungsform
auch für
die Verarbeitung von strukturierten Dokumenten mit einer ähnlichen
Funktion wie SGML anwendbar ist.
-
Die
spezifischen Verarbeitungsschritte nach der vorliegenden Ausführungsform
werden anhand der Ablaufdiagramme in 2A und 2B beschrieben.
-
Schritt 201:
-
Die
strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert,
d.h. bearbeitet.
-
Schritt 202:
-
Die
Vergleichskriterientabelle 107 entsprechend der DTD der
zu vergleichenden SGML-Dokumente wird in den Arbeitsbereich des
Prozessors 101 eingelesen.
-
Bei
Fehlen einer Vergleichskriterientabelle entsprechend der DTD der
SGML-Dokumente wird eine geeignete Tabelle erstellt und im Voraus
eingegeben.
-
Diese
Vergleichskriterientabelle enthält
Markierungen, die den folgenden vier Kriterien entsprechen:
- (1) Identitäts-Markierungen:
Hierbei handelt es sich um verschiedene Markierungen, die es ermöglichen,
deren jeweilige Inhalte, das heißt die zwischen den jeweiligen
Anfangs- und Ende-Markierungen eingebetteten Buchstaben, nur dann miteinander
zu vergleichen, wenn die Markierungspaare miteinander übereinstimmen.
- (2) Ignorierungs-Markierungen: Hierbei handelt es sich um Markierungen
mit Inhalten, deren Unterschied während des Vergleichs ignoriert
wird.
- (3) Äquivalenz-Markierungen:
Hierbei handelt es sich um einen Satz scheinbar unterschiedlicher Markierungen
mit gleicher logischer Bedeutung.
- (4) Nichtvergleichs-Markierungen: Hierbei handelt es sich um
einen Satz von Markierungen, die den Vergleich der jeweiligen Inhalte
negieren.
-
Schritt 203:
-
Nach
dem Aufrufen des Unterschiedserkennungsprogramms 106 in 2A werden
die strukturierten Dokumente von dem Analyseprogramm 105 für strukturierte
Dokumente unter Bezugnahme auf die Vergleichskriterientabelle 107 analysiert,
um so die Dokumentbäume
zu erzeugen. Die Schritte eines Analyseprogramms für strukturierte
Dokumente sind im Detail in 2B gezeigt.
-
In
diesem Verfahren werden die jedem Knoten des Dokumentbaums zugeordneten
Elemente entsprechend der wie folgt festgelegten Regeln bestimmt:
- Regel 1: Zuordnen jeder Markierung zu einem Knoten.
- Regel 2: Zuordnen der zwischen einer Anfangs- und einer Ende-Markierung
eingebetteten Buchstabenfolgen zu einem Unterknoten der Anfangs-Markierung.
- Regel 3: Zuordnen jeder Ende-Markierung zu einem Unterknoten
der zu der betreffenden Ende-Markierung gehörenden Anfangs-Markierung.
- Regel 4: Zuordnen der zwischen Identitäts-Markierungen eingebetteten
Buchstabenfolgen zu einem einzelnen Knoten, zusammen mit dessen Anfangs-
und Ende-Markierungen.
- Regel 5: Nicht-Zuordnen von Ignorierungs-Markierungen und der
zwischen den Ignorierungs-Markierungen eingebetteten Buchstabenfolgen
zu irgendeinem Knoten.
- Regel 6: Zuordnen von Äquivalenz-Markierungen zu
Knoten durch Umwandeln von deren scheinbar unterschiedlichen Namen
in einen identischen Markierungsnamen.
-
Schritt 204:
-
Die
mit den oben genannten Schritten erzeugten Dokumentbäume werden
knotenweise miteinander verglichen, und der Unterschied wird knotenweise
erkannt. Handelt es sich bei den zu vergleichenden Markierungen
um Nichtvergleichs-Markierungen,
werden die betreffenden Knoten und untergeordneten Knoten (Unterknoten)
nicht verglichen.
-
Schritt 205:
-
Der
Unterschied wird dieses Mal buchstabenweise nur für die als
nicht übereinstimmend
befundenen Knoten erkannt.
-
Für einen
Knoten mit einer Identitäts-Markierung
erfolgt der buchstabenweise Vergleich jedoch nur, wenn das eine
Markierung des Knotens darstellende führende Zeichen (bzw. die Zeichenfolge) übereinstimmt.
Die Ignorierungs-Markierungen, die in Schritt 204 nicht
verglichen wurden, werden im vorliegenden Schritt verglichen.
-
Schritt 206:
-
Das
Ergebnis der Unterschiedserkennung in Schritt 205 wird
auf der Anzeigeeinrichtung des Terminals 102 angezeigt
(Schritt 206A). Gleichzeitig kann das Unterschiedsergebnis
auch parallel zu der Anzeigeeinrichtung einer Einrichtung zur Nutzung von
Unterschiedsdaten zugeführt
werden. Der Prozessor 101 kann automatisch Prozesse wie
das Aktualisieren und Überarbeiten
von relevanten Parametern gemäß dem Unterschiedsergebnis
ausführen. Diese
Funktionen können
als eine Überprüfung angesehen
werden. 2B zeigt das Verfahren zum Analysieren
von strukturierten Dokumenten in den Schritten 301 bis 311.
-
Verarbeitungsbeispiel
1
-
Ein
spezifisches Beispiel für
die Verarbeitung nach der Ausführungsform
mit einer Identitäts-Markierung
wird nachstehend anhand der Beispieldokumente in 3A und 3B beschrieben.
-
Schritt 201:
-
Die
strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert (1).
Es wird angenommen, dass das Dokument in 3B durch
Editieren des Dokuments in 3A erhalten
wurde.
-
Schritt 202:
-
Die
Vergleichskriterientabelle 107 entsprechend der DTD der
zu vergleichenden SGML-Dokumente wird in den Prozessor 101 eingelesen.
-
Bei
Fehlen einer entsprechenden Vergleichskriterientabelle wird zuerst
eine geeignete Tabelle erzeugt und eingegeben.
-
Eine
Vergleichskriterientabelle wie zum Beispiel in 9 wird
aus 3A und 3B erzeugt. Im
Einzelnen sind „<NAME>" und „<ÜBERTRAGUNGSDATUM>" als Identitäts-Markierungen definiert,
was bedeutet, dass die Buchstabenfolgen nur verglichen werden, wenn
die Markierungen zwischen den zu vergleichenden Dokumenten übereinstimmen.
-
Schritt 203:
-
Nach
dem Aufrufen des Unterschiedserkennungsprogramms 106 werden
die miteinander zu vergleichenden strukturierten Dokumente von dem Analyseprogramm 105 für strukturierte
Dokumente unter Bezugnahme auf die Vergleichskriterientabelle 107 analysiert,
um so die zugehörigen
Dokumentbäume
zu erzeugen.
-
Durch
Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln
werden die in 10A und 10B gezeigten
Dokumentbäume
durch Bezugnahme auf die Vergleichskriterientabelle in 9 aus
den strukturierten Dokumenten in 3A bzw. 3B erzeugt.
-
Die
strukturierten Dokumente 1001 und 1002 in 10A und 10B weisen
Identitäts-Markierungen
auf, weshalb die Markierungen und deren Buchstabeninhalte nach Regel 4 kollektiv
einem einzigen Knoten zugeordnet werden. Das Verfahren zum Erzeugen
der Dokumentbäume
in 10A und 10B für die Unterschiedserkennung
ist als die Schritte 401 bis 406 in 10C gezeigt.
-
Schritt 204:
-
Der
Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
-
Weil
der Vergleich knotenweise erfolgt, werden „<NAME>" und „<ÜBERTRAGUNGSDATUM>", bei denen es sich um Identitäts-Markierungen handelt,
einander nicht zugeordnet, so lange die jeweiligen Markierungen
und die Buchstabenfolgen ihrer Inhalte miteinander übereinstimmen.
In diesem Fall werden wegen der Nichtübereinstimmung zwischen den
Markierungen 1001 und 1002 sowohl die Markierungen
als auch deren Inhalte als Unterschied erkannt.
-
Schritt 205:
-
Der
Unterschied zwischen nicht übereinstimmenden
Knoten wird buchstabenweise erkannt. Knoten mit einer Identitäts-Markierung werden
jedoch nur dann buchstabenweise verglichen, wenn die führende Buchstabenfolge,
die jede der Markierungen der jeweiligen Knoten darstellt, übereinstimmt.
Schritt 206:
-
Der
als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
-
Ein
Beispiel für
das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 3A und 3B ist
in 11 gezeigt.
-
11B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen
in dem strukturierten Dokument in 3B im
Vergleich mit dem strukturierten Dokument in 3A. 11A hingegen zeigt das Ergebnis der Erkennung
von Unterschiedsbuchstabenfolgen in dem strukturierten Dokument
in 3A im Vergleich mit dem strukturierten Dokument
in 3B.
-
In 11B stimmen die Markierungen „<NAME>" und „<ÜBERTRAGUNGSDATUM>" der Knoten 1001 und 1002 nicht überein,
weshalb die Buchstabenfolge „<ÜBERTRAGUNGSDATUM> NOVEMBER 20, SIXTH
YEAR OF HEISEI </ÜBERTRAGUNGSDATUM>" (20. November, 6. Jahr von Heisei)
in Knoten 1002 in ihrer Gesamtheit als Unterschied erkannt
wird. Weil 3A keine Beschreibung von „ARE YOU
FINE?" in 3B enthält, wird auch „ARE YOU
FINE?" als Unterschied
erkannt.
-
Wenn
die Unterschiedserkennung nach den vorstehend beschriebenen Schritten
ausgeführt
wird, so lange eine Markierung mit Buchstaben, deren Vergleich bedeutungslos
ist, bei Fehlen einer Markierungs-Übereinstimmung als Identitäts-Markierung eingegeben
wird, werden strukturierte Dokumente mit nicht übereinstimmender logischer
Struktur einander nicht zugeordnet. Somit kann dem Editor ein besser
geeignetes Ergebnis der Unterschiedserkennung zugeführt werden.
-
Verarbeitungsbeispiel
2
-
Die
in 5A und 5B gezeigten
Beispieldokumente werden als ein zweites spezifisches Verfahren
nach der Ausführungsform
unter Bezugnahme auf den Fall mit einer Identitäts-Markierung und einer Ignorierungs-Markierung
sowie einer Strukturverschiebung beschrieben.
-
Schritt 201:
-
Die
strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert.
Es wird angenommen, dass das Dokument in 5B durch Editieren
des Dokuments in 5A erhalten wurde.
-
Schritt 202:
-
In
diesem Schritt wird die Vergleichskriterientabelle 107 entsprechend
der DTD der zu vergleichenden SGML-Dokumente gelesen.
-
Bei
Fehlen einer entsprechenden Vergleichskriterientabelle wird eine
geeignete Tabelle erzeugt und eingegeben. Im Fall von 5A und 5B wird
zum Beispiel eine Vergleichskriterientabelle wie in 12 erzeugt.
Hierin ist „<NAME DES AUTORS>" als eine Identitäts-Markierung definiert. In
diesem Fall werden, wie oben beschrieben, die Buchstabenfolgen nur
dann miteinander verglichen, wenn die Markierungen übereinstimmen.
Außerdem ist „<KAPITELNUMMER>" als eine Ignorierungs-Markierung definiert.
In diesem Fall wird der Unterschied in der Kapitelnummer ignoriert,
weil sie keinen Einfluss auf die Unterschiedserkennung hat.
-
Schritt 203:
-
Nach
dem Aufrufen des Unterschiedserkennungsprogramms 106 werden
die SGML-Dokumente von dem Analyseprogramm 105 für strukturierte
Dokumente analysiert, und die zugehörigen Dokumentbäume werden
unter Bezugnahme auf die Vergleichskriterientabelle 107 erzeugt.
-
Durch
Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln
werden die in 13A und 13B gezeigten
Dokumentbäume
durch Bezugnahme auf die Vergleichskriterientabelle in 12 aus
den strukturierten Dokumenten in 5A bzw. 5B erzeugt. „<KAPITELNUMMER>" als eine Ignorierungs-Markierung wird nach
der vorstehenden Regel 5 nicht als ein Knoten zugeordnet.
-
Schritt 204:
-
Der
Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
-
Die
Ignorierungs-Markierungen, die nicht als Knoten ausgewiesen sind,
werden nicht verglichen und haben keinen Einfluss auf dem gesamten
Prozess der Unterschiedserkennung.
-
Schritt 205:
-
Der
Unterschied zwischen nicht übereinstimmenden
Knoten wird anhand der Buchstabenfolgen erkannt. Die Ignorierungs-Markierungen und
deren Inhalte, die in Schritt 204 nicht verglichen wurden, werden
ebenfalls in diesem Schritt verglichen.
-
Schritt 206:
-
Der
als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
-
Ein
Beispiel für
das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 5A und 5B ist
in 14A und 14B gezeigt. 14B zeigt das Ergebnis der Erkennung einer Unterschiedsbuchstabenfolge
in dem strukturierten Dokument in 5B im
Vergleich mit dem strukturierten Dokument in 5A. 14A hingegen zeigt das Ergebnis der Erkennung
einer Unterschiedsbuchstabenfolge in dem strukturierten Dokument
in 5A im Vergleich mit dem strukturierten Dokument
in 5B.
-
Nachstehend
wird der Fall erläutert,
bei dem der Unterschied aus dem strukturierten Dokument in 5B im
Vergleich mit dem strukturierten Dokument in 5A erkannt
und das in 14B gezeigte Ergebnis der Erkennung
der Unterschiedsbuchstabenfolge erhalten wird.
-
Bei
der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in
Schritt 204 werden „<ABHANDLUNG>", „</ABHANDLUNG>", „<NAME DES AUTORS> TARO HEISEI </NAME DES AUTORS>" und „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION
METHOD </KAPITEL>" (Erkennungsverfahren für Unterschiede
in strukturierten Dokumenten) in 13A und 13B als übereinstimmend
erkannt, so dass sie in 14B als übereinstimmende
Teile gezeigt sind.
-
Weil
in Schritt 204 entschieden wird, dass „<KAPITEL> STRUCTURED DOCUMENT DIFFERENCE EXTRACTION
METHOD </KAPITEL>" übereinstimmt,
entscheidet Schritt 205, dass die zu dem übereinstimmenden
Teil gehörenden
Angaben „<KAPITELNUMMER> und </KAPITELNUMMER>" ebenfalls übereinstimmen. Andererseits
wird „CHAPTER
2" (Kapitel 2),
das nicht mit „CHAPTER
1" (Kapitel 1) übereinstimmt,
als Unterschied erkannt und angezeigt, wie in 14B gezeigt.
-
Ebenfalls
aufgrund der Entscheidung in Schritt 204, dass „<KAPITEL> WHAT IS STRUCTURED
DOCUMENT? </KAPITEL>" in 13B nicht übereinstimmt,
werden diese Angabe „<KAPITEL> WHAT IS STRUCTURED
DOCUMENT? </KAPITEL>" und das zu dem betreffenden nicht übereinstimmenden
Teil gehörende „<KAPITELNUMMER> CHAPTER 1 </KAPITELNUMMER>" als Unterschied erkannt und angezeigt,
wie in 14B gezeigt.
-
Bei
der Unterschiedserkennung nach den vorstehend beschriebenen Schritten
werden die Dokumentbäume
knotenweise, das heißt
nach ihrer Struktur, verglichen, und deshalb werden in diesem Prozess
zum Beispiel die Knoten 1301 und 1302 einander
zugeordnet. Folglich ist zu erkennen, dass eine fälschliche
Zuordnung über
unterschiedliche Strukturen, wie in 6 gezeigt,
nicht geschehen kann. Weil der knotenweise Vergleich der Dokumentbäume keinen
Vergleich von Ignorierungs-Markierungen einschließt, werden
eventuelle Unterschiede im Inhalt der Ignorierungs-Markierungen
so behandelt, als haben sie keinen Einfluss auf den Unterschiedserkennungsprozess
als Ganzes.
-
Verarbeitungsbeispiel
3
-
Ein
drittes spezifisches Verarbeitungsbeispiel nach einer Ausführungsform
mit einer Identitäts-Markierung
und einer Äquivalenz-Markierung wird
nachstehend anhand der Beispieldokumente in 7A und 7B beschrieben.
-
Schritt 201:
-
Die
strukturierten Dokumente werden mit dem Dokument-Editierprogramm 104 editiert.
Es wird angenommen, dass das Dokument in 7B durch Editieren
des Dokuments in 7A erhalten wurde.
-
Schritt 202:
-
In
diesem Schritt wird eine Vergleichskriterientabelle 107 entsprechend
der DTD der zu vergleichenden SGML-Dokumente gelesen.
-
Bei
Fehlen einer entsprechenden Vergleichskriterientabelle wird eine
geeignete Tabelle erzeugt und eingegeben. Im Fall von 7A und 7B wird
eine Vergleichskriterientabelle wie in 15 erzeugt.
Mit anderen Worten, „<NAME DES AUTORS>" ist als eine Identitäts-Markierung
definiert. In diesem Fall werden, so lange bestimmte Markierungen
nicht übereinstimmen,
die zu diesen gehörenden
Buchstabenfolgen einander nicht zugeordnet. Außerdem sind „<PUNKT>" und „<ERSTER PUNKT>" als Äquivalenz-Markierungen
definiert. In letzterem Fall werden „<PUNKT>" und „<ERSTER PUNKT>" so behandelt, als hätten sie dieselbe logische
Struktur.
-
Schritt 203:
-
Nach
dem Aufrufen des Unterschiedserkennungsprogramms 106 werden
die SGML-Dokumente von dem Analyseprogramm 105 für strukturierte
Dokumente analysiert, und die Dokumentbäume werden unter Bezugnahme
auf die Vergleichskriterientabelle 107 erzeugt.
-
Durch
Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln
werden die in 16A und 16B gezeigten
Dokumentbäume
durch Bezugnahme auf die Vergleichskriterientabelle in 15 aus
den strukturierten Dokumenten in 7A bzw. 7B erzeugt.
-
Die
Knoten 1601, 1602 und 1603 in 16 werden
nach Regel 6 in denselben Markierungsnamen umgewandelt.
-
Schritt 204:
-
Der
Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt.
Die Äquivalenz-Markierungen
erhalten denselben Markierungsnamen und werden daher nicht als Unterschied
erkannt.
-
Schritt 205:
-
Nur
die Markierungen, die als nicht miteinander übereinstimmend befunden wurden,
werden erkannt, dieses Mal buchstabenweise.
-
Schritt 206:
-
Der
als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
-
Ein
Beispiel für
das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 7A und 7B ist
in 17A und 17B gezeigt.
-
17B zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen
in dem strukturierten Dokument in 7B im
Vergleich mit dem strukturierten Dokument in 7A, und 17A zeigt das Ergebnis der Erkennung von Unterschiedsbuchstabenfolgen
in dem strukturierten Dokument in 7A im
Vergleich mit dem strukturierten Dokument in 7B.
-
Nachstehend
wird der Fall erläutert,
bei dem der Unterschied aus dem strukturierten Dokument in 7B im
Vergleich mit dem strukturierten Dokument in 7A erkannt
und das in 17B gezeigte Ergebnis der Erkennung
erhalten wird.
-
Bei
der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in
Schritt 204 wird entschieden, dass „<ABHANDLUNG>", „</ABHANDLUNG>", „<NAME DES AUTORS> TARO HEISEI </NAME DES AUTORS" und „<KAPITEL> STRUCTURED DOCUMENT
DIFFERENCE EXTRACTION METHOD </KAPITEL>" in 16A und 16B übereinstimmen,
so dass sie in 17B als übereinstimmende Teile gezeigt
sind.
-
Aufgrund
der Entscheidung in Schritt 204, dass „<PUNKT> WHAT
IS STRUCTURED DOCUMENT? </PUNKT>" (Was sind strukturierte Dokumente?)
nicht übereinstimmt,
wird in Schritt 205 der Unterschied des nicht übereinstimmenden
Teils buchstabenweise erkannt, so dass „<PUNKT> WHAT
IS STRUCTURED DOCUMENT? </PUNKT>" als Unterschied erkannt und angezeigt
wird, wie in 17B gezeigt.
-
Nach
Durchführung
der Unterschiedserkennung gemäß den vorstehend
beschriebenen Schritten werden die Dokumente mit derselben logischen Struktur
als übereinstimmend
erkannt, trotz des unterschiedlichen Markierungsnamens.
-
Verarbeitungsbeispiel
4
-
Ein
viertes spezifisches Verarbeitungsbeispiel nach einer Ausführungsform
mit einer Nichtvergleichs-Markierung wird nachstehend anhand der Dokumente
in 18A und 18B beschrieben.
-
Schritt 201:
-
Ein
strukturiertes Dokument wird mit dem Dokument-Editierprogramm 104 editiert.
Es wird angenommen, dass das Dokument in 18B durch Editieren
des Dokuments in 18A erhalten wurde.
-
Schritt 202:
-
Eine
Vergleichskriterientabelle 107 wird eingelesen, die der
DTD des zu vergleichenden SGML-Dokuments entspricht.
-
Bei
Fehlen einer entsprechenden Vergleichskriterientabelle wird eine
geeignete Tabelle erzeugt und eingegeben. Im Fall von 18A und 18B wird
zum Beispiel eine Vergleichskriterientabelle wie in 19 erzeugt.
Mit anderen Worten, es wird angenommen, dass „<ABSENDER>" und „<EMPFÄNGER>" eine Nichtvergleichs-Markierung aufweisen.
In diesem Fall werden „<ABSENDER>" und „<EMPFÄNGER>" nicht
inhaltlich verglichen.
-
Schritt 203:
-
Nach
dem Aufrufen des Unterschiedserkennungsprogramms 106 wird
das SGML-Dokument von dem, Analyseprogramm 105 für strukturierte
Dokumente analysiert, und ein Dokumentbaum wird unter Bezugnahme
auf die Vergleichskriterientabelle 107 erzeugt.
-
Durch
Anwendung der vorstehend anhand einer Ausführungsform beschriebenen Regeln
werden die in 20A und 20B gezeigten
Dokumentbäume
durch Bezugnahme auf die Vergleichskriterientabelle in 19 aus
den Dokumenten in 18A bzw. 18B erzeugt.
-
Schritt 204:
-
Der
Unterschied zwischen den Dokumentbäumen wird knotenweise erkannt. „<ABSENDER>" und „<EMPFÄNGER>" weisen
Nichtvergleichs-Markierungen auf, weshalb die untergeordneten Knoten, das
heißt
die Unterknoten „<ORGANISATION>" und „<NAME>", nicht miteinander
verglichen werden.
-
Schritt 205:
-
Der
Unterschied nur zwischen den Knoten, die nicht miteinander übereinstimmen,
wird erkannt, dieses Mal buchstabenweise.
-
Schritt 206:
-
Der
als Ergebnis erhaltene Unterschied wird auf dem Terminal 102 angezeigt.
-
Ein
Beispiel für
das Ergebnis der Unterschiedserkennung zwischen den Dokumenten in 18A und 18B ist
in 21 gezeigt.
-
21B zeigt das Ergebnis der Erkennung der Unterschiedsbuchstabenfolge
in dem strukturierten Dokument in 18B im
Vergleich mit dem strukturierten Dokument in 18A,
und 21A zeigt das Ergebnis der Erkennung
der Unterschiedsbuchstabenfolge in dem strukturierten Dokument in 18A im Vergleich mit dem strukturierten Dokument
in 18B.
-
Nachstehend
wird der Fall erläutert,
bei dem der Unterschied aus dem strukturierten Dokument in 18B im Ver gleich mit dem strukturierten Dokument
in 18A erkannt und das in 21B gezeigte
Ergebnis der Erkennung der Unterschiedsbuchstabenfolge erhalten
wird.
-
Bei
der knotenweisen Unterschiedserkennung zwischen den Dokumentbäumen in
Schritt 204 wird entschieden, dass, wie in 18A und 18B gezeigt, „<MEMO>", „</MEMO>", „<TEXT>" und „</TEXT>" miteinander übereinstimmen,
während „<EMPFÄNGER>", „</EMPFÄNGER>" und der Inhalt einschließlich „<ORGANISATION> 00 BANK </ORGANISATION>" und „<NAME> TARO
HEISEI </NAME>" als Unterschied erkannt werden, weil „<ABSENDER>" und „<EMPFÄNGER>" Nichtvergleichs-Markierungen
sind. „HELLO.
ARE YOU FINE?" (Hallo.
Geht es Ihnen gut?) wird als nicht übereinstimmend erkannt.
-
Aufgrund
der Nichtübereinstimmungs-Entscheidung
zu „HELLO.
ARE YOU FINE?" in
Schritt 204, erkennt Schritt 205 den Unterschied
für den nicht übereinstimmenden
Teil buchstabenweise, so dass „HELLO.
ARE YOU FINE?" als
Unterschied erkannt wird.
-
Folglich
wird das in 21B gezeigte Dokument angezeigt.
-
Bei
der Unterschiedserkennung gemäß den vorstehend
beschriebenen Schritten werden, nachdem Markierungen, deren Inhalte
nicht verglichen werden, als Nichtvergleichs-Markierungen eingegeben
sind, untergeordnete Knoten (Unterknoten) nicht verglichen, und
daher erfolgt keine Zuordnung der in „<ABSENDER>" und „<EMPFÄNGER>" enthaltenen Organisationen und Namen,
wodurch dem Editor ein besser geeignetes Ergebnis der Unterschiedserkennung
zugeführt
werden kann.
-
Eine
andere Ausführungsform
der Erfindung ist in 22 gezeigt. Die Unterschiedsinformation, die
als Änderung
zwischen strukturierten Dokumenten vor und nach dem Editieren mit
dem in den vorstehend beschriebenen Ausführungsformen offen gelegten
Verfahren erkannt wird, weist die folgenden von einem Vergleich
zwischen nicht strukturierten Dokumenten abweichenden Merkmale auf:
- (1) Es geht sowohl um die Änderung der Struktur an sich
als auch um die Änderung
der Buchstabenfolgen in der Struktur.
- (2) Die Unterschiedsinformation hat eine logische Struktur.
Dies wird anhand der strukturierten Dokumente in 23A und 23B beschrieben.
-
24A zeigt ein Ergebnisbeispiel für den Vergleich
eines strukturierten Dokuments a vor dem Editieren mit einem strukturierten
Dokument a' nach dem
Editieren in 23A bzw. 23B.
Die Positionen 1 (601) und 3 (603) stellen ein
Beispiel dar, bei dem die Buchstabenfolgen in einer Struktur geändert worden
sind, ohne die Dokumentstruktur zu ändern, einschließlich „<NAME>" und „<TEXT>". Position 2 (602)
zeigt ein Beispiel, bei dem die Struktur für „<ORGRNISATION>" neu
eingefügt
worden ist.
-
Als
Nächstes
wird ein Beispiel erläutert,
bei dem die Unterschiedsinformation zwischen strukturierten Dokumenten
eine logische Struktur aufweist. Die Positionen 1 (601)
und 3 (603) stellen zum Beispiel eine Änderung in der Buchstabenfolge
dar. Wenn die Unterschiedsinformation durch Angabe einer Struktur
ausgedrückt
werden soll, zum Beispiel um anzugeben, dass die Änderung
der Buchstabenfolge in der Struktur von „<NAME>" bzw. „<TEXT>" erfolgt ist, müssen die Unterschiedsdaten
Strukturinformationen aufweisen. Außerdem weist die Position 2
(602) die Strukturinformation auf, dass die eingefügte Angabe „<ORGANISATION>", die im Rahmen der logischen Struktur „<ABSENDER>" liegt, eine Unterstruktur von „<ABSENDER>" ist.
-
Nach
dem Verfahren nach dem Stand der Technik konnten diese Merkmale
der Unterschiedsdaten von strukturierten Dokumenten jedoch nicht sinnvoll
angezeigt werden. Nach dem bisher üblichen Verfahren, wird dies,
selbst wenn es sich um eine Änderung
der Information in Bezug auf die logische Struktur eines Dokuments
handelt, durch Ändern
des Anzeigeattributs der Buchstaben zur Angabe der Struktur angezeigt,
ohne dass gegenüber
einer Änderung
in der Buchstabenfolge unterschieden wird. Das sich daraus ergebende
Problem be steht darin, dass es für
den Benutzer schwierig ist, festzustellen, ob die Struktur oder
der Inhalt der Struktur geändert worden
ist. Dieses Problem wird anhand eines spezifischen Beispiels beschrieben. 24B zeigt ein Beispiel für eine Anzeige von Unterschiedsdaten nach
einem Vergleichsbeispiel aus JP-A-7-200370. Bei diesem Anzeigeverfahren
werden die Strukturinformationen ignoriert, ohne die Änderung
einer Struktur von einer Änderung
einer Buchstabenfolge in der Struktur zu unterscheiden. Folglich
kann der Benutzer, der das strukturierte Dokument mit Hilfe von
Dokumentbearbeitungs-Software oder dergleichen editiert, die eigentliche Änderung
nicht ohne weiteres erkennen. Auch wenn die Dokumentbearbeitungs-Software
oder dergleichen ein eigenes Anzeigeprogramm zur Darstellung der
Strukturinformation in einem Baum zur Anzeige eines strukturierten
Dokuments benutzt, ist ein getrenntes Anzeigeprogramm zur Anzeige
der Unterschiedsdaten erforderlich, wie in 24A und 24B gezeigt, wodurch das Programm unnötig kompliziert
wird.
-
Die
Ausführungsform
in 22 unterscheidet sich von der Ausführungsform
in 1, bei der die geänderten Teile zwischen strukturierten
Dokumenten auf der Grundlage von logischen Strukturinformationen
erkannt werden, darin, dass Schritt 507 zum Anzeigen und
Speichern (Editieren) der Unterschiedsinformation aus einem Schritt 505 zur
Ausgabe einer strukturierten Unterschiedsinformation hinzugekommen
ist. Die Schritte 501 bis 506 sind daher im Wesentlichen
vergleichbar mit den Schritten 201 bis 206 in 1.
-
Schritt 507 zeigt
den erhaltenen Unterschied mit einem Anzeige-/Sicherungsprogramm 110 auf dem
Terminal 102 an und speichert die strukturierten Unterschiedsdaten
in einer zweiten Speichereinheit 103. Weil die Unterschiedsdaten
wie in 25 gezeigt in SGML-Form ausgegeben
werden, können die
Unterschiedsdaten direkt mit einem Editor oder einem speziellen
SGML-Viewer angezeigt werden. 26A und 26B zeigen ein Beispiel für die Anzeige eines strukturier ten
Dokuments in einem speziellen SGML-Editor, während 27 ein
Beispiel für die
Anzeige der Unterschiedsdaten zeigt. In 26A und 26B bezeichnet das Bezugszeichen 2301 ein
Fenster zur Anzeige der Struktur und das Bezugszeichen 2302 ein
Fenster zur Anzeige der Buchstabenfolgen in der Struktur. 27 zeigt
ein Beispielfenster für
die Anzeige der Unterschiedsdaten aus 25 in
strukturierter Form. Bei dem Verfahren wird eine Änderung
einer Struktur durch Änderung der
Farbe oder Schrift der die Struktur darstellenden Markierung angezeigt,
indem der geänderte
Teil mit einer durchgezogenen Linie unterstrichen oder anderweitig
gekennzeichnet wird. Ein geänderter
Teil einer Buchstabenfolge wird in ähnlicher Weise ebenfalls unterschiedlich
von anderen Buchstabenfolgen angezeigt. Diese Unterscheidungsanzeige
kann hervorgehoben sein.
-
Mit
den vorstehenden beschriebenen Schritten können die Unterschiedsdaten
direkt in strukturierter Form angezeigt werden, indem dieses System als
eine Dokument-Vergleichsfunktion in die Editier-Software für SGML-Dokumente
einbezogen wird. Durch Unterscheiden einer Änderung in einer Struktur von
der einer Buchstabenfolge in einer Struktur kann zum Beispiel der
Benutzer, der das strukturierte Dokument mit Hilfe von Dokumentbearbeitungs-Software
oder dergleichen editiert, die eigentliche Änderung ohne weiteres erkennen.
Selbst wenn die Dokumentbearbeitungs-Software oder dergleichen ein
eigenes Anzeigeprogramm zur Darstellung der Strukturinformation
in Form eines Baums zur Anzeige eines strukturierten Dokuments benutzt,
kann ein geänderter
Teil ohne ein getrenntes Anzeigeprogramm angezeigt werden. Ähnlich wie
bei der Ausführungsform
in 2A können
die strukturierten Unterschiedsdaten benutzt werden, um strukturierte
Dokumente zu aktualisieren und/oder zu überarbeiten, die in Schritt 507 editiert
werden sollen, oder nach Abschluss des Editierens mit bekannten
Programmen zum Bearbeiten (Editieren) von Dokumenten.
-
Aus
der vorstehenden Beschreibung ist daher ersichtlich, dass nach der
vorliegenden Erfindung ein Vergleichskriterium, das einer logischen
Struktur eines strukturierten Dokuments entspricht, definiert und
der Unterschied eines zu vergleichenden strukturierten Dokuments
so erkannt wird, dass das Vergleichskriterium erfüllt sein
muss, wodurch ein dem Verständnis
des Editors entsprechender Unterschied gemäß der Bedeutung der logischen
Struktur erkannt wird. Auch der Unterschied zwischen Strukturen
darstellenden Dokumentbäumen
wird knotenweise erkannt, und jeder Unterschied zwischen den nicht übereinstimmenden
Knoten der zu vergleichenden Dokumente wird buchstabenweise erkannt.
Folglich wird ein eventueller Unterschied über unterschiedliche Strukturen
hinweg nicht erkannt, mit dem Ergebnis, dass der Editor den für die betreffende
logische Struktur geeigneten Unterschied erfassen kann, wodurch
die Effizienz des Editieren von strukturierten Dokumenten verbessert
wird. Die vorliegende Erfindung eignet sich für das automatische Aktualisieren von
Dokumenten, die wahrscheinlich überarbeitet werden
müssen,
einschließlich
verschiedener juristischer Unterlagen und Bedienungsanleitungen
in SGML oder einer ähnlichen
Sprache. Darüber
hinaus ist das effiziente erfindungsgemäße Editieren zur Verwaltung
von Platten von Dokumenten geeignet, die häufig aktualisiert werden müssen.