DE60314806T2 - Extrahierung von Information aus strukturierten Dokumenten - Google Patents

Extrahierung von Information aus strukturierten Dokumenten Download PDF

Info

Publication number
DE60314806T2
DE60314806T2 DE60314806T DE60314806T DE60314806T2 DE 60314806 T2 DE60314806 T2 DE 60314806T2 DE 60314806 T DE60314806 T DE 60314806T DE 60314806 T DE60314806 T DE 60314806T DE 60314806 T2 DE60314806 T2 DE 60314806T2
Authority
DE
Germany
Prior art keywords
subtree
identifier
tag
identifiers
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60314806T
Other languages
English (en)
Other versions
DE60314806D1 (de
Inventor
Tadasu Musashino-shi Uchiyama
Masaru Musashino-shi Miyamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002190621A external-priority patent/JP3937944B2/ja
Priority claimed from JP2002204641A external-priority patent/JP2004046642A/ja
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of DE60314806D1 publication Critical patent/DE60314806D1/de
Application granted granted Critical
Publication of DE60314806T2 publication Critical patent/DE60314806T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Hintergrund der Erfindung
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen ein Verfahren eines Extrahierens von Information aus strukturierten Dokumenten, wie zum Beispiel HTML-Dokumenten oder Ähnlichem und betrifft insbesondere ein Informations-Extraktionsverfahren, das einen gewünschten Textteil identifiziert und extrahiert, der im Voraus aus täglich aktualisierten strukturierten Dokumenten ausgewählt wird. Weiter betrifft die vorliegende Erfindung eine Benutzerschnittstelle, durch die ein gewünschter Teil leicht in einem strukturierten Dokument ausgewählt werden kann.
  • 2. Beschreibung des verwandten Standes der Technik
  • Es gibt eine Erforderlichkeit für eine Vorrichtung, einen bestimmten Teil aus einem strukturierten Dokument auszuwählen, wie zum Beispiel einem HTML-Dokument (HTML – hyper text markup language) oder Ähnlichem, das täglich aktualisiert wird. Zum Beispiel kann es ein Benutzer wünschen, Teile von besonderem Interesse aus Web-Seiten auszuwählen, mit denen der Benutzer vertraut ist, unter Zusammenstellen dieser Teile, um eine Sammlung von Information zu erzeugen, die es dem Benutzer erlaubt, leicht lediglich erforderliche Information zu betrachten. Wenn die Quelle einer gesammelten Information täglich aktualisiert wird, erfordert es der ausgewählte Teil immer wieder in dem täglich aktualisierten Dokument zur Verwendung in der Sammlung identifiziert zu werden.
  • Das Japanische Patent Nr. 2867986 , das auf ein WWW-Informations-Extraktionssystem gerichtet ist, lehrt ein Speichern von Information, die einen Startpunkt und einen Endpunkt eines Teils anzeigt, der im Voraus ausgewählt wird.
  • Basierend auf dieser Information werden der Startpunkt und der Endpunkt in dem aktualisierten Dokument identifiziert, gefolgt von einem Extrahieren des Teils zwischen diesen zwei Punkten als dem ausgewählten Teil. Zum Beispiel werden Texte des ausgewählten Teils, die jeweils dem Startpunkt und dem Endpunkt entsprechen, in einem Speicher gespeichert. Wenn der ausgewählte Teil aus dem Dokument extrahiert wird, werden die gespeicherten Texte verwendet, um den Startpunkt und den Endpunkt in dem HTML-Dokument zu identifizieren, gefolgt von einem Extrahieren des identifizierten Teils.
  • Ein System, das von der webMethods-Corporation (http://www.w3.org/TR/NOTE-wid1) vorgeschlagen wird, und ein System, das von Luca Iocchi (Luca Iocchi: The Web-OEM approach to Web information extraction, Journal of Network and Computer Applications, Vol. 22, pp. 259–269 (1999)) vorgeschlagen wird, nähert sich diesem Thema durch Konvertieren eines HTML-Dokuments in eine Baumstruktur, Speichern von Information über den Teilbaum entsprechend einem ausgewählten Teilbaum im Voraus und Identifizieren eines Teils des aktualisierten Dokuments, das dem gespeichertem Teilbaum entspricht. Hier umfasst Information über einen Teilbaum eine Zeichenkette, die als ein Identifikator des ausgewählten Teils dient. Ein Tag-Name (Tag-Etikett) wird als ein Tag-Identifikator verwendet und Tag-Namen an der gleichen hierarchischen Ebene in der Baumstruktur sind mit jeweiligen numerischen Wert-Indizes bereitgestellt. Die Tag-Namen, die mit numerischen Wert-Indizes gepaart sind, werden in Serie verbunden, um die Zeichenkette zur Darstellung einer Struktur von der Wurzel des gesamten Baums zu der Wurzel des Teilbaums zu bilden, der dem ausgewählten Teil entspricht. In einem Beispiel aus 1 wird „doc" als die Wurzel des gesamten Baums betrachtet und der Identifikator, der zu dem ausgewählten Teil „örtliche Nachrichten" zeigt, wird als „doc.table[0].table[0]" dargestellt.
  • Ein anderes Beispiel ist die Patentanmeldung WO 01/90873A1 , die ein drahtloses Seitenerzeugungssystem offenbart und ein Verfahren, das einen Robustifikator (engl.: robustifier) enthält, der automatisch Seiten verarbeitet, um eine XSL-Stilvorlage zu erzeugen, die Inhalte aus dynamischen Webseiten extrahiert.
  • In dem Verfahren nach dem verwandten Stand der Technik, das in der Japanischen Patentnummer 2867986 bezüglich des WWW-Informations-Extraktionssystems offenbart ist, wird ein ausgewählter Teil basierend auf Information ausgewählt, die den Startpunkt und den Endpunkt des gewählten Teils anzeigt. Es folgt natürlich, dass derartige Information ein Gegenstand sein muss, der in dem Dokument nach einem Aktualisieren immer intakt bleibt. Es ist jedoch schwierig, beständige Information zu identifizieren, die durch ein Aktualisieren hindurch unverändert ist. Viele Ausnahmen, die auf Homepages existieren, tendieren nach Belieben des Gestalters zu sein, so dass das oben beschriebene Verfahren nicht auf einen weiten Bereich von Anwendungsgebieten anwendbar ist.
  • Falls Texte, die den Start- und Endpunkten entsprechen, als ein Anhaltspunkt in dem WWW-Informations-Extraktionssystem verwendet werden, können diese Texte selbst einem Aktualisieren unterzogen werden, wie in 2 gezeigt. In einem derartigen Fall versagt dieses Verfahren.
  • Falls weiter ein ausgewählter Teil, wie in 3 gezeigt, von diesem Verfahren extrahiert wird, bildet der extrahierte Teil keinen ordentlichen Teilbaum als eine Baumstruktur, dessen Beispiel in 3 gezeigt ist. Daher würde auf Schwierigkeiten getroffen werden, falls ein Versuch durchgeführt wird, diesen extrahierten Teil in einem anderen strukturierten Dokument zu verwenden.
  • Das Verfahren, das den Identifikator eines Teilbaums eines ausgewählten Teils verwendet, wie von der webMethods corporation oder Luca Iocchi gelehrt, beruht auf der Prämisse, dass die Dokumentstruktur sich durch ein Aktualisieren hindurch nicht ändert. Falls die Dokumentstruktur sich jemals durch ein Aktualisieren hindurch leicht ändert, stimmt der Identifikator eines Teilbaums, der im Voraus ausgewählt ist, nicht mit einem Identifikator nach einem Aktualisieren überein.
  • Zum Beispiel kann ein Textblock mit dem gleichen Tag wie ein existierender Tag auf der gleichen hierarchischen Ebene der Baumstruktur eingefügt werden, zu der der ausgewählte Teil des Dokumentes gehört. Dies resultiert darin, dass ein numerischer Wertindex des Tags in den Identifikator des Teilbaums geändert wird. In dem Beispiel aus 1 wird das Dokument durch Einsetzten des Tags hinsichtlich „ADVERTISEMENT 2" aktualisiert, der in Table-Tags oberhalb des ausgewählten Teils eingeklammert ist. Als ein Endergebnis wird der numerische Wertindex des Tag-Identifikators basierend auf dem Tag-Namen „table" in Bezug auf die ausgewählten „local news" von „table[0] auf „table[1]„ geändert. Es ist wahrscheinlich, dass derartige kleine Formatänderungen auf einer Seitenoberseite durchgeführt werden, in der Banner, neueste Nachrichten und so weiter fortwährend eingesetzt und gelöscht werden. Da eine derartige Seite, da sie ein fortwährendes Aktualisieren von Information aufweist, die Art von Seite ist, von der Benutzer es wünschen, Teile auszuwählen, muss die Verschlechterung einer Zuverlässigkeit von Teilidentifikation behandelt werden, falls eine derartige Verschlechterung durch kleineres Aktualisieren auftritt.
  • Wenn ein Tag, der zur Zeit der Teilauswahl nicht vorlag, versehentlich oberhalb des ausgewählten Teils offen gelassen wird, erscheint dieser Text als ein Elternknoten in Bezug auf den ausgewählten Teil. In dem in 1 gezeigten Beispiel eines Aktualisierens wird der Table-Tag, der „ADVERTISEMENT 1" enthält, oberhalb des gewählten Teils versehentlich offen gelassen. Als Folge wird ein Identifikator, der korrekter Weise als „doc.table[0].table[0]" erscheinen sollte, zu „doc.table[0].table[0].table[1]", was die Existenz eines Table-Tags als Elternknoten des gewählten Teils „local news" anzeigt. Dies lässt den Identifikator des Teilbaumes versagen, zwischen einem Aktualisieren zuvor und danach überein zu stimmen. Weit verbreitete WWW-Browser erlauben heute offene Tags und Seitengestalter aktualisieren oft Seiten, ohne die Tatsache zu bemerken, dass offene Tags in den Seiten vorliegen.
  • Ein Einsatz eines Textblocks mit dem gleichen Tag und einem versehentlichem Mangel eines schließenden Tags verursacht eine Schwierigkeit in dem Beispiel eines Aktualisierens des in 1 gezeigten Dokuments. Nämlich wird der Identifikator eines Teilbaums, der zu dem ausgewählten Teil zeigt, von „doc.table[0].table[0]" zu „doc.table[0].table[0].table[1]" geändert.
  • Die Verfahren, die von der webMethod corporation und Iocchi vorgeschlagen werden, weisen weiter ein Problem darin auf, dass ein Wissen von Tags und Dokumentstrukturen und eine Handfertigkeit erforderlich sind, wenn ein Teil in einem strukturierten Dokument, wie zum Beispiel einem HTML-Dokument, ausgewählt wird.
  • Zusammenfassung der Erfindung
  • Das Ziel der Erfindung wird mit den Merkmalen der Ansprüche erreicht.
  • Es ist ein allgemeines Ziel der Erfindung, im Wesentlichen eins oder mehrere Probleme zu vermeiden, die durch die Beschränkungen und Nachteile des Standes der Technik verursacht werden.
  • Es ist ein anderes und genaueres Ziel der vorliegenden Erfindung, ein Verfahren eines Extrahierens von Information aus einem strukturierten Dokument bereitzustellen, das einen ausgewählten Teil extrahieren kann, ohne eine durch das Aktualisieren des Dokumentes verminderte Zuverlässigkeit aufzuweisen.
  • Es ist noch ein anderes Ziel der vorliegenden Erfindung, ein Verfahren eines Auswählens und Extrahierens eines Teils aus einem strukturierten Dokument bereitzustellen, durch das der Benutzer den Teil des strukturierten Dokuments, wie zum Beispiel ein HTML-Dokument, in einer Weise auswählen kann, die intuitiv leicht zu verstehen ist.
  • Gemäß der Erfindung umfasst ein Tag-Identifikator einen Namen eines Tags, einen Namen von zumindest einem Formatattribut des Tags und einen Wert des zumindest einen Formatattributs und wird als ein Teilbaum-Identifikator verwendet. Mit diesem Teilbaum-Identifikator wird die Zuverlässigkeit einer Teilextraktion nicht vermindert, da sich nicht auf die Start- und Endpunkte verlassen wird. Es genügt lediglich ein unterschiedliches Formatattribut für einen Tag zu haben, selbst falls ein Textblock mit dem gleichen Tag wie der Teilbaum eines ausgewählten Teils in die gleiche hierarchische Ebene eingesetzt wird, zu der der ausgewählte Teil gehört.
  • Weiter werden numerische Wert-Indizes erzeugt, die die Sequenznummer von Tag-Identifikatoren anzeigen, die zu der gleichen hierarchischen Ebene der Baumstruktur gehören. Ein Tag-Identifikator und ein numerischer Wertindex werden als ein Satz gepaart und eine Vielzahl von Sätzen werden in Serie von der Wurzel der gesamten Baumstruktur zu der Wurzel eines Teilbaums verbunden, wodurch der Teilbaum-Identifikator bereitgestellt wird. Mit dieser Maßnahme ist es möglich, eindeutig den ausgewählten Teil zu identifizieren, selbst falls die gleiche Kombination eines Tags und Formatattributen, die der Wurzel des ausgewählten Teilbaums entspricht, für andere Tags in dem Dokument verwendet wird.
  • Falls es zwei oder mehr übereinstimmende Teil-Bäume zur Zeit eines Identifizierens eines Teilbaums gibt, wird das Anpassen von Identifikatoren rekursiv durch sukzessives Heraufsteigen zu einem nächst höheren Elternknoten durchgeführt. Dies ermöglicht es, die Verschlechterung der Zuverlässigkeit einer Teilextraktion zu vermeiden, selbst falls ein Tag gibt, der versehentlich oberhalb des ausgewählten Teils offen gelassen wurde.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung detektiert das System zum Auswählen und Extrahieren eines Teils eines strukturierten Dokuments, wie zum Beispiel eines HTML-Dokuments, einen Endknoten einer Baumstruktur, der einer Position entspricht, die von einem Benutzer auf dem Bildschirm angezeigt wird, der das strukturierte Dokument anzeigt. Eine Serie von Ahnenknoten wird sukzessiv für eine visuelle Darstellung auf dem Bildschirm erhalten und der Benutzer wird aufgefordert, einen Knoten zu wählen. Dies erlaubt, dass der Benutzer leicht einen Teil des strukturierten Dokuments gemäß der Knotenauswahl auswählt, so dass der ausgewählte Teil leicht in einem anderen strukturierten Dokument wieder verwendet werden kann.
  • Andere Ziele und weitere Merkmale der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung ersichtlich, wenn diese in Verbindung mit den begleitenden Zeichnungen gelesen wird.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine darstellende Zeichnung zum Erklären des Standes der Technik;
  • 2 ist eine darstellende Zeichnung, die ein Beispiel zeigt, in dem ein Teil eines Dokumentes durch Verwenden der Texte ausgewählt und extrahiert wird, die Start- und Endpunkte anzeigen;
  • 3A und 3B sind darstellende Zeichnungen, die ein Beispiel zeigen, in dem ein Teil eines HTML-Dokuments durch Verwenden der Teste extrahiert wird, die Start- und Endpunkte anzeigen;
  • 4 ist ein Flussdiagramm, das ein Schema der vorliegenden Erfindung zeigt;
  • 5 ist eine darstellende Zeichnung zum Erklären eines Falles, in dem eine Vielzahl von Tags die gleichen Tag- und Attributformate aufweisen;
  • 6 ist ein Blockdiagramm eines Systems zum Extrahieren von Information aus einem strukturierten Dokument gemäß einer ersten Ausführung der vorliegenden Erfindung;
  • 7 ist eine darstellende Zeichnung, die ein Beispiel einer angezeigten Seite zur Teilauswahl gemäß der ersten Ausführung der vorliegenden Erfindung zeigt;
  • 8 ist eine Zeichnung, die ein Beispiel von Information zeigt, das in der Teilinformations-Speichereinheit gemäß der ersten Ausführung der vorliegenden Erfindung gespeichert wird;
  • 9 ist eine Zeichnung, die ein Beispiel von Baumstrukturdaten zeigt, die von der Dokumentenstrukturanalyse der ersten Ausführung der vorliegenden Erfindung erzeugt werden;
  • 10 ist eine Zeichnung, die die Inhalte der Teilinformations-Speichereinheit gemäß der ersten Ausführung der vorliegenden Erfindung zeigt;
  • 11 ist eine Zeichnung, die ein Beispiel einer Elementliste gemäß der ersten Ausführung der vorliegenden Erfindung zeigt;
  • 12 ist eine Zeichnung, die ein Beispiel einer konvertierten Baumdatenstruktur gemäß der ersten Ausführung der vorliegenden Erfindung zeigt;
  • 13 ist ein Flussdiagramm eines Verfahrens eines Extrahierens von Information aus einem strukturierten Dokument gemäß der ersten Ausführung der vorliegenden Erfindung;
  • 14 ist ein Blockdiagramm eines Systems zum Extrahieren von Information aus einem strukturierten Dokument gemäß einer zweiten Ausführung der vorliegenden Erfindung;
  • 15 ist eine darstellende Zeichnung, die die Erzeugung eines Teilbaum-Identifikators eines ausgewählten Teils gemäß einer zweiten Ausführung der vorliegenden Erfindung zeigt;
  • 16 ist eine darstellende Zeichnung, die die Erzeugung von Teilbaum-Daten gemäß einer zweiten Ausführung der vorliegenden Erfindung zeigt;
  • 17 ist ein Flussdiagramm eines Verfahrens eines Extrahierens von Information aus einem strukturierten Dokument gemäß der zweiten Ausführung der vorliegenden Erfindung;
  • 18 ist ein Blockdiagramm eines Systems zum Extrahieren von Information aus einem strukturierten Dokument gemäß einer dritten Ausführung der vorliegenden Erfindung;
  • 19 ist ein Flussdiagramm eines Verfahrens eines Extrahierens von Information aus einem strukturierten Dokument gemäß der dritten Ausführung der vorliegenden Erfindung;
  • 20 ist ein Flussdiagramm, das ein Schema einer Benutzer-Schnittstelle der vorliegenden Erfindung zeigt;
  • 21 ist ein Blockdiagramm einer schematischen Benutzer-Schnittstelle gemäß der vorliegenden Erfindung;
  • 22 ist ein Blockdiagramm eines Gerätes gemäß einer Ausführung der vorliegenden Erfindung;
  • 23 ist ein Flussdiagramm eines Verfahrens eines Auswählens und Extrahierens eines Teils gemäß einer Ausführung der vorliegenden Erfindung;
  • 24 ist eine darstellende Zeichnung, die ein Beispiel einer Teilauswahl auf einem Browser gemäß der Ausführung der vorliegenden Erfindung zeigt;
  • 25 ist ein Flussdiagramm, das einen Trieb einer Baumstruktur erzeugenden Einheit gemäß der Ausführung der vorliegenden Erfindung zeigt;
  • 26 ist ein Flussdiagramm eines Betriebs, der eine einen ausgewählten Teil markierende Einheit gemäß der Ausführung der vorliegenden Erfindung;
  • 27 ist eine darstellende Zeichnung, die ein Beispiel einer Baumstruktur und die verknüpfte Darstellung von ausgewählten Teilen gemäß der Ausführung der vorliegenden Erfindung zeigt;
  • 28 ist eine darstellende Zeichnung, die eine Konstruktion des Systems gemäß einer Ausführung der vorliegenden Erfindung zeigt; und
  • 29 ist eine darstellende Zeichnung, die ein Beispiel einer HTML-Quelle, eine zugeordnete Baumstruktur und eine zugeordnete Browser-Darstellung zeigt.
  • Beschreibung der bevorzugten Ausführungen
  • In dem Folgenden werden Ausführungen der vorliegenden Erfindung in Bezug auf die begleitenden Zeichnungen beschrieben.
  • 4 ist ein Flussdiagramm, das ein Schema der vorliegenden Erfindung zeigt.
  • Ein Verfahren eines Extrahierens von Information aus einem strukturierten Dokument gemäß der vorliegenden Erfindung konvertiert ein Dokument in eine Baumstruktur und erzeugt einen Identifikator eines Teilbaums entsprechend einem Teil des Dokuments, wodurch irgendein gewünschter Teil des strukturierten Dokuments im voraus spezifiziert wird und eine Basis zum nachfolgenden Identifizieren des ausgewählten Teils aus dem aktualisierten Dokument bereitgestellt wird.
  • Wie in 4 gezeigt, verwendet dieses Verfahren einen Tag-Identifikator als einen Identifikator eines Teilbaums, bei dem der Tag-Identifikator einen Tag-Namen entsprechend der Wurzel des Teilbaums, Namen von einem oder mehreren Formatattributen des Tags und die Werte der Formatattribute umfasst (Schritt 1). Falls es eine Vielzahl von Formatattributen für den Tag-Identifikator gibt, werden die Formatattribute in einer vorbestimmten Reihenfolge (z.B. in alphabetischer Reihenfolge) der Formatattributnamen angeordnet, um den Tag-Identifikator zu normalisieren (Schritt 2). Ein Teilbaum mit dem gleichen Tag-Identifikator wie der bereits ausgewählte Teilbaum wird als der ausgewählte Teil aus der Liste von Identifikatoren von Teil-Bäumen ausgewählt, die in dem Dokument existieren, das in eine Baumstruktur umgewandelt ist (Schritt 3).
  • Falls die gleiche Kombination eines Tag-Namens und von Formatattributen, die die Wurzel des ausgewählten Teilbaums darstellen, für zwei oder mehr Tags in dem Dokument verwendet wird, wie in 5 gezeigt, werden numerische Wert-Indizes erzeugt, die die Sequenznummern von Tag-Identifikatoren anzeigen, die zu der gleichen hierarchischen Ebene der Baumstruktur gehören. Ein Tag-Identifikator und ein numerischer Wertindex werden als ein Satz gepaart und eine Vielzahl von Sätzen wird in Serie von der Wurzel der gesamten Baumstruktur zu der Wurzel des ausgewählten Teilbaums verbunden, wodurch der Identifikator des Teilbaums bereitgestellt wird.
  • Es gibt dann eine Erforderlichkeit, den Teilbaum mit dem gleichen Identifikator wie dem bereits ausgewählten Teilbaum auf einer Liste von Identifikatoren von Teil-Bäumen zu identifizieren, die in dem Dokument vorliegen, das in eine Baumstruktur umgewandelt ist. Ein Anpassen von Teilbaum-Identifikatoren wird durch Berücksichtigen lediglich des Tag-Identifikators der Wurzel des ausgewählten Teilbaums durchgeführt. Falls es einen oder mehrere Teil-Bäume gibt, die mit dem ausgewählten Teilbaum übereinstimmen, wird der numerische Wertindex, der mit dem Tag-Identifikator verknüpft ist, angepasst, um die Kandidaten zu filtern. Falls immer noch mehr als ein Kandidat nach dem Filtern der Kandidaten basierend auf der Verwendung des numerischen Wert-Index verbleibt, wird ein Elternknoten-Tag zum Anpassen der Identifikatoren berücksichtigt. Das Anpassen der Identifikatoren wird rekursiv durch Heraufsteigen zu sukzessiven Ahnenknoten durchgeführt, bis lediglich ein Teilbaum als ein Kandidat verbleibt. Dieser verbleibende Baum wird als der ausgewählte Teilbaum identifiziert.
  • [ERSTE AUSFÜHRUNG]
  • 6 ist ein Blockdiagramm des Systems zum Extrahieren von Information aus einem strukturierten Dokument gemäß der ersten Ausführung der vorliegenden Erfindung.
  • In dem gezeigten System wird die Zuverlässigkeit einer Teilextraktion vermindert, da dieses basierend auf einem Verfahren arbeitet, das unabhängig von dem Start- und Endpositionen eines ausgewählten Teils ist. Es genügt nämlich, lediglich unterschiedliche Formatattribute für einen Tag zu haben, selbst falls ein Textblock mit dem gleichen Tag wie der Teilbaum des ausgewählten Teils in die gleiche hierarchische Ebene eingesetzt wird, zu der der ausgewählte Teil gehört.
  • Das System aus 6 umfasst eine einen Teil auswählende Einheit 1 zum Empfangen einer Anweisung von einem Benutzer, der einen Teil in einem strukturierten Dokument auswählt, eine Teilinformations-Speichereinheit 2 zum Speichern von Information über den ausgewählten Teil, eine Dokumentstruktur analysierende Einheit 3, die einen Teilbaum in der Baumstruktur unter Verwendung von Tags und zugeordneten Formatattributen identifiziert und eine Teil identifizierende Einheit 4 zum Zurückgeben auf Benutzeranforderung hin, eines Dokumententeils, der dem ausgewählten Teil entspricht.
  • Die Teil auswählende Einheit 1 umfasst eine Dokument abrufende Einheit 11, eine Teil spezifizierende Einheit 12 und eine Dokument strukturierende Einheit 13.
  • Die Dokument abrufende Einheit 11 empfängt eine Anforderung zur Dokumentenabfrage von der Teil spezifizierenden Einheit 12, bei der die Anforderung eine URL (uniform resource locator) spezifiziert, der als Identifikator eines Dokuments dient. Die Dokument abrufende Einheit 11 ruft dann das angeforderte Dokument ab und gibt es an die Teil spezifizierende Einheit 12.
  • Die Teil spezifizierende Einheit 12 sendet zu der Dokument abrufenden Einheit 11 eine Anforderung zum Dokumentenabruf mit einer URL und erhält das Dokument. Die Teil spezifizierende Einheit 12 fordert dann die Dokument strukturierende Einheit 13 auf, das Dokument zu strukturieren und erhält das in eine Baumstruktur konvertierte Dokument. Wie in 7 gezeigt, stellt die Teil spezifizierende Einheit 12 eine Benutzerschnittstelle bereit, die einem Benutzer hilft, einen Teil in dem Dokument zu spezifizieren. Ein Identifikator eines Teilbaums wird gemäß den Koordinaten oder Ähnlichem des spezifizierten Teils erzeugt. Dieser Identifikator wird zusammen mit der URL in der Teilinformation speichernden Einheit 2 gespeichert, wie in 8 gezeigt.
  • Die Dokument strukturierende Einheit 13 fordert die Dokumentstruktur analysierende Einheit 3 auf, das Dokument zu strukturieren, das von der Teil spezifizierenden Einheit 12 empfangen wird. Die Dokument strukturierende Einheit 13 empfängt dann das in eine Baumstruktur konvertierte Dokument als eine Datenstruktur, die die Eltern-Kind-Beziehungen in der Baumstruktur wiedergibt, wie in 9 gezeigt. Zum Beispiel werden Tags und Textelemente, die die Baumstruktur bilden, von einer Objekt-ID, einem Kennsatz, einer Kind-Knotenliste und einem Teilbaum-Identifikator dargestellt. Eine Liste dieser Gegenstände wird als die Datenstruktur empfangen.
  • Die Teilinformation speichernde Einheit 2 empfängt die URL und den Teilbaum-Identifikator von der einen Teil spezifizierenden Einheit 12 und ordnet eine Dokumententeil-ID zum Identifizieren des Satzes der URL und des Teilbaum-Identifikators zu. Dieser Satz und die zugeordnete Dokumententeil-ID werden, wie gezeigt, wie in 10 gespeichert. Die Dokumententeil-ID wird dann zu der Teil spezifizierenden Einheit 12 zurückgegeben.
  • Die Dokumentstruktur analysierende Einheit 3 umfasst eine Baumstruktur-Umwandlungseinheit 31 und eine Teilbaum-Identifikator erzeugende Einheit 32. Die Baumstruktur-Umwandlungseinheit 31 empfängt eine Dokumentstruktur-Anforderung zusammen mit dem strukturierten Dokument von der Dokument strukturierenden Einheit 13 oder 43. Die Baumstruktur-Umwandlungseinheit 31 konvertiert das empfangene Dokument in eine Baumstruktur mit Tags und Texten als Dokumentelemente und sendet das konvertierte Dokument zu der Teilbaum-Identifikator erzeugenden Einheit 32.
  • Die Teilbaum-Identifikator erzeugende Einheit 32 erzeugt einen Tag-Identifikator für jedes Tag, das das Dokument bildet, das in die Baumstruktur von der Baumstruktur-Umwandlungseinheit 31 konvertiert ist. Der Tag-Identifikator umfasst einen Tag-Namen, einen Namen eines Formatattributs und einen Wert eines Formatattributs. In einem Beispiel aus 9 wird dem ersten „Table-Tag" ein Tag-Identifikator „table_border==&cellpadding=1" gegeben, der einen Tag-Namen „Table" und Formatattribute und ihre Werte ,border="0" cellpadding="1"' kombiniert. Falls es zwei oder mehr Formatattribute gibt, werden sie in einer vorbestimmten Reihenfolge der Formatattributnamen angeordnet, um den Tag-Identifikator zu normalisieren. Der Tag-Identifikator, der in dieser Weise erhalten wird, wird als ein Identifikator eines Teilbaums verwendet, der diesen Tag als seine Wurzel aufweist, und mit einem entsprechenden Baumstrukturelement angepasst. Baumstrukturdaten einschließlich von Teilbaum-Identifikatoren, wie in 9 gezeigt, werden dann zu der Dokument strukturierenden Einheit 13 oder 43 gesendet.
  • Die Teil identifizierende Einheit 4 umfasst eine Dokument-Abrufeinheit 41, eine Teilbaum-Identifikator identifizierende Einheit 42 und die Dokument strukturierende Einheit 43.
  • Die Dokument-Abrufeinheit 41 empfängt eine Dokument-Abrufanforderung zusammen mit einer URL, die als Dokument Identifikator dient, von der Teilbaum-Identifikator identifizierenden Einheit 42. Auf Empfang der Anforderung hin erhält die Dokument-Abrufeinheit 41 das Dokument aus dem Internet und gibt das Dokument zu der Teilbaum-Identifikator identifizierenden Einheit 42 zurück.
  • Die Teilbaum-Identifikator identifizierende Einheit 42 empfängt eine Teil-Abrufanforderung zusammen mit der Dokumententeil-ID von dem Benutzer und überträgt die Dokumententeil-ID zu der Teilinformationsspeichereinheit 2, um die relevante URL und den entsprechenden Teilbaum-Identifikator zu erhalten. Die Teilbaum-Identifikator identifizierende Einhei 42 führt die URL zu der Dokument-Abrufeinheit 41, um das entsprechende Dokument zu erhalten. Eine Anforderung wird dann zu der Dokument strukturierenden Einheit 43 zum Strukturieren des erhaltenen Dokumentes gesendet und eine Liste von Elementen der umgewandelten Baumstruktur, wie in 11 gezeigt, wird in Reaktion erhalten. Die Teilbaum-Identifikator identifizierende Einheit 42 extrahiert einen Tag aus der erhaltenen Liste von Elementen durch Finden des Tags, der dem Teilbaum-Identifikator entspricht. Die Teilbaum-Identifikator identifizierende Einheit 42 versorgt dann den Benutzer mit einem Dokumententeil, der dem Teilbaum entspricht, der zu dem extrahierten Tag gehört.
  • Die Dokument strukturierende Einheit 43 fordert die Dokumentstruktur analysierende Einheit 3 auf, das Dokument zu strukturieren, das von der Teilbaum-Identifikator identifizierenden Einheit 42 empfangen wird. Die Dokument strukturierende Einheit 43 empfängt dann das in eine Baumstruktur konvertierte Dokument als Datenstruktur, die Eltern-Kindbeziehungen in der Baumstruktur darstellt, wie in 12 dargestellt. Zum Beispiel werden Tags und Textelemente, die die Baumstruktur bilden, durch eine Objekt-ID, einen Kennsatz, eine Kindknotenliste und einen Teilbaum-Identifikator dargestellt. Eine Liste dieser Gegenstände wird als die Datenstruktur empfangen.
  • In dem Folgenden wird ein Betrieb des Systems beschrieben.
  • 13 ist ein Flussdiagramm eines Verfahrens eines Extrahierens von Information aus einem strukturierten Dokument gemäß der ersten Ausführung der vorliegenden Erfindung.
  • Dieser Betrieb umfasst einen Teil-Auswahlprozess A, einen Teil-Identifikationsprozess B und einen Dokument strukturierenden Prozess M. In dem Folgenden werden Schritte mit einer der drei Bezeichnungen A, B und M beschrieben.
  • Zuerst wird der Teil-Auswahlprozess A beschrieben.
  • Bei Schritt A10 reagiert die Teil spezifizierende Einheit 12 auf eine Benutzeranweisung mit einer zugeordneten URL dadurch, dass sie die Dokument abrufende Einheit 11 ein Dokument aus dem Internet erhalten lässt, das der URL entspricht. Die Teil spezifizierende Einheit 12 sendet das empfangene Dokument an die Dokument strukturierende Einheit 13 zum Strukturieren des Dokuments. Das Verfahren geht zu Schritt M10.
  • Bei Schritt M10 empfängt die Baumstruktur-Umwandlungseinheit 31 das strukturierte Dokument von der Dokument strukturierenden Einheit 13 und konvertiert das Dokument in eine Baumstruktur mit Tags und Text als Dokumentelemente, das zu der Teilbaum-Identifikator erzeugenden Einheit 32 zugeführt wird. Das Verfahren geht dann zu Schritt M20.
  • Bei Schritt M20 erzeugt die Teilbaum-Identifikator erzeugende Einheit 32 einen Tag-Identifikator für jedes Tag, das das Dokument bildet, das in die Baumstruktur von der Baumstruktur-Umwandlungseinheit 31 umgewandelt ist. Der Tag-Identifikator umfasst einen Tag-Namen, einen Namen eines Formatattributs und einen Wert des Formatattributs. In einem Beispiel aus 9 wird dem „Table-Tag" ein Tag-Identifikator „table_border=0&cellpadding=1" gegeben, der einen Tag-Namen „table" und Formatattribute und ihre Werte ,border="0" cellpadding="1"' kombiniert. Falls es zwei oder mehr Formatattribute gibt, werden sie in einer vorbestimmten Reihenfolge der Formatattributnamen angeordnet, um den Tag-Identifikator zu normalisieren. Der Tag-Identifikator, der in dieser Weise erhalten wird, wird als ein Identifikator eines Teilbaums verwendet und mit einem entsprechenden Baumstrukturelement angepasst. Die Baumstrukturdaten einschließlich von Teilbaum-Identifikatoren, wie in 9 gezeigt, werden dann zu der Dokument strukturierenden Einheit 13 gesendet.
  • Bei Schritt A20 isoliert die Teil spezifizierende Einheit 12 einen Teil, der von dem Benutzer durch eine Benutzerschnittstelle ausgewählt wird, die den Benutzer mit einer Vorrichtung einer leichten Auswahl versorgt, wie in 7 gezeigt. Das Verfahren geht dann zu Schritt A30.
  • Bei Schritt A30 erhält die Teil spezifizierende Einheit 12 einen Teilbaum-Identifikator, der dem ausgewählten Teil aus den Koordinaten oder Ähnlichem eines ausgewählten Bereich entspricht, wie in 8 gezeigt. Der erhaltende Teilbaum-Identifikator und die Dokument-URL werden dann als ein Paar in der Teilinformationsspeichereinheit 2 gespeichert und die Dokumententeil-ID wird entsprechend zu dem gespeicherten Paar erhalten. Im Folgenden wird der Teilidentifikationsprozess B beschrieben.
  • Bei Schritt B10 empfängt die Teilbaum-Identifikator identifizierende Einheit 42 eine Teilabrufanforderung zusammen mit einer Dokumententeil-ID von dem Benutzer. Die Teilbaum-Identifikator identifizierende Einheit 42 überträgt die Dokumententeil-ID zu der Teilinformationsspeichereinheit 2, um die relevante URL und den entsprechenden Teilbaum-Identifikator zu erhalten. Das Verfahren geht dann zu Schritt B20.
  • Bei Schritt B20 erhält die Teilbaum-Identifikator identifizierende Einheit 42 ein Dokument entsprechend der erhaltenen URL durch Verwenden der Dokument-Abrufeinheit 41. Die Teilbaum-Identifikator identifizierende Einheit 42 leitet das erhaltene Dokument an die Dokument strukturierende Einheit 43 und gibt eine Dokumentstrukturierungsanforderung aus. Das Verfahren geht zu Schritt M10.
  • Bei Schritt M10 empfängt die Baumstruktur-Umwandlungseinheit 31 das strukturierte Dokument von der Dokument strukturierenden Einheit 43 und konvertiert das Dokument in eine Baumstruktur einschließlich von Dokument-Tags und Texten. Die Baumstruktur-Umwandlungseinheit 31 führt die Baumstruktur der Teilbaum-Identifikator erzeugenden Einheit 32 zu. Das Verfahren schreitet fort zu Schritt M20.
  • Bei Schritt M20 erzeugt die Teilbaum-Identifikator erzeugende Einheit 32 einen Tag-Identifikator für jedes Tag, das das Dokument bildet, das in die Baumstruktur von der Baumstruktur-Umwandlungseinheit 31 konvertiert ist. Der Tag-Identifikator besteht aus einem Tag-Namen, einem Namen eines Formatattributs und einem Wert des Formatattributs. In einem Beispiel aus 9 wird dem „Table-Tag" ein Tag-Identifikator „table_border=0&cellpadding=1" gegeben, der einen Tag-Namen „table" und Formatattribute und ihre Werte ,border="0" cellpadding="1"' kombiniert. Falls es zwei oder mehr Formatattribute gibt, sind diese in einer vorbestimmten Reihenfolge der Formatattributnamen angeordnet, um den Tag-Identifikator zu normalisieren. Der in dieser Art und Weise erhaltene Tag-Identifikator wird als ein Identifikator für einen Teilbaum verwendet und mit einem entsprechenden Baumstrukturelement angepasst. Baumstrukturdaten einschließlich von Teilbaum-Identifikatoren, wie in 9 gezeigt, werden dann zu der Dokument strukturierenden Einheit 43 gesendet. Das Verfahren geht dann zu B30.
  • Bei B30 findet Teilbaum-Identifikator identifizierende Einheit 42 einen Tag entsprechend zu dem erhaltenen Teilbaum-Identifikator aus der Liste von Elementen der konvertierten Baumstruktur, wie in 11 gezeigt. Falls kein entsprechender Teilbaumstruktur Identifikator gefunden wird, endet das Verfahren. Falls ein entsprechender Teilbaumstruktur Identifikator gefunden wird, geht das Verfahren zu Schritt B40 weiter.
  • Bei Schritt B40 versorgt die Teilbaum-Identifikator identifizierende Einheit 42 einen Benutzer mit einem Dokumententeil, der zu einem Teilbaum gehört, der dem erhaltenen Teilbaum-Identifikator entspricht.
  • [ZWEITE AUSFÜHRUNG]
  • 14 ist ein Blockdiagramm eines Systems zum Extrahieren von Information aus einem strukturierten Dokument gemäß einer zweiten Ausführung der vorliegenden Erfindung.
  • Das gezeigte System ist auf eine Konfiguration gerichtet, die eindeutig einen ausgewählten Teil identifizieren kann, selbst falls die gleiche Kombination eines Tags und von Formatattributen, die der Wurzel eines ausgewählten Teilbaums entspricht, für andere Tags in dem Dokument verwendet wird.
  • Die Konfiguration der zweiten Ausführung ist identisch zu derjenigen der ersten Ausführung außer für eine Teilbaum-Identifikator identifizierende Einheit 32a der Dokumentstruktur analysierenden Einheit 3. Eine Beschreibung des identischen Teils wird im Folgenden ausgelassen.
  • Die Teilbaum-Identifikator erzeugende Einheit 32a erzeugt einen Tag-Identifikator für jedes Tag, das das Dokument bildet, das in die Baumstruktur durch die Baumstruktur-Umwandlungseinheit 31 konvertiert ist. Der Tag-Identifikator umfasst einen Tag-Namen, einen Namen eines Formatattributs und einen Wert eines Formatattributs. In einem Beispiel aus 15 wird dem ersten „Table-Tag" ein Tag-Identifikator „table_border=0&cellpadding=1" gegeben, der einen Tag-Namen „table" und Formatattribute und ihre Werte ,border="0" cellpadding="1"' umfasst. Falls es zwei oder mehr Formatattribute gibt, werden diese in einer vorbestimmten Reihenfolge der Formatattributnamen angeordnet, um den Tag-Identifikator zu normalisieren.
  • Numerische Wert-Indizes werden dann erzeugt, die die Sequenznummer von Tag-Identifikatoren anzeigen, die zu der gleichen hierarchischen Ebene der Baumstruktur gehören. Ein Tag-Identifikator und ein numerische Wertindex werden als ein Satz gepaart und eine Vielzahl an Sätzen werden in Serie von der Wurzel der gesamten Baumstruktur zu der Wurzel eines Teilbaums verbunden, wodurch der Identifikator des Teilbaums bereitgestellt wird, wie in 15 gezeigt. Die Baumstrukturdaten einschließlich von Teilbaum-Identifikatoren, wie in 16 gezeigt, werden dann zu der Dokument strukturierenden Einheit 13 oder 43 zugeführt.
  • 17 ist ein Flussdiagramm eines Verfahrens eines Extrahierens von Information aus einem strukturierten Dokument gemäß der zweiten Ausführung der vorliegenden Erfindung.
  • Im Folgenden wird eine Beschreibung in Bezug auf andere Schritte als Schritt M20a ausgelassen, da diese Schritte identisch zu denjenigen der ersten Ausführung sind.
  • Bei Schritt M20a erzeugt die Teilbaum-Identifikator erzeugende Einheit 32a einen Tag-Identifikator für jedes Tag, das das Dokument bildet, das in die Baumstruktur durch die Baumstruktur-Umwandlungseinheit 31 konvertiert ist. Der Tag-Identifikator umfasst einen Tag-Namen, einen Namen eines Formatattributs und einen Wert eines Formatattributs. In einem Beispiel aus 15 wird dem ersten „Table-Tag" ein Tag-Identifikator „table_border=0&cellpadding=1" gegeben, der einen Tag-Namen „table" und Formatattribute und ihre Werte ,border="0" cellpadding="1"' umfasst. Falls es zwei oder mehr Formatattribute gibt, werden diese in einer vorbestimmten Reihenfolge der Formatattributnamen angeordnet, um den Tag-Identifikator zu normalisieren. Das Verfahren geht dann zu Schritt M30a.
  • Bei Schritt M30a erzeugt die Teilbaum-Identifikator erzeugende Einheit 32a numerische Wert-Indizes, die die Sequenznummer von Tag-Identifikatoren anzeigen, die zu der gleichen hierarchischen Ebene der Baumstruktur gehören und kombiniert jeden Tag-Identifikator mit einem entsprechenden numerischen Wertindex als einen Satz. Eine Vielzahl von Sätzen wird in Serie von der Wurzel der gesamten Baumstruktur zu der Wurzel eines Teilbaums verbunden, wodurch der Identifikator des Teilbaums bereitgestellt wird, wie in 15 gezeigt. Die Baumstrukturdaten einschließlich von Teilbaum-Identifikatoren, wie in 16 gezeigt, werden dann zu der Dokument strukturierenden Einheit 13 oder 43 zugeführt. Das Verfahren schreitet dann weiter zu Schritt A20 oder B30.
  • [DRITTE AUSFÜHRUNG]
  • 18 ist ein Blockdiagramm eines Systems zum Extrahieren von Information aus einem strukturierten Dokument gemäß einer dritten Ausführung der vorliegenden Erfindung.
  • Das gezeigte System ist auf eine Konfiguration gerichtet, die die Verschlechterung einer Zuverlässigkeit einer Teilextraktion vermindern kann, selbst falls offene Tags oberhalb des ausgewählten Teils existieren.
  • Die Konfiguration der dritten Ausführung ist identisch zu derjenigen der ersten Ausführung außer für eine Teilbaum-Identifikator identifizierende Einheit 42a. Eine Beschreibung des identischen Teils wird im Folgenden ausgelassen.
  • Die Teilbaum-Identifikator identifizierende Einheit 42a empfängt eine Teil-Abrufanforderung mit einer Dokumententeil-ID von einem Benutzer und leitet die Dokumententeil-ID an die Teilinformationsspeichereinheit 2 weiter, um die relevante URL und den entsprechenden Teilbaum-Identifikator zu erhalten. Die URL wird dann zu der Dokument-Abrufeinheit 41 übertragen, um das entsprechende Dokument zu erhalten. Die Teilbaum-Identifikator identifizierende Einheit 42a sendet eine Anforderung zu der Dokument strukturierenden Einheit 43, um das empfangene Dokument zu strukturieren, wodurch eine Liste an Elementen der konvertierten Baumstruktur erhalten wird, wie in 16 gezeigt.
  • Der Teilbaum-Identifikator, der aus der Teilinformationsspeichereinheit 2 erhalten wird, muss aus einer Liste von Teilbaum-Identifikatoren der erhaltenen Elemente identifiziert werden. Ein Tag-Identifikator, der an dem Ende des Identifikators lokalisiert ist, wird alleine für den Anpassungszweck verwendet. In dem Falle von „doc.table_border=1&cellpadding=1[0].table_border=0&cellpadding=1[1]" bezieht sich zum Beispiel ein Tag-Identifikator an dem Ende des Teilbaum-Identifikators auf „table_border=0&cellpadding=1[1]", das an dem Ende der Zeichenkette bereitgestellt ist. Wenn es zwei oder mehr Kandidaten gibt, die mit dem ausgewählten Teilbaum übereinstimmen, werden die numerischen Wert-Indizes, die mit den Tag-Identifikatoren verknüpft sind, in Reihenfolge erwähnt, um die Kandidaten zu filtern.
  • Falls mehr als ein Kandidat nach dem Filtern der Kandidaten basierend auf einer Verwendung des numerischen Wertindex verbleibt, wird ein Elternknoten-Tag zum Anpassen von Identifikatoren berücksichtigt. Das Anpassen von Identifikatoren wird rekursiv durch Heraufsteigen zu sukzessiven Ahnenknoten durchgeführt, bis lediglich ein Teilbaum als Kandidat verbleibt. Dieser verbleibende Baum wird als der ausgewählte Teilbaum identifiziert. Der Benutzer wird mit einem Dokumententeil versorgt, der dem identifizierten Teilbaum-Identifikator entspricht.
  • 19 ist ein Flussdiagramm eines Verfahrens eines Extrahierens von Information aus einem strukturierten Dokument gemäß der dritten Ausführung der vorliegenden Erfindung. In dem Folgenden wird eine Beschreibung in Bezug auf andere Schritte als Schritt B30a bis B90a ausgelassen, um eine doppelte Beschreibung, identisch zu derjenigen der ersten Ausführung, zu vermeiden.
  • Bei B30a muss die Teilbaum-Identifikator identifizierende Einheit 42 den Teilbaum-Identifikator, der aus der Teilinformationsspeichereinheit 2 erhalten wird, aus der Liste von Elementen der konvertierten Baumstruktur identifizieren, wie in 16 gezeigt. Zu diesem Zweck wählt die Teilbaum-Identifikator identifizierende Einheit 42 einen Tag-Identifikator an dem Ende des Identifikators zur Verwendung als ein Anpassungselement. Im Falle von „doc.table_border=1&cellpadding=1[0].table_border=0&cellpadding=1[1]" bezieht sich zum Beispiel ein Tag-Identifikator am Ende des Teilbaum-Identifikators auf „table_border=0&cellpadding=1[1]", das an dem Ende der Zeichenkette bereitgestellt ist. Nachdem dieser Tag-Identifikator ausgewählt ist, geht das Verfahren zu Schritt B40a.
  • Bei Schritt B40a wird das Anpassen von Tag-Identifikatoren in Bezug auf den gegenwärtig ausgewählten Tag-Identifikator durchgeführt. Falls es zwei oder mehr Kandidaten gibt, die mit dem erhaltenen Teilbaum-Identifikator übereinstimmen, geht das Verfahren zu Schritt B50a. Falls alternativ es lediglich einen Kandidaten gibt, geht das Verfahren zu Schritt B60a. Falls es alternativ keinen Kandidaten gibt, endet das Verfahren.
  • Bei Schritt B50a wird das Filtern der Kandidaten durch Bezugnehmen auf die numerischen Wert-Indizes durchgeführt, die mit dem Tag-Identifikator verknüpft sind. Falls zwei oder mehr Kandidaten nach einem Filtern verbleiben, geht das Verfahren zu Schritt B80a voran. Falls alternativ lediglich ein Kandidat verbleibt, geht das Verfahren zu Schritt B60a. Falls es keinen Kandidaten gibt, endet das Verfahren.
  • Bei Schritt B60a wird, da es lediglich einen Kandidaten gibt, der mit dem Elternbaumteil Identifikator übereinstimmt, dieser Kandidaten-Teilbaum als der ausgewählte Teilbaum identifiziert, gefolgt von einem Voranschreiten zu Schritt B70a.
  • Bei Schritt B70a versorgt die Teilbaum-Identifikator identifizierende Einheit 42 den Benutzer mit einem Dokumentteil, der zu dem Teilbaum gehört, der dem erhaltenen Teilbaum-Identifikator entspricht.
  • Bei Schritt B80a wird, da zwei oder mehr Kandidaten verbleiben, selbst nach einem Filtern basierend auf der Verwendung von numerischen Wert-Indizes, ein nächstes Anpassungselement durch Heraufsteigen zu der nächsten Ebene gewählt. Falls nämlich der Tag-Identifikator „table_border=0& cellpadding=1[1]" an dem Ende von „doc.table_border=1&cellpadding=1[0].table_border=0&cellpadding=1[1]" zuerst verwendet wird, wird ein Eltern Tag-Identifikator „table_border=1&cellpadding=1[0]" als ein nächstes Anpassungselement verwendet. Das Verfahren geht dann zu Schritt B90a.
  • Bei Schritt B90a wird eine Überprüfung durch Heraufsteigen zu der nächst höheren Ebene bei Schritt B80 durchgeführt, ob kein weiteres Anpassungselement existiert, nach einem Verwenden des Tags an der höchsten Ebene als ein Anpassungselement. Falls kein weiteres Anpassungselement existiert, endet das Verfahren. Ansonsten geht das Verfahren zurück zu Schritt B40a.
  • Die Verfahren der Ausführungen, wie oben beschrieben, können als Programme implementiert sein, die auf einem Computer installiert sind, der als ein Gerät zum Extrahieren von Information verwendet wird. Derartige Programme können durch Netzwerke verteilt werden.
  • Diese Programme können in einem Festplattenlaufwerk oder einem entfernbaren Speichermedium, wie zum Beispiel einer flexiblen Diskette, einer CD-Rom oder Ähnlichem gespeichert werden, das mit dem Computer verbunden ist, der als ein Information extrahierendes Gerät verwendet wird und können in den Speicher zur Zeit einer Verwendung des Verfahrens der Erfindung geladen werden.
  • 20 ist ein Flussdiagramm, das ein Schema der vorliegenden Erfindung zeigt, die einen Benutzer mit einer Benutzerschnittstelle zur einfachen Auswahl eines Teils eines strukturierten Dokumentes, wie zum Beispiel eines HTML-Dokuments, in einer Weise versorgt, die intuitiv leicht zu verstehen ist.
  • Die vorliegende Erfindung ist auf ein Verfahren eines Auswählens und Extrahierens eines Teils eines strukturierten Dokumentes gerichtet, wie zum Beispiel eines HTML-Dokuments. Ein Endknoten an einem Ende einer Baumstruktur wird identifiziert, der einer Position entspricht, die von einem Benutzer auf einem Bildschirm angezeigt wird, der das Dokument anzeigt (Schritt 1). Der Benutzer wird eingeladen, einen Knoten aus einer Serie von Knoten zu wählen, die durch sukzessives Detektieren höherer Knoten von dem Endknoten an erhalten werden (Schritt 2). Dann wird ein Teil des strukturierten Dokuments entsprechend dem Benutzer-gewählten Knoten ausgewählt (Schritt 3).
  • 21 ist ein Blockdiagramm einer schematischen Benutzerschnittstelle gemäß der vorliegenden Erfindung.
  • Ein Gerät zum Auswählen und Extrahieren eines Teils eines strukturierten Dokuments, wie zum Beispiel ein HTML-Dokument, umfasst eine Knoten detektierende Einheit 101 zum Detektieren eines Endknotens einer Baumstruktur, die einer Position entspricht, die von einem Benutzer auf einem Bildschirm mit einem angezeigten Dokument angezeigt wird, einer Auswahl bestimmenden Einheit 102 zum Auffordern des Benutzers, einen Knoten aus einer Serie von Knoten auszuwählen, die durch sukzessives Detektieren höherer Knoten von dem Endknoten erhalten werden, und eine Teil auswählende Einheit 103 zum Auswählen des Teils des strukturierten Dokuments, der dem Benutzer-gewählten Knoten entspricht.
  • 22 ist ein Blockdiagramm eines Geräts gemäß einer Ausführung der vorliegenden Erfindung.
  • Ein Gerät 100 zum Auswählen und Extrahieren eines Teils eines strukturierten Dokuments umfasst eine Anzeigesteuerungseinheit 110 einschließlich einer einen ausgewählten Teil markierenden Einheit 111, einer Eingabeeinheit 120, einer Baumstruktur erzeugenden Einheit 130 und einer Anzeigeteil speichernden Einheit 140. Ein Anzeigegerät 10 und ein Eingabegerät 20 werden mit dem Gerät 100 verbunden.
  • Das Anzeigegerät 10 zeigt HTML-Text und Bilder an, die von einem Browser verarbeitet werden.
  • Das Eingabegerät 20 empfängt Information, die von einem Benutzer durch einen Knopfbetrieb oder Ähnliches spezifiziert wird. Ein derartiger Knopfbetrieb umfasst eine Bereichsvergrößerung (+), eine Größenverringerung (–), Löschen (clear) und Auswählen (select).
  • Die einen ausgewählten Teil markierende Einheit 111 der Anzeigesteuerungseinheit 110 zeigt ein Objekt an, das von einem Benutzer-Knopfbetrieb aus Objekten an unterschiedlichen Ebenen der Baumstruktur ausgewählt wird. Ein Teil, der als ein von dem Benutzer gewünschter Teil ausgewählt ist, wird in der Anzeigeteil speichernden Einheit 140 zum Beispiel als ein HTML-Text gespeichert.
  • Die Eingabeeinheit 120 empfängt Benutzereingaben (Eingaben durch Knopfbetriebe) von dem Eingabegerät 20 und leitet die eingegebene Information an die Baumstruktur erzeugende Einheit 130 und die einen ausgewählten Teil markierende Einheit 111 weiter.
  • Die Baumstruktur erzeugende Einheit 130 findet ein Objekt, das an einer Position lokalisiert ist, die von einem Benutzer angeklickt wird, durch Auswählen des Objektes aus Objekten, die die gesamte Baumstruktur des HTML-Dokuments bilden. Das Objekt wird in einem Feld von Objekten gespeichert.
  • 23 ist ein Flussdiagramm eines Verfahrens des Auswählens und Extrahierens eines Teils gemäß einer Ausführung der vorliegenden Erfindung.
  • Bei Schritt 110 wird ein zu verarbeitendes HTML-Dokument in dem Browserfenster eines Benutzerendgerätes angezeigt. Bei Schritt 120 klickt der Benutzer einen Teil an, den der Benutzer wünscht auf dem Bildschirm auszuwählen. Bei Schritt 130 extrahiert die Baumstruktur erzeugende Einheit 130 ein Objekt entsprechend zu der angeklickten Position aus den Objekten, die die HTML-Baumstruktur bilden. Ein rechteckiger Bereich entsprechend zu dem extrahierten Objekt wird auf dem Dokument markiert, das auf dem Bildschirm angezeigt ist, wie in 24 gezeigt.
  • Falls der Benutzer den markierten Teil als seine/ihre Auswahl bestimmt, wird der markierte Teil in der Anzeigeteil speichernden Einheit 140 als ein HTML-Text gespeichert (Schritt 160). Dann wird eine Markierung auf dem Dokument entfernt (Schritt 180). Falls es der Benutzer wählt, den markierten Bereich nicht auszuwählen, kann der Benutzer den markierten Bereich durch Betreiben der Knöpfe, die auf dem Bildschirm gezeigt sind, vergrößern („+"), verkleinern („–„) oder löschen („clear") (Schritt 170). Durch diese Knopfbetriebe werden Objekte, die zu oberen Ebenen oder zu niedrigeren Ebenen der Baumstruktur gehören, sukzessiv angezeigt. Wenn ein gewünschter Teil auf dem Bildschirm markiert ist, wird der markierte Teil bei Schritt 150 durch den Auswahlknopf („select") ausgewählt. Der ausgewählte Teil wird in der Anzeigeteil speichernden Einheit 140 als ein HTML-Text gespeichert (Schritt 160).
  • Das oben beschriebene Verfahren kann von einem Browser durchgeführt werden. In einem derartigen Fall wird zu verarbeitendes HTML mit zusätzlichen Skripten, die in Java Skript geschrieben sind, bereitgestellt und in den Browser gespeist.
  • In dem Folgenden wird der Betrieb einer Baumstruktur erzeugenden Einheit 130 beschrieben.
  • 25 ist ein Blockdiagramm, das einen Betrieb der Baumstruktur erzeugenden Einheit gemäß einer Ausführung der vorliegenden Erfindung zeigt.
  • Ein Feld wird initialisiert (Schritt 131). Ein Objekt, das an einer angeklickten Position lokalisiert ist, wird detektiert (Schritt 132) und in dem Feld gespeichert (Schritt 133). Hier sind Objekte Teil des HTML-Dokuments und entsprechen den jeweiligen Knoten einer Baumstruktur. Auf dem Bildschirm gibt es Bereiche, die zu den jeweiligen Objekten gehören. In dem Beispiel aus 29 umfasst eine Baumstruktur insgesamt 13 Knoten. Falls das detektierte Objekt ein Eltern-Objekt aufweist (Ja bei Schritt 134), wird dieses Eltern-Objekt ebenso in dem Feld als ein Objekt gespeichert, das zu der gleichen angeklickten Position gehört (Schritt 133). Dieser Prozess wird mit Bezug auf alle Objektschichten durchgeführt, wobei ein Objektfeld a entsprechend der angeklickten Position erzeugt wird. Ein Anklicken auf „Apfel" in 29 resultiert in Objekten „k, j, i, h, f, e, d, und a", die in dem Feld a gespeichert werden.
  • Jedes Element dieses Feldes wird überprüft (Schritt 135). Dies ist dazu vorgesehen, ein Objekt der höchsten Ebene aus Objekten auszuwählen, die nicht voneinander von ihrer Erscheinung auf dem Bildschirm unterschieden werden können. Derartige Fälle treten auf, wenn Text und Bilder, die zu einem Objekt gehören, genauso wie Texte und Bereiche, die zu dem Objekt gehören, identisch zu denen anderer Objekte sind.
  • Falls es ein nächstes Element gibt, wird eine Überprüfung durchgeführt, ob ein Text, der zu dem nächsten Element gehört, unterschiedlich ist (Schritt 137). Falls dieser unterschiedlich ist, wird das Objekt in einem Feld b gespeichert (Schritt 138). Dann wird erneut eine Überprüfung durchgeführt, ob es ein nächstes Element gibt (Schritt 136). Falls kein nächstes Element existiert, wird das Objekt in dem Feld b gespeichert (Schritt 139). Dadurch endet das Verfahren.
  • In dieser Weise wird das Feld b von Objekten erhalten, bei dem diese Objekte der angeklickten Position entsprechen und voneinander auf dem Bildschirm unterscheidbar sind.
  • In dem Beispiel aus 29 weisen „k" und „j" den gleichen Text „Apfel" auf, der zu diesem gehört und „j", das an der höheren Ebene liegt, wird in dem Feld b gespeichert. „i" und „h" weisen den gleichen Text „Apfel" und „Orange" auf, der zu diesen gehört und „h", das an der höheren Ebene ist, wird in dem Feld b gespeichert. In diesem Beispiel werden „i", „h" und „a" in dem Feld b gespeichert.
  • Im Folgenden wird die einen ausgewählten Teil markierende Einheit 111 beschrieben.
  • 26 ist ein Flussdiagramm eines Betriebs, der eine ausgewählten Teil markierende Einheit 111 gemäß einer Ausführung der vorliegenden Erfindung.
  • Ein anzuzeigendes Objekt wird ausgewählt (Schritt 141). In diesem Fall einer anfänglichen Darstellung wird ein gegenwärtiges Element des Feldes b ausgewählt. Im Falle einer vergrößerten Darstellung wird ein nächst höheres Element des Feldes b als das gegenwärtige Element ausgewählt. Im Fall einer Darstellung verringerter Größe wird ein nächst niedrigeres Element des Feldes b als das gegenwärtige Element ausgewählt.
  • Bei der anfänglichen Darstellung wird eine rechteckige Form extrahiert, die den Objekten einer niedrigsten Ebene des Objektfeldes b entspricht (Schritt 142). Das extrahierte Rechteck wird auf dem Bildschirm überlagert, wie in 24 gezeigt (Schritt 143). Unter den in 24 gezeigten Knöpfen wählt der Vergrößerungsknopf „+" ein nächst höheres Objekt als das Objekt entsprechend dem gegenwärtig ausgewählten Bereich aus, was darin resultiert, dass das Rechteck des neu ausgewählten Objektes auf dem Bildschirm überlagert wird. Ebenso wählt der Größenverringerungsknopf „–„ das nächst niedrigere Objekt aus. Hinsichtlich des Beispiels aus 29 wird ein rechteckiger Bereich auf der Anzeige in Bezug auf ein entsprechendes Objekt überlagert, das aus dem Feld b ausgewählt ist, wie in 27 gezeigt.
  • Im Folgenden wird eine Systemkonstruktion in ihrer Gesamtheit beschrieben.
  • 28 ist eine darstellende Zeichnung, die eine Konstruktion des Systems gemäß einer Ausführung der vorliegenden Erfindung zeigt.
  • Das in 28 gezeigte System umfasst ein Benutzer-Client-Endgerät 100 (Gerät zum Auswählen und Extrahieren eines Teils aus einem strukturierten Dokument), einen Weiterleitungs-Server 200 und einen Server 300, der ein HTML-Dokument speichert, das einem Verarbeiten unterzogen wird.
  • In Bezug auf das HTML-Dokument, das einem Verarbeiten unterzogen wird, wird der Weiterleitungs-Server 200 „http://www.myserv.com/cgi-bin/get.cgi?http:www.foo.com/doc/html zu dem Zweck bereitgestellt, um zu erlauben, dass die oben beschriebenen Operationen auf dem gleichen Bildschirm durchgeführt werden, der „http://www.foo.com/doc.html" zeigt. Im Folgenden entsprechen Zahlen, die in „()" eingeklammert sind, den jeweiligen Zahlen, die in „()" in 28 eingeklammert sind.
    • (1) Von dem Client-Endgerät 100 startet der Benutzer das CGI des Weiterleitungs-Servers 200 in Bezug auf die URL des HTML-Dokuments, das einem Verarbeiten unterzogen wird.
    • (2) Der Weiterleitungs-Server 200 sendet eine Anforderung an den Server 300 durch Verwenden der URL.
    • (3) Der Server 300 überträgt das HTML-Dokument an den Weiterleitungs-Server 200.
    • (4) Der Weiterleitungs-Server fügt ein Job-Skript an das Ende des HTML-Dokuments hinzu, das von dem Server 300 erhalten wird.
    • (5) Der Weiterleitungs-Server 200 überträgt das HTML-Dokument an das Client-Endgerät 100, wobei das HTML-Dokument eine angehängte Funktion zum Auswählen und Extrahieren eines Dokumententeils aufweist.
  • In dieser Weise kann das Client-Endgerät 100 das HTML-Dokument mit der angehängten Funktion eines Auswählens und Extrahierens eines Dokumententeils verarbeiten.
  • Komponenten des Gerätes zum Auswählen und Extrahieren eines strukturierten Dokumententeils, wie in diesen Ausführungen beschrieben, können als Programme implementiert sein, die in einem Computer installiert sind, der als ein Gerät zum Auswählen und Extrahieren eines strukturierten Dokumententeils verwendet werden soll. Derartige Programme können durch Netzwerke verteilt werden.
  • Diese Programme können in einem Festplattenlaufwerk oder einem entfernbaren Speichermedium, wie zum Beispiel einer flexiblen Diskette, einer CD-Rom oder Ähnlichem gespeichert werden, das mit dem Computer verbunden ist, der als das Gerät zum Auswählen und Extrahieren eines strukturierten Dokumententeils verwendet wird und können in den Speicher zur Zeit eines Verwendens des Verfahrens der Erfindung geladen werden.
  • Weiter ist die vorliegende Erfindung nicht auf diese Ausführungen beschränkt, sondern es können unterschiedliche Variationen und Modifikationen durchgeführt werden, ohne von dem Umfang der vorliegenden Erfindung abzuweichen.
  • Die vorliegende Anmeldung basiert auf einer Japanischen Prioritätsanmeldung Nr. 2002-190621 , die am 28. Juni 2002 eingereicht wurde und einer Japanischen Prioritätsanmeldung Nr. 2002-204641 , die am 12. Juli 2002 beim Japanischen Patentamt eingereicht wurde.

Claims (12)

  1. Verfahren eines Extrahierens von Information aus einem strukturierten Dokument, wobei das strukturierte Dokument in eine Baumstruktur (M10) umgewandelt wird, um einen ausgewählten Teil (1) in dem strukturierten Dokument nach einem Aktualisieren von diesem zu identifizieren, wobei der ausgewählte Teil (1) im voraus aus dem strukturierten Dokument ausgewählt wird und der ausgewählte Teil einem ausgewählten Teilbaum entspricht, dadurch gekennzeichnet, dass dieses die Schritte umfasst: Zuordnen eines Teilbaum-Identifikators (A30) einschließlich eines Tag-Identifikators (Tag-Etikett) zu dem ausgewählten Teilbaum, wobei der Tag-Identifikator einen Namen eines Tags umfasst, der einer Wurzel des ausgewählten Teilbaums entspricht, einen Namen von zumindest einem Format-Attribut des Tags und einen Wert von zumindest einem Format-Attribut; Anordnen von Namen von Format-Attributen in einer vorbestimmten Reihenfolge in dem Tag-Identifikator, falls das zumindest eine Format-Attribut des Tags zwei oder mehr Format-Attribute umfasst; und Identifizieren eines Teilbaums (B20), der einen Teilbaum-Identifikator aufweist, der identisch mit dem Teilbaum-Identifikator des ausgewählten Teilbaums ist, aus einer Liste von Teilbaum-Identifikatoren der Teilbäume, die in dem strukturierten Dokument nach einem Aktualisieren von diesem existieren; wobei eine Vielzahl von Tags in dem strukturierten Dokument den Namen des Tags und den Namen des zumindest einen Format-Attributs identisch zu denjenigen des ausgewählten Teilbaumes aufweisen, wobei das Verfahren weiter die Schritte umfasst: Erzeugen numerischer Wertindices (M20), die jeweilige sequentielle Nummern von Tag-Identifikatoren auf der gleichen hierarchischen Ebene der Baumstruktur anzeigen, und Kombinieren eines Tag-identifikators (M30) und eines numerischen Wertindex in einen Satz und Verbinden einer Vielzahl an Sätzen eines Tag-Identifikators und eines numerischen Wertindex in Serie von einer Wurzel der Baumstruktur bis zu der Wurzel des ausgewählten Teilbaums; wodurch der Teilbaum-Identifikator erzeugt wird.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Identifizierens eines Teilbaums die Schritte umfasst: Anpassen der Teilbaum-Identifikatoren (B40a) der Teilbäume an den Teilbaum-Identifikator des ausgewählten Teilbaumes durch ausschließlich Bezugnehmen auf den Tag-Identifikator, der an einem Ende des teilbaum-Identifikators lokalisiert ist; Aussieben von Kandidaten (B50a) durch Bezugnehmen auf die numerischen Wertindices der Teilbaum-Identifikatoren, falls zwei oder mehr Kandidaten von Teilbaum-Identifikatoren nach dem Schritt des Anpassens verbleiben; rekursives Anpassen der Teilbaum-Identifikatoren (B80a) des Teilbaumes mit dem Teilbaum-Identifikator des ausgewählten Teilbaumes durch sukzessives Heraufsteigen zu einem nächst höheren Tag zur Verwendung beim Anpassen, falls zwei oder mehr Kandidaten der Teilbaum- Identifikatoren nach dem Schritt des Aussiebens verbleiben; und Identifizieren (B90a) als den ausgewählten Teilbaum eines Teilbaumes, der nach dem Schritt des rekursiven Anpassens der teilbaum-Identifikatoren alleine bleibt.
  3. Verfahren nach Anspruch 1, weiter mit den Schritten: Detektieren eines Endknotens der Baumstruktur, der einer Position entspricht, die von einem Benutzer an einem Bildschirm angezeigt wird, der das strukturierte Dokument anzeigt; Auffordern des Benutzers, einen Knoten aus einer Serie von Knoten auszuwählen, die durch sukzessives Detektieren nächst höherer von dem Endknoten aus erhalten werden; Auswählen eines Teils des strukturierten Dokuments als den ausgewählten Teil, der dem Knoten entspricht, der von dem Benutzer ausgewählt ist.
  4. Computerprogrammprodukt zum Veranlassen eines Computers, Information aus einem strukturierten Dokument zu extrahieren, wobei das strukturierte Dokument in eine Baumstruktur umgewandelt wird, um einen ausgewählten Teil (1) in dem strukturierten Dokument nach einer Aktualisieren von diesem zu identifizieren, wobei der ausgewählte Teil (1) im voraus aus dem strukturierten Dokument ausgewählt wird und der ausgewählte Teil einem ausgewählten Teilbaum entspricht, wobei das Programm dadurch gekennzeichnet ist, dass dieses die Schritte umfasst: Zuordnen eines Teilbaum-Identifikators (A30) einschließlich eines Tag-Identifikators (Tag-Etikett) zu dem ausgewählten Teilbaum, wobei der Tag-Identifikator einen Namen eines Tags umfasst, der einer Wurzel des ausgewählten Teilbaums entspricht, einen Namen von zumindest einem Format-Attribut des Tags und einen Wert von zumindest einem Format-Attribut; Anordnen von Namen von Format-Attributen in einer vorbestimmten Reihenfolge in dem Tag-Identifikator, falls das zumindest eine Format-Attribut des Tags zwei oder mehr Format-Attribute umfasst; und Identifizieren eines Teilbaums (B20), der einen Teilbaum-Identifikator aufweist, der identisch mit dem Teilbaum-Identifikator des ausgewählten Teilbaums ist, aus einer Liste von Teilbaum-Identifikatoren der Teilbäume, die in dem strukturierten Dokument nach einem Aktualisieren von diesem existieren; wobei eine Vielzahl von Tags in dem strukturierten Dokument den Namen des Tags und den Namen des zumindest einen Format-Attributs identisch zu denjenigen des ausgewählten Teilbaumes aufweisen, wobei das Programm weiter die Schritte umfasst: Erzeugen numerischer Wertindices (M20), die jeweilige sequentielle Nummern von Tag-Identifikatoren in der gleichen hierarchischen Ebene der Baumstruktur anzeigen, und Kombinieren eines Tag-Identifikators (M30) und eines numerischen Wertindex in einen Satz und Verbinden einer Vielzahl an Sätzen eines Tag-Identifikators und eines numerischen Wertindex in Serie von einer Wurzel der Baumstruktur bis zu der Wurzel des ausgewählten Teilbaums; wodurch der Teilbaum-Identifikator erzeugt wird.
  5. Programm nach Anspruch 4, wobei der Schritt des Identifizierens eines Teilbaums die Schritte umfasst: Anpassen der Teilbaum-Identifikatoren (B40a) der Teilbäume an den Teilbaum-Identifikator des ausgewählten Teilbaumes durch ausschließlich Bezugnehmen auf den Tag-Identifikator, der an einem Ende des Teilbaum-Identifikators lokalisiert ist; Aussieben von Kandidaten (B50a) durch Bezugnehmen auf die numerischen Wertindices der Teilbaum-Identifikatoren, falls zwei oder mehr Kandidaten von Teilbaum-Identifikatoren nach dem Schritt des Anpassens verbleiben; rekursives Anpassen der Teilbaum-Identifikatoren (B80a) des Teilbaumes mit dem Teilbaum-Identifikator des ausgewählten Teilbaumes durch sukzessives Heraufsteigen zu einem nächst höheren Tag zur Verwendung beim Anpassen, falls zwei oder mehr Kandidaten der Teilbaum-Identifikatoren nach dem Schritt des Aussiebens verbleiben; und Identifizieren (B90a) eines Teilbaumes als den ausgewählten Teilbaum, der nach dem Schritt des rekursiven Anpassens der Teilbaum-Identifikatoren alleine bleibt.
  6. Programm nach Anspruch 4, weiter mit den Schritten: Detektieren eines Endknotens der Baumstruktur, der einer Position entspricht, die von einem Benutzer an einem Bildschirm angezeigt wird, der das strukturierte Dokument anzeigt; Auffordern des Benutzers, einen Knoten aus einer Serie von Knoten auszuwählen, die durch sukzessives Detektieren nächst höherer Knoten von dem Endknoten aus erhalten werden; Auswählen eines Teils des strukturierten Dokuments als den ausgewählten Teil, der dem Knoten entspricht, der von dem Benutzer ausgewählt ist.
  7. Computer-lesbares Medium, das ein Programm in sich verkörpert ausweist, zum Veranlassen eines Computers, Information aus einem strukturierten Dokument zu extrahieren, wobei das strukturierte Dokument in eine Baumstruktur umgewandelt wird, um einen ausgewählten Teil (1) in dem strukturierten Dokument nach einer Aktualisieren von diesem zu identifizieren, wobei der ausgewählte Teil (1) im voraus aus dem strukturierten Dokument ausgewählt wird und der ausgewählte Teil einem ausgewählten Teilbaum entspricht, wobei das Programm dadurch gekennzeichnet ist, dass dieses die Schritte umfasst: Zuordnen eines Teilbaum-Identifikators (A30) einschließlich eines Tag-Identifikators (Tag-Etikett) zu dem ausgewählten Teilbaum, wobei der Tag-Identifikator einen Namen eines Tags umfasst, der einer Wurzel des ausgewählten Teilbaums entspricht, einen Namen von zumindest einem Format-Attribut des Tags und einen Wert von zumindest einem Format-Attribut; Anordnen von Namen von Format-Attributen in einer vorbestimmten Reihenfolge in dem Tag-Identifikator, falls das zumindest eine Format-Attribut des Tags zwei oder mehr Format-Attribute umfasst; und Identifizieren eines Teilbaums (B20), der einen Teilbaum-Identifikator aufweist, der identisch mit dem Teilbaum-Identifikator des ausgewählten Teilbaums ist, aus einer Liste von Teilbaum-Identifikatoren der Teilbäume, die in dem strukturierten Dokument nach einem Aktualisieren von diesem existieren; wobei eine Vielzahl von Tags in dem strukturierten Dokument den Namen des Tags und den Namen des zumindest einen Format-Attributs identisch zu denjenigen des ausgewählten Teilbaumes aufweisen, wobei das Programm weiter die Schritte umfasst: Erzeugen numerischer Wertindices (M20), die jeweilige sequentielle Nummern von Tag-Identifikatoren in der gleichen hierarchischen Ebene der Baumstruktur anzeigen, und Kombinieren eines Tag-Identifikators (M30) und eines numerischen Wertindex in einen Satz und Verbinden einer Vielzahl an Sätzen eines Tag-Identifikators und eines numerischen Wertindex in Serie von einer Wurzel der Baumstruktur bis zu der Wurzel des ausgewählten Teilbaums; wodurch der Teilbaum-Identifikator erzeugt wird.
  8. Computer-lesbares Medium nach Anspruch 7, wobei der Schritt des Identifizierens eines Teilbaums die Schritte umfasst: Anpassen der Teilbaum-Identifikatoren (B40a) der Teilbäume an den Teilbaum-Identifikator des ausgewählten Teilbaumes durch ausschließlich Bezugnehmen auf den Tag-Identifikator, der an einem Ende des Teilbaum-Identifikators lokalisiert ist; Aussieben von Kandidaten (B50a) durch Bezugnehmen auf die numerischen Wertindices der Teilbaum-Identifikatoren, falls zwei oder mehr Kandidaten von Teilbaum-Identifikatoren nach dem Schritt des Anpassens verbleiben; rekursives Anpassen der Teilbaum-Identifikatoren (B80a) des Teilbaumes mit dem Teilbaum-Identifikator des ausgewählten Teilbaumes durch sukzessives Heraufsteigen zu einem nächst höheren Tag zur Verwendung beim Anpassen, falls zwei oder mehr Kandidaten der Teilbaum-Identifikatoren nach dem Schritt des Aussiebens verbleiben; und Identifizieren (B90a) eines Teilbaumes als den ausgewählten Teilbaum, der nach dem Schritt des rekursiven Anpassens der Teilbaum-Identifikatoren alleine bleibt.
  9. Computer-lesbares Medium nach Anspruch 7, weiter mit den Schritten: Detektieren eines Endknotens der Baumstruktur, der einer Position entspricht, die von einem Benutzer an einem Bildschirm angezeigt wird, der das strukturierte Dokument anzeigt; Auffordern des Benutzers, einen Knoten aus einer Serie von Knoten auszuwählen, die durch sukzessives Detektieren nächst höherer Knoten von dem Endknoten aus erhalten werden; Auswählen eines Teils des strukturierten Dokuments als den ausgewählten Teil, der dem Knoten entspricht, der von dem Benutzer ausgewählt ist.
  10. Gerät zum Extrahieren von Information aus einem strukturierten Dokument, mit einer Baumstruktur-Umwandlungseinheit (32), die das strukturierte Dokument in eine Baumstruktur umgewandelt; und gekennzeichnet dadurch, dass dieses weiter umfasst einer Teilbaum-Identifikator erzeugenden Einheit (32), die einen Teilbaum-Identifikators einschließlich eines Tag-Identifikators (Tag-Etikett) zu dem ausgewählten Teilbaum zuweist, wobei der Tag-Identifikator einen Namen eines Tags umfasst, der einer Wurzel des ausgewählten Teilbaums entspricht, einen Namen von zumindest einem Format-Attribut des Tags und einen Wert von zumindest einem Format-Attribut; wobei die Teilbaum-Identifikator erzeugende Einheit Namen von Format-Attributen in einer vorbestimmten Reihenfolge in dem Tag-Identifikator anordnet, falls das zumindest eine Format-Attribut des Tags zwei oder mehr Format-Attribute umfasst.
  11. Gerät nach Anspruch 10, wobei eine Vielzahl von Tags in dem strukturierten Dokument den Namen des Tags und den Namen des zumindest einen Format-Attributs identisch zu denjenigen des ausgewählten Teilbaumes aufweisen, und wobei die Teilbaum-Identifikator erzeugende Einheit (32) numerische Wertindices erzeugt, die jeweilige sequentielle Nummern von Tag-Identifikatoren in der gleichen hierarchischen Ebene der Baumstruktur anzeigen, und einen Tag-Identifikator und einen numerischen Wertindex in einen Satz kombiniert, gefolgt von einem Verbinden einer Vielzahl an Sätzen eines Tag-Identifikators und eines numerischen Wertindex in Serie von einer Wurzel der Baumstruktur bis zu der Wurzel des ausgewählten Teilbaums; wodurch der Teilbaum-Identifikator erzeugt wird.
  12. Gerät nach Anspruch 10, weiter mit: einer knoten detektierenden Einheit (10), die einen Endknoten der Baumstruktur detektiert, der einer Position entspricht, die von einem Benutzer an einem Bildschirm angezeigt wird, der das strukturierte Dokument anzeigt; einer Auswahl bestimmenden Einheit (102), die den Benutzer auffordert, einen Knoten aus einer Serie von Knoten auszuwählen, die durch sukzessives Detektieren nächst höherer Knoten von dem Endknoten aus erhalten werden; und einer Teil auswählenden Einheit (103), die einen Teil des strukturierten Dokuments als den ausgewählten Teil auswählt, der dem Knoten entspricht, der von dem Benutzer ausgewählt ist.
DE60314806T 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten Expired - Lifetime DE60314806T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002190621A JP3937944B2 (ja) 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
JP2002190621 2002-06-28
JP2002204641 2002-07-12
JP2002204641A JP2004046642A (ja) 2002-07-12 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
DE60314806D1 DE60314806D1 (de) 2007-08-23
DE60314806T2 true DE60314806T2 (de) 2008-03-13

Family

ID=29718460

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60314806T Expired - Lifetime DE60314806T2 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten
DE60333238T Expired - Lifetime DE60333238D1 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60333238T Expired - Lifetime DE60333238D1 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten

Country Status (5)

Country Link
US (2) US7685157B2 (de)
EP (2) EP1376408B1 (de)
KR (1) KR100572576B1 (de)
CN (1) CN1244877C (de)
DE (2) DE60314806T2 (de)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1376408B1 (de) * 2002-06-28 2007-07-11 Nippon Telegraph and Telephone Corporation Extrahierung von Information aus strukturierten Dokumenten
WO2004068320A2 (en) * 2003-01-27 2004-08-12 Vincent Wen-Jeng Lue Method and apparatus for adapting web contents to different display area dimensions
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
GB2411017A (en) * 2004-02-13 2005-08-17 Satellite Information Services Updating mark-up language documents from contained instructions
US8762381B2 (en) 2004-05-21 2014-06-24 Ca, Inc. Storing multipart XML documents
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的***、方法
DE602006014035D1 (de) * 2005-01-14 2010-06-17 Thefind Inc Verfahren und System zur Informationsextraktion
CN100395755C (zh) * 2006-02-23 2008-06-18 无锡永中科技有限公司 计算机中建立树状文件结构的方法
US20070266309A1 (en) * 2006-05-12 2007-11-15 Royston Sellman Document transfer between document editing software applications
US9460064B2 (en) * 2006-05-18 2016-10-04 Oracle International Corporation Efficient piece-wise updates of binary encoded XML data
CN101094194B (zh) * 2006-06-19 2010-06-23 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法
JP4146479B2 (ja) * 2006-09-28 2008-09-10 株式会社東芝 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
JP2008108096A (ja) * 2006-10-26 2008-05-08 Sony Corp コンテンツ共有システム、コンテンツ管理サーバ、クライアント機器、コンテンツ管理方法およびコンテンツ取得方法
US8291310B2 (en) * 2007-08-29 2012-10-16 Oracle International Corporation Delta-saving in XML-based documents
KR100902674B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 문서 탐색 서비스 제공 방법 및 시스템
US20090138500A1 (en) * 2007-10-12 2009-05-28 Yuan Zhiqiang Method of compact display combined with property-table-view for a complex relational data structure
US8515727B2 (en) * 2008-03-19 2013-08-20 International Business Machines Corporation Automatic logic model build process with autonomous quality checking
CN101571859B (zh) * 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
JP2010165272A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理方法、情報処理装置、及びプログラム
US8725794B2 (en) * 2009-09-30 2014-05-13 Tracking. Net Enhanced website tracking system and method
US8255372B2 (en) 2010-01-18 2012-08-28 Oracle International Corporation Efficient validation of binary XML data
US9633332B2 (en) 2010-07-13 2017-04-25 Hewlett Packard Enterprise Development Lp Generating machine-understandable representations of content
US8291311B2 (en) * 2011-03-07 2012-10-16 Showcase-TV Inc. Web display program conversion system, web display program conversion method and program for converting web display program
US10756759B2 (en) 2011-09-02 2020-08-25 Oracle International Corporation Column domain dictionary compression
US8935267B2 (en) * 2012-06-19 2015-01-13 Marklogic Corporation Apparatus and method for executing different query language queries on tree structured data using pre-computed indices of selective document paths
JP5841260B2 (ja) 2012-09-11 2016-01-13 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示システム、コンテンツ表示方法及びコンテンツ表示プログラム
US8812523B2 (en) 2012-09-28 2014-08-19 Oracle International Corporation Predicate result cache
US9740765B2 (en) 2012-10-08 2017-08-22 International Business Machines Corporation Building nomenclature in a set of documents while building associative document trees
US9208254B2 (en) * 2012-12-10 2015-12-08 Microsoft Technology Licensing, Llc Query and index over documents
US10454752B2 (en) 2015-11-02 2019-10-22 Servicenow, Inc. System and method for processing alerts indicative of conditions of a computing infrastructure
JP2019066917A (ja) * 2017-09-28 2019-04-25 京セラドキュメントソリューションズ株式会社 電子機器、及び翻訳支援方法
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
US20220277499A1 (en) * 2019-08-13 2022-09-01 Arbi, Inc. Systems and methods for document processing
US11194833B2 (en) * 2019-10-28 2021-12-07 Charbel Gerges El Gemayel Interchange data format system and method
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理***、方法、装置、计算机可读存储介质
CN111857737A (zh) * 2020-07-28 2020-10-30 苏州华望信息科技有限公司 基于SysML模型语义web***的动静态资源分离方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713821B2 (ja) 1991-03-08 1995-02-15 日本電気株式会社 編集装置
JPH0652161A (ja) * 1992-08-03 1994-02-25 Fuji Xerox Co Ltd 文書処理方法及び文書処理装置
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
US6546406B1 (en) * 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
US6456308B1 (en) * 1996-08-08 2002-09-24 Agranat Systems, Inc. Embedded web server
US6061697A (en) * 1996-09-11 2000-05-09 Fujitsu Limited SGML type document managing apparatus and managing method
US5974572A (en) * 1996-10-15 1999-10-26 Mercury Interactive Corporation Software system and methods for generating a load test using a server access log
JPH10171800A (ja) 1996-12-05 1998-06-26 Canon Inc 文書処理方法及びその装置
JP2867986B2 (ja) 1996-12-25 1999-03-10 日本電気株式会社 Www情報抽出システム
JPH1185690A (ja) 1997-09-08 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 有効情報提供方法及び有効情報提供システム
US6628304B2 (en) * 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6635089B1 (en) * 1999-01-13 2003-10-21 International Business Machines Corporation Method for producing composite XML document object model trees using dynamic data retrievals
JP4280360B2 (ja) 1999-06-04 2009-06-17 キヤノン株式会社 撮像装置及びその制御方法及び記憶媒体
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP2001282773A (ja) 2000-03-29 2001-10-12 Hitachi Software Eng Co Ltd 構造化文書編集装置及び、構造化文書編集方法及び記録媒体
US7702995B2 (en) * 2000-04-24 2010-04-20 TVWorks, LLC. Method and system for transforming content for execution on multiple platforms
WO2001088750A1 (en) * 2000-05-16 2001-11-22 Carroll Garrett O A document processing system and method
JP2002024227A (ja) * 2000-05-22 2002-01-25 Touuroomu Inc 無線ウェブページを生成するシステム及び方法
US6732153B1 (en) * 2000-05-23 2004-05-04 Verizon Laboratories Inc. Unified message parser apparatus and system for real-time event correlation
US20020029229A1 (en) * 2000-06-30 2002-03-07 Jakopac David E. Systems and methods for data compression
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US6842755B2 (en) * 2000-09-25 2005-01-11 Divine Technology Ventures System and method for automatic retrieval of structured online documents
JP2002190621A (ja) 2000-10-12 2002-07-05 Sharp Corp 半導体発光素子およびその製造方法
JP2002123418A (ja) 2000-10-13 2002-04-26 Nec Corp データ更新方法及びデータ更新装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6961909B2 (en) * 2001-01-05 2005-11-01 Hewlett-Packard Development Company, L.P. System for displaying a hierarchical directory
JP2002204641A (ja) 2001-01-10 2002-07-23 Shimano Inc スピニングリールのドラグ機構
US6704723B1 (en) * 2001-06-20 2004-03-09 Microstrategy, Incorporated Method and system for providing business intelligence information over a computer network via extensible markup language
US6799184B2 (en) * 2001-06-21 2004-09-28 Sybase, Inc. Relational database system providing XML query support
US20030220914A1 (en) * 2002-05-23 2003-11-27 Mindflash Technologies, Inc. Method for managing data in a network
EP1376408B1 (de) * 2002-06-28 2007-07-11 Nippon Telegraph and Telephone Corporation Extrahierung von Information aus strukturierten Dokumenten
US20050125419A1 (en) * 2002-09-03 2005-06-09 Fujitsu Limited Search processing system, its search server, client, search processing method, program, and recording medium
US7644361B2 (en) * 2002-12-23 2010-01-05 Canon Kabushiki Kaisha Method of using recommendations to visually create new views of data across heterogeneous sources
WO2004068320A2 (en) * 2003-01-27 2004-08-12 Vincent Wen-Jeng Lue Method and apparatus for adapting web contents to different display area dimensions
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text

Also Published As

Publication number Publication date
US7730104B2 (en) 2010-06-01
EP1686499A3 (de) 2007-12-12
KR100572576B1 (ko) 2006-04-24
EP1686499A8 (de) 2006-11-08
EP1376408A2 (de) 2004-01-02
EP1376408B1 (de) 2007-07-11
DE60314806D1 (de) 2007-08-23
US20050066271A1 (en) 2005-03-24
CN1244877C (zh) 2006-03-08
DE60333238D1 (de) 2010-08-12
EP1686499A2 (de) 2006-08-02
EP1376408A3 (de) 2005-10-12
US7685157B2 (en) 2010-03-23
EP1686499B1 (de) 2010-06-30
US20040044963A1 (en) 2004-03-04
CN1469276A (zh) 2004-01-21
KR20040002791A (ko) 2004-01-07

Similar Documents

Publication Publication Date Title
DE60314806T2 (de) Extrahierung von Information aus strukturierten Dokumenten
DE10135445B4 (de) Integriertes Verfahren für das Schaffen einer aktualisierbaren Netzabfrage
DE69635878T2 (de) Dokumentverwaltungsgerät
DE69839175T2 (de) Erfassen eines Hypertexts ohne Seitenwechsel in einem Dokument mit Seitenwechsel
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
DE69724356T2 (de) Verfahren und Apparat für die Darstellung von Information im Bezug auf jeden einzelnen von mehreren Hyperlinks
DE60121430T2 (de) Ändern des hypermedieninhalts einer website
DE60016772T2 (de) Verfahren und system für die publikation und revision von hierarchisch organisierten sätzen von statischen intranet- und internet-seiten
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE69634459T2 (de) Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten
JP4344693B2 (ja) ブラウザの文書編集のためのシステムおよびその方法
DE69434620T2 (de) Verfahren und Gerät zum Herstellen, Indexieren und Anschauen von zusammengefassten Dokumenten
DE60116442T2 (de) System zur Zuordnung von Schlüsselwörtern zu Dokumenten
DE60116343T2 (de) Webserver
DE60226232T2 (de) Inhaltsverwaltungssystem
JP3776866B2 (ja) 電子ドキュメント印刷プログラムおよび電子ドキュメント印刷システム
WO2009011837A1 (en) Extraction and reapplication of design information to existing websites
US20120102390A1 (en) Method and apparatus for generating widget
DE102005032046A1 (de) Verfahren, System und Computerprogramm-Produkt zum Übertragen von Daten aus einer Dokumentenanwendung in eine Datenanwendung
DE112005000509T5 (de) Verfahren zum automatischen Ermöglichen einer Rückverfolgbarkeit von Engineeringberechnungen
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE112012003541T5 (de) Automatische Erkennung von Elementlisten innerhalb einer Webseite
DE60114923T2 (de) Vorrichtung und Verfahren zur Übertragung der Server-zu-Client Information zu einem anderen Terminal
DE60310881T2 (de) Methode und Benutzerschnittstelle für das Bilden einer Darstellung von Daten mit Meta-morphing

Legal Events

Date Code Title Description
8364 No opposition during term of opposition