DE69432575T2 - Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung - Google Patents

Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung Download PDF

Info

Publication number
DE69432575T2
DE69432575T2 DE69432575T DE69432575T DE69432575T2 DE 69432575 T2 DE69432575 T2 DE 69432575T2 DE 69432575 T DE69432575 T DE 69432575T DE 69432575 T DE69432575 T DE 69432575T DE 69432575 T2 DE69432575 T2 DE 69432575T2
Authority
DE
Germany
Prior art keywords
document
unit
acquisition
input
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69432575T
Other languages
English (en)
Other versions
DE69432575D1 (de
Inventor
Kazuo Yokohama-shi Sumita
Seiji Yokohama-shi Miike
Kenji Fujisawa-shi Ono
Yoichi Yokohama-shi Takebayashi
Kimihito Takeda
Etsuo Ito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP01256193A external-priority patent/JP3202381B2/ja
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of DE69432575D1 publication Critical patent/DE69432575D1/de
Application granted granted Critical
Publication of DE69432575T2 publication Critical patent/DE69432575T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein Dokumentenerfassungssystem zum Erfassen von gewünschten Dokumenten aus einer großen Anzahl von Dokumenten, die in einer Dokumentendatenbank gespeichert sind. Es muss darauf hingewiesen werden, dass der Ausdruck "Wiederbeschaffung bzw. Retrieval" in der Fachliteratur häufig anstelle des in der nachfolgenden Beschreibung verwendeten Begriffes "Erfassung bzw. Detektion" verwendet wird. Die vorliegende Spezifikation hält durchgehend bei dem Begriff "Erfassung" fest.
  • Hintergrund der Erfindung
  • Aufgrund des bedeutenden Fortschrittes und der Verbreitung von Computern wurden in den vergangenen Jahren die elektronischen Manipulationen von Dokumenten in zunehmendem Maße gängig, wie etwa in den elektronischen Nachrichten und elektronischen Mailsystemen und den CD-ROM-Veröffentlichungen von Datenquellen, wie etwa Lexika und Nachschlagewerke, welche bisher lediglich auf Papier erhältlich waren, und es wird erwartet, dass dieser Trend der elektronischen Manipulationen von Dokumenten mit wachsendem Tempo in Zukunft anhalten wird.
  • In Verbindung mit solchen elektronischen Manipulationen von Dokumenten muss den Dokumentenerfassungssystemen zum effizienten Erfassen gewünschter Dokumente aus einer großen Anzahl von Dokumenten erhöhte Aufmerksamkeit gewidmet werden, so dass die effektive Verwendung von den im Voraus in einem Datenbanksystem gespeicherten Dokumenten ermöglicht wird.
  • Als ein herkömmliches zur Verfügung stehendes Dokumentenerfassungssystem gibt es ein System, welches Schlüsselwörter in Verbindung mit logischen Operatoren, wie etwa UND, ODER, NOT oder Annäherungsoperatoren für spezifizierende Anzahlen von Zeichen, Sätzen und Absätzen, die zwischen Schlüsselwörtern existieren, verwendet und ein Dokument unter Verwendung einer genau angegebenen Kombination von Schlüsselwörtern und Operatoren als ein Erfassungsschlüssel erfasst.
  • Jedoch ist in solch einem herkömmlichen Dokumentenerfassungssystem es nicht notwendigerweise möglich, das Dokument zu erfassen, welches wirklich von einem Benutzer erwünscht ist. In einem Fall, wenn der Erfassungsschlüssel, der die logischen Operatoren verwendet, benutzt wird, kann nämlich, wenn der spezifizierte Erfassungsschlüssel "computer AND designing" lautet, ein Dokument mit einem Inhalt von "designing by a computer" sowie ein Dokument mit einem Inhalt von "designing a computer" erfasst werden, so dass wenigstens eines der Dokumente einen Inhalt haben wird, der belanglos hinsichtlich eines gewünschten Inhaltes ist. Wenn andererseits der Erfassungsschlüssel eingesetzt wird, der Annäherungsoperatoren verwendet, dann basiert die Erfassung ausschließlich auf einer physikalischen Entfernung zwischen Schlüsselwörtern, so dass es keine Garantie dafür gibt, dass das erfasste Dokument einen gewünschten Inhalt aufweist.
  • Von daher könnte in solch einem herkömmlichen Dokumentenerfassungssystem das Erfassungsergebnis viele Dokumente enthalten, deren Inhalte eigentlich bedeutungslos hinsichtlich des gewünschten Inhalts sind, so dass es notwendig ist, den Erfassungsschlüssel zu verwenden, der durch so viele Schlüsselwörter wie möglich ausgebildet wird, die sich voraussichtlich auf den gewünschten Inhalt beziehen. Im praktischen Gebrauch würde jedoch das Erfassungsergebnis, welches durch Verwendung von solch einem Erfassungsschlüssel, der mittels einer großen Anzahl von disjunktiven Schlüsselwörtern ausgebildet ist, dazu führen, dass es eine erhebliche Anzahl von Erfassungsfehltreffern und Ausschuss enthält.
  • Aus diesem Grund benötigt das herkömmliche Dokumentenerfassungssystem für einen Benutzer eine sehr lange Zeit, um das gewünschte Dokument durch die einzelne Überprüfung der erfassten Dokumente herauszufinden. Wenn der Erfassungsschlüssel mittels enger Schlüsselwörter ausgebildet ist, um den Umfang des Erfassungssausschusses zu reduzieren, würde andererseits die Wahrscheinlichkeit eines Erfassungsfehlers anwachsen.
  • Als ein Ergebnis hiervon ist es in dem herkömmlichen Dokumentenerfassungssystem schwierig, den Umfang des Erfassungsausschusses zu reduzieren, ohne den Erfassungsfehler zu verursachen, außer wenn der Benutzer genau weiß, welche Arten von Schlüsselwörtern in welchen Arten von Dokumenten enthalten sind, und demzufolge ist es für einen gewöhnlichen Benutzer ohne solch eine detaillierte Kenntnis enorm schwierig, das herkömmliche Dokumentenerfassungssystem effizient zu betreiben.
  • Zusätzlich wurde das Erfassungsergebnis in dem herkömmlichen Dokumentenerfassungssystem durch Anzeigen von entweder einer Anzahl von erfassten Dokumenten oder von nur den Titel der erfassten Dokumente mitgeteilt, so dass es für den Benutzer es notwendig ist, um jedes der erfassten Dokumente zu überprüfen, um zu sehen, ob es das gewünschte Dokument ist oder nicht, den gesamten Inhalt von jedem der erfassten Dokumente einzeln zu lesen, und diese Arbeit ist außerordentlich zeitaufwändig.
  • In dem herkömmlichen Dokumentenerfassungssystem sind darüber hinaus beim Anzeigen der Titel der erfassten Dokumente die Titel einfach in einer vorgeschriebenen Reihenfolge gemäß der Abfrage des Benutzers angeordnet, wie etwa eine Reihenfolge der absteigenden Ähnlichkeiten hinsichtlich der in dem Erfassungsschlüssel verwendeten Schlüsselwörter. Aus diesem Grund ist es für den Benutzer nicht möglich, die relativen Beziehungen unter den erfassten Dokumenten und den Pegel der Ähnlichkeit hinsichtlich des Erfassungsbefehles für jedes der erfassten Dokumente von dem angezeigten Erfassungsergebnis nachzuvollziehen, und demzufolge ist es für den Benutzer schwierig, einen sofortigen Eindruck hinsichtlich der Eignung des angezeigten Erfassungsergebnisses zu haben.
  • Des weiteren ist in dem herkömmlichen Dokumentenerfassungssystem das Erfassungsschema darauf begrenzt, dass jedes Dokument als ein Ganzes als eine einzelne Entität behandelt wird, so dass das Dokument, welches den gewünschten Inhalt in dem Backgroundabschnitt enthält, und das Dokument, welches den gewünschten Inhalt in dem Schluss- bzw. Conclusionabschnitt enthält, zusammen in einer Mischung erfasst werden. Anders ausgedrückt, enthält das Erfassungsergebnis eine Mannigfaltigkeit von Dokumenten, die unabhängig von Betrachtungen, in welchen der gewünschte Inhalt in den Dokumenten erscheint, vermischt sind. Wenn beispielsweise kein Interesse darin besteht, was in der Vergangenheit getan wurde, ist das erfasste Dokument, welches mit den gegebenen Schlüsselwörtern im Backgroundabschnitt einen Treffer findet, ohne Verwendung. Dennoch werden in dem herkömmlichen Dokumentenerfassungssystem die Dokumente, die verschiedene Perspektiven aufweisen, wie etwa das Dokument, welches den gewünschten Inhalt in dem Backgroundabschnitt enthält, und das Dokument, welches den gewünschten Inhalt in dem Schlussabschnitt enthält, nicht unterschieden, und die vermischte Anwesenheit dieser Dokumente in verschiedenen Perspektiven macht es für den Benutzer außerordentlich schwierig, die Eignung des Erfassungsergebnisses zu beurteilen.
  • Im Hinblick auf diese Probleme wurde beabsichtigt, ein Schema zu entwickeln, bei dem die Bürde für den Benutzer reduziert wird, indem der gesamte Inhalt von jedem erfassten Dokument mittels Anzeige von lediglich einem Teil von jedem erfassten Dokument zu reduzieren. Jedoch ist es in solch einem Schema häufig nicht möglich, eine geeignete Beurteilung dahingehend zu machen, ob oder ob es nicht das gewünschte Dokument ist, ausgenommen, dass die Beziehung des angezeigten Abschnittes und der verbleibende Abschnitt ersichtlich wird. Wenn beispielsweise der Backgroundabschnitt, der den gewünschten Inhalt enthält, für ein Dokument angezeigt wird, während der Schlussabschnitt den gewünschten Inhalt für das andere Dokument enthält, bei diesen Dokumenten nicht in einer vereinheitlichten Betrachtung nachvollzogen werden kann, ist es für den Benutzer schwierig, eine geeignete Beurteilung dahingehend zu machen, welches dieser Dokumente das notwendige Dokument ist. Als ein Ergebnis hiervon würde der Benutzer gezwungen werden, die gesamten Inhalte dieser Dokumente nacheinander zu lesen, um vollständig die Perspektiven der angezeigten Abschnitte in diesen Dokumenten nachzuvollziehen, so dass es nicht zu der Verminderung der Bürde des Benutzers im gesamten beisteuert.
  • Ferner gab es eine Absicht für ein Schema, um die Bürde des Benutzers, den gesamten Inhalt von jedem erfassten Dokument zu lesen, zu reduzieren, indem eine im Voraus künstlich zusammengestellten Zusammenfassung für jedes Dokument in Übereinstimmung mit jedem gespeicherten Dokument selbst bereitgestellt wird und indem die Dokumentenzusammenfassung zu einem Zeitpunkt der Anzeige des Erfassungsergebnisses angezeigt wird. In solch einem Schema ist jedoch ein gewaltiger Aufwand zum Erstellen der Dokumentenzusammenfassung für jedes Dokument zum Zeitpunkt der Erstellung der Datenbank selbst erforderlich, was in der Praxis nicht vertretbar ist, es sei denn, das Datenbanksystem weist eine bemerkenswert hohe Verwendungsrate auf. Darüber hinaus gibt es viele bereits existierende Datenbanksysteme, in welchen die Dokumentenzusammenfassung für jedes Dokument nicht bereitgestellt wird, und auf ähnliche Weise ist ein gewaltiger Aufwand erforderlich, um die Dokumentenzusammenfassung für jedes Dokument in einem solchen bereits existierenden Datenbanksystem auszuarbeiten. Zusätzlich wird die künstliche Dokumentenzusammenfassung nur aus der sehr allgemeinen Betrachtung her erzeugt, so dass es keine Garantie gibt, dass jedes Dokument von einer Betrachtung zusammengefasst wird, der für die erforderliche Erfassung geeignet ist. Daraus resultiert, dass die als das Erfassungsergebnis angezeigte Dokumentenzusammenfassung von der Betrachtung des Benutzers mit der speziellen Dokumentenerfassungs-Zielsetzung abweichen kann, und in solch einem Fall ist es für den Benutzer möglich, das eigentlich notwendige Dokument zu einem Zeitpunkt der Beurteilung dahingehend, ob jedes erfasste Dokument das gewünschte Dokument ist oder nicht, zu überschauen.
  • Der Artikel "Natural Language Techniques for Intelligent Information Retrieval" von P. Jacobs et al., 11. International Conference on Research and Development on Information Retrieval, 13. Juni 1988, Grenoble, Frankreich, Seiten 85–99, stellt eine Analyse von natürlicher Sprachverarbeitung und Informationswiedergewinnung bereit. Ein Informations-Wiedergewinnungssystem wird beschrieben, welches sich an die beiden Felder anschließt.
  • Natürliche Sprachverarbeitung (NLP) ist eine Technik, die Computer verwenden, um Information von Angaben zu extrahieren, die in Alltagssprache und nicht in einem Computerformat vorliegen. Der Artikel erwähnt, dass NLP ebenso für Textverarbeitung verwendet werden kann, d. h. zum Extrahieren von Information aus Texten. Auf eine allgemeine Weise beschreibt der Artikel, dass Texte gescannt werden können, um Datenbänke zu erzeugen, oder Texte können vorverarbeitet werden, und bestimmte extrahierte Merkmale und Schlüsselwörter können dann für Informationszugriff verwendet werden. Im Einzelnen beschreibt der Artikel ein Informations-Wiedergewinnungssystem, welches SCISOR (System for Conceptual Information Summarization, Organisation and Retrieval) genannt wird. SCISOR liest neue Nachrichten über Zusammenschlüsse und Anschaffungen von einer Kabelnachrichtendienstquelle, extrahiert Information von den Nachrichten und beantwortet Fragen in Englisch, die zu dem gehören, was es gelesen hat. Es wird explizit erwähnt, dass die Dokumentenwiedergewinnung unpraktisch ist, und SCISOR gibt eine aktualisierte Zusammenfassung als ein Verarbeitungsergebnis in Erwiderung auf Eingabefragen aus. Die aktualisierten Zusammenfassungen werden zu einem sogenannten KING (Knowledge Intensive Generator) natürlicher Generator für Ausdruck gegeben.
  • Von dem Artikel "Information Processing & Management, Vol. 26, Nr. 1, Seiten 111–134, 1990, "SILOL: a simple logicallinguistic document retrieval system", von T. M. T. Sembok und C. J. van Rijsbergen" ist ein logisch-linguistisches Modell von Dokumentenwiedergewinnungssystemen bekannt. Andererseits weist das beschriebene System eine Datenbank von Dokumentenindizes auf, wo die Dokumentenindizes das Ergebnis eines semantischen Übersetzungsprozesses für Dokumente in nachfolgend abstrakteren logischen Darstellungen sind. Die Indizes bilden keine Sätze. Andererseits weist das beschriebene System einen Wiedergewinnungsprozessor auf, der eine Anfrage von einem Benutzer empfängt. Die empfangene Anfrage wird nachfolgend in logische Darstellungen auf die gleiche Art und Weise, wie Dokumente übersetzt werden, übersetzt, um einen Anfrageindex auszugeben. Eine Implikationseinheit berechnet dann ähnliche Werte zwischen dem Anfrageindex und den Dokumentenindizes. Dokumente mit Top-Ähnlichkeitswerten werden dann dem Benutzer dargestellt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Eine Aufgabe der vorliegenden Erfindung liegt darin, ein Dokumentenerfassungssystem anzugeben, welches in der Lage ist, ein gewünschtes Dokument aus einer großen Anzahl von Dokumenten auf einfache Weise und genau zu erfassen.
  • Diese Aufgabe wird durch ein System mit den Eigenschaften, die im Patentanspruch 1 beschrieben werden, gelöst.
  • Andere Eigenschaften und Vorteile der vorliegenden Erfindung werden anhand der folgenden Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein schematisches Blockdiagramm einer ersten Ausführungsform eines Dokumenterfassungssystems, welches allgemein nicht zu der vorliegenden Erfindung gehört, ausgenommen für die zwölfte Variation.
  • 2 ist ein Blockdiagramm für eine funktionelle Konfiguration eines Hauptteils des Dokumenterfassungssystems von 1.
  • 3 ist ein Ablaufdiagramm für eine Gesamtoperation des in 2 gezeigten Hauptteils.
  • 4 ist ein Ablaufdiagramm für eine Operation einer Erfassungssteuereinheit in dem in 2 gezeigten Hauptteil.
  • 5 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer Eingabeanalyseeinheit in dem in 2 gezeigten Hauptteil.
  • 6 ist ein Ablaufdiagramm für eine Operation der Eingabeanalyseeinheit von 5.
  • 7 ist eine Tabelle von exemplarischen Ergebnissen, die bei verschiedenen Stufen in dem Ablaufdiagramm von 6 erzielt wurden.
  • 8 ist eine diagrammatische Darstellung einer exemplarischen semantischen Analyseregel, die in dem Ablaufdiagramm von 6 verwendet wird.
  • 9 ist eine diagrammatische Darstellung einer exemplarischen, Unnötiger-Ausdrucksregel, die in dem Ablaufdiagramm von 6 verwendet wird.
  • 10 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer Erfassungsverarbeitungseinheit in dem in 2 gezeigten Hauptteil.
  • 11 ist ein Ablaufdiagramm für eine Operation der Erfassungsverarbeitungseinheit von 10.
  • 12 ist eine diagrammatische Darstellung eines exemplarischen semantischen Strukturindexspeichers, der in dem Ablaufdiagramm von 11 verwendet wird.
  • 13 ist eine Liste von ausgewählten Japanisch-Englisch-Übereinstimmungen, die beim Verständnis des in 12 gezeigten Schlüsselwortindesspeichers nützlich sind.
  • 14A und 14B sind Ablaufdiagramme für eine Operation einer Schlüsselwortindex-Anpassungseinheit und einer Dokumentendateisetz-Berechnungseinheit in der Erfassungsverarbeitungseinheit von 10.
  • 15 ist eine diagrammatische Darstellung eines exemplarischen semantischen Strukturindexspeichers, der in dem Ablaufdiagramm von 11 verwendet wird.
  • 16 ist ein Ablaufdiagramm für eine Operation einer semantischen Strukturindex-Anpassungseinheit in der Erfassungsverarbeitungseinheit von 10.
  • 17 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer Zusammenfassungs-Erzeugungseinheit in dem in 2 gezeigten Hauptteil.
  • 18 ist eine diagrammatische Darstellung einer exemplarischen Textstruktur und eines exemplarischen Satzes, die in der Zusammenfassungs-Erzeugungseinheit von 17 bearbeitet werden.
  • 19 ist eine diagrammatische Darstellung einer Datenstruktur für die Textstruktur, die in der Zusammenfassungs-Erzeugungseinheit von 17 verwendet wird.
  • 20 ist ein schematisches Ablaufdiagramm für eine Schlüsselsatz-Beurteilungseinheit in der Zusammenfassungs-Erzeugungseinheit von 17.
  • 21 ist ein detailliertes Ablaufdiagramm für eine Penalty- bzw. Abzugsberechnung, die mittels einer Schlüsselsatz-Beurteilungseinheit in der Zusammenfassungs-Erzeugungseinheit von 17 ausgeführt wird.
  • 22 ist ein Ablaufdiagramm für eine Textrekonstruktionseinheit in der Zusammenfassungs-Erzeugungseinheit von 17.
  • 23 ist eine diagrammatische Darstellung eines exemplarischen Zusammenfassungssatzspeichers in einer individuellen Datenspeichereinheit in dem Hauptteil von 2.
  • 24 ist eine Tabelle, die ein exemplarisches Anzeigeprioritäts-Regelverzeichnis in der in 2 gezeigten Erfassungssteuereinheit darstellt.
  • 25 ist eine diagrammatische Darstellung eines exemplarischen Dateninhalts der in 2 gezeigten individuellen Datenspeichereinheit.
  • 26 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige, die in dem System von 1 verwendet wird.
  • 27 ist eine diagrammatische Darstellung eines exemplarischen Dateninhalts für das Erfassungsergebnis in der in 2 gezeigten, individuellen Datenspeichereinheit.
  • 28 ist eine Darstellung einer exemplarischen Erfassungsergebnis-Bildschirmanzeige in dem System von 1 für den exemplarischen Dateninhalt von 27.
  • 29 ist eine Tabelle, die ein exemplarisches Analyseergebnis-Lernverzeichnis in der in 2 gezeigten Erfassungssteuereinheit darstellt.
  • 30 ist ein Ablaufdiagramm für eine Operation des Systems gemäß einer ersten Abwandlung der ersten Ausführungsform.
  • 31 ist eine Tabelle von exemplarischen Analyseergebnissen, die mittels der in 2 gezeigten Eingabeanalyseeinheit in der ersten Abwandlung der ersten Ausführungsform erzielt wurden.
  • 32A und 32B sind diagrammatische Darstellungen eines exemplarischen semantischen Strukturindexspeichers jeweils vor und nach der Operation von 30.
  • 33 ist ein Ablaufdiagramm für eine Operation der in 2 gezeigten Erfassungssteuereinheit in der ersten Abwandlung der ersten Ausführungsform.
  • 34 ist eine Tabelle von exemplarischen Analyseergebnissen, die mittels der in 2 gezeigten Eingabeanalyseeinheit in der zweiten Abwandlung der ersten Ausführungsform erzielt wurden.
  • 35 ist eine Liste eines anderen exemplarischen Analyseergebnisses, das mittels der in 2 gezeigten Eingabeanalyseeinheit in der zweiten Variation der ersten Ausführungsform erzielt wird.
  • 36 ist eine Liste von exemplarischen Analyseergebnissen, die mittels der in 2 gezeigten Eingabeanalyseeinheit in der dritten Variation der ersten Ausführungsform erzielt werden.
  • 37 ist eine diagrammatische Darstellung von einer exemplarischen bibliographischen Inhaltsanalyseregel, die in der vierten Variation der ersten Ausführungsform verwendet wird.
  • 38 ist eine diagrammatische Darstellung einer exemplarischen, Unnötiger-Ausdrucksregel, die in der vierten Variation der ersten Ausführungsform verwendet wird.
  • 35 ist eine diagrammatische Darstellung einer Anzeigeprioritäts-Anzeigekondition, die in der fünften Variation der ersten Ausführungsform verwendet wird.
  • 40 ist eine diagrammatische Darstellung eines exemplarischen semantischen Strukturindexspeichers in der fünften Variation der ersten Ausführungsform.
  • 41 ist eine diagrammatische Darstellung eines anderen exemplarischen semantischen Strukturindexspeichers in der fünften Variation der ersten Ausführungsform.
  • 42 ist eine diagrammatische Darstellung eines exemplarischen semantischen Strukturindexspeichers in der sechsten Variation der ersten Ausführungsform.
  • 43 ist eine diagrammatische Darstellung eines exemplarischen Schlüsselwort-Extraktions-Regelverzeichnisses, welches in der siebten Variation der ersten Ausführungsform verwendet wird.
  • 44 ist ein Ablaufdiagramm für eine Operation der Eingabeanalyseeinheit und der Erfassungsverarbeitungseinheit, die in 2 in der siebten Variation der ersten Ausführungsform gezeigt sind.
  • 45 ist eine Liste von exemplarischen semantischen Strukturen, die in der achten Variation der ersten Ausführungsform bearbeitet werden.
  • 46 ist eine Darstellung einer exemplarischen Erfassungsergebnis-Bildschirmdarstellung, die in der zehnten Variation der ersten Ausführungsform verwendet wird.
  • 47 ist eine diagrammatische Darstellung eines exemplarischen Zusammenfassungs-Informationsspeichers in dem in 2 in der vierzehnten Variation der ersten Ausführungsform gezeigten einzelnen Datenspeicher.
  • 48 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Liste von Dokumentenbezeichnungen in der vierzehnten Variation der ersten Ausführungsform.
  • 49 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Zusammenfassung in der vierzehnten Variation der ersten Ausführungsform.
  • 50 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für ein Originaldokument in der vierzehnten Variation der ersten Ausführungsform.
  • 51 ist eine Darstellung einer exemplarischen Bildschirmanzeige zum Anzeigen einer Änderungsbefehlseingabe, die in der fünfzehnten Variation der ersten Ausführungsform verwendet wird.
  • 52 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Zusammenfassung in der fünfzehnten Variation der ersten Ausführungsform.
  • 53 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für ein Originaldokument in der fünfzehnten Variation der ersten Ausführungsform.
  • 54A und 54B sind Ablaufdiagramme für eine Operation in der fünfzehnten Variation der ersten Ausführungsform.
  • 55 ist ein Ablaufdiagramm für eine Zeigerverschiebeoperation in Erwiderung auf eine Frühere-Seite-Schaltfläche in der fünfzehnten Variation der ersten Ausführungsform.
  • 56 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Zusammenfassung in der fünfzehnten Variation der ersten Ausführungsform in Erwiderung auf eine Nächste-Seite-Schaltfläche.
  • 57 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für ein Originaldokument in der fünfzehnten Variation der ersten Ausführungsform in Erwiderung auf eine Nächste-Seite-Schaltfläche.
  • 58 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Liste von Dokumentenkennzeichen in der fünfzehnten Variation der ersten Ausführungsform.
  • 59 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Zusammenfassung in der fünfzehnten Variation der ersten Ausführungsform entsprechend der Liste von 58.
  • 60 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für ein Originaldokument in der fünfzehnten Variation der ersten Ausführungsform entsprechend der Liste von 58.
  • 61 ist eine Darstellung einer exemplarischen Bildschirmanzeige für eine Zusammenfassungsanzeige-Gegenstandsänderungs-Befehlseingabe, die in der sechzehnten Variation der ersten Ausführungsform verwendet wird.
  • 62 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für eine Zusammenfassung in der sechzehnten Variation der ersten Ausführungsform.
  • 63 ist ein Ablaufdiagramm für eine Operation in der sechzehnten Variation der ersten Ausführungsform.
  • 64 ist eine diagrammatische Darstellung einer exemplarischen Zusammenfassungssatztabelle, die in der sechzehnten Variation der ersten Ausführungsform verwendet wird.
  • 65 ist eine Darstellung einer exemplarischen Erfassungsergebnisanzeige für ein Originaldokument in der sechzehnten Variation der ersten Ausführungsform gemäß der Zusammenfassung von 62.
  • 66 ist ein Blockdiagramm für eine funktionelle Konfiguration eines Hauptteils des Dokumentenerfassungssystems gemäß einer zweiten Ausführungsform, die nicht zu der vorliegenden Erfindung gehört.
  • 67 ist ein Ablaufdiagramm für eine Operation einer Erfassungssteuerungseinheit in dem in 66 gezeigten Hauptteil.
  • 68 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer Eingabeanalyseeinheit in dem in 66 gezeigten Hauptteil.
  • 69 ist ein Ablaufdiagramm für eine Operation der Eingabeanalyseeinheit von 68.
  • 70 ist eine Tabelle von exemplarischen Ergebnissen, die bei verschiedenen Stufen in dem Ablaufdiagramm von 69 erzielt werden.
  • 71 ist ein detailliertes Blockdiagramm einer funktionellen Konfiguration einer Erfassungsverarbeitungseinheit in dem in 66 gezeigten Hauptteil.
  • 72 ist ein Ablaufdiagramm für eine Operation einer Erfassungsergebnis-Verarbeitungsssteuerungseinheit in dem in 66 gezeigten Hauptteil.
  • 73 ist eine Darstellung eines exemplarischen Dokuments, welches in der zweiten Ausführungsform verarbeitet werden muss.
  • 74 ist ein Ablaufdiagramm für eine Operation einer Interne-Dokumentenrelationsdaten-Analyseeinheit in dem in 66 gezeigten Hauptteil.
  • 75 ist ein Ablaufdiagramm für eine Operation einer Externe-Dokumentenrelationsdaten-Analyseeinheit in dem in 66 gezeigten Hauptteil.
  • 76 ist eine diagrammatische Darstellung eines exemplarischen Zusammenfassungs-Informationsspeichers in dem in 66 gezeigten individuellen Datenspeicher.
  • 77 ist eine diagrammatische Darstellung von exemplarischen Internen-Dokumentenrelationsdaten in dem in 66 gezeigten individuellen Datenspeicher.
  • 78 ist eine diagrammatische Darstellung von exemplarischen Externen-Dokumentenrelationsdaten in dem in 66 gezeigten individuellen Datenspeicher.
  • 79 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer Erfassungsergebnis-Ausgabeeinheit in dem in 66 gezeigten Hauptteil.
  • 80A, 80B, 80C, 80D, 80E, 80F und 80G sind Ablaufdiagramme für verschiedene Komponenten in der Erfassungsergebnis-Ausgabeeinheit von 71.
  • 81A, 81B, 80C, 80D, 80E und 80F sind Darstellungen von exemplarischen Erfassungsergebnis-Bildschirmanzeigen bei verschiedenen Stufen in der Operation der Erfassungsergebnis-Ausgabeeinheit von 71.
  • 82 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration der in 66 gezeigten Erfassungsverarbeitungseinheit für die erste Variation der zweiten Ausführungsform.
  • 83 ist eine diagrammatische Darstellung einer Relationsreihenfolgetabelle, die in der ersten Variation der zweiten Ausführungsform verwendet wird.
  • 84 ist eine diagrammatische Darstellung einer Datenstruktur für das Textstruktur-Analyseergebnis, das in der ersten Variation der zweiten Ausführungsform verwendet wird.
  • 85 ist ein Ablaufdiagramm für eine Operation einer Neuordnungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 71.
  • 86 ist ein Ablaufdiagramm für eine Anpassungsrelationsextraktionsverarbeitung in der Operation von 85.
  • 87 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer in 2 gezeigten Zusammenfassungs-Erzeugungseinheit in der zweiten Variation der zweiten Ausführungsform.
  • 88 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration einer in 2 gezeigten Zusammenfassungs-Erzeugungseinheit in der dritten Variation der zweiten Ausführungsform.
  • 89A und 89B sind Darstellungen von exemplarischen Fensteranzeigen, die in der dritten Variation der zweiten Ausführungsform verwendet werden.
  • 90 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration der in 66 gezeigten Erfassungsergebnis-Ausgabeeinheit in der vierten Variation der zweiten Ausführungsform.
  • 91 ist ein Ablaufdiagramm für eine Operation einer Zusammenfassungsmodifikations-Verarbeitungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 90.
  • 92 ist eine Darstellung einer exemplarischen Zusammenfassungsanzeige vor der Operation von 91.
  • 93 ist eine Darstellung von der exemplarischen Zusammenfassungsanzeige während der Operation von 91.
  • 94 ist eine Darstellung von der exemplarischen Zusammenfassungsanzeige nach der Operation von 91.
  • 95 ist ein Ablaufdiagramm für eine Operation einer Dokumentenselektions-Verarbeitungseinheit in der in 90 gezeigten Erfassungsergebnis-Ausgabeeinheit in der zwölften Variation der zweiten Ausführungsform.
  • 96 ist ein Ablaufdiagramm für eine Operation einer Zusammenfassungsmodifikations-Verarbeitungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 90 in der fünften Variation der zweiten Ausführungsform.
  • 97 ist eine Darstellung einer exemplarischen Zusammenfassungsanzeige vor der Operation von 96.
  • 98 ist eine Darstellung der exemplarischen Zusammenfassungsanzeige während der Operation von 96.
  • 99 ist eine Darstellung der exemplarischen Zusammenfassungsanzeige nach der Operation von 96.
  • 100 ist ein detailliertes Blockdiagramm für eine funktionelle Konfiguration der in 66 gezeigten Erfassungsergebnis-Ausgabeeinheit in der sechsten Variation der zweiten Ausführungsform.
  • 101 ist ein Ablaufdiagramm für eine Operation einer Dokumentenselektions-Verarbeitungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 100.
  • 102 ist ein Ablaufdiagramm für eine Betriebsweise einer Zusammenfassungsdetaillierungs-Verarbeitungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 100.
  • 103 ist ein Ablaufdiagramm für eine Operation einer Zusammenfassungsvereinfachungs-Verarbeitungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 100.
  • 104 ist ein Ablaufdiagramm für eine Operation einer Originaldokumentanzeigeverarbeitungseinheit in der Erfassungsergebnis-Ausgabeeinheit von 100.
  • 105 ist eine Darstellung einer exemplarischen Zusammenfassungsanzeige vor der Operation von 102.
  • 106 ist eine Darstellung der exemplarischen Zusammenfassungsanzeige nach der Operation von 102.
  • 107 ist ein Ablaufdiagramm für eine Operation einer Dokumentenselektions-Verarbeitungseinheit in der in 100 gezeigten Erfassungsergebnis-Ausgabeeinheit in der elften Variation der zweiten Ausführungsform.
  • 108 ist ein Ablaufdiagramm für eine Operation einer Zusammenfassungsdetaillierungs-Verarbeitungseinheit in der in 100 gezeigten Erfassungsergebnis-Ausgabeeinheit in der siebten Variation der zweiten Ausführungsform.
  • 109 ist ein Ablaufdiagramm für eine Operation einer Zusammenfassungsvereinfachungs-Verarbeitungseinheit in der in 100 gezeigten Erfassungsergebnis-Ausgabeeinheit in der siebten Variation der zweiten Ausführungsform.
  • 110A und 110B sind Darstellungen der exemplarischen Zusammenfassungs- und Originaldokumentenanzeige, die in der siebten Variation der zweiten Ausführungsform erzielt werden.
  • 111 ist ein Ablaufdiagramm für eine Operation einer Dokumentenstruktur-Analyseeinheit in der Zusammenfassungs-Erzeugungseinheit in der achten Variation der zweiten Ausführungsform.
  • 112 ist eine Darstellung eines exemplarischen Originaldokuments, das in der achten Variation der zweiten Ausführungsform bearbeitet wird.
  • 113 ist eine Darstellung der exemplarischen Absatzdaten, die von dem Originaldokument von 112 mittels der Operation von 112 erzielt werden.
  • 114 ist ein Ablaufdiagramm für eine Operation einer Textrekonstruktionseinheit in der Zusammenfassungs-Erzeugungseinheit in der achten Variation der zweiten Ausführungsform.
  • 115 ist eine Darstellung der exemplarischen Zusammenfassung, die von dem Originaldokument von 112 mittels der Operation von 114 erzielt wird.
  • 116 ist ein Blockdiagramm für eine funktionelle Konfiguration eines Hauptteils des Dokumentenerfassungssystems in der neunten Variation der zweiten Ausführungsform.
  • 117 ist ein Blockdiagramm für eine funktionelle Konfiguration eines Hauptteils des Dokumentenerfassungssystems in der zehnten Variation der zweiten Ausführungsform.
  • 118 ist eine Darstellung einer Möglichkeit einer Erfassungsergebnisanzeige in dem Dokumentenerfassungssystem gemäß der vorliegenden Erfindung.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Unter Bezugnahme auf 1 wird die erste Ausführungsform eines Dokumentenerfassungssystems, welches mit Ausnahme für die zwölfte Variation allgemein nicht zu der vorliegenden Erfindung gehört, im Detail beschrieben.
  • In dieser ersten Ausführungsform weist das Dokumentenerfassungssystem eine Gesamtkonfiguration, wie in 1 gezeigt, auf, in welcher eine zentrale Verarbeitungseinrichtung 1 mit einer Speichereinrichtung 2, einer Anzeigeeinrichtung 4 durch eine Anzeigesteuerung 3 und einer Eingabeeinrichtung 6 durch eine Eingabesteuerung 5 verbunden ist.
  • Die zentrale Verarbeitungseinrichtung 1 ist mittels eines Prozessors ausgebildet, um verschiedene Verarbeitungsoperationen auszuführen, wie etwa die Eingabeanalyse, die Erfassungsverarbeitung und die Zusammenfassungserzeugung. Die Speichereinrichtung 2 wird mittels eines Speichermediums, wie etwa ein Halbleiterspeicher, ein Magnetplattenspeicher, ein optischer Plattenspeicher etc., zum Speichern von Dokumenten als Erfassungsvorgaben ausgebildet. Die Anzeigeeinrichtung 4 wird mittels einer Anzeigeneinrichtung, wie etwa eine Flüssigkristallanzeige und eine Plasmaanzeige, zum Anzeigen des Textinhaltes des Dokumentes ausgebildet, welches als das Erfassungsergebnis erzielt wird, während sie ebenso andere grafische Audio- und Sprachdaten, die in dem Dokument enthalten sind, unter der Steuerung der Anzeigensteuerung 3 ausgibt. Die Eingabeeinrichtung 6 wird aus Eingabevorrichtungen ausgebildet, wie etwa eine Tastatur und eine Maus, zum Eingeben der Erfassungsbefehle und anderer Eingaben von dem Benutzer unter der Steuerung der Eingabesteuerung 6.
  • Hierbei sei bemerkt, dass das Dokumentenerfassungssystem mehr als eine der zentralen Verarbeitungseinrichtungen 1 und mehr als eine der Speichereinrichtungen 2 enthalten kann, wobei sämtliche von denen zusammen, falls gewünscht, über Pfade oder ein Netzwerk verbunden sind.
  • Im weiteren Detail weist ein Hauptabschnitt des Dokumentenerfassungssystems in dieser ersten Ausführungsform eine die in 2 gezeigte funktionale Konfiguration auf, welcher folgendes aufweist: eine Eingabeeinheit 11 zum Eingeben eines Eingabesatzes in einer natürlichen Sprache von dem Benutzer; eine Eingabeanalyseeinheit 12 zum Ausführen verschiedener Analysen des Eingabesatzes einschließlich der morphologischen Analyse, der Syntaxanalyse und der semantischen Analyse; eine Erfassungsverarbeitungseinheit 13 zum Ausführen der Erfassungsverarbeitung für erfasste Dokumente gemäß einem Syntaxanalyseergebnis, das von dem Eingabesatz erzielt wurde, und gemäß einem Erfassungsschlüssel, der unter Verwendung von Schlüsselwörtern, die von dem Eingabesatz extrahiert werden, konstruiert ist; eine Zusammenfassungs-Erzeugungseinheit 14 zum Errichten einer Zusammenfassung von jedem erfassten Dokument; eine Dokumentenspeichereinheit 15, die mit der Erfassungsverarbeitungseinheit 13 verbunden ist, zum Speichern der Dokumentendatenbank; eine Erfassungsergebnis-Ausgabeeinheit 17 zum Ausgeben der Ergebnisse, die mittels der Eingabeanalyseeinheit 12, der Erfassungsverarbeitungseinheit 13 und der Zusammenfassungs-Erzeugungseinheit 14 erzielt werden; eine individuelle Datenspeichereinheit 16, die mit der Eingabeanalyseeinheit 12, der Erfassungsverarbeitungseinheit 13, der Zusammenfassungs-Erzeugungseinheit 14 und der Erfassungsergebnis-Ausgabeeinheit 17 verbunden ist, zum Speichern individueller Daten einschließlich der erfassten Dokumente; und eine Erfassungssteuerungseinheit 18 zum Steuern der Operationen der anderen Verarbeitungsmodule einschließlich der Eingabeeinheit 11, der Eingabeanalyseeinheit 12, der Erfassungsverarbeitungseinheit 13, der Zusammenfassungs-Erzeugungseinheit 14 und der Erfassungsergebnis-Ausgabeeinheit 17, während der Handhabung von Benutzerinteraktionen.
  • In dieser 2 gehören die Dokumentenspeichereinheit 15 und die individuelle Datenspeichereinheit 16 zu der Speichereinrichtung 2 in der Gesamtkonfiguration von 1, während die Eingabeeinheit 11, die Eingabeanalyseeinheit 12, die Erfassungsverarbeitungseinheit 13, die Zusammenfassungs-Erzeugungseinheit 14, die Erfassungsergebnis-Ausgabeeinheit 17 und die Erfassungssteuerungseinheit 18 zu der zentralen Verarbeitungseinrichtung 1 in der Gesamtkonfiguration von. 1 gehören. Ebenso zeigen in dieser 2 die dicken Pfeile Datenleitungen an, während dünne Pfeile Steuerungsleitungen anzeigen.
  • In dieser funktionalen Konfiguration von 2 steuert die Erfassungssteuerungseinheit 18 jedes Verarbeitungsmodul, um die Verarbeitungssequenz, wie in dem Ablaufdiagramm von 3 angezeigt, wie folgt zu realisieren.
  • Als erstes wird bei Schritt 310 der Eingabesatz in einer Gestalt einer Eingabezeichenkette, die von der Eingabeeinheit 11 eingegeben wird, zu der Eingabeanalyseeinheit 12 übertragen, bei welcher die morphologische Analyse, die Syntaxanalyse und die semantische Analyse der Eingabezeichenkette ausgeführt werden. Die mittels der Eingabeanalyseeinheit 12 erzielten Ergebnisse einschließlich der Schlüsselwörter in dem Eingabesatz werden dann in der individuellen Datenspeichereinheit 16 gespeichert.
  • Als nächstes erzeugt bei Schritt 302 die Eingabeanalyseeinheit 12 einen Erfassungsschlüssel unter Verwendung der Schlüsselwörter in den Eingabesätzen, die in der individuellen Datenspeichereinheit 16 gespeichert sind, in Verbindung mit logischen Operatoren, wie es detailliert nachfolgend beschrieben wird.
  • Dann wird bei Schritt 303 die Erfassungsverarbeitungseinheit 13 aktiviert, um die Erfassungsverarbeitung unter Verwendung des erzeugten Erfassungsschlüssels an der Dokumentendatenbank, die in der Dokumentenspeichereinheit 15 gespeichert ist, auszuführen. Ein Satz von bei diesem Schritt 303 erfassten Dokumenten werden temporär in der individuellen Datenspeichereinheit 16 gespeichert.
  • Als nächstes beurteilt bei Schritt 304 die Erfassungsverarbeitungseinheit 13, ob oder ob nicht mehr als ein Dokument bei dem Schritt 303 erfasst und die Syntax- und semantischen Analyseergebnisse für die Eingabezeichenkette in der individuellen Datenspeichereinheit 16 gespeichert wurden.
  • In einem zutreffenden Fall werden als nächstes bei Schritt 305 die Syntax- und semantischen Analyseergebnisse für die erfassten Dokumente, die im Voraus vorbereitet und in der Dokumentenspeichereinheit 15 gespeichert sind, mit den Syntax- und semantischen Analyseergebnissen für die Eingabezeichenkette, die in der individuellen Datenspeichereinheit 16 gespeichert ist, angeglichen. Ein Satz von Dokumenten, die bei diesem Schritt 305 erfasst und angepasst sind, werden temporär in der individuellen Datenspeichereinheit 16 gespeichert. Anderenfalls wird der Schritt 305 übersprungen.
  • Als nächstes werden bei dem Schritt 306 die Textinhalte der erfassten und angeglichenen Dokumente, die in der individuellen Datenspeichereinheit 16 gespeichert sind, von der Dokumentenspeichereinheit 15 herausgenommen, und die Zusammenfassungs-Erzeugungseinheit 14 wird aktiviert, um eine Zusammenfassung für jedes erfasste und abgeglichene Dokument von dem Textinhalt zu produzieren. Die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzielte Zusammenfassung für jedes erfasste und abgeglichene Dokument wird dann in der individuellen Datenspeichereinheit 16 gespeichert.
  • Bei dem Schritt 307 überprüft dann die Zusammenfassungs-Erzeugungseinheit 14 die Anpassung der Schlüsselwörter oder der Syntax- und semantischen Analyseergebnisse für den Eingabesatz in der Zusammenfassung für jedes erfasste und abgeglichene Dokument. Das Überprüfungsergebnis, welches bei diesem Schritt 307 erzielt wird, wird dann in der individuellen Datenspeichereinheit 16 gespeichert.
  • Letztendlich wird bei dem Schritt 308 die Erfassungsergebnis-Ausgabeeinheit 17 aktiviert, um das Erfassungsergebnis, welches die Dokumentennamen oder die Zusammenfassungen von diesem Dokumenten enthält, die in der individuellen Datenspeichereinheit 16 nach dem Schritt 307 verbleiben, in einer Reihenfolge gemäß dem Überprüfungsergebnis anzuzeigen, welches bei dem Schritt 307 erzielt wurde. Hier kann die Erfassungsergebnis-Ausgabeeinheit 17, die die in der individuellen Datenspeichereinheit 16 gespeicherten Daten anzeigen und ändern, in Übereinstimmung mit den Befehlen, die von dem Benutzer durch die Eingabeeinheit 11 eingegeben werden, so dass der Benutzer das gewünschte Dokument von dem angezeigten Erfassungsergebnis selektieren kann.
  • Nun wird die detaillierte Operation von jedem Verarbeitungsmodul in dieser ersten Ausführungsform detailliert beschrieben.
  • Als erstes arbeitet die Erfassungssteuerungseinheit 18 gemäß dem Ablaufdiagramm von 4 wie folgt.
  • Das bedeutet, dass als erstes die Erfassungssteuerungseinheit 18 auf die Eingabe von der Eingabeeinheit 11 bei dem Schritt 401 wartet. Dann, wenn die Eingabe von der Eingabezeichenkette bei der Eingabeeinheit 11 erfasst wird, wird die Eingabeanalyseeinheit 12 bei dem Schritt 402 aktiviert. Als nächstes wartet die Erfassungssteuerungseinheit 18 auf das Ende der Verarbeitung bei der Eingabeanalyseeinheit 12 bei dem Schritt 403. Dann, wenn das Ende der Verarbeitung bei der Eingabeanalyseeinheit 12 erfasst wird, wird die Erfassungsverarbeitungseinheit 13 bei dem Schritt 404 aktiviert. Als nächstes wartet die Erfassungssteuerungseinheit 18 auf das Ende der Verarbeitung bei der Erfassungsverarbeitungseinheit 13 beim Schritt 405. Dann, wenn das Ende der Verarbeitung bei der Erfassungsverarbeitungseinheit 13 erfasst wird, wird die Zusammenfassungs-Erzeugungseinheit 14 bei dem Schritt 406 aktiviert. Als nächstes wartet die Erfassungssteuerungseinheit 18 auf das Ende der Verarbeitung bei der Zusammenfassungs-Erzeugungseinheit 14 bei dem Schritt 407. Dann, wenn das Ende der Verarbeitung bei der Zusammenfassungs-Erzeugungseinheit 14 erfasst wird, wird die Erfassungsergebnis-Ausgabeeinheit 17 bei dem Schritt 408 aktiviert. Als nächstes wartet die Erfassungssteuerungseinheit 18 auf das Ende der Verarbeitung bei der Erfassungsergebnis-Ausgabeeinheit 17 beim Schritt r. Dann, wenn das Ende der Verarbeitung bei der Erfassungsergebnis-Ausgabeeinheit 17 erfasst wird, kehrt die Operation zurück zu dem Schritt 401, um den Prozess der Schritte 401 bis 409 für den nächsten Eingabesatz zu wiederholen.
  • Als nächstes weist die Eingabeanalyseeinheit 12 eine wie in 5 gezeigte detaillierte funktionale Konfiguration auf, welche folgendes aufweist: eine morphologische Analyseeinheit 120, eine Syntaxanalyseeinheit 121, eine semantische Analyseeinheit 122, eine Unnötiger-Ausdrucks-Extraktionsregel-Anwendungseinheit 123, eine Inhaltswort-Extraktionseinheit 124, eine Erfassungsschlüssel-Erzeugungseinheit 125, ein Analyseverzeichnis 126 und eine Analysegrammatik 127, die in der morphologischen, Syntax- und semantischen Analyse verwendet wird, ein Unnötiger-Ausdrucks-Extraktionsregelverzeichnis, welches mittels der Unnötiger-Ausdrucks-Extraktionsregel-Anwendungseinheit 23 verwendet wird, und ein wortbezogenes Verzeichnis 129, das durch die Erfassungsschlüssel-Erzeugungseinheit 125 verwendet wird.
  • Mit dieser funktionellen Konfiguration von 5 operiert die Eingabeanalyseeinheit 12 gemäß dem Ablaufdiagramm von 6 wie folgt.
  • Als erstes wird bei dem Schritt 601 die morphologische Analyse an dem Eingabesatz bei der morphologischen Analyseeinheit 120 durch Verwendung des Analyseverzeichnisses 126 ausgeführt, um die Eingabesätze in Wörter einzuteilen. Dann werden bei den Schritten 602 und 603 die Syntaxanalyse und die semantische Analyse bei der Syntaxanalyseeinheit 121 bzw. bei der semantischen Analyseeinheit 122 ausgeführt, unter Verwendung des Analyseverzeichnisses 126 und der Analysegrammatik 127. Hier sind die Details der morphologischen Syntax- und semantischen Analysen, die bei diesen Schritten 601 und 603 ausgeführt werden müssen, nicht wesentlich für die vorliegende Erfindung, und sämtliche bekannte Schemata können angenommen werden. Beispielsweise können die Schemata, die in "Japanese Word Dictionary", Japan Electronic Dictionary Research Institute, Ltd., April 1990, Kapitel 3, Seiten 27–33, offenbart sind, hier verwendet werden.
  • Als nächstes wird bei dem Schritt 604 die Unnötiger-Ausdrucks-Extraktionsregel, die durch das Unnötiger-Ausdrucks-Extraktionsregelverzeichnis 128 spezifiziert ist, bei der Unnötiger-Ausdrucks-Extraktionsregel-Anwendungseinheit 123 angewandt, um eine Teilstruktur zu löschen, welche mit jedem Unnötiger-Ausdruck übereinstimmt, der mittels der Unnötiger-Ausdrucks-Extraktionsregel spezifiziert ist, und dann wird bei dem Schritt 605 die bis zu dem Schritt 604 erzielte Struktur in der individuellen Datenspeichereinheit 16 gespeichert.
  • Als nächstes werden die Inhaltswörter in der bis zu dem Schritt 604 erzielten Struktur bei der Inhaltswort-Extraktionseinheit 124 extrahiert, und dann wird bei dem Schritt 607 der Erfassungsschlüssel bei der Erfassungsschlüssel-Erzeugungseinheit 125 unter Verwendung der bei dem Schritt 606 extrahierten Inhaltswörter zusammen mit geeigneten logischen Operatoren erzeugt.
  • Als nächstes werden bei dem Schritt 608 zusätzliche Erfassungsschlüssel ebenso bei der Erfassungsschlüssel-Erzeugungseinheit 125 durch Nachschauen ähnlicher Wörter von jedem extrahierten Inhaltswort und durch Ersetzen jedes extrahierten Inhaltswortes in dem Erfassungsschlüssel, der bei dem Schritt 607 erzeugt wird, durch jedes nachgeschaute ähnliche Wort erzeugt. Dann werden sämtliche Inhaltswörter in dem Erfassungsschlüssel sowie deren ähnliche Wörter als Erfassungszielschlüsselwörter in den Erfassungsschlüsseln gesetzt.
  • Letztendlich werden bei dem Schritt 609 sämtliche Erfassungsschlüssel, die bei den Schritten 607 und 608 erzeugt werden, in der individuellen Datenspeichereinheit 16 gespeichert.
  • Als ein konkretes Beispiel des Ergebnisses der Operation mittels dieser Eingabeanalyseeinheit 12 zeigt 7 verschiedene Ergebnisse, die bei verschiedenen Stufen in dem obig beschriebenen Ablaufdiagramm von 6 erzielt wurden, für einen bestimmten Eingabesatz auf Japanisch (mit einer in Klammern bereitgestellten englischen Übersetzung). Im Einzelnen erscheint für den Eingabesatz, der in (a) von
  • 7 angezeigt ist, das morphologische Analyseergebnis, wie in (b) von 7 angezeigt, in welchem der Eingabesatz in Wörter eingeteilt ist. Dann erscheint das Syntaxanalyseergebnis, wie in (c) von 7 angezeigt, wo die Baumstruktur, die die Syntaxstruktur des Eingabesatzes darstellt, erzeugt wird. Dann erscheint das semantische Analyseergebnis, wie in (b) von 7 angezeigt, wo die Baumstruktur, die die semantische Struktur des Eingabesatzes darstellt, erzeugt wird.
  • In der semantischen Analyse wird die semantische Analyseregel, die in dem Analyseverzeichnis 126, wie in 8 als Beispiel angezeigt, spezifiziert ist, angewandt. Das bedeutet, dass diese in 8 gezeigte semantische Analyseregel die semantische Struktur, die zu der Syntaxstruktur gehört, spezifiziert, in welcher das japanische Verb "mochiiru" (was "anwenden" bzw. "use" bedeutet) zwischen einem Substantiv und einem sogenannten verbalisierten Substantiv (d. h. ein Substantiv, welches in ein Verb durch Anbringen eines japanischen Verbs "suru" (welches "tun" bzw. "do" bedeutet) am Ende umgewandelt werden kann) als eine sogenannte Instrumentfallbeziehung zwischen dem Substantiv und dem verbalen Substantiv. Die ähnlichen semantischen Analyseregeln werden ebenso in dem Analyseverzeichnis 126 für die anderen häufig verwendeten Verben, wie etwa "anwenden" bzw. "employ", "aufrufen" bzw. "invoke" etc., spezifiziert. Es sei hier darauf hingewiesen, dass in den 7 und 8 "wo" ein japanisches postpositionales Wort, "rentai" ein Symbol für ein partizipiales Adjektiv, "nitsuite" einen japanischen Ausdruck, der "über" bedeutet, und "obj" ein Symbol für eine Objektivfallbeziehung anzeigt.
  • Dann erscheint das Unnötiger-Ausdrucks-Extraktionsergebnis wie in (e) von 7 angezeigt, wo eine Teilstruktur, die mit dem Unnötiger-Ausdruck, der mittels der Unnötiger-Ausdrucks-Extraktionsregel in dem Unnötiger-Ausdrucks-Extraktionsregelverzeichnis 128 spezifiziert wird, von der Baumstruktur gelöscht wird, die mittels der semantischen Analyseeinheit 122 erzielt wird. Hier zeigt, wie beispielsweise in 9 gezeigt, die Unnötiger-Ausdrucks-Extraktionsregel die Teilstruktur, die als "-obj→KNOW" gelöscht werden muss. Es ist ebenso darauf hingewiesen, dass jedoch die Unnötiger-Ausdrucks-Extraktionsregel ein Wort anzeigen kann, welches gelöscht werden muss, anstelle der Teilstruktur, die gelöscht werden muss.
  • Dann erscheint das Inhaltswortextraktionsergebnis, wie in (f) von 7 angezeigt, in welcher die Inhaltswörter "example" und "machine translation" von der Baumstruktur, die mittels der Unnötiger-Ausdrucks-Extraktionsregel-Anwendungseinheit 123 erzielt wurde, extrahiert sind.
  • Letztendlich erscheint das Erfassungsschlüssel-Produktionsergebnis, wie in (g) in 7 angezeigt, in welcher der Erfassungsschlüssel durch Verbindung der mittels der Inhaltswort-Extraktionseinheit 124 extrahierten Inhaltswörter mit einem geeigneten logischen Operator "+" gebildet wird.
  • Als nächstes weist die Erfassungsverarbeitungseinheit 13 eine detaillierte funktionelle Konfiguration, wie in 10 gezeigt, auf, welche folgendes aufweist: eine Schlüsselwortindex-Anpassungseinheit 131 und eine semantische Strukturanpassungseinheit 132, welche mit der Dokumentenspeichereinheit 15 und der individuellen Datenspeichereinheit 16 verbunden ist, und eine Dokumentendateisetz-Berechnungseinheit 133, die mit der Schlüsselwortindex-Anpassungseinheit 131 und der semantischen Strukturanpassungseinheit 132 verbunden ist.
  • Mit dieser funktionellen Konfiguration von 10 operiert die Erfassungsverarbeitungseinheit 13 gemäß dem Ablaufdiagramm von 11 wie folgt.
  • Als erstes wird bei dem Schritt 1101 der in der individuellen Datenspeichereinheit 16 gespeicherte Erfassungsschlüssel zu der Schlüsselwortindex-Anpassungseinheit 131 herausgenommen, und dann wird bei dem Schritt 1102 die Erfassung unter Verwendung des herausgenommenen Erfassungsschlüssels an einem Schlüsselwort-Indexspeicher in der Dokumentenspeichereinheit 15 ausgeführt, welche sämtliche Wörter von sämtlichen Dokumenten in der Dokumentendatenbank speichert, um diese Dokumente zu erzielen, die die gleichen Wörter enthalten, wie diese, die in dem Erfassungsschlüssel verwendet werden.
  • Als nächstes wird bei dem Schritt 1103 eine Setzberechnung für die erfassten Dokumente, die bei dem Schritt 1102 erzielt wurden, mittels der Dokumentendateisetz-Berechnungseinheit 133 gemäß dem Erfassungsschlüssel ausgeführt, und das Setzberechnungsergebnis wird in der individuellen Speichereinheit 16 gespeichert.
  • Dann beurteilt bei dem Schritt 1104 die semantische Strukturanpassungseinheit 132, ob oder ob nicht mehr als ein Dokument in der individuellen Datenspeichereinheit 16 als die erfassten, bei dem Schritt 1103 erzielten Dokumente gespeichert sind und die semantische Struktur der Eingabezeichenkette in der individuellen Datenspeichereinheit 16 gespeichert ist. In einem bestätigenden Fall wird die semantische Struktur der Eingabezeichenkette von der individuellen Datenspeichereinheit 16 bei dem Schritt 1105 herausgenommen, und die Erfassung unter Verwendung der herausgenommenen semantischen Struktur wird an einen semantischen Strukturindexspeicher in der Dokumentenspeichereinheit 15 ausgeführt, welche sämtliche semantische Strukturen von sämtlichen Dokumenten in der Dokumentendatenbank speichert, um diese Dokumente zu erhalten, welche die gleiche semantische Struktur aufweisen, wie die der Eingabezeichenkette, und dann wird das bei dem Schritt 1106 erzielte Ergebnis in der individuellen Datenspeichereinheit 16 bei dem Schritt 1107 gespeichert. Andererseits werden die Schritte 1105 bis 1107 übersprungen.
  • Um den Schlüsselworterfassungsteil der Operation mittels dieser Erfassungsverarbeitungseinheit 13 konkreter darzustellen, zeigt 12 einen exemplarischen Inhalt des Schlüsselwort-Indexspeichers.
  • Das heißt, in diesem Schlüsselwort-Indexspeicher von 12 wird jedes Kanji-Zeichen, welches in den Schlüsselwörtern enthalten ist, zu einer eindeutigen Adresse zugeordnet, und jedes Schlüsselwort, welches durch eine Vielzahl von Kanji- Zeichen ausgebildet ist, wird mittels den Verknüpfungsdaten spezifiziert, die nach jedem Kanji-Zeichen registriert sind, um die erforderliche Speicherkapazität zu reduzieren und um die notwendige Erfassungsprozedur zu vereinfachen.
  • Beispielsweise weist für das japanische Schlüsselwort "kikai" (welches "Maschine" bzw. "machine" bedeutet), dass aus zwei Kanji-Zeichen, wie in der ersten Zeile in 13 angezeigt, ausgebildet ist, das erste Zeichen, das bei der Adresse 00053 in dem Kopfzeichenspeicherbereich registriert ist, Verknüpfungsdaten "00935" auf, die das zweite Zeichen des Schlüsselwortes spezifizieren, dass es bei der Adresse 00935 in dem nachfolgenden Zeichenspeicherbereich registriert ist. Zusätzlich weist dieses zweite Zeichen bei der Adresse 00935 ebenso die Verknüpfungsdaten "01201" auf, die das dritte Zeichen spezifizieren, und das dritte Zeichen weist bei der Adresse 01201 die Verknüpfungsdaten "01309" auf, die das vierte Zeichen spezifizieren, für ein anderes Schlüsselwort "kikai-honyaku" (was "Maschinenübersetzung" bzw. "machine translation" bedeutet), das durch vier Kanji-Zeichen, wie in der letzten Zeile in 13 angezeigt, ausgebildet ist, welches das obig beschriebene Schlüsselwort "kikai" als einen ersten Teil enthält. Des weiteren hat das zweite Zeichen bei der Adresse 00935 ebenso Dateidaten "Datei 4 (34, 35, 72, 86)", die anzeigen, dass das Schlüsselwort "kikai" in den Dokumentendaten enthalten ist, die den Dateinamen "Datei 4" bei dem Satz Nr. 34, 35, 72 und 86 hat. Auf ähnliche Weise hat das vierte Zeichen bei der Adresse 01309 zwei Dateidaten "Datei 25 (18, 42)", und "Datei 21 (23)", was anzeigt, dass das Schlüsselwort "kikai-honyaku" in den Dokumentendaten "Datei 25" beim Satz Nr. 18 und 42 und in den Dokumentendaten "Datei 21" beim Satz Nr. 23 enthalten ist. Andererseits ist das erste Zeichen bei der Adresse 00091 in dem Kopfzeichenspeicherbereich gemeinsam zu zwei Schlüsselwörtern "jikken" (was "Experiment" bzw. "experiment" bedeutet), und "jitsurei" (was "Beispiel" bzw. "example" bedeutet), wie an den zweiten und dritten Zeilen in 13 angezeigt, so dass es zwei Verknüpfungsdaten "01003" und "01004" aufweist, die die jeweiligen zweiten Zeichen für diese beiden Schlüsselwörter spezifizieren. In 12 funktioniert ein isoliertes "0" als ein Separator zum Separieren der Zeichen, Verknüpfungsdaten und der Dateidaten. Ebenso sind die ersten Zeichen der Schlüsselwörter in dem kontinuierlichen Kopfzeichenspeicherbereich in einer sortierten Reihenfolge, wie die von JIS (Japanese Industrial Standard), registriert.
  • Von daher sucht die Schlüsselwortindex-Anpassungseinheit 131 diesen Schlüsselwort-Indexspeicher auf, um eine Anpassung von jedem Erfassungszielschlüsselwort in dem Erfassungsschlüssel zu machen, und sie erhält die Dokumente, die die gleichen Erfassungszielschlüsselwörter enthalten, als Erfassungsschlüssel gemäß den Dokumentendaten, die für das angepasste Schlüsselwort in dem Schlüsselwort-Indexspeicher registriert sind. Im Einzelnen operiert die Schlüsselwortindex-Anpassungseinheit 131 und die Dokumentendatei-Setzberechnungseinheit 133 gemäß dem Ablaufdiagramm der 14A und 14B wie folgt.
  • Als erstes werden bei dem Schritt 1301 eine Variable "i", die einen Index von jedem zu löschenden Schlüsselwort anzeigt, auf 1 und eine Variable "N", die eine Gesamtanzahl von Schlüsselwörtern, die gelöscht werden müssen, anzeigt, auf eine Anzahl von Schlüsselwörtern gesetzt, die in dem Erfassungsschlüssel als eine Initialisierung enthalten sind.
  • Dann wird bei dem Schritt 1302 beurteilt, ob "i" größer als "N" ist oder nicht. Außer wenn "i" größer als "N" beim Schritt 1302 ist, wird als nächstes bei dem Schritt 1303 das erste Zeichen des Schlüsselwortes "i" in dem Kopfzeichenspeicherbereich des Schlüsselwort-Indexspeichers erfasst, und ein Block, der das Zeichen registriert, wird als ein Block "A" nominiert. Hier speichert der Kopfzeichenspeicherbereich die ersten Zeichen in einer sortierten Reihenfolge, so dass der Block, der das erste Zeichen des Schlüsselwortes "i" registriert, auf einfache Weise durch Ausführen der binären Suche erzielt werden kann.
  • Als nächstes wird bei dem Schritt 1304 eine Variable "k", die eine Zeichenposition in dem Schlüsselwort "i" anzeigt, auf 2 gesetzt, und dann wird bei dem Schritt 1305 beurteilt, ob "k" größer als eine Zeichenkettenlänge des Schlüsselwortes "i" ist oder nicht. Wenn "k" nicht größer als die Länge des Schlüsselwortes "i" ist, werden als nächstes bei dem Schritt 1306 die Verknüpfungsdaten, die in dem Block "A" registriert sind, nachgeschlagen, um einen Block zu erhalten, der das "k"-te Zeichen des Schlüsselwortes "i" registriert, und ein erhaltener Block wird neu als ein Block "A" bezeichnet. Dann existiert bei dem Schritt 1307, falls der Block "A" beim Schritt 1306 erzielt wurde, dieser tatsächlich in dem nachfolgenden Zeichenspeicherbereich des Schlüsselwort-Indexspeichers. Wenn der Block "A" tatsächlich besteht, dann wird die Variable "k" um 1 bei Schritt 1308 erhöht, und die Operation kehrt zu dem obig beschriebenen Schritt 1305 für den erhöhten Wert der Variablen "k" zurück.
  • In einem Fall, wenn "k" größer als die Länge des Schlüsselwortes "i" bei dem Schritt 1305 ist, wird als nächstes bei Schritt 1309 der als die Dokumentendaten in dem Block "A" registrierte Dokumentendateiname zu dem Dokumentendateisetz "i" für das Schlüsselwort "i" gesetzt, und dann wir die Variable "i" um 1 bei dem Schritt 1310 erhöht, und die Operation kehrt zu dem obig beschriebenen Schritt 1302 für den erhöhten Wert der Variablen "i" zurück.
  • In einem Fall, wo der Block "A" nicht bei dem Schritt 1307 existiert, wird als nächstes bei dem Schritt 1311 der Dokumentendateisetz "i" für das Schlüsselwort "i" als ein leerer Satz gesetzt, und dann wird die Variable "i" um 1 bei dem Schritt 1310 erhöht, und die Operation kehrt zu dem obig beschriebenen Schritt 1303 für den erhöhten Wert der Variablen "i" zurück.
  • Mittels dieser Schritte wird der Dokumentendateisetz für jedes Schlüsselwort in dem Erfassungsschlüssel erzielt. Dann wird in einem Fall, wenn "i" größer als "N" beim Schritt 1302 wird, als nächstes beim Schritt 1312 die Variable "i" auf 2 zurückgesetzt, und der Dokumentendateisetz 1 für das Schlüsselwort 1 wird als der gegenwärtige Dokumentendateisetz gesetzt. Dann werden der Schritt 1314, in welchem die Satzberechnung den gegenwärtigen Dokumentendateisetz aktualisiert, um ein logisches Produkt ("UND") des Dokumentendateisetzes "i" und des gegenwärtigen Dokumentendateisetzes "i" zu sein, und der nachfolgende Schritt 1315, in welchem die Variable "i" um eins erhöht wird, bis die Variable "i" beim Schritt 1313 "N" überschreitet, wiederholt, um derart eventuell den endgültigen gegenwärtigen Dokumentendateisetz zu erhalten, der jene Dokumente enthält, die sämtliche Schlüsselworte in dem Erfassungsschlüssel enthalten.
  • Um andererseits den semantischen Strukturerfassungsteil der Operation mittels dieser Erfassungsverarbeitungseinheit 13 konkreter darzustellen, zeigt 15 einen exemplarischen Inhalt des semantischen Strukturindexspeichers.
  • Das heißt, in diesem semantischen Strukturindexspeicher von 15 wird jede semantische Struktur, die durch einen Satz von Zielwörtern, Relationssymbolen und Quellwörtern spezifiziert ist, zusammen mit den Dokumentendateinamen und den Satznummern, die jede semantische Struktur enthalten, eingetragen. Dieser semantische Strukturindexspeicher ist im Voraus durch Ausführen der Analyse sämtlicher Sätze von jedem Dokument in der in der Dokumentenspeichereinheit 15 gespeicherten Dokumentendatenbank eingerichtet. Von daher ist in dem in 15 gezeigten Beispiel die semantische Struktur von der "instrument" Fallbeziehung zwischen dem Quellenwort "machine translation" und dem Zielwort "example" in dem Dokument "file 25" beim Satz Nr. 18, in dem Dokument "file 21" beim Satz Nr. 23 etc. enthalten.
  • Im Einzelnen operiert die semantische Strukturindex-Anpassungseinheit 132 gemäß dem Ablaufdiagramm von 16 wie folgt.
  • Als erstes schlägt der semantische Strukturindexspeicher beim Schritt 1501 das Zielwort in der semantischen Struktur der Eingabezeichenkette nach. Dann wird, nur wenn das übereinstimmende Zielwort in dem semantischen Strukturindexspeicher bei Schritt 1502 herausgefunden wird, das Relationssymbol, das für das übereinstimmende Zielwort registriert ist, nachgeschlagen und mit dem Relationssymbol in der semantischen Struktur der Eingabezeichenkette bei Schritt 1503 angepasst. Dann wird, nur wenn das übereinstimmende Relationssymbol in dem semantischen Strukturindexspeicher bei Schritt 1504 herausgefunden wird, das für das übereinstimmende Relationssymbol registrierte Quellenwort nachgeschlagen und mit dem Quellenwort in der semantischen Struktur der Eingabezeichenkette bei Schritt 1505 angepasst. Dann wird, nur wenn das übereinstimmende Quellenwort in dem semantischen Strukturindexspeicher bei Schritt 1506 herausgefunden wird, die Dokumentendateinamen und Satznummern, die für das übereinstimmende Quellenwort registriert sind, in der individuellen Datenspeichereinheit 16 zusammen mit der angepassten semantischen Struktur selbst gespeichert.
  • Als nächstes weist die Zusammenfassungs-Erzeugungseinheit 14 eine detaillierte funktionelle Konfiguration, wie in 17 gezeigt, auf, welche folgendes aufweist: eine Dokumentenstruktur-Analyseeinheit 141, eine Textstruktur-Analyseeinheit 142, eine Schlüsselsatz-Beurteilungseinheit 143 und eine Textrekonstruktionseinheit 144.
  • Die Dokumentenstruktur-Analyseeinheit 141 analysiert die Kapitelstruktur von jedem Dokument durch Extraktion von Titeldaten, die die Kapitel und Abschnitte in jedem Dokument anzeigen. Hier sind die Details der Dokumentenstrukturanalyse, die durch diese Dokumentenstruktur-Analyseeinheit 141 ausgeführt werden muss, nicht wesentlich für die vorliegende Erfindung, und jegliche bekannte Schemata können angewandt werden. Beispielsweise kann hier das Schema verwendet werden, welches in Doi, M., et al.: "Research on Model Based Document Processing System DARWIN", Human-Computer Interaction-INTERACT 1987, H. J. Bullinger, B. Schackel (Ed.), Elsevier Science Publishers B. V. (Nordholland), 1987, Seiten 1101–1106, offenbart ist.
  • Die Textstruktur-Analyseeinheit 142 analysiert die logische Struktur der Sätze von jedem Kapitel oder Abschnitt durch Extraktion rhetorischer Ausdrücke, die in den Sätzen eines jeden Kapitels oder Abschnitts verwendet werden. Hier sind wiederum die Details der Textstrukturanalyse, die durch diese Textstruktur-Analyseeinheit 142 ausgeführt werden muss, nicht wesentlich für die vorliegende Erfindung, und jegliche bekannte Schemata können verwendet werden. Beispielsweise kann das Schema verwendet werden, welches in Sumita, K., et al.: "A Discourse Structure Analyzer for Japanese Text", Proceedings of the International Conference on Fifth Generation Computer Systems 1992, Institute for New Generation Computer Technology (Ed.), Seiten 1133–1140, offenbart ist.
  • Die Schlüsselsatz-Beurteilungseinheit 143 beurteilt die Schlüsselsätze gemäß der Dokumentenstruktur und der Textstruktur, die mittels der Dokumentenstruktur-Analyseeinheit 141 und der Textstruktur-Analyseeinheit 142 erzielt wurden.
  • Die Textrekonstruktionseinheit 144 erzeugt eine Zusammenfassung eines jeden Dokuments von den Schlüsselsätzen, die mittels der Schlüsselsatz-Beurteilungseinheit 143 erzielt werden.
  • Auf diese Weise kann beispielsweise für einen in (b) von 18 gezeigten Beispielssatz eine in (a) von 18 gezeigte Textstruktur erzielt werden. In diesem Beispiel von 18 zeigt die Textstruktur an, dass der zweite Satz eine Beziehung von "extension" hinsichtlich des ersten Satzes aufweist, während der dritte Satz eine Beziehung von "direction" hinsichtlich der ersten und zweiten Sätze aufweist.
  • In dieser Zusammenfassungs-Erzeugungseinheit 14 wird die Textstruktur mittels einer wie in 19 gezeigten Datenstruktur ausgedrückt, in welcher ein Block für jeden Knotenpunkt ein "text structure Rel", das eine Beziehung eines jeden Knotenpunktes anzeigt, ein "text structure L" und ein "text structure R" aufweist, die Verknüpfungen zu den Knotenpunkten anzeigen, die zur Rechten und Linken eines jeden Knotenpunktes angeordnet sind, und ein "text structure P", was einen Abzug für jeden Knotenpunkt anzeigt. Hier zeigt für einen Terminalknotenpunkt das "text structure Rel" einen Hinweis auf einen zugehörigen Satz auf, während jedes der "text structure L" und "text structure R" den Wert "–1" anzeigen.
  • Die Schlüsselsatz-Beurteilungseinheit 143 operiert gemäß dem Ablaufdiagramm von 20, in welcher eine Penalty-Berechnung beim Schritt 2001 für sämtliche Knotenpunkte ausgeführt wird. Nachdem das Penalty bzw. der Abzug für sämtliche Knotenpunkte berechnet ist, kann der Terminalknotenpunkt mit geringstem Abzug als wichtiger beurteilt werden.
  • Im weiteren Detail wird die Penalty-Berechnung für jeden Knotenpunkt gemäß dem Ablaufdiagramm von 21 wie folgt ausgeführt.
  • Hier hat die Schlüsselsatz-Beurteilungseinheit 143 anfänglich eine Eingabe in einer Gestalt einer Textstruktur, die durch die Textstruktur-Analyseeinheit 142 und einem anfänglichen Wert der Penalty erzielt wird. Dann wird als erstes beim Schritt 2101 beurteilt, ob oder ob nicht die Textstruktur ein Terminalknotenpunkt ist. Das bedeutet, wenn der durch die "Textstruktur L" angezeigte Wert "–1" ist, kann sie als der Terminalknotenpunkt beurteilt werden. In einem Fall des Terminalknotenpunktes wird der eingegebene Penaltywert P auf die "Textstruktur P" gesetzt, der den Penalty beim Schritt 2102 anzeigt.
  • Andererseits wird in einem Fall des Nichtterminalknotenpunktes die durch die "Textstruktur Rel" angezeigte Beziehung als eine Beziehung eines rechtslastigen Typs, eines linkslastigen Typs und keines von diesen bei den Schritten 2103 und 2106 beurteilt. Diese Beurteilung wird gemäß der Beziehungstabelle gemacht, die in der Schlüsselsatz-Beurteilungseinheit 143 im Voraus vorgesehen ist. Beispielsweise weist die Beziehungstabelle Einträge ähnlich zu den folgenden auf (für einen Fall der Verwendung von Japanisch):
    SERIAL RELATION rechtslastiger Typ
    DIRECTION rechtslastiger Typ
    EXEMPLIFICATION linkslastiger Typ
    so dass die Beziehungstabelle anzeigen kann, dass beispielsweise die Beziehung von "serial relation" der rechtslastige Typ ist.
  • In einem Fall, dass die mittels der "Textstruktur Rel" angezeigte Beziehung der rechtslastige Typ ist, dann ist der Knotenpunkt an der rechten Seite wichtiger, so dass der Penalty-Wert, der durch Addition des eingegebenen Penalty-Wertes P und einem vorbestimmten Penalty P1 erzielt wird, zu der "Textstruktur L" beim Schritt 2104 gegeben wird, während der eingegebene Penalty-Wert P selbst zu der "Textstruktur R" beim Schritt 2105 gegeben wird. Andererseits ist in einem Fall, wenn die Beziehung, die mittels "Textstruktur Rel" angezeigt wird, der linkslastige Typ ist, der Knotenpunkt einer linken Seite wichtiger, so dass der eingegebene Penalty-Wert P selbst zu der "Textstruktur L" beim Schritt 2107 gegeben wird, während der gegebene Penalty-Wert P selbst zu "Textstruktur R" beim Schritt 2105 gegeben wird.
  • In einem Fall, wenn andererseits die Beziehung, die durch "Textstruktur Rel" angezeigt wird, der linkslastige Typ ist, dann ist der Knotenpunkt an der linken Seite wichtiger, so dass der eingegebene Penalty-Wert P selbst zu "Textstruktur L" beim Schritt 2107 gegeben wird, während der Penalty-Wert, der durch Addition des eingegebenen Penalty-Wertes P und einem vorbestimmten Penalty P1 erzielt wird, zu "Textstruktur R" beim Schritt 2108 gegeben wird.
  • In einem Fall, wenn andererseits die Beziehung, die durch "Textstruktur Rel" angezeigt wird, weder ein rechtslastiger noch ein linkslastiger Typ ist, dann wird der eingegebene Penalty-Wert P selbst zu beiden "Textstruktur L" und "Textstruktur R" bei den Schritten 2109 und 2110 gegeben.
  • Auf diese Art und Weise wird, wenn die Penalty-Berechnung rekursiv für sämtliche Knotenpunkte gemacht wird, der Satz mit einer höheren Wichtigkeit einen geringeren Penalty-Wert haben, während der Satz mit einer geringeren Wichtigkeit einen höheren Penalty-Wert haben wird.
  • Des weiteren kann in dieser Schlüsselsatz-Beurteilungseinheit 143 die Art und Weise des Setzens des Penalty-Wertes durch Ändern der Daten in der Beziehungstabelle geändert werden, so dass, indem dem Benutzer gestattet wird, jede Beziehung in der Beziehungstabelle als entweder eine der rechtslastigen Typen und der linkslastigen Typen frei zu wählen, die Selektion der Schlüsselsätze bei der Schlüsselsatz-Beurteilungseinheit 143 angepasst werden kann, so dass es für die Textrekonstruktionseinheit 144 möglich wird, die Zusammenfassung von einem Betrachtungs, der durch den Benutzer gewünscht wird, zu erzeugen.
  • Die Textrekonstruktionseinheit 144 operiert gemäß dem Ablaufdiagramm von 22 wie folgt.
  • Als erstes werden beim Schritt 2201 sämtliche Sätze mit dem Penalty, der bei der Schlüsselsatz-Beurteilungseinheit 143 erzielt wird, geringer als ein vorbestimmter Schwellenwert P2 selektiert.
  • Dann werden die Verknüpfungsausdrücke in den beim Schritt 2201 selektierten Sätzen geändert, um die Zusammenfassung beim Schritt 2202 zu erzeugen.
  • Um die Operation der Textrekonstruktionseinheit 144 konkreter darzustellen, sei ein einfacher exemplarischer Fall zur Bearbeitung der folgenden drei Sätze betrachtet.
    • (1) In order to build a nice building, nice materials are necessary.
    • (2) However, nice tools are also necessary.
    • (3) In other words, the materials alone are not sufficient.
  • In diesem Fall kann die Textstruktur von diesen drei Sätzen wie folgt ausgedrückt werden.
  • (1 <NEGATIVE RELATION> (2 <REPHRASE> 3)
  • Es sei nun angenommen, dass die Sätze (1) und (3) als die Schlüsselsätze durch die Schlüsselsatz-Beurteilungseinheit 143 selektiert sind.
  • Wenn dann die Sätze (1) und (3) einfach verbunden werden, dann würden die folgenden Sätze erzeugt werden, welche sich logisch von den Originalsätzen unterscheiden.
  • "In order to build a nice building, nice materials are necessary.
  • In other words, the materials alone are not sufficient."
  • Um solch eine fehlerhafte Erzeugung einer nicht korrekten Zusammenfassung zu vermeiden, wird beim obig beschriebenen Schritt 2202 der Verbindungsausdruck zwischen den Sätzen durch jenen ersetzt, der zu der größten Beziehung unter den selektierten Schlüsselsätzen gehört. Das heißt, dass in einem Fall der obigen Sätze (1) und (3) die wichtigste Beziehung zwischen diesen Sätzen (1) und (3) die von "negative relation" gemäß der obig beschriebenen Textstruktur ist, so dass der Verbindungsausdruck "in other words" in den obig erzeugten Sätzen durch den Verbindungsausdruck "however" ersetzt wird, der zu dieser "negative relation" Beziehung gehört, um somit die folgenden Sätze zu erzielen, welche als die Zusammenfassung der Originalsätze (1) bis (3) betrachtet werden können.
  • "In order to build a nice building, nice materials are necessary.
  • However, the materials alone are not sufficient."
  • Auf diese Weise kann die Textrekonstruktionseinheit 144 die Zusammenfassung erzeugen, die logisch konsistent mit den Originalsätzen ist. Zusätzlich kann die Größe der zu erzeugenden Zusammenfassung durch Ändern des Wertes des Schwellenwertes P2, der beim obig beschriebenen Schritt 2201 verwendet wird, gesteuert werden. Demzufolge wird es möglich, die Zusammenfassung der gewünschten Größe zu erzielen und anzuzeigen, indem es dem Benutzer gestattet ist, diesen Schwellenwert P2 frei zu ändern.
  • In dieser ersten Ausführungsform speichert die individuelle Datenspeichereinheit 16 die Korrespondenz zwischen den Zusammenfassungen und den Originalsätzen in einer Gestalt eines in 23 gezeigten Zusammenfassungssatzspeichers. In diesem Fall weisen jede Zusammenfassungssatzspeicherdaten einen Originalsatzzeiger, einen Zusammenfassungszeiger und eine Zusammenfassungssatznummer auf, welche in einem kontinuierlichen Speicherbereich gespeichert sind, um ihre Korrespondenzen anzuzeigen. Die Zusammenfassungssatznummer zeigt die Satznummern der Sätze an, die die Zusammenfassung ausbilden.
  • Die Erfassungssteuerungseinheit 18 ermittelt ebenso die Anzeigeprioritätsreihenfolge unter den erfassten Dokumenten unter Verwendung des Erfassungsergebnisses, das von dem Erfassungsschlüssel und den Syntax- und semantischen Analyseergebnissen für die Eingabesätze erzielt wird, welche mittels der Erfassungsverarbeitungseinheit 13 erzielt und in der individuellen Datenspeichereinheit 16 gespeichert werden, und die Zusammenfassungsdaten, die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzielt und in der individuellen Datenspeichereinheit 16 wie folgt gespeichert werden. Das heißt, die Anzeigeprioritätsreihenfolge wird gemäß der vorgeschriebenen Prioritätsreihenfolgenkonditionen ermittelt, die als ein Anzeigeprioritäts-Regelverzeichnis in der Erfassungssteuerungseinheit 18, wie in 24 gezeigt, vorgesehen sind. Die Erfassungssteuerungseinheit 18 steuert dann die Erfassungsergebnis-Ausgabeeinheit 17, um die Titel der erfassten Dokumente in der vorbestimmten Anzeigeprioritätsreihenfolge als die Erfassungsergebnisse anzuzeigen.
  • Als ein konkretes Beispiel zeigt die 25 einen exemplarischen Dateninhalt der individuellen Datenspeichereinheit 16, und 26 zeigt eine exemplarische Anzeigeprioritätsreihenfolge, die für den exemplarischen Dateninhalt von 25 ermittelt wird.
  • Hier zählt die Erfassungsverarbeitungseinheit 13 eine Trefferzahl, wie oft jedes Dokument als Erfassungsergebnis erfasst wurde, und speichert diese Anzahl von Erfassungen für jedes Dokument in der Dokumentenspeichereinheit 15. In einem Fall, wenn das Erfassungsergebnis mehr als ein Dokument mit der gleichen Anzeigeprioritätsreihenfolge aufweist, wird das Dokument mit der größeren Anzahl von Erfassungen vor dem Dokument mit der geringeren Anzahl von Erfassungen, wie in 26 gezeigt, angezeigt.
  • Als ein konkretes Beispiel zeigt 27 einen exemplarischen Dateninhalt für das in der individuellen Datenspeichereinheit 16 gespeicherte Erfassungsergebnis, und 28 zeigt eine exemplarische Bildschirmdarstellung des Erfassungsergebnisses gemäß dem exemplarischen Dateninhalt von 27.
  • Nun werden verschiedene Variationen der obig beschriebenen ersten Ausführungsform des Dokumentenerfassungssystems beschrieben, wobei die zwölfte Variation zu der Erfindung gehört.
  • Zunächst wird die erste Variation hinsichtlich der Mehrdeutigkeit der Analyseergebnisse der morphologischen, Syntax- und semantischen Analyse beschrieben. In der obig beschriebenen ersten Ausführungsform wurde nämlich angenommen, dass es keine Mehrdeutigkeit in den Analyseergebnissen der morphologischen, Syntax- und semantischen Analyse gibt. Im Gegensatz dazu wird in dieser ersten Variation ein Fall der Bearbeitung mit der Mehrdeutigkeit in den Analyseergebnissen der morphologischen, Syntax- und semantischen Analysen beschrieben.
  • In diesem Fall verfügt die Erfassungssteuerungseinheit 18 über ein Analyseergebnis-Lernverzeichnis in einer in 29 gezeigten Gestalt zum Speichern der Analyseergebnisse für die Eingabezeichenkette, die mittels des Benutzers in den vorhergehenden Erfassungsoperationen selektiert wurde. Zusätzlich speichert der semantische Strukturindexspeicher in der Dokumentenspeichereinheit 15 sämtliche Analyseergebnisse, die mittels Syntax- und semantischen Analysen der Sätze in jedem Dokument in der Dokumentendatenbank in Übereinstimmungen erzielt werden, wann immer eine Vielzahl von Analyseergebnissen erzielt werden. Die anderen Eigenschaften sind im Wesentlichen identisch zu denen der obig beschriebenen ersten Ausführungsform.
  • In dieser ersten Variation wird die Mehrdeutigkeit der Analyseergebnisse mittels der folgenden Operation gemäß dem Ablaufdiagramm von 30 behandelt.
  • Das heißt, in einem Fall, wenn die Eingabeanalyseeinheit 12, die Analyseergebnisse für den Eingabesatz wie in 31 erzielt hat, welche eine Mehrdeutigkeit beim Schritt 2801 aufweist, speichert die Eingabeanalyseeinheit 12 die erzielte Vielzahl von Analyseergebnissen in der individuellen Datenspeichereinheit 16 und überträgt ein Signal, welches das Auftreten der Mehrdeutigkeit anzeigt, zu der Erfassungssteuerungseinheit 18. In Erwiderung darauf nimmt die Erfassungssteuerungseinheit 18 einen mehrdeutigen Teil der Eingabezeichenkette heraus, die der Vielzahl von in der individuellen Datenspeichereinheit 16 gespeicherten Analyseergebnisse entspricht, und sieht bei dem Analyseergebnis-Lernverzeichnis nach dem mehrdeutigen Teil bei dem Schritt 2802 nach, und dann sieht sie bei dem semantischen Strukturindexspeicher nach jedem der Syntax- und semantischen Analyseergebnisse nach, die von dem Analyseergebnis-Lernverzeichnis beim Schritt 2803 nachgesehen wurden.
  • Dann zeigt beim Schritt 2804 die Erfassungsergebnis-Ausgabeeinheit 17 die Erfassungsergebnisse an, die beim Schritt 2803 erzielt wurden, zusammen mit der Vielzahl von Analyseergebnissen und zusätzlichen Nachrichten. Hier wird die zusätzliche Nachricht, welche die Tatsache anzeigt, dass dieses Analyseergebnis in der Vergangenheit selektiert wurde, an das Analyseergebnis, das zu der übereinstimmenden Zeichenkette gehört, zugefügt in einem Fall, wo die Zeichenkette, die mit dem mehrdeutigen Teil der Eingabezeichenkette übereinstimmt, in dem Analyseergebnis-Lernverzeichnis beim Schritt 2802 erfasst wird. Andererseits wird in einem Fall, wo die übereinstimmende semantische Struktur in dem semantischen Strukturindexspeicher beim Schritt 2803 erfasst wird, die zusätzliche Nachricht, welche die Tatsache anzeigt, dass das Dokument, welches diese semantische Struktur enthält, in der Dokumentenspeichereinheit 15 vorhanden ist, an die erfasste, übereinstimmende, semantische Struktur angefügt.
  • Als nächstes wird beim Schritt 2805 eine Vollendung der Selektion eines entsprechenden Analyseergebnisses von der angezeigten Vielzahl von Analyseergebnissen erwartet, was von dem Benutzer gemacht werden muss.
  • Dann wird beim Schritt 2806 ermittelt, ob das selektierte Analyseergebnis jenes ist, welches eine Mehrdeutigkeit aufweist oder nicht. Wenn das selektierte Analyseergebnis ein mehrdeutiges ist, dann fährt die Operation mit dem nachfolgend beschriebenen Schritt 2810 fort, wohingegen andererseits als nächstes beim Schritt 2807 eine Nachricht zum Anfragen, ob oder ob nicht die nicht-selektierten Analyseergebnisse von dem semantischen Strukturindexspeicher gelöscht werden sollen, zu dem Benutzer angezeigt wird. Dann wird beim Schritt 2808 ermittelt, ob der Benutzer "Löschen" als eine Antwort auf die obige Anfrage selektiert hat, und nur wenn das "Löschen" selektiert wurde, werden die nichtselektierten Analyseergebnisse von dem semantischen Strukturindexspeicher beim Schritt 2809 gelöscht. Letztendlich wird beim Schritt 2810 das selektierte Analyseergebnis in dem Analyseergebnis-Lernverzeichnis sowie in der individuellen Datenspeichereinheit 16 gespeichert.
  • Von daher befindet sich in dieser ersten Variation der semantische Strukturindexspeicher in einem in 32A gezeigten Zustand, in welchem eine Vielzahl von Analyseergebnissen, die durch die Mehrdeutigkeit verursacht werden, vorhanden sind, welches in einen in 32B gezeigten Zustand gewechselt werden kann, in welchem die Mehrdeutigkeit aufgelöst wird, so dass lediglich die semantische Struktur von "COMPUTER-object→DESIGN" verbleibt, gemäß der Selektion, die durch den Benutzer gemacht wurde.
  • Nach den obig beschriebenen Mehrdeutigkeitsbeschlussoperationen von 30 operiert die Erfassungssteuereinheit 18 gemäß dem Ablaufdiagramm von 33 wie folgt.
  • Das bedeutet, dass, nachdem das selektierte Analyseergebnis in das Analyseergebnis-Lernverzeichnis und in die individuelle Datenspeichereinheit 16 gespeichert wurden, überträgt die Erfassungssteuerungseinheit 18 zu der Eingabeanalyseeinheit 12 ein Signal, welches eine Vollendung der Mehrdeutigkeitsauflösungsoperation anzeigt.
  • Als Erwiderung darauf erzeugt beim Schritt 3101 die Eingabeanalyseeinheit 12 den Erfassungsschlüssel von den Syntax- und semantischen Analyseergebnissen, die in der individuellen Datenspeichereinheit 16 gespeichert sind, was Syntax- und semantische Analyseergebnisse sind, die von den semantischen Strukturindexspeicher erfasst werden.
  • Dann wird in dem Schlüsselwort-Indexspeicher nach den Schlüsselwörtern in dem Erfassungsschlüssel beim Schritt 3102 nachgesehen, und die Setz-Berechnung für die erfassten Dokumente gemäß dem Erfassungsschlüssel und sein Ergebnis werden in der individuellen Datenspeichereinheit 16 bei Schritt 3103 gespeichert.
  • Als nächstes wird die zweite Variation gemäß dem Eingabesatz unter Verwendung der logischen Operation beschrieben. In der obig beschriebenen ersten Ausführungsform wurde nämlich angenommen, dass der Eingabesatz in einer natürlichen Sprache gegeben ist. Im Gegensatz dazu wird in dieser zweiten Variation ein Fall beschrieben, der von einem Eingabesatz handelt, der die logischen Operationen in Verbindung mit der natürlichen Sprache verwendet.
  • In diesem Fall führt die Eingabeanalyseeinheit 12 die logische Operatorinterpretations-Verarbeitung für den Eingabesatz durch, der die logischen Operatoren enthält.
  • Beispielsweise zeigt 34 einen exemplarischen Fall des Eingabesatzes, der den logischen Operator "+" verwendet, in welchem die logische Operatorinterpretations-Verarbeitung die Bedeutung von diesem logischen Operator "+" interpretiert, um vier semantische Strukturen hervorzubringen. Das endgültige Erfassungsergebnis wird dann als ein Summensatz von sämtlichen Dokumentensätzen erzielt, die durch die Erfassungsverarbeitung unter Verwendung von jedem dieser vier semantischen Strukturen erzielt wurden. In 34 bezeichnet "niyoru" einen japanischen Ausdruck mit der englischen Bedeutung "by".
  • Als ein anderes Beispiel zeigt 35 einen exemplarischen Fall, in dem das Wort "something" in dem Eingabesatz in ein Symbol "?" konvertiert wird, was als Anpassung an ein willkürliches Wort in der Erfassungsverarbeitung betrachtet wird. In 35 zeigt das Symbol "goal" die objektive Fallbeziehung an.
  • Als nächstes wird die dritte Variation hinsichtlich der Erfassungsverarbeitung unter Verwendung der bibliographischen Sachen in dem Eingabesatz beschrieben. In der ersten obig beschriebenen Ausführungsform wurde nämlich die Erfassungsverarbeitung für sämtliche Dokumente ohne Verwendung deren bibliographischer Sachen als Ganze ausgeführt. Im Gegensatz hierzu wird in dieser dritten Variation ein Fall beschrieben, in dem die bibliographischen Sachen des gewünschten Dokuments, wie etwa der Titel, der Autor und das Veröffentlichungsdatum, verwendet werden, was in dem Eingabesatz spezifiziert werden kann.
  • Beispielsweise zeigt 36 einen exemplarischen Fall des Eingabesatzes, der die bibliographischen Sachen des gewünschten Dokumentes als geschrieben von "M. Tanaka" und veröffentlicht "seit 1980" spezifiziert. In Erwiderung hierauf führt die Erfassungsverarbeitungseinheit 13 die Erfassungsverarbeitung für lediglich diese Dokumente aus, welche "M. Tanaka" als Autor haben und dessen Veröffentlichungsjahr nicht geringer als "1980" gemäß den in 37 gezeigten bibliographischen Sachenanalyseregeln ist, welche in der Erfassungsverarbeitungseinheit 13 vorgesehen sind. In diesem Fall wird die Erfassungsverarbeitung durch Nachschauen in dem Schlüsselwort-Indexspeicher nach dem Schlüsselwort "machine translation" ausgeführt, was als das Analyseergebnis, wie in 36 angezeigt, erzielt wird. Hier wird das Wort "papers" nicht als ein Schlüsselwort aufgrund der Anwendung der Unnötiger-Ausdrucks-Extraktionsregel, wie in 38 gezeigt, verwendet. Die Prozedur zum Ausführen der Erfassungsverarbeitung ist im Wesentlichen gleich der in der obig beschriebenen ersten Ausführungsform.
  • Als nächstes wird die vierte Variation hinsichtlich des Festlegens der Anzeigeprioritätsreihenfolge beschrieben. In der obig beschriebenen ersten Ausführungsform wird nämlich die Anzeigeprioritätsreihenfolge durch Gewichtung der erfassten Dokumente in Übereinstimmung mit deren Zusammenfassung ermittelt. Im Gegensatz hierzu werden in der vierten Variation die erfassten Dokumente gemäß der in Übereinstimmung mit dem Dokumentenstrukturanalyseergebnis, wie etwa der Titel, die Inhaltsangabe, der Index und Referenzen eines jeden Dokuments, ermittelten Anzeigeprioritätstreffern gewichtet.
  • Beispielsweise können die Anzeigeprioritätstreffer, wie in 39 angezeigt, zugeteilt sein. In diesem Fall werden der höchste Treffer, für welchen sich jedes Dokument unter den Konditionen hinsichtlich des Schlüsselwortes qualifiziert, und der höchste Treffer, für welchen sich jedes Dokument unter den Konditionen hinsichtlich der semantischen Struktur qualifiziert, als den Treffer für jedes Dokument zusammenaddiert, und die erfassten Dokumente werden in einer absteigenden Reihenfolge der zugeordneten Treffer angezeigt.
  • Als nächstes wird die fünfte Variation hinsichtlich der Erfassungsergebnisanzeige beschrieben. In der obig beschriebenen ersten Ausführungsform enthält nämlich das mittels der Erfassungsergebnis-Ausgabeeinheit 17 angezeigte Erfassungsergebnis lediglich die Titel, etc. Im Gegensatz hierzu wird in dieser fünften Variation ein Fall beschrieben, in welchem der Benutzer in der Lage ist, das Anzeigen von verschiedenen Daten hinsichtlich der erfassten Dokumente anzufordern.
  • In diesem Fall steuert die Erfassungsverarbeitungseinheit 13 in Erwiderung auf den von dem Benutzer durch die Eingabeeinheit 11 eingegebenen Befehl die Erfassungsergebnis-Ausgabeeinheit 17, um eine Liste anzuzeigen, die jeden Satz von zwei Schlüsselwörtern in dem Erfassungsschlüssel enthält, welche mit dem Zielwort und dem Quellwort in dem semantischen Strukturindexspeicher zusammen mit einem Relationssymbol, welches zwischen diesen beiden Schlüsselwörtern registriert ist, übereinstimmt.
  • Wenn beispielsweise sich der semantische Strukturindexspeicher in einem Zustand, wie in 40 gezeigt, befindet, welcher die Anwesenheit von den Dokumenten anzeigt, die verschiedene Beziehungen zwischen den beiden Schlüsselwörtern "computer" und "design" aufweisen, steuert die Erfassungsverarbeitungseinheit 13 gemäß dem von dem Benutzer durch die Eingabeeinheit 11 eingegebenen Befehl die Erfassungsergebnis-Ausgabeeinheit 17, um eine Liste für diese beiden semantischen Strukturen anzuzeigen, wann auch immer ein Schlüsselwort in dem Erfassungsschlüssel mit entweder dem Zielwort oder dem Quellwort für diese beiden semantischen Strukturen in dem semantischen Strukturindexspeicher übereinstimmen.
  • Wenn sich andererseits der semantische Strukturindexspeicher in einem Zustand, wie in 41 gezeigt, befindet, dann können die Beziehungen zwischen dem Schlüsselwort "example" und den anderen Schlüsselwörtern angezeigt werden, wann auch immer das Schlüsselwort "example" in dem Erfassungsschlüssel in dem semantischen Strukturindexspeicher erfasst wird, so dass der Benutzer unmittelbar die semantischen Strukturen, die in den in der Dokumentenspeichereinheit 15 gespeicherten Dokumenten enthaltenen Strukturen wahrnehmen kann.
  • In diesem Fall wird, nachdem die Schlüsselwort-Erfassungsoperation unter Verwendung des Erfassungsschlüssels ausgeführt ist, die Erfassungsverarbeitungseinheit 13 gemäß dem von dem Benutzer durch die Eingabeeinheit 11 eingegebenen Befehl in dem semantischen Strukturindexspeicher nach dem Dateinamen eines jeden Dokuments, das mittels der Schlüsselwort-Erfassungsoperation erzielt wird, nachschauen und die Erfassungsergebnis-Ausgabeeinheit 17 steuern, um den Dokumentennamen eines jeden Dokumentes zusammen mit sämtlichen semantischen Strukturen anzuzeigen, die in jedem Dokument in einem Format des Zielwortes, des Relationssymbols und des Quellwortes enthalten sind. Bei diesem Punkt kann eine Listenanzeige von sämtlichen Dokumenten, die jede semantische Struktur enthalten, für jede semantische Struktur separat zusammen mit einer Anzeige der semantischen Strukturen bereitgestellt werden, so dass der Benutzer unmittelbar die semantischen Strukturen, die in den mittels der Schlüsselwort-Erfassungsoperation erzielten Dokumenten enthalten sind, wahrnehmen kann.
  • Nachdem auf ähnliche Weise die semantische Strukturerfassungsoperation unter Verwendung der Syntax- und semantischen Analyseergebnisse für die Eingabezeichenkette ausgeführt ist, schaut die Erfassungsverarbeitungseinheit 13 gemäß dem von dem Benutzer durch die Eingabeeinheit 11 eingegebenen Befehl bei dem semantischen Strukturindexspeicher nach dem Dateinamen eines jeden Dokuments, welches mittels der semantischen Strukturerfassungsoperation erzielt wird, und steuert die Erfassungsergebnis-Ausgabeeinheit 17, um den Dokumentennamen eines jeden Dokumentes zusammen mit sämtlichen semantischen Strukturen, die in den Dokumenten in einem Format des Zielwortes, des Relationssymbols und des Quellwortes enthalten sind, anzuzeigen. Bei diesem Punkt kann eine Listenanzeige von sämtlichen Dokumenten, die jede semantische Struktur enthalten, für jede semantische Struktur separat zusammen mit einer Anzeige der semantischen Strukturen bereitgestellt werden, so dass der Benutzer auch die Textinhalte der erfassten Dokumente anschauen kann.
  • Nachdem die Zusammenfassungs-Erzeugungsoperation durch die Zusammenfassungs-Erzeugungseinheit 14 ausgeführt worden ist, kann zusätzlich die Erfassungssteuerungseinheit 18 die Erfassungsergebnis-Ausgabeeinheit 17 steuern, um die Zusammenfassungen der erfassten Dokumente sowie die Korrespondenzen zwischen den Zusammenfassungen und den semantischen Strukturen anzuzeigen, so dass der Benutzer tatsächlich die Textinhalte der erfassten Dokumente kennen kann.
  • Als nächstes wird die sechste Variation hinsichtlich der Verwendung von mehr als einem Eingabesatz beschrieben. In der obig beschriebenen ersten Ausführungsform wurde nämlich lediglich ein Eingabesatz verwendet. Im Gegensatz hierzu wird in dieser sechsten Variation ein Fall beschrieben, in dem mehr als ein Eingabesatz bei der Erfassungsverarbeitung verwendet wird.
  • In diesem Fall ist es für den Benutzer möglich, mehr als einen Eingabesatz oder einen Text einzugeben. Es ist ebenso möglich, die Beziehungen unter mehr als zwei Schlüsselwörtern zum Zwecke der Erfassungsverarbeitung durch die Eingabeanalyse zu analysieren.
  • Als ein Beispiel zeigt 42 einen exemplarischen semantischen Strukturindexspeicher in dieser sechsten Variation, in welcher eine semantische Struktur durch die Beziehung unter drei Schlüsselwörtern spezifiziert wird.
  • In dieser sechsten Variation kann der Eingabesatz eher zusätzlich in einer Form einer Zeichenkette gegeben sein, wie etwa ein Dateiname eines bestimmten Dokumentes, als der natürliche Sprachensatz, der zum Befehl der gewünschten Erfassungsverarbeitung dient, wie in der obig beschriebenen ersten Ausführungsform, so dass die Erfassung der Dokumente ähnlich zu dem bestimmten Dokument, das mittels der Eingabezeichenkette spezifiziert ist, wie folgt ausgeführt werden kann.
  • In diesem Fall werden die morphologischen, Syntax- und semantischen Analysen an sämtliche Sätze in dem bestimmten Dokument, das mittels der Eingabezeichenkette spezifiziert ist, angewandt, und dann werden die zugehörigen Erfassungsschlüssel von den erzielten Analyseergebnissen erzeugt. Dann wird die Erfassungsverarbeitungsoperation unter Verwendung der semantischen Strukturen und der Erfassungsschlüssel, die von diesem bestimmten Dokument erzielt wurden, ausgeführt, um die anderen Dokumente zu erfassen, die die ähnlichen semantischen Strukturen und Schlüsselwörter wie das bestimmte Dokument haben.
  • Hier kann jede semantische Struktur zu einem Zähler zugeordnet werden, der eine Häufigkeit anzeigt, bei welcher jede semantische Struktur in dem bestimmten Dokument erscheint, und die erfassten Dokumente ähnlich zu dem bestimmten Dokument können in einer Reihenfolge beginnend von diesen erfassten Dokumenten angezeigt werden, die die semantische Struktur enthalten, welche zu dem größeren Zähler gehört.
  • Als nächstes wird die siebte Variation hinsichtlich der Prozedur für die Eingabeanalyse und die Erfassungsverarbeitung beschrieben. In der obig beschriebenen ersten Ausführungsform wird nämlich die Erfassungsverarbeitung einschließlich der Schlüsselwort-Erfassungsoperation und der semantischen Strukturerfassungsoperation nur ausgeführt, nachdem die Eingabeanalysen einschließlich der morphologischen, Syntax- und semantischen Analysen der Eingabezeichenkette abgeschlossen ist. Im Gegensatz hierzu wird in dieser siebten Variation ein Fall des Ausführens der Schlüsselwort-Erfassungsoperation unmittelbar nach der morphologischen Analyse der Eingabezeichenkette beschrieben, was von der Syntax- und semantischen Analyse der Eingabezeichenkette und der semantischen Strukturerfassungsoperation gefolgt wird.
  • In diesem Fall besitzt die Eingabeanalyseeinheit 12 ein Schlüsselwort-Extraktions-Regelverzeichnis für spezifizierende Regeln zum Extrahieren der Inhaltswörter, welches eine exemplarische Form, wie in 43 gezeigt, hat. Hier kann der Benutzer frei die Regeln modifizieren, löschen und zu diesem Schlüsselwort-Extraktions-Regelverzeichnis hinzuaddieren.
  • In dieser siebten Variation werden die Eingabeanalyse und die Erfassungsverarbeitung gemäß dem Ablaufdiagramm von 44 wie folgt ausgeführt.
  • Als erstes führt bei Schritt 4401 die Eingabeanalyseeinheit 12 die morphologische Analyse für die Eingabezeichenkette aus und speichert dessen Ergebnis in der individuellen Datenspeichereinheit 16.
  • Dann extrahiert die Eingabeanalyseeinheit 12 die Inhaltswörter von der Eingabezeichenkette als die Erfassungszielschlüsselwörter gemäß dem morphologischen Analyseergebnis unter Verwendung des Schlüsselwort-Extraktions-Regelverzeichnisses und des unnötigen Wortverzeichnisses. Hier wird gemäß dem in 43 gezeigten Schlüsselwort-Extraktions-Regelverzeichnis das Wort, dessen Sprachteil ein Substantiv oder Verb ist, als ein Inhaltswort beim Schritt 4402 extrahiert, und in dem unnötigen Wortverzeichnis wird nach jedem extrahierten Inhaltswort nachgeschaut, und diese Inhaltswörter, die nicht mit den in der unnötigen Wortverzeichnis registrierten Wörtern übereinstimmen, werden als die Erfassungszielschlüsselwörter beim Schritt 4403 gesetzt.
  • Dann erzeugt bei Schritt 4404 die Eingabeanalyseeinheit 12 den Erfassungsschlüssel unter Verwendung der erzielten Schlüsselwörter und der zugehörigen logischen Operatoren und speichert den erzeugten Erfassungsschlüssel in der individuellen Datenspeichereinheit 16. Zusätzlich wird in dem zugehörigen Wortverzeichnis bei Schritt 4405 nach den Schlüsselwörtern nachgesehen, und die Erfassungsschlüssel, in welchen die Schlüsselwörter durch die nachgeschauten ähnlichen Wörter ersetzt werden, werden ebenso durch die Eingabeanalyseeinheit 12 erzeugt.
  • Als nächstes sieht die Erfassungsverarbeitungseinheit 13 bei dem Schlüsselwort-Indexspeicher nach den Schlüsselwörtern in dem Erfassungsschlüssel bei Schritt 4406 nach, und dann führt es den Rechnungssatz für die erfassten Dokumente gemäß den Erfassungsschlüsseln aus und speichert dieses Ergebnis in der individuellen Datenspeichereinheit 16 bei Schritt 4407.
  • Dann wird bei Schritt 4408 beurteilt, ob wenigstens ein Dokument in der individuellen Datenspeichereinheit 16 gespeichert ist und ob ein Satz existiert, der mehr als ein Schlüsselwort in dem wenigstens einen Dokument enthält. Nur wenn es wenigstens ein Dokument gibt, welches in der individuellen Datenspeichereinheit 16 gespeichert ist, und wenn es einen Satz gibt, der mehr als ein Schlüsselwort in dem wenigstens einen Dokument bei Schritt 4408 enthält, nimmt die Eingabeanalyseeinheit 12 das morphologische Analyseergebnis, welches in der individuellen Datenspeichereinheit 16 gespeichert ist, heraus und führt die Syntaxanalyse und die semantische Analyse bei den Schritten 4409 bzw. 4410 durch. Dann wird bei Schritt 4411 die Struktur gelöscht, die mit der übereinstimmt, die in der Unnötiger-Ausdrucks-Extraktionsregel registriert ist. Wenn dann beim Schritt 4412 beurteilt wird, ob die semantische Struktur erzielt ist oder nicht, und nur wenn die semantische Struktur erzielt ist, sieht die Erfassungsverarbeitungseinheit 13 bei dem semantischen Strukturindexspeicher nach der beim Schritt 4413 erzielten semantischen Struktur nach und speichert das bei dem Schritt 4413 erzielte Ergebnis in der individuellen Datenspeichereinheit 16 bei Schritt 4414.
  • Als nächstes wird die achte Variation hinsichtlich der Prozedur für die Bearbeitung der Dokumente, die in der Dokumentenspeichereinheit 15 gespeichert sind, beschrieben. In der obig beschriebenen ersten Ausführungsform werden nämlich die morphologischen, Syntax- und semantischen Analysen bei sämtlichen Dokumenten ausgeführt, die in der Dokumentenspeichereinheit 15 im Voraus gespeichert sind, um den semantischen Strukturindexspeicher aufzustellen. Im Gegensatz hierzu wird in dieser achten Variation ein Fall beschrieben, in welchem die morphologischen, Syntax- und semantischen Analysen an den Dokumenten, die in der Dokumentenspeichereinheit 15 gespeichert sind, nicht im Voraus ausgeführt werden.
  • In diesem Fall führt die Erfassungsverarbeitungseinheit 13 die Schlüsselwort-Erfassungsoperation gemäß dem Erfassungsschlüssel aus, der durch die Eingabeanalyseeinheit 12 erzeugt und in der individuellen Datenspeichereinheit 16 gespeichert ist. Wenn mehr als ein Dokument durch diese Schlüsselwort-Erfassungsoperation erzielt werden, wird dann beurteilt, ob oder ob nicht ein Dokument existiert, das wenigstens einen Satz aufweist, der mehr als ein Schlüsselwort enthält, gemäß dem Dateinamen von jedem erzielten Dokument und gemäß der Satzanzahl der Sätze, die die Schlüsselwörter in dem erzielten Dokument enthalten. Wenn dann solch ein Dokument existiert, werden die morphologischen Syntax- und semantischen Analysen für diese Sätze ausgeführt, die in solch einem Dokument enthalten sind, und die Analyseergebnisse werden in der individuellen Datenspeichereinheit 16 gespeichert.
  • Andererseits nimmt die Eingabeanalyseeinheit 12 das morphologische Analyseergebnis für die in der individuellen Datenspeichereinheit 16 gespeicherte Eingabezeichenkette heraus und führt die Syntax- und semantischen Analysen für die Eingabezeichenkette aus. In einem Fall, wo die Syntax- und semantischen Analysenergebisse erzielt werden, werden dann die erzielten Syntax- und semantischen Analyseergebnisse mit den Syntax- und semantischen Analyseergebnissen für die in der individuellen Datenspeichereinheit 16 gespeicherten Dokumente angepasst, und das Anpassergebnis wird in der individuellen Datenspeichereinheit 16 als das Erfassungsergebnis gespeichert.
  • Hier enthält das Erfassungsergebnis diese Ergebnisse, welche nicht vollständig angepasst sind, und diese Ergebnisse, welche nicht vollständig angepasst sind, werden mit Information begleitet, die diese Tatsache in der individuellen Datenspeichereinheit 16 anzeigt. Diese Information kann zum Zeitpunkt des Festsetzens der Anzeigeprioritätsreihenfolgen verwendet werden, so dass das Dokument ohne diese Information unter den Dokumenten in der gleichen Anzeigeprioritätsreihenfolge vor dem Dokument gezeigt wird, welches diese Information trägt.
  • Wenn beispielsweise die von dem Eingabesatz erzielte semantische Struktur die wie in (a) von 45 angezeigte ist, und wenn es ein Dokument gibt, welches einen Ausdruck "design automation system using computer" enthält, welches die semantische Struktur wie die in (b) von 45 angezeigte aufweist, dann wird solch ein Dokument in das Erfassungsergebnis einbezogen, selbst dann, obwohl diese semantische Struktur von (b) von 45 nicht die semantische Struktur von (a) von 45 vollständig trifft, weil diese semantische Struktur von (b) von 45 insgesamt das Schlüsselwort "computer", die Beziehung "instrument" und das Schlüsselwort "design" enthält, was bedeutsam für die semantische Struktur von (a) von 45 ist.
  • Als nächstes wird die neunte Variation hinsichtlich der Prozedur für die Erfassungsverarbeitung und der Zusammenfassungserzeugung beschrieben. In der obig beschriebenen ersten Ausführungsform werden nämlich die Erfassungsprozedur einschließlich der Schlüsselwort-Erfassungsoperation und der semantischen Strukturerfassungsoperation und der Zusammenfassungserzeugung kontinuierlich ausgeführt. Im Gegensatz hierzu ist in dieser neunten Variation es dem Benutzer gestattet, die Reihenfolge zum Ausführen der Schlüsselwort-Erfassungsoperation, der semantischen Strukturerfassungsoperation und der Zusammenfassungs-Erzeugungsoperation auszuführen, und zu befehlen, ob oder ob nicht in der nachfolgenden Verarbeitung fortzufahren, nachdem die Schlüsselwort-Erfassungsoperation, die semantische Strukturerfassungsoperation und die Zusammenfassungs-Erzeugungsoperation insgesamt abgeschlossen sind.
  • In diesem Fall kann der Benutzer die Reihenfolge der Ausführungsformen der Operationen durch verschiedene Module spezifizieren und befehlen, ob oder ob nicht die nachfolgende Verarbeitung fortfährt, hinsichtlich der selektierten Dokumentenspeichereinheit oder dem bestimmten Erfassungszieldokument.
  • Als nächstes wird die zehnte Variation hinsichtlich der Anzeige der Zusammenfassung beschrieben. In der obig beschriebenen ersten Ausführungsform stellt nämlich die Zusammenfassungs-Erzeugungseinheit 14 nicht Information hinsichtlich der Art und Weise bereit, auf welcher die Zusammenfassung erzeugt wurde. Im Gegensatz hierzu wird in dieser zehnten Variation die Verlässlichkeit der Zusammenfassung durch Anzeigen einer Anzahl oder einer Rate der rhetorischen Ausdrücke, die als Hinweise der Herstellung der Zusammenfassung verwendet werden, angezeigt.
  • In diesem Fall enthält die Anzeige des Erfassungsergebnisses oder die Zusammenfassung eine Anzahl von rhetorischen Ausdrücken, wie etwa "for example", "as a Background" etc., oder eine Rate von diesen rhetorischen Ausdrücken hinsichtlich einer Gesamtzahl von Klauseln in dem gesamten Dokument oder die Rate einer Anzahl von Zeichen in diesen rhetorischen Ausdrücken hinsichtlich einer Gesamtzahl von Wörtern in dem gesamten Dokument.
  • Als ein Beispiel zeigt 46 eine exemplarische Bildschirmanzeige des Erfassungsergebnisses, das die Zusammenfassungszuverlässlichkeit enthält, die mittels einer Prozentzahl gegeben ist, die die Rate einer Anzahl von Zeichen in den rhetorischen Ausdrücken hinsichtlich einer Gesamtzahl von Wörtern in dem gesamten Dokument anzeigt.
  • Als nächstes wird die elfte Variation hinsichtlich der Bearbeitung von Daten, die in der Erfassungsverarbeitung verwendet werden, beschrieben. In der obig beschriebenen ersten Ausführungsform werden nämlich die Schlüsselwörter und/oder die semantischen Strukturen, die in der Erfassungsverarbeitung verwendet werden, nicht beibehalten, nachdem die Erfassungsverarbeitung abgeschlossen ist. Im Gegensatz hierzu wird in dieser elften Variation ein Fall beschrieben, bei dem die Schlüsselwörter und/oder die semantischen Strukturen, die in der bereits abgeschlossenen Erfassungsverarbeitung verwendet werden, beibehalten werden.
  • In diesem Fall speichert die Erfassungssteuereinheit 18 die Schlüsselwörter und/oder die semantischen Strukturen in der Dokumentenspeichereinheit 15, die in der durch die Zusammenfassungs-Erzeugungseinheit 14 erzeugten Zusammenfassung enthalten sind, in Bezug auf das Dokument, von welchem die Zusammenfassung erzeugt wurde. In einem Fall, wo die Schlüsselwörter und/oder die semantischen Strukturen, die in Bezug auf das Dokument gespeichert sind, existieren, führt die Erfassungsverarbeitungseinheit 13 die Schlüsselwort-Erfassungsoperation und/oder die semantische Strukturerfassungsoperation unter Verwendung dieser gespeicherten Schlüsselwörter und/oder semantischen Strukturen aus.
  • Anstatt die Schlüsselwörter und/oder semantischen Strukturen bezüglich des Dokumentes zu speichern, kann der ZusammenfassungsSchlüsselwort-Indexspeicher und/oder der Zusammenfassungssemantikstrukturindexspeicher hier erzeugt und in der Erfassungsverarbeitung verwendet werden.
  • Als nächstes wird als eine Ausführungsform der vorliegenden Erfindung die zwölfte Variation hinsichtlich der Verwendung der Zusammenfassung beschrieben. In der ersten obig beschriebenen Ausführungsform wird nämlich die Zusammenfassung nur erzeugt, nachdem die Erfassungsverarbeitung abgeschlossen ist. Im Gegensatz hierzu werden in dieser zwölften Variation die Zusammenfassung für sämtliche in der Dokumentenspeichereinheit 15 im Voraus gespeicherten Dokumente erzeugt, und der Schlüsselwort-Indexspeicher und der semantische Strukturindexspeicher, die in der Erfassungsverarbeitung verwendet werden, werden nur durch diese Schlüsselwörter und semantischen Strukturen ausgebildet, welche in den erzeugten Zusammenfassungen enthalten sind.
  • In diesem Fall führt die Erfassungsverarbeitungseinheit 13 die Schlüsselwort-Erfassungsoperation und die semantische Strukturerfassungsoperation für lediglich diese Schlüsselwörter und semantische Strukturen aus, welche in den erzeugten Zusammenfassungen enthalten sind.
  • Als nächstes wird die dreizehnte Variation hinsichtlich des Ausdruckes der semantischen Struktur beschrieben. In der obig beschriebenen ersten Ausführungsform nämlich wird die semantische Struktur unter Verwendung von Wörtern ausgedrückt. Im Gegensatz hierzu wird in dieser dreizehnten Variation ein Fall beschrieben, in welchem die semantische Struktur unter Verwendung der Symbole oder der Nummern, die der Bedeutung der Wörter zugeordnet sind, ausgedrückt.
  • In diesem Fall besitzt die Eingabeanalyseeinheit 12 ein Analysewortverzeichnis zum Speichern der Beschreibung der Bedeutung von jedem Wort und eines Symbols oder einer Nummer, die diesem zugeordnet ist. In einem Fall, dass das in der Eingabezeichenkette verwendete Wort ein multivokales Wort ist, ist es dem Benutzer gestattet, die gewünschte Bedeutung von einer Vielzahl von Bedeutungen, die durch die Erfassungsergebnis-Ausgabeeinheit 17 angezeigt werden, zu selektieren. Auch speichert die Eingabeanalyseeinheit 12 das Symbol oder die Nummer, die zu der selektierten Bedeutung zugehört, zusammen mit dem Wort in dem Analyseergebnisspeicher und der individuellen Datenspeichereinheit 16.
  • In diesem Fall wird die Erfassungsverarbeitung mittels der Erfassungsverarbeitungseinheit 13 und der Zusammenfassungs-Erzeugungsoperation durch die Zusammenfassungs-Erzeugungseinheit 14 ebenso im Hinblick auf die Symbole oder die Nummern anstelle der Wörter ausgeführt.
  • Als nächstes wird die vierzehnte Variation hinsichtlich der Art und Weise des Anzeigens des Erfassungsergebnisses beschrieben.
  • In dieser vierzehnten Variation verwendet die Anzeigeeinrichtung 4 in der Gesamtkonfiguration von 1 eine Bitmap-Anzeige, auf welcher der Anzeigebildschirm derart eingeteilt werden kann, dass eine Liste oder Kennzeichen der erfassen Dokumente simultan zusammen mit dem Textinhalt des Originaldokuments und der Zusammenfassung für ein selektiertes Dokument der erfassten Dokumente angezeigt werden kann. Der Benutzer gibt die Eingabe zum Selektieren des gewünschten Dokumentes der erfassten Dokumente sowie eine Befehlseingabe zum Steuern der Art und Weise der Anzeige der Erfassungsergebnisse durch die Eingabeeinrichtung 6 ein. Hier speichert die Erfassungsverarbeitungseinheit 13 entweder die erfassten Dokumente selbst oder deren Kennzeichen als die durch die Erfassungsverarbeitungsoperation in der individuellen Datenspeichereinheit 16 erzielten Erfassungsergebnisse.
  • In der obig beschriebenen ersten Ausführungsform ist ebenso die Eingabe von dem Benutzer in einer natürlichen Sprache gegeben, und die morphologischen, Syntax- und semantischen Analysen werden an die Eingabe, die in einer natürlichen Sprache gegeben ist, angewandt, jedoch in dieser vierzehnten Variation können die Schlüsselwörter oder die Erfassungsschlüssel direkt eingegeben werden. Wenn die Eingabe durch die Schlüsselwörter oder die Erfassungsschlüssel direkt gegeben wird, kann die Operation bei der Eingabeanalyseeinheit übersprungen werden, und die Erfassungsverarbeitungseinheit 13 kann unmittelbar aktiviert werden.
  • Ebenso sind in der obig beschriebenen ersten Ausführungsform sämtliche erfassten Dokumente, die durch die Erfassungsverarbeitungsoperation durch die Erfassungsverarbeitungseinheit 13 erzielt werden, in der individuellen Datenspeichereinheit 16 gespeichert. Jedoch in dieser vierzehnten Variation sind sämtliche erfassten Dokumente in der individuellen Datenspeichereinheit 16 nur dann gespeichert, wenn eine Anzahl von erfassten Dokumenten relativ gering ist, und wenn eine Anzahl von erfassten Dokumenten relativ groß ist, werden nur die Kennzeichen von den erfassten Dokumenten als das Erfassungsergebnis in der individuellen Datenspeichereinheit 16 gespeichert, und die Zusammenfassungs-Erzeugungseinheit 14 und die Erfassungsergebnis-Ausgabeeinheit 17 erhalten die erfassten Dokumente selbst von der Dokumentenspeichereinheit 15 gemäß dem in der individuellen Datenspeichereinheit 16 gespeicherten Kennzeichen. Es ist ebenso für die individuelle Datenspeichereinheit 16 möglich, ein extern verbundenes Speichermedium zu verwenden, um die erfassten Dokumente temporär in einem Fall zu speichern, wenn die Anzahl der erfassten Dokumente groß ist.
  • Ebenso enthält in dieser vierzehnten Variation die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzeugte Zusammenfassung verschiedene Information, wie etwa eine Zuordnungsbeziehung zwischen dem Originaldokument und der Zusammenfassung, den Titel, Autor, Kapitel und Abschnittsüberschriften, etc. des Dokuments, sowie den Auszug eines jeden Kapitels des Dokuments.
  • Nachdem die Operation durch die Zusammenfassungs-Erzeugungseinheit 14 abgeschlossen ist, steuert die Erfassungssteuerungseinheit 18 die Erfassungsergebnis-Ausgabeeinheit 17, um eine Liste der Identifizierungen der erfassten Dokumente in einer vorgeschriebenen Anzeigeprioritätsreihenfolge anzuzeigen, während gleichzeitig die Zusammenfassung und der Textinhalt des Originaldokuments für das erfasste Dokument mit der höchsten Anzeigeprioritätsreihenfolge auf dem geteilten Anzeigebildschirm dargestellt wird.
  • Wenn der Benutzer die Eingabe zum Selektieren der Dokumentenidentifizierung für das Dokument eingibt, welches anders als das Dokument mit der höchsten Anzeigeprioritätsreihenfolge ist, dann wird die Anzeige der Zusammenfassung und des Originaldokuments auf dem selektierten Dokumentenidentifizierer geändert. Wenn der Benutzer die Eingabe zum Anfordern des Änderns des dargestellten Inhalts von entweder der Zusammenfassung oder des Originaldokumentes eingibt, dann wird der angezeigte Inhalt der angeforderten Zusammenfassung oder des Originaldokuments demgemäß geändert, und der dargestellte Inhalt des anderen Zusammenfassung oder des Originaldokuments wird ebenso in Erwiderung abgeändert.
  • Hier ist es ebenso für die Zusammenfassungs-Erzeugungseinheit 14 möglich, die Zusammenfassung lediglich für das Dokument mit der höchsten Anzeigeprioritätsreihenfolge als erstes zu erzeugen, und wann auch immer die Anforderung, das angezeigte Dokument zu ändern, mittels des Benutzers eingegeben wird, wird die Zusammenfassungs-Erzeugungseinheit 14 aktiviert, um die Zusammenfassung für das angeforderte neue Dokument, welches angezeigt werden muss, zu erzeugen.
  • In dieser vierzehnten Variation speichert die individuelle Datenspeichereinheit 16 die Zuordnungen zwischen den Zusammenfassungen und den Originaldokumenten in einer Gestalt eines in 47 gezeigten Zusammenfassungs-Informationsspeichers. In diesem Fall weisen jede Zusammenfassungs-Informationsspeicherdaten einen Originaldokumentenzeiger, einen Zusammenfassungszeiger und einen Dokumentenstrukturzeiger zu der Dokumentenstruktur des Originaldokumentes auf, welche in einem kontinuierlichen Speicherbereich gespeichert sind, um deren Zuordnungen anzuzeigen. Hier enthält die Dokumentenstruktur des Originaldokumentes verschiedene Information, wie etwa die Satzzahlen und die Satzpositionen in dem Originaldokument, die Satztitel, den Autor, Kapitel- und Abschnittsüberschriften, etc., die zu den Satzzahlen zugehören. Ebenso enthält die Zusammenfassung Zusammenfassungssätze sowie die Satzzahlen in dem Originaldokument, die die Zuordnungen zwischen der Zusammenfassung und dem Originaldokument anzeigen.
  • Hier ermittelt ebenso die Erfassungssteuerungseinheit 18 die Anzeigeprioritätsreihenfolge unter den erfassten Dokumenten gemäß der vorgeschriebenen Prioritätsreihenfolgenkonditionen, die als ein Anzeigeprioritäts-Regelverzeichnis in der Erfassungssteuerungseinheit 18 vorgesehen sind, ähnlich zu der obig beschriebenen ersten Ausführungsform. Die Erfassungssteuerungseinheit 18 steuert dann die Erfassungsergebnis-Ausgabeeinheit 17, um eine Liste der Identifizierungen der erfassten Dokumente in der ermittelten Anzeigeprioritätsreihenfolge als das Erfassungsergebnis anzuzeigen.
  • Als ein konkretes Beispiel zeigt die 48 eine exemplarische Erfassungsergebnisanzeige, in welcher der Titel und der Autor des Dokuments als Dokumentenidentifizierung verwendet werden, und in welcher eine Vielzahl von Dokumentenidentifizierungen in der mittels der Erfassungssteuerungseinheit 18 ermittelten Anzeigeprioritätsreihenfolge angeordnet sind. In 48 zeigt ein Rahmen, der den Titel des einen Dokumentes einschließt, das gegenwärtig ausgewählte Dokument an. In der anfänglichen Erfassungsergebnisanzeige ist von daher der Rahmen um den Titel des ersten Dokumentes in der Liste angeordnet, welches, wie in 48 gezeigt, die höchste Anzeigeprioritätsreihenfolge hat. Zusätzlich enthält ebenso die Erfassungsergebnisanzeige die Anzeige der Zusammenfassung, wie in 49 für das erste Dokument in der in 48 als ein Beispiel gezeigt, und die Anzeige des Originaldokuments, wie in 50 für das erste Dokument in der in 48 als ein Beispiel gezeigten Liste gezeigt.
  • Wie in der obig beschriebenen ersten Ausführungsform, zählt hier die Erfassungsverarbeitungseinheit 13 eine Anzahl, wie oft jedes Dokument als das Erfassungsergebnis erfasst wurde, und speichert diese Anzahl der Erfassungen für jedes Dokument in der Dokumentenspeichereinheit 15. In einem Fall, wenn das Erfassungsergebnis mehr als ein Dokument mit der gleichen Anzeigeprioritätsreihenfolge enthält, wird dann das Dokument mit der höchsten Anzahl von Erfassungen vor dem Dokument mit der geringeren Anzahl von Erfassungen angezeigt.
  • Als nächstes wird die fünfzehnte Variation hinsichtlich der detaillierten Weise zum Ändern des angezeigten Inhalts in der Erfassungsergebnisanzeige beschrieben.
  • 51 zeigt eine exemplarische Bildschirmanzeige, um es dem Benutzer zu gestatten, den angezeigten Inhalt in der Erfassungsergebnisanzeige zu ändern. In dieser fünfzehnten Variation werden die Befehle zum Ändern des angezeigten Inhaltes der Erfassungsergebnisanzeige mittels Auswählen einer geeigneten angezeigten Schaltfläche unter Verwendung der Maus eingegeben. In 51 sind die Anzeige-Änderungsschaltflächen zum Befehlen einer ersten, einer vorherigen Seite, einer nächsten Seite, einer letzten Seite, eines vorherigen Kapitels, eines nächsten Kapitels und einer Zeichenkettesuche vorgesehen. Beispielsweise durch Auswählen der Nächste-Seite-Schaltfläche kann der angezeigte Inhalt der Zusammenfassung und des Originaldokuments, wie in den 49 und 50 gezeigt, auf den beispielsweise in den 52 und 53 gezeigten Inhalt geändert werden.
  • Im weiteren Detail kann die Operation, um den angezeigten Inhalt in der Erfassungsergebnisanzeige zu ändern, gemäß dem Ablaufdiagramm der 54A und 54B wie folgt ausgeführt werden.
  • Wenn zuerst die Anzeigenänderungsanforderung von dem Benutzer bei Schritt 5401 erfasst wird, wird beurteilt, welches der Anzeigenänderungsschaltflächen durch den Benutzer ausgewählt worden ist, durch nachfolgenden Vergleich des angeforderten Codes mit dem Code, der der Erste-Seiten-Schaltfläche, der Vorherigen-Seiten-Schaltfläche, der Nächste-Seiten-Schaltfläche, der Letzte-Seiten-Schaltfläche, der Vorheriges-Kapitel-Schaltfläche, der Nächstes-Kapitelschaltfläche und der Zeichenketten-Such-Schaltfläche zugeordnet ist, bei den Schritten 5402, 5404, 5406, 5408, 5410, 5412 bzw. 5419.
  • Wenn beurteilt wird, dass die Erste-Seite-Schaltfläche beim Schritt 5402 selektiert wurde, wird als nächstes beim Schritt 5403 der Zusammenfassungs-Anzeigenzeiger zu der Erste-Seiten-Position verschoben. Wenn beurteilt wird, dass die Vorherige-Seiten-Schaltfläche beim Schritt 5404 selektiert wurde, dann wird als nächstes beim Schritt 5405 der Zusammenfassungs-Anzeigenzeiger um eine vorbestimmte Anzahl proportional zu einer Bildschirmanzeigengröße zurück verschoben. Hier wird der Zusammenfassungs-Anzeigenzeiger um eine vorbestimmte Größe proportional zu einer Bildschirmanzeigengröße verschoben, so dass der Benutzer die Größe einer jeden Seite durch Änderung der Größe der Zusammenfassungsanzeige frei setzen kann. Wenn beurteilt wird, dass die Nächste-Seite-Schaltfläche beim Schritt 5406 selektiert worden ist, dann wird auf ähnliche Weise als nächstes beim Schritt 5407 der Zusammenfassungs-Anzeigenzeiger um eine vorbestimmte Größe proportional zu einer Bildschirmanzeigengröße vorwärts verschoben. Wenn beurteilt wird, dass die Letzte-Seiten-Schaltfläche beim Schritt 5408 selektiert worden ist, dann wird als nächstes beim Schritt 5409 der Zusammenfassungs-Anzeigenzeiger zu der letzten Position verschoben. Wenn beurteilt wird, dass beim Schritt 5410 die Vorheriges-Kapitel-Schaltfläche selektiert worden ist, dann wird als nächstes beim Schritt 5411 der Zusammenfassungs-Anzeigenzeiger zu dem Kopf des vorherigen Kapitels verschoben. Wenn beurteilt wird, dass die Nächstes-Kapitel-Schaltfläche beim Schritt 5412 selektiert worden ist, dann wird als nächstes beim Schritt 5413 der Zusammenfassungs-Anzeigenzeiger zu dem Kopf des nächsten Kapitels verschoben. Wenn beurteilt wird, dass beim Schritt 5419 die Zeichenketten-Such-Schaltfläche selektiert worden ist, dann wird die Zeichenkettensuche für die spezielle Zeichenkette, die zu suchen ist, bei der Zusammenfassung ausgeführt, und der Zusammenfassungs-Anzeigenzeiger wird auf eine Position der herausgesuchten Zeichenkette verschoben.
  • Nachdem die Verschiebung des Zusammenfassungs-Anzeigenzeigers bei dem Schritt 5403, 5405, 5407, 5409, 5411, 5413 oder 5420 vollendet wurde, wird als nächstes beim Schritt 5414 der angezeigte Inhalt der Zusammenfassung gemäß dem verschobenen Zusammenfassungs-Anzeigenzeiger geändert.
  • Dann wird beim Schritt 5415 die Satzzahl in dem Originaldokument, welches bei einer mittels des Zusammenfassungs-Anzeigenzeigers angezeigten Position registriert ist, herausgenommen, und die zugehörige Position in dem Originaldokument wird mittels nachfolgendem Vergleich der herausgenommenen Satznummer mit den Satznummern, die in der Dokumentenstruktur des Originaldokumentes beim Schritt 5416 registriert sind, ermittelt.
  • Dann wird beim Schritt 5417 der Originaldokumenten-Anzeigenzeiger zu der zugehörigen Position verschoben, die beim Schritt 5416 ermittelt wird, und der angezeigte Inhalt des Originaldokuments wird gemäß dem verschobenen Originaldokumenten-Anzeigenzeiger beim Schritt 5418 geändert.
  • In der obig beschriebenen Anzeigeänderungsoperation können in einem Fall, wenn die Vorheriges-Kapitel-Schaltfläche selektiert worden ist, die Verschiebung des Zusammenfassungs-Anzeigenzeigers und des Originaldokumenten-Anzeigenzeigers durch Verwendung der Dokumentenstruktur des Originaldokuments gemäß dem Ablaufdiagramm von 55 wie folgt erzielt werden.
  • Das heißt, die Satznummer in dem Originaldokument, welches bei einer vorliegenden Position registriert ist, die durch den Zusammenfassungs-Anzeigenzeiger angezeigt wird, wird beim Schritt 3201 herausgenommen, und die herausgenommene Satznummer wird nachfolgend mit Satznummern verglichen, die in der Dokumentenstruktur des Originaldokumentes registriert sind, um die Satznummer des unmittelbar vorherigen Kapitels beim Schritt 3202 herauszusuchen. Dann wird beim Schritt 3203 ermittelt, ob das vorherige Kapitel tatsächlich existiert oder nicht. Wenn das vorherige Kapitel nicht existiert, dann wird als nächstes beim Schritt 3204 als eine Rückmeldung die Nachricht angezeigt, die die Nichtexistenz des vorherigen Kapitels anzeigt, wohingegen andererseits die Position der herausgesuchten Satznummer des vorherigen Kapitels zu dem Originaldokumenten-Anzeigenzeiger beim Schritt 3205 gesetzt wird. Dann wird der Satz, welcher die gleiche Satznummer wie die herausgesuchte Satznummer des vorherigen Kapitels aufweist, in der Zusammenfassung beim Schritt 3206 gesucht, und die Position des herausgesuchten Satzes, welcher die gleiche Satznummer wie die herausgesuchte Satznummer des vorherigen Kapitels aufweist, wird beim Schritt 3207 zu dem Zusammenfassungs-Anzeigenzeiger gesetzt.
  • Die ähnliche Prozedur kann ebenso in einem Fall benutzt werden, wenn die Nächstes-Kapitel-Schaltfläche selektiert worden ist.
  • In der obig beschriebenen Anzeigeänderungsoperation ist die Zeichenketten-Suchoperation, die beim Schritt 5420 ausgeführt werden muss, bereits wohl bekannt, so dass auf deren Detail verzichtet wird. Diese Zeichenketten-Suchoperation kann ebenso hinsichtlich des Originaldokuments anstelle der Zusammenfassung, wie obig beschrieben, durch das einfache Ändern des Zieles des Vergleiches ausgeführt werden.
  • Wenn in dieser fünfzehnten Variation das Ändern des angezeigten Inhaltes für das Originaldokument angefordert wird, dann wird der angezeigte Inhalt der Zusammenfassung entsprechend geändert. Als ein konkretes Beispiel kann durch Selektieren der Nächste-Seiten-Schaltfläche für das Originaldokument der angezeigte Inhalt der Zusammenfassung und des Originaldokuments, wie in den 52 und 53 gezeigt, zu diesen in den 56 und 57 als Beispiel gezeigten geändert werden.
  • Auch wenn der Benutzer die Eingabe zum Selektieren der Dokumentenidentifizierung für das Dokument eingibt, das anders als das Dokument mit der höchsten Anzeigeprioritätsreihenfolge ist, werden die Anzeige der Zusammenfassung und des Originaldokuments auf diese für die selektierte Dokumentenidentifizierung geändert. Als ein konkretes Beispiel zeigt 58 eine exemplarische Erfassungsergebnisanzeige, in welcher das dritte Dokument auf der Liste selektiert wird. In diesem Fall werden die angezeigten Inhalte der Zusammenfassung und des Originaldokuments demgemäß von den in den 56 und 57 gezeigten zu den in den 59 und 60 als Beispiel gezeigten geändert. Hier kann die Zuordnung zwischen der selektierten Identifizierung und der Zusammenfassung und dem Originaldokument, das zu der selektierten Identifizierung gehört, einfach durch Verwendung der Tatsache erkannt werden, dass der Zusammenfassungs-Informationsspeicher den Zeiger zu dem Originaldokument, den Zeiger zu der Zusammenfassung und den Zeiger zu der Dokumentenstruktur jedes Dokuments in einem kontinuierlichen Speicherbereich enthält.
  • Als nächstes wird die sechzehnte Variation hinsichtlich der Art und Weise zum Steuern einer Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die auf der Erfassungsergebnisanzeige angezeigt werden muss, beschrieben.
  • In dieser sechzehnten Variation ist eine in 61 gezeigte Bildschirmanzeige zum Anzeigen und zum Ändern der Gegenstände vorgesehen, die in der Zusammenfassungsanzeige enthalten sind. In 61 sind diese Gegenstände mit Kennzeichen, die in begleitenden Boxen eingegeben sind, die gegenwärtig selektierten Gegenstände, die in der Zusammenfassungsanzeige enthalten sind, so dass der Titel, der Kapitelkopf, die Auszüge der Kapitel gegenwärtige in der angezeigten Zusammenfassung enthalten sind. Für die Auszüge der Kapitel sind jedoch lediglich die Kapitel "Introduction" und "Conclusion" gekennzeichnet, so dass die Auszüge von lediglich diesen beiden Kapiteln enthalten sind.
  • Wenn die Einstellungen der Gegenstände für die Zusammenfassungsanzeige, wie in 61 angezeigt, sind, dann erscheint als ein konkretes Beispiel eine exemplarische Zusammenfassungsanzeige, wie in 62 gezeigt, für das in 60 gezeigte Originaldokument. Hier können die Gegenstände, die in der Zusammenfassungsanzeige enthalten sind, gemäß der Dokumentenstruktur des in dem Zusammenfassungs-Informationsspeicher registrierten Dokumentes beurteilt werden.
  • In dieser sechzehnten Variation kann die Anzeige des gewünschten Abschnittes des Originaldokumentes durch Spezifizierung eines zugehörigen Abschnittes in der Zusammenfassung durch Verwendung der Maus gemäß dem Ablaufdiagramm von 63 wie folgt erzielt werden. Hier wird zum Zwecke der Erklärung ein spezieller Fall des Erzielens der Anzeige eines Abschnittes in dem Originaldokument zugehörig zu "3. System function" in der in 62 gezeigten Zusammenfassung beschrieben.
  • In diesem Fall bewegt der Benutzer die Maus zu irgendeinem Zeichen innerhalb des "3. System function"-Abschnittes der Zusammenfassungsanzeige und klickt den Mausschaltknopf an.
  • Dann wird beim Schritt 4001 geprüft, ob das Zeichen in dem Zusammenfassungssatz selektiert wurde oder nicht, um diese Operation von der anderen Eingabeverarbeitung zu unterscheiden. Wenn das Zeichen an dem Zusammenfassungsdokument selektiert wird, dann wird als nächstes beim Schritt 4002 die Zeichenposition des selektierten Zeichens erzielt. In diesem Beispiel ist die Zeichenposition mittels einer Anzahl von Zeichen von dem ersten Zeichen in der Zusammenfassungsanzeige zu dem selektierte Zeichen spezifiziert.
  • Als nächstes wird beim Schritt 4003 die erzielte Zeichenposition in die Zusammenfassungssatznummer konvertiert. Diese Konversion kann durch Verwendung einer in 64 gezeigten Zusammenfassungssatztabelle ausgeführt werden, in welcher die zugehörigen Zeichenpositionen und die Satznummern in dem Originaldokument für jede angezeigte Zusammenfassungssatznummer aufgelistet sind. Von daher kann die Zusammenfassungssatznummer erzielt werden durch nachfolgenden Vergleich der erzielten Zeichenposition mit den Zeichenpositionsbereichen in dieser Zusammenfassungssatztabelle, um den Zeichenpositionsbereich herauszufinden, der die erzielte Zeichenposition enthält. Dann wird beim Schritt 4404 die entsprechende Originaldokument-Satznummer von dieser Zusammenfassungssatztabelle erzielt. In einem Fall, wo das Zeichen in "3. System function" selektiert ist, befindet sich die Zeichenposition innerhalb des Bereiches von 95 bis 102, so dass die Zusammenfassungssatznummer als "5" ermittelt werden kann, und die zugehörige Originaldokument-Satznummer kann als "16" gemäß der Zusammenfassungssatztabelle von 64 ermittelt werden.
  • Dann wird beim Schritt 4005 die Position der erzielten Originaldokument-Satznummer ermittelt und zu dem Originaldokumenten-Anzeigenzeiger gesetzt. Hier kann die Position der erzielten Originaldokument-Satznummer ermittelt werden durch nachfolgenden Vergleich der erzielten Originaldokument-Satznummer mit den Satznummern, die in der logischen Struktur des Originaldokumentes registriert sind, um die zugehörige Position herauszufinden.
  • Letztendlich wird beim Schritt 4006 das Originaldokument gemäß dem Originaldokumenten-Anzeigenzeiger, der beim Schritt 4005 gesetzt ist, angezeigt.
  • Als ein konkretes Beispiel zeigt 65 die Originaldokumentenanzeige für das Originaldokument, das zu der in 62 gezeigten Zusammenfassung zugehört, wenn "3. System function" selektiert ist.
  • Hierbei sei darauf hingewiesen, dass, abgesehen von den verschiedenen obig beschriebenen Variationen, es ebenso möglich ist, die obig beschriebene erste Ausführungsform derart zu modifizieren, dass zum Zeitpunkt des Erzeugens der Zusammenfassungen bei der Zusammenfassungs-Erzeugungseinheit 14 die erzeugten Zusammenfassungen in der Dokumentenspeichereinheit 15 gespeichert werden können, um das System mit eingesparter Speicherkapazität zu konstruieren. Es ist ebenso möglich, die obig beschriebene erste Ausführungsform derart zu modifizieren, dass, anstelle dass die erzeugten Zusammenfassungen als Textdaten gespeichert werden, lediglich die Dokumentenstruktur und die Textstruktur, die mittels der Dokumentenstruktur-Analyseeinheit 141 und der Textstruktur-Analyseeinheit 142 erzielt werden, in einem Prozess der Zusammenfassungserzeugung gespeichert werden, und die Zusammenfassung wird je nach Bedarf durch die Schlüsselsatz-Beurteilungseinheit 143 und die Textrekonstruktionseinheit 144 von der gespeicherten Dokumentenstruktur und der Textstruktur reerzeugt.
  • Wie obig im Detail beschrieben, können gemäß der ersten Ausführungsform und seinen Variationen die gewünschten Dokumente gemäß dem Erfassungsschlüssel erfasst werden, der von dem natürlichen Spracheingabesatz erzeugt wird, und das Erfassungsergebnis von diesen Dokumenten, die die identischen Syntax- und semantischen Strukturen, wie der natürliche Spracheneingabesatz in den Textinhalten oder den Zusammenfassungen enthalten, kann dem Benutzer angegeben werden, so dass diese Dokumente, welche wahrscheinlich von dem Benutzer gewünscht sind, bei der höheren Priorität von einer großen Anzahl von Dokumenten in der Dokumentendatenbank angezeigt werden können, und demzufolge wird es für den Benutzer möglich, das gewünschte Dokument einfach, genau und effizient zu erzielen.
  • Nun wird die zweite Ausführungsform des Dokumentenerfassungssystems, das nicht zu der vorliegenden Erfindung gehört, im Detail beschrieben. Im Folgenden werden diesen Komponenten, welche im wesentlichen äquivalent zu den zugehörigen Komponenten in der obig beschriebenen ersten Ausführungsform sind, die gleichen Bezugszeichen in den Zeichnungen gegeben, und auf deren detaillierte Beschreibungen wird verzichtet. Auch werden diesen Komponenten, welche ähnlich, jedoch nicht identisch zu den entsprechenden Komponenten in der ersten obig beschriebenen Ausführungsform sind, die gleichen Bezugszeichen mit einem in den Zeichnungen beigefügte Apostroph gegeben.
  • In dieser zweiten Ausführungsform weist das Dokumenterfassungssystem eine Gesamtkonfiguration auf, die ähnlich zu der in 1 für die obig beschriebene erste Ausführungsform gezeigten ist.
  • Hier hat im weiteren Detail jedoch ein Hauptabschnitt des Dokumentenerfassungssystems dieser zweiten Ausführungsform eine wie in 66 gezeigte funktionelle Konfiguration, welche folgendes aufweist: eine Eingabeeinheit 11' zum Eingeben eines Eingabesatzes, der Schlüsselwörter und natürliche Sprachensätze für einen Erfassungsbefehl von dem Benutzer enthält; eine Eingabeanalyseeinheit 12' zum Analysieren des bei der Eingabeeinheit 11' eingegebenen Eingabesatzes und zum Konvertieren von diesem in den Erfassungsbefehl; eine Erfassungsverarbeitungseinheit 13' zum Ausführen der Erfassungsverarbeitung für die Erfassung von Dokumenten gemäß dem Erfassungsbefehl; eine Zusammenfassungs-Erzeugungseinheit 14 zum Erzeugen einer Zusammenfassung für jedes erfasste Dokument; eine interne Dokumentenbeziehungsdaten-Analyseeinheit 21 zum Analysieren interner Beziehungen innerhalb eines jeden Dokumentes; eine externe Dokumentenbeziehungsdaten-Analyseeinheit 22 zum Analysieren externer Beziehungen eines jeden Dokumentes mit externen Dokumenten; eine Erfassungsergebnis-Ausgabeeinheit 17' zum Ausgeben verschiedener Ergebnisse, die mittels der Erfassungsverarbeitungseinheit 13', der Zusammenfassungs-Erzeugungseinheit 14, der internen Dokumentenbeziehungsdaten-Analyseeinheit 21 und der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 erzielt werden, während der Verwaltung von Benutzerinteraktionen; eine Dokumentenspeichereinheit 15, die mit er Erfassungsverarbeitungseinheit 13', der Zusammenfassungs-Erzeugungseinheit 14, der internen Dokumentenbeziehungsdaten-Analyseeinheit 21, der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 und der Erfassungsergebnis-Ausgabeeinheit 17' verbunden ist zum Speichern der Dokumentendatenbank; eine individuelle Datenspeichereinheit 16, die mit der Erfassungsverarbeitungseinheit 13', der Zusammenfassungs-Erzeugungseinheit 14, der internen Dokumentenbeziehungsdaten- Analyseeinheit 21, der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 und der Erfassungsergebnis-Ausgabeeinheit 17' verbunden ist, zum Speichern individueller Daten, die in den erfassten Dokumenten und den erzeugten Zusammenfassungen enthalten sind; eine Erfassungssteuerungseinheit 18' zum Steuern der Operationen der Erfassungsverarbeitungsoperation durch die Eingabeeinheit 11', die Eingabeanalyseeinheit 12' und die Erfassungsverarbeitungseinheit 13'; und eine Erfassungsergebnis-Verarbeitungssteuerungseinheit 20, die mit der Erfassungssteuerungseinheit 18' zum Steuern der Erfassungsergebnisverarbeitungsoperation durch die Zusammenfassungs-Erzeugungseinheit 14, der internen Dokumentenbeziehungsdaten-Analyseeinheit 21, der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 und der Erfassungsergebnis-Ausgabeeinheit 17' verbunden ist.
  • In dieser 66 gehören die Dokumentenspeichereinheit 15 und die individuelle Datenspeichereinheit 16 zu der Speichereinrichtung 2 in der Gesamtkonfiguration von 1, während die Eingabeeinheit 11', die Eingabeanalyseeinheit 12', die Erfassungsverarbeitungseinheit 13', die Zusammenfassungs-Erzeugungseinheit 14, die Erfassungsergebnis-Ausgabeeinheit 17', die interne Dokumentenbeziehungsdaten-Analyseeinheit 21, die externe Dokumentenbeziehungsdaten-Analyseeinheit 22, die Erfassungssteuerungseinheit 18' und die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 zu der zentralen Verarbeitungseinrichtung 1 in der Gesamtkonfiguration von 1 gehören. Ebenso zeigen in dieser 66 die dicken Pfeile Datenleitungen an, während die dünnen Linien Steuerungsleitungen anzeigen.
  • In dieser funktionellen Konfiguration von 66 steuert die Erfassungssteuerungseinheit 18' jedes Verarbeitungsmodul, um die folgende Erfassungsverarbeitungsoperationsabfolge zu realisieren.
  • Das heißt, der bei der Eingabeeinheit 11' eingegebene Eingabesatz wird zu der Eingabeanalyseeinheit 12' übertragen, bei welcher eine Liste von Schlüsselwörtern in dem Eingabesatz als den Erfassungsbefehl, der zu der Erfassungsverarbeitungseinheit 13' übergeben werden muss, konstruiert wird.
  • Die Erfassungsverarbeitungseinheit 13' erfasst dann einen Satz von relevanten Dokumenten gemäß den Erfassungsbefehlen von den in der Dokumentenspeichereinheit 15 gespeicherten Dokumentendaten und speichert einen Satz von erfassten Dokumenten in der individuellen Datenspeichereinheit 16.
  • Nachdem diese Erfassungsverarbeitungsoperationsfolge abgeschlossen ist, überträgt die Erfassungssteuerungseinheit 18' ein Aktivierungssignal zu der Erfassungsergebnis-Verarbeitungssteuerungseinheit 20, um die Steuerung zu übergeben.
  • In Erwiderung hierauf nimmt die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 die in der Dokumentenspeichereinheit 15 gespeicherten Originaldokumente gemäß den erfassten Dokumenten, die in der individuellen Datenspeichereinheit 16 gespeichert sind, heraus und steuert die Erfassungsergebnisverarbeitungsoperationen der Zusammenfassungs-Erzeugungseinheit 14, der internen Dokumentenbeziehungsdaten-Analyseeinheit 21 und der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 für jedes erfasste Dokument wie folgt.
  • Die Zusammenfassungs-Erzeugungseinheit 14 erzeugt eine Zusammenfassung für jedes erfasste Dokument von dem Originaldokument und speichert die erzeugte Zusammenfassung zusammen mit zugehörigen Daten, die eine Zuordnung zu dem Originaldokument in der individuellen Datenspeichereinheit 16 anzeigen.
  • Die interne Dokumentenbeziehungsdaten-Analyseeinheit 21 und die externe Dokumentenbeziehungsdaten-Analyseeinheit 22 führen geeignete Analysen aus, um die externen und internen Dokumentenbeziehungsdaten zu erzielen und diese in der individuellen Datenspeichereinheit 16 zu speichern.
  • Nachdem diese Erfassungsergebnisverarbeitungsoperationen abgeschlossen sind, aktiviert die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 die Erfassungsergebnis-Ausgabeeinheit 17', um die Erfassungsergebnisse, die Zusammenfassungen und die externen und internen Dokumentenbeziehungsdaten, die in der individuellen Datenspeichereinheit 16 gespeichert sind, gemäß der von dem Benutzer durch die Eingabeeinheit 11' eingegebene Befehlseingabe anzuzeigen oder zu ändern.
  • Dann überträgt die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 das Aktivierungssignal an die Erfassungssteuerungseinheit 18', um die Steuerung rückspringen zu lassen.
  • Nun wird die detaillierte Operation eines jeden Verarbeitungsmoduls in dieser zweiten Ausführungsform im Detail beschrieben.
  • Zunächst operiert die Erfassungssteuerungseinheit 18' gemäß dem Ablaufdiagramm von 67 wie folgt.
  • Als erstes wartet die Erfassungssteuerungseinheit 18' auf die Eingabe bei der Eingabeeinheit 11' beim Schritt 6701. Wenn die Eingabe bei der Eingabeeinheit 11' erfasst ist, dann wird beim Schritt 6702 die Eingabeanalyseeinheit 12' aktiviert. Als nächstes wartet die Erfassungssteuerungseinheit 18' auf das Ende der Verarbeitung bei der Eingabeanalyseeinheit 12' beim Schritt 6703. Wenn das Ende der Verarbeitung bei der Eingabeanalyseeinheit 12' erfasst wird, dann wird beim Schritt 6704 die Erfassungsverarbeitungseinheit 13' aktiviert. Als nächstes wartet die Erfassungssteuerungseinheit 18' auf das Ende der Verarbeitung bei der Erfassungsverarbeitungseinheit 13' beim Schritt 6705. Wenn das Ende der Verarbeitung bei der Erfassungsverarbeitungseinheit 13' erfasst wird, dann wird das Aktivierungssignal zu der Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 übertragen, so dass die Steuerung beim Schritt 6706 übergeben wird. Als nächstes wartet die Erfassungssteuerungseinheit 18' auf die Übertragung des Aktivierungssignals von der Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 beim Schritt 6707. Wenn das Aktivierungssignal von der Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 empfangen wird, dann gewinnt die Erfassungssteuerungseinheit 18' die Steuerung zurück, und die Operation kehrt zu dem Schritt 6701 zurück, um den Prozess der Schritte 6701 bis 6707 für die nächste Eingabe zu wiederholen.
  • Als nächstes weist die Eingabeanalyseeinheit 12' eine wie in 68 gezeigte detaillierte funktionelle Konfiguration auf, welche folgendes aufweist: eine morphologische Analyseeinheit 41, eine Inhaltswort-Extraktionseinheit 42 und ein unnötiges Wortverzeichnis 43, welches von der Inhaltswort-Extraktionseinheit 42 verwendet wird.
  • Mit dieser funktionellen Konfiguration von 68 operiert die Eingabeanalyseeinheit 12' gemäß dem Ablaufdiagramm von 69 wie folgt.
  • Als erstes wird beim Schritt 6901 die morphologische Analyse an dem Eingabesatz bei der morphologischen Analyseeinheit 41 ausgeführt, um den Eingabesatz in Wörter einzuteilen. Hier sind die Details der morphologischen Analyse, die bei diesem Schritt 6901 ausgeführt werden müssen, nicht wesentlich für die vorliegende Erfindung, und jegliche bekannte Schemata können verwendet werden.
  • Als nächstes wird beim Schritt 6902 das Inhaltswort von dem Eingabesatz bei der Inhaltswort-Extraktionseinheit 42 gemäß dem morphologischen Analyseergebnis extrahiert. Dann wird beim Schritt 6903 ermittelt, ob das beim Schritt 6902 extrahierte Inhaltswort in dem unnötigen Wortverzeichnis 43 existiert oder nicht, und nur, wenn das extrahierte Inhaltswort nicht in dem unnötigen Wortverzeichnis 43 vorhanden ist, wird das extrahierte Inhaltswort als das Erfassungszielschlüsselwort beim Schritt 6904 gesetzt, wohingegen andererseits der Schritt 6904 übersprungen wird.
  • Dann wird beim Schritt 6905 ermittelt, ob es irgend ein anderes Inhaltswort in dem Eingabesatz gibt oder nicht, und nur, wenn ein anderes Inhaltswort in dem Eingabesatz vorhanden ist, kehrt die Operation zu dem obigen Schritt 6902 zurück, um die Schritte 6902 bis 6904 für das nächste Inhaltswort in dem Eingabesatz zu wiederholen, bis sämtliche Inhaltswörter in der Eingabe extrahiert sind.
  • Als ein konkretes Beispiel des Ergebnisses der Operation durch diese Eingabeanalyseeinheit 12' zeigt die 70 einen exemplarischen Eingabesatz und verschiedene Ergebnisse, welche bei verschiedenen Stufen in der Operation dieser Eingabeanalyseeinheit 12' erzielt werden. Im Einzelnen erscheint für den in (a) von 70 angezeigten Eingabesatz das morphologische Analyseergebnis als in (d) von 70 angezeigt, in welchem der Eingabesatz in Wörter eingeteilt ist.
  • Dann erscheint das Inhaltswortextraktionsergebnis, wie in (c) von 70 angezeigt, in welchem die Inhaltswörter "topics", "translation" und "examples" von dem morphologischen Analyseergebnis extrahiert werden.
  • Letztendlich erscheinen die Erfassungszielschlüsselwörter, die zu der Erfassungsverarbeitungseinheit 13' übergeben werden müssen, wie in (d) von 70 angezeigt, wo lediglich "translation" und "examples" als die Schlüsselwörter gesetzt sind, was darauf zurückzuführen ist, dass sich "topics" in dem unnötigen Wortverzeichnis 43 befindet.
  • Als nächstes weist die Erfassungsverarbeitungseinheit 13' eine wie in 71 gezeigte detaillierte funktionelle Konfiguration auf, welche folgendes aufweist: eine Schlüsselwortindex-Anpassungseinheit 71, die mit der Eingabeanalyseeinheit 12' und der individuellen Datenspeichereinheit 16 verbunden ist, und eine Dokumentendateisetz-Berechnungseinheit 72, die mit der Schlüsselwortindex-Anpassungseinheit 71 verbunden ist.
  • Die Schlüsselwortindex-Anpassungseinheit 71 führt die Erfassungsoperation für jedes von der Eingabeanalyseeinheit 12' eingegebene Schlüsselwort an den Dokumentendaten in der Dokumentenspeichereinheit 15 aus, um einen Satz von Dokumenten zu erzielen, die das gleiche Schlüsselwort enthalten. Die Dokumentendateisetz-Berechnungseinheit 72 führt dann eine logische Satzberechnung für die mittels der Schlüsselwortindex-Anpassungseinheit 71 erzielten Dokumente für sämtliche Schlüsselwörter aus, um den endgültigen Dokumentendateiensatz für die erfassten Dokumente zu erzielen. Hier besitzt die Verzeichnisspeichereinheit 15 den Schlüsselwort-Indexspeicher ähnlich zu dem in 12 für die obig beschriebene erste Ausführungsform gezeigten, und diese Operation der Erfassungsverarbeitungseinheit 13' kann mittels der gleichen Prozedur, wie die in den 14A und 14B für die obig beschriebene erste Ausführungsform gezeigten, ausgeführt werden.
  • Hier sei darauf hingewiesen, dass diese zweite Ausführungsform für einen Fall beschrieben wird, wo jedes Dokument in der Dokumentendatenbank seine eigenen Schlüsselwörter hat, die im voraus spezifiziert sind, obwohl es ebenso möglich ist, diese zweite Ausführungsform an der Dokumentendatenbank anzuwenden, in welcher die Schlüsselwörter nicht für jedes Dokument im voraus spezifiziert sind, durch Verwendung der bekannten Technik des gesamten Dokumentenerfassungsschematas.
  • Als nächstes operiert die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 gemäß dem Ablaufdiagramm von 72 wie folgt.
  • Als erstes wartet die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 auf die Übertragung des Aktivierungssignals von der Erfassungssteuerungseinheit 18' beim Schritt 7201. Wenn das Aktivierungssignal von der Erfassungssteuerungseinheit 18' empfangen wird, dann werden die Zusammenfassungs-Erzeugungseinheit 14, die interne Dokumentenbeziehungsdaten-Analyseeinheit 21 und die externe Dokumentenbeziehungsdaten-Analyseeinheit 22 bei den jeweiligen Schritten 7202, 7203 und 7204 aktiviert. Als nächstes wartet die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 auf das Ende der Verarbeitungen bei der Zusammenfassungs-Erzeugungseinheit 14, der internen Beziehungsdatenanalyseeinheit 21 und der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 beim Schritt 7205. Wenn das Ende der Verarbeitungen bei der Zusammenfassungs-Erzeugungseinheit 14, der internen Dokumentenbeziehungsdaten-Analyseeinheit 21 und der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 erfasst wird, dann wird die Erfassungsergebnis-Ausgabeeinheit 17' beim Schritt 7206 aktiviert. Als nächstes wartet die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 auf das Ende der Verarbeitung bei der Erfassungsergebnis-Rusgabeeinheit 17' beim Schritt 7207. Wenn das Ende der Verarbeitung bei der Erfassungsergebnis-Ausgabeeinheit 17' erfasst wird, dann überträgt die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 das Aktivierungssignal zu der Erfassungssteuerungseinheit 18', um die Steuerung beim Schritt 7208 zurückzugeben, und die Operation kehrt zu dem Schritt 7201 zurück, um den Prozess der Schritte 7201 bis 7208 für das nächste Erfassungsergebnis zu wiederholen.
  • In dieser zweiten Ausführungsform weist die Zusammenfassungserzeugung eine funktionelle Konfiguration auf, die identisch zu der in 17 für die erste obig beschriebene Ausführungsform gezeigten ist, in welcher die Textstruktur mittels der Datenstruktur, die identisch zu der in 19 für die erste obig beschriebene Ausführungsform gezeigten ist, und die Schlüsselsatz-Beurteilungseinheit und die Textrekonstruktionseinheit 144 operieren gemäß den Ablaufdiagrammen von den 20 bis 22, wie für die erste, obig beschriebene Ausführungsform.
  • Als nächstes führt die interne Dokumentenbeziehungsdaten-Analyseeinheit 21 die folgende Operation aus.
  • Das heißt, die Dokumentendaten können die technischen Begriffe eines bestimmten Gebietes oder spezielle Wörter, die innerhalb des Dokumentes selbst definiert sind, enthalten. Da die Zusammenfassung mittels der Zusammenfassungs-Erzeugungseinheit 14 durch Auswählen von Schlüsselsätzen lediglich von dem Dokument erzeugt wird, besteht in diesem Zusammenhang eine Möglichkeit für die selektierten Schlüsselsätze, solche technischen Ausdrücke oder speziellen Wörter ohne deren Definitionen zu enthalten, wobei deren Definitionen in dem anderen, nicht selektierten früheren Teil der Dokumente gegeben sind, so dass der Benutzer, welcher die Zusammenfassung liest, nicht in der Lage sein kann, die Bedeutung von solchen technischen Ausdrücken oder speziellen Wörtern zu verstehen. Um dieser Situation abzuhelfen, extrahiert die interne Dokumentenbeziehungsdaten-Analyseeinheit 21 die Definitionen der technischen Ausdrücke oder speziellen Wörter von dem Dokument und bringt diese mit den technischen Ausdrücken oder speziellen Wörtern, die in der Zusammenfassung verwendet werden, in Zusammenhang.
  • In einem Fall des in 73 gezeigten exemplarischen Dokuments enthält beispielsweise der Satz 2 ein abgekürztes Wort "ACRDM" ohne seine Definition innerhalb dieses Satzes, da dieses Wort in dem Satz 1 definiert wird, so dass der Benutzer, der lediglich diesen Satz 2 liest, nicht in der Lage ist, ohne der frühere Kenntnis, von dem, was dieser technische Ausdruck bedeutet, zu verstehen, was dieses Wort "ACRDM" bedeutet.
  • In solch einem Fall wird die interne Dokumentenbeziehungsdaten-Analyseeinheit 21 gemäß dem Ablaufdiagramm von 74 wie folgt betrieben.
  • Das heißt, jeder Satz S1 von jedem Dokument wird beim Schritt 7401 herausgenommen, und beim Schritt 7402 wird beurteilt, ob dieser Satz S1 den Definitionsausdruck für das Zielwort enthält oder nicht.
  • In einem Fall, wenn der Satz S1 nicht den Definitionsausdruck für das Zielwort enthält, fährt die Operation mit dem nachfolgend beschriebenen Schritt 7405 fort. Andererseits wird das in diesem Satz S1 definierte Zielwort als das Wort DW beim Schritt 7403 gesetzt, und Daten in einer Gestalt (DW, S2, S2) für das Zielwort DW, ein Satz S2, der das Zielwort DW enthält, und der definierende Satz S1 des Zielwortes wird als die internen Dokumentenbeziehungsdaten beim Schritt 7404 gespeichert.
  • Diese Schritt 7401 bis 7404 werden für sämtliche Sätze eines jeden Dokuments beim Schritt 7405 wiederholt.
  • In dieser Operation kann der Definitionsausdruck beim Schritt 7402 wie folgt erfasst werden.
  • Als erstes wird beurteilt, ob jedes Substantiv in jedem Satz in irgendeinem vorhergehenden Satz von diesem jeden Satz enthalten ist, ausgehend von dem obersten Satz des Dokumentes zu dem unmittelbar vorhergehenden Satz von diesem jeden Satz nachfolgend. Wenn der vorhergehende Satz, der jedes Substantiv in jedem Satz enthält, gefunden ist, werden die morphologische und Syntaxanalysen zu diesem vorhergehenden Satz angewandt, um die Syntaxstruktur von diesem vorhergehenden Satz zu erzielen. Hier enthält die Syntaxstruktur die Beziehungen von ähnlichen Bestimmungen sowie die Syntaxkategorien für die Bestimmungen.
  • Als nächstes wird die erzielte Syntaxstruktur von diesem vorhergehenden Satz mit den festgelegten Definitionsausdrucksmustern verglichen, die in einem Tabellenformat bereitgestellt sind, um zu ermitteln, ob dieser vorhergehende Satz der Definitionssatz ist oder nicht. Beispielsweise können die Definitionsausdrucksmuster wie folgt spezifiziert sein.
    • (1) $(Substantiv-Ausdruck) ($(Substantiv-Ausdruck))
    • (2) $(Substantiv-Ausdruck) wird $(Substantiv-Ausdruck) genannt
  • Hier zeigt "$" in dem Ausdrucksmuster die Syntaxkategorie an, so dass der Vergleich für die Syntaxkategorie, die in der Syntaxstruktur erzielt wird, gemacht wird.
  • In den obigen Beispielen zeigt das Muster (1) das Erscheinen des Substantivausdruckes in Klammern unmittelbar nach einem anderen Substantivausdruck an, der zu einem Typ von Definitionsausdruck zugehört, in welchem der abgekürzte Ausdruck mit dem vollen Ausdruck nebengestellt wird. Beispielsweise entspricht in dem obigen Beispiel von 73 "an advanced control rod drive mechanism (ACRDM) ..." diesem Muster (1).
  • Andererseits zeigt das Muster (2) eine Form des Definitionsausdruckes an, wie etwa "In this paper, the logical structure of the sentence defined by the rhetorical expressions such as a connective will be called text structure" als Beispiel.
  • Wenn der vorhergehende Satz mit irgendeinem der vorgeschriebenen Definitionsausdrucksmustern übereinstimmt, dann kann der vorhergehende Satz als der Definitionssatz des Substantivs beurteilt werden, welches gefunden wird, in diesem vorhergehenden Satz enthalten zu sein, für welchen die internen Dokumentenbeziehungsdaten, wie obig beschrieben, erzeugt werden können. Wenn der Definitionssatz für ein bestimmtes Wort gefunden ist, dann werden die anderen Sätze, die dieses bestimmte Wort enthalten, herausgesucht und die internen Dokumentenbeziehungsdaten werden für die anderen Sätze, die dieses bestimmte Wort enthalten, ebenso erzeugt.
  • Als nächstes führt die externe Dokumentenbeziehungsdaten-Analyseeinheit 22 die folgende Operation wie folgt aus.
  • Das heißt, die externe Dokumentenbeziehungsdaten-Analyseeinheit 22 analysiert die Beziehungen unter den Dokumenten, die einen Teil in jedem Dokument entsprechen, auf welchen jedes Referenzdokument bezogen wird. In einem Fall beispielsweise, wo ein bestimmtes Referenzdokument sich auf einen Backgroundabschnitt in einem Dokument bezieht, dann hat dieses bestimmte Referenzdokument eine Beziehung zu dem Background hinsichtlich zu diesem einen Dokument. In einem Fall, wo sich ein bestimmtes Referenzdokument auf einen Abschnitt bezieht, welcher die Definition in einem anderen Dokument beschreibt, hat auf ähnliche Weise das bestimmte Referenzdokument eine Beziehung der Definition hinsichtlich zu dem anderen Dokument.
  • Um solche Beziehungen unter den Dokumenten zu analysieren, wird die externe Dokumentenbeziehungsdaten-Analyseeinheit 22 gemäß dem Ablaufdiagramm von 75 wie folgt betrieben.
  • Als erstes wird beim Schritt 7501 die Textstrukturanalyse für sämtliche Dokumente in dem System ausgeführt. Hier ist die Textstrukturanalyse, die ausgeführt werden muss, im Wesentlichen die gleiche, die bei der Zusammenfassungs-Erzeugungseinheit 14 in der Zusammenfassungs-Erzeugungsoperation verwendet wird, so dass die Textstruktur-Analyseergebnisse, die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzielt werden, direkt in dieser externen Dokumentenbeziehungsdaten-Analyseeinheit 22 verwendet werden können.
  • Als nächstes wird jeder Satz S von jedem Dokument beim Schritt 7502 herausgenommen, und beim Schritt 7503 wird beurteilt, ob der Referenzausdruck in diesem Satz S enthalten ist oder nicht.
  • In einem Fall, wenn der Referenzausdruck nicht in diesem Satz S enthalten ist, fährt die Operation mit dem nachfolgend beschriebenen Schritt 7506 fort. Andererseits wird der Dokumentenname DN des Referenzdokuments, das durch den Referenzausdruck in diesem Satz S sich bezieht, beim Schritt 7004 herausgenommen, und ein Paar (R, DN) der Beziehung R, die für den Satz S mittels der Textstrukturanalyse erzielt wird, und des Dokumentennamens DN, der durch den Referenzausdruck zugeordnet wird, wird als die externen Dokumentenbeziehungsdaten gespeichert.
  • Diese Schritt 7502 bis 7505 werden für sämtliche Sätze eines jeden Dokuments durch den Schritt 7506 wiederholt.
  • In dieser Operation kann der Referenzausdruck bei dem Schritt 7503 erfasst werden durch Anpassung eines jeden Satzes S mit den vorgeschriebenen Referenzausdrucksmustern, die in Tabellenformat vorgesehen sind. Beispielsweise können die Referenzausdrucksmuster wie folgt spezifiziert sein.
    • (1) <hochgestellter Startsteuerungscode> ($(Nummer)) <hochgestellter Endsteuerungscode>
    • (2) [$(geeignetes Substantiv) $(Nummer)]
  • Hier gehört das Muster (1) zu einem Typ des Referenzausdruckes, in welchem die Referenznummer als Index bei einem sachgemäßen Abschnitt angezeigt wird, während das Muster (2) zu einem anderen Typ des Referenzausdruckes gehört, in welchem das Referenzdokument in einem abgekürzten Schlüssel angezeigt wird, der durch den Familiennamen des Autors und einer Nummer ausgebildet wird, wie etwa [Sato 91].
  • Nun speichert in dieser zweiten Ausführungsform die individuelle Datenspeichereinheit 16 die Zuordnungen zwischen den Zusammenfassungen und den Originalsätzen in einer Form eines in 76 gezeigten Zusammenfassungs-Informationsspeichers. In diesem Fall enthält jeder Zusammenfassungs-Informationsspeicher einen Zeiger zu dem Originaldokument, einen Zeiger zu der Zusammenfassung und eine Hilfsinformation, welche in einem kontinuierlichen Speicherbereich gespeichert sind, um deren Zuordnungen anzuzeigen. Die Hilfsinformation enthält einen Zeiger zu einer gespeicherten Adresse der internen Dokumentenbeziehungsdaten, einen Zeiger zu einer gespeicherten Adresse der Dokumentenstruktur und der Textstruktur und einen Zeiger zu einer gespeicherten Adresse der externen Dokumentenbeziehungsdaten für das mittels des Originaldokumentenzeigers angezeigten Originaldokumentes.
  • Ebenso sind in dieser zweiten Ausführungsform die internen Dokumentenbeziehungsdaten in einer in 77 gezeigten Form gespeichert, in welcher ein Wort, das mittels eines Definitionssatzes, ein Zeiger zu jedem Satz, welcher dieses Wort verwendet, und ein Zeiger zu dem Definitionssatz entsprechend gespeichert sind, für jedes erfasste Dokument, das mittels der Dokumenten ID, wie mittels der internen Dokumentenbeziehungsdaten-Analyseeinheit 21 erzielt, spezifiziert ist.
  • Andererseits werden die externen Dokumentenbeziehungsdaten in einer in 48 gezeigten Form gespeichert, in welcher ein Beziehungsname, eine Position eines bezugnehmenden Satzes und ein Referenzdokumentenname entsprechend für jedes erfasste Dokument gespeichert sind, welches mittels der Dokumente ID, wie mittels der externen Dokumentenbeziehungsdaten-Analyseeinheit 22 erzielt, spezifiziert ist.
  • Als nächstes weist die Erfassungsergebnis-Ausgabeeinheit 17' eine detaillierte funktionelle Konfiguration, wie in 79 gezeigt, auf, welche folgendes aufweist: eine Erfassungsergebnis-Zusammenfassungs-Anzeigeeinheit 231, eine Dokumentenselektions-Verarbeitungseinheit 232, eine Beendigungs-Verarbeitungseinheit 233, eine Betrachtungsänderungs-Verarbeitungseinheit 234, eine Betrachtungsselektions-Verarbeitungseinheit 235, eine interne Dokumentenbeziehungsdaten-Anzeigeeinheit 236, eine externe Dokumentenbeziehungsdaten-Anzeigeeinheit 237 und eine Erfassungsergebnisanzeigen-Steuerungseinheit 238 zum Steuern von Operationen der obigen Einheitsmodule 231 bis 237.
  • Die Erfassungsergebnis-Zusammenfassungs-Anzeigeeinheit 231 zeigt eine Liste der Titel der erfassten Dokumente, und die Zusammenfassung der erfassten Dokumente mit der höchsten Anzeigeprioritätsreihenfolge als die anfängliche Bildschirmanzeige des Erfassungsergebnisses an.
  • Die Dokumentenselektions-Verarbeitungseinheit 232 aktiviert die Betrachtungsänderungs-Verarbeitungseinheit 234 oder die Beendigungs-Verarbeitungseinheit 233 gemäß einer Selektion von einem erfassten Dokument, die durch den Benutzer durch die Eingabeeinheit 11' gemacht wird.
  • Die Betrachtungsänderungs-Verarbeitungseinheit 234 aktiviert eine Einheit der Betrachtungsselektions-Verarbeitungseinheit 235, der internen Dokumentenbeziehungsdaten-Anzeigeeinheit 236, der externen Dokumentenbeziehungsdaten-Anzeigeeinheit 237 und der Beendigungs-Verarbeitungseinheit 233 gemäß dem Befehlscode, der hinsichtlich des selektierten Dokumentes durch den Benutzer über die Eingabeeinheit 11' eingegeben wird.
  • Die Betrachtungsselektions-Verarbeitungseinheit 235 zeigt ein Betrachtungsselektionsmenü an und aktiviert die Betrachtungsänderungs-Verarbeitungseinheit 234 oder die Beendigungs-Verarbeitungseinheit 233 gemäß dem mittels des Benutzers hinsichtlich des angezeigten Betrachtungsselektionsmenüs eingegebenen Befehlscodes.
  • Die interne Dokumentenbeziehungsdaten-Anzeigeeinheit 236 zeigt die internen Dokumentenbeziehungsdaten für das selektierte Dokument an, wenn sie aktiviert ist, während die externe Dokumentenbeziehungsdaten-Anzeigeeinheit 237 die externen Dokumentenbeziehungsdaten für das selektierte Dokument anzeigt, wenn sie aktiviert ist.
  • Im weiteren Detail operieren diese Einheitsmodule der Erfassungsergebnis-Ausgabeeinheit 14 gemäß den Ablaufdiagrammen der 80A, 80B, 80C, 80D, 80E, 80F und 80G, während die Bildschirmanzeigen wie in den 81A, 81B, 81C, 81D, 81E und 81F wie folgt angezeigt werden.
  • Die Erfassungsergebnis-Zusammenfassungs-Anzeigeeinheit 231 operiert gemäß dem Ablaufdiagramm von 80A und zeigt die in 81A gezeigte Bildschirmanzeige an.
  • Hier wurden zum Zeitpunkt der Aktivierung der Erfassungsergebnis-Zusammenfassungs-Anzeigeeinheit 231 die Zusammenfassungen der erfassten Dokumente, die angezeigt werden müssen, bereits mittels der Zusammenfassungs-Erzeugungseinheit 14 erzeugt und in der individuellen Datenspeichereinheit 16 zusammen mit den Daten gespeichert, die die Zuordnung zwischen den Zusammenfassungen und den Originaldokumenten anzeigen. Demzufolge nimmt die Erfassungsergebnis-Zusammenfassungs-Anzeigeeinheit 231 die Zusammenfassungen für die erfassten Dokumente von der individuellen Datenspeichereinheit 16 heraus und zeigt diese beim Schritt 8001 auf der Anzeigeeinrichtung 4 an.
  • Dann wartet die Erfassungsergebnis-Ausgabeeinheit 17' für ein Eingabeereignis, das durch das Klicken der Mausschaltfläche durch den Benutzer beim Schritt 8002 angezeigt wird. Wenn das eingegebene Eingabeereignis das Dokumentenselektionsereignis beim Schritt 8003 ist, dann wird die Dokumentenselektions-Verarbeitungseinheit 232 beim Schritt 8004 aktiviert, wohingegen die Beendigungs-Verarbeitungseinheit 233 beim Schritt 8006 aktiviert wird, wenn das eingegebene Eingabeereignis das Beendigungsereignis beim Schritt 8005 ist.
  • Nach dem Schritt 8004 sowie wenn das eingegebene Eingabeereignis nicht das Beendigungsereignis beim Schritt 8005 ist, kehrt die Operation zu dem Schritt 8002 zurück.
  • Die Beendigungs-Verarbeitungseinheit 233 operiert gemäß dem Ablaufdiagramm von 80B. Das heißt, die Beendigungs-Verarbeitungseinheit 233 löscht das Fenster, das für die Erfassungsergebnis-Anzeigenoperation beim Schritt 8011 erzeugt ist, um die Erfassungsergebnis-Anzeigenoperation mittels der Erfassungsergebnis-Ausgabeeinheit 17' zu beenden.
  • Die Dokumentenselektions-Verarbeitungseinheit 232 operiert gemäß dem Ablaufdiagramm von 80C wie folgt.
  • Als erstes wird der Titelabschnitt in der Zusammenfassung des selektierten Dokumentes in entgegengesetzter Farbe beim Schritt 8021 angezeigt, und ein Betrachtungsselektionsmenü wird beim Schritt 8022 angezeigt. Dann wird das nächste Eingabeereignis beim Schritt 8023 erwartet. Bei diesem Punkt zeigt die Dokumentenselektions-Verarbeitungseinheit 232 die Bildschirmanzeige an, die das Betrachtungsselektionsmenü VSM, wie in 81B gezeigt, anzeigt, in welchem der Titelabschnitt in der Zusammenfassung des gegenwärtig selektierten Dokumentes in umgekehrter Farbe angezeigt wird (in 81B durch Schattierung angezeigt).
  • Hier listet das Betrachtungsselektionsmenü die Beziehungen auf, die zu den Knotenpunkten von der Wurzelebene zu der vorbestimmten Ebene in der Textstruktur des selektierten Dokumentes angebunden sind. Wenn das eingegebene Eingabeereignis das Betrachtungsselektionsereignis ist, um eines der angezeigten Beziehungen beim Schritt 8024 zu selektieren, dann wird die Betrachtungsänderungs-Verarbeitungseinheit 234 beim Schritt 8025 aktiviert, wohingegen die Beendigungs-Verarbeitungseinheit 233 beim Schritt 8027 aktiviert wird, wenn das eingegebene Eingabeereignis das Beendigungsereignis beim Schritt 8026 ist.
  • Nach dem Schritt 8025 sowie, wenn das eingegebene Eingabeereignis nicht das Beendigungsereignis beim Schritt 8026 ist, kehrt die Operation zu dem Schritt 8023 zurück.
  • Die Betrachtungsänderungs-Verarbeitungseinheit 234 operiert gemäß dem Ablaufdiagramm von 80D wie folgt.
  • Als erstes wird beim Schritt 8031 der Abschnitt des selektierten Dokumentes, welches die Beziehung aufweist, die mittels des Betrachtungsselektionsereignisses selektiert ist, gemäß der Textstruktur des selektierten Dokumentes angezeigt. 81C zeigt eine exemplarische Bildschirmanzeige bei diesem Punkt in einem Fall, wo die Beziehung "Background" in dem in 81B gezeigten Betrachtungsselektionsmenü VSM selektiert ist.
  • Dann wird beim Schritt 8032 das nächste Eingabeereignis erwartet. Wenn das eingegebene Eingabeereignis das Betrachtungsselektionsereignis ist, um eines der angezeigten Beziehungen erneut beim Schritt 8033 zu selektieren, wird die Betrachtungsselektions-Verarbeitungseinheit 235 beim Schritt 8034 aktiviert. Wenn das eingegebene Eingabeereignis andererseits das interne Dokumentenbeziehungsdaten-Anzeigeereignis beim Schritt 8035 ist, dann wird die interne Dokumentenbeziehungsdaten-Anzeigeeinheit 236 beim Schritt 8036 aktiviert, und wenn das eingegebene Eingabeereignis das externe Dokumentenbeziehungsdaten-Anzeigeereignis beim Schritt 8037 ist, dann wird die externe Dokumentenbeziehungsdaten-Anzeigeeinheit 237 beim Schritt 8038 aktiviert, wohingegen die Beendigungs-Verarbeitungseinheit 233 beim Schritt 8040 aktiviert wird, wenn das eingegebene Eingabeereignis das Beendigungsereignis beim Schritt 8035 ist. Nach den Schritten 8034, 8036 und 8038 sowie, wenn das eingegebene Eingabeereignis nicht das Beendigungsereignis beim Schritt 8039 ist, kehrt die Operation zu Schritt 8032 zurück.
  • Die Betrachtungsselektions-Verarbeitungseinheit 235 operiert gemäß dem Ablaufdiagramm von 80E wie folgt.
  • Als erstes wird beim Schritt 8041 das Betrachtungsselektionsmenü dargestellt. Bei diesem Punkt zeigt die Dokumentenselektions-Verarbeitungseinheit 232 die Bildschirmanzeige an, die das Betrachtungsselektionsmenü VSM, wie in 81D gezeigt, in welchem der Abschnitt, der in Erwiderung auf die gegenwärtige Selektion angezeigt wird, der Relation in umgekehrter Farbe angezeigt wird (mittels Schattierung in 81D angezeigt), enthält.
  • Dann wird beim Schritt 8042 das nächste Eingabeereignis erwartet. Wenn das eingegebene Eingabeereignis das Betrachtungsselektionsereignis ist, um eines der angezeigten Relationen beim Schritt 8043 zu selektieren, wird die Betrachtungsänderungs-Verarbeitungseinheit 234 beim Schritt 8044 aktiviert, wohingegen beim Schritt 8046 die Beendigungs- Verarbeitungseinheit 233 aktiviert wird, wenn das eingegebene Eingabeereignis beim Schritt 8045 das Beendigungsereignis ist.
  • Nach dem Schritt 8044 sowie, wenn das eingegebene Eingabeereignis nicht das Beendigungsereignis beim Schritt 8045 ist, kehrt die Operation zum Schritt 8042 zurück.
  • In einem Fall des Betrachtungsselektionsereignisses wird der Abschnitt des selektierten Dokumentes mit der Relation, die durch das Betrachtungsselektionsereignis selektiert ist, mittels der Betrachtungsänderungs-Verarbeitungseinheit 234, wie obig beschrieben, angezeigt. Die 81E zeigt eine exemplarische Bildschirmanzeige bei diesem Punkt in einem Fall, wo die Relation "example" in dem in 81D gezeigten Betrachtungsselektionsmenü VSM selektiert ist, während der Abschnitt, der in Erwiderung auf die gegenwärtige Selektion der Relation angezeigt ist, verbleibt, in umgekehrter Farbe angezeigt zu werden (angezeigt durch eine Schattierung in 81E).
  • Die interne Dokumentenbeziehungsdaten-Anzeigeeinheit 236 operiert gemäß dem Ablaufdiagramm von 80F. Das heißt, die gespeicherten internen Dokumentenbeziehungsdaten gemäß dem selektierten Wort werden herausgenommen, und der Abschnitt, der den Definitionssatz enthält, wird beim Schritt 8051 angezeigt. Hier enthält der angezeigte Abschnitt nicht nur den Definitionssatz selbst alleine, sondern einige vorhergehende Sätze sowie einige nachfolgende Sätze, um das Verständnis des Benutzers des Definitionssatzes zu unterstützen.
  • Die externe Dokumentenbeziehungsdaten-Anzeigeeinheit 237 operiert gemäß dem Ablaufdiagramm von 80G. Das heißt, die gespeicherten externen Dokumentenbeziehungsdaten, die zugehören, werden herausgenommen und beim Schritt 8061 angezeigt. Die 81F zeigt eine exemplarische Bildschirmanzeige bei diesem Punkt.
  • Auf diese Art und Weise kann in dieser zweiten Ausführungsform das System verschiedene Funktionen bereitstellen, einschließlich der Erfassung des gewünschten Dokuments, der Anzeige der Zusammenfassung des erfassten Dokumentes, die Darstellung der Betrachtung, um die Zusammenfassung anzuzeigen, der Anzeige der ähnlichen Abschnitte in Erwiderung auf die Selektion der Betrachtung und der Anzeige der internen und externen Dokumentenrelationsdaten in Erwiderung auf die Befehlseingabe, die durch den Benutzer gemacht wird.
  • Es sei darauf hingewiesen, dass in der obigen Operation die Erfassungsergebnis-Zusammenfassungs-Anzeigeeinheit 231 auf einfache Weise derart modifiziert werden kann, dass die Titel der erfassten Dokumente alleine anfänglich angezeigt werden, und dass die Zusammenfassung für das Dokument mit dem selektierten Titel nur in Erwiderung auf das durch den Benutzer eingegebene Betrachtungsselektionsereignis angezeigt wird.
  • Nun werden verschiedene Variationen der obig beschriebenen zweiten Ausführungsform des Dokumentenerfassungssystems beschrieben.
  • Als erstes wird die erste Variation hinsichtlich der Volltext-Erfassungsoperation beschrieben. Das heißt, in der obig beschriebenen zweiten Ausführungsform wurde angenommen, dass die Schlüsselwörter für jedes Dokument gesetzt sind, so dass die Erfassungsverarbeitung mittels der Schlüsselwort-Erfassungsoperation realisiert werden kann. Im Gegensatz hierzu wird in dieser ersten Variation ein Fall der Realisierung der Erfassungsverarbeitung bei der Erfassungsverarbeitungseinheit 13' mittels der Volltext-Erfassungsoperation beschrieben.
  • Hier ist der detaillierte Algorithmus für die auszuführende Volltext-Erfassungsoperation durch die Erfassungsverarbeitungseinheit 13' nicht essentiell für die vorliegende Erfindung, und jegliche bekannte Schemata können verwendet werden. Beispielsweise kann hier das in Faloutsos, C.: "Access Methods for Text", Computing Surveys, Vol. 17, Nr. 1, März 1985, Seiten 49–74, offenbarte Schema verwendet werden.
  • Wenn die Volltext-Erfassungsoperation durch die Erfassungsverarbeitungseinheit 13' ausgeführt wird, wird es möglich, einen Anpassungsabschnitt des Originaldokumentes zu identifizieren, welcher das Erfassungszielwort enthält. Zusätzlich wird es durch Verwendung des Textstruktur-Analyseergebnisses, welches mittels der Zusammenfassungs-Erzeugungseinheit 14 zum Zwecke der Zusammenfassungserzeugung erzielt wurde, möglich, Daten zu erzielen hinsichtlich der Beziehung eines jeden Anpassungsabschnittes des Originaldokumentes hinsichtlich des gesamten Dokumentes aus der Betrachtung der Textstruktur heraus.
  • Demzufolge ist es in dieser ersten Variation möglich, die erfassten Dokumente, die bei der Erfassungsverarbeitungseinheit 13' erzielt wurden, in eine vorbestimmte Reihenfolge neu anzuordnen, die gemäß der Beziehungen von den anderen Anpassungsabschnitten ermittelt wird.
  • Beispielsweise sei ein Fall betrachtet, in welchem das Erfassungsergebnis, das mittels der Erfassungsverarbeitungseinheit 13' erzielt wurde, einen Satz von erfassten Dokumenten (Dokument 1, Dokument 2, Dokument 3, Dokument 4) enthält, und die Beziehungen der Anpassungsabschnitte in den jeweils erfassten Dokumenten sind (serielle Beziehung (rechts), Beispiel (rechts), serielle Beziehung (rechts), serielle Beziehung (links)), wobei links oder rechts, was in den Klammern beigefügt zu jeder Beziehung spezifiziert ist, einen linken oder rechten Knotenpunkt des Satzes anzeigt, zu welchem das angepasste Erfassungszielwort in der Textstruktur des Originaldokumentes gehört. In solch einem Fall können diese erfassten Dokumente in eine Reihenfolge von (Dokument 1, Dokument 3, Dokument 4, Dokument 2) neu angeordnet werden durch Gruppierung der Dokumente mit der Beziehung der seriellen Beziehung zueinander.
  • In dieser ersten Variation weist die Erfassungsverarbeitungseinheit 13' eine detaillierte Konfiguration, wie in 82 gezeigt, auf, welche folgendes aufweist: eine Volltext-Erfassungseinheit 281, die mit der Eingabeanalyseeinheit 12' und der Dokumentenspeichereinheit 15 verbunden ist, einer Dokumentendateisetz-Berechnungseinheit 282, die mit der Volltext-Erfassungseinheit 281 verbunden ist, eine Neuanordnungs-Einheit 283, die mit der Dokumentendateisetz-Berechnungseinheit 282 und der individuellen Datenspeichereinheit 16 verbunden ist, und einer Beziehungsreihenfolgetabelle 284, auf die mittels der Neuanordnungs-Einheit 284 zugegriffen wird.
  • In dieser Konfiguration von 82 führt die Volltext-Erfassungseinheit 281 die Volltext-Erfassungsoperation gemäß dem bekannten Volltext-Erfassungsalgorithmus durch, und die Dokumentendateisetz-Rechnungseinheit 282 führt die Satzberechnungsoperation ähnlich zu der der Schritte 1312 bis 1315 in dem Ablaufdiagramm von 14B, das obig für die erste Ausführungsform beschrieben wurde, durch. Dann führt die Neuanordnungs-Einheit 283 die Neuanordnungs-Operation für die erfassten Dokumente durch, die mittels der Dokumentendateisetz-Berechnungseinheit 282 erzielt werden, durch Erzielen der Beziehungen der Anpassungsabschnitte für die Erfassungszielwörter gemäß dem Textstruktur-Analyseergebnis, welches mittels der Zusammenfassungs-Erzeugungseinheit 14 erzielt und nachfolgend in der individuellen Datenspeichereinheit 16 gespeichert wurde, und dann durch Neuanordnung der Reihenfolge der erfassten Dokumente gemäß der Relationsreihenfolgetabelle 284.
  • Die Beziehungsreihenfolgetabelle 284 speichert Beziehungsreihenfolgedaten in einer wie in 83 gezeigten Form, in welcher jeder Dateneintrag ein Paar des Beziehungsnamens und den linken oder rechten Hinweis aufweist, der in den bei dieser Beziehung beigefügten Klammern spezifiziert wird, und eine Vielzahl von solchen Paaren werden in der Reihenfolge angeordnet, gemäß welcher die erfassten Dokumente neu angeordnet werden müssen. Gemäß dieser Beziehungsreihenfolgetabelle 284 von 83 werden beispielsweise die Dokumente mit der Beziehung von "serielle Beziehung (rechts)" zuerst angeordnet, die Dokumente mit der Beziehung von "Beispiel (links)" werden zusammen als nächstes angeordnet, usw.
  • In dieser ersten Variation wird das Textstruktur-Analyseergebnis für jedes Dokument in der individuellen Datenspeichereinheit 16 mittels einer wie in 84 gezeigten Datenstruktur ausgedrückt, in welcher ein Block, der zu jedem Knotenpunkt zugehört, vier Dateneinträge von "Textstruktur Rel", was den Beziehungsnamen anzeigt, "Textstruktur L", was einen Zeiger zu einer linksseitigen Verzweigung anzeigt, "Textstruktur R", was einen Zeiger zu einer rechtsseitigen Verzweigung anzeigt, und "Textstruktur Level", was eine Pfadlänge von dem Wurzelknotenpunkt (eine Anzahl von Bögen von dem Wurzelknotenpunkt) in der Baumstruktur des Dokumentes anzeigt. Anders ausgedrückt, weist diese Datenstruktur von 84 im Vergleich mit der Datenstruktur von 19, die obig für die erste Ausführungsform beschrieben wird, die "Textstruktur Level" auf, was die Pfadlänge von dem Wurzelknotenpunkt als eine zusätzliche Information enthält.
  • Im weiteren Detail operiert die Neuanordnungs-Einheit 283 gemäß dem Ablaufdiagramm von den 85 und 86 wie folgt. Hier hat die Neuanordnungs-Einheit 283 einen Satz von erfassten Dokumentennamen als eine Eingabe.
  • Als erstes wird eine Variable "i" auf 1 bei Schritt 8501 anfänglich gesetzt, und eine Variable "j" wird anfänglich auf i + 1 bei Schritt 8502 gesetzt.
  • Dann wird die Anpassungsbeziehungsextraktionsverarbeitung, die im Detail nachfolgend beschrieben wird, bei den Schritten 8503 und 8504 ausgeführt, um einen Satz (Beziehung "i", Bogen "i") für einen Dokumentennamen "i" und eine Satznummer "i" beim Schritt 8503 zu erzielen, und um einen Satz (Beziehung "j" Bogen "j") für einen Dokumentennamen "j" und eine Satznummer "j" beim Schritt 8504 zu erzielen. Hier zeigt die Satznummer "i" oder "j" die Satznummer des Anpassungssatzes an, der das Erfassungszielwort in dem Dokument "i" oder "j" enthält.
  • Dann wird beim Schritt 8505 beurteilt, ob der Satz (Beziehung "i", Bogen "i") bei einer höheren Reihenfolge in der Beziehungsreihenfolgetabelle 284 als der Satz (Beziehung "j", Bogen "j") registriert ist oder nicht.
  • Wenn der Satz (Beziehung "i", Bogen "i") nicht bei einer höheren Reihenfolge als der Satz (Beziehung "j", Bogen "j") beim Schritt 8505 registriert ist, wird als nächstes beim Schritt 8506 der Dokumentenname "i" als ein neuer Wert einer Variablen "Temp" gesetzt, der Dokumentenname "j" wird als der Dokumentenname "i" gesetzt, und ein gegenwärtiger Wert einer Variablen "Temp" wird als der Dokumentenname "j" gesetzt, um derart die Reihenfolge der Dokumente neu anzuordnen.
  • Andererseits wird die Variable "j" um Eins beim Schritt 8507 erhöht, und die Schritte 8504 bis 8507 werden wiederholt, bis die Variable "j" größer als eine Gesamtanzahl N der erfassten Dokumente bei Schritt 8508 wird.
  • Wenn die Variable "j" größer als die Gesamtanzahl N beim Schritt 8508 wird, dann wird die Variable "i" um Eins bei Schritt 8509 erhöht, und die Schritt 8502 bis 8509 werden wiederholt, bis die Variable "i" größer als die Gesamtanzahl N bei Schritt 8510 wird, und die Operation wird beendet.
  • Die Anpassungsbeziehungsextraktionsverarbeitung, die bei den Schritten 8503 und 8504 ausgeführt werden muss, ist eine Subroutine zum Empfangen des Dokumentennamens und der Satzzahl als die Eingabe und zum Rückspringenlassen der Beziehung und des Bogens als die Ausgabe, was gemäß dem Ablaufdiagramm von 86 wie folgt ausgeführt wird.
  • Als erstes wird beim Schritt 8601 die Textstruktur für den eingegebenen Dokumentennamen nachgeschlagen, um einen Block herauszufinden, der den Knotenpunkt für die eingegebene Satznummer hat. Die Adresse des herausgefundenen Blockes wird dann als Adresse "A" markiert.
  • Als nächstes wird beim Schritt 8602 ein Block mit der Adresse "A" als seinen Ablegerknotenpunkt herausgefunden. Die Adresse des herausgefundenen Blockes wird dann als Adresse "B" gekennzeichnet.
  • Dann wird beim Schritt 8603 beurteilt, ob die "Textstruktur Level" des Blockes bei der Adresse "B" nicht größer als ein vorgeschriebener Schwellenwert T ist oder nicht.
  • Wenn der "Textstruktur Level" des Blockes bei der Adresse "B" größer als der vorgeschriebene Schwellenwert T beim Schritt 8603 ist, dann wird die Adresse "B" als die Adresse "A" beim Schritt 8604 gesetzt, und die Operation kehrt zu dem obig beschriebenen Schritt 8602 zurück, um die Baumstruktur in Richtung des Wurzelknotenpunktes Schritt für Schritt zu verfolgen.
  • Andererseits wird als nächstes beim Schritt 8605 die für das "Textstruktur Rel" für den Block bei der Adresse "B" registrierte Beziehung als die Beziehung gesetzt, zu der zurückgekehrt wird.
  • Dann wird beim Schritt 8606 der Bogen, zu dem zurückgekehrt wird, auf "links" gesetzt, wenn die "Textstruktur L" des Blockes bei der Adresse "B" gleich der Adresse "A" ist, oder auf "rechts" andererseits, um derart den Satz (Beziehung, Bogen), auf den zurückgekehrt werden muss, als die Ausgabe zu erzielen.
  • Nach der Neuanordnungs-Operation durch die Neuanordnungs-Einheit 283 der wie obig beschriebenen Erfassungsverarbeitungseinheit 13' zeigt die Erfassungsergebnis-Ausgabeeinheit 17' die Zusammenfassungen der erfassten Dokumente in Übereinstimmung mit der neu angeordneten Dokumentennamenreihenfolge an.
  • Als nächstes wird die zweite Variation hinsichtlich der Steuerung einer Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die angezeigt wird, beschrieben.
  • Das heißt, in der obig beschriebenen zweiten Ausführungsform werden die Zusammenfassungssätze derart selektiert, dass sie lediglich diese sind, die den Abzug aufweisen, der nicht größer als der vorbestimmte Schwellenwert P2 ist, wie in der obig beschriebenen ersten Ausführungsform, so dass die Länge der Zusammenfassung auf einen gewünschten Pegel durch ein geeignetes Anpassen des Schwellenwertes P2 komponiert werden kann. Wenn von daher der Schwellenwert P2 relativ gering gesetzt wird, kann die Zusammenfassung relativ kurz gemacht werden, wohingegen die Zusammenfassung relativ lang gemacht werden kann, wenn der Schwellenwert P2 auf einen relativ hohen Wert gesetzt ist.
  • In diesem Zusammenhang beschreibt diese zweite Variation einen Fall, in welchem der geeignete Schwellenwert P2 automatisch gemäß einer Anzahl von Teilen in dem Fenster zum Anzeigen des Erfassungsergebnisses ermittelt wird, und einer Anzahl von Zusammenfassungen, die angezeigt werden, oder einer Anzahl von Zeilen in der Zusammenfassung.
  • In diesem Fall weist die Zusammenfassungs-Erzeugungseinheit 14 eine wie in 87 gezeigte detaillierte Konfiguration auf, welche eine Kompressionsraten-Ermittlungseinheit 145 aufweist, die mit der Textrekonstruktionseinheit 144 verbunden ist, zusätzlich zu der obig für die erste Ausführungsform beschriebenen Konfiguration von 17. Die Kompressionsraten-Ermittlungseinheit 145 ermittelt den geeigneten Schwellenwert P2 gemäß der Anzahl von Zeilen in dem Anzeigefenster, und eine Anzahl von Zusammenfassungen, die angezeigt werden, zusammen in einer Bildschirmanzeige, und spezifiziert den ermittelten geeigneten Schwellenwert P2 zu der Textrekonstruktionseinheit 144, so dass die Textrekonstruktionseinheit 144 den ermittelten geeigneten Schwellenwert P2 bei der Ausführung der Operation gemäß dem für die erste Ausführungsform obig beschriebenen Ablaufdiagramm von 22 verwenden kann.
  • Im Einzelnen kann die Kompressionsraten-Ermittlungseinheit 145 den geeigneten Schwellenwert P2 gemäß der folgenden Formel (1) beispielsweise ermitteln: P2 = C1 × LN/SN (1) , wobei C1 eine vorgeschriebene Konstante, LN eine Anzahl von Zeilen in dem Anzeigefenster und SN eine Anzahl von Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden, ist.
  • Alternativ hierzu kann die Kompressionsraten-Ermittlungseinheit 145 die Anzahl der Zeilen, die für jede Zusammenfassungsanzeige zur Verfügung stehen, gemäß der folgenden Gleichung (2) ermitteln: L = LN/SN (2) und reduziert den Schwellenwert P2, wann auch immer die Anzahl der Zeilen einer jeden Zusammenfassung das ermittelte L überschreitet, so dass jede Zusammenfassung innerhalb des zur Verfügung stehenden Raumes enthalten sein kann.
  • Als nächstes wird die dritte Variation hinsichtlich der Steuerung einer Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die angezeigt wird, beschrieben.
  • Hier beschreibt im Gegensatz zu der obig beschriebenen zweiten Variation, in welcher die Anzahl der Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden, im voraus fixiert ist, einen Fall, in welchem der Schwellenwert P2 gemäß einer variablen Anzahl von Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden müssen, eingestellt werden kann, was durch den Benutzer spezifiziert wird.
  • In diesem Fall weist die Zusammenfassungs-Erzeugungseinheit 14 eine detaillierte Konfiguration, wie in 88 gezeigt, auf, welche eine Kompressionsraten-Eingabeeinheit 146 aufweist, die mit der Textrekonstruktionseinheit 144 verbunden ist, zusätzlich zu der für die erste Ausführungsform obig beschriebenen Konfiguration von 17. Diese Kompressionsraten-Eingabeeinheit 146 gestattet es dem Benutzer, die gewünschte Anzahl von Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden müssen, zu spezifizieren, und ermittelt den geeigneten Schwellenwert P2 gemäß der Anzahl der Zeilen in dem Anzeigefenster und der spezifizierten Anzahl von Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden müssen, und dann spezifiziert sie den ermittelten geeigneten Schwellenwert P2 zu der Textrekonstruktionseinheit 144, so dass die Textrekonstruktionseinheit 144 den ermittelten geeigneten Schwellenwert P2 bei der Ausführung der Operation gemäß dem für die erste Ausführungsform obig beschriebenen Ablaufdiagramm von 22 verwenden kann.
  • Hier kann ähnlich der Kompressionsraten-Ermittlungseinheit 145 der obig beschriebenen zweiten Variation die Kompressionsraten-Eingabeeinheit 146 den geeigneten Schwellenwert P2 gemäß der obigen Gleichung (1) ermitteln.
  • Alternativ hierzu kann die Kompressionsraten-Eingabeeinheit 146 die Anzahl der Zeilen ermitteln, die für jede Zusammenfassungsanzeige gemäß der obigen Formel (2) zur Verfügung steht, und es dem Benutzer gestatten, die gewünschte Anzahl von Zeilen für jede Zusammenfassungsanzeige zu spezifizieren, und sie reduziert dann den Schwellenwert P2, wann auch immer die spezifizierte Anzahl von Zeilen einer jeden Zusammenfassung das ermittelte L überschreitet, so dass jede Zusammenfassung innerhalb des zur Verfügung stehenden Raumes enthalten sein kann. In dieser dritten Variation kann die Eingabe der Anzahl der Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden müssen, erleichtert werden durch Bereitstellen eines Eingabebereiches innerhalb des Anzeigefensters, wie in der 89A angezeigt, oder durch Bereitstellen eines Umgebungssatzmenüs, welches einen Gegenstand für die Anzahl der Zusammenfassungen, die zusammen in einer Bildschirmanzeige angezeigt werden müssen, aufweist, wie in 89B angezeigt.
  • Als nächstes wird die vierte Variation hinsichtlich der Steuerung einer Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die angezeigt werden muss, beschrieben.
  • In dieser vierten Variation weist die Zusammenfassungs-Erzeugungseinheit 14 eine detaillierte Konfiguration auf, die identisch zu der in 84 für die obig beschriebene zweite Ausführungsform gezeigten ist, die die Kompressionsraten-Ermittlungseinheit 145 einschließt, während die Erfassungsergebnis-Ausgabeeinheit 17' eine wie in 90 gezeigte detaillierte Konfiguration hat, welche eine Zusammenfassungsverarbeitungseinheit 239 aufweist, die mit der Erfassungsergebnisanzeigen-Steuerungseinheit 238 und der Anzeigeeinrichtung 4 verbunden ist, zusammen mit der für die zweite Ausführungsform obig beschriebenen Konfiguration von 79.
  • Diese Zusammenfassungsmodifikations-Verarbeitungseinheit 239 wird durch die Erfassungsergebnisanzeigen-Steuerungseinheit 238 in Erwiderung auf eine Zeigeraktion hinsichtlich der angezeigten Zusammenfassung, die durch den Benutzer durch Verwendung einer Zeigervorrichtung gemacht wird, um einen Bereich ausgehend von einem Kapitel/Abschnittkopf in der angezeigten Zusammenfassung zu spezifizieren, aktiviert.
  • Dann operiert die Zusammenfassungsmodifikations-Verarbeitungseinheit 239 gemäß dem Ablaufdiagramm von 91 wie folgt.
  • Als erstes werden beim Schritt 9101 die Start- und Endpositionen des angezeigten Bereiches ermittelt, und Kapitel/Abschnittnummern der ermittelten Start- und Endpositionen werden beim Schritt 9102 ermittelt. Dann wird beim Schritt 9103 beurteilt, ob die ermittelten Kapitel/Abschnittnummern der Start- und Endposition verschieden voneinander sind oder nicht. Wenn sie die gleichen sind, dann wird die Operation der Zusammenfassungsmodifikations-Verarbeitungseinheit 239 beendet.
  • Wenn sie andererseits verschieden sind, wird beim Schritt 9104 eine Anzahl von Zeilen "n" von einer Anzeigezeigerposition, die eine obere Zeile des nächsten Kapitels/Abschnittes für das Kapitel/Abschnitt der Startposition zu einer Position einer nächsten Zeile für die Endposition erzielt, und die Anzeigezeiger von diesen Kapiteln/Abschnitten, die dem Kapitel/Abschnitt der Startposition nachfolgen, werden durch das erzielte "n" erhöht, um die angezeigten Positionen von diesen Kapiteln/Abschnitten nach unten um "n" Zeilen bei Schritt 9105 zu versetzen.
  • Als nächstes werden eine Anzahl von Zeilen "m" von der Startposition zu der Endposition und eine Anzahl von Zeichen "w1", die in "m" Zeilen anzeigbar sind, beim Schritt 9106 erzielt, während eine Anzahl von Zeichen "w2" und eine Anzahl von Sätzen "b2" in dem Kapitel/Abschnitt der Startposition in dem Originaldokument beim Schritt 9107 erzielt werden.
  • Dann wird ein Wert w1/w2 dem Benutzer angezeigt, um zu entscheiden, die Zusammenfassung bei Schritt 9108 zu modifizieren, und bei Schritt 9109 wird beurteilt, ob die Modifikation der Zusammenfassung durch den Benutzer befohlen wird oder nicht. Wenn der Benutzer entscheidet, die Zusammenfassung nicht zu modifizieren, dann wird die Operation der Zusammenfassungsmodifikations-Verarbeitungseinheit 239 beendet. Wenn andererseits die Modifikation der Zusammenfassung befohlen wird, wird als nächstes beim Schritt 9110 die erzielte Anzahl der Zeilen "m" an die Kompressionsraten-Ermittlungseinheit 145 in der Zusammenfassungs-Erzeugungseinheit 14 zugeführt, so dass die Modifikation der Zusammenfassung für das Kapitel/Abschnitt der Startposition durch die Textrekonstruktionseinheit 144 ausgeführt wird, unter Verwendung des geeigneten Schwellenwertes P2, der mittels der Kompressionsraten-Ermittlungseinheit 145 gemäß der zugeführten Anzahl der Zeilen "m" ermittelt wird. Hier ermittelt die Kompressionsraten-Ermittlungseinheit 145 den geeigneten Schwellenwert P2 gemäß der folgenden Gleichung (3): P2 = C1 × m (3) , wobei C1 eine vorgeschriebene Konstante ist.
  • Dann werden die Anzahl der Zeichen "w3" und eine Anzahl der Sätze "b3" in dem Kapitel/Abschnitt der Startposition in der modifizierten Zusammenfassung beim Schritt 9111 erzielt, und beim Schritt 9112 wird beurteilt, ob das erzielte "w3" größer als "w1" ist. Wenn "w3" größer als "w1" ist, dann wird als nächstes beim Schritt 9113 die Anzahl der Zeilen "m", die zu der Kompressionsraten-Ermittlungseinheit 145 zugeführt werden muss, auf einen neuen Wert m(NEU) geändert, der durch die folgende Formel (4) gegeben wird: m(NEU) = C2 × m(ALT) (4) wobei C2 eine vorgeschriebene Konstante kleiner als Eins ist, und die Operation kehrt zu dem Schritt 9110 zurück, um die Schritte 9110 bis 9112 mit dem neuen Wert von "m" zu wiederholen.
  • Wenn andererseits "w3" nicht größer als "w1" beim Schritt 9112 ist, werden die Werte w3/w2 und b3/b2 dem Benutzer beim Schritt 9114 angezeigt, während die modifizierte Zusammenfassung für das Kapitel/Abschnitt der Startposition, die durch die Zusammenfassungs-Erzeugungseinheit 14 erzielt wird, in einen Bereich ausgehend von einer nächsten Zeile der Startposition beim Schritt 9115 angezeigt wird.
  • Als ein konkretes Beispiel kann hinsichtlich der in 92 gezeigten Anzeigenzusammenfassung der Benutzer die Kennzeichnungsaktion, wie in 93 angezeigt, durchführen, in welcher ein Bereich, der in umgekehrter Farbe gezeigt ist, ein Bereich ist, der durch die Kennzeichnungsaktion gekennzeichnet ist, was von dem Abschnittkopf des Abschnittes 2.1 beginnt und bei zwei Zeilen unter der letzten Zeile der Zusammenfassung für diesen Abschnitt 2.1 endet. In diesem exemplarischen Fall erscheint die modifizierte Zusammenfassung für diesen Abschnitt 2.1, wie in 94 angezeigt, welche um zwei Zeilen im Vergleich mit der in
  • 92 gezeigten Zusammenfassung vor der Modifikation expandiert ist.
  • Es sei darauf hingewiesen, dass diese Operation von 91 derart modifiziert werden kann, dass, wenn "w3" größer als "w1" beim Schritt 9112 ist, anstelle des obig beschriebenen Schrittes 9113, lediglich "w1" Zeichen der modifizierten Zusammenfassung für das Kapitel/Abschnitt der Startposition angezeigt werden. Wenn das w1-te Zeichen nicht die Periode ist, d. h. das w1-te Zeichen ist in einer Mitte eines Satzes, dann kann in diesem Fall auf die Anzeige von diesem Satz insgesamt verzichtet werden.
  • Als nächstes wird die fünfte Variation hinsichtlich der Steuerung einer Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die angezeigt werden muss, beschrieben.
  • In dieser fünften Variation hat die Zusammenfassungs-Erzeugungseinheit 14 eine detaillierte Konfiguration, die identisch zu der in 88 für die obig beschriebene dritte Variation gezeigten ist, einschließlich der. Kompressionsraten-Eingabeeinheit 146, während die Erfassungsergebnis-Ausgabeeinheit 17' eine detaillierte Konfiguration hat, die identisch zu der obig beschriebenen vierten Variation in 90 gezeigten ist, einschließlich der Zusammenfassungsmodifikations-Verarbeitungseinheit 139, jedoch im Gegensatz zu der obig beschriebenen dritten und vierten Variation wird das Ändern der Kompressionsrate erzielt durch Darstellen von Kandidaten für geänderte Kompressionsraten und durch Gestatten des Benutzers, einen gewünschten Kandidat von den dargestellten Kandidaten zu selektieren.
  • Zum Ende operiert die Dokumentenselektions-Verarbeitungseinheit 232 gemäß dem Ablaufdiagramm von 95 wie folgt.
  • Das heißt, dieses Ablaufdiagramm von 95 unterscheidet sich von dem von 80C für die obig beschriebene zweite Ausführungsform darin, dass zusätzliche Schritte vorhanden sind, einschließlich des Schrittes 8071 zum Anzeigen der Zusammenfassung zwischen den Schritten 8120 und 8022, und einschließlich des Schrittes 8072 zum Beurteilen, ob das Eingabeereignis, das nach dem Schritt 8023 eingegeben wird, das Zusammenfassungsmodifikationsereignis ist oder nicht, und zusätzlich des Schrittes 8073 zum Aktivieren der Zusammenfassungsmodifikations-Verarbeitungseinheit 239 zwischen den Schritten 823 und 824.
  • Auch unterscheidet sich die Operation der Zusammenfassungsmodifikations-Verarbeitungseinheit 239 in dieser fünften Variation von der in der vierten Variation und fährt gemäß dem Ablaufdiagramm von 96 wie folgt fort.
  • Hier wird die Zusammenfassungsmodifikations-Verarbeitungseinheit 239 durch die Erfassungsergebnisanzeigen-Steuerungseinheit 238 in Erwiderung auf einer Kennzeichnungsaktion hinsichtlich der angezeigten Zusammenfassung aktiviert, die durch den Benutzer unter Verwendung eines Cursors gemacht wird, der mittels einer Kennzeichnungsvorrichtung gesteuert wird, um ein bestimmtes Kapitel/Abschnitt in der angezeigten Zusammenfassung zu spezifizieren.
  • Als erstes wird beim Schritt 9601 eine Kapitel/Abschnittzahl, die durch eine Cursorposition spezifiziert wird, ermittelt, und ein anfänglicher Wert für eine Kompressionsrate Q3 wird beim Schritt 9602 gesetzt.
  • Als nächstes wird die Kompressionsrate Q3 beim Schritt 9603 zu der Kompressionsraten-Eingabeeinheit 146 in der Zusammenfassungs-Erzeugungseinheit 14 zugeführt, so dass die Modifikation der Zusammenfassung für das Kapitel/Abschnitt der Cursorposition durch die Textrekonstruktionseinheit 144 unter Verwendung des geeigneten Schwellenwertes P2 ausgeführt wird, der durch die Kompressionsraten-Eingabeeinheit 146 gemäß der zugeführten Kompressionsrate Q3 ermittelt wird. Hier ermittelt die Kompressionsraten-Eingabeeinheit 146 den geeigneten Schwellenwert P2 gemäß der folgenden Gleichung (5): P2 = C1 × Q3 (5) wobei C1 eine vorbestimmte Konstante ist.
  • Dann wird beim Schritt 9604 eine Anzahl von Zusammenfassungssätzen R in dem Kapitel/Abschnitt der Cursorposition in der modifizierten Zusammenfassung erzielt, ein Verhältnis S der Anzahl der Zusammenfassungssätze R hinsichtlich einer Gesamtzahl von Sätzen in dem Kapitel/Abschnitt der Cursorposition in dem Originaldokument wird beim Schritt 9605 erzielt, und ein Satz von Q3, der bei dem Schritt 9603 verwendet wird, und R und S, die bei den Schritten 9604 und 9605 erzielt werden, werden in einem Zwischenspeicher, der innerhalb der Erfassungsergebnisanzeigen-Steuerungseinheit 238 vorgesehen ist, gespeichert.
  • Dann wird beim Schritt 9607 ermittelt, ob das Verhältnis S, das beim Schritt 9605 erzielt wird, gleich Eins ist, oder ob nicht, d. h. ob die Anzahl der Zusammenfassungssätze R gleich der Gesamtanzahl von Sätzen in dem Kapitel/Abschnitt der Cursorposition ist oder nicht.
  • Wenn das Verhältnis S nicht gleich Eins ist, dann wird als nächstes beim Schritt 9608 die Kompressionsrate Q3, die zu der Kompressionsraten-Eingabeeinheit 146 zugeführt werden muss, auf einen neuen Wert Q3(NEU) geändert, der durch die folgende Gleichung (6) gegeben ist: Q3(NEU) = C3 × Q3(ALT) (6) wobei C3 eine vorbestimmte Konstante größer als Eins ist, und die Operation kehrt zu dem Schritt 9603 zurück, um die Schritt 9603 bis 9607 mit dem neuen Wert von Q3 zu wiederholen. Auf diese Art und Weise werden die Paare von R und S für verschiedenen Werte von Q3 in dem Zwischenspeicher akkumuliert, bis das Verhältnis S Eins wird.
  • Wenn das Verhältnis S beim Schritt 9607 gleich Eins ist, dann werden sämtliche Paare von R und S, die in dem Zwischenspeicher gespeichert sind, beim Schritt 9609 angezeigt, und eine Selektion von einem Paar der angezeigten Paare der R und S wird beim Schritt 9610 erwartet, die von dem Benutzer gemacht werden muss.
  • Wenn die Selektion von einem Paar von R und S durch den Benutzer gemacht wird, dann wird als nächstes beim Schritt 9611 die Kompressionsrate Q3 entsprechend dem selektierten Paar von R und S zu der Kompressionsraten-Eingabeeinheit 146 in der Zusammenfassungs-Erzeugungseinheit 114 zugeführt, so dass die Modifikation der Zusammenfassung für das Kapitel/Abschnitt der Cursorposition durch die Textrekonstruktionseinheit 144 unter Verwendung des geeigneten Schwellenwertes P2 durchgeführt wird, der mittels der Kompressionsraten-Eingabeeinheit 146 gemäß der zugeführten Kompressionsrate Q3 unter Verwendung der obig beschriebenen Formel (5) ermittelt wird.
  • Dann wird die modifizierte Zusammenfassung des Kapitels/Abschnitts der Cursorposition, die durch die Zusammenfassungs-Erzeugungseinheit 14 erzielt wird, in einem Bereich angezeigt, der von einer nächsten Zeile des Kapitel/Abschnittkopfes beim Schritt 9612 beginnt, während die Anzeigezeiger von diesen Kapiteln/Abschnitten, die im Kapitel/Abschnitt der Cursorposition nachfolgen, erhöht werden, um die angezeigten Positionen von diesen Kapiteln/Abschnitten abwärts für die Anzahl der Zeilen in der modifizierten Zusammenfassung für das Kapitel/Abschnitt der Cursorposition beim Schritt 9613 anzuzeigen.
  • Als ein konkretes Beispiel hinsichtlich der Anzeigenzusammenfassung, die lediglich Kapitel/Abschnittkopfzeilen, wie in 97 gezeigt, enthält, kann der Benutzer die Kennzeichnungsaktion unter Verwendung des Cursors machen, der als ein schwarzes Dreieck angezeigt ist, das das Kapitel 1 in 97 spezifiziert. Dann kann der Benutzer von den Paaren der Anzahl der Zusammenfassungssätze R und dem Verhältnis S, die in der rechten unteren Ecke der angezeigten Zusammenfassung dargestellt ist, die Selektion eines gewünschten Paares, wie in 89 angezeigt, machen, in welcher das Paar von R = 7 und S = 54% als Beispiel selektiert wird, wie durch eine Schwärzung einer Box, die für dieses Paar vorgesehen ist, angezeigt wird. In diesem exemplarischen Fall erscheint die modifizierte Zusammenfassung für dieses Kapitel 1, wie in 99 angezeigt, welche sieben Zusammenfassungssätze, wie durch den Benutzer angefordert, enthält.
  • Es sei darauf hingewiesen, dass hier diese Operation von 96 modifiziert werden kann, um das Verhältnis S der Anzahl der Zusammenfassungssätze R in der modifizierten Zusammenfassung hinsichtlich der Gesamtanzahl der Sätze in dem Originaldokument durch ein Verhältnis der Anzahl von Wörtern in der modifizierten Zusammenfassung hinsichtlich der Gesamtanzahl von Wörtern in dem Originaldokument, oder durch ein Verhältnis der Anzahl von Zeichen in der modifizierten Zusammenfassung hinsichtlich der Gesamtanzahl von Zeichen in dem Originaldokument zu ersetzen.
  • Es sei ferner darauf hingewiesen, dass in der Operation von der obig beschriebenen 96 bei der Anzeige der modifizierten Zusammenfassung, die durch die Zusammenfassungs-Erzeugungseinheit 14 beim Schritt 9612 erzielt wurde, die neu erzeugte modifizierte Zusammenfassung in das gleiche Anzeigenfenster eingesetzt wird, wie das zum Anzeigen der Zusammenfassung vor der Modifikation, jedoch ist es ferner möglich, ein neues Anzeigenfenster zum Anzeigen der neu erzeugten modifizierten Zusammenfassung zu erzeugen.
  • Es sei auch darauf hingewiesen, dass diese Operation von 96 modifiziert werden kann, um die Zusammenfassungen, die für verschiedene beim Schritt 9603 erzielten Kompressionsraten erzielt wurden, zu speichern, und die geeignete Zusammenfassung der gespeicherten Zusammenfassung wird in Erwiderung auf die beim Schritt 9610 gemachte Selektion selektiert, anstelle der Erzeugung der Zusammenfassung für die geeignete Kompressionsrate erneut bei Schritt 9611, wenn eine hinreichende Speicherkapazität zum Speichern der Zusammenfassungen, oder wenn die Anzahl der Zusammenfassungen, die gespeichert werden müssen, nicht zu groß ist.
  • Als nächstes wird die sechste Variation hinsichtlich der Steuerung einer Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die angezeigt werden muss, beschrieben.
  • In dieser sechsten Variation weist die Zusammenfassungs-Erzeugungseinheit 14 eine detaillierte Konfiguration auf, die identisch zu der in 88 für die obig beschriebene dritte Variation gezeigte ist, die die Kompressionsraten-Eingabeeinheit 146 aufweist, während die Erfassungsergebnis-Ausgabeeinheit 17' eine detaillierte Konfiguration, wie in 100 gezeigt, aufweist, welche eine Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240, eine Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 und eine Originaledokumenten-Anzeigeverarbeitungseinheit 242 aufweist, wobei sämtliche mit der Erfassungsergebnisanzeigen-Steuerungseinheit 238 verbunden sind, zusätzlich zu der für die zweite Ausführungsform obig beschriebenen Konfiguration von 79. Mit dieser Konfiguration wird in dieser sechsten Variation im Gegensatz zu der dritten, vierten und fünften obig beschriebenen Variation das Ändern der Kompressionsrate in Übereinstimmung mit den Befehlen von dem Benutzer erzielt.
  • Zu diesem Ende operiert die Dokumentenselektions-Verarbeitungseinheit 232 gemäß dem Ablaufdiagramm von 101 wie folgt.
  • Das heißt, dieses Ablaufdiagramm von 101 unterscheidet sich von dem der 95 für die obig beschriebene fünfte Variation darin, dass die zusätzlichen Schritte 8072 und 8073 zwischen den Schritten 8023 und 8024 durch den Schritt 8074 ersetzt werden zum Beurteilen, ob das nach dem Schritt 8023 eingegebene Eingabeereignis das Zusammenfassungsdetaillierungsereignis ist oder nicht, der Schritt 8075 zum Aktivieren der Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240, der Schritt 8076 zum Beurteilen, ob das Eingabeereignis, welches nach dem Schritt 8023 eingegeben wurde, das Zusammenfassungsvereinfachungsereignis ist oder nicht, der Schritt 8077 zum Aktivieren der Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241, der Schritt 8078 zum Beurteilen, ob das Eingabeereignis, das nach dem Schritt 8023 eingegeben wurde, das Originaldokumenten-Anzeigeereignis ist oder nicht, und der Schritt 8079 zum Aktivieren der Originaledokumenten-Anzeigeverarbeitungseinheit 242.
  • In dieser sechsten Variation macht der Benutzer eine Kennzeichnungsaktion hinsichtlich der angezeigten Zusammenfassung unter Verwendung einer Kennzeichnungsvorrichtung, um einen Abschnitt beginnend von einem Kapitel/Abschnittkopf in der dargestellten Zusammenfassung zu spezifizieren. Zusätzlich bedient der Benutzer selektive Icon-Schaltflächen, die oberhalb der angezeigten Zusammenfassung angezeigt sind, zum Aktivieren einer Einheit der Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240, der Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 und der Originaledokumenten-Anzeigeverarbeitungseinheit 242 durch die Erfassungsergebnisanzeigen-Steuerungseinheit 238.
  • Auch wird die Erfassungsergebnisanzeigen-Steuerungseinheit 138 mit einem Zwischenspeicher versehen zum Speichern einer Kompressionsrate Q4, einer Anzahl von Zusammenfassungssätzen R4 in dem Kapitel/Abschnitt der Cursorposition in der angezeigten Zusammenfassung, ein Verhältnis S4 der Anzahl der Zusammenfassungssätze R4 hinsichtlich einer Gesamtanzahl von Sätzen in dem Kapitel/Abschnitt der Cursorposition in dem Originaldokument, und eine Liste L2 der Satzanzahlen der Zusammenfassungssätze in dem Kapitel/Abschnitt der Cursorposition in der angezeigten Zusammenfassung.
  • Nun operiert die Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240 gemäß dem Ablaufdiagramm von 102 wie folgt.
  • Hier wird die Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240 mittels der Erfassungsergebnisanzeigen-Steuerungseinheit 238 in Erwiderung auf das Drücken einer "Detail"-Icon-Schaltfläche durch den Benutzer aktiviert, was in Verbindung mit einer Kennzeichnungsaktion hinsichtlich der angezeigten Zusammenfassung gemacht wird, was durch Verwendung eines Cursors, der durch eine Kennzeichnungsvorrichtung gesteuert wird, gemacht wird, um ein bestimmtes Kapitel/Abschnitt in der angezeigten Zusammenfassung zu spezifizieren.
  • Als erstes wird beim Schritt 9701 eine Kapitel/Abschnittnummer, die durch eine Cursorposition spezifiziert ist, ermittelt, und das Verhältnis S4 für dieses Kapitel/Abschnitt der Cursorposition, das in dem Zwischenspeicher gespeichert ist, wird von der Erfassungsergebnisanzeigen-Steuerungseinheit 238 beim Schritt 9702 herausgenommen.
  • Dann wird beim Schritt 9703 beurteilt, ob das Verhältnis S4, das beim Schritt 9702 erzielt wird, gleich Eins ist oder nicht, d. h. ob die Anzahl der Zusammenfassungssätze R4 gleich der Gesamtanzahl der Sätze in dem Kapitel/Abschnitt der Cursorposition ist oder nicht. Wenn das Verhältnis S4 gleich Eins ist, dann wird die Operation der Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240 beendet, da es keine weiteren Details gibt, die in die gegenwärtige Zusammenfassung eingefügt werden können.
  • Wenn andererseits das Verhältnis S4 nicht gleich Eins ist, dann wird die Kompressionsrate Q4 für das Kapitel/Abschnitt der Cursorposition, die in dem Zwischenspeicher gespeichert ist, beim Schritt 9704 von der Erfassungsergebnisanzeigen-Steuerungseinheit 238 herausgenommen, und die Liste L2 der Satznummern der Zusammenfassungssätze in dem Kapitel/Abschnitt der Cursorposition, die in dem Zwischenspeicher gespeichert ist, wird von der Erfassungsergebnisanzeigen-Steuerungseinheit 238 beim Schritt 9705 herausgenommen.
  • Dann wird beim Schritt 9706 die Kompressionsrate Q4, die an die Kompressionsraten-Eingabeeinheit 146 zugeführt werden muss, auf einen neuen Wert Q4 (NEU) geändert, welcher durch die folgende Gleichung (7) gegeben ist: Q4(NEU) = C4 × Q4(ALT) (7) , wobei C4 eine vorbestimmte Konstante größer als Eins ist.
  • Als nächstes wird beim Schritt 9707 die Kompressionsrate Q4 (NEU), die beim Schritt 9706 erzielt wird, der Kompressionsraten-Eingabeeinheit 146 in der Zusammenfassungs-Erzeugungseinheit 14 zugeführt, so dass die Details der Zusammenfassung für das Kapitel/Abschnitt der Cursorposition durch die Textrekonstruktionseinheit 144 unter Verwendung des geeigneten Schwellenwertes P2 ausgeführt wird, welcher mittels der Kompressionsraten-Eingabeeinheit 146 gemäß der zugeführten Kompressionsrate Q4 ermittelt wird. Hier ermittelt die Kompressionsraten-Eingabeeinheit 146 den geeigneten Schwellenwert P2 gemäß der folgenden Gleichung (8) P2 = C1 × Q4 (8) , wobei C1 eine vorbestimmte Konstante ist.
  • Dann wird beim Schritt 9708 die Liste L2 der Satznummern der Zusammenfassungssätze in dem Titel/Abschnitt der Cursorposition in der detaillierten Zusammenfassung erzeugt, die Anzahl der Zusammenfassungssätze R4 in dem Kapitel/Abschnitt der Cursorposition in der detaillierten Zusammenfassung wird beim Schritt 9709 erzielt, und das Verhältnis S4 der Anzahl der Zusammenfassungssätze R4 hinsichtlich einer Gesamtzahl der Sätze in dem Kapitel/Abschnitt der Cursorposition in dem Originaldokument wird beim Schritt 9710 erzielt.
  • Als nächstes werden beim Schritt 9711 die Anzahl der Zusammenfassungssätze R4 und das Verhältnis S4 für das Kapitel/Abschnitt der in dem Zwischenspeicher gespeicherten Cursorposition angezeigt, und die detaillierte Zusammenfassung für das Kapitel/Abschnitt der Cursorposition, die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzielt wird, wird in einem Bereich beginnend von einer nächsten Zeile der Kapitel/Abschnittkopfzeile beim Schritt 9712 angezeigt.
  • Dann wird beim Schritt 9713 die Hervorhebung, wie etwa die Schattierung, zu der Anzeige von diesen Sätzen hinzugefügt, deren Satznummern in der Liste L2 (NEU) enthalten sind, die beim Schritt 9708 erzeugt ist, die jedoch nicht in der Liste L2 (ALT) sind, die beim Schritt 9705 herausgenommen wurde.
  • Letztendlich werden die Anzeigezeiger von diesen Kapiteln/Abschnitten, die dem Kapitel/Abschnitt der Cursorposition nachfolgen, erhöht, um die angezeigten Positionen von diesen Kapiteln/Abschnitten abwärts für die Anzahl der Zeilen in der detaillierten Zusammenfassung für das Kapitel/Abschnitt der Cursorposition beim Schritt 9714 zu ersetzen, und die Kompressionsrate Q4, die Liste L2, die Anzahl der Zusammenfassungssätze R4 und das Verhältnis S4 für das Kapitel/Abschnitt der Cursorposition, die bei den Schritten 9706, 9708, 9709 und 9710 jeweils erzielt wurden, werden in dem Zwischenspeicher beim Schritt 9715 gespeichert.
  • Andererseits operiert die Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 gemäß dem Ablaufdiagramm von 103 wie folgt.
  • Hier wird die Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 mittels der Erfassungsergebnisanzeigen-Steuerungseinheit 238 in Erwiderung auf das Drücken einer "Einfach"-Icon-Schaltfläche durch den Benutzer aktiviert, was in Verbindung mit einer Kennzeichnungsaktion hinsichtlich der angezeigten Zusammenfassung gemacht wird, die durch Verwendung eines mittels einer Kennzeichnungsvorrichtung gesteuerten Cursors erfolgt, um ein bestimmtes Kapitel/Abschnitt in der angezeigten Zusammenfassung zu spezifizieren.
  • Als erstes wird beim Schritt 9801 eine Kapitel/Abschnittnummer, die durch eine Cursorposition spezifiziert ist, ermittelt, und das Verhältnis S4 für dieses Kapitel/Abschnitt der in dem Zwischenspeicher gespeicherten Cursorposition wird von der Erfassungsergebnisanzeigen-Steuerungseinheit 238 beim Schritt 9802 herausgenommen.
  • Dann wird beim Schritt 9803 beurteilt, ob das Verhältnis S4, das beim Schritt 9802 erzielt wurde, gleich Null ist oder nicht, d. h. ob die Anzahl der Zusammenfassungssätze R4 gleich Null ist oder nicht. Wenn das Verhältnis S4 gleich Null ist, dann wird die Operation der Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 beendet, da es keine weiteren Details gibt, die von der gegenwärtigen Zusammenfassung vereinfacht werden können.
  • Wenn andererseits das Verhältnis S4 nicht gleich Null ist, dann wird die Kompressionsrate Q4 für das Kapitel/Abschnitt der in dem Zwischenspeicher gespeicherten Cursorposition von der Erfassungsergebnisanzeigen-Steuerungseinheit 238 beim Schritt 9804 herausgenommen, und dann wird beim Schritt 9805 die Kompressionsrate Q4, die der Kompressionsraten-Eingabeeinheit 146 zugeführt werden muss, auf einen neuen Wert Q4 (NEU) geändert, der durch die folgende Gleichung (9) gegeben ist: Q4(NEU) = Q4(ALT)/C4 (9) , wobei C4 eine vorgeschriebene Konstante größer als Eins, wie obig beschrieben, ist.
  • Als nächstes wird beim Schritt 9806 die Kompressionsrate Q4(NEU), die beim Schritt 9805 erzielt wird, der Kompressionsraten-Eingabeeinheit 146 in der Zusammenfassungs-Erzeugungseinheit 14 zugeführt, so dass die Vereinfachung der Zusammenfassung für das Kapitel/Abschnitt der Cursorposition durch die Textrekonstruktionseinheit 144 ausgeführt wird unter Verwendung des geeigneten Schwellenwertes P2, der durch die Kompressionsraten-Eingabeeinheit 146 gemäß der zugeführten Kompressionsrate Q4 ermittelt wird. Hier ermittelt die Kompressionsraten-Eingabeeinheit 146 den geeigneten Schwellenwert gemäß der obig beschriebenen Formel (8).
  • Dann wird die Liste L2 der Satznummern der Zusammenfassungssätze in dem Kapitel/Abschnitt der Cursorposition in der vereinfachten Zusammenfassung beim Schritt 9807 erzeugt, die Anzahl der Zusammenfassungssätze R4 in dem Kapitel/Abschnitt der Cursorposition in der vereinfachten Zusammenfassung wird beim Schritt 9808 erzielt, und das Verhältnis S4 der Anzahl der Zusammenfassungssätze R4 hinsichtlich einer Gesamtzahl der Sätze in dem Kapitel/Abschnitt der Cursorposition in dem Originaldokument wird beim Schritt 9809 erzielt.
  • Als nächstes werden die Anzahl der Zusammenfassungssätze R4 und das Verhältnis S4 für das Kapitel/Abschnitt der Cursorposition, die in dem Zwischenspeicher gespeichert ist, beim Schritt 9810 angezeigt, und die vereinfachte Zusammenfassung für das Kapitel/Abschnitt der Cursorposition, die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzielt wird, wird in einem Bereich beginnend von einer nächsten Zeile des Kapitels/Abschnittkopfes beim Schritt 9811 angezeigt.
  • Letztendlich werden die Anzeigezeiger von diesen Kapiteln/Abschnitten, die dem Kapitel/Abschnitt der Cursorposition nachfolgen, herabgesetzt, um die angezeigten Positionen von diesen Kapiteln/Abschnitten aufwärts für die Anzahl von Zeilen, die in der vereinfachten Zusammenfassung für das Kapitel/Abschnitt der Cursorposition beim Schritt 9812 reduziert sind, angezeigt, und die Kompressionsrate Q4, die Liste L2, die Anzahl der Zusammenfassungssätze R4 und das Verhältnis S4 für das Kapitel/Abschnitt der Cursorposition, die bei den Schritten 9805, 9807, 9808 und 9809 jeweils erzielt werden, werden in dem Zwischenspeicher beim Schritt 9813 gespeichert.
  • Im Gegensatz hierzu operiert die Originaledokumenten-Anzeigeverarbeitungseinheit 242 gemäß dem Ablaufdiagramm von 104 wie folgt.
  • Hier wird die Originaledokumenten-Anzeigeverarbeitungseinheit 242 mittels der Erfassungsergebnisanzeigen-Steuerungseinheit 238 in Erwiderung auf das Drücken einer "Original"-Icon-Schaltfläche durch den Benutzer, was in Verbindung mit einer Kennzeichnungsaktion hinsichtlich der angezeigten Zusammenfassung gemacht wird, aktiviert, was durch Verwendung eines mittels einer Kennzeichnungsvorrichtung gesteuerten Cursors gemacht wird, um ein bestimmtes Kapitel/Abschnitt in der angezeigten Zusammenfassung zu spezifizieren.
  • Als erstes wird beim Schritt 9901 eine Kapitel/Abschnittnummer, die durch eine Cursorposition spezifiziert wird, ermittelt, und das Kapitel/Abschnitt der Cursorposition in dem Originaldokument wird in einem Bereich beginnend von einer nächsten Zeile der Kapitel/Abschnittkopfzeile beim Schritt 9802 angezeigt, während die Anzeigezeiger von diesen Kapiteln/Abschnitten, die dem Kapitel/Abschnitt der Cursorposition nachfolgen, herabgesetzt werden, um die angezeigten Positionen von diesen Kapiteln/Abschnitten nach unten für die Anzahl der Zeilen in dem Kapitel/Abschnitt der Cursorposition in dem Originaldokument beim Schritt 9803 zu ersetzen.
  • Dann wird die Kompressionsrate Q4 beim Schritt 9904 auf einen anfänglichen Wert gesetzt, die Anzahl der Zusammenfassungssätze R4 wird auf die Gesamtzahl der Sätze in dem Kapitel/Abschnitt der Cursorposition in dem Originaldokument beim Schritt 9905 gesetzt, und das Verhältnis S wird bei Schritt 9906 auf Eins gesetzt.
  • Letztendlich werden die Kompressionsrate Q4, die Anzahl der Zusammenfassungssätze R4 und das Verhältnis S4 für das Kapitel/Abschnitt der Cursorposition, die bei den Schritten 9904, 9905 und 9906 jeweils erzielt werden, in dem Zwischenspeicher beim Schritt 9907 gespeichert.
  • Von daher kann mittels dieser Originaledokumenten-Anzeigeverarbeitungseinheit 242 das Originaldokument sofort angezeigt werden, ohne Verwendung der Zusammenfassungsdetaillierungs- und Vereinfachungsverarbeitungseinheiten 240 und 241.
  • Als ein konkretes Beispiel hinsichtlich der Anzeigenzusammenfassung, wie in 105 gezeigt, kann der Benutzer die Kennzeichnungsaktion durch Verwendung des als ein schwarzes Dreieck angezeigten Cursors machen, der das Kapitel 1 in 105 spezifiziert. Dann zeigt 106 die Anzeige, die von dem Drücken der "Detail"-Icon-Schaltfläche in dem Zustand von 5 resultiert, in welchem die Hervorhebung in einer Form der umgekehrten Farbe zu dem angezeigten Abschnitt der beiden Zusammenfassungssätze hinzugefügt wird, die als ein Ergebnis der Zusammenfassungsdetaillierungsverarbeitung neu eingearbeitet werden.
  • Es sei ebenso darauf hingewiesen, dass in den obig beschriebenen Operationen beim Anzeigen der detaillierten oder vereinfachten Zusammenfassung, die durch die Zusammenfassungs-Erzeugungseinheit 14 erzielt wurde, die neu erzeugte, detaillierte oder vereinfachte Zusammenfassung in das gleiche Anzeigefenster eingeführt wird, wie das zum Anzeigen der Zusammenfassung vor der Detaillierung oder Vereinfachung, jedoch ist es ebenso möglich, ein neues Anzeigefenster zum Anzeigen der neu erzeugten detaillierten oder vereinfachten Zusammenfassung zu erzeugen.
  • Als nächstes wird die siebte Variation hinsichtlich der Steuerung eine Menge von Zusammenfassungssätzen in jeder Zusammenfassung, die angezeigt werden muss, beschrieben.
  • In dieser siebten Variation haben die Konfigurationen der Zusammenfassungs-Erzeugungseinheit 14 und der Erfassungsergebnis-Ausgabeeinheit 17' die gleichen Konfigurationen wie in der obig beschriebenen sechsten Variation, jedoch die Operationen der Dokumentenselektions-Verarbeitungseinheit 232, der Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240 und der Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 sind wie folgt modifiziert.
  • Das heißt, in dieser siebten Variation werden die Zusammenfassung und das zugehörige Originaldokument simultan angezeigt, Seite an Seite, so dass die Fundorte der Zusammenfassungssätze der angezeigten Zusammenfassung in dem Originaldokument sofort erkannt werden können.
  • Zu diesem Ende operiert die Dokumentenselektions-Verarbeitungseinheit 232 gemäß dem Ablaufdiagramm von 107, welches sich von dem in 101 für die obig beschriebene sechste Variation gezeigte Diagramm darin unterscheidet, dass es zusätzliche Schritte des Schrittes 8081 zum Anzeigen des Originaldokumentes enthält, entsprechend der angezeigten Zusammenfassung, und der Schritt 8082 zum Hinzufügen der Hervorhebung, wie etwa Schattierung oder umgekehrte Farbgebung, zu der Anzeige von Sätzen in den Originaldokumenten, welche zu den Zusammenfassungssätzen der angezeigten Zusammenfassung zwischen den Schritten 8071 und 8022 zugehören.
  • Ebenso operiert die Zusammenfassungsdetaillierungs-Verarbeitungseinheit 240 gemäß dem Ablaufdiagramm von 108, welches sich von dem für die obig beschriebene sechste Variation in 102 gezeigten darin unterscheidet, dass es einen zusätzlichen Schritt des Schrittes 9720 zwischen den Schritten 9713 und 9714 gibt, zum Hinzufügen der Hervorhebung, wie etwa Schattierung oder umgekehrte Farbgebung, zu der Anzeige der Sätze in den Originaldokumenten, dessen Satznummern in der Liste L2(NEU) enthalten sind, die beim Schritt 9708 erzielt wurde.
  • Auch operiert die Zusammenfassungsvereinfachungs-Verarbeitungseinheit 241 gemäß dem Ablaufdiagramm von 109, welches sich von dem für die obig beschriebene sechste Variation in 103 gezeigten darin unterscheidet, dass es einen zusätzlichen Schritt des Schrittes 9820 zwischen den Schritten 9812 und 9813 gibt, zum Hinzufügen der Hervorhebung, wie etwa Schattierung oder umgekehrte Farbgebung, zu der Anzeige der Sätze in den Originaldokumenten, dessen Satznummern in der Liste L2 (NEU) enthalten sind, die beim Schritt 9807 erzielt wurde.
  • Als ein konkretes Beispiel hinsichtlich der Anzeigenzusammenfassung, wie in 110A gezeigt, kann der Benutzer die Kennzeichnungsaktion unter Verwendung des als ein schwarzes Dreieck angezeigten Cursors machen, die das Kapitel 1 in 110A spezifiziert. Dann zeigt 110B die Anzeige des entsprechenden Originaldokumentes an, die von dem Drücken der "Original"-Icon-Schaltfläche in dem Zustand von 110A resultiert, in welchem die Hervorhebung in einer Gestalt der umgekehrten Farbgebung zu den angezeigten Abschnitten der beiden Sätze hinzugefügt wird, welche in der angezeigten Zusammenfassung von 110A als die Zusammenfassungssätze enthalten sind. Hier kann die Zuordnung zwischen den Zusammenfassungssätzen und den Sätzen in den Originaldokumenten erkannt werden von der Information hinsichtlich welcher Satz in dem Originaldokument von welchem Zusammenfassungssatz entstanden ist, was erzielt werden kann bei einem Zeitpunkt des Selektierens der Sätze mit dem Abzug unterhalb des Schwellenwertes P2 bei der Textrekonstruktionseinheit 144.
  • Es sei darauf hingewiesen, dass die obige Operation derart modifiziert werden kann, dass lediglich die Sätze des Originaldokumentes angezeigt werden mit den abgestuften Hervorhebungsindikationen, die zu den Sätzen in einer abnehmenden Reihenfolge von deren Abzüge hinzugefügt wird.
  • Als nächstes wird die achte Variation hinsichtlich der Anordnung der Zusammenfassungssätze in jeder Zusammenfassung, die angezeigt werden muss, beschrieben.
  • In dieser achten Variation sind die Konfigurationen des Systems im Grunde genommen ähnlich zu der der obig beschriebenen zweiten Ausführungsform, jedoch führen die Dokumentenstruktur-Analyseeinheit 141 und die Textrekonstruktionseinheit 144 in der Zusammenfassungs-Erzeugungseinheit 14 ebenso die zusätzlichen Operationen zum Zwecke der Anordnung der Zusammenfassungssätze aus, die von den verschiedenen Abschnitten in den Originaldokumenten erzeugt werden als zugehörig zu den verschiedenen Abschnitten in der Zusammenfassung.
  • Im Einzelnen führt die Dokumentenstruktur-Analyseeinheit 141 die zusätzliche Operation hinsichtlich des Ablaufdiagramms von 111 aus, um die Kapiteldaten hinsichtlich der Kapitel in den Originaldokumenten wie folgt zu extrahieren.
  • Als erstes wird beim Schritt 5001 die Anzahl der Zeichen zwischen jeder angrenzenden Kapitel/Abschnittkopfzeile in dem Originaldokument gezählt und auf eine Variable N gesetzt.
  • Dann wird eine Zeichenanzahlvariable I beim Schritt 5002 auf Eins gesetzt, eine Satzanzahlvariable J wird beim Schritt 5003 auf Null gesetzt, und eine Kapitelanzahlvariable K wird anfänglich bei Schritt 5004 auf Eins gesetzt.
  • Als nächstes wird beim Schritt 5005 beurteilt, ob ein gegenwärtiger Wert der Zeichenanzahlvariable I geringer als N ist. Wenn die Zeichenanzahlvariable I nicht kleiner als N ist, dann wird diese Operation der Dokumentenstruktur-Analyseeinheit 141 beendet. Andererseits wird beim Schritt 5006 beurteilt, ob das I-te Zeichen eine Periode ist oder nicht. Wenn das I-te Zeichen keine Periode ist, dann fährt die Operation mit dem nachfolgend beschriebenen Schritt 5012 fort.
  • Wenn andererseits das I-te Zeichen eine Periode ist, dann wird ein Wert der Satzanzahlvariable J beim Schritt 5007 um Eins erhöht, und die J-te Satzzahl wird in der Dokumentenstruktur-Analyseeinheit 141 beim Schritt 5008 gespeichert, während die K-te Kapitelzahl ebenso in der Dokumentenstruktur-Analyseeinheit 141 beim Schritt 5009 gespeichert wird.
  • Dann wird beim Schritt 5010 beurteilt, ob das (I + 1)-te Zeichen ein erzwungener Zeilenänderungscode ist oder nicht. Wenn das (I + 1)-te Zeichen nicht ein zwanghafter Zeilenänderungscode ist, dann fährt die Operation mit dem nachfolgend beschriebenen Schritt 5012 fort, wohingegen andererseits die Kapitelanzahlvariable K beim Schritt 5011 um Eins erhöht wird.
  • Dann wird die Zeichenanzahlvariable I beim Schritt 5012 um Eins erhöht, und die Operation kehrt zu dem obigen Schritt 5005 zurück, um die Schritte 5005 bis 5012 für den neuen Wert der Zeichenanzahlvariable I zu wiederholen.
  • Als ein konkretes Beispiel hinsichtlich des exemplarischen Originaldokumentes, wie in 112 gezeigt, enthält die Satzstrukturanalyseeinheit 141 die Kapiteldaten, wie in 113 gezeigt, in welcher die Satzzahl, der Satztyp und die Abschnittzahl für jeden Satz entsprechend registriert sind.
  • Andererseits führt die Textrekonstruktionseinheit 144 die Operation gemäß dem Ablaufdiagramm von 114 aus, um die Zusammenfassungssätze zu selektieren und um diese in Übereinstimmung mit den Abschnittsdaten wie folgt anzuordnen, die mittels der Dokumentenstruktur-Analyseeinheit 141 erzielt werden.
  • Als erstes wird beim Schritt 5101 eine Anzahl von Sätzen zwischen jeder angrenzenden Kapitel/Abschnittkopfzeile in dem Originaldokument gezählt und auf eine Variable N1 gesetzt.
  • Dann wird beim Schritt 5102 eine erste Satzanzahlvariable I1 auf Eins gesetzt, und eine zweite Satzanzahlvariable J1 wird beim Schritt 5103 anfänglich auf Null gesetzt.
  • Als nächstes wird beim Schritt 5104 beurteilt, ob ein gegenwärtiger Wert der ersten Satzanzahlvariablen I1 größer als N1 ist oder nicht. Wenn die erste Satzanzahlvariable I1 größer als N1 ist, dann wird diese Operation der Textrekonstruktionseinheit 144 beendet. Andererseits wird als nächstes beim Schritt 5105 beurteilt, ob der I1-te Satz einen Abzug hat, der nicht größer als der Schwellenwert P2 ist oder nicht. Wenn der I1-te Satz den Abzug hat, der größer als der Schwellenwert P2 ist, dann fährt die Operation mit dem nachfolgend beschriebenen Schritt 5111 fort. Andererseits wird als nächstes beim Schritt 5106 beurteilt, ob die zweite Satzvariable J1 größer als Null ist oder nicht. Wenn die zweite Satzvariable J1 Null ist, dann fährt die Operation mit dem nachfolgend beschriebenen Schritt 5110 fort. Andererseits. wird als nächstes beim Schritt 5107 beurteilt, ob die Absatzzahlen der J1-ten und I1-ten Sätze identisch sind oder nicht. Wenn sie identisch sind, dann fährt die Operation mit dem nachfolgend beschriebenen Schritt 5110 fort. Andererseits wird der gezwungene Zeilenänderungscode, der durch ein Black gefolgt wird, in einem Zwischenspeicher beim Schritt 5108 gespeichert, der in der Textrekonstruktionseinheit 144 vorgesehen ist, und der gegenwärtige Wert der ersten Satzanzahlvariable I1 wird beim Schritt 5109 auf die zweite Satzanzahlvariable J1 gesetzt.
  • Dann wird der I1-te Satz in dem Zwischenspeicher beim Schritt 5110 gespeichert, und die erste Satzanzahlvariable I1 wird beim Schritt 5111 um Eins erhöht, und die Operation kehrt zum obigen Schritt 5104 zurück, um die Schritte 5104 bis 5111 mit dem neuen Wert der ersten Satzanzahlvariable I1 zu wiederholen.
  • Als ein konkretes Beispiel zeigt 115 eine exemplarische Zusammenfassung, die durch die Textrekonstruktionseinheit 144 für das Kapitel 1 in dem in 112 gezeigten exemplarischen Originaldokument erzielt wird, welche die ersten und sechsten Sätze in dem Kapitel des Originaldokuments enthält. Hier sind als die ersten und sechsten Sätze in dem Kapitel 1 des Originaldokumentes, die von verschiedenen Abschnitten (erster und dritter Abschnitt) in dem Originaldokument von 112 erzeugt wurden, die zugehörigen Zusammenfassungssätze ebenso derart angeordnet, als gehören sie zu den verschiedenen Abschnitten in der in 115 gezeigten Zusammenfassung.
  • Als nächstes wird die neunte Variation hinsichtlich einer Erfassung des verfügbaren Fensteranzeigeraumes beschrieben: In dieser neunten Variation ist die für die obig beschriebene zweite Ausführungsform funktionelle Konfiguration von
  • 66, wie in 116 gezeigt, modifiziert, um eine verfügbare Fensteranzeigeraumerfassungseinheit 23 und eine Fensteranzeigesteuerungseinheit 24 zu inkooperieren, die zwischen der verfügbaren Fensteranzeigeraumerfassungseinheit 23 und der Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 verbunden ist.
  • Diese verfügbare Fensteranzeigeraumerfassungseinheit 23 erfasst eine Raumgröße, die in dem Anzeigefenster für das Anzeigen der Zusammenfassungen verfügbar ist, und liefert die erfasste Menge zu der Fensteranzeigesteuerungseinheit 24.
  • Die Fensteranzeigesteuerungseinheit 24 vergleicht die Größe (Größe 1), die von der verfügbaren Fensteranzeigeraumerfassungseinheit 22 zugeführt ist, mit der Größe (Größe 2) der Zusammenfassung, die gegenwärtig mittels der Zusammenfassungs-Erzeugungseinheit 14 erzeugt ist, die durch die Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 erzielt wird, und befiehlt der Erfassungsergebnis-Verarbeitungssteuerungseinheit 20 die Zusammenfassung, die gegenwärtig mittels der Zusammenfassungs-Erzeugungseinheit 14 erzeugt ist, zu der Erfassungsergebnis-Ausgabeeinheit 17' zu übertragen, wenn die Größe 2 die Größe 1 überschreitet.
  • Danach vollendet die Zusammenfassungs-Erzeugungseinheit 14 ihre Zusammenfassungs-Erzeugungsoperation, um die anderen Zusammenfassungen für die anderen erfassten Dokumente zu erzeugen, und diese anderen Zusammenfassungen werden zu der Erfassungsergebnis-Ausgabeeinheit 17' übertragen, wenn ihre Übertragung von der Erfassungsergebnis-Ausgabeeinheit 17' angefordert wird.
  • Auf diese Art und Weise kann in dieser neunten Variation die Zusammenfassung, die mittels der Zusammenfassungs-Erzeugungseinheit 14 erzeugt ist, angezeigt werden, sobald die Größe der Zusammenfassung jene Größe des verfügbaren Fensteranzeigeraumes erreicht, ohne auf die Vollendung der Zusammenfassungs-Erzeugungsoperation für sämtliche erfassten Dokumente zu warten, so dass die Handhabung von dem System verbessert werden kann.
  • Als nächstes wird die zehnte Variation hinsichtlich einer Erfassungsverarbeitung für die Zusammenfassung als das Erfassungsziel beschrieben.
  • In dieser zehnten Variation weist das System eine wie in 17 gezeigte schematische Konfiguration auf, welche eine Zusammenfassungsspeichereinheit 25, die mit der Erfassungsverarbeitungseinheit 13' verbunden ist, die Zusammenfassungs-Erzeugungseinheit 14 und die Erfassungsergebnis-Ausgabeeinheit 17' inkooperiert.
  • In dieser Konfiguration von 117 erzeugt die Zusammenfassungs-Erzeugungseinheit 14 die Zusammenfassungen für sämtliche Dokumente, die in der Dokumentenspeichereinheit 15 im voraus gespeichert sind, und speichert die erzeugten Zusammenfassungen in der Zusammenfassungsspeichereinheit 25.
  • Dann führt die Erfassungsverarbeitungseinheit 13' die Erfassungsverarbeitung für die Zusammenfassung als das Erfassungsziel aus, um somit die geeignete Zusammenfassung, die bei der Anzeigeeinrichtung 4 durch die Erfassungsergebnis-Ausgabeeinheit 17' angezeigt werden muss, zu selektieren. Hier besitzt die Erfassungsverarbeitungseinheit 13' die Daten, die die Zuordnungen zwischen der erfassten Zusammenfassung und dem Originaldokument in der Dokumentenspeichereinheit 15 anzeigen, so dass das Originaldokument, das zu der erfassten Zusammenfassung gehört, ebenso auf einfache Weise angezeigt werden kann.
  • Es sei darauf hingewiesen, dass in der obig beschriebenen zweiten Ausführungsform und deren Variationen es möglich ist, die Zusammenfassungen und die Originaldokumente in Übereinstimmung auf der Bildschirmanzeige, wie in 118 gezeigt, anzuzeigen. In solch einem Fall sollten die Zusammenfassungen und die Originaldokumente automatisch zusammen verschoben werden, um deren Zuordnung auf der Bildschirmanzeige beizubehalten.
  • Wie im Detail obig beschrieben, kann gemäß der zweiten Ausführungsform und deren Variationen das Erfassungsergebnis in der gewünschten Betrachtung, die durch den Benutzer spezifiziert ist, angezeigt werden, so dass es möglich wird, ein Dokumentenerfassungssystem bereitzustellen, welches in der Lage ist, automatisch eine Dokumentenzusammenfassung für jedes Dokument in einer Betrachtung vorzubereiten und anzuzeigen, was für den Benutzer effizient ausdehnbar ist, unter Berücksichtigung der begrenzten visuellen Datenverarbeitungsmöglichkeit des menschlichen Benutzers, so dass der Benutzer eine Beurteilung hinsichtlich der Eignung des Erfassungsergebnisses schnell machen kann. Zusätzlich werden die Zusammenfassungen, die zu einem Zeitpunkt der Erfassungsergebnisanzeige erzeugt werden, in Übereinstimmung mit den Originaldokumenten gespeichert, so dass kein Bedarf besteht, die Zusammenfassungen in den nachfolgenden Operationen erneut zu erzeugen, und demzufolge kann die nachfolgende Verarbeitungszeit beträchtlich reduziert werden.
  • Es sei ferner darauf hingewiesen, dass, neben dem bereits obig erwähnten, viele Modifikationen und Variationen gemacht werden können, ohne von der Neuheit und den vorteilhaften Eigenschaften der vorliegenden Erfindung abzuweichen. Demgemäß sind sämtliche Modifikationen und Variationen beabsichtigt, innerhalb des Umfangs der beigefügten Patentansprüche enthalten zu sein.

Claims (1)

  1. Dokumentenerfassungssystem, umfassend: ein Eingabemittel zum Eingeben eines Erfassungsbefehls, der von einem Benutzer spezifizierte Erfassungsschlüsselworte enthält; ein Dokumentenspeichermittel zum Speichern einer Vielzahl von Erfassungszieldokumenten, wobei ein Erfassungszieldokument einen oder mehr Sätze aus Text umfasst; ein Zusammenfassungserzeugungsmittel zur Erzeugung einer Zusammenfassung jedes im Dokumentenspeichermittel gespeicherten Erfassungszieldokuments, wobei eine Zusammenfassung einen oder mehr Sätze aus Text umfasst, die aus dem Text des zugehörigen Erfassungszieldokuments rekonstruiert wurden, und zum Extrahieren von Schlüsselworten jedes Erfassungszieldokuments aus der Zusammenfassung jedes Erfassungszieldokuments; ein Erfassungsverarbeitungsmittel zum Erfassen jener in dem Dokumentenspeichermittel gespeicherten Erfassungszieldokumente, als erfasste Dokumente deren vom Zusammenfassungserzeugungsmittel extrahierte Schlüsselworte mit den Erfassungsschlüsselworten in dem beim Eingabemittel eingegebenen Erfassungsbefehl übereinstimmen; und ein Eingabeanalysemittel zur Bestimmung einer semantischen Struktur des Erfassungsbefehls, der von einem Benutzer eingegebene Ausdrücke natürlicher Sprache enthält; wobei das Zusammenfassungserzeugungsmittel auch eine semantische Struktur jedes Satzes in der Zusammenfassung jedes Erfassungszieldokuments extrahiert, und das Erfassungsverarbeitungsmittels jene Erfassungszieldokumente erfasst, deren Schlüsselworte mit den Erfassungsschlüsselworten übereinstimmen, und deren Zusammenfassung die von dem Zusammenfassungserzeugungsmittel extrahierte semantische Satzstruktur enthält, welche mit der von dem Eingabeanalysemittel bestimmten semantischen Satzstruktur des Erfassungsbefehls übereinstimmt.
DE69432575T 1993-01-28 1994-01-28 Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung Expired - Fee Related DE69432575T2 (de)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP01256193A JP3202381B2 (ja) 1993-01-28 1993-01-28 文書検索装置及び文書検索方法
JP1256193 1993-01-28
JP5670393 1993-03-17
JP5670393 1993-03-17
JP25099993 1993-09-14
JP25099993 1993-09-14

Publications (2)

Publication Number Publication Date
DE69432575D1 DE69432575D1 (de) 2003-06-05
DE69432575T2 true DE69432575T2 (de) 2004-03-18

Family

ID=27279887

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69432575T Expired - Fee Related DE69432575T2 (de) 1993-01-28 1994-01-28 Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung

Country Status (3)

Country Link
US (1) US5907841A (de)
EP (1) EP0610760B1 (de)
DE (1) DE69432575T2 (de)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6901392B1 (en) 1995-09-04 2005-05-31 Matsushita Electric Industrial Co., Ltd. Information filtering method and apparatus for preferentially taking out information having a high necessity
US6076082A (en) * 1995-09-04 2000-06-13 Matsushita Electric Industrial Co., Ltd. Information filtering method and apparatus for preferentially taking out information having a high necessity
WO1998025217A1 (en) * 1996-12-04 1998-06-11 Quarterdeck Corporation Method and apparatus for natural language querying and semantic searching of an information database
JP2001519952A (ja) * 1997-04-16 2001-10-23 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー データ要約装置
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP2965010B2 (ja) * 1997-08-30 1999-10-18 日本電気株式会社 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US7366711B1 (en) * 1999-02-19 2008-04-29 The Trustees Of Columbia University In The City Of New York Multi-document summarization system and method
US8667051B2 (en) * 1999-03-22 2014-03-04 Esdr Network Solutions Llc Real-time communication processing method, product, and apparatus
US7216115B1 (en) 1999-11-10 2007-05-08 Fastcase.Com, Inc. Apparatus and method for displaying records responsive to a database query
FR2802731B1 (fr) * 1999-12-16 2002-01-25 Schneider Electric Ind Sa Dispositif autonome de commande a distance, appareil et installation electrique comportant un tel dispositif
JP4253152B2 (ja) * 2000-01-05 2009-04-08 三菱電機株式会社 キーワード抽出装置
US6687689B1 (en) * 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
JP4821039B2 (ja) * 2000-10-24 2011-11-24 日本電気株式会社 地名情報抽出装置、その抽出方法及び記録媒体
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US7178099B2 (en) * 2001-01-23 2007-02-13 Inxight Software, Inc. Meta-content analysis and annotation of email and other electronic documents
US7069207B2 (en) * 2001-01-26 2006-06-27 Microsoft Corporation Linguistically intelligent text compression
JP3870144B2 (ja) * 2002-09-27 2007-01-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 木構造文書送受システム、木構造文書送信装置、木構造文書受信装置、木構造文書送受方法、木構造文書送信方法、木構造文書受信方法、及びプログラム
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines
US7818308B2 (en) * 2003-10-01 2010-10-19 Nuance Communications, Inc. System and method for document section segmentation
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
KR100869946B1 (ko) * 2006-04-06 2008-11-24 삼성전자주식회사 컨텐츠 관리 서버 및 그의 컨텐츠 관리방법
JP5141560B2 (ja) * 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US20080195599A1 (en) * 2007-02-14 2008-08-14 Zh Computer, Inc. Hyperlink content abstraction
JP4398992B2 (ja) * 2007-03-29 2010-01-13 株式会社東芝 情報検索装置、情報検索方法及び情報検索プログラム
JP2009080577A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 情報検索支援装置及び方法
US8380731B2 (en) * 2007-12-13 2013-02-19 The Boeing Company Methods and apparatus using sets of semantically similar words for text classification
US8074171B2 (en) * 2008-06-06 2011-12-06 International Business Machines Corporation System and method to provide warnings associated with natural language searches to determine intended actions and accidental omissions
US8874529B2 (en) * 2009-03-16 2014-10-28 Bert A. Silich User-determinable method and system for manipulating and displaying textual and graphical information
US8751513B2 (en) 2010-08-31 2014-06-10 Apple Inc. Indexing and tag generation of content for optimal delivery of invitational content
US9183192B1 (en) * 2011-03-16 2015-11-10 Ruby Investments Properties LLC Translator
US9002860B1 (en) * 2012-02-06 2015-04-07 Google Inc. Associating summaries with pointers in persistent data structures
JP6152711B2 (ja) * 2013-06-04 2017-06-28 富士通株式会社 情報検索装置および情報検索方法
US9817823B2 (en) * 2013-09-17 2017-11-14 International Business Machines Corporation Active knowledge guidance based on deep document analysis
JP6260294B2 (ja) * 2014-01-21 2018-01-17 富士通株式会社 情報検索装置、情報検索方法および情報検索プログラム
RU2571539C2 (ru) * 2014-02-03 2015-12-20 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ поиска похожих электронных документов, размещенных на устройствах хранения данных
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US10628522B2 (en) * 2016-06-27 2020-04-21 International Business Machines Corporation Creating rules and dictionaries in a cyclical pattern matching process
US10572726B1 (en) * 2016-10-21 2020-02-25 Digital Research Solutions, Inc. Media summarizer
US10176369B2 (en) * 2016-11-23 2019-01-08 Xerox Corporation Method and apparatus for generating a summary document
US10699062B2 (en) 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US10997225B2 (en) 2018-03-20 2021-05-04 The Boeing Company Predictive query processing for complex system lifecycle management
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
US11966686B2 (en) * 2019-06-17 2024-04-23 The Boeing Company Synthetic intelligent extraction of relevant solutions for lifecycle management of complex systems
US11263394B2 (en) * 2019-08-02 2022-03-01 Adobe Inc. Low-resource sentence compression system
US20220350827A1 (en) * 2019-10-03 2022-11-03 Semiconductor Energy Laboratory Co., Ltd. Document data processing method and document data processing system
KR20210102617A (ko) * 2020-02-12 2021-08-20 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH03188566A (ja) * 1989-12-18 1991-08-16 Fujitsu Ltd 辞書連動テキストベース装置
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
DE69426541T2 (de) * 1993-03-12 2001-06-13 Toshiba Kawasaki Kk Dokumentdetektionssystem mit Darstellung des Detektionsresultats zur Erleichterung des Verständnis des Benutzers

Also Published As

Publication number Publication date
EP0610760A3 (en) 1994-09-28
EP0610760A2 (de) 1994-08-17
EP0610760B1 (de) 2003-05-02
DE69432575D1 (de) 2003-06-05
US5907841A (en) 1999-05-25

Similar Documents

Publication Publication Date Title
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE3650417T2 (de) Informationsaufzeichnungs- und Wiederauffindungssystem.
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE69631457T2 (de) Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69028592T2 (de) Gerät zur automatischen Generierung eines Index
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE68927743T2 (de) Sortier-/Mischausgabe
DE3587993T2 (de) Verfahren und Gerät zur Natursprachenverarbeitung.
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE19842688B4 (de) Verfahren zum Filtern von Daten, die von einem Datenanbieter stammen
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE102014113870A1 (de) Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE3901485A1 (de) Dokumenten-wiedergewinnungssystem
DE112007000053T5 (de) System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE60118399T2 (de) System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten
DE102006040208A1 (de) Patentbezogenes Suchverfahren und -system

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee