-
GEBIET DER ERFINDUNG
-
Die
vorliegende Erfindung betrifft allgemein Textverarbeitungssysteme
und insbesondere die Verarbeitung von Mitteilungen zur Verwendung
zum Beispiel in Funk-Pagingsystemen.
-
HINTERGRUND
DER ERFINDUNG
-
Es
gibt heute viele System zur Verarbeitung von Textmitteilungen. Funk-Pagingsysteme
stellen hierfür
ein spezielles Beispiel dar. Funk-Pagingsysteme sind gut bekannt
und werden in großem
Umfang eingesetzt. Ein bei Pagingsystemen verwendetes spezielles
Format ist die Textübertragung.
Bei diesen Systemen wird eine aus einer Zeichenfolge bestehende
Mitteilung an einen Pagingempfänger übertragen,
um sie dort auf einem Anzeigebildschirm anzuzeigen. Viele Pagingempfänger weisen
jedoch den bedauerlichen Nachteil auf, dass sie nur eine Mitteilung
von begrenzter Länge
anzeigen können.
Zum Beispiel sind viele gegenwärtig
verwendete Pagingempfänger
insofern beschränkt,
als sie nur eine Mitteilung anzeigen können, die nicht mehr als 240
Textzeichen umfasst. Wenn also ein Benutzer eine Mitteilung mit
mehr als 240 Zeichen an einen solchen Pagingempfänger übertragen will, kann nicht
die komplette Mitteilung angezeigt werden. Darauf kann der Pagingempfänger so
reagieren, dass er überhaupt keine
Mitteilung anzeigt. Meist wird jedoch eine Mitteilung, welche die
Maximallänge überschreitet,
bei Erreichen der Maximallänge
abgeschnitten, wodurch das Ende der Mitteilung verloren geht. Es
ist leicht einzusehen, dass eine solche Situation nicht wünschenswert
ist, da eine gekürzte
Mitteilung für
den Leser unverständlich
sein kann und/oder in ihr wichtige Informationen fehlen können.
-
In
der US-Patentschrift 5 396 228 werden Verfahren und eine Vorrichtung
zum Komprimieren und Dekomprimieren von Pagingdaten beschrieben. In
einem Wörterbuch
aufgefundene Wörter
werden mittels eines Komprimierungscodes komprimiert. Ein Kopfdatensatz
(Header) dient zur Kennzeichnung des verwendeten Wörterbuchs.
Wenn eine Telefonnummer oder eine ganze Zahl vorkommen werden außerdem ein
Kopfdatensatz und ein Komprimierungsformat verwendet, das für Telefonnummern oder
ganze Zahlen optimiert ist.
-
Die
europäische
Patentanmeldung Nr. 0 361 464 legt ein Verfahren und eine Vorrichtung
zum Herstellen einer Zusammenfassung eines Dokuments offen. Bei
einer Ausführungsart
des Verfahrens wird eine Liste vorher ausgewählter Hinweiswörter eingegeben,
die auf wichtige Ausdrücke
in dem Dokument verweisen, und ein Teil des Textes, dem gegenüber anderen
Textteilen für
dasselbe Hinweiswort eine höhere
Priorität
zugewiesen werden soll, wird einem oder mehreren der eingegebenen
Hinweiswörter
zugeordnet. Dann werden alle Sätze
des Dokuments, die ein Hinweiswort enthalten, aus dem Dokument entnommen
und einer Sprachanalyseeinrichtung zugeführt, die einem Wort, das mit
dem zugeordneten Textteil übereinstimmt,
fünf Punkte,
aber Hinweiswörtern,
die einem anderen als dem zugeordneten Textteil entsprechen, einen
Punkt zuordnet. Dann werden aus den Sätzen, die ein Hinweiswort enthalten,
Sätze mit
mehr als einer Mindestpunktzahl ausgewählt. Abschließend wird
eine Zusammenfassung erstellt, indem durch Ändern der Hinweiswörter der
ausgewählten
Sätze,
die dem zugeordneten Textteil entsprechen, neue Sätze erzeugt
werden.
-
ÜBERBLICK ÜBER DIE
ERFINDUNG
-
Angesichts
des oben Gesagten besteht eine Aufgabe der vorliegenden Erfindung
darin, diese sowie weitere Nachteile in heutigen Textverarbeitungssystemen
zu beseitigen.
-
Eine
weitere Aufgabe der vorliegenden Erfindung besteht darin, die Textdaten
vor dem Senden und/oder Speichern zu komprimieren.
-
Eine
andere Aufgabe der vorliegenden Erfindung besteht darin, eine flexible
Steuerung der Textzusammenfassung durch einen Satz von Befehlen bereitzustellen,
die einem Systemadministrator oder einer anderen berechtigten Person
zugänglich
sind.
-
Eine
weitere Aufgabe der vorliegenden Erfindung besteht darin, ein System
und ein Verfahren zum Senden von Textmitteilungen in der Weise bereitzustellen,
dass alle wichtigen Informationen zum gewählten Empfänger auf einen Pagingempfänger übertragen
werden können.
-
Noch
eine weitere Aufgabe der vorliegenden Erfindung besteht darin, einen
Mitteilungstext so zusammenzufassen, dass der wesentliche Gehalt
des Mitteilungstextes zu einer Empfangseinheit mit einem Pagingempfänger übertragen
werden kann, der nicht in der Lage ist, einen Mitteilungstext über die vorgegebene
maximale Zeichenzahl hinaus anzuzeigen.
-
Zum
Lösen der
obigen sowie weiterer Probleme stellt die vorliegende Erfindung
ein Pagingsystem nach Anspruch 1 bereit.
-
Weitere
Merkmale, Aufgaben und Vorteile der vorliegenden Erfindung werden
aus der folgenden detaillierten Beschreibung in Verbindung mit den beiliegenden
Zeichnungen klar.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Blockschaltbild der bevorzugten Ausführungsart eines Pagingsystems,
das ein System zur Textzusammenfassung gemäß den Lehren der vorliegenden
Erfindung;
-
2 ist
ein Blockschaltbild eines Pagingempfängers gemäß einer bevorzugten Ausführungsart
der vorliegenden Erfindung;
-
3 ist
ein Flussdiagramm, das den Prozess der Textzusammenfassung gemäß einer
bevorzugten Ausführungsart
der vorliegenden Erfindung beschreibt;
-
4(a), 4(b) und 4(c) sind Flussdiagramme, die die Verarbeitung
eines bestimmten Befehlssatzes während
des Zusammenfassungsprozesses der bevorzugten Ausführungsart
der vorliegenden Erfindung beschreiben.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
1 ist
ein Blockschaltbild des Paging-Steuersystems 50 der vorliegenden
Erfindung. Das in 1 dargestellte Paging- Steuersystem 50 enthält sämtliche
erforderlichen Funktionalitäten
zum Empfangen einer Textmitteilung zum Übertragen und zum Zusammenfassen
der Mitteilung sowie zum Übertragen
der zusammengefassten Mitteilung zum Anzeigen auf einem Pagingempfänger. Der
Pagingempfänger
zum Empfangen der zusammengefassten Mitteilung ist in 2 veranschaulicht
und kann auf das Anzeigen einer bestimmten maximalen Anzahl von
Zeichen beschränkt
sein.
-
Bei
dem in 1 dargestellten Paging-Steuersystem 50 wird
von einer externen Eingabequelle 10 eine Textmitteilung
an das Paging-Steuersystem 50 übertragen. Die externe Eingabequelle 10 kann beliebig
viele aus einer Vielzahl gut bekannter Eingabequellen umfassen,
wie sie gegenwärtig
bei Pagingsystemen verwendet werden. Zum Beispiel kann die externe
Eingabequelle 10 einen Telefonapparat umfassen, wobei der
Telefonapparat über
ein Telefonnetz mit dem Paging-Steuersystem 50 verbunden
ist. In diesem Fall kann sich eine Person, die eine Mitteilung zu übertragen
wünscht, über die
Telefontastatur einwählen,
wobei eine Reihe von Ziffern beispielsweise eine Telefonnummer darstellt,
unter der eine Person erreicht werden kann.
-
Um
die Übertragung
einer Textmitteilung zu ermöglichen,
ist üblicherweise
außer
einer einfachen sieben- oder zehnstelligen Telefonnummer die Verwendung
einer anderen Eingabequelle als des Telefonapparates erforderlich.
Textmitteilungen, die bis zu 240 Zeichen umfassen, können zu
einem Pagingempfänger übertragen
werden, wenn sie in speziell aufgebauten Eingabequellen erzeugt
werden. Zum Beispiel kann als Eingabequelle 10 ein tragbares „Terminal" (Endgerät) bereitgestellt
werden, in das der Benutzer den zu übertragenden Text eintippen kann.
Dieses Terminal ist mit einem herkömmlichen Modem zur Übertragung
zu dem Paging-Steuersystem 50 verbunden,
um so die Funkübertragung
zu dem Pagingempfänger 110 zu
gewährleisten.
Alternativ kann ein Benutzer eine Mitteilung per Telefon auch einer
Vermittlungsperson übermitteln,
welche die per Telefon übermittelte
Mitteilung dann in ein solches Terminal eintippt. Die durch die
Vermittlungsperson eingetippte Mitteilung wird dann zum Paging-Steuersystem 50 übermittelt
und schließlich zum
Pagingempfänger 110 übertragen.
Die vorliegende Erfindung konzentriert sich in erster Linie auf die Übertragung
längerer
Mitteilungen (d. h. solcher Mitteilungen, die über ein „Terminal" eingegeben wurden), kann jedoch auch
die Übertragung
von Kurzmitteilungen umfassen (d. h. Telefonnummern, die über eine
Telefontastatur eingegeben wurden).
-
Das
in 1 gezeigte Paging-Steuersystem 50 umfasst
ferner einen Speicher 40 und eine Paging-Schnittstellensteuereinheit 70.
Im Speicher 40 wird die von der Eingabequelle 10 empfangene
Textmitteilung gespeichert. Die Paging-Schnittstellensteuereinheit 70 tauscht
Daten mit der Textzusammenfassungseinheit 90, dem Befehlsterminal 45, dem
Speicher 40 und der Funkübertragungseinheit 80 aus,
um die Gesamtfunktion des Paging-Steuersystems 50 zu steuern.
Die Aufgabe der Textzusammenfassungseinheit 90 besteht
darin, die von der Eingabequelle 10 empfangene Textmitteilung
so zu bearbeiten, dass sie im Rahmen der durch den Pagingempfänger 110 auferlegten
Einschränkungen ohne
Verlust von wichtigen Informationen übertragen werden kann. Die
Funktionsweise der Textzusammenfassungseinheit 90 wird
im Folgenden eingehend erörtert.
Der Puffer 25 enthält,
wie ebenfalls im Folgenden erörtert
wird, den zusammengefassten Text als Ergebnis der Verarbeitung durch
die Textzusammenfassungseinheit 90. Es ist möglich, dass
der Puffer 25 und der Speicher 70 denselben Speicher umfassen.
Die Funkübertragungseinheit 80 liest
aus dem Puffer 25 den zusammengefassten Text und sendet
die zusammengefasste Textmitteilung zum Pagingempfänger 110.
vor der Übertragung
kann die Funkübertragungseinheit 80 ferner
die Daten der zusammengefassten Mitteilung mittels verschiedener
in der Technik bekannter Verfahren codieren oder bearbeiten. Das
Befehlsterminal 45 steht auch für die Eingabe diverser Befehle
zur Verfügung,
darunter Befehle zur Steuerung der Funktion der Textzusammenfassungseinheit 90.
-
Man
beachte, dass sich die vorliegende Erfindung nicht allein auf die
in 1 veranschaulichte spezielle Struktur des Paging-Steuersystems
beschränkt.
Beispielsweise kann eine alternative Ausführungsart eines Paging-Steuersystems
eine in einem lokalen Netzwerk befindliche Anwendung umfassen, durch
welche Benutzer unter ihrer jeweiligen Addresse in einem solchen
lokalen Netzwerk elektronische Mitteilungen (E-Mails) empfangen
können.
In diesem Fall kann die E-Mail gemäß den Lehren der vorliegenden
Erfindung zusammengefasst und dann durch das Netzwerk zu einer Funkübertragungseinheit
innerhalb oder außerhalb
dieses Netzwerkes weitergeleitet werden. Dadurch könnten zum
Beispiel Internetmitteilungen automatisch einem Benutzer auf dessen
Pager weitergeleitet werden, wenn sich dieser gerade nicht im Netzwerk
befindet. Dem Fachmann ist klar, dass die Lehren der vorliegenden
Erfindung nicht nur auf Pager, sondern auch auf andere Geräte zutreffen.
Die vorliegende Erfindung kann, wie deutlich wird, immer dann angewendet
werden, wenn es erforderlich ist, Text in einer kompakten Form zu übertragen
oder zu speichern.
-
2 veranschaulicht
einen Pager, der in dem durch die vorliegende Erfindung beschriebenen Pagingsystem
verwendet werden kann. Der Pagercontroller 140 dient der
Steuerung der Gesamtfunktion des Funk-Pagingempfängers 110. Der Pagercontroller 140 kann
einen handelsüblichen
Mikroprozessor wie beispielsweise einen von der Intel Corporation
hergestellten i486TM Mikroprozessor umfassen. Der
Funk-Pagingempfänger 110 umfasst
vorzugsweise einen Standard-Funk-Pagingempfänger, der einen
Pager-Anzeigebildschirm 160 enthält. Üblicherweise ist der Pager-Anzeigebildschirm 160 eine Flüssigkristallanzeige
(liquid crystal display, LCD), die Textinformationen anzeigen kann.
Der Funk-Pagingempfänger 110 kann
durch Rundfunk (HF) übertragene
Pagingsignale empfangen, die Textinformationen beinhalten. Die durch
das Paging-Steuersystem 50 übertragenen
Textinformationen können
in einer Vielzahl von in der Technik gut bekannten Formaten und/oder
Codierschemata dargestellt werden. Die Form der durch den Funk-Pagingempfänger 110 empfangenen
Textinformationen ist für
die vorliegende Erfindung nicht entscheidend, da der Funk-Pagingempfänger 110 beliebige
Formen von Funksignalen zur Verarbeitung gemäß den Lehren der vorliegenden
Erfindung empfangen kann. Die Funk-Pagingsignale werden durch den
Funkempfänger 130 empfangen,
der mit einer zu dem Funk-Pagingempfänger 110 gehörenden Außen- oder
Innenantenne verbunden sein kann. Nach dem Empfang werden die Pagingsignale
erforderlichenfalls durch den Decodierer 120 beispielsweise
in normale ASCII-Textdaten decodiert und vorübergehend im Mitteilungs-RAM 190 gespeichert.
Alternativ kann der Decodierer dazu dienen, die Pagingmitteilung
in einer durch den Anzeigetreiber 170 erkennbaren und darstellbaren
Form auf den Pager-Anzeigebildschirm 160 zu bringen.
-
Im
Folgenden wird die Funktion der in dem Paging-Steuersystem 50 enthaltenen
Textzusammenfassungseinheit 90 in Verbindung mit 3 genauer
beschrieben. Die Textzusammenfassungseinheit 90 empfängt allgemein
gesagt, als Eingabe eine oder mehrere zusammenzufassende Textmitteilungen,
einen Befehlssatz, der anzeigt, wie die Zusammenfassung zu erfolgen
hat, und einen Wert für
die maximal zulässige
Länge des
zusammengefassten Textes. Die folgende Beschreibung geht davon aus, dass
die zusammenzufassende und zu übertragende Mitteilung
eine E-Mail-Mitteilung ist. Die Funktion der Textzusammenfassungseinheit
und damit der vorliegenden Erfindung ist jedoch nicht darauf beschränkt. Die
Textzusammenfassungseinheit kann beliebige Formen von Textinformationen
wie beispielsweise Dokumente, Briefe, Bücher, Artikel oder Telefaxe
verarbeiten.
-
Der
erste Schritt des Zusammenfassungsprozesses besteht darin, die Textmitteilung
in Blöcke einzuteilen.
Die verbreitetste und bevorzugte Form eines Blocks ist ein Satz,
obwohl andere Formen von Blöcken,
wie beispielsweise Wörter
oder Absätze, verwendet
werden können.
Jeder Block wird als einer von drei Typen markiert: MAIL HEADER
(SENDEKOPF), TEXT (TEXT) oder PUNCTUATION (INTERPUNKTION). Außer bei
E-Mails können
sich diese Typen von Mitteilungen insoweit unterscheiden, wie es
der Form der Textinformation angemessen ist. Ungeachtet dessen werden
in der E-Mail-Umgebung MAIL HEADER-Daten ferner als SIGNIFICANT
(WESENTLICH) oder INSIGNIFICANT (UNWESENTLICH) klassifiziert. Eine
solche weitergehende Klassifizierung wird als Klassifizierung in „Untertypen" bezeichnet. TEXT-Typen werden
ferner entsprechend ihrer Stellung in einem Absatz nach den Untertypen FIRST
(ZUERST), LAST (ZULETZT), ONLY (LEDIGLICH) oder OTHER (SONSTIGE)
klassifiziert. Wenn also beispielsweise ein einzelner Satz (Block)
einen Absatz bildet, wird dieser Satz (Block) durch den Typ TEXT
und den Untertyp ONLY markiert. Wenn der Satz (Block) der erste
Satz eines mehrere Sätze
(Blöcke)
enthaltenden Absatzes ist, wird der Satz durch den Typ TEXT und
den Untertyp FIRST markiert. PUNCTUATION-Blöcke sind Blöcke, die keine Buchstaben oder
Ziffern enthalten. Bei der bevorzugten Ausführungsart gibt es für den Typ
PUNCTUATION keine Untertypen.
-
MAIL
HEADER-Typen werden durch die Textzusammenfassungseinheit 90 vorzugsweise über eine
Liste von Sendekopfnamen wie beispielsweise „Betreff", „Von", „An" usw. erkannt, die
aus einer externen Datei gelesen werden. Diese externe Datei kann
so erstellt werden, dass sie beliebige Schlüsselwörter enthält, die zum Feststellen von MAIL
HEADER-Daten wünschenswert
sind und durch einen Benutzer oder Systemadministrator vorgegeben
werden. Bei der bevorzugten Ausführungsart
heißt
diese Datei header.txt. Mit einem Stern (oder ein anderes Markierungszeichen)
endende Wörter
in der Datei header.txt werden als wichtige Kopfdaten angesehen
und lösen
die Klassifizierung durch den Untertyp MAIL HEADER SIGNIFICANT aus.
-
Bei
einer bevorzugten Ausführungsart
der vorliegenden Erfindung nimmt die Textzusammenfassungseinheit 90 an,
dass Wörter
in einer „Betreff"-Zeile eines MAIL
HEADERs SIGNIFICANT sind, ungeachtet der Tatsache, dass die Wörter ansonsten
durch die Datei header.txt als INSIGNIFICANT eingestuft würden. Dadurch
erhält
der Empfänger
der Mitteilung mit Sicherheit die komplette im MAIL HEADER enthaltene
Betreffzeile. Ferner kann das System so eingerichtet (oder durch
einen Benutzer oder Systemadministrator konfiguriert) werden, dass
dieses den Empfängernamen
(der nach der Kennung „An:" angegeben wird)
unabhängig
davon als wichtig ansieht, ob der Name in der Datei header.txt als
INSIGNIFICANT erscheint. Außerdem kann
das System so eingerichtet werden, dass es Zahlen (und Uhrzeiten
und Daten) als wichtig einstuft, unabhängig davon, ob sie im MAIL
HEADER oder im TEXT-Teil vorkommen. Es können zahlreiche dem Fachmann
leicht verständliche
Kombinationen gewählt
werden, um bestimmte Zeichenfolgen (z. B. Wörter und Zahlen) entweder als
SIGNIFICANT oder INSIGNIFICANT einzustufen.
-
Man
beachte, dass bei einer bevorzugten Ausführungsart der Erfindung die
Textzusammenfassungseinheit 90 so vorgehen kann, dass in
einem einzigen Dokument mehrere MAIL HEADER gemäß einem definierten Kriterium
verarbeitet werden können.
Das tritt üblicherweise
bei einer Antwort-Mail auf, wenn ein Empfänger dem ursprünglichen
Absender antwortet oder wenn eine Mitteilung an einen dritten Teilnehmer
weitergeleitet wird. Bei vielen gegenwärtig gebräuchlichen E-Mail-Umgebungen
lässt sich
die ursprüngliche
Mitteilung (einschließlich
des ursprünglichen
MAIL HEADERs) in die Antwort- bzw. die weitergeleitete Mitteilung
einbinden. In solchen Fällen
kommen in einem einzigen Dokument mehrere MAIL HEADER vor. Die Textzusammenfassungseinheit 90 kann
so konfiguriert werden, dass sämtliche
Informationen in allen MAIL HEADERn außer dem ersten MAIL HEADER
ignoriert werden. Dann werden alle Informationen (d. h. Wörter, Zahlen
und Zeichen) in der Mailmitteilung außer der ersten Mailmitteilung
als unwichtig behandelt.
-
Alternativ
kann die Textzusammenfassungseinheit 90 den ersten MAIL
HEADER aufteilen, um den(die) Namen Der erste Schritt des Zusammenfassungsprozesses
besteht darin, die Textmitteilung in Blöcke einzuteilen. Die verbreitetste
und bevorzugte Form eines Blocks ist ein Satz, obwohl andere Formen
von Blöcken,
wie beispielsweise Wörter
oder Absätze,
verwendet werden können.
Jeder Block wird als einer von drei Typen markiert: MAIL HEADER
(SENDEKOPF), TEXT (TEXT) oder PUNCTUATION (INTERPUNKTION). Außer bei
E-Mails können sich
diese Typen von Mitteilungen insoweit unterscheiden, wie es der
Form der Textinformation angemessen ist. Ungeachtet dessen werden
in der E-Mail-Umgebung MAIL HEADER-Daten ferner als SIGNIFICANT
(WESENTLICH) oder INSIGNIFICANT (UNWESENTLICH) klassifiziert. Eine
solche weitergehende Klassifizierung wird als Klassifizierung in „Untertypen" bezeichnet. TEXT-Typen
werden ferner entsprechend ihrer Stellung in einem Absatz nach den
Untertypen FIRST (ZUERST), LAST (ZULETZT), ONLY (LEDIGLICH) oder
OTHER (SONSTIGE) klassifiziert. Wenn also beispielsweise ein einzelner
Satz (Block) einen Absatz bildet, wird dieser Satz (Block) durch
den Typ TEXT und den Untertyp ONLY markiert. Wenn der Satz (Block)
der erste Satz eines mehrere Sätze
(Blöcke)
enthaltenden Absatzes ist, wird der Satz durch den Typ TEXT und den
Untertyp FIRST markiert. PUNCTUATION-Blöcke
sind Blöcke,
die keine Buchstaben oder Ziffern enthalten. Bei der bevorzugten
Ausführungsart
gibt es für
den Typ PUNCTUATION keine Untertypen.
-
MAIL
HEADER-Typen werden durch die Textzusammenfassungseinheit 90 vorzugsweise über eine
Liste von Sendekopfnamen wie beispielsweise „Betreff", „Von", „An" usw. erkannt, die
aus einer externen Datei gelesen werden. Diese externe Datei kann
so erstellt werden, dass sie beliebige Schlüsselwörter enthält, die zum Feststellen von MAIL
HEADER-Daten wünschenswert
sind und durch einen Benutzer oder Systemadministrator vorgegeben
werden. Bei der bevorzugten Ausführungsart
heißt
diese Datei header.txt. Mit einem Stern (oder ein anderes Markierungszeichen)
endende Wörter
in der Datei header.txt werden als wichtige Kopfdaten angesehen
und lösen
die Klassifizierung durch den Untertyp MAIL HEADER SIGNIFICANT aus.
-
Bei
einer bevorzugten Ausführungsart
der vorliegenden Erfindung nimmt die Textzusammenfassungseinheit 90 an,
dass Wörter
in einer „Betreff"-Zeile eines MAIL
HEADERs SIGNIFICANT sind, ungeachtet der Tatsache, dass die Wörter ansonsten
durch die Datei header.txt als INSIGNIFICANT eingestuft würden. Dadurch
erhält
der Empfänger
der Mitteilung mit Sicherheit die komplette im MAIL HEADER enthaltene
Betreffzeile. Ferner kann das System so eingerichtet (oder durch
einen Benutzer oder Systemadministrator konfiguriert) werden, dass
dieses den Empfängernamen
(der nach der Kennung „An:" angegeben wird)
unabhängig
davon als wichtig ansieht, ob der Name in der Datei header.txt als
INSIGNIFICANT erscheint. Außerdem kann
das System so eingerichtet werden, dass es Zahlen (und Uhrzeiten
und Daten) als wichtig einstuft, unabhängig davon, ob sie im MAIL
HEADER oder im TEXT-Teil vorkommen. Es können zahlreiche dem Fachmann
leicht verständliche
Kombinationen gewählt
werden, um bestimmte Zeichenfolgen (z. B. Wörter und Zahlen) entweder als
SIGNIFICANT oder INSIGNIFICANT einzustufen.
-
Man
beachte, dass bei einer bevorzugten Ausführungsart der Erfindung die
Textzusammenfassungseinheit 90 so vorgehen kann, dass in
einem einzigen Dokument mehrere MAIL HEADER gemäß einem definierten Kriterium
verarbeitet werden können.
Das tritt üblicherweise
bei einer Antwort-Mail auf, wenn ein Empfänger dem ursprünglichen
Absender antwortet oder wenn eine Mitteilung an einen dritten Teilnehmer
weitergeleitet wird. Bei vielen gegenwärtig gebräuchlichen E-Mail-Umgebungen
lässt sich
die ursprüngliche
Mitteilung (einschließlich
des ursprünglichen
MAIL HEADERs) in die Antwort- bzw. die weitergeleitete Mitteilung
einbinden. In solchen Fällen
kommen in einem einzigen Dokument mehrere MAIL HEADER vor. Die Textzusammenfassungseinheit 90 kann
so konfiguriert werden, dass sämtliche
Informationen in allen MAIL HEADERn außer dem ersten MAIL HEADER
ignoriert werden. Dann werden alle Informationen (d. h. Wörter, Zahlen
und Zeichen) in der Mailmitteilung außer der ersten Mailmitteilung
als unwichtig behandelt.
-
Alternativ
kann die Textzusammenfassungseinheit 90 den ersten MAIL
HEADER aufteilen, um den(die) Namen der Empfängerseite der Mitteilung (d.
h. des Teilnehmers „An:") zu ermitteln. Die
Textzusammenfassungseinheit 90 kann dann alle weiteren Wörter in
MAIL HEADERn, die den Namen des Teilnehmers „An:" (und eventuell den darauf folgenden TEXT)
enthalten, als unwichtig klassifizieren. Diese Operation beruht
auf der Annahme, dass der Empfänger
der vorliegenden zusammengefassten Mitteilung die vorige Mitteilung
(als Absender oder Empfänger)
zuvor bereits gesehen hat, da sein Name in einem „Sekundär"-MAIL HEADER erscheint.
Bei verschiedenen alternativen Ausführungsarten kann der Name des
Teilnehmers „Von:" eine Anzeige auslösen, dass
die folgenden Wörter
unwichtig sind, oder das Vorliegen eines Teilnehmers „Von:" oder „An:" in einem Sekundär-MAIL HEADER
kann zu der Festlegung verwendet werden, dass alle Wörter in
einem MAIL HEADER und/oder in dem darauf folgenden TEXT unwichtig
sind. Die Behandlung unwichtiger Wörter wird im Folgenden eingehend
erörtert.
-
Nachdem
die Mitteilung in dem Prozess in Blöcke aufgeteilt worden ist und
die Blöcke
nach ihrem Typ und Untertyp markiert wurden, führt die Textzusammenfassungseinheit 90 seriell
die ihr zur Verfügung
stehenden Befehle aus. Befehle können
der Textzusammenfassungseinheit 90 interaktiv erteilt werden
oder zur Ausführung
im Stapelbetrieb in einer Datei enthalten sein. Befehle bestehen
aus Einzelwörtern,
die durch ein Leerzeichen voneinander getrennt sind. Parameterzuordnungen
bestehen aus einem Namen und einem Wert, die durch ein Gleichheitszeichen
voneinander getrennt sind. Zum Beispiel zeigt der Befehl:
ChunkBegin
= A*
einen Einzelbefehl an, der dem Zeichenfolgenparameter
ChunkBegin den Wert A* zuordnet. Bei einer bevorzugten Ausführungsart
sind alle Befehle und Parameternamen fallunabhängig, wobei dies auf die Parameterwerte
jedoch nicht zutrifft. Booleschen Parametern können die Werte „wahr", „falsch", „ja", „nein", „0" oder „1" zugewiesen werden.
Wenn ein Boolescher Parameter einen Namen, aber keinen Wert zugewiesen
erhält,
entspricht dies dem Wert „wahr".
-
Nachdem
alle Befehle ausgeführt
worden sind oder (durch einen Befehl TRYFIT (GRÖSSE PRÜFEN), siehe unten) festgestellt
wurde, dass die Mitteilung beim derzeitigen Verarbeitungsstand die Bedingung
der Maximallänge
erfüllt,
wird der zusammengefasste Text in den Puffer 25 geschrieben.
Zuerst wird der Wert des Zeichenfolgenparameters ChunkBegin in den
Puffer 25 geschrieben. Der Parameter ChunkBegin zeigt den
Anfang eines Blocks an, wie er im Puffer 25 erscheint.
Bei einer bevorzugten Ausführungsart
kann der Parameter ChunkBegin in der der Textzusammenfassungseinheit 90 zur
Verfügung
stehenden Befehlsfolge geändert
werden, so dass der Empfänger
der Mitteilung erfährt,
wie stark und auf welche Weise das ursprüngliche Dokument zusammengefasst
wurde. Wenn festgestellt wird, dass die Blöcke so verarbeitet worden sind,
dass sie für
die Ausgabe bereit sind, wird jeder Block mit dem Wert des zwischen
je zwei Blöcken
geschriebenen Zeichenfolgenparameters ChunkSep in den Puffer 25 geschrieben.
Bei einer bevorzugten Ausführungsart
wird für
das ChunkSep-Zeichen
ein Leerzeichen („ ") gesetzt. Alternativ
können
andere Zeichen verwendet oder der Wert durch den Benutzer gesetzt
werden. Nachdem alle Blöcke
in den Puffer 25 geschrieben worden sind, wird abschließend der
Zeichenfolgeparameter ChunkEnd geschrieben. Der Parameter ChunkEnd
zeigt das Ende der in dem Puffer 25 erscheinenden Mitteilung
an.
-
Bei
der bevorzugten Ausführungsart
werden sowohl für
ChunkBegin als auch für
ChunkEnd leere Zeichenfolgen als Standardwerte vorgegeben. Der Standardwert
für ChunkSep
ist ein einzelnes Leerzeichen. Durch Befehle kann diesen Variablen
ein beliebiger Zeichenfolgenwert zugewiesen werden, da der Wert
jedoch durch Leerzeichen begrenzt wird, darf er kein Leerzeichen
enthalten. Der Zeichenfolgenparameter ChunkSep wird einer speziellen
Behandlung unterworfen: Die Werte „Leerzeichen", „lf" und „crlf" können zum
Anzeigen eines einzelnen Leerzeichens, eines Zeilenvorschubs bzw.
eines Zeilenvorschubs mit gleichzeitigem Rücklauf verwendet werden.
-
Die
Textzusammenfassungseinheit 90 fungiert wie oben beschrieben
gemäß einer
Liste von Befehlen, die sie entweder interaktiv über das Befehlsterminal 45 oder über eine Stapeldatei
erhält. Die
Lehren der vorliegenden Erfindung werden dem Fachmann durch die
Beschreibung der einzelnen für die
Funktion der Textzusammenfassungseinheit 90 verfügbaren Befehle
verständlich.
Eine solche Auflistung und Beschreibung der bei der bevorzugten
Ausführungsart
der vorliegenden Erfindung verfügbaren Befehle
folgt nun.
-
Befehl: TEXTONLY (NURTEXT)
-
Dieser
Befehl löscht
alle Nicht-TEXT-Blöcke aus
dem Dokument. Daraus folgt, dass alle nachfolgenden durch die Textzusammenfassungseinheit 90 ausgeführten Operationen
mit der Mitteilung nur die verbleibenden TEXT-Blöcke betreffen.
-
Befehl: COUNTWORDS (WÖRTERZÄHLEN)
-
Die
Wörter
in dem Dokument werden gezählt und
die Wichtigkeit jedes Wortes ermittelt. Die Wichtigkeit eines Wortes
hängt von
einer Anzahl im Folgenden beschriebener Faktoren ab.
-
Befehl: SAVE (SPEICHERN)
-
Dieser
Befehl kann zum Speichern des aktuellen Status der Textzusammenfassungseinheit 90 verwendet
werden. Die gespeicherte Information beinhaltet die gesamte zusammenzufassende
Textinformation (d. h. das Dokument) und die Werte aller gewählten Parameter
sowie die Anzahl der Wörter
im Text. Außerdem
können
Wörterverzeichnisse
gespeichert werden, die STOP-Wörter
(HALT) und/oder INSIGNIFICANT-Wörter
anzeigen. Die Information wird gespeichert, indem sie in einem vorbestimmten
Format auf einen Stapel geschoben wird. Die Statusinformation SAVEd
(GESPEICHERT) kann mittels des nachfolgenden Befehls „RESTORE" (WIEDERHERSTELLEN)
wiederhergestellt werden.
-
Befehl: RESTORE (WIEDERHERSTELLEN)
-
Dieser
Befehl bewirkt das Löschen
des aktuellen Status der Textzusammenfassungseinheit 90 und
stellt den Status SAVEd (GESPEICHERT) am oberen Stapelende wieder
her. Bei einer bevorzugten Ausführungsart
wird der Stapel geöffnet,
wenn RESTORE aktiviert wird. Somit kann ein Status SAVEd nur einmal
wiederhergestellt werden, obwohl nach dem RESTORE sofort wieder
GESPEICHERT werden kann. Wenn der Stapel leer ist, ist der Befehl
RESTORE wirkungslos.
-
Befehl: TRYFIT (GRÖSSEPRÜFEN)
-
Dieser
Befehl ermittelt, ob das Dokument beim derzeitigen Verarbeitungsstand
in den maximal zugewiesenen Speicherplatz passt. Wenn dies der Fall
ist, wird das gesamte Dokument in den Ausgabepuffer 25 geschrieben.
Zu diesem Zeitpunkt werden alle übrigen
Befehle ignoriert. Außerdem
kann der zusammengefasste Text nach der Speicherung im Ausgabepuffer 25 durch
die Funkübertragungseinheit 80 übertragen
werden.
-
Beim
Ermitteln, ob das Dokument in den maximal zugewiesenen Speicherplatz
passt, berücksichtigt
TRYFIT die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd. Als
Beispiel werde angenommen, dass der Pagerspeicher ebenso wie der Ausgabepuffer 25 80
Zeichen enthält.
Da die Mitteilung bei der Übertragung
die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd enthält, darf
der eigentliche Text zusammen mit diesen Zeichenfolgen den Umfang
von 80 Zeichen nicht übersteigen.
Wenn also beispielsweise eine zusammengefasste Mitteilung eine Zeichenfolge
ChunkBegin und 5 Zeichenfolgen ChunkSep enthält, die jeweils ein Einzelzeichen
umfassen, verbleiben für
den eigentlichen Mitteilungstext nur noch 74 Zeichen. In diesem
Fall begrenzt der Befehl TRYFIT den Text auf 74 Zeichen.
-
Befehl: ABBREV (ABKÜRZEN)
-
Dieser
Befehl dient dem Abkürzen
des Dokumenttextes. Der Prozess wird durch fünf im Folgenden erörterte Parameter
gesteuert.
-
Befehl: SORTCHUNKS (BLÖCKESORTIEREN)
-
Wenn
dieser Befehl ausgeführt
wird, werden die Blöcke
des Dokuments entsprechend ihrer Wichtigkeit sortiert. Die Wichtigkeit
eines Blocks basiert auf einer Reihe von Faktoren, darunter die
Wichtigkeit der Wörter
in dem Block, die Anzahl von Wörtern in
dem Block sowie die Art und die Position des Blocks. Die Ausführung dieses
Befehls wird im Folgenden eingehend beschrieben.
-
Befehl: NOSTOPLIST (KEINEHALTLISTE)
-
Dieser
Befehl setzt die Verwendung der STOP-Liste außer Kraft, welche diejenigen
Wörter enthält, die
durch einen Benutzer oder den Systemadministrator als ständig INSIGNIFICANT
eingestuft wurden. Diese Wörter
sind von der Berechnung der Wichtigkeit ausgeschlossen, wie im Folgenden
erklärt
wird. Zu den in der STOP-Liste enthaltenen Wörtern gehören beispielsweise „der", „und" und „von". Die STOP-Liste
wird aus einer Datei (vorzugsweise aus der Datei stoplist.txt) gelesen,
die eine formlose Liste von STOP-Wörtern enthält.
-
Befehl: NOSIGLIST (KEINEWICHTIGKEITSLISTE)
-
Dieser
Befehl setzt die Verwendung der Liste wichtiger Wörter (SIGNIFICANT)
außer
Kraft, welche diejenigen Wörter
enthält,
die als ständig
wichtig (SIGNIFICANT) angesehen werden. Zu solchen Wörtern gehören beispielsweise „dringend", „wichtig" und „Vorrang". Die Wortliste SIGNIFICANT
dient standardmäßig dazu,
während
der Berechnung der Wichtigkeit die Wichtigkeit dieser Wörter hervorzuheben. Die
Wortliste SIGNIFICANT ist vorzugsweise in einer Datei mit der Bezeichnung
siglist.txt enthalten, welche eine formlose Liste durch einen Benutzer oder
einen Systemadministrator gewählter
wichtiger Wörter darstellt.
-
Nachdem
die Bedeutung der obigen Befehle bekannt ist, wird nun die Textzusammenfassungseinheit 90 gemäß einer
bevorzugten Ausführungsart
der vorliegenden Erfindung beschrieben.
-
Zuerst
wird wie oben beschrieben ein Dokument verarbeitet, indem es in
Blöcke
eingeteilt wird. Nach dem Einteilen in Blöcke kann ein Befehl COUNTWORDS
(WÖRTERZÄHLEN) ausgeführt werden.
Es gibt sechs Kombinationen von Blocktyp/-untertyp, in denen Wörter auftreten
können:
- 1) MAIL HEADER/INSIGNIFICANT
- 2) MAIL HEADER/INSIGNIFICANT
- 3) TEXT/FIRST
- 4) TEXT/LAST
- 5) TEXT/ONLY
- 6) TEXT/OTHER
-
Diese
Kombinationen stellen alle Blocktypen und -untertypen außer dem
Blocktyp PUNCTUATION dar. Somit würde ein Befehl COUNTWORDS alle Blöcke mit
einer der obigen sechs Kombinationen von Blocktyp/-untertyp aufteilen.
Bei einer bevorzugten Ausführungsart
ist ein Befehl TEXTONLY (NURTEXT) enthalten, so dass alle PUNCTUATION-Daten sofort
entfernt werden. Da die Blöcke
als Reaktion auf den Befehl COUNTWORDS aufgeteilt werden, wird für jedes
in dem Dokument auftauchende Wort dessen Wichtigkeit ermittelt.
Dies ist, wie später
erörtert
wird, sowohl für
das Ordnen der Blöcke
als auch für
das Entfernen bestimmter Wörter
aus der Mitteilung vor der Übertragung
erforderlich.
-
Die
Wichtigkeit der Wörter
wird anhand der folgenden sechs Parameter ermittelt:
- 1) cw-FirstInPar;
- 2) cw-LastInPar;
- 3) cw-OnlyInPar;
- 4) cw-OtherInPar;
- 5) cw-Header; und
- 6) cw-SigHeader.
-
Jedem
der Parameter wird ein Standardwert zugewiesen, obwohl dieser Wert
durch einen Benutzer und/oder Systemadministrator geändert werden kann.
Bei der bevorzugten Ausführungsart
werden die folgenden Standardwerte verwendet:
cw-FirstInPar
= 2;
cw-LastInPar = 2;
cw-OnlyInPar = 2;
cw-OtherInPar
= 1;
cw-Header = 0; und
cw-SigHeader = 3.
-
Jedes
Mal, wenn ein bestimmtes Wort an einer Stelle erscheint, die einem
der obigen Parameter entspricht, werden diesem Wort auf Basis des
zugeordneten Parameterwerts „Punkte" zugeordnet. Zum Beispiel
erhält
jedes Mal, wenn das Wort „FOOTBALL" (FUSSBALL) in einem
Block erscheint, der der erste Block in einem Absatz ist (FirstInPar),
das Wort „FOOTBALL" zwei Punkte (ausgehend
von den obigen Standardwerten). Jedes weitere Auftreten des Wortes „FOOTBALL" führt auf
Basis seiner Stellung in einem anderen Block zu einigen weiteren
Punkten. Der Parameter cw-OtherInPar entspricht Wörtern, die
in TEXT-Blöcken vorkommen,
welche weder die ersten noch die letzten Sätze in einem Absatz sind. Der
Parameter cw-OnlyInPar entspricht Wörtern, die in Blöcken vorkommen,
welche den einzigen Satz eines bestimmten Absatzes ausmachen. Der
Parameter cw-Header entspricht Wörtern,
die in MAIL HEADER/INSIGNIFICANT-Blöcken (SENDEKOPF/UNWESENTLICH)
vorkommen. Und schließlich
entspricht der Parameter cw-SigHeader
Wörtern,
die in MAIL HEADER/SIGNIFICANT-Blöcken (SENDEKOPF/WESENTLICH)
vorkommen.
-
Nach
Summieren aller auf Basis dieser Parameter für ein Wort erhaltenen Punkte
wird dieser Gesamtwert mit dem Parameter cw-MinPoints verglichen.
Bei der bevorzugten Ausführungsart
beträgt der
Standardwert für
cw-MinPoints 3, obwohl dieser Wert durch einen Benutzer oder Systemadministrator geändert oder
auf einen anderen Standardwert gesetzt werden kann. Wenn das Wort
den Schwellenwert cw-MinPoints nicht erreicht, wird seiner Wichtigkeit
der wert von cw-InfreqSig zugewiesen. Bei der bevorzugten Ausführungsart
ist der Standardwert von cw-InfrequSig gleich 0, obwohl dieser Wert
durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen
Standardwert gesetzt werden kann. Wenn die Mindestpunktzahl erreicht
wurde, wird die den Mindestwert übersteigende
Punktzahl mit dem Wert cw-Factor multipliziert und das Ergebnis
zu dem wert cw-BaseValue addiert. Bei der bevorzugten Ausführungsart
ist der Standardwert von cw-Factor gleich 1 und der Standardwert
von cw-BaseValue gleich 0, obwohl diese Werte durch einen Benutzer
oder Systemadministrator geändert
oder auf einen anderen Standardwert gesetzt werden können. Der
sich aus den obigen Berechnungen ergebende Wert ergibt die Wichtigkeit
für dieses
Wort.
-
Man
beachte, dass der obige Prozess mit einem Wort nicht durchgeführt wird,
wenn sich dieses bestimmte Wort in der STOP-Liste (ständig INSIGNIFICANT)
befindet und der Befehl NOSTOPLIST nicht aktiv ist. Wenn der Befehl
NOSTOPLIST nicht aktiv ist und ein Wort in der STOP-Liste enthalten
ist, wird dem Wort sofort ein Wichtigkeitswert von cw-StopSig zugewiesen.
Der Standardwert von cw-StopSig ist vorzugsweise gleich null.
-
Als
Nächstes
wird der Befehl ABBREV (ABKÜRZEN)
erörtert.
Dieser Befehl bewirkt wie oben beschrieben, dass der Dokumenttext
vor dem Speichern im Puffer 25 abgekürzt wird. Der Prozess wird durch
fünf Parameter
gesteuert. Der erste Parameter ist ab-UseDict. Wenn dieser Parameter
wahr ist (Standardeinstellung), wird aus einer vorzugsweise abbrev.txt
genannten Datei eine Abkürzungstabelle gelesen.
Jedes Wort des Dokumentes, das in dieser Abkürzungstabelle vorkommt, wird
durch die entsprechende in der Tabelle enthaltene Abkürzung ersetzt.
Bei einer bevorzugten Ausführungsart
enthält jede
Zeile von abbrev.txt zwei Wörter.
Das erste Wort ist das ursprüngliche
Wort und das zweite Wort dessen entsprechende Abkürzung. Bei
einer bevorzugten Ausführungsart
ersetzt die Textzusammenfassungseinheit 90, wenn der Ersatz
vorgenommen wird, das ursprüngliche,
nicht abgekürzte
Wort durch das Ersatzwort.
-
Ein
weiteres wünschenswertes
Merkmal der Funktion ABBREV besteht darin, dass Ausdrücke abgekürzt werden
können
(d. h., eine Abkürzung
ersetzt mehr als ein Wort). Zum Beispiel können in der Datei abbrev.txt
verschiedene Ausdrücke
wie beispielsweise „New
York" mit der entsprechenden
Abkürzung „NY" enthalten sein.
-
Der
zweite Parameter ist ab-DropVowels (Vokale weglassen). Wenn dieser
Parameter wahr (nicht der Standardwert) ist, wird jedes Wort, das
in der Datei abbrev.txt nicht für
eine Abkürzung
vorgesehen ist, in der zusammengefassten Mitteilung dadurch abgekürzt, dass
alle Vokale aus dem Wort entfernt werden. Der dritte Parameter ist
ab-DropFirstVowels (erste Vokale weglassen). Wenn dieser Parameter
wahr (nicht der Standardwert) ist, werden Vokale auch dann weggelassen,
wenn sie der erste Buchstabe in einem Wort sind, ansonsten bleiben
sie erhalten.
-
Der
vierte Parameter ist ab-TrimWhite (Leerzeichen reduzieren). Wenn
dieser Parameter wahr (der Standardwert) ist, werden mehrere Leerzeichen durch
ein einziges Leerzeichen ersetzt. Und schließlich ist der letzte Parameter
ab-TrimPunct (Interpunktionsleerzeichen reduzieren). Wenn dieser
Parameter wahr (nicht der Standardwert) ist, werden alle Leerzeichen
neben Interpunktionszeichen entfernt.
-
Als
Nächstes
wird der Befehl SORTCHUNKS (Blöcke
ordnen) erörtert.
Bei einer bevorzugten Ausführungsart
werden wie oben erörtert
die Blöcke
in dem zusammengefassten Dokument gegenüber dem ursprünglichen
Dokument nach ihrer Wichtigkeit neu geordnet. Bei einer bevorzugten
Ausführungsart
wird das zusammengefasste Dokument so geordnet, dass die wichtigsten
Blöcke
zuerst erscheinen. Die Wichtigkeit der Blöcke wird aus der Gesamtwichtigkeit
der in dem Block enthaltenen Wörter,
der Anzahl der Wörter
in dem Block sowie dem Typ und dem Untertyp des Blocks ermittelt.
Wenn ein Block weniger Wörter
als sc-MinLength besitzt, wird seine Wichtigkeit auf sc-ShortSig gesetzt.
Der bevorzugte Standardwert für
sc-MinLength ist 4, und der Standardwert für sc-ShortSig ist 0.
-
Nimmt
man an, dass ein Block den Schwellenwert sc-MinLength erreicht,
wird seine Wichtigkeit ausgehend von einem Wichtigkeitsgrundwert
ermittelt. Der zugewiesene Wichtigkeitsgrundwert wird anhand der
Blockposition ermittelt. Der Parameter sc-FirstInPar zeigt einen
Block an, der der erste Satz in einem Absatz ist, der Parameter
sc-LastInPar zeigt einen Block an, der der letzte Satz in einem
Absatz ist, der Parameter sc-OnlyInPar zeigt einen Block an, der
der einzige Satz eines Absatzes ist, und der Parameter sc-OtherInPar zeigt
einen Block an, der ein „mittlerer" Block in einem Absatz
ist. Die Standardwerte für
jeden dieser Parameter sind:
sc-FirstInPar = 0;
sc-LastInPar
= 0;
sc-OnlyInPar = 0; und
sc-OtherInPar = 0.
-
Wenn
der Befehl COUNTWORDS zuvor ausgeführt worden ist, wird außerdem die
Summe der Wichtigkeiten der in dem Block enthaltenen Wörter gebildet
und zu dem Wichtigkeitsgrundwert für den Block addiert, um den
Wichtigkeitsgesamtwert für
den Block zu erhalten. Jeder der Blöcke kann dann in der Reihenfolge
der Wichtigkeiten in den Ausgabepuffer 25 verschoben werden.
-
Ein
weiteres Merkmal, das im Zusammenfassungsprozess wünschenswert
ist, ist die Fähigkeit,
bestimmte Wörter
ganz zu entfernen (OMIT WORDS). In diesem Fall erscheinen die in
einer Datei (z. B. omitwds.txt) enthaltenen zu entfernenden Wörter überhaupt
nicht in dem zusammengefassten Text, selbst wenn sie in einem Block
vorkommen, der ansonsten wichtig genug ist, dass er in den Ausgabepuffer 25 verschoben
wird. Durch Entfernen dieser Wörter
kann in dem Ausgabepuffer 25 zusätzlicher Platz für weniger
wichtige Blöcke
geschaffen werden, die sonst nicht in den Ausgabepuffer 25 kämen.
-
Ein
weiteres Merkmal, das in der Textzusammenfassungseinheit 90 realisiert
werden kann, sind Klammerausdrücke.
Solche Ausdrücke
lassen sich verarbeiten, indem man den Gesamtwert für den Block
ermittelt, in dem der Klammerausdruck enthalten ist. Dies wird wie
oben erörtert
erreicht, indem man die Gesamtwichtigkeit aller in dem Block enthaltenen
Wörter
einschließlich
der in dem Klammerausdruck enthaltenen Wörter ermittelt. Dann wird die
Gesamtwichtigkeit des Blocks ohne die Wörter in dem Klammerausdruck
ermittelt. Es wird ein Differenzschwellenwert festgelegt, und wenn
die einzelnen Wichtigkeiten kleiner als der Schwellenwert sind, kann
der Klammerausdruck im zusammengefassten Text weggelassen werden,
da sich dann kein großer Unterschied
ergibt. Wenn jedoch die Differenz der Wichtigkeiten den Schwellenwert
erreicht oder übersteigt,
bleibt der Klammerausdruck erhalten.
-
In
den 4(a), 4(b) und 4(c) sind Beispiele von Befehlssätzen angegeben,
und die durch die Textzusammenfassungseinheit auf Basis der Befehlssätze ausgeführte Verarbeitung
wird beschrieben.
-
-
-
Der
Befehl TEXTONLY (NURTEXT) wird zum Entfernen aller Sendeköpfe und
Interpunktionszeilen verwendet. Nach dessen Ausführung ermittelt der Befehl
TRYFIT, ob das Dokument kurz genug ist. Man beachte, dass es keine
Rolle spielt, ob das Dokument bereits mit den Sendeköpfen kurz
genug war; die Länge
wird erst nach dem Entfernen der Sendeköpfe geprüft. Als Nächstes werden die Parameter ab-trimwhite
und ab-trimpunct auf wahr gesetzt, um die Vorbereitung für den späteren Befehl
ABBREV zu treffen.
-
Der
Befehl SAVE speichert alle Statusinformationen bis zum nächsten Befehl
RESTORE. Er wird hier verwendet, da es wünschenswert ist zu versuchen,
das Dokument abzukürzen,
bevor die Blöcke anhand
deren Wichtigkeit neu geordnet werden. Die Befehle SAVE und RESTORE
ermöglichen,
das Dokument abzukürzen
und dennoch in den nicht abgekürzten
Zustand zurückzukehren,
wenn sich herausstellt, dass das Dokument trotz des Abkürzens nicht in
den erforderlichen Speicherplatz passt. Man kann nicht ohne Verwendung
der Befehle SAVE und RESTORE abkürzen
und die Wichtigkeiten berechnen, da die abgekürzten Wörter wahrscheinlich nicht richtig erkannt
werden, wenn die Berechnung der Wichtigkeit erneut durchgeführt wird.
-
ChunkBegin
wird auf a* (für „nur abgekürzt") gesetzt, so dass
der übertragene
Text als Zeichen für den
Empfänger
des Dokuments am Anfang durch ein „a*" markiert wird, wenn das Abkürzen ausreicht, dass
das Dokument in den Speicherplatz passt. Wenn das Abkürzen allein
nicht ausreicht, wird ChunkBegin später auf „s*" gesetzt, um anzuzeigen, dass der Text
entsprechend der Wichtigkeit geordnet und ausgewählt wurde. Wenn man mit den
wichtigsten Blöcken
beginnt und mit den weniger wichtigen Blöcken fortfährt, kann es somit vorkommen,
dass einige der weniger wichtigen Blöcke von der Übertragung
ausgeschlossen werden, wenn der Puffer 25 mit wichtigeren
Blöcken
gefüllt
wird.
-
Der
Befehl ABBREV kürzt
dann den Text ab, und der Befehl TRYFIT prüft, ob das Dokument jetzt kurz
genug ist. Wenn dies der Fall ist, schreibt die Textzusammenfassungseinheit 90 den
Text in den Puffer 25, und die Mitteilung wird durch die
Funkübertragungseinheit 80 übertragen.
Ansonsten setzt die Textzusammenfassungseinheit 90 ihre
Arbeit mit dem Befehl RESTORE fort, der auf den früheren Status
SAVE, das heißt
vor dem Abkürzen,
zurücksetzt.
-
ChunkBegin
wird auf „s*" gesetzt, um anzuzeigen,
dass das Ordnen und Auswählen
erfolgt ist, und ChunkSep wird in eine Befehlskette eingebunden,
um dem Empfänger
der Mitteilung ferner anzuzeigen, dass Teile der Mitteilung neu
geordnet worden sind. Dann wird der Befehl COUNTWORDS ausgeführt, um
die Wichtigkeit der Wörter
und Blöcke
zu berechnen, und dann wird der Text anhand der Wichtigkeit der
Blöcke
neu geordnet. Abschließend
wird der Text durch den Befehl ABBREV ein wenig verkleinert, und
die Ausführung
der Befehle wird abgeschlossen. Die Textzusammenfassungseinheit 90 schreibt dann
den Text, sofern er für
die Übertragung durch
die Funkübertragungseinheit 80 geeignet
ist, in den Puffer 25.
-
Durch
eine alternative bevorzugte Ausführungsart
ist auch eine noch weitere Komprimierung des Dokumentgröße möglich. Bei
einer solchen alternativen bevorzugten Ausführungsart werden alle oben
beschriebenen Verarbeitungsschritte durchgeführt. Insbesondere können das
Abkürzen,
das Neuordnen der Blöcke
und das Entfernen der Sendeköpfe
durchgeführt
werden. Außerdem
wird bei dieser alternativen bevorzugten Ausführungsart eine zusätzliche
Komprimierung des Dokuments erreicht, indem ausgewählte Wörter aus
dem Dokument entfernt werden. Dies kann entweder vor oder nach dem
obigen Prozess geschehen. Zum Beispiel können vor dem Abkürzungsschritt
und/oder vor dem Neuordnen der Blöcke relativ unbedeutende Wörter entfernt
werden. Alternativ können
nach dem Abkürzungsschritt und/oder
vor dem Neuordnen der Blöcke
relativ unbedeutende Wörter
entfernt werden.
-
Bei
dieser Ausführungsart
wird der Befehl COUNTWORDS zu einem wünschenswerten Zeitpunkt innerhalb
des Befehlsscripts ausgeführt.
Die Ausführung
des Befehls COUNTWORDS hat so zu erfolgen, dass jedem Wort in dem
Dokument ein Wichtigkeitswert zugewiesen werden kann. wenn dies
erfolgt ist, können
Wörter
mit einem Wichtigkeitswert unterhalb eines bestimmten vorgegebenen Schwellenwertes
aus der zusammengefassten Mitteilung entfernt werden. Wenn das Neuordnen
der Blöcke
vor dem Entfernen von Wörtern
erfolgt, können
Wörter
während
der Entfernungsphase auf Basis ihrer relativ hohen Wichtigkeit ausgewählt werden, damit
sie in der zusammengefassten Mitteilung verbleiben. Wenn zum Beispiel
der verfügbar
Speicherplatz 80 Zeichen umfasst und nach dem Neuordnen der Blöcke (und
eventuell nach dem Abkürzungsschritt)
alle Wörter 90 Zeichen
umfassen, können
anstelle des unwichtigsten Blocks Wörter bis zu einem Umfang von
insgesamt zehn Zeichen aus der Mitteilung entfernt werden. Die entfernten
Wörter
können von
mehreren Blöcken
stammen. Durch Entfernen der unwichtigen Wörter kann es sich erübrigen,
den unwichtigsten Block insgesamt zu entfernen.
-
Die
Erfindung ist in Verbindung mit den bevorzugten Ausführungsarten
eingehend beschrieben worden. Diese Ausführungsarten stellen jedoch
lediglich ein Beispiel dar, und die Erfindung ist nicht darauf beschränkt. Dem
Fachmann ist klar, dass im Rahmen des durch die beigefügten Ansprüche definierten
Geltungsbereichs der vorliegenden Erfindung weitere Abwandlungen
und Änderungen
einfach vorgenommen werden können.
-
der
Empfängerseite
der Mitteilung (d. h. des Teilnehmers „An:") zu ermitteln. Die Textzusammenfassungseinheit 90 kann
dann alle weiteren Wörter
in MAIL HERDERn, die den Namen des Teilnehmers „An:" (und eventuell den darauf folgenden
TEXT) enthalten, als unwichtig klassifizieren. Diese Operation beruht
auf der Annahme, dass der Empfänger
der vorliegenden zusammengefassten Mitteilung die vorige Mitteilung
(als Absender oder Empfänger)
zuvor bereits gesehen hat, da sein Name in einem „Sekundär"-MAIL HEADER erscheint.
Bei verschiedenen alternativen Ausführungsarten kann der Name des Teilnehmers „Von:" eine Anzeige auslösen, dass
die folgenden Wörter
unwichtig sind, oder das Vorliegen eines Teilnehmers „Von:" oder „An:" in einem Sekundär-MAIL HEADER
kann zu der Festlegung verwendet werden, dass alle Wörter in
einem MAIL HEADER und/oder in dem darauf folgenden TEXT unwichtig
sind. Die Behandlung unwichtiger Wörter wird im Folgenden eingehend
erörtert.
-
Nachdem
die Mitteilung in dem Prozess in Blöcke aufgeteilt worden ist und
die Blöcke
nach ihrem Typ und Untertyp markiert wurden, führt die Textzusammenfassungseinheit 90 seriell
die ihr zur Verfügung
stehenden Befehle aus. Befehle können
der Textzusammenfassungseinheit 90 interaktiv erteilt werden
oder zur Ausführung
im Stapelbetrieb in einer Datei enthalten sein. Befehle bestehen
aus Einzelwörtern,
die durch ein Leerzeichen voneinander getrennt sind. Parameterzuordnungen
bestehen aus einem Namen und einem Wert, die durch ein Gleichheitszeichen
voneinander getrennt sind. Zum Beispiel zeigt der Befehl:
ChunkBegin
= A*
einen Einzelbefehl an, der dem Zeichenfolgenparameter
ChunkBegin den Wert A* zuordnet. Bei einer bevorzugten Ausführungsart
sind alle Befehle und Parameternamen fallunabhängig, wobei dies auf die Parameterwerte
jedoch nicht zutrifft. Boolesche Parametern können die Werte „wahr", „falsch", „ja", „nein", „0" oder „1" zugewiesen werden.
Wenn ein Boolescher Parameter einen Namen, aber keinen Wert zugewiesen
erhält,
entspricht dies dem Wert „wahr".
-
Nachdem
alle Befehle ausgeführt
worden sind oder (durch einen Befehl TRYFIT (GRÖSSE PRÜFEN), siehe unten) festgestellt
wurde, dass die Mitteilung beim derzeitigen Verarbeitungsstand die Bedingung
der Maximallänge
erfüllt,
wird der zusammengefasste Text in den Puffer 25 geschrieben.
Zuerst wird der wert des Zeichenfolgenparameters ChunkBegin in den
Puffer 25 geschrieben. Der Parameter ChunkBegin zeigt den
Anfang eines Blocks an, wie er im Puffer 25 erscheint.
Bei einer bevorzugten Ausführungsart
kann der Parameter ChunkBegin in der der Textzusammenfassungseinheit 90 zur
Verfügung
stehenden Befehlsfolge geändert
werden, so dass der Empfänger
der Mitteilung erfährt,
wie stark und auf welche Weise das ursprüngliche Dokument zusammengefasst
wurde. Wenn festgestellt wird, dass die Blöcke so verarbeitet worden sind,
dass sie für
die Ausgabe bereit sind, wird jeder Block mit dem Wert des zwischen
je zwei Blöcken
geschriebenen Zeichenfolgenparameters ChunkSep in den Puffer 25 geschrieben.
Bei einer bevorzugten Ausführungsart
wird für
das ChunkSep-Zeichen
ein Leerzeichen („ ") gesetzt. Alternativ
können
andere Zeichen verwendet oder der Wert durch den Benutzer gesetzt
werden. Nachdem alle Blöcke
in den Puffer 25 geschrieben worden sind, wird abschließend der
Zeichenfolgeparameter ChunkEnd geschrieben. Der Parameter ChunkEnd
zeigt das Ende der in dem Puffer 25 erscheinenden Mitteilung
an.
-
Bei
der bevorzugten Ausführungsart
werden sowohl für
ChunkBegin als auch für
ChunkEnd leere Zeichenfolgen als Standardwerte vorgegeben. Der Standardwert
für ChunkSep
ist ein einzelnes Leerzeichen. Durch Befehle kann diesen Variablen
ein beliebiger Zeichenfolgenwert zugewiesen werden, da der wert
jedoch durch Leerzeichen begrenzt wird, darf er kein Leerzeichen
enthalten. Der Zeichenfolgenparameter ChunkSep wird einer speziellen
Behandlung unterworfen: Die Werte „Leerzeichen", „lf" und „crlf" können zum
Anzeigen eines einzelnen Leerzeichens, eines Zeilenvorschubs bzw.
eines Zeilenvorschubs mit gleichzeitigem Rücklauf verwendet werden.
-
Die
Textzusammenfassungseinheit 90 fungiert wie oben beschrieben
gemäß einer
Liste von Befehlen, die sie entweder interaktiv über das Befehlsterminal 45 oder über eine
Stapeldatei erhält. Die
Lehren der vorliegenden Erfindung werden dem Fachmann durch die
Beschreibung der einzelnen für die
Funktion der Textzusammenfassungseinheit 90 verfügbaren Befehle
verständlich.
Eine solche Auslistung und Beschreibung der bei der bevorzugten Ausführungsart
der vorliegenden Erfindung verfügbaren
Befehle folgt nun.
-
Befehl: TEXTONLY (NURTEXT)
-
Dieser
Befehl löscht
alle Nicht-TEXT-Blöcke aus
dem Dokument. Daraus folgt, dass alle nachfolgenden durch die Textzusammenfassungseinheit 90 ausgeführten Operationen
mit der Mitteilung nur die verbleibenden TEXT-Blöcke betreffen.
-
Befehl: COUNTWORDS (WÖRTERZÄHLEN)
-
Die
Wörter
in dem Dokument werden gezählt und
die Wichtigkeit jedes Wortes ermittelt. Die Wichtigkeit eines Wortes
hängt von
einer Anzahl im Folgenden beschriebener Faktoren ab.
-
Befehl: SAVE (SPEICHERN)
-
Dieser
Befehl kann zum Speichern des aktuellen Status der Textzusammenfassungseinheit 90 verwendet
werden. Die gespeicherte Information beinhaltet die gesamte zusammenzufassende
Textinformation (d. h. das Dokument) und die Werte aller gewählten Parameter
sowie die Anzahl der Wörter
im Text. Außerdem
können
Wörterverzeichnisse
gespeichert werden, die STOP-Wörter
(HALT) und/oder INSIGNIFICANT-Wörter
anzeigen. Die Information wird gespeichert, indem sie in einem vorbestimmten
Format auf einen Stapel geschoben wird. Die Statusinformation SAVEd
(GESPEICHERT) kann mittels des nachfolgenden Befehls „RESTORE" (WIEDERHERSTELLEN)
wiederhergestellt werden.
-
Befehl: RESTORE (WIEDERHERSTELLEN)
-
Dieser
Befehl bewirkt das Löschen
des aktuellen Status der Textzusammenfassungseinheit 90 und
stellt den Status SAVEd (GESPEICHERT) am oberen Stapelende wieder
her. Bei einer bevorzugten Ausführungsart
wird der Stapel geöffnet,
wenn RESTORE aktiviert wird. Somit kann ein Status SAVEd nur einmal
wiederhergestellt werden, obwohl nach dem RESTORE sofort wieder
GESPEICHERT werden kann. Wenn der Stapel leer ist, ist der Befehl
RESTORE wirkungslos.
-
Befehl: TRYFIT (GRÖSSEPRÜFEN)
-
Dieser
Befehl ermittelt, ob das Dokument beim derzeitigen Verarbeitungsstand
in den maximal zugewiesenen Speicherplatz passt. Wenn dies der Fall
ist, wird das gesamte Dokument in den Ausgabepuffer 25 geschrieben.
Zu diesem Zeitpunkt werden alle übrigen
Befehle ignoriert. Außerdem
kann der zusammengefasste Text nach der Speicherung im Ausgabepuffer 25 durch
die Funkübertragungseinheit 80 übertragen
werden.
-
Beim
Ermitteln, ob das Dokument in den maximal zugewiesenen Speicherplatz
passt, berücksichtigt
TRYFIT die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd. Als
Beispiel werde angenommen, dass der Pagerspeicher ebenso wie der Ausgabepuffer 25 80
Zeichen enthält.
Da die Mitteilung bei der Übertragung
die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd enthält, darf
der eigentliche Text zusammen mit diesen Zeichenfolgen den Umfang
von 80 Zeichen nicht übersteigen.
Wenn also beispielsweise eine zusammengefasste Mitteilung eine Zeichenfolge
ChunkBegin und 5 Zeichenfolgen ChunkSep enthält, die jeweils ein Einzelzeichen
umfassen, verbleiben für
den eigentlichen Mitteilungstext nur noch 74 Zeichen. In diesem
Fall begrenzt der Befehl TRYFIT den Text auf 74 Zeichen.
-
Befehl: ABBREV (ABKÜRZEN)
-
Dieser
Befehl dient dem Abkürzen
des Dokumenttextes. Der Prozess wird durch fünf im Folgenden erörterter
Parameter gesteuert.
-
Befehl: SORTCHUNKS (BLÖCKESORTIEREN)
-
Wenn
dieser Befehl ausgeführt
wird, werden die Blöcke
des Dokuments entsprechend ihrer Wichtigkeit sortiert. Die Wichtigkeit
eines Blocks basiert auf einer Reihe von Faktoren, darunter die
Wichtigkeit der Wörter
in dem Block, die Anzahl von Wörtern in
dem Block sowie die Art und die Position des Blocks. Die Ausführung dieses
Befehls wird im Folgenden eingehend beschrieben.
-
Befehl: NOSTOPLIST (KEINEHALTLISTE)
-
Dieser
Befehl setzt die Verwendung der STOP-Liste außer Kraft, welche diejenigen
Wörter enthält, die
durch einen Benutzer oder den Systemadministrator als ständig INSIGNIFICANT
eingestuft wurden. Diese Wörter
sind von der Berechnung der Wichtigkeit ausgeschlossen, wie im Folgenden
erklärt
wird. Zu den in der STOP-Liste enthaltenen Wörtern gehören beispielsweise „der", „und" und „von". Die STOP-Liste
wird aus einer Datei (vorzugsweise aus der Datei stoplist.txt) gelesen,
die eine formlose Liste von STOP-Wörtern enthält.
-
Befehl: NOSIGLIST (KEINEWICHTIGKEITSLISTE)
-
Dieser
Befehl setzt die Verwendung der Liste wichtiger Wörter (SIGNIFICANT)
außer
Kraft, welche diejenigen Wörter
enthält,
die als ständig
wichtig (SIGNIFICANT) angesehen werden. Zu solchen Wörtern gehören beispielsweise „dringend", „wichtig" und „Vorrang". Die Wortliste SIGNIFICANT
dient standardmäßig dazu,
während
der Berechnung der Wichtigkeit die Wichtigkeit dieser Wörter hervorzuheben. Die
Wortliste SIGNIFICANT ist vorzugsweise in einer Datei mit der Bezeichnung
siglist.txt enthalten, welche eine formlose Liste durch einen Benutzer
oder einen Systemadministrator gewählter wichtiger Wörter darstellt.
-
Nachdem
die Bedeutung der obigen Befehle bekannt ist, wird nun die Textzusammenfassungseinheit 90 gemäß einer
bevorzugten Ausführungsart
der vorliegenden Erfindung beschrieben.
-
Zuerst
wird wie oben beschrieben ein Dokument verarbeitet, indem es in
Blöcke
eingeteilt wird. Nach dem Einteilen in Blöcke kann ein Befehl COUNTWORDS
(WÖRTERZÄHLEN) ausgeführt werden.
Es gibt sechs Kombinationen von Blocktyp/-untertyp, in denen Wörter auftreten
können:
- 1) MAIL HEADER/INSIGNIFICANT
- 2) MAIL HEADER/INSIGNIFICANT
- 3) TEXT/FIRST
- 4) TEXT/LAST
- 5) TEXT/ONLY
- 6) TEXT/OTHER
-
Diese
Kombinationen stellen alle Blocktypen und -untertypen außer dem
Blocktyp PUNCTUATION dar. Somit würde ein Befehl COUNTWORDS alle Blöcke mit
einer der obigen sechs Kombinationen von Blocktyp/-untertyp aufteilen.
Bei einer bevorzugten Ausführungsart
ist ein Befehl TEXTONLY (NURTEXT) enthalten, so dass alle PUNCTUATION-Daten sofort
entfernt werden. Da die Blöcke
als Reaktion auf den Befehl COUNTWORDS aufgeteilt werden, wird für jedes
in dem Dokument auftauchende Wort dessen Wichtigkeit ermittelt.
Dies ist, wie später
erörtert
wird, sowohl für
das Ordnen der Blöcke
als auch für
das Entfernen bestimmter Wörter
aus der Mitteilung vor der Übertragung
erforderlich.
-
Die
Wichtigkeit der Wörter
wird anhand der folgenden sechs Parameter ermittelt:
- 1) cw-FirstInPar;
- 2) cw-LastInPar;
- 3) cw-OnlyInPar;
- 4) cw-OtherInPar;
- 5) cw-Header; und
- 6) cw-SigHeader.
-
Jedem
der Parameter wird ein Standardwert zugewiesen, obwohl dieser Wert
durch einen Benutzer und/oder Systemadministrator geändert werden kann.
Bei der bevorzugten Ausführungsart
werden die folgenden Standardwerte verwendet:
cw-FirstInPar
= 2;
cw-LastInPar = 2;
cw-OnlyInPar = 2;
cw-OtherInPar
= 1;
cw-Header = 0; und
cw-SigHeader = 3.
-
Jedes
Mal, wenn ein bestimmtes Wort an einer Stelle erscheint, die einem
der obigen Parameter entspricht, werden diesem Wort auf Basis des
zugeordneten Parameterwerts „Punkte" zugeordnet. Zum Beispiel
erhält
jedes Mal, wenn das Wort „FOOTBALL" (FUSSBALL) in einem
Block erscheint, der der erste Block in einem Absatz ist (FirstInPar),
das Wort „FOOTBALL" zwei Punkte (ausgehend
von den obigen Standardwerten). Jedes weitere Auftreten des Wortes „FOOTBALL" führt auf
Basis seiner Stellung in einem anderen Block zu einigen weiteren
Punkten. Der Parameter cw-OtherInPar entspricht Wörtern, die
in TEXT-Blöcken vorkommen,
welche weder die ersten noch die letzten Sätze in einem Absatz sind. Der
Parameter cw-OnlyInPar entspricht Wörtern, die in Blöcken vorkommen,
welche den einzigen Satz eines bestimmten Absatzes ausmachen. Der
Parameter cw-Header entspricht Wörtern,
die in MAIL HEADER/INSIGNIFICANT-Blöcken (SENDEKOPF/UNWESENTLICH)
vorkommen. Und schließlich
entspricht der Parameter cw-SigHeader
Wörtern,
die in MAIL HEADER/SIGNIFICANT-Blöcken (SENDEKOPF/WESENTLICH)
vorkommen.
-
Nach
Summieren aller auf Basis dieser Parameter für ein Wort erhaltenen Punkte
wird dieser Gesamtwert mit dem Parameter cw-MinPoints verglichen.
Bei der bevorzugten Ausführungsart
beträgt der
Standardwert für
cw-MinPoints 3, obwohl dieser Wert durch einen Benutzer oder Systemadministrator geändert oder
auf einen anderen Standardwert gesetzt werden kann. Wenn das Wort
den Schwellenwert cw-MinPoints nicht erreicht, wird seiner Wichtigkeit
der Wert von cw-InfreqSig zugewiesen. Bei der bevorzugten Ausführungsart
ist der Standardwert von cw-InfrequSig gleich 0, obwohl dieser Wert
durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen
Standardwert gesetzt werden kann. Wenn die Mindestpunktzahl erreicht
wurde, wird die den Mindestwert übersteigende
Punktzahl mit dem Wert cw-Factor multipliziert und das Ergebnis
zu dem Wert cw-BaseValue addiert. Bei der bevorzugten Ausführungsart
ist der Standardwert von cw-Factor gleich 1 und der Standardwert
von cw-BaseValue gleich 0, obwohl diese Werte durch einen Benutzer
oder Systemadministrator geändert
oder auf einen anderen Standardwert gesetzt werden können. Der
sich aus den obigen Berechnungen ergebende Wert ergibt die Wichtigkeit
für dieses
Wort.
-
Man
beachte, dass der obige Prozess mit diesem Wort nicht durchgeführt wird,
wenn sich ein bestimmtes Wort in der STOP-Liste (ständig INSIGNIFICANT) befindet
und der Befehl NOSTOPLIST nicht aktiv ist. Wenn der Befehl NOSTOPLIST
nicht aktiv ist und ein Wort in der STOP-Liste enthalten ist, wird
dem Wort sofort ein Wichtigkeitswert von cw-StopSig zugewiesen.
Der Standardwert von cw-StopSig ist vorzugsweise gleich null.
-
Als
Nächstes
wird der Befehl ABBREV (ABKÜRZEN)
erörtert.
Dieser Befehl bewirkt wie oben beschrieben, dass der Dokumenttext
vor dem Speichern im Puffer 25 abgekürzt wird. Der Prozess wird durch
fünf Parameter
gesteuert. Der erste Parameter ist ab-UseDict. Wenn dieser Parameter
wahr ist (Standardeinstellung), wird aus einer vorzugsweise abbrev.txt
genannten Datei eine Abkürzungstabelle gelesen.
Jedes Wort des Dokumentes, das in dieser Abkürzungstabelle vorkommt, wird
durch die entsprechende in der Tabelle enthaltene Abkürzung ersetzt.
Bei einer bevorzugten Ausführungsart
enthält jede Zeile
von abbrev.txt zwei Wörter.
Das erste Wort ist das ursprüngliche
Wort und das zweite Wort dessen entsprechende Abkürzung. Bei
einer bevorzugten Ausführungsart
ersetzt die Textzusammenfassungseinheit 90, wenn der Ersatz
vorgenommen wird, das ursprüngliche,
nicht abgekürzte
Wort durch das Ersatzwort.
-
Ein
weiteres wünschenswertes
Merkmal der Funktion ABBREV besteht darin, dass Ausdrücke abgekürzt werden
können
(d. h., eine Abkürzung
ersetzt mehr als ein Wort). Zum Beispiel können in der Datei abbrev.txt
verschiedene Ausdrücke
wie beispielsweise „New
York" mit der entsprechenden
Abkürzung „NY" enthalten sein.
-
Der
zweite Parameter ist ab-DropVowels (Vokale weglassen). Wenn dieser
Parameter wahr (nicht der Standardwert) ist, wird jedes Wort, das
in der Datei abbrev.txt nicht für
eine Abkürzung
vorgesehen ist, in der zusammengefassten Mitteilung dadurch abgekürzt, dass
alle Vokale aus dem Wort entfernt werden. Der dritte Parameter ist
ab-DropFirstVowels (erste Vokale weglassen). Wenn dieser Parameter
wahr (nicht der Standardwert) ist, werden Vokale auch dann weggelassen,
wenn sie der erste Buchstabe in einem Wort sind, ansonsten bleiben
sie erhalten.
-
Der
vierte Parameter ist ab-TrimWhite (Leerzeichen reduzieren). Wenn
dieser Parameter wahr (der Standardwert) ist, werden mehrere Leerzeichen durch
ein einziges Leerzeichen ersetzt. Und schließlich ist der letzte Parameter
ab-TrimPunct (Interpunktionsleerzeichen reduzieren). Wenn dieser
Parameter wahr (nicht der Standardwert) ist, werden alle Leerzeichen
neben Interpunktionszeichen entfernt.
-
Als
Nächstes
wird der Befehl SORTCHUNKS (Blöcke
ordnen) erörtert.
Bei einer bevorzugten Ausführungsart
werden wie oben erörtert
die Blöcke
in dem zusammengefassten Dokument gegenüber dem ursprünglichen
Dokument nach ihrer Wichtigkeit neu geordnet. Bei einer bevorzugten
Ausführungsart
wird das zusammengefasste Dokument so geordnet, dass die wichtigsten
Blöcke
zuerst erscheinen. Die Wichtigkeit der Blöcke wird aus der Gesamtwichtigkeit
der in dem Block enthaltenen Wörter,
der Anzahl der Wörter
in dem Block sowie dem Typ und dem Untertyp des Blocks ermittelt.
Wenn ein Block weniger Wörter
als sc-MinLength besitzt, wird seine Wichtigkeit auf sc-ShortSig
gesetzt. Der bevorzugte Standardwert für sc-MinLength ist 4, und der
Standardwert für
sc-ShortSig ist 0.
-
Nimmt
man an, dass ein Block den Schwellenwert sc-MinLength erreicht,
wird seine Wichtigkeit ausgehend von einem Wichtigkeitsgrundwert
ermittelt. Der zugewiesene Wichtigkeitsgrundwert wird anhand der
Blockposition ermittelt. Der Parameter sc-FirstInPar zeigt einen
Block an, der der erste Satz in einem Absatz ist, der Parameter
sc-LastInPar zeigt einen Block an, der der letzte Satz in einem
Absatz ist, der Parameter sc-OnlyInPar zeigt einen Block an, der
der einzige Satz eines Absatzes ist, und der Parameter sc-OtherInPar zeigt
einen Block an, der ein „mittlerer" Block in einem Absatz
ist. Die Standardwerte für
jeden dieser Parameter sind:
sc-FirstInPar = 0;
sc-LastInPar
= 0;
sc-OnlyInPar = 0; und
sc-OtherInPar = 0.
-
Wenn
der Befehl COUNTWORDS zuvor ausgeführt worden ist, wird außerdem die
Summe der Wichtigkeiten der in dem Block enthaltenen Wörter gebildet
und zu dem Wichtigkeitsgrundwert für den Block addiert, um den
Wichtigkeitsgesamtwert für
den Block zu erhalten. Jeder der Blöcke kann dann in der Reihenfolge
der Wichtigkeiten in den Ausgabepuffer 25 verschoben werden.
-
Ein
weiteres Merkmal, das im Zusammenfassungsprozess wünschenswert
ist, ist die Fähigkeit,
bestimmte Wörter
ganz zu entfernen (OMIT WORDS). In diesem Fall erscheinen die in
einer Datei (z. B. omitwds.txt) enthaltenen zu entfernenden Wörter überhaupt
nicht in dem zusammengefassten Text, selbst wenn sie in einem Block
vorkommen, der ansonsten wichtig genug ist, dass er in den Ausgabepuffer 25 verschoben
wird. Durch Entfernen dieser Wörter
kann in dem Ausgabepuffer 25 zusätzlicher Platz für weniger
wichtige Blöcke
geschaffen werden, die sonst nicht in den Ausgabepuffer 25 kämen.
-
Ein
weiteres Merkmal, das in der Textzusammenfassungseinheit 90 realisiert
werden kann, sind Klammerausdrücke.
Solche Ausdrücke
lassen sich verarbeiten, indem man den Gesamtwert für den Block
ermittelt, in dem der Klammerausdruck enthalten ist. Dies wird wie
oben erörtert
erreicht, indem man die Gesamtwichtigkeit aller in dem Block enthaltenen
Wörter
einschließlich
der in dem Klammerausdruck enthaltenen Wörter ermittelt. Dann wird die
Gesamtwichtigkeit des Blocks ohne die Wörter in dem Klammerausdruck
ermittelt. Es wird ein Differenzschwellenwert festgelegt, und wenn
die einzelnen Wichtigkeiten kleiner als der Schwellenwert sind, kann
der Klammerausdruck im zusammengefassten Text weggelassen werden,
da sich dann kein großer Unterschied
ergibt. Wenn jedoch die Differenz der Wichtigkeiten den Schwellenwert
erreicht oder übersteigt,
bleibt der Klammerausdruck erhalten.
-
In
den 4(a), 4(b) und 4(c) sind Beispiele von Befehlssätzen angegeben,
und die durch die Textzusammenfassungseinheit auf Basis der Befehlssätze ausgeführte Verarbeitung
wird beschrieben.
-
-
Der
Befehl TEXTONLY (NURTEXT) wird zum Entfernen aller Sendeköpfe und
Interpunktionszeilen verwendet. Nach dessen Ausführung ermittelt der Befehl
TRYFIT, ob das Dokument kurz genug ist. Man beachte, dass es keine
Rolle spielt, ob das Dokument bereits mit den Sendeköpfen kurz
genug war; die Länge
wird erst nach dem Entfernen der Sendeköpfe geprüft. Als Nächstes werden die Parameter ab-trimwhite
und ab-trimpunct auf wahr gesetzt, um die Vorbereitung für den späteren Befehl
ABBREV zu treffen.
-
Der
Befehl SAVE speichert alle Statusinformationen bis zum nächsten Befehl
RESTORE. Er wird hier verwendet, da es wünschenswert ist zu versuchen,
das Dokument abzukürzen,
bevor die Blöcke anhand
deren Wichtigkeit neu geordnet werden. Die Befehle SAVE und RESTORE
ermöglichen,
das Dokument abzukürzen
und dennoch in den nicht abgekürzten
Zustand zurückzukehren,
wenn sich herausstellt, dass das Dokument trotz des Abkürzens nicht in
den erforderlichen Speicherplatz passt. Man kann nicht ohne Verwendung
der Befehle SAVE und RESTORE abkürzen
und die Wichtigkeiten berechnen, da die abgekürzten Wörter wahrscheinlich nicht richtig erkannt
werden, wenn die Berechnung der Wichtigkeit erneut durchgeführt wird.
-
ChunkBegin
wird auf a* (für „nur abgekürzt") gesetzt, so dass
der übertragene
Text als Zeichen für den
Empfänger
des Dokuments am Anfang durch ein „a*" markiert wird, wenn das Abkürzen ausreicht, dass
das Dokument in den Speicherplatz passt. Wenn das Abkürzen allein
nicht ausreicht, wird ChunkBegin später auf „s*" gesetzt, um anzuzeigen, dass der Text
entsprechend der Wichtigkeit geordnet und ausgewählt wurde. Wenn man mit den
wichtigsten Blöcken
beginnt und mit den weniger wichtigen Blöcken fortfährt, kann es somit vorkommen,
dass einige der weniger wichtigen Blöcke von der Übertragung
ausgeschlossen werden, wenn der Puffer 25 mit wichtigeren
Blöcken
gefüllt
wird.
-
Der
Befehl ABBREV kürzt
dann den Text ab, und der Befehl TRYFIT prüft, ob das Dokument jetzt kurz
genug ist. Wenn dies der Fall ist, schreibt die Textzusammenfassungseinheit 90 den
Text in den Puffer 25, und die Mitteilung wird durch die
Funkübertragungseinheit 80 übertragen.
Ansonsten setzt die Textzusammenfassungseinheit 90 ihre
Arbeit mit dem Befehl RESTORE fort, der auf den früheren Status
SAVE, das heißt
vor dem Abkürzen,
zurücksetzt.
-
ChunkBegin
wird auf „s*" gesetzt, um anzuzeigen,
dass das Ordnen und Auswählen
erfolgt ist, und ChunkSep wird in eine Befehlskette eingebunden,
um dem Empfänger
der Mitteilung ferner anzuzeigen, dass Teile der Mitteilung neu
geordnet worden sind. Dann wird der Befehl COUNTWORDS ausgeführt, um
die Wichtigkeit der Wörter
und Blöcke
zu berechnen, und dann wird der Text anhand der Wichtigkeit der
Blöcke
neu geordnet. Abschließend
wird der Text durch den Befehl ABBREV ein wenig verkleinert, und
die Ausführung
der Befehle wird abgeschlossen. Die Textzusammenfassungseinheit 90 schreibt
dann den Text, sofern er für
die Übertragung durch
die Funkübertragungseinheit 80 geeignet
ist, in den Puffer 25.
-
Durch
eine alternative bevorzugte Ausführungsart
ist auch eine noch weitere Komprimierung des Dokumentgröße möglich. Bei
einer solchen alternativen bevorzugten Ausführungsart werden alle oben
beschriebenen Verarbeitungsschritte durchgeführt. Insbesondere können das
Abkürzen,
das Neuordnen der Blöcke
und das Entfernen der Sendeköpfe
durchgeführt
werden. Außerdem
wird bei dieser alternativen bevorzugten Ausführungsart eine zusätzliche
Komprimierung des Dokuments erreicht, indem ausgewählte Wörter aus
dem Dokument entfernt werden. Dies kann entweder vor oder nach dem
obigen Prozess geschehen. Zum Beispiel können vor dem Abkürzungsschritt
und/oder vor dem Neuordnen der Blöcke relativ unbedeutende Wörter entfernt
werden. Alternativ können
nach dem Abkürzungsschritt und/oder
vor dem Neuordnen der Blöcke
relativ unbedeutende Wörter
entfernt werden.
-
Bei
dieser Ausführungsart
wird der Befehl COUNTWORDS zu einem wünschenswerten Zeitpunkt innerhalb
des Befehlsscripts ausgeführt.
Die Ausführung
des Befehls COUNTWORDS hat so zu erfolgen, dass jedem Wort in dem
Dokument ein Wichtigkeitswert zugewiesen werden kann. Wenn dies
erfolgt ist, können
Wörter
mit einem Wichtigkeitswert unterhalb eines bestimmten vorgegebenen Schwellenwertes
aus der zusammengefassten Mitteilung entfernt werden. Wenn das Neuordnen
der Blöcke
vor dem Entfernen von Wörtern
erfolgt, können
Wörter
während
der Entfernungsphase auf Basis ihrer relativ hohen Wichtigkeit ausgewählt werden, damit
sie in der zusammengefassten Mitteilung verbleiben. Wenn zum Beispiel
der verfügbare
Speicherplatz 80 Zeichen umfasst und nach dem Neuordnen der Blöcke (und
eventuell nach dem Abkürzungsschritt)
alle Wörter
90 Zeichen umfassen, können
anstelle des unwichtigsten Blocks Wörter bis zu einem Umfang von
insgesamt zehn Zeichen aus der Mitteilung entfernt werden. Die entfernten
Wörter
können von
mehreren Blöcken
stammen. Durch Entfernen der unwichtigen Wörter kann es sich erübrigen,
den unwichtigsten Block insgesamt zu entfernen.
-
Die
Erfindung ist in Verbindung mit den bevorzugten Ausführungsarten
eingehend beschrieben worden. Diese Ausführungsarten stellen jedoch
lediglich ein Beispiel dar, und die Erfindung ist nicht darauf beschränkt. Dem
Fachmann ist klar, dass im Rahmen des durch die beigefügten Ansprüche definierten
Geltungsbereichs der vorliegenden Erfindung weitere Abwandlungen
und Änderungen
einfach vorgenommen werden können.