DE102016125162A1

DE102016125162A1 - Method and device for the automatic processing of texts

Info

Publication number: DE102016125162A1
Application number: DE102016125162.3A
Authority: DE
Inventors: Marc Ebner
Original assignee: Ernst Moritz Arndt Universitaet Greifswald
Current assignee: EBNER, MARC, DR., DE
Priority date: 2016-12-05
Filing date: 2016-12-21
Publication date: 2018-06-07
Anticipated expiration: 2036-12-22
Also published as: DE102016125162B4

Abstract

Ein Verfahren zum maschinellen Verarbeiten eines Textes umfasst die folgenden Schritte: Es wird ein Text erfasst und gespeichert (S1), wobei für jedes erfasste Wort ein Wert bestimmt und gespeichert wird, welcher repräsentiert, wie häufig dieses Wort in dem Text im Vergleich zu anderen Wörtern des Textes vorkommt. Dann wird für einen Satz des Textes und für ein Wort des Satzes eine erste Wahrscheinlichkeit bestimmt (S2), mit der das Wort in dem Satz in Kombination mit einem ersten Tupel von Wörtern vorkommt. Das erste Tupel umfasst zumindest zwei Wörter, welche beim Durchlaufen des Satzes vor dem Wort angeordnet sind. Zumindest ein erstes der zumindest zwei Wörter tritt im Vergleich zu anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auf. Zumindest ein zweites der zumindest zwei Wörter ist in dem Satz in einer vorgegebenen Umgebung des Wortes angeordnet.A method of processing a text comprises the following steps: A text is captured and stored (S1), wherein for each detected word a value is determined and stored representing how often that word in the text is compared to other words of the text. Then, for a sentence of the text and for a word of the sentence, a first probability is determined (S2) with which the word occurs in the sentence in combination with a first tuple of words. The first tuple comprises at least two words which are arranged in front of the word as it passes through the sentence. At least a first of the at least two words occurs in the lesser frequency text as compared to other words already traversed in the sentence. At least a second of the at least two words is arranged in the sentence in a given neighborhood of the word.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum maschinellen Verarbeiten von Texten. Insbesondere betrifft die Erfindung ein maschinelles Erzeugen von Sätzen, basierend auf einer vorgegebenen Textbasis und mit Bezug zu einem Anfragesatz.The invention relates to a method and a device for processing texts. More particularly, the invention relates to automated generation of sentences based on a given textual basis and with reference to a query sentence.

Technologischer HintergrundTechnological background

Im Bereich der Computerlinguistik bzw. Natural Language Processing wird versucht, natürliche Sprache mit dem Computer zu analysieren und zu verstehen. Gemäß verschiedener Ansätze werden dazu tiefe künstliche neuronale Netze eingesetzt, um z.B. Bilder mit einer Bildunterschrift zu versehen (vgl. z.B. S. Chengjian, S. Zhu, and Z. Shi, „Image annotation via deep neural network,“ in International Conference on Machine Vision Applications, Tokyo, Japan, May 2015, pp. 518-521 ). Kiros et al. (R. Kiros, R. Salakhutdinov, and R. Zemel, „Unifying visual-semantic embeddings with multimodal neural language models,“ in TACL, 2015) verwenden ein neuronales Netz mit Long-Short-Term-Memory, welches in S. Hochreiter and J. Schidhuber, „Long short-term memory,“ Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997 , vorgeschlagen worden ist, um Sprache zu codieren. Vinyals et al. (vgl. O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, „Show and tell: A neural image caption generator,“ in Proceedings of Computer Vision and Pattern Recognition. IEEE, 2015, pp. 3156-3164) verwenden Long-Short-Term-Memory zum Dekodieren von Sätzen. Hermann et al. (vgl. K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom, „Teaching machines to read and comprehend,“ in Advances in Neural Information Processing Systems (NIPS), 2015 . [Online]. Available: http://arxiv.org/abs/1506.03340 trainieren ein tiefes neuronales Netz, das Fragen zu Texten beantworten kann. Dabei kommt auch Long-Short-Term-Memory zum Einsatz. Das IBM Watson System verwendet, neben Techniken aus dem Bereich der Sprachverarbeitung, Prolog, um natürlichsprachliche Fragen zu einem weiten Wissensgebiet zu beantworten (vgl. A. Lally and P. Fodor, „Natural language processing with prolog in the IBM Watson system,“ Association for Logic Programming, 2011 ).In the field of computational linguistics and natural language processing an attempt is made to analyze and understand natural language with the computer. According to various approaches, deep artificial neural networks are used for this, for example to provide images with a caption (cf. S. Chengjian, S. Zhu, and Z. Shi, "Image Annotation via the Deep Neural Network," in International Conference on Machine Vision Applications, Tokyo, Japan, May 2015, pp. 39-44. 518-521 ). Kiros et al. (R. Kiros, R. Salakhutdinov, and R. Zemel, "Unifying visual-semantic embeddings with multimodal neural language models," in TACL, 2015) use a neural network with long-short-term memory, which in S. Hochreiter and J. Schidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997 , has been proposed to code voice. Vinyals et al. (See O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, "Show and Tell: A neural image caption generator," in Proceedings of Computer Vision and Pattern Recognition, IEEE, 2015, pp. 3156-3164 ) use long-short term memory to decode sentences. Hermann et al. (KM Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom, "Teaching machines to read and comprehend," in Advances in Neural Information Processing Systems (NIPS). , 2015 , [On-line]. Available: http://arxiv.org/abs/1506.03340 train a deep neural network that can answer questions about texts. It also uses long-short-term memory. The IBM Watson system uses, in addition to techniques in the field of language processing, Prolog to answer natural language questions about a wide area of knowledge (cf. A. Lally and P. Fodor, "Natural language processing with prologue in the IBM Watson system," Association for Logic Programming, 2011 ).

Bei der Spracherzeugung werden im Wesentlichen drei verschiedene Ansätze unterschieden: Grammatik-basierte Systeme, statistische Systeme sowie Systeme, die mit Schablonen arbeiten (vgl. z.B. US 2014/0149107 A1 ). Bei Grammatik-basierten Ansätzen (vgl. z.B. US 7,562,005 ) benötigt man zunächst eine Grammatik, bevor Sprache erzeugt werden kann. Bei statistischen Systemen werden Häufigkeiten von Wörtern innerhalb eines Text-Corpus analysiert. Anhand dieser Häufigkeiten werden Wahrscheinlichkeiten für die Fortsetzung des Textes berechnet. Bei Schablonen-basierten Ansätzen wird mit Sätzen oder Teilsätzen gearbeitet, die mit Platzhaltern versehen sind. Anstatt dieser Platzhalter können eine oder mehrere Wörter aufgenommen werden, um einen Satz zu vervollständigen. Die möglichen Formulierungen sind also bei Schablonen-basierten Ansätzen aufgrund der vorhandenen Schablonen begrenzt. Weitere Ansätze verwenden eine semantische Repräsentation (vgl. z.B. US 7,496,621 ). Die vorliegende Erfindung ist im Bereich der statistischen Systeme angesiedelt.There are essentially three different approaches to speech production: grammar-based systems, statistical systems and systems that use templates (cf. US 2014/0149107 A1 ). For grammar-based approaches (see eg US 7,562,005 ) you first need a grammar before language can be generated. In statistical systems, frequencies of words within a text corpus are analyzed. These frequencies are used to calculate probabilities for the continuation of the text. Template-based approaches use sets or subsets that are wildcarded. Instead of these placeholders, one or more words may be included to complete a sentence. The possible formulations are therefore limited to template-based approaches due to the existing templates. Other approaches use a semantic representation (cf., eg US 7,496,621 ). The present invention is in the field of statistical systems.

So genannte n-Gramme stellen eine Möglichkeit zum verteilten Speichern und Abrufen von Sprache dar. Ein n-Gramm ist eine Sequenz aus n kontinuierlichen Bausteinen eines Textes, beispielsweise n Wörtern. Bei Verwendung von n-Grammen wird ein Satz in einzelne Wörter zerlegt und es wird die Wahrscheinlichkeit berechnet, dass ein Wort auf (n-1) vorangegangen Wörter folgt. Man kann diese Wahrscheinlichkeiten relativ einfach aus einem großen Text extrahieren, indem man die einzelnen Wörter des Textes durchläuft und zählt, wie häufig ein Wort auf Wortsequenzen der Länge n -1 folgt.So-called n-grams are one way of distributed storage and retrieval of speech. An n-gram is a sequence of n continuous building blocks of a text, for example n words. When using n-grams, a sentence is decomposed into individual words and the probability is calculated that a word follows (n-1) preceding words. It is relatively easy to extract these probabilities from a large text by going through the individual words of the text and counting how often a word follows n-1 word sequences.

Ein einfaches Verfahren zum Erzeugen eines Satzes basierend auf einem Text, welcher in n-Gramme zerlegt und wie vorstehend beschrieben vorverarbeitet worden ist, könnte wie folgt verfahren: Ausgehend von einem vorgegebenen Startwort erfolgt die Auswahl des nächsten Wortes des zu erzeugenden Satzes unter Berücksichtigung der k Wörter mit der höchsten Wahrscheinlichkeit mit Bezug auf den bereits erzeugten Satz (Bestensuche oder best-first search). Anschließend wir mit der Auswahl von maximal k Wörtern für das nächste Wort fortgefahren. Dies wiederholt man so lange, bis ein Satzabschlusswort erreicht ist, z.B. ein Punkt, ein Fragezeichen oder ein Ausrufezeichen (Satzzeichen werden gemäß diesem Ansatz als Wörter behandelt).A simple method for generating a sentence based on a text which has been decomposed into n-grams and preprocessed as described above could proceed as follows: starting from a given start word, the selection of the next word of the sentence to be generated takes place taking into account k Words with the highest probability with respect to the sentence already generated (best-first search or best-first search). Then we proceeded with the selection of a maximum of k words for the next word. This is repeated until a sentence end word is reached, e.g. a dot, a question mark or an exclamation mark (punctuation marks are treated as words according to this approach).

Dieser Ansatz hat allerdings den gravierenden Nachteil, dass er nicht skaliert. Angenommen, es werden n-Gramme verwendet, um in deren Anhängigkeit ein nächstes Wort zu bestimmen. Diese n-Gramme bilden dann eine so genannte n-Gramm-Ebene. Verwendet man auf der n-Gramm-Ebene nur Wörter, also 1-Gramme, so ist die Wahl des nächsten Wortes lediglich von dem letzten gesagten Wort abhängig. Verwenden wir 2-Gramme auf der n-Gramm-Ebene, so ist das nächste Wort lediglich von den letzten zwei Wörtern abhängig usw. Bei relativ kurzen n-Grammen auf der n-Gramm-Ebene kann in den Wahrscheinlichkeiten auf der Wort-Ebene keinerlei Bezug zwischen dem Satzanfang und dem Satzende hergestellt werden. Was am Anfang eines längeren Satzes gesagt wurde, hätte also keinerlei Einfluss auf den weiteren Verlauf des Satzes am Satzende. Um diesen Bezug herzustellen, bräuchte man sehr lange n-Gramme auf der n-Gramm-Ebene. Wenn man aber mit sehr langen n-Grammen arbeitet, dann läuft es im Wesentlichen darauf hinaus, dass vollständige Sätze abgelegt werden müssten. Wenn man vereinfachend von 10 möglichen Folgeworten ausgeht, dann würde die Anzahl der Elemente auf n-Gramm Ebene entsprechend mit der Größenordnung 10ⁿ wachsen. Schon für relativ kleine n sind dabei die Ressourcen aktueller Rechenanlagen erschöpft.However, this approach has the serious disadvantage that it does not scale. Suppose n-grams are used to determine their next word in their dependency. These n-grams then form a so-called n-gram level. If only words, ie 1-grams, are used on the n-gram level, the choice of the next word depends only on the last word spoken. If we use 2-grams on the n-gram level, then the next word is only dependent on the last two words, and so on. For relatively short n-grams on the n-gram level, the probabilities may depend on the word level no relation between the sentence beginning and the end of the sentence are made. What was said at the beginning of a longer sentence would thus have no influence on the further course of the sentence at the end of the sentence. To make this connection, one would need very long n-grams on the n-gram level. But if you work with very long n-grams, then it essentially means that complete sentences have to be dropped. Simplifying from 10 possible follow-up points, then the number of elements on n-gram level would grow correspondingly on the order of 10 ⁿ . Even for relatively small n, the resources of current computer systems are exhausted.

Die mittlere Anzahl der möglichen Folge-Worte in Abhängigkeit von der Länge der n-Gramme auf der n-Gramm-Ebene ist exemplarisch in 1 dargestellt, auf Basis eines Text-Corpus von 37 Millionen Wörtern. Wir sehen, dass die mittlere Anzahl der möglichen Folge-Wörter abnimmt, je größer n wird. Letztendlich führt dies dazu, dass, je größer n, ganze Satzbausteine auswendig gelernt würden. Wir hätten nach dieser Theorie im Gehirn für alle möglichen Sätze ein passendes Neuron. 2 zeigt die Anzahl der regelmäßig vorkommenden n-Gramme in Abhängigkeit von n. 3 zeigt den Speicherbedarf in Abhängigkeit von n für die n-Gramme. Der in 3 gezeigte Speicherbedarf berücksichtigt lediglich den Speicher für die n-Gramme sowie den Speicher für die möglichen Folgewörter und deren zugehörigen Häufigkeiten. Berücksichtigt man noch Overhead in den notwendigen Datenstrukturen, so wird bereits ab n = 4 der Speicherbedarf so groß, dass er mit 8 GB Rechnern gerade noch verarbeitet werden kann.The mean number of possible consecutive words as a function of the length of the n-grams on the n-gram level is given by way of example in FIG 1 represented, based on a text corpus of 37 million words. We see that the mean number of possible consecutive words decreases as the n becomes larger. Ultimately, this leads to the fact that the larger n, entire sentence blocks would be memorized. According to this theory we would have a suitable neuron in the brain for all possible sentences. 2 shows the number of regularly occurring n-grams as a function of n. 3 shows the memory requirement as a function of n for the n-grams. The in 3 The memory requirement shown only takes into account the memory for the n-grams and the memory for the possible subsequent words and their associated frequencies. If one considers overhead in the necessary data structures, the memory requirement becomes so high even from n = 4 that it can barely be processed with 8 GB computers.

Man kann die Frage stellen, auf welche Art und Weise Sprache dann im Gehirn gespeichert und wieder abgerufen wird, wenn man davon ausgehen will, dass keine ganzen Sätze bzw. keine sehr langen Satzfragmente direkt „abgelegt“ werden. Man kann relativ einfach die Wahrscheinlichkeit speichern, mit der ein Wort auf ein anderes Wort folgt. Ferner kann man annehmen, dass zuvor gehörte oder gelesene Wörter verzögert verarbeitet werden. In diesem Fall würde man, wie in 4 dargestellt, jeweils eine Schicht aus Elementen (im Falle der Implementation mittels eines künstlichen neuronalen Netzwerks „Neuronen“) je Verzögerung anlegen. Die Wahrscheinlichkeiten p(w_i|w_i-1-t) würden in den synaptischen Verbindungen aus der jeweiligen Ebene mit Verzögerung t zur oberen Wort-Ebene gespeichert werden. Wir bräuchten maximal m + 1 Bereiche mit jeweils n_Worte Neuronen, wenn unser Wortschatz n_Worte Worte umfasst. Damit ist der Speicherverbrauch ganz erheblich reduziert im Vergleich zum Ansatz mit n-Grammen. Allerdings nimmt die Zahl der möglichen Wörter w_i, die auf ein Wort w_i-1-t folgen, mit dem Abstand t zu. 5 zeigt die Zahl der möglichen Wörter in Abhängigkeit von dem Abstand t, gemittelt über alle Wörter des Text-Corpus mit einer Häufigkeit>100. 6 zeigt die Zahl der möglichen Wörter in Abhängigkeit von Abstand t für die vier Worte: „gehe“, „sonne“, „rot“ und „auto“ (alle Worte sind zur Begrenzung des Wortschatzes klein geschrieben).One can ask the question, in which way language is then stored in the brain and retrieved again, if one wants to assume that no whole sentences or very long sentence fragments are "filed" directly. It is relatively easy to store the probability that a word follows another word. It can also be assumed that previously heard or read words are processed with a delay. In that case you would, as in 4 represented, each one layer of elements (in the case of implementation by means of an artificial neural network "neurons") create each delay. The probabilities p (w _i | w _{i-1 -t} ) would be stored in the synaptic connections from the respective level with delay t to the upper word level. We would need a maximum of m + 1 areas with each n _words neurons, if our vocabulary includes n _words words. Thus, the memory consumption is significantly reduced compared to the approach with n-grams. However, the number of possible words w _i that follow a word w _{i-1-t increases} with the distance t. 5 shows the number of possible words as a function of the distance t, averaged over all words of the text corpus with a frequency> 100. 6 shows the number of possible words as a function of distance t for the four words: "go", "sun", "red" and "auto" (all words are lowercase to limit the vocabulary).

Je größer der Abstand t zwischen den Wörtern, desto weniger aussagekräftig ist es, welches Wort w_i auf das Wort w_i-1-t folgt. Vorteil dieses Ansatzes ist, dass er skaliert. Der Speicherverbrauch nur steigt linear mit der Anzahl der Wörter, die in Betracht gezogen werden, sofern man davon ausgeht, dass je Wort nur eine begrenzte Anzahl von Alternativen berücksichtigt werden. Allerdings erscheint die Information, die in den Wahrscheinlichkeiten p(w_i|w_i-1-t) gespeichert ist, nicht ausreichend, um für eine Wortsequenz grammatikalisch korrekte Folgewörter auszuwählen. Es gilt $p (w_{i} | w_{i - m},..., w_{i - 1}) \neq \prod_{j = 0}^{m - 1} p (w_{i} | w_{i - 1 - j})$

The greater the distance t between the words, the less meaningful it is which word w _i follows the word w _i-1-t . The advantage of this approach is that it scales. Memory consumption only increases linearly with the number of words considered, assuming that only a limited number of alternatives are considered for each word. However, the information stored in the probabilities p (w _i | w _{i-1 -t} ) does not appear sufficient to select grammatically correct consecutive words for a word sequence. It applies

p (w_{i} | w_{i - m}, ..., w_{i - 1}) \neq Π_{j = 0}^{m - 1} p (w_{i} | w_{i - 1 - j})

Es liegt also kein Markov-Modell vor, bei dem die Wahrscheinlichkeit des nächsten Zustands lediglich vom aktuellen Zustand abhängt. Somit hat auch dieser Ansatz gravierende Nachteile. Auf Buchstaben-Ebene scheint ein Markov-Modell der Länge 6 ausreichend zu sein, um eine Folge aus richtig geschriebenen Worten zu erzeugen (vgl. z.B. T. Dunning, „Statistical identification of language,“ Technical Report MCCS 94-273, Mar. 1994). Leider ist dann ein derart erzeugter Satz in der Regel grammatikalisch nicht korrekt.So there is no Markov model in which the probability of the next state depends only on the current state. Thus, this approach has serious disadvantages. At the letter level, a Markov model of length 6 appears to be sufficient to produce a sequence of properly spelled words (see, eg, T. Dunning, "Statistical identification of language," Technical Report MCCS 94-273, Mar. 1994 ). Unfortunately, such a sentence is usually grammatically incorrect.

Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und eine Vorrichtung zum maschinellen Verarbeiten von Texten vorzuschlagen, welche den vorstehend erläuterten Nachteilen Rechnung tragen.The object of the present invention is to propose a method and a device for the automated processing of texts, which take into account the disadvantages explained above.

Diese Aufgabe wird durch ein Verfahren und eine Vorrichtung mit den Merkmalen der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen sind in den abhängigen Ansprüchen angegeben.This object is achieved by a method and an apparatus having the features of the independent claims. Advantageous embodiments and further developments are specified in the dependent claims.

Zusammenfassung der Erfindung Summary of the invention

Eine bevorzugte Ausführungsform eines Verfahrens zum maschinellen Verarbeiten eines Textes umfasst die folgenden Schritte:A preferred embodiment of a method for processing a text comprises the following steps:

Ein Text wird erfasst und gespeichert. Dabei wird für jedes erfasste Wort ein Wert bestimmt und gespeichert, welcher repräsentiert, wie häufig dieses Wort in dem Text im Vergleich zu anderen Wörtern des Textes vorkommt. Zu diesem Zweck kann beispielsweise eine absolute Häufigkeit, mit der das Wort in dem Text vorkommt, bestimmt oder gespeichert werden, oder eine relative Häufigkeit, oder eine Nummer oder ein Index des Wortes gemäß einer Sortierung nach der Häufigkeit des Auftretens. Anhand des Wertes muss es lediglich möglich sein, zwei Wörter des Textes hinsichtlich der Häufigkeit, mit der diese Wörter im Text vorkommen, zu vergleichen.A text is captured and saved. In this case, a value is determined and stored for each detected word, which represents how often this word occurs in the text in comparison to other words of the text. For this purpose, for example, an absolute frequency with which the word occurs in the text can be determined or stored, or a relative frequency, or a number or index of the word according to a sort by the frequency of occurrence. Based on the value, it only has to be possible to compare two words of the text with regard to the frequency with which these words occur in the text.

Für zumindest einen Satz des Textes und für zumindest ein Wort des Satzes wird implizit oder explizit eine erste Wahrscheinlichkeit bestimmt und gespeichert, mit der dieses Wort in dem Satz in Kombination mit einem nachstehend genauer definierten ersten Tupel von Wörtern vorkommt. Als Tupel wird im Zusammenhang der vorliegenden Erfindung eine geordnete Menge verstanden, d.h. die Reihenfolge der Elemente und deren Vielfachheit sind zu beachten.For at least one sentence of the text and for at least one word of the sentence, there is implicitly or explicitly determined and stored a first probability with which that word occurs in the sentence in combination with a first tuple of words, as defined in greater detail below. Tuples in the context of the present invention are understood to be an ordered amount, i. the order of the elements and their multiplicity are to be considered.

Das erste Tupel umfasst zumindest zwei Wörter des Satzes, welche beim wortweisen, linearen Durchlaufen des Satzes vor dem Wort angeordnet sind. Das Durchlaufen des Satzes kann dabei in herkömmlicher Leserichtung, d.h. von links nach rechts, oder auch entgegen der Leserichtung, von rechts nach links, erfolgen.The first tuple comprises at least two words of the sentence, which are arranged in the word-wise, linear traversal of the sentence before the word. Traversing the sentence can be done in the conventional reading direction, i. from left to right, or in the opposite direction, from right to left.

Zumindest ein erstes der zumindest zwei Wörter des ersten Tupels tritt im Vergleich zu anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auf.At least a first of the at least two words of the first tuple occurs at a lower frequency compared to other words already traversed in the sentence in the text.

Weiterhin gilt, dass zumindest ein zweites der zumindest zwei Wörter des ersten Tupels in dem Satz in einer vorgegebenen Umgebung des Wortes angeordnet ist.Furthermore, at least a second of the at least two words of the first tuple in the sentence is arranged in a given environment of the word.

Die oben angegebenen Eigenschaften sollen zum besseren Verständnis an einem einfachen abstrakten Beispiel verdeutlicht werden:The above-mentioned properties should be clarified for a better understanding with a simple abstract example:

Der in Frage stehende Satz bestehe aus der Wort-Sequenz w₁,w₂,...,w₁₀ (wobei w_i jeweils einen Index des entsprechenden Wortes bezeichnet), das aktuell betrachtete Wort sei das Wort w₇, d.h. die Wörter w₁ bis w₆ seien bereits durchlaufen (in Leserichtung). Das Wort w₂ sei dasjenige Wort, welches in dem Text im Vergleich zu den weiteren in dem Satz bereits durchlaufenen Wörtern (w₁ bis w₆) mit der geringsten Häufigkeit vorkommen soll. Das Wort w₆ steht in Durchlaufrichtung unmittelbar vor dem Wort w₇.The sentence in question consists of the word sequence w ₁ , w ₂ , ..., w ₁₀ (where w _i each denotes an index of the corresponding word), the word currently being considered is the word w ₇ , ie the words w ₁ to w _{6 have} already passed (in reading direction). The word w ₂ is the word which is to occur in the text in comparison with the other words (w ₁ to w ₆ ) already passed in the sentence with the lowest frequency. The word w ₆ is in the direction of passage immediately before the word w ₇ .

Das erste Tupel setzt sich dann z.B. aus den zwei Wörtern w₂ und w₆ zusammen: (w₂, w₆). Mit anderen Worten entspricht das „zumindest eine erste der zumindest zwei Wörter“ des ersten Tupels dem Wort w₂. Das „zumindest eine zweite der zumindest zwei Wörter“ des ersten Tupels ist das Wort w₆, da es in einer vorgegebenen Umgebung, im Beispiel direkt vorangehend, zu dem Wort w₇ angeordnet ist.The first tuple is then composed, for example, of the two words w ₂ and w ₆ : (w ₂ , w ₆ ). In other words, the "at least a first of the at least two words" of the first tuple corresponds to the word w ₂ . The "at least a second of the at least two words" of the first tuple is the word w ₆ , since it is arranged in a given environment, in the example directly preceding, to the word w ₇ .

Die „erste Wahrscheinlichkeit“, in dem Beispiel ein Wert p(w₇|(w₂, w₆)), muss dabei nicht notwendigerweise als ein Wert zwischen 0 und 1 (wie eine Wahrscheinlichkeit im mathematischen Sinne) berechnet und gespeichert werden. Wie bereits mit Bezug auf die Häufigkeit des Auftretens eines Wortes beschrieben, reicht es aus, wenn als „erste Wahrscheinlichkeit“ ein Wert bestimmt wird, der es ermöglicht, die Häufigkeit des Auftretens einer betreffenden Konstellation, d.h. ein vorgegebenes erstes Tupel in Kombination mit dem in Frage stehenden Wort in einem Satz, mit der Häufigkeit des Auftretens entsprechender Konstellationen ((Tupel, Wort) in Satz) zu vergleichen. Des einfacheren Verständnisses halber wird im Zusammenhang mit der vorliegenden Erfindung stets von einer ersten „Wahrscheinlichkeit“ gesprochen (und nachfolgend auch von einer zweiten und dritten „Wahrscheinlichkeit“), wobei der Begriff der „Wahrscheinlichkeit“ stets wie vorstehend beschrieben breit auszulegen ist.The "first probability", in the example a value p (w ₇ | (w ₂ , w ₆ )), does not necessarily have to be calculated and stored as a value between 0 and 1 (like a probability in the mathematical sense). As already described with reference to the frequency of occurrence of a word, it suffices if a value is determined as "first probability" which makes it possible to determine the frequency of occurrence of a respective constellation, ie a given first tuple in combination with the one in FIG Question word in a sentence, to compare with the frequency of occurrence of corresponding constellations ((tuple, word) in sentence). For ease of understanding, in the context of the present invention, one always speaks of a first "probability" (and subsequently also of a second and third "probability"), the term "probability" always being broadly interpreted as described above.

In der Regel wird dieser Schritt für alle Sätze des Textes und jeweils alle Worte eines Satzes durchgeführt. Eventuelle Ausnahmen, die sich am Satzanfang oder am Satzende aus technischen Gründen ergeben können, sollen vorerst unbeachtet bleiben.As a rule, this step is performed for all sentences of the text and in each case all words of a sentence. Any exceptions that may arise at the beginning of the sentence or at the end of the sentence for technical reasons should be ignored for the time being.

Vorzugsweise werden auch Satzzeichen als Wörter des Textes angesehen. Ein „Satz“ umfasst in der Regel, aus technischen Gründen, die nachfolgend noch deutlich werden, als erstes „Wort“ auch das abschließende Satzzeichen, z.B. „.“, „!“ oder „?“, des vorhergehenden Satzes. Auf diese Weise kann der Beginn eines Satzes einfacher erkannt werden.Preferably also punctuation marks are considered words of the text. As a rule, a "sentence" includes the first "word" for technical reasons, which will become clear below final punctuation marks, eg ".", "!" or "?", of the preceding sentence. In this way, the beginning of a sentence can be recognized more easily.

Die vorliegende Erfindung, welche sich technisch im Wesentlichen durch das Bestimmen der „ersten Wahrscheinlichkeit“ auszeichnet, beruht auf zwei grundlegenden Beobachtungen.The present invention, which is technically characterized essentially by determining the "first probability", is based on two fundamental observations.

Gemäß einer ersten Beobachtung hat es sich gezeigt, dass diejenigen Wörter eines Satzes zumeist die aussagekräftigsten sind, d.h. im Wesentlichen den Sinngehalt des Satzes transportieren, welche bezüglich einer Häufigkeit des Auftretens im Text gegenüber anderen Wörtern des Satzes deutlich zurückstehen. Mit anderen Worten, eher „seltene“ Wörter sind bezüglich des semantischen Gehalts eines Satzes wichtiger als häufig auftretende Wörter.According to a first observation, it has been found that those words of a sentence are mostly the most meaningful, i. essentially convey the meaning of the sentence, which in terms of a frequency of occurrence in the text compared to other words of the sentence clearly lagged. In other words, more "rare" words are more important in terms of the semantic content of a sentence than frequently occurring words.

Betrachten wir beispielhaft den folgenden Satz: „Ich hoffe, dass morgen die Sonne scheint.“ Die Häufigkeiten (in Klammem) der Worte dieses Satzes sind im bereits erwähnten Text-Corpus wie folgt: „Ich (378.430) hoffe (3.514), (1.998.331) dass (134.717) morgen (4.272) die (1.036.545) Sonne (956) scheint (8.452) . (2.310.422)“.Let us consider the following sentence by way of example: "I hope tomorrow the sun shines." The frequencies (in brackets) of the words in this sentence are as follows in the text corpus already mentioned: "I (378.430) hope (3.514), (1.998 .331) that (134.717) tomorrow (4.272) the (1.036.545) sun (956) shines (8.452). (2310422) ".

Die Wörter mit der geringsten Häufigkeit teilen mit, „worum es in dem Satz geht“. Im Beispiel würden die vier Wörter mit der kleinsten Häufigkeit den Satz „hoffe morgen Sonne scheint“ ergeben. Die Wörter mit der kleinsten Häufigkeit im Satz sind also besonders aussagekräftig. Interessanterweise würden die gleichen Wörter extrahiert werden, wenn es sich um den gleichen Satz in englischer Sprache handeln würde. Die Wörter mit den höchsten Häufigkeiten sind lediglich Füllwörter, die für einen grammatikalisch korrekten Satz notwendig sind, jedoch nicht wesentlich für das Verständnis des Gesagten sind.The least frequent words tell "what the sentence is about". In the example, the four words with the lowest frequency would yield the sentence "hope tomorrow sun shines". The words with the lowest frequency in the sentence are therefore particularly meaningful. Interestingly, the same words would be extracted if it were the same sentence in English. The words with the highest frequencies are merely filler words, which are necessary for a grammatically correct sentence, but are not essential for the understanding of what has been said.

Als zweite wesentliche Beobachtung, auf der die Erfindung basiert, ist zu nennen, dass die relative Häufigkeit von Wörtern innerhalb eines Satzes im Wesentlichen konstant ist, sobald die verarbeitete Textbasis hinreichend groß wird. Es ist mit Bezug auf das vorstehende Beispiel z.B. relativ unwahrscheinlich, dass im weiteren Gebrauch der Sprache, d.h. wenn der Text-Corpus noch erweitert wird, die Häufigkeit des Wortes „Sonne“ größer wird als die Häufigkeit des Wortes „die“.As a second essential observation on which the invention is based, it should be mentioned that the relative frequency of words within a sentence is substantially constant as soon as the processed text base becomes sufficiently large. It is with reference to the above example e.g. relatively unlikely that in further use of the language, i. if the text corpus is still extended, the frequency of the word "sun" becomes greater than the frequency of the word "the".

Diese beiden Beobachtungen sind mit der Definition der „ersten Wahrscheinlichkeit“ verarbeitet worden, um die vorstehend beschriebenen Nachteile bisheriger Verfahren auszuräumen oder zumindest deutlich abzuschwächen:These two observations have been processed with the definition of the "first probability" in order to eliminate or at least significantly weaken the disadvantages of previous methods described above:

Erstens können dadurch, dass das erste Tupel ein oder mehrere den Satz semantisch bestimmende Wörter umfasst, entsprechend dem „zumindest einen ersten Wort“ mit vergleichsweise geringer Häufigkeit, und dadurch, dass weniger wichtige Wörter (entsprechend Füllwörtern) mit hoher Häufigkeit ausgelassen werden, im Vergleich zum klassischen n-Gramm-Ansatz erhebliche Ressourcen, insbesondere Speicherplatz, eingespart werden. Das erste Tupel kann vergleichsweise „kurz“ gehalten werden und umfasst in der Regel z.B. zwei, drei oder vier Wörter. Trotzdem kann ähnlich viel Sinngehalt transportiert werden als in vergleichsweise langen n-Grammen.First, by virtue of the first tuple comprising one or more words comprising the set of semantics corresponding to the "at least one first word" having a comparatively low frequency, and by letting out less important words (corresponding to filler words) at high frequency to the classical n-gram approach considerable resources, in particular storage space, are saved. The first tuple can be kept comparatively "short" and usually comprises e.g. two, three or four words. Nevertheless, similar meaning can be transported than in comparatively long n-grams.

Zweitens wird dadurch, dass das erste Tupel in Form des „zumindest einen zweiten Wortes“ zusätzlich zumindest ein Wort in vorgegebener Umgebung, vorzugsweise direkt oder beinahe direkt benachbart zu dem in Frage stehenden Wort umfasst, für welches die erste Wahrscheinlichkeit bestimmt wird, sichergestellt, dass zumindest ein gewisser Zusammenhang zwischen dem Ende des aktuell bearbeiteten Satzfragments, d.h. dem Anteil des Satzes, an welches das Wort anschließt, und dem Teil des Satzes, welcher die sinntragenden Wörter umfasst, erhalten bleibt. Somit kann der grundlegende Nachteil des eingangs beschriebenen Verfahrens, bei dem lediglich Wahrscheinlichkeiten mit Bezug zu einzelnen, „zeitlich“ im Satz zurückliegenden Wörtern separat bestimmt worden sind, wenn nicht ausgeräumt, so doch erheblich abgemildert werden. Ein Zusammenhang zwischen Satzende und Satzanfang bleibt erfindungsgemäß auch für längere Sätze zumindest teilweise erhalten.Secondly, since the first tuple in the form of the "at least one second word" additionally comprises at least one word in a predetermined environment, preferably directly or almost directly adjacent to the word in question for which the first probability is determined, it is ensured at least a certain connection between the end of the currently edited sentence fragment, ie the proportion of the sentence followed by the word and the part of the sentence comprising the meaningful words. Thus, the basic drawback of the method described at the outset, in which only probabilities relating to individual words "in time" in the sentence have been determined separately, if not eliminated, can be significantly alleviated. A connection between the end of the sentence and the beginning of the sentence remains at least partially preserved according to the invention, even for longer sentences.

Gemäß einer optionalen Ausführungsform können zwischen dem Schritt des Erfassens und Speichern des Textes und dem Schritt des Bestimmens der ersten Wahrscheinlichkeit optionale Zwischenschritte eingeschoben werden. Diese Zwischenschritte dienen dazu, den erfassten Datenbestand, falls erforderlich, zu bereinigen. Folgende Zwischenschritte sind möglich:According to an optional embodiment, optional intermediate steps may be inserted between the step of detecting and storing the text and the step of determining the first probability. These intermediate steps are used to clean up the recorded data, if necessary. The following intermediate steps are possible:

Gemäß einem ersten Zwischenschritt könne alle erfassten Wörter gelöscht werden, welche eine vorgegebene minimale Häufigkeit nicht überschreiten. Damit ist es beispielsweise möglich, Tippfehler oder dergleichen zu entdecken und zu löschen. According to a first intermediate step, all captured words can be deleted, which do not exceed a predetermined minimum frequency. Thus, it is possible, for example, typing errors or the like to discover and delete.

Gemäß einem zweiten Zwischenschritt können die erfassten Wörter gemäß dem die Häufigkeit repräsentierenden Wert sortiert werden. Anhand dieser Sortierung können dann eine vorgegebene Anzahl von erfassten Wörtern, welche die kleinsten Häufigkeiten aufweisen, gelöscht werden. Auf diese Weise kann die Größe des verarbeiteten Wortschatzes beschränkt werden, falls erforderlich. Weitere optionale Schritte zur Datenbereinigung sind möglich.According to a second intermediate step, the detected words can be sorted according to the value representing the frequency. Based on this sorting, a predetermined number of detected words having the smallest frequencies can then be deleted. In this way, the size of the vocabulary processed can be limited if necessary. Further optional steps for data cleansing are possible.

Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens umfasst das erste Tupel zumindest drei Wörter. Dabei treten zumindest zwei Wörter der zumindest drei Wörter im Vergleich zu allen anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auf. Mit anderen Worten umfasst das erste Tupel gemäß dieser Ausführungsform zumindest zwei „sinntragende“ Wörter. Die Anzahl der „sinntragenden“ Wörter im ersten Tupel kann also variieren, beispielsweise abhängig von der Länge des aktuell betrachteten Satzes, von der grundsätzlichen Struktur des Textes, von der Position des Wortes in dem Satz, d.h. vom Anteil des Satzes, der bereits durchlaufen ist, oder dergleichen.According to a preferred embodiment of the method according to the invention, the first tuple comprises at least three words. At least two words of the at least three words appear in the lesser frequency text in comparison with all other words already passed in the sentence. In other words, the first tuple according to this embodiment comprises at least two "meaningful" words. The number of "meaningful" words in the first tuple may thus vary, for example, depending on the length of the currently considered sentence, the basic structure of the text, the position of the word in the sentence, i. from the proportion of the sentence that has already passed through or the like.

Gemäß einer bevorzugten Variante der vorstehenden Ausführungsform sind die zumindest zwei „sinntragenden“ Wörter in dem ersten Tupel bezüglich der Häufigkeit, mit der diese Wörter im Text vorkommen, sortiert.According to a preferred variant of the above embodiment, the at least two "meaningful" words in the first tuple are sorted with respect to the frequency with which these words occur in the text.

Gemäß einer weiteren Ausführungsform ist das zumindest eine zweite der zumindest zwei Wörter des ersten Tupels beim Durchlaufen des Satzes unmittelbar vor dem in Frage stehenden Wort angeordnet. Damit wird ein hinreichender Zusammenhang zum Ende des aktuell vorliegenden, d.h. bereits durchlaufenen Satzfragments hergestellt. Eine Distanz von z.B. ein oder zwei Wörtern ist hier jedoch auch akzeptabel.According to a further embodiment, the at least one second of the at least two words of the first tuple is arranged as it passes through the sentence immediately before the word in question. Thus, a sufficient connection with the end of the currently present, i. already executed sentence fragments produced. A distance of e.g. one or two words is also acceptable here.

Gemäß einer weiteren Ausführungsform kann, zusätzlich zu der ersten Wahrscheinlichkeit, eine zweite Wahrscheinlichkeit bestimmt werden. Dies erfolgt erneut, wie mit Bezug auf die erste Wahrscheinlichkeit beschrieben, auf Basis der bestimmten, die Häufigkeiten repräsentierenden Werte. Die zweite Wahrscheinlichkeit gibt eine Wahrscheinlichkeit an, mit der das Wort beim Durchlaufen des Satzes auf eine Sequenz von aufeinanderfolgenden Wörtern folgt, die durch eine vorgegebene Anzahl von dem Wort vorzugsweise unmittelbar vorhergehenden Wörtern bestimmt ist. Diese Sequenz von Wörtern kann ganz oder teilweise Teil des Satzes sein, aber auch mit angrenzenden Sätzen überlappen. D.h. die zweite Wahrscheinlichkeit kann satzübergreifend verstanden werden, mit Bezug auf eine vorgegebene Sequenz von Wörtern, wohingegen die erste Wahrscheinlichkeit in der Regel auf den jeweiligen Satz beschränkt ist. D.h. das erste Tupel wird stets für einen vorgegebenen Satz gebildet, nicht über Satzgrenzen hinweg.According to another embodiment, in addition to the first probability, a second probability may be determined. This is done again, as described with respect to the first likelihood, based on the particular values representing the frequencies. The second probability indicates a probability that the word, as it traverses the sentence, follows a sequence of consecutive words that is determined by a given number of words, preferably immediately preceding the word. This sequence of words may, in whole or in part, be part of the sentence, but may also overlap with adjacent sentences. That the second probability may be understood across sentences with respect to a given sequence of words, whereas the first probability is usually limited to the particular sentence. That the first tuple is always formed for a given sentence, not over sentence boundaries.

Mit Bezug auf das oben angegebene Beispiel (der in Frage stehende Satz bestehe aus der Wort-Sequenz w₁,w₂, ...,w₁₀, das aktuell betrachtete Wort sei das Wort w₇) würde als zweite Wahrscheinlichkeit, für eine vorgegebene Anzahl drei, z.B. die zweite Wahrscheinlichkeit p(w₇|w₄, w₅, w₆) bestimmt werden, d.h. die Wahrscheinlichkeit, dass das Wort w₇ auf eine 3-er-Sequenz von Wörtern w₄, w₅, w₆ folgt.With reference to the example given above (the sentence in question consists of the word sequence w ₁ , w ₂ , ..., w ₁₀ , the word currently considered is the word w ₇ ) would be used as a second probability, for a given Number three, for example the second probability p (w ₇ | w ₄ , w ₅ , w ₆ ), ie the probability that the word w _{7 is} based on a 3-sequence of words w ₄ , w ₅ , w ₆ follows.

Gemäß einer weiteren Ausführungsform kann alternativ oder zusätzlich zu der zweiten Wahrscheinlichkeit eine dritte Wahrscheinlichkeit für das in Frage stehende Wort bestimmt und gespeichert werden. Diese dritte Wahrscheinlichkeit wird analog zur ersten Wahrscheinlichkeit bestimmt, d.h. es wird eine Wahrscheinlichkeit bestimmt, mit der das Wort in dem Satz in Kombination mit nun einem zweiten Tupel von Wörtern vorkommt. Das zweite Tupel umfasst, wie das erste Tupel, zumindest zwei Wörter, welche beim Durchlaufen des Satzes vor dem Wort angeordnet sind. Zumindest ein erstes der zumindest zwei Wörter des zweiten Tupels tritt im Vergleich zu anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auf. Zumindest ein zweites der zumindest zwei Wörter des zweiten Tupels ist in dem Satz in einer vorgegebenen Umgebung des Wortes angeordnet.According to a further embodiment, alternatively or in addition to the second probability, a third probability for the word in question may be determined and stored. This third probability is determined analogously to the first probability, i. a probability is determined with which the word occurs in the sentence in combination with now a second tuple of words. The second tuple, like the first tuple, comprises at least two words which are placed in front of the word as it passes through the sentence. At least a first of the at least two words of the second tuple occurs at a lower frequency compared to other words already traversed in the sentence in the text. At least a second of the at least two words of the second tuple is located in the set in a given neighborhood of the word.

Das zweite Tupel unterscheidet sich von dem ersten Tupel bezüglich der Definition des zumindest einen ersten Wortes, bezüglich der Definition des zumindest einen zweiten Wortes, oder bezüglich der Definition sowohl des zumindest einen ersten Wortes als auch des zumindest einen zweiten Wortes.The second tuple differs from the first tuple with respect to the definition of the at least one first word, with respect to the definition of the at least one second word, or with respect to the definition of both the at least one first word and the at least one second word.

Das erste Tupel könnte beispielsweise als „das zumindest eine erste Wort“ das Wort im der geringsten Häufigkeit umfassen, wobei das zweite Tupel an dieser Stelle das Wort mit der zweitgeringsten Häufigkeit umfassen kann. Analog kann eine Unterscheidung des „zumindest einen zweiten Wortes“ erfolgen, auf Basis einer jeweils vorgegebenen Umgebung, d.h. insbesondere bezüglich eines Abstandes zu dem in Frage stehenden Wort.For example, the first tuple could include the word in the least frequency as "the at least one first word", where the second tuple may include the word at the second lowest frequency at that location. Analogously, a distinction of the "at least one second word", based on a respective given environment, ie in particular with respect to a distance to the word in question.

Der Satz kann zum Bestimmen der ersten Wahrscheinlichkeit, der zweiten Wahrscheinlichkeit oder der dritten Wahrscheinlichkeit in konventioneller Leserichtung, von links nach rechts, durchlaufen werden. Alternativ kann die umgekehrte Durchlaufrichtung gewählt werden, entgegen der Leserichtung, von rechts nach links. Schließlich ist es möglich, und bevorzugt, dass die jeweiligen Wahrscheinlichkeiten für beide Durchlaufrichtungen jeweils separat bestimmt und gespeichert werden. Dies hat den Vorteil, wie es im Folgenden deutlich werden wird, dass ein nachfolgend zu erzeugenden Satz, ausgehend von einem beliebigen Startwort aus dem Text, auf einfache Weise in beide Richtungen erweitert oder ergänzt werden kann.The sentence may be traversed to determine the first probability, the second probability or the third probability in the conventional reading direction, from left to right. Alternatively, the reverse direction of passage can be selected, contrary to the reading direction, from right to left. Finally, it is possible, and preferred, for the respective probabilities to be determined and stored separately for both flow directions. This has the advantage, as will become clear in the following, that a sentence to be generated subsequently, starting from any starting word from the text, can be easily expanded or supplemented in both directions.

Die vorstehend beschriebenen Verfahrensschritte beschreiben eine erste Phase eines Verfahrens zum maschinellen Verarbeiten von Texten. In dieser ersten Phase wird, ausgehend von einem vorgegebenen Text-Corpus, eine Datenbasis aufgebaut, ausgehend von welcher in einer zweiten Phase, die nachfolgend beschrieben wird, Sätze maschinell erzeugt werden können.The method steps described above describe a first phase of a method for processing texts. In this first phase, starting from a given text corpus, a database is set up, from which, in a second phase, which is described below, records can be generated by machine.

Die zweite Phase startet mit einem Schritt des Bereitstellens eines Anfragesatzes. Dies kann beispielsweise eine Frage sein, die an das System gestellt wird, welches das vorliegende Verfahren ausführt. Der Anfragesatz kann auch ein Satz sein, welcher sich dadurch ergibt, dass andere maschinelle Vorrichtungen, beispielsweise ein Spracherkennungssystem oder ein System zur automatischen Übersetzung von Texten, auf Basis des Text-Corpus einen Satz ausgeben, beispielsweise als ein von dem Spracherkennungssystem erkannter und ausgegebener Satz oder ein von dem System zur automatischen Übersetzung von Texten als automatische Übersetzung ausgegebener Satz.The second phase starts with a step of providing a request rate. This may be, for example, a question posed to the system implementing the present method. The request sentence may also be a sentence resulting from other machine devices, such as a speech recognition system or a text automatic translation system, outputting a sentence based on the text corpus, for example as a sentence recognized and output by the speech recognition system or a phrase issued by the automatic translation system as automatic translation.

Der Anfragesatz umfasst zumindest teilweise Wörter aus dem erfassten Text, kann aber auch weitere, bisher nicht erfasste Wörter umfassen. In der Regel werden in diesem Schritt empfangene Anfragesätze nachfolgend in die Datenbasis mit aufgenommen, d.h. wie vorstehend mit Bezug auf die erste Phase beschrieben verarbeitet. Damit wird die Datenbasis erweitert. Ein solches Erweitern der Datenbasis kann in regelmäßigen oder unregelmäßigen Abständen erfolgen. Es ist aber auch eine Ausführungsform vorstellbar, in der ein oder mehrere Anfragesätze selbst die Datenbasis bilden, ohne dass zuvor ein anderer Text eingegeben und verarbeitet worden ist. Gemäß dieser Ausführungsform wird der zumindest eine Anfragesatz zuerst als Textbasis verstanden, und gemäß Phase 1 verarbeitet, und erst dann als eigentlicher „Anfragesatz“ im nachfolgend beschriebenen Sinn. In einem nächsten Schritt wird eine vorgegebene Anzahl von Wörtern aus dem Anfragesatz ausgewählt. Die Auswahl erfolgt derart, dass die ausgewählten Wörter im Vergleich zu nicht ausgewählten Wörtern des Anfragesatzes, welche ebenfalls in dem Text vorkommen, in dem Text mit einer geringeren Häufigkeit auftreten. Mit anderen Worten werden „sinntragende“ Wörter des Anfragesatzes, erkennbar an einer vergleichsweise geringen Auftrittshäufigkeit in dem Text, ausgewählt. Die Anzahl der ausgewählten Wörter kann variieren, abhängig beispielsweise von der Länge des Anfragesatzes.The query sentence includes at least partially words from the captured text, but may also include other, previously unrecorded words. Typically, query records received in this step are subsequently included in the database, i. processed as described above with respect to the first phase. This will expand the database. Such an expansion of the database may occur at regular or irregular intervals. However, an embodiment is conceivable in which one or more query sets themselves form the database without any other text having been entered and processed beforehand. According to this embodiment, the at least one request sentence is first understood as a text base, and processed according to phase 1, and only then as the actual "request sentence" in the sense described below. In a next step, a predetermined number of words are selected from the query set. The selection is made such that the selected words occur in the text at a lower frequency compared to unselected words of the query sentence which also occur in the text. In other words, "meaningful" words of the query sentence, recognizable by a comparatively low frequency of occurrence in the text, are selected. The number of words selected may vary depending, for example, on the length of the query set.

Die ausgewählten Wörter dienen nun, wie nachfolgend beschrieben, als Ausgangs- oder Startwörter zum automatischen Erzeugen eines Antwortsatzes. D.h. ein zu erzeugender Antwortsatz besteht zu Beginn nur aus einem der ausgewählten Wörter des Anfragesatzes und wird dann sukzessive in einer oder beiden möglichen Richtungen linear ergänzt oder erweitert. Zum Ergänzen oder Erweitern werden in nachfolgenden Schritten so genannte Ergänzungswörter aus dem erfassten Text, auf Basis der in der ersten Phase aufgebauten Datenbasis, nach vorgegebenen, nachfolgend beschriebenen Regeln ausgewählt und an das aktuell vorliegende Antwortsatzfragment angefügt.The selected words are now used, as described below, as source or start words for automatically generating a response sentence. That At the beginning, a response sentence to be generated consists only of one of the selected words of the query sentence and is then successively linearized or extended in one or both possible directions. To supplement or expand, in subsequent steps so-called supplementary words are selected from the recorded text, based on the database built up in the first phase, according to predefined rules described below, and added to the currently present response sentence fragment.

Die Schritte des Bestimmens eines Ergänzungswortes und des Ergänzen des Antwortsatzes, d.h. des zu diesem Zeitpunkt vorliegenden Antwortsatzfragments, können in Bezug auf verschiedene Durchlaufrichtungen erfolgen, d.h. in Leserichtung, entgegen der Leserichtung oder, was bevorzugt ist, auch in beide Richtungen.The steps of determining a supplemental word and supplementing the answer sentence, i. of the response phrase fragment present at that time may be in relation to different directions of sweep, i. in reading direction, contrary to the reading direction or, which is preferred, also in both directions.

Zum Erzeugen des Antwortsatzes werden die Schritte des Bestimmens eines Ergänzungswortes und des Ergänzens des Antwortsatzes um das Ergänzungswort in der Regel so lange wiederholt, bis das Ergänzungswort als ein vorgegebenes Satzabschlusswort erkannt wird. Als Satzabschlusswörter dienen insbesondere die am Ende eines natürlichsprachlichen Satzes in der Regel angeordneten Satzzeichen, d.h. „.“, „?“, „!“, gegebenenfalls auch „:“ oder „;“. Dies gilt für beide Leserichtungen, da, wie vorstehend bereits beschrieben, ein „Satz“ für die Datenbasis vorliegend so erfasst wird, dass das erste Wort des Satzes (in Leserichtung) das abschließende Satzzeichen des vorhergehenden Satzes ist. Das Satzzeichen ist somit als ein Wort zweier aufeinanderfolgender Sätze verarbeitet. Dies ermöglicht ein einfaches Erkennen eines Satzanfangs, wenn ein Antwortsatz entgegen der herkömmlichen Leserichtung ergänzt wird.In order to generate the response sentence, the steps of determining a supplemental word and supplementing the response sentence by the supplementary word are usually repeated until the supplemental word is recognized as a predetermined sentence end word. In particular, punctuation marks arranged at the end of a natural language sentence, ie ".", "?", "!", If appropriate also ":" or ";", serve as sentence end words. This applies to both directions of reading, since, as already described above, a "sentence" for the database is presently recorded in such a way that the first word of the sentence (in the reading direction) is the final punctuation mark of the preceding sentence. The punctuation mark is thus a word of two processed successive sentences. This allows for easy recognition of a sentence beginning when a response sentence is added contrary to the conventional reading direction.

Zum Bestimmen eines Ergänzungswortes wird nun in einem weiteren Schritt eine so genannte Ergänzungswahrscheinlichkeit bestimmt. Die Ergänzungswahrscheinlichkeit wird bestimmt auf Basis der vorstehend beschriebenen ersten Wahrscheinlichkeit und kann insbesondere mit der ersten Wahrscheinlichkeit übereinstimmen. Gemäß einer Variante kann die Ergänzungswahrscheinlichkeit auf Basis der ersten Wahrscheinlichkeit in Kombination mit der zweiten Wahrscheinlichkeit oder der dritten Wahrscheinlichkeit, oder auf Basis der ersten Wahrscheinlichkeit in Kombination mit der zweiten Wahrscheinlichkeit und der dritten Wahrscheinlichkeit bestimmt werden. Beispielsweise kann die Ergänzungswahrscheinlichkeit als das Minimum der ersten und der zweiten (oder der ersten und dritten) Wahrscheinlichkeit bestimmt werden oder als Summe der ersten Wahrscheinlichkeit mit der zweiten Wahrscheinlichkeit und/oder der dritten Wahrscheinlichkeit. Analog kann die Ergänzungswahrscheinlichkeit durch Produktbildung auf Basis der ersten und der zweiten (und/oder dritten) Wahrscheinlichkeit erfolgen.To determine a supplementary word, a so-called supplementary probability is now determined in a further step. The supplementary probability is determined on the basis of the first probability described above and can in particular coincide with the first probability. According to a variant, the supplementary probability may be determined on the basis of the first probability in combination with the second probability or the third probability, or on the basis of the first probability in combination with the second probability and the third probability. For example, the supplementary probability may be determined as the minimum of the first and the second (or the first and third) probability or as the sum of the first probability with the second probability and / or the third probability. Similarly, the supplemental probability may be due to product formation based on the first and second (and / or third) probabilities.

Aus dem vorstehenden wird deutlich, dass die „Ergänzungswahrscheinlichkeit“ nicht notwendigerweise eine Wahrscheinlichkeit im mathematischen Sinne sein muss, sondern lediglich ein wohldefinierter Wert, mittels welchem sich verschiedene potentielle Ergänzungswörter dahingehend vergleichen lassen, wie „wahrscheinlich“ (gemessen mit der ersten Wahrscheinlichkeit und gegebenenfalls der zweiten/dritten Wahrscheinlichkeit) es gemäß dem erfassten und verarbeiteten Text-Corpus ist, dass sich das aktuell vorliegende Antwortsatzfragment in einer vorgegebenen Durchlaufrichtung durch das Ergänzungswort fortsetzt.From the above it is clear that the "supplementary probability" does not necessarily have to be a probability in the mathematical sense, but only a well-defined value, by means of which different potential supplementary words can be compared to "probable" (measured with the first probability and possibly the second / third probability) according to the detected and processed text corpus is that the currently present answer set fragment continues in a predetermined pass direction through the supplemental word.

Im nachfolgenden Schritt wird also, wie bereits allgemein beschrieben, ausgehend von zumindest einem der ausgewählten Wörter ein Antwortsatz erzeugt, ausgehend von dem ausgewählten Wort als Startwort, und auf Basis der bestimmten Ergänzungswahrscheinlichkeit. Dazu werden folgende Teilschritte ausgeführt:In the subsequent step, as already described generally, an answer sentence is generated on the basis of at least one of the selected words, starting from the selected word as the starting word, and on the basis of the determined supplementary probability. The following sub-steps are carried out for this purpose:

Es wird ein Ergänzungswort aus dem Text dadurch bestimmt, dass das Ergänzungswort aus einer Menge vorgegebener Größe von potentiellen Ergänzungswörtern ausgewählt wird, welche aus denjenigen potentiellen Ergänzungswörtern besteht, die mit Bezug auf eine vorgegebene Durchlaufrichtung mit Bezug auf den Antwortsatz die höchsten Ergänzungswahrscheinlichkeiten aufweisen. Mit anderen Worten werden auf Basis des aktuellen Antwortsatzfragments und mit Bezug auf eine vorgegebene Durchlaufrichtung die „wahrscheinlichsten“ Ergänzungen auf Basis der in der ersten Phase aufbereiteten Daten in einer Menge zusammengefasst, und aus dieser Menge wird dann das Ergänzungswort für den aktuellen Schritt ausgewählt.A supplemental word is determined from the text by selecting the supplement from a set of predetermined sizes of potential supplemental words consisting of those potential supplemental words having the highest complement probabilities with respect to a given pass direction with respect to the answer sentence. In other words, based on the current response fragment and with reference to a given sweep direction, the "most likely" supplements based on the data prepared in the first phase are combined in one set, and from this set the supplemental word for the current step is selected.

Gemäß einer ersten einfachen Variante kann die Menge die Größe eins haben, d.h. nur dasjenige Ergänzungswort mit der maximalen Ergänzungswahrscheinlichkeit umfassen. Dann erübrigt sich der Schritt des Auswählens.According to a first simple variant, the quantity may be one, that is, one. only include that supplementary word with the maximum supplementary probability. Then the step of selecting is unnecessary.

In dem Fall, dass die Menge mehrere potentielle Ergänzungswörter umfasst, kann die Auswahl nach verschiedenen Kriterien oder auch gemäß einer Heuristik erfolgen.In the case that the set comprises several potential supplementary words, the selection can be made according to different criteria or according to a heuristic.

Gemäß einer in diesem Zusammenhang bevorzugten Variante kann zum Auswählen des Ergänzungswortes aus der Menge der potentiellen Ergänzungswörter jeweils eine Ähnlichkeit eines der potentiellen Ergänzungswörter zu dem Anfragesatz gemäß einem vorgegebenen Ähnlichkeitsmaß bestimmt werden.According to a variant preferred in this connection, in order to select the supplementary word from the set of potential supplementary words, in each case a similarity of one of the potential supplementary words to the request set can be determined according to a predetermined similarity measure.

Die Ähnlichkeit kann beispielsweise syntaktischer Natur sein und beispielsweise schlicht die maximale Zeichenähnlichkeit des Ergänzungswortes zu einem Wort des Anfragesatzes messen. Die Ähnlichkeit kann alternativ oder zusätzlich eine semantische Komponente umfassen und beispielsweise eine Ähnlichkeit auf Basis einer vorgegebenen Synonymdatenbasis angeben.The similarity may, for example, be of a syntactical nature and, for example, simply measure the maximum sign similarity of the supplementary word to a word of the query sentence. The similarity may alternatively or additionally comprise a semantic component and, for example, indicate a similarity on the basis of a given synonym database.

Es wird dann ein potentielles Ergänzungswort als Ergänzungswort aus einer Teilmenge der Menge der potentiellen Ergänzungswörter ausgewählt wird, wobei die Teilmenge aus denjenigen potentiellen Ergänzungswörtern der Menge besteht, welche die höchsten Ähnlichkeiten zum Anfragesatz innerhalb der Menge potentieller Ergänzungswörter aufweisen. Aus der Teilmenge kann dann ein Ergänzungswort nach einer vorgegebenen Regel oder Heuristik ausgewählt werden.Then, a potential supplemental word is selected as a supplemental word from a subset of the set of potential supplemental words, the subset consisting of those potential supplemental words of the set having the highest similarities to the query set within the set of potential supplemental words. From the subset can then be selected a supplementary word according to a predetermined rule or heuristic.

Schließlich wird in dem abschließenden Teilschritt der Antwortsatz, d.h. das aktuell vorliegende Antwortsatzfragment, in Durchlaufrichtung um das Ergänzungswort ergänzt oder erweitert.Finally, in the final substep, the response sentence, i. the currently available answer sentence fragment, supplemented or extended in the pass direction by the additional word.

In der beschriebenen Weise kann durch wiederholte Anwendung der vorstehend beschriebenen Schritte der Antwortsatz schrittweise in eine oder beide Richtungen solange ergänzt werden, bis Anfang und Ende eines Satzes, anhand erkannter Satzabschlusswörter, erkannt werden. Ein als vollständig erkannter Antwortsatz kann ausgegebene werden. In the described manner, by repeated application of the above-described steps, the answer sentence can be incrementally supplemented in one or both directions until the beginning and end of a sentence are recognized based on recognized sentence end words. An answer set that is fully recognized may be output.

Es versteht sich, dass gemäß dem vorstehenden Verfahren, ausgehend von einem Startwort, nicht lediglich immer nur ein Antwortsatz erzeugt werden kann, sondern eine Mehrzahl von Antwortsatzvarianten. Dabei kann ausgehend von einem ausgewählten Wort eine Mehrzahl von Antwortsatzvarianten dadurch gebildet werden, dass der Antwortsatz, d.h. das jeweils vorliegende Fragment einer Antwortsatzvariante, jeweils durch ein Ergänzungswort aus der Menge vorgegebener Größe von potentiellen Ergänzungswörtern ergänzt wird. Wenn die Menge der potentiellen Ergänzungswörter beispielsweise immer vier Ergänzungswörter umfasst, so können in jeder Stufe, d.h. in jedem Ergänzungsschritt, vier mögliche Antwortsatzvarianten erzeugt werden; die Anzahl der erzeugten Varianten ist somit eine 4-er Potenz. Auch gemäß dieser Ausführungsform kann alternativ oder zusätzlich die Ähnlichkeitsbetrachtung mit Bezug zum Anfragesatz herangezogen werden, um eine Auswahl eines Ergänzungswortes zu unterstützen, beispielsweise wenn die Menge der potentiellen Ergänzungswörter größer ist als die Anzahl zu erzeugender Varianten in jedem Schritt.It is understood that according to the above method, starting from a start word, not only always only one response sentence can be generated, but a plurality of response sentence variants. In this case, based on a selected word, a plurality of response sentence variants can be formed by the fact that the response sentence, i. the respective fragment of a response sentence variant, each supplemented by a supplementary word from the set of predetermined size of potential supplementary words. For example, if the set of potential supplemental words always includes four additional words, then at each level, i. in each supplementary step, four possible response phrase variants are generated; the number of variants generated is thus a 4-power. Also according to this embodiment, alternatively or additionally, the similarity consideration with respect to the query set may be used to assist selection of a supplemental word, for example when the set of potential supplementary words is greater than the number of variants to be generated in each step.

Die jeweils erzeugten Antwortsatzvarianten können dann ausgegeben werden.The respectively generated response sentence variants can then be output.

Gemäß einer bevorzugten Ausführungsform können die Antwortsatzvarianten mittels zumindest einer der nachfolgenden Bewertungskriterien in einer dritten Phase bewertet werden. Danach kann zumindest ein Antwortsatzes aus den Antwortsatzvarianten auf Basis der Bewertung ausgewählt und ausgegeben werden.According to a preferred embodiment, the response sentence variants can be evaluated by means of at least one of the following evaluation criteria in a third phase. Thereafter, at least one response sentence from the response sentence variants can be selected and output on the basis of the rating.

Mögliche Bewertungskriterien sind beispielsweise:

- Summe der Wortfolgewahrscheinlichkeiten;
- Summe der n-Gramm-Wahrscheinlichkeiten;
- Informationsgehalt, auf Basis der Häufigkeiten, mit der die Wörter der jeweiligen Antwortsatzvariante im Text vorkommen;
- Ähnlichkeit der Antwortsatzvariante zum Anfragesatz oder zu einem Teil des Anfragesatzes.

Possible evaluation criteria are, for example:

- sum of word sequence probabilities;
- sum of the n-gram probabilities;
- information content, based on the frequency with which the words of the respective response phrase appear in the text;
Similarity of the response phrase variant to the request rate or to a part of the request rate.

Zur Erläuterung der Bewertungskriterien werden folgende Bezeichnungen verwendet: Ein Antwortsatz ist durch die Wortsequenz w₁, w₂, ..., w_n gegeben, der Anfragesatz wird mit $w_{1}^{_{'}}, w_{2}^{_{'}},..., w_{l_{1}}^{_{'}}$

bezeichnet.The following designations are used to explain the evaluation criteria: An answer sentence is given by the word sequence w ₁ , w ₂ ,..., W _n , the request sentence is denoted by

w_{1}^{_{'}} . w_{2}^{_{'}}, ..., w_{l_{1}}^{_{'}}

designated.

Eine Summe s₁ von Wortfolgewahrscheinlichkeiten wird wie folgt bestimmt: $s_{1} = \sum_{i = 2}^{n} p_{r} ((w_{i} | w_{i - 1}) + p_{l} (w_{i - 1} | w_{i})),$

wobei mit p_r bzw. p_l jeweils die Wortfolgewahrscheinlichkeit in Leserichtung bzw. gegen die Leserichtung bezeichnet werden.A sum s ₁ of word sequence probabilities is determined as follows:

s_{1} = Σ_{i = 2}^{n} p_{r} ((w_{i} | w_{i - 1}) + p_{l} (w_{i - 1} | w_{i})) .

where p _r and p _l respectively denote the word sequence probability in the reading direction or against the reading direction.

Eine Summe s₂ von n-Gramm-Wahrscheinlichkeiten wird wie folgt bestimmt: $s_{2} = \sum_{i = 4}^{n} p_{r} ((w_{i} | w_{i - 3}, w_{i - 2}, w_{i - 1}) + p_{l} (w_{i - 3} | w_{i - 2}, w_{i - 1}, w_{i})),$

A sum s ₂ of n-gram probabilities is determined as follows:

s_{2} = Σ_{i = 4}^{n} p_{r} ((w_{i} | w_{i - 3} . w_{i - 2} . w_{i - 1}) + p_{l} (w_{i - 3} | w_{i - 2} . w_{i - 1} . w_{i})) .

Ein Informationsgehalt s₃ einer Nachricht wird gemessen, indem die Wörter des Textes anhand der Häufigkeit sortiert und dementsprechend indiziert werden, und dann die Wortindices w_i des Antwortsatzes aufsummiert werden: $s_{3} = \sum_{i = 1}^{n} w_{i}$

An information content s _{3 of} a message is measured by sorting the words of the text by frequency and indexing accordingly, and then summing up the word index w _{i of} the answer sentence:

s_{3} = Σ_{i = 1}^{n} w_{i}

Eine Ähnlichkeit s₄ des Antwortsatzes zum Anfragesatz kann beispielsweise wie folgt berechnet werden: $s_{4} = \sum_{i = 1}^{n} \sum_{j = 1}^{l_{2}} δ (w_{i}, w_{j}^{_{"}}),$

wobei mit

w_{1}^{_{"}}, w_{2}^{_{"}},..., w_{l_{2}}^{_{"}}

die unterscheidbaren Wörter des Anfragesatzes

w_{1}^{_{'}}, w_{2}^{_{'}},..., w_{l_{1}}^{_{'}}

bezeichnet werden, und mit δ das Kroneckersymbol. For example, a similarity s ₄ of the query set to the query set can be calculated as follows:

s_{4} = Σ_{i = 1}^{n} Σ_{j = 1}^{l_{2}} δ (w_{i} . w_{j}^{_{"}}) .

being with

w_{1}^{_{"}} . w_{2}^{_{"}}, ..., w_{l}^{_{2}}

the discernible words of the query sentence

w_{1}^{_{'}} . w_{2}^{_{'}}, ..., w_{l_{1}}^{_{'}}

and with δ the Kroneckersymbol.

Alternativ kann eine Ähnlichkeit s₅des Antwortsatzes zum Anfragesatz bestimmt werden als: $s_{5} = \sum_{i = 1}^{n} \sum_{j = 1}^{k} (k - j - 1) δ (w_{i}, w_{j}^{s}),$

wobei die Wörter

w_{1}^{s}, w_{2}^{s},..., w_{k}^{s}

diejenigen Wörter des Anfragesatzes mit den geringsten Häufigkeiten sind.Alternatively, a similarity s _{5 of} the response sentence to the query rate can be determined as:

s_{5} = Σ_{i = 1}^{n} Σ_{j = 1}^{k} (k - j - 1) δ (w_{i} . w_{j}^{s}) .

where the words

w_{1}^{s} . w_{2}^{s}, ..., w_{k}^{s}

those words of the lowest frequency query set are.

Jedes dieser Bewertungskriterien kann einzeln oder in geeigneter Kombination mit einem oder mehreren anderen Bewertungskriterien herangezogen werden.Each of these evaluation criteria may be used individually or in a suitable combination with one or more other evaluation criteria.

Jedes dieser Bewertungskriterien kann auch normalisiert werden, indem die Bewertung s_i(a) für einen Satz a = w₁, w₁,..., w_n durch die Summe oder das Maximum aller Bewertungen dividiert wird. Für die nachfolgend noch beschriebenen Experimente wurde beispielsweise durch das Maximum aller Bewertungen dividiert.Each of these evaluation criteria can also be normalized by dividing the score s _i (a) for a set a = w ₁ , w ₁ , ..., w _n by the sum or the maximum of all scores. For the experiments described below, for example, was divided by the maximum of all ratings.

Die derart normierten Bewertungen können aufsummiert werden, wodurch sich eine Gesamtbewertung s eines Satzes ergibt: $s (a) = \sum_{i = 1}^{5} \frac{s_{i} (a)}{m a x_{b} s_{i} (b)} .$

The ratings normalized in this way can be summed up, resulting in an overall evaluation s of a sentence:

s (a) = Σ_{i = 1}^{5} \frac{s_{i} (a)}{m a x_{b} s_{i} (b)},

Alternativ könnten die Bewertungen auch unterschiedlich stark gewichtet werden. Außerdem könnte anstatt eine Normalisierung der Bewertungen durchzuführen ein Rang der Bewertung bestimmt (je größer die Bewertung, desto größer der Rang). Die einzelnen Ränge könnten dann ebenfalls aufsummiert oder gewichtet aufsummiert werden, um eine Gesamtbewertung s'(a) zu bestimmen.Alternatively, the ratings could be weighted differently. In addition, instead of performing a normalization of the scores, a rating rank could be determined (the larger the score, the larger the rank). The individual ranks could then also be summed up or weighted to determine an overall score s' (a).

Eine bevorzugte Ausführungsform einer erfindungsgemäßen Vorrichtung zum maschinellen Verarbeiten eines Textes umfasst zumindest einen Speicher und zumindest einen Prozessor, Die Vorrichtung ist eingerichtet, ein vorstehend beschriebenes Verfahren auszuführen, zumindest den Schritt des Erfassens und Speichers des Textes und den Schritt des Bestimmens der ersten Wahrscheinlichkeit, vorzugsweise aber auch die zum Erzeugen eines Antwortsatzes notwendigen Schritte.A preferred embodiment of a device according to the invention for processing a text comprises at least one memory and at least one processor. The device is set up to carry out a method described above, at least the step of detecting and storing the text and the step of determining the first probability, preferably but also the steps necessary to generate a response sentence.

Gemäß einer ersten bevorzugten Ausführungsform umfasst die Vorrichtung ein Spracherkennungssystem oder ein System zur automatischen Übersetzung von Texten. Die Vorrichtung ist dann eingerichtet, auf Eingabe eines Anfragesatzes, welcher ein von dem Spracherkennungssystem ausgegebenes Satzfragment auf Basis einer teilweise verarbeiteten Spracheingabe oder ein von dem System zur automatischen Übersetzung von Texten als automatische partielle Übersetzung ausgegebenes Satzfragment ist, einen Antwortsatz zu erzeugen, welcher das jeweilige Satzfragment ergänzt. Die Ergänzung erfolgt derart, dass eine Erkennungsgenauigkeit des Spracherkennungssystems oder eine Korrektheit des System zur automatischen Übersetzung von Texten verbessert werden kann, indem eine Menge seitens des Spracherkennungssystems oder des Systems zur automatischen Übersetzung von Texten grundsätzlich herangezogenen Ergänzungswörtern auf Basis der Ergänzungswahrscheinlichkeit eingeschränkt wird. D.h. mittels des erfindungsgemäßen Verfahrens können, abhängig von der bisher verstandenen Spracheingabe oder dem bisher übersetzen Anteil eines Satzes, die weitere Spracheingabe oder der Rest des zu übersetzenden Textes interpretiert werden.According to a first preferred embodiment, the device comprises a speech recognition system or a system for the automatic translation of texts. The device is then arranged to generate a response phrase which is the respective one upon input of a request sentence which is a sentence fragment output by the speech recognition system based on a partially processed speech input or an automatic partial translation output by the automatic translation system Sentence fragment added. The addition is made such that a recognition accuracy of the speech recognition system or a correctness of the automatic text translation system can be improved by restricting an amount of supplementary words basically used by the speech recognition system or the automatic text translation system on the basis of the supplementary likelihood. That By means of the method according to the invention, the further speech input or the rest of the text to be translated can be interpreted, depending on the voice input previously understood or the previously translated portion of a sentence.

Gemäß einer zweiten bevorzugten Ausführungsform kann die Vorrichtung weiterhin eine Eingabeeinrichtung zum Eingeben zumindest eines Teils des Anfragesatzes durch einen Nutzer der Vorrichtung umfassen, beispielsweise eine Tastatur, ein berührungsempfindliches Display, eine Spracheingabe oder dergleichen. Die Vorrichtung umfasst auch eine Ausgabeeinrichtung zum Ausgeben einer Mehrzahl von Ergänzungswörtern, welche im Rahmen der Erzeugung eines Antwortsatzes oder einer Antwortsatzvariante bestimmt worden sind, beispielsweise ein Display oder eine Sprachausgabe. Weiterhin umfasst die Vorrichtung eine Auswahleinrichtung, mittels welcher der Nutzer ein Ergänzungswort aus der Mehrzahl der ausgegebenen Ergänzungswörter zum Ergänzen des Antwortsatzes oder der Antwortsatzvariante auswählen kann. Diese Vorrichtung kann beispielsweise sprachgestörten Menschen darin unterstützen, sich auf einfache Weise zu artikulieren. According to a second preferred embodiment, the device may further comprise an input device for inputting at least part of the request set by a user of the device, for example a keyboard, a touch-sensitive display, a voice input or the like. The device also comprises an output device for outputting a plurality of supplementary words which have been determined in the context of the generation of a response sentence or an answer sentence variant, for example a display or a speech output. Furthermore, the device comprises a selection device, by means of which the user can select a supplementary word from the plurality of output supplement words to supplement the answer sentence or the response sentence variant. This device can, for example, help speech-impaired people to articulate themselves in a simple manner.

Figurenlistelist of figures

Die Erfindung wird nachfolgend anhand eines Ausführungsbeispiels und dazugehöriger Zeichnungen beispielhaft näher erläutert. Die Figuren zeigen:

1 eine durchschnittliche Anzahl der Wörter, die auf ein n-Gramm folgen können; berechnet für einen Text-Corpus mit 37 Millionen Wörtern;
2 Anzahl der n-Gramme in Abhängigkeit von n;
3 Speicherbedarf für n-Gramme zusammen mit zugehörigen Wörtern, die auf die n-Gramme folgen können, und assoziierte Häufigkeiten;
4 schematisch ein neuronales Netzwerk zur Spracherzeugung;
5 Anzahl der Wörter, die auf ein gegebenes Wort folgen in Abhängigkeit vom Abstand t, gemittelt über alle Wörter des Text-Corpus mit einer Häufigkeit > 100;
6 Anzahl der Wörter, die auf ein gegebenes Wort folgen in Abhängigkeit vom Abstand t, beispielhaft für die Wörter „gehe“, „sonne“, „rot“ und „auto“;
7 Aktualisierung der ersten Wahrscheinlichkeit für einen Beispielsatz;
8 Schritte einer bevorzugten Ausführungsform eines Verfahrens zum maschinellen Verarbeiten von Texten;
9A eine erste bevorzugte Ausführungsform einer erfindungsgemäßen Vorrichtung zum maschinellen Verarbeiten von Texten;
9B eine zweite bevorzugte Ausführungsform einer erfindungsgemäßen Vorrichtung zum maschinellen Verarbeiten von Texten; und
9C eine dritte bevorzugte Ausführungsform einer erfindungsgemäßen Vorrichtung zum maschinellen Verarbeiten von Texten.

The invention will be explained in more detail by way of example with reference to an embodiment and associated drawings. The figures show:

1 an average number of words that can follow an n-gram; calculated for a text corpus with 37 million words;
2 Number of n-grams depending on n;
3 Memory requirements for n-grams along with associated words that can follow the n-grams, and associated frequencies;
4 schematically a neural network for speech generation;
5 Number of words that follow a given word as a function of the distance t, averaged over all words of the text corpus with a frequency>100;
6 Number of words that follow a given word depending on the distance t, exemplifying the words "go", "sun", "red" and "auto";
7 Updating the first probability for an example sentence;
8th Steps of a preferred embodiment of a method for processing texts;
9A a first preferred embodiment of a device according to the invention for the automatic processing of texts;
9B a second preferred embodiment of a device according to the invention for processing texts; and
9C a third preferred embodiment of a device according to the invention for the automatic processing of texts.

Detaillierte Beschreibung der ErfindungDetailed description of the invention

Im Folgenden wird, mit Bezug zu 8, an einem konkreten Beispiel eine bevorzugte Ausführungsform eines Verfahrens zum maschinellen Verarbeiten von Texten beschrieben.In the following, with reference to 8th , a concrete example of a preferred embodiment of a method for processing texts described.

Eine wesentliche Beobachtung für das erfolgreiche Speichern und wieder Abrufen von Sätzen ist, wie bereits erwähnt, dass die relative Häufigkeit von Wörtern innerhalb eines Satzes im Wesentlichen konstant über einen sehr langen Zeitraum der Verarbeitung der gesprochenen, gehörten oder gelesenen Sprache zu sein scheint. Mit anderen Worten, ist die die verarbeitete Textbasis nur groß genug, so ergeben sich hinsichtlich der relativen Häufigkeit von Wörtern in Sätzen kaum mehr Veränderungen.An important observation for successfully storing and retrieving sentences is, as already mentioned, that the relative frequency of words within a sentence seems to be substantially constant over a very long period of processing of the spoken, heard or read speech. In other words, if the processed text base is large enough, there will be little change in the relative frequency of words in sentences.

In dem für die im Folgenden beschriebenen Experimente genutzten beispielhaften Textkorpus von 37 Millionen Wörtern werden Satzzeichen als Wörter betrachtet. Dabei sind der Punkt und danach das Komma die Wörter, die am häufigsten vorkommen. Danach kommen in absteigender Reihenfolge die Wörter „die“ (1.036.545), „der“ (751.687), „und“ (704.221), „das“ (552.140), „nicht“ (509.203), „ist“ (454.399). Ab Position 731 finden wir die Wörter „markt“ (4.386), „personen“ (4.382), „verdient“ (4.381), „rede“ (4.380). Ab Position 25.000 finden wir die Wörter „vorwort“ (56), „weggeworfen“ (56), „durchbringen“ (56). Hieraus wird deutlich, dass bestimmte Wörter des Wortschatzes häufiger als andere Wörter vorkommen. Die Artikel „der“, „die“, „das“ kommen natürlich sehr häufig vor. Andere Wörter entsprechend seltener.In the exemplary text corpus of 37 million words used for the experiments described below, punctuation marks are considered words. The point and then the comma are the words that occur most frequently. Then come in descending order the words "the" ( 1036545 ), "of the" ( 751687 ), "and" ( 704221 ), "the" ( 552140 ), "Not" ( 509203 ), "Is" ( 454399 ). From position 731 we find the words "market" ( 4386 ), "people" ( 4382 ), "earned" ( 4381 ), "Talk" ( 4380 ). From position 25.000 we find the words "preface" ( 56 ), "thrown away" ( 56 ), "Get through" ( 56 ). From this it becomes clear that certain words of the vocabulary occur more often than other words. Of course, the articles "the", "the", "that" are very common. Other words correspondingly rarer.

Wenn wir Sprache verarbeiten, ist es ein leichtes, diese Häufigkeiten neuronal zu speichern. Hierzu bräuchten wir nur für jedes Wort unseres Wortschatzes ein Neuron. In den synaptischen Verbindungen kann die Häufigkeit mittels der so genannten Hebb'schen Lemregel (vgl. D. O. Hebb, „The organization of behavior, Chapter 4, New York, Wiley, 1949,“ in Neurocomputing: Foundations of Research, J. A. Anderson and E. Rosenfeld, Eds. Cambridge, Massachusetts: The MIT Press, 1988 ) gespeichert werden. Auch wenn sich im Laufe der Sprachverarbeitung die Häufigkeiten der Wörter im Wortschatz verändern, so wird jedoch in der Regel, die Ordnung zwischen den Häufigkeiten der einzelnen Wörter eines Satzes erhalten bleiben. When we process speech, it is easy to store these frequencies neuronally. For this we only need one neuron for each word of our vocabulary. In the synaptic connections, the frequency can be determined by means of the so-called Hebbian Lemregel (cf. DO Hebb, "The Organization of Behavior, Chapter 4, New York, Wiley, 1949," in Neurocomputing: Foundations of Research, JA Anderson and E. Rosenfeld, Eds. Cambridge, Massachusetts: The MIT Press, 1988 ) get saved. Even if the frequencies of words in the vocabulary change in the course of speech processing, the order between the frequencies of the individual words of a sentence will, as a rule, be preserved.

Betrachten wir nun beispielhaft den folgenden Satz:Let's look at the following sentence as an example:

„Ich hoffe, dass morgen die Sonne scheint.“"I hope the sun will shine tomorrow."

Die Häufigkeiten der Wörter dieses Satzes sind wie folgt: „Ich (378.430) hoffe (3.514), (1.998.331) dass (134.717) morgen (4.272) die (1.036.545) Sonne (956) scheint (8.452) . (2.310.422)“.The frequencies of the words of this sentence are as follows: "I ( 378430 ) hope 3514 ) 1998331 ) that 134717 ) tomorrow ( 4272 ) the ( 1036545 ) Sun ( 956 ) seems ( 8452 ). ( 2310422 ) ".

Es ist relativ unwahrscheinlich, dass im weiteren Gebrauch der Sprache, d.h. bei Erweiterung des Textkorpus, die Häufigkeit von „Sonne“ größer als die Häufigkeit von „die“ wird. Zudem teilen uns gemäß einer wesentlichen Beobachtung diejenigen Wörter mit der geringsten Häufigkeit mit, „worum es in dem Beispielsatz geht“. Hier im Beispiel würden die vier Wörter mit der kleinsten Häufigkeit den Satz „hoffe morgen Sonne scheint“ ergeben. Die Wörter mit der kleinsten Häufigkeit im Satz sind also besonders aussagekräftig oder sinnhaltig. Die Wörter mit den höchsten Häufigkeiten sind lediglich Füllworte, die natürlich für einen grammatikalisch korrekten Satz notwendig sind, jedoch nicht wesentlich für das generelle Verständnis des Beispielsatzes sind.It is relatively unlikely that in further use of the language, i. when expanding the body of the text, the frequency of "sun" becomes greater than the frequency of "the" becomes. In addition, according to a substantial observation, those words with the least frequency tell us "what the example sentence is about." Here in the example, the four words with the lowest frequency would yield the sentence "hope tomorrow sun shines". The words with the lowest frequency in the sentence are therefore particularly meaningful or meaningful. The words with the highest frequencies are merely filler words, which of course are necessary for a grammatically correct sentence, but are not essential to the general understanding of the example sentence.

Im Folgenden wird exemplarisch und anschaulich dargelegt, wie vorstehend beschriebene Beobachtungen für das Abspeichern und Abrufen von Sprache verwendet werden kann. In Schritt S1 werden die Wörter eines vorgegebenen Text-Corpus erfasst. Dabei werden Indices verwendet, um Wörter zu repräsentieren. Zunächst werden wir denjenigen Satzzeichen, die ein Satzende markieren, Indices beginnend bei 0 zuweisen. Danach folgt das Komma. Somit haben diese Satzzeichen die niedrigsten Indizes. Wir vergeben anschließend für jedes neu erfasste Wort einen neuen Index. Für erfasste Wörter, die bereits zuvor erfasst worden sind, wird gezählt, wie oft diese bislang vorgekommen sind. Wir erhalten somit die Häufigkeit h(w) für Wort w. Nachdem eine bestimmte Anzahl von Sätzen verarbeitet wurde, kann wird die weitere Verarbeitung der Sätze unterbrochen und der Datenbestand überarbeitet oder bereinigt werden. Dieser Überarbeitungsschritt ist optional (in 8 nicht gezeigt) und kann auch ausgelassen werden.In the following, it will be exemplarily and clearly explained how observations described above can be used for the storage and retrieval of speech. In step S1, the words of a given text corpus are detected. It uses indices to represent words. First, we will assign indices starting at 0 to those punctuation marks that mark the end of a sentence. Then the comma follows. Thus, these punctuation marks have the lowest indices. We then assign a new index for each newly acquired word. For captured words that have already been recorded, it is counted how many times they have occurred so far. We thus obtain the frequency h (w) for word w. After a certain number of records has been processed, the further processing of the records can be interrupted and the data reworked or cleared. This reworking step is optional (in 8th not shown) and can be omitted.

Eine Möglichkeit ist es, nur diejenigen Wörter in den Wortschatz der aufzubauenden Datenbasis zu übernehmen, die „häufig genug“ vorkommen. Es können also Wörter gelöscht werden, die sehr selten vorkommen. Dieser Vorgehensweise liegt der Gedanke zugrunde, dass Wörter, die sehr selten vorkommen, irrelevant für den Wortschatz sind. Eventuell handelt es sich auch nur um Tippfehler, oder falsch geschriebene Worte, die nicht in den Datenbestand aufgenommen werden sollen.One possibility is to include only those words in the vocabulary of the database to be built that are "frequent enough". So words can be deleted that are very rare. This approach is based on the idea that words that are very rare are irrelevant to the vocabulary. It may also be just typing errors, or misspelled words that should not be included in the database.

Alternativ oder zusätzlich können die erfassten Wörter auch entsprechend der Häufigkeit h(w) neu sortiert werden. Nach der Sortierung hat dasjenige Wort, das am häufigsten vorkommt (abgesehen von den Satzzeichen), den niedrigsten Index. Wörter, die selten vorkommen, haben einen hohen Index. Daher können wir anstatt mit den Häufigkeiten der Worte auch alternativ mit den Indizes der Worte arbeiten, wenn die Worte entsprechend Ihrer Häufigkeit sortiert sind. Um den Wortschatz zu begrenzen, könnten wir nach der Sortierung Wörter mit w > n_max löschen. Auf diese Weise begrenzen wir den Speicherplatzbedarf auf die Größe des Wortschatzes, die wir für notwendig halten bzw. weiter verarbeiten wollen. Nur die Wörter, die sehr selten genutzt werden, fallen aus unserem Wortschatz heraus. Dies ist der Ansatz, der der nachfolgend beschriebenen konkreten Ausführungsform zu Grunde gelegt wird. Es werden nur die 100.000 am häufigsten vorkommenden Wörter berücksichtigt. Für jeden Satz und für jedes geeignete Wort des Satzes wird nun in Schritt S2 eine erste Wahrscheinlichkeit p¹ bestimmt. Diese erste Wahrscheinlichkeit gibt explizit oder implizit an, wie häufig das betreffende Wort, z.B. ein Wort w_i+1, in einem Satz w₁, w₂, ..., w_n in Kombination mit einem ersten Tupel (w_m
2, w_m
1, w_i) von Wörtern vorkommt. Dabei sind mit w_m
2und w_m
1 diejenigen Wörter bezeichnet, welche in dem bereits (in Leserichtung) durchlaufenen Satz die zweitkleinste und die kleinste Häufigkeit des Auftretens in dem erfassten Text aufweisen. Mit w_i ist das in Leserichtung dem in Frage stehenden Wort w_i+1, für welches die ersten Wahrscheinlichkeit berechnet wird, in Leserichtung unmittelbar vorhergehende Wort bezeichnet. Soll die Leserichtung, z.B. „nach rechts“, gleich mit bezeichnet werden, so kann die erste Wahrscheinlichkeit wie folgt bezeichnet werden: $p_{r}^{1} (w_{i + 1} | (w_{m_{2}}, w_{m_{1}}, w_{i})) .$

Alternatively or additionally, the detected words can also be re-sorted according to the frequency h (w). After sorting, the word that is most common (apart from the punctuation marks) has the lowest index. Words that are rare have a high index. Therefore, instead of using the frequencies of the words, we can alternatively work with the indices of the words, if the words are sorted according to their frequency. To limit the vocabulary, we could delete words with w> n _max after sorting. In this way, we limit the storage space requirement to the size of the vocabulary, which we consider necessary or want to process further. Only the words that are used very rarely fall out of our vocabulary. This is the approach that underlies the specific embodiment described below. Only the 100,000 most common words are considered. For each sentence and for each suitable word of the sentence, a first probability p ^{1 is} determined in step S2. This first probability explicitly or implicitly indicates how frequently the word concerned, eg a word w _{i + 1} , in a sentence w ₁ , w ₂ ,..., W _n in combination with a first tuple (w _m ₂ , w _m ₁ , w _i ) of words. In this case, with w _m ₂ and w _m ₁ denotes those words which have the second smallest and the smallest frequency of occurrence in the recorded text in the sentence already passed (in the reading direction). With w _i , in the reading direction the word w _{i + 1} in question, for which the first probability is calculated, is designated in the reading direction immediately preceding word. If the reading direction, eg "to the right", is to be designated with, then the first probability can be designated as follows:

p_{r}^{1} (w_{i + 1} | (w_{m_{2}} . w_{m_{1}} . w_{i})),

In analoger Weise kann eine erste Wahrscheinlichkeit beim Durchlaufen eines Satzes „von hinten nach vorne“, d.h. entgegen der Leserichtung, oder „nach links“ bestimmt werden, welche dann wie folgt bezeichnet wird: $p_{r}^{1} (w_{i} | (w_{m_{2}^{_{'}}}, w_{m_{1}^{'}}, w_{i + 1})),$

wobei

w_{m_{2}^{_{'}}}, w_{m_{1}^{_{'}}}

diejenigen Wörter bezeichnen, welche in dem bereits entgegen der Leserichtung durchlaufenen Satz die zweitkleinste und die kleinste Häufigkeit des Auftretens in dem erfassten Text aufweisen.In an analogous manner, a first probability can be determined when passing through a sentence "from the back to the front", ie opposite to the reading direction, or "to the left", which is then designated as follows:

p_{r}^{1} (w_{i} | (w_{m_{2}^{_{'}}} . w_{m_{1}^{'}} . w_{i + 1})) .

in which

w_{m_{2}^{_{'}}} . w_{m_{1}^{_{'}}}

denote those words which, in the sentence already passed in opposition to the reading direction, have the second smallest and the smallest frequency of occurrence in the recorded text.

Die erste Wahrscheinlichkeit dient dazu, einen Bezug herzustellen zwischen einem Ende eines aktuell durchlaufenen Satzes und dem Anfang oder zumindest früheren Teilen des Satzes. 7 zeigt für unseren Beispielsatz „Ich hoffe, dass morgen die Sonne scheint“, welche ersten Wahrscheinlichkeiten mit Bezug zu welchen ersten Tupeln beim Durchlaufen des Satzes aktualisiert werden (in 1 wird $statt p_{r}^{1}$

die Bezeichnung p̂ verwendet).The first likelihood is to establish a relationship between an end of a sentence currently being traversed and the beginning or at least earlier parts of the sentence. 7 shows for our example sentence "I hope the sun will shine tomorrow", which first probabilities are updated with reference to which first tuples passing through the set (in 1 becomes

instead of p_{r}^{}

the term p is used).

Die Eigenschaften der Elemente des ersten Tupels, welches zur Bestimmung der ersten Wahrscheinlichkeit herangezogen wird, sind nicht auf die vorstehend angegebene explizite Ausführungsform beschränkt. Allgemein umfasst das erste Tupel zumindest zwei Wörter, welche beim wortweisen, linearen Durchlaufen des Satzes, in Leserichtung oder gegen die Leserichtung, vor dem in Frage stehenden Wort angeordnet sind. Zumindest ein erstes der zumindest zwei Wörter, z.B. w_m
1, tritt im Vergleich zu anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auf. Weiter gilt, dass zumindest ein zweites der zumindest zwei Wörter, z.B. w_i, in dem Satz in einer vorgegebenen Umgebung des Wortes angeordnet ist, im konkreten Ausführungsbeispiel unmittelbar daneben.The properties of the elements of the first tuple used to determine the first likelihood are not limited to the explicit embodiment given above. In general, the first tuple comprises at least two words which are arranged in the word-wise, linear traversal of the sentence, in the reading direction or against the reading direction, before the word in question. At least a first of the at least two words, eg w _m ₁ , occurs less frequently in the text compared to other words already traversed in the sentence. Furthermore, at least a second of the at least two words, eg w _i , is arranged in the sentence in a given environment of the word, in the concrete exemplary embodiment directly next to it.

Analog zur ersten Wahrscheinlichkeit kann eine so genannte dritte Wahrscheinlichkeit $p_{r}^{3}, p_{l}^{3}$

ganz analog zu der ersten Wahrscheinlichkeit, bestimmt werden, auf Basis eines zweiten Tupels. Dieses zweite Tupel unterscheidet sich vom dem ersten Tupel bezüglich des zumindest einen ersten Wortes und/oder bezüglich des zumindest einen zweiten Wortes.Analogous to the first probability, there can be a so-called third probability

p_{r}

_{3} . p_{l}^{}

quite analogous to the first probability to be determined on the basis of a second tuple. This second tuple differs from the first tuple with respect to the at least one first word and / or with respect to the at least one second word.

Es versteht sich, dass nicht nur eine solche dritte Wahrscheinlichkeit bestimmt werden kann, sondern eine Mehrzahl analoger dritter Wahrscheinlichkeiten.It is understood that not only such a third probability can be determined but a plurality of analog third probabilities.

Zusätzlich kann, und wird in dem vorliegenden Beispiel, in Schritt S3 eine zweite Wahrscheinlichkeit - satzübergreifend - gebildet. Diese zweite Wahrscheinlichkeit gibt an, mit welcher relativen Häufigkeit ein vorgegebenes Wort w_i beim Durchlaufen eines Satzes gemäß einer vorgegebenen Durchlaufrichtung auf eine bestimmte Sequenz aufeinander folgender Wörter folgt, wobei die Sequenz eine vorgegebene Länge hat, welche variieren kann.In addition, and in the present example, in step S3, a second probability is formed - cross-sentence. This second probability indicates the relative frequency with which a given word w _i follows a particular sequence of consecutive words when it traverses a sentence according to a given sweep direction, the sequence having a predetermined length which can vary.

Für eine vorgegebene Sequenz der Länge 3 wird die zweite Wahrscheinlichkeit (für die herkömmliche Leserichtung) wie folgt bezeichnet: $p_{r}^{2} (w_{i} | w_{i - 1}, w_{i - 2}, w_{i - 3})$

For a given sequence of length 3 the second probability (for the conventional reading direction) is denoted as follows:

p_{r}^{2} (w_{i} | w_{i - 1} . w_{i - 2} . w_{i - 3})

Diese zweite Wahrscheinlichkeit wird mit Bezug auf das hier beschriebene Beispiel für beide Durchlaufrichtungen jeweils für Sequenzen der Länge 1, 2 und 3 bestimmt.This second probability will be described with reference to the example described herein for both sweep directions, respectively, for sequences of length 1 . 2 and 3 certainly.

Mit Hilfe der zweiten Wahrscheinlichkeit können Sätze beginnend mit jedem beliebigen Wort oder einer beliebigen Sequenz der Länge 2 oder 3 von vorgegebenen Wörtern ergänzt oder fortgesetzt werden. Bei dieser Vorgehensweise sind alle basierend auf der zweiten Wahrscheinlichkeit erzeugten Sätze oder Satzfragmente, die aus bis zu 4 Wörtern bestehen, syntaktisch korrekt.Using the second probability, sentences can begin with any word or sequence of length 2 or 3 be supplemented or continued by given words. At this The procedure is syntactically correct, based on the second probability generated sentences or sentence fragments, which consist of up to 4 words.

Nachdem nun in einer ersten Phase P1 ein ausreichend großer Text erfasst ist, die relevanten die relativen Häufigkeiten der Wörter repräsentierenden Werte bestimmt und gespeichert sind und die erste, zweite und gegebenenfalls dritte Wahrscheinlichkeit für die Wörter des Wortschatzes mit Bezug auf die entsprechenden ersten und gegebenenfalls zweiten Tupel bzw. die vorgegebenen Wortsequenzen verschiedener Länge ebenfalls bestimmt und gespeichert sind, kann die zweite Phase P2 des Verfahrens beginnen, in welcher Sätze auf Basis der in der ersten Phase aufgebauten Datenbasis erzeugt werden. Die erste Phase kann dabei beispielsweise mittels eines künstlichen neuronalen Netzes implementiert werden, z.B. mit Hilfe des eingangs erwähnten „Long Short-Term Memory“-Konzepts.Now that in a first phase P1, a sufficiently large text is detected, the relevant values representing the relative frequencies of the words are determined and stored and the first, second and possibly third probability for the words of the vocabulary with reference to the corresponding first and optionally second Tuple or the predetermined word sequences of different lengths are also determined and stored, the second phase P2 of the method can begin in which sets are generated based on the database built in the first phase. The first phase can be implemented, for example, by means of an artificial neural network, e.g. with the help of the aforementioned "Long Short-Term Memory" concept.

Um einen Satz zu erzeugen, wird das System, welches eingerichtet ist, das hier beschriebene Verfahren auszuführen, mit einem Anfragesatz konfrontiert, d.h. es wird ein Anfragesatz w₁, w₂, ..., w_n bereitgestellt, wie dies mit Bezug zu Schritt S4 angegeben ist.To generate a sentence, the system which is set up to carry out the method described here is confronted with a request sentence, ie a request set w ₁ , w ₂ ,..., W _{n is} provided, as described with reference to step S4 is specified.

Im nächsten Schritt S5 werden eine vorgegebene Anzahl von Wörtern aus dem Anfragesatz ausgewählt, beispielsweise k Wörter, wobei die ausgewählten Wörter, die Wörtern aus dem Text-Corpus entsprechen, im Vergleich zu nicht ausgewählten Wörtern des Anfragesatzes, welche ebenfalls in dem erfassten und verarbeiteten Text vorkommen, in dem Text mit einer geringeren Häufigkeit auftreten. Der Anfragesatz kann auch Wörter umfassen, die im bisher verarbeiteten Text nicht vorkommen. Diese Wörter werden allerdings in diesem Schritt S5 nicht ausgewählt.In the next step S5, a predetermined number of words are selected from the query set, for example, k words, with the selected words corresponding to words from the text corpus compared to unselected words of the query sentence, which are also in the captured and processed text occur in the text at a lower frequency. The query phrase may also include words that are not present in the text processed so far. However, these words are not selected in this step S5.

Nun können wir, ausgehend von diesen ausgewählten Wörtern, Sätze generieren, wie nachfolgend exemplarisch dargestellt.Now, based on these selected words, we can generate sentences, as exemplified below.

Ausgehend von jedem der aus dem Anfragesatz ausgewählten Wörter kann ein Antwortsatz oder eine Mehrzahl von Antwortsatzvarianten erzeugt werden (vgl. Schritt S7). Dazu wird vorab in Schritt S6 eine Ergänzungswahrscheinlichkeit $p_{r}^{_{*}}$

bzw.

p_{l}^{_{*}}

bestimmt, auf Basis der ersten Wahrscheinlichkeit

p_{r}^{1}

bzw.

p_{l}^{1}

und gegebenenfalls der zweiten bzw. dritten Wahrscheinlichkeit

p_{r}^{2}

bzw.

p_{l}^{2}, p_{r}^{3}

bzw.

p_{l}^{3} .

Die Ergänzungswahrscheinlichkeit gibt eine Wahrscheinlichkeit an, gemäß der ein Antwortsatzfragment, ausgehend von dem ausgewählten Wort des Anfragesatzes, in Leserichtung bzw. entgegen der Leserichtung, mit einem bestimmten Wort des verarbeiteten Text-Corpus fortgesetzt wird.Based on each of the words selected from the query sentence, a response sentence or a plurality of response sentence variants can be generated (compare step S7). For this purpose, a supplementary probability is preceded in step S6

p_{r}^{_{*}}

respectively.

p_{l}^{_{*}}

determined, based on the first probability

p_{r}

_{1}

respectively.

p_{l}^{}

and optionally the second or third probability

p_{r}

_{2}

respectively.

p_{l}^{} . p_{r}^{}

respectively.

p_{l}^{3},

The supplement probability indicates a probability according to which a response sentence fragment, proceeding from the selected word of the request sentence, in reading direction or contrary to the reading direction, is continued with a specific word of the processed text corpus.

Gemäß einer erste Variante kann die Ergänzungswahrscheinlichkeit $p_{r}^{*}$

der ersten Wahrscheinlichkeit

p_{r}^{1}

entsprechen (analog für die andere Durchlaufrichtung), d.h.

p_{r}^{*} : = p_{r}^{1} .

According to a first variant, the supplementary probability

p_{r}^{*}

the first probability

p_{r}

_{1}

correspond (analogous to the other direction of passage), ie

p_{r}^{*} : = p_{r}^{1},

Gemäß einer hier konkret betrachteten Variante wird die Ergänzungswahrscheinlichkeit gebildet vermöge der Vorschrift: $p_{r}^{*} : = min (p_{r}^{1}, p_{r}^{2}),$

analog für die andere Durchlaufrichtung. Mit anderen Worten wird beim Durchlaufen des aktuell vorliegenden Antwortsatzfragments w'₁, w'₂, ..., w'_i zum einen eine erste Wahrscheinlichkeit

p_{r}^{1} (w_{i + 1} | (w_{m_{2}}, w_{m_{1}}, w_{i}))

als auch eine zweite Wahrscheinlichkeit

p_{r}^{2} (w_{i + 1} | w_{i}, w_{i - 1}, w_{i - 2})

bestimmt und das Minimum der beiden Werte gebildet. Alternative Möglichkeiten wären eine Summen- oder Produktbildung oder ähnliche Verknüpfungen.According to a variant specifically considered here, the supplementary probability is formed by virtue of the rule:

p_{r}^{*} : = min (p_{r}^{} . p_{r}^{2}) .

analogous to the other direction of passage. In other words, when passing through the currently available answer fragment w ' ₁ , w' ₂ ,..., W ' _{i firstly} a first probability

p_{r}^{1} (w_{i + 1} | (w_{m_{2}} . w_{m_{1}} . w_{i}))

as well as a second probability

p_{r}^{2} (w_{i + 1} | w_{i} . w_{i - 1} . w_{i - 2})

determined and formed the minimum of the two values. Alternative options would be a sum or product formation or similar links.

Auf Basis dieser Ergänzungswahrscheinlichkeit kann nun in Teilschritt S7.1 eine Menge vorgegebener Größe von potentiellen Ergänzungswörtern bestimmt werden, welche aus denjenigen potentiellen Ergänzungswörtern besteht, die mit Bezug auf eine vorgegebene Durchlaufrichtung mit Bezug auf den Antwortsatz, d.h. das aktuell vorliegenden Antwortsatzfragment, die jeweils höchsten Ergänzungswahrscheinlichkeiten aufweisen. On the basis of this additional probability, a set of predefined sizes of potential supplementary words can be determined in sub-step S7.1, which consists of those potential supplementary words that are highest with respect to a given sweep direction with respect to the answer set, ie the currently available answer set fragment Supplementary probabilities.

Soll lediglich ein Antwortsatz erzeugt werden, kann aus dieser Menge ein Ergänzungswort ausgewählt werden, z.B. dasjenige mit der höchsten Ergänzungswahrscheinlichkeit. Die Auswahl kann zusätzlich noch von einer Ähnlichkeit der potentiellen Ergänzungswörter von dem Anfragesatz abhängen. Wie vorstehend bereits erläutert, wird diese Ähnlichkeit deterministisch gemäß einem vorgegebenen Ähnlichkeitsmaß, welches eine syntaktische und/oder semantische Ähnlichkeit beschreibt, beispielsweise auf Basis von Wortähnlichkeit oder auf Basis von Synonymen, bestimmt.If only one response sentence is to be generated, one additional word can be selected from this quantity, e.g. the one with the highest probability of addition. The selection may additionally depend on a similarity of the potential supplementary words to the request rate. As already explained above, this similarity is determined deterministically according to a predetermined similarity measure, which describes a syntactic and / or semantic similarity, for example on the basis of word similarity or on the basis of synonyms.

Mittels des schließlich ausgewählten Ergänzungswortes wird das aktuelle Anfragesatzfragment dann in Teilschritt S7.2 in der vorgegebenen Durchlaufrichtung ergänzt. Sollen eine Mehrzahl von Antwortsatzvarianten erzeugt werden, so können in analoger Weise aus der Menge der potentiellen Ergänzungswörter mehrere ausgewählt und jeweils zum Ergänzen des Fragments der aktuell betrachteten Antwortsatzvariante verwendet werden.By means of the finally selected supplemental word, the current query sentence fragment is then supplemented in substep S7.2 in the predetermined pass direction. If a plurality of response sentence variants are to be generated, more can be selected analogously from the set of potential supplementary words and used in each case to supplement the fragment of the currently considered response sentence variant.

Bei vier Alternativen hätten wir nach drei Worten 4³ = 64 mögliche Antwortsatzvarianten. Mit zunehmender Länge einer Antwortsatzvariante werden die möglichen Alternativen in der Regel jedoch weniger. So kann es vorkommen, dass nur noch eins der potentiellen Ergänzungswörter gültig ist, d.h. sowohl eine erste als auch zweite Wahrscheinlichkeit aufweist, die positiv ist. Die Erzeugung eines Antwortsatzes oder einer Antwortsatzvariante ist beendet, wenn wir an einem Wort ankommen, das ein Satzende bzw. einen Satzanfang markiert, z.B. einem Punkt, einem Fragezeichen oder einem Ausrufezeichen, d.h. an einem so genannten Satzabschlusswort.With four alternatives, we would have ³ = 4 possible answer sentence variants after 3 words. As the length of an answer set variant increases, however, the possible alternatives tend to be less. So it may happen that only one of the potential supplementary words is valid, ie has both a first and second probability, which is positive. The generation of a response sentence or an answer sentence variant is ended when we arrive at a word that marks a sentence end or sentence beginning, eg a point, a question mark or an exclamation point, ie at a so-called sentence end word.

Die Ergänzung erfolgt, ausgehend von dem eingangs ausgewählten Wort aus dem Anfragesatz, in der Regel in beiden Durchlaufrichtungen, so dass am Ende ein vollständiger Antwortsatz bzw. eine Mehrzahl von vollständigen Antwortsatzvarianten entstehen.The supplement is, starting from the word initially selected from the query set, usually in both pass directions, so that at the end of a complete response sentence or a plurality of complete response sentence variants arise.

Um aus der Mehrzahl der Varianten ein oder mehrere Antwortsätze hoher Qualität auszuwählen, können die Antwortsatzvarianten in der vorstehend bereits im Detail beschriebenen Weise in einer dritten Phase P3 des Verfahrens mittels verschiedener Kriterien s₁, s₂, s₃, s₄, s₅ oder s in Schritt S8 bewertet werden. In Schritt S9 können dann ein oder mehrere bestbewertete Antwortsätze ausgegeben werden.In order to select one or more high-quality response sentences from the plurality of variants, the response sentence variants can be described in detail in the manner described above in a third phase P3 of the method by means of various criteria s ₁ , s ₂ , s ₃ , s ₄ , s ₅ or s in step S8. In step S9, one or more best rated answer sets may then be output.

Ergebnisse einer Anwendung des beschriebenen Verfahrens auf den mehrfach erwähnten Text-Corpus werden im Folgenden knapp dargestellt:Results of an application of the described method to the text corpus mentioned several times are briefly outlined below:

Beispielhaft sind verschiedene Anfragesätze an das entwickelte System gerichtet worden. Für jeden Anfragesatz sind hier die sieben besten Antwortmöglichkeiten mit absteigender Bewertung s(a) angegeben. Für die Bewertung wurden lediglich die Kriterien s₁, s₃, s₄ und s₅ herangezogen. Als Text-Corpus wurde das Politikforum von Heise.de mit 37 Millionen Wörtern erfasst und verarbeitet. Daher beziehen sich die Anfragesätze auf den Themenkreis Politik. Die Antwortmöglichkeiten sind im Wesentlichen direkt im Text-Corpus vorhanden. Als Parameter k wurde 3 gewählt, d.h. der wesentliche Inhalt wird durch nur 3 Wörter des Anfragesatzes angezeigt. Alle Wörter sind klein geschrieben, da auf Unterscheidung zwischen Groß- und Klein-Schreibung aus Speicherplatzgründen verzichtet worden ist.By way of example, various request sets have been directed to the developed system. For each query rate, here are the seven best answer options with descending rating s (a). For the evaluation, only the criteria s ₁ , s ₃ , s ₄ and s _{5 were} used. As a text corpus, the policy forum of Heise.de was recorded and processed with 37 million words. Therefore, the query rates refer to the topic policy. The answer options are essentially available directly in the text corpus. As parameter k, 3 was selected, ie the essential content is indicated by only 3 words of the query sentence. All words are written in lower case, since distinction between upper and lower case for memory reasons has been omitted.

Anfragesatz 1: „warum ist die arbeitslosigkeit so hoch?“inquiry set 1 : "Why is unemployment so high?"

Ausgegebene Antwortsatzvarianten:

- die arbeitslosigkeit liegt bei gut 4% , was weltweit spitze ist.
- an der arbeitslosigkeit sind die arbeitslosen schuld. (Im Korpus enthalten: „An der Arbeitslosigkeit sind die Arbeitslosen schuld, an den Staatsschulden der Staat, an der Kreditkrise die Kreditnehmer.“)
- die arbeitslosigkeit in europa ist zwischen 1994 und 1998 um 3%! (Im Korpus enthalten: „Die Arbeitslosigkeit in Europa ist zwischen 1994 und 1998 um 3% (!!!) gefallen.“ Ausrufezeichen im Satz wurde als Satzende interpretiert)
- die steuern sind zu hoch, wie es sich die leute gefallen lassen. (Im Korpus enthalten: „Die Steuern sind immer so hoch, wie es sich die Leute gefallen lassen.“)
- die arbeitslosigkeit auf 2 millionen senken wollte. Im Korpus enthalten: „Ich erinnere mich, dass der Genosse Kanzler (der Erleuchtete, gepriesen sei sein Name!) die Arbeitslosigkeit auf 2 Millionen senken wollte.‟ Ausrufezeichen im Satz wurde als Satzende interpretiert)
- die arbeitslosigkeit liegt bei 6%.

Issued response sentence variants:

- Unemployment is just over 4%, which is the best in the world.
- The unemployed are to blame for unemployment. (In the corpus included: "Unemployed are the unemployed to blame, to the state debt of the state, to the credit crisis borrowers.")
- unemployment in europe is 3% between 1994 and 1998! (The corpus contains: "Unemployment in Europe fell by 3% (!!!) between 1994 and 1998." Exclamation mark in the sentence was interpreted as the end of the sentence)
- the taxes are too high, as people like it. (In the corpus included: "The taxes are always as high as people like it.")
- wanted to lower unemployment to 2 million. In the corpus contained: "I remember that Comrade Chancellor (the Enlightened, praise his name!) Wanted to reduce unemployment to 2 million." Exclamation point in the sentence was interpreted as the end of the sentence)
- unemployment is 6%.

Anfragesatz 2: „ist eine demokratie besser als eine diktatur?“inquiry set 2 : "Is a democracy better than a dictatorship?"

Ausgegebene Antwortsatzvarianten:

- in der demokratie gibt es keine diktatur. (Im Korpus enthalten: „In einer Demokratie gibt es keine Diktatur“)
- eine demokratie, die in wahrheit eine demokratur ist, muss man auch nazis tolerieren. (Im Korpus enthalten: „Und in eine Demokratie (die in Wahrheit eine Demokratur ist), muss man auch Nazis tolerieren.“)
- eine demokratie, in der abweichende gedanken und ideen gleich mundtot gemacht werden, ist keine demokratie.
- in der demokratie ist es genau andersherum.
- die demokratie ist in der krise.
- diktatur, eine scheinbare ordnung.

Issued response sentence variants:

- in the democracy there is no dictatorship. (In the corpus included: "In a democracy there is no dictatorship")
- a democracy that is truly a demo-racy, you have to tolerate nazis. (In the corpus included: "And in a democracy (which is in fact a democrature), one must also tolerate Nazis.")
- A democracy in which dissenting thoughts and ideas are silenced is not democracy.
- in democracy it is the other way around.
- democracy is in crisis.
- dictatorship, an apparent order.

Anfragesatz 3: „Die Universitäten bilden viele Studenten aus“.inquiry set 3 : "Universities train many students".

Ausgegebene Antwortsatzvarianten:

- in den universitäten gibt es nicht für jeden studenten einen sitzplatz in den vorlesungen.
- an den universitäten findest du heute z.B. nur noch sehr wenige junge menschen, die aus arbeiterfamilien stammen.
- studenten, die für mehr geld, wenn sie entweder arbeiten, oder mami und papi sie aushalten meist nicht unbedingt freiwillig, sondern weil sie es gesetzlich müssen. (Im Korpus enthalten: „Studenten haben nur mehr Geld, wenn Sie entweder arbeiten, oder Mami und Papi sie aushalten (meist nicht unbedingt freiwillig, sondern weil Sie es gesetzlich müssen).“)
- studenten, die für mehr geld für die unis streiken, sollten lieber ihre aktionen dahingehend ausrichten, diesen völlig maroden uni filz zu bekämpfen.
- schulen und universitäten sollten stärker denn je brutstätte für die selbständigkeit sein.
- damit hätten die kinder auch gleiche chancen bei den universitäten.

Issued response sentence variants:

- in universities there is not a seat in the lectures for every student.
- Today, for example, at the universities you will only find very few young people who come from working-class families.
- Students who are willing to spend more money if they either work, or mommy and daddy do not necessarily endure it voluntarily, but because they need it legally. (In the corpus included: "Students only have more money if they either work or mum and daddy can endure them (usually not necessarily voluntary, but because they have to do it legally).")
- Students who strike for more money for the unis should rather direct their actions to combat this totally dilapidated uni felt.
- Schools and universities should be more than ever a breeding ground for self-reliance.
- that would give the children equal opportunities at the universities.

Zum Abschlus noch ein Beispiel, das nicht zum Themenkomplex Politik gehört.Finally, an example that does not belong to the topic of politics.

Anfragesatz 4: „ich esse gerne obst.“inquiry set 4 : "I like to eat fruit."

Ausgegebene Antwortsatzvarianten:

- ich esse auch in der kantine.
- das esse ich nicht.
- ich esse auch oft gesunden eintopf.
- natürlich sollen sie weiter üppig versorgt werden, die sich frisches obst und gemüse leisten können. (Im Korpus enthalten: „Natürlich sollen sie weiter üppig versorgt werden, so dass sie sich frisches Obst und Gemüse leisten können.“)
- esse, ist das sicher auch nicht gesund. (Im Korpus enthalten: „Wenn ich auf einen Schlag 30 Bio-Eier (grün!) esse, ist das sicher auch nicht gesund.“)
- ich esse, also bin ich cheers.

Issued response sentence variants:

- I also eat in the cafeteria.
- I do not eat that.
- I often eat healthy stew.
- of course you should continue to be provided with plenty of fresh fruit and vegetables. (In the corpus included: "Of course, they should continue to be lavishly supplied, so that they can afford fresh fruit and vegetables.")
- Eat, that's certainly not healthy. (In the corpus included: "If I in one fell swoop 30 Organic eggs (green!) Eat, that's certainly not healthy. ")
- I eat, so I'm cheers.

Abschließend sind in den 9A. 9B und 9C drei bevorzugte Ausführungsformen einer Vorrichtung 100, 101, 102 zum maschinellen Verarbeiten von Texten dargestellt. Diese umfassen jeweils einen Speicher 110 und zumindest einen Prozessor 120, wobei die Vorrichtungen 100, 100' jeweils eingerichtet sind, ein Verfahren der vorstehend beschriebenen Art auszuführen. Finally, in the 9A , 9B and 9C show three preferred embodiments of a device 100 . 101 . 102 for the automatic processing of texts. These each include a memory 110 and at least one processor 120 , wherein the devices 100 . 100 ' are each configured to perform a method of the type described above.

Die Ausführungsform 100 nach 9A umfasst eine Eingabeeinrichtung 500, beispielsweise eine Tastatur, ein berührungsempfindliches Display, eine Spracheingabe oder dergleichen, und eine Ausgabeeinrichtung 600, beispielsweise ein Display oder eine Sprachausgabe. Die Vorrichtung 100 ist eingerichtet, auf Eingabe eines Anfragesatzes mittels der Eingabeeinrichtung 500 über die Ausgabeeinrichtung 600 einen Antwortsatz auszugeben, der mittels des vorstehend beschriebenen Verfahrens erzeugt worden ist.The embodiment 100 to 9A includes an input device 500 For example, a keyboard, a touch-sensitive display, a voice input or the like, and an output device 600 For example, a display or a voice output. The device 100 is set up to input a request rate by means of the input device 500 via the output device 600 to issue a response sentence that has been generated by the method described above.

Die Ausführungsform 101 nach 9B umfasst ein Spracherkennungssystem 200 oder alternativ ein System 300 zur automatischen Übersetzung von Texten.The embodiment 101 to 9B includes a speech recognition system 200 or alternatively a system 300 for the automatic translation of texts.

Die Vorrichtung 100 ist eingerichtet, auf Basis eines Anfragesatzes, welcher ein von dem Spracherkennungssystem 200 ausgegebenes Satzfragment oder ein von dem System 300 zur automatischen Übersetzung von Texten als partielle automatische Übersetzung ausgegebenes Satzfragment ist, einen Antwortsatz in vorstehend im Detail beschriebener Weise zu erzeugen, welche das jeweilige Satzfragment ergänzt. Mittels dieses Antwortsatzes kann beispielsweise eine Erkennungsgenauigkeit des Spracherkennungssystems 200 oder eine Korrektheit des Systems 300 zur automatischen Übersetzung von Texten verbessert werden, da eine seitens des jeweiligen Systems grundsätzlich betrachtete Menge von Ergänzungswörtern (zur Interpretation von Sprachdaten bzw. zur Übersetzung eines Begriffs) auf Basis der erfindungsgemäß bestimmten Ergänzungswahrscheinlichkeit erheblich eingeschränkt werden kann.The device 100 is set up based on a request set which is one of the speech recognition system 200 output sentence fragment or one from the system 300 The sentence fragment output for automatic translation of texts as a partial automatic translation is to generate a response sentence in the manner described in detail above, which complements the respective sentence fragment. By means of this response sentence, for example, a recognition accuracy of the speech recognition system 200 or a correctness of the system 300 be improved for the automatic translation of texts, as a principle of the respective system considered amount of additional words (for the interpretation of speech data or for the translation of a term) based on the inventively determined supplementary probability can be significantly limited.

Bei einem Spracherkennungssystem werden Informationen verarbeitet, die z.B. durch ein Mikrophon aufgenommen oder in einer Datei gespeichert wurden. Während der Spracherkennung (wenn ein Teil der Audio-Informationen verarbeitet wurde), kann die Spracherkennung durch das vorgestellte Verfahren verbessert werden. Hierzu wird das bisher Gesagte oder die bisher verarbeiteten Audio-Informationen als Antwortsatzfragment betrachtet, den es zu ergänzen gilt. Das hier vorgestellte Verfahren stellt für dieses Antwortsatzfragment eine Reihe von möglichen Ergänzungswörtern bereit. Bei der Erkennung von gesprochener Sprache gibt es evtl. alternative Interpretationsmöglichkeiten. Durch die vom Verfahren bereitgestellten Ergänzungswörter können die alternativen Interpretationsmöglichkeiten eingeschränkt werden. Damit kann die Erkennungsrate verbessert werden. Die Wahrscheinlichkeit der Interpretationsmöglichkeit kann erhöht werden, wenn das entsprechende Ergänzungswort aufgrund des hier vorgestellten Verfahrens „vorhanden ist“, d.h. eine positive Ergänzungswahrscheinlichkeit aufweist. Somit werden Sätze, die aufgrund der Datenbasis erzeugbar sind, mit höherer Wahrscheinlichkeit erkannt.In a speech recognition system, information is processed, e.g. recorded by a microphone or stored in a file. During speech recognition (when part of the audio information has been processed), the speech recognition can be improved by the presented method. To this end, what has been said so far or the previously processed audio information is regarded as an answer fragment which must be supplemented. The method presented here provides a number of possible supplementary words for this answer fragment. When recognizing spoken language, there may be alternative interpretations. The supplementary words provided by the method may limit the alternative interpretation options. This can improve the recognition rate. The probability of interpretation possibility can be increased if the corresponding supplemental word "exists" due to the method presented here, i. has a positive complement probability. Thus, sentences that can be generated on the basis of the database are more likely to be recognized.

Zudem kann eine sprecherunabhängige Erkennung gefördert werden. Es muss nun nämlich nicht mehr der Inhalt der gesprochenen Sprache erkannt werden. Vielmehr ist es ausreichend festzustellen, welchem der Ergänzungswörter die folgenden Audio-Informationen am ehesten entsprechen.In addition, a speaker-independent recognition can be promoted. It is no longer necessary to recognize the content of the spoken language. Rather, it is sufficient to determine which of the supplement words most closely matches the following audio information.

Eine Unterscheidung zwischen Wortalternativen (den Ergänzungswörtern) ist also ausreichend.A distinction between alternative words (the supplementary words) is sufficient.

Die Verbesserung von Übersetzungssystemen funktioniert analog. Bei einem Übersetzungssystem kann der bisher übersetzte Text als Antwortsatzfragment betrachtet werden. Vom Übersetzungssystem stehen evtl. alternative Wörter bereit, um den bisher erzeugten Satz fortzusetzen. Es werden dann die Auswahlwahrscheinlichkeiten der Wörter der Zielsprache erhöht, die vom hier vorgestellten Verfahren als Ergänzungswörter vorgeschlagen werden. Somit wird die Qualität der Übersetzung verbessert, da die Datenbasis als Grundlage für die Übersetzung dient.The improvement of translation systems works analogously. In a translation system, the previously translated text may be considered as an answer sentence fragment. The translation system may have alternative words ready to continue the sentence previously generated. The selection probabilities of the words of the target language are then increased, which are proposed as supplementary words by the method presented here. This improves the quality of the translation, as the database serves as the basis for the translation.

Die Vorrichtung 100 kann zusätzlich, mittels einer Vergleichseinrichtung (nicht gezeigt), automatisch den erzeugten Antwortsatz mit dem Anfragesatz nach vorgegebenen Regeln vergleichen, beispielsweise hinsichtlich syntaktischer und/oder semantischer Ähnlichkeit.The device 100 additionally, by means of a comparison device (not shown), automatically compare the generated response sentence with the query sentence according to predetermined rules, for example with regard to syntactic and / or semantic similarity.

Die dritte Ausführungsform 102 nach 9C umfasst ebenfalls eine vorstehend beschriebene Eingabeeinrichtung 500, die zum Eingeben zumindest eines Teils des Anfragesatzes durch einen Nutzer der Vorrichtung eingerichtet ist. Die Vorrichtung 102 umfasst auch eine vorstehend beschriebene Ausgabeeinrichtung 600, die zum Ausgeben einer Mehrzahl von Ergänzungswörtern eingerichtet ist, welche im Rahmen der Erzeugung eines Antwortsatzes oder einer Antwortsatzvariante bestimmt worden sind, beispielsweise ein Display oder eine Sprachausgabe. Weiterhin umfasst die Vorrichtung 102 eine Auswahleinrichtung 700, mittels welcher der Nutzer ein Ergänzungswort aus der Mehrzahl der ausgegebenen Ergänzungswörter zum Ergänzen des Antwortsatzes oder der Antwortsatzvariante auswählen kann. Die Auswahleinrichtung 700 kann mit der Eingabeeinrichtung 500 kombiniert sein. Genauso kann, wie in der Figur gezeigt, ein berührungsempfindliches Display als kombinierte Ein- und Ausgabeeinrichtung 500, 600 dienen.The third embodiment 102 to 9C also includes an input device described above 500 , which is set up for inputting at least part of the request set by a user of the device. The device 102 also includes an output device described above 600 which is arranged to output a plurality of supplementary words which have been determined in the context of the generation of a response sentence or an answer sentence variant, for example a display or a speech output. Furthermore, the device comprises 102 a selection device 700 , by means of which the user can select a supplemental word from the plurality of output supplemental words to supplement the answer sentence or phrase variant. The selection device 700 can with the input device 500 be combined. Similarly, as shown in the figure, a touch-sensitive display as a combined input and output device 500 . 600 serve.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

US 2014/0149107 A1 [0003]US 2014/0149107 A1 [0003]
US 7562005 [0003]US 7562005 [0003]
US 7496621 [0003]US 7496621 [0003]

Zitierte Nicht-PatentliteraturCited non-patent literature

S. Chengjian, S. Zhu, and Z. Shi, „Image annotation via deep neural network,“ in International Conference on Machine Vision Applications, Tokyo, Japan, May 2015, pp. 518-521 [0002]S. Chengjian, S. Zhu, and Z. Shi, "Image Annotation via the Deep Neural Network," in International Conference on Machine Vision Applications, Tokyo, Japan, May 2015, pp. 39-44. 518-521 [0002]
Kiros et al. (R. Kiros, R. Salakhutdinov, and R. Zemel, „Unifying visual-semantic embeddings with multimodal neural language models,“ in TACL, 2015) [0002]Kiros et al. (R. Kiros, R. Salakhutdinov, and R. Zemel, "Unifying visual-semantic embeddings with multimodal neural language models," in TACL, 2015). [0002]
S. Hochreiter and J. Schidhuber, „Long short-term memory,“ Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997 [0002]S. Hochreiter and J. Schidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997 [0002]
Vinyals et al. (vgl. O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, „Show and tell: A neural image caption generator,“ in Proceedings of Computer Vision and Pattern Recognition. IEEE, 2015, pp. 3156-3164) [0002]Vinyals et al. (See O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, "Show and Tell: A neural image caption generator," in Proceedings of Computer Vision and Pattern Recognition, IEEE, 2015, pp. 3156-3164 ) [0002]
Hermann et al. (vgl. K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom, „Teaching machines to read and comprehend,“ in Advances in Neural Information Processing Systems (NIPS), 2015 [0002]Hermann et al. (KM Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom, "Teaching machines to read and comprehend," in Advances in Neural Information Processing Systems (NIPS). , 2015 [0002]
A. Lally and P. Fodor, „Natural language processing with prolog in the IBM Watson system,“ Association for Logic Programming, 2011 [0002]A. Lally and P. Fodor, "Natural language processing with prologue in the IBM Watson system," Association for Logic Programming, 2011 [0002]
D. O. Hebb, „The organization of behavior, Chapter 4, New York, Wiley, 1949,“ in Neurocomputing: Foundations of Research, J. A. Anderson and E. Rosenfeld, Eds. Cambridge, Massachusetts: The MIT Press, 1988 [0083]D. O. Hebb, "The Organization of Behavior, Chapter 4, New York, Wiley, 1949," in Neurocomputing: Foundations of Research, J.A. Anderson and E. Rosenfeld, Eds. Cambridge, Massachusetts: The MIT Press, 1988 [0083]

Claims

Verfahren zum maschinellen Verarbeiten eines Textes, umfassend die Schritte: - Erfassen und Speichern (S1) des Textes, wobei für jedes erfasste Wort ein Wert bestimmt und gespeichert wird, welcher repräsentiert, wie häufig dieses Wort in dem Text im Vergleich zu anderen Wörtern des Textes vorkommt; - Für einen Satz des Textes und für ein Wort des Satzes: Bestimmen und Speichern (S2) einer ersten Wahrscheinlichkeit, mit der das Wort in dem Satz in Kombination mit einem ersten Tupel von Wörtern vorkommt, wobei das erste Tupel - zumindest zwei Wörter umfasst, welche beim Durchlaufen des Satzes vor dem Wort angeordnet sind; - wobei zumindest ein erstes der zumindest zwei Wörter im Vergleich zu anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auftritt; und - wobei zumindest ein zweites der zumindest zwei Wörter in dem Satz in einer vorgegebenen Umgebung des Wortes angeordnet ist.A method of processing a text comprising the steps of: - capturing and storing (S1) the text, wherein for each detected word, a value is determined and stored representing how often that word occurs in the text compared to other words of the text; - For a sentence of the text and for a word of the sentence: Determining and storing (S2) a first probability with which the word occurs in the sentence in combination with a first tuple of words, wherein the first tuple comprises at least two words which are arranged in front of the word when passing through the sentence; wherein at least a first of the at least two words occurs in the lesser frequency text in comparison to other words already traversed in the sentence; and - wherein at least a second of the at least two words in the sentence is arranged in a given environment of the word.

Verfahren nach Anspruch 1, wobei das erste Tupel zumindest drei Wörter umfasst, und wobei zumindest zwei Wörter der zumindest drei Wörter im Vergleich zu allen anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auftreten, wobei die zumindest zwei Wörter in dem ersten Tupel vorzugsweise bezüglich der Häufigkeit, mit der diese Wörter im Text vorkommen, sortiert sind.Method according to Claim 1 wherein the first tuple comprises at least three words, and wherein at least two words of the at least three words occur in the lesser frequency text compared to all other words already traversed in the sentence, the at least two words in the first tuple preferably referring to the first tuple The frequency with which these words occur in the text are sorted.

Verfahren nach Anspruch 1 oder 2, wobei das zumindest eine zweite der zumindest zwei Wörter des ersten Tupels beim Durchlaufen des Satzes unmittelbar vor dem Wort angeordnet ist.Method according to Claim 1 or 2 wherein the at least one second of the at least two words of the first tuple is located in passing through the sentence immediately before the word.

Verfahren nach einem der Ansprüche 1 bis 3, umfassend den weiteren Schritt: Bestimmen und Speichern (S3) einer zweiten Wahrscheinlichkeit, mit der das Wort beim Durchlaufen des Satzes auf eine Sequenz von aufeinanderfolgenden Wörtern folgt, die durch eine vorgegebene Anzahl von dem Wort vorhergehenden Wörtern bestimmt ist, in dem Satz oder in einem an den Satz angrenzenden Satz.Method according to one of Claims 1 to 3 comprising the further step of: determining and storing (S3) a second probability that the word, as it traverses the sentence, follows a sequence of consecutive words determined by a predetermined number of words preceding the word, in the sentence or in a sentence adjacent to the sentence.

Verfahren nach einem der Ansprüche 1 bis 4, umfassend den weiteren Schritt: Bestimmen und Speichern einer dritten Wahrscheinlichkeit, mit der das Wort in dem Satz in Kombination mit einem zweiten Tupel von Wörtern vorkommt, wobei das zweite Tupel - zumindest zwei Wörter umfasst, welche beim Durchlaufen des Satzes vor dem Wort angeordnet sind; - wobei zumindest ein erstes der zumindest zwei Wörter im Vergleich zu anderen in dem Satz bereits durchlaufenen Wörtern in dem Text mit geringerer Häufigkeit auftritt; - wobei zumindest ein zweites der zumindest zwei Wörter in dem Satz in einer vorgegebenen Umgebung des Wortes angeordnet ist, und - wobei das zweite Tupel sich vom dem ersten Tupel bezüglich des zumindest einen ersten Wortes und/oder bezüglich des zumindest einen zweiten Wortes unterscheidet.Method according to one of Claims 1 to 4 comprising the further step of: determining and storing a third probability with which the word occurs in the sentence in combination with a second tuple of words, wherein the second tuple comprises at least two words arranged in front of the word as it passes through the sentence ; wherein at least a first of the at least two words occurs in the lesser frequency text in comparison to other words already traversed in the sentence; wherein at least a second of the at least two words in the sentence is arranged in a given neighborhood of the word, and wherein the second tuple is different from the first tuple with respect to the at least one first word and / or with respect to the at least one second word.

Verfahren nach einem der Ansprüche 1 bis 5, wobei der Satz zum Bestimmen der ersten Wahrscheinlichkeit, der zweiten Wahrscheinlichkeit oder der dritten Wahrscheinlichkeit - in Leserichtung durchlaufen wird, oder - entgegen der Leserichtung durchlaufen wird, oder wobei der Satz zum Bestimmen der ersten Wahrscheinlichkeit, der zweiten Wahrscheinlichkeit oder der dritten Wahrscheinlichkeit einmal in Leserichtung und einmal entgegen der Leserichtung durchlaufen wird, wobei die jeweiligen Wahrscheinlichkeiten jeweils für beide der Durchlaufrichtungen bestimmt werden.Method according to one of Claims 1 to 5 in which the sentence for determining the first likelihood, the second likelihood or the third likelihood - is passed in reading direction, or - is run counter to the reading direction, or wherein the sentence for determining the first likelihood, the second likelihood or the third likelihood once in Reading direction and once counter to the reading direction is traversed, the respective probabilities are determined in each case for both of the flow directions.

Verfahren nach einem der Ansprüche 1 bis 6, umfassend die weiteren Schritte: - Bereitstellen (S4) eines Anfragesatzes; - Auswählen (S5) einer vorgegebenen Anzahl von Wörtern aus dem Anfragesatz, wobei die ausgewählten Wörter in dem Text vorkommen und im Vergleich zu nicht ausgewählten Wörtern des Anfragesatzes, welche ebenfalls in dem Text vorkommen, in dem Text mit einer geringeren Häufigkeit auftreten; - Bestimmen (S6) einer Ergänzungswahrscheinlichkeit zum Bestimmen eines Ergänzungswortes - auf Basis der ersten Wahrscheinlichkeit, oder - auf Basis der ersten Wahrscheinlichkeit in Kombination mit der zweiten Wahrscheinlichkeit oder der dritten Wahrscheinlichkeit, oder - auf Basis der ersten Wahrscheinlichkeit in Kombination mit der zweiten Wahrscheinlichkeit und der dritten Wahrscheinlichkeit; - Für zumindest eines der ausgewählten Wörter: Erzeugen (S7) eines Antwortsatzes, ausgehend von dem ausgewählten Wort, auf Basis der bestimmten Ergänzungswahrscheinlichkeit, mittels der folgenden Teilschritte: - Bestimmen (S7.1) eines Ergänzungswortes aus dem Text, wobei das Ergänzungswort aus einer Menge vorgegebener Größe von potentiellen Ergänzungswörtern ausgewählt wird, welche aus denjenigen potentiellen Ergänzungswörtern besteht, die mit Bezug auf eine vorgegebene Durchlaufrichtung mit Bezug auf den Antwortsatz die höchsten Ergänzungswahrscheinlichkeiten aufweisen. - Ergänzen (S7.2) des Antwortsatzes in Durchlaufrichtung um das Ergänzungswort.Method according to one of Claims 1 to 6 comprising the further steps of: - providing (S4) a request record; Selecting (S5) a predetermined number of words from the query sentence, wherein the selected words occur in the text and occur in the text at a lower frequency compared to unselected words of the query sentence which also occur in the text; Determining (S6) a supplementary probability for determining a supplementary word on the basis of the first probability, or on the basis of the first probability in combination with the second probability or the third probability, or on the basis of the first probability in combination with the second probability and the third probability; For at least one of the selected words: generating (S7) a response sentence, based on the selected word, based on the determined complement probability, by means of the following substeps: Determining (S7.1) a supplemental word from the text, wherein the supplemental word is selected from a set of predetermined sizes of potential supplemental words consisting of those potential supplemental words having the highest completion probabilities with respect to a given sweep direction with respect to the answer set. - Add (S7.2) the response sentence in the direction of execution by the supplementary word.

Verfahren nach Anspruch 7, wobei zum Auswählen des Ergänzungswortes aus der Menge der potentiellen Ergänzungswörter jeweils eine Ähnlichkeit eines potentiellen Ergänzungswortes zu dem Anfragesatz gemäß eines vorgegebenen Ähnlichkeitsmaßes bestimmt wird, und wobei ein potentielles Ergänzungswort als Ergänzungswort aus einer Teilmenge der Menge der potentiellen Ergänzungswörter ausgewählt wird, welche aus denjenigen potentiellen Ergänzungswörtern der Menge besteht, welche die höchsten Ähnlichkeiten aufweisen.Method according to Claim 7 in which, for selecting the supplemental word from the set of potential supplemental words, a respective similarity of a potential supplemental word to the query set is determined according to a predetermined similarity measure, and wherein a potential supplemental word is selected as a supplemental word from a subset of the set of potential supplemental words which are selected from those potential complementary words Supplementary words of the crowd, which have the highest similarities.

Verfahren nach Anspruch 7 oder 8, wobei zum Erzeugen des Antwortsatzes die Schritte des Bestimmens eines Ergänzungswortes und des Ergänzens des Antwortsatzes um das Ergänzungswort wiederholt werden, bis das Ergänzungswort als ein Satzabschlusswort erkannt wird.Method according to Claim 7 or 8th wherein, to generate the answer sentence, the steps of determining a supplemental word and supplementing the answer sentence with the supplemental word are repeated until the supplemental word is recognized as a sentence end word.

Verfahren nach einem der Ansprüche 7 bis 9, wobei die Schritte des Bestimmens eines Ergänzungswortes und des Ergänzens des Antwortsatzes in Bezug auf verschiedene Durchlaufrichtungen erfolgen.Method according to one of Claims 7 to 9 wherein the steps of determining a supplemental word and supplementing the answering set are in relation to different sweep directions.

Verfahren nach einem der Ansprüche 7 bis 10, wobei ausgehend von einem ausgewählten Wort eine Mehrzahl von Antwortsatzvarianten dadurch gebildet werden, dass der Antwortsatz jeweils durch ein Ergänzungswort aus der Menge vorgegebener Größe von potentiellen Ergänzungswörtern ergänzt wird.Method according to one of Claims 7 to 10 in which, starting from a selected word, a plurality of response sentence variants are formed in that the response sentence is supplemented in each case by a supplementary word from the set of predetermined sizes of potential supplementary words.

Verfahren nach Anspruch 11, umfassend die weiteren Schritte: Bewerten (S8) der Antwortsatzvarianten mittels zumindest eines der nachfolgenden Bewertungskriterien: - Summe der Wortfolgewahrscheinlichkeiten; - Summe der n-Gramm-Wahrscheinlichkeiten; - Informationsgehalt, auf Basis der Häufigkeiten, mit der die Wörter der jeweiligen Antwortsatzvariante im Text vorkommen; - Ähnlichkeit der Antwortsatzvariante zum Anfragesatz oder zu einem Teil des Anfragesatzes, und Auswählen (S9) zumindest eines Antwortsatzes aus den Antwortsatzvarianten auf Basis der Bewertung.Method according to Claim 11 comprising the further steps of: evaluating (S8) the response sentence variants by means of at least one of the following evaluation criteria: sum of the word sequence probabilities; - sum of the n-gram probabilities; - information content, based on the frequency with which the words of the respective response phrase appear in the text; Similarity of the response sentence variant to the query sentence or to a part of the query sentence, and selecting (S9) at least one response sentence from the response sentence variants on the basis of the rating.

Vorrichtung (100; 101; 102) zum maschinellen Verarbeiten eines Textes, umfassend zumindest einen Speicher (110) und zumindest einen Prozessor (120), wobei die Vorrichtung eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.Apparatus (100; 101; 102) for processing a text comprising at least one memory (110) and at least one processor (120), the apparatus being arranged to implement a method according to any one of Claims 1 to 12 perform.

Vorrichtung (101) nach Anspruch 13, umfassend ein Spracherkennungssystem (200) oder ein System (300) zur automatischen Übersetzung von Texten, wobei die Vorrichtung eingerichtet ist, auf Eingabe eines Anfragesatzes, welcher ein von dem Spracherkennungssystem (200) ausgegebenes Satzfragment auf Basis einer teilweise verarbeiteten Spracheingabe oder ein von dem System (300) zur automatischen Übersetzung von Texten als automatische partielle Übersetzung ausgegebenes Satzfragment ist, einen Antwortsatz zu erzeugen, welcher das jeweilige Satzfragment ergänzt, so dass eine Erkennungsgenauigkeit des Spracherkennungssystems (200) oder eine Korrektheit des System (300) zur automatischen Übersetzung von Texten verbessert werden kann, indem eine Menge seitens des Spracherkennungssystems (200) oder des Systems (300) zur automatischen Übersetzung von Texten herangezogenen Ergänzungswörtern auf Basis der Ergänzungswahrscheinlichkeit eingeschränkt wird.Device (101) according to Claim 13 computer system comprising a speech recognition system (200) or a system (300) for automatically translating texts, the device being arranged to input a query sentence containing a sentence fragment output by the speech recognition system (200) based on a partially processed speech input or one of System (300) for automatically translating texts as automatic partial translation output sentence fragment is to generate a response sentence that complements the respective sentence fragment, so that a recognition accuracy of the speech recognition system (200) or a correctness of the system (300) for the automatic translation of texts can be improved by restricting a set of supplementary words used by the speech recognition system (200) or the automatic translation system (300) on the basis of the supplementary probability.

Vorrichtung (102) nach Anspruch 13 oder 14, weiter umfassend eine Eingabeeinrichtung (500) zum Eingeben zumindest eines Teils des Anfragesatzes durch einen Nutzer, und eine Ausgabeeinrichtung (600) zum Ausgeben einer Mehrzahl von Ergänzungswörtern, welche im Rahmen der Erzeugung eines Antwortsatzes oder einer Antwortsatzvariante bestimmt worden sind, weiter umfassend eine Auswahleinrichtung (700), mittels welcher der Nutzer ein Ergänzungswort aus der Mehrzahl der Ergänzungswörter zum Ergänzen des Antwortsatzes oder der Antwortsatzvariante auswählen kann.Device (102) according to Claim 13 or 14 further comprising input means (500) for inputting at least a part of the request sentence by a user, and output means (600) for outputting a plurality of supplement words determined in the course of generating a response sentence or an answer sentence variant further comprising selecting means (700), by means of which the user can select a supplementary word from the plurality of supplementary words to complete the answer sentence or the answer sentence variant.