DE19624987A1 - Automatic spoken language translation method - Google Patents
Automatic spoken language translation methodInfo
- Publication number
- DE19624987A1 DE19624987A1 DE19624987A DE19624987A DE19624987A1 DE 19624987 A1 DE19624987 A1 DE 19624987A1 DE 19624987 A DE19624987 A DE 19624987A DE 19624987 A DE19624987 A DE 19624987A DE 19624987 A1 DE19624987 A1 DE 19624987A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- language
- assigned
- signal sequences
- pauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013519 translation Methods 0.000 title claims abstract description 22
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 96
- 230000008569 process Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 2
- 241000448472 Gramma Species 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 abstract description 16
- 230000014616 translation Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zur automatischen Um setzung eines gesprochenen Textes von einer ersten Sprache in wenigstens eine andere oder in einen geschriebenen Text, wobei der gesprochene Text mittels eines Mikrofons in elektrische Signalfolgen umgewandelt und diese einem Computer in digitalisierter Form zugeführt werden, wo sie durch ein Spracherkennungssystem mit gespeicherten digitalen Signalfolgen verglichen und so Sprachelementen der ersten Sprache zugeordnet werden, und wobei die Sprachelemente der ersten Sprache mittels einer Über setzungseinrichtung Sprachelementen der wenigstens einen anderen Sprache oder Schreibtextelementen zugeordnet werden, um dann direkt in akustischer oder geschriebener Form oder durch einen Datenträger zur Ausgabe zu gelangen.The invention relates to a method for automatic order Setting a spoken text from a first language in at least one other or in a written one Text, the spoken text using a microphone converted into electrical signal sequences and this one Computers can be fed in digitized form wherever through a speech recognition system with stored digital signal sequences compared and so language elements assigned to the first language, and the Language elements of the first language using an over setting device language elements of the at least one assigned to other language or writing text elements to be directly in acoustic or written Form or through a data carrier for output.
Sprachübersetzungsverfahren sind beispielsweise aus der EP-A-12 777 oder aus der EP-B-274 281 bekannt. Diese bekannten Verfahren beruhen im wesentlichen darauf, einzelne Worte zu erkennen und je weils in die gewünschte andere Sprache umzusetzen. Da häufig von ihrem Sinngehalt her sehr unterschiedliche Worte gleich ausgesprochen werden, so daß eine korrekte Zuordnung durch die Übersetzungseinrichtung selten möglich ist und gewöhnlich Probleme durch die oft andere Satz stellung und grammatikalischen Regeln der anderen Sprache auftreten, läßt die Qualität der Übersetzung zu wünschen übrig. Zwar sind bei den bekannten Verfahren bereits Grammatikregel-Korrektureinrichtungen vorgesehen, jedoch verbessern solche Korrekturen die Gesamtqualität der Über setzung nicht in ausreichendem Maße, so daß das Ergebnis immer noch unbefriedigend bleibt. Aus diesem Grunde haben sich derartige automatische Sprachübersetzungsverfahren und Sprachumsetzer noch nicht am Markt durchsetzen können.Language translation procedures are for example from EP-A-12 777 or from EP-B-274 281 known. These known methods are based on essential to recognize individual words and ever because to implement in the desired other language. There often very different in terms of their meaning Words are pronounced immediately so that a correct one Assignment by the translation facility is rarely possible is and usually problems through the often different sentence position and grammatical rules of the other language occur, the quality of the translation leaves something to be desired left. Although are already in the known methods Grammar rule correcters are provided, however such corrections improve the overall quality of the over not set sufficiently, so the result still remains unsatisfactory. Because of this, have such automatic language translation procedures and language translators cannot yet be implemented on the market.
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein automatisches Sprachumsetzungsverfahren zu schaffen, durch das Sprachübersetzung von wesentlich höherer Qualität er zielt werden können.An object of the present invention is to provide a to create automatic language conversion process by the language translation of much higher quality can be aimed.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß die Signalpausen in den dem Computer in digitaler Form zu geführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge wenigstens zwei Klassen zugeordnet werden, wobei der ersten Klasse zugeordnete kürzere Signalpausen zur Unterteilung der Signalfolgen in einzelne Worte und der zweiten Klasse zugeordnete längere Signal pausen zur Unterteilung der Signalfolgen in einzelne Sätze oder Satzteile verwendet werden, daß das Spracherkennungs system jeweils zunächst versucht, eine zwischen zwei Signalpausen der zweiten Klasse erkannte Signalfolge längeren Sprachelementen der ersten Sprache zuzuordnen, und daß nur bei einem vergeblichen Versuch anschließend die zwischen Signalpausen der ersten Klasse innerhalb der beiden Signalpausen der zweiten Klasse erkannten Signal folgen kürzeren Sprachelementen zugeordnet werden.This object is achieved in that the Signal pauses in the digital form to the computer led signal sequences analyzed and with regard to their temporal length assigned to at least two classes be shorter, assigned to the first class Signal pauses for dividing the signal sequences into individual ones Words and second class assigned longer signal pause to divide the signal sequences into individual sentences or phrases that are used for speech recognition system first tried one between two Second class signal pauses recognized signal sequence assign longer language elements to the first language, and that only after an unsuccessful attempt afterwards between signal pauses of the first class within the two signal pauses of the second class recognized signal follow shorter language elements.
Der wesentliche Vorteil des erfindungsgemäßen Verfahrens besteht darin, daß nach Möglichkeit ganze Sätze oder zu mindest Satzteile als Einheit erkannt und übersetzt werden. Vor allem hierdurch wird eine wesentlich bessere Übersetzungsqualität erreicht, da die ganzen Sätze bzw. Satzteile nach dem Sinngehalt übersetzt werden können, so daß Fehler beispielsweise durch starke grammatikalische Unterschiede oder unterschiedliche Satz- und Wort stellungen in den verschiedenen Sprachen entfallen. Nur wenn das Spracherkennungssystem nur die einem Satz oder Satzteil entsprechende lange Signalfolge nicht erkennt, wird die längere Signalfolge durch die kürzeren Signal pausen der ersten Klasse in kürzere Signalfolgen unter teilt, die im wesentlichen einzelnen Worten entsprechen, und diese werden dann gemäß den bisherigen Verfahren erkannt und zugeordnet. Selbstverständlich erfordert das erfindungsgemäße Verfahren gegenüber den bekannten Ver fahren einen wesentlich größeren Speicherplatzbedarf, da nicht nur Worte, sondern auch Satzteile und Sätze ge speichert werden müssen, die eine große Vielzahl von Wortkombinationen enthalten können. Entsprechend dem sehr hohen Speicherbedarf ist auch eine relativ große Ver arbeitungsgeschwindigkeit notwendig. Bei der heutigen Computergeneration stellen jedoch diese Kriterien kein wesentliches Problem mehr dar.The main advantage of the method according to the invention is that, if possible, whole sentences or to At least parts of the sentence recognized and translated as a unit will. Above all, this will make a much better one Translation quality achieved because the entire sentences or Clauses can be translated according to their meaning, so that errors, for example due to strong grammatical Differences or different sentence and word positions in the different languages are omitted. Just if the speech recognition system only the one sentence or Does not recognize the corresponding long signal sequence, the longer signal sequence is replaced by the shorter signal pause the first class into shorter signal sequences shares, which essentially correspond to individual words, and these will then follow the previous procedures recognized and assigned. Of course, that requires inventive method compared to the known Ver drive a much larger space requirement because not only words, but also parts of sentences and sentences need to be saved that a large variety of Word combinations can contain. According to that very much high memory requirement is also a relatively large ver speed of work necessary. With today's However, computer generations do not meet these criteria essential problem more.
Durch die in den Unteransprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im Anspruch 1 angegebenen Verfahrens möglich.By the measures listed in the subclaims are advantageous developments and improvements of method specified in claim 1 possible.
Zweckmäßigerweise erfolgt eine Zuordnung auch dann, wenn eine zwischen Signalpausen erkannte Signalfolge mit wenigstens einem gespeicherten Sprachelement eine große Ähnlichkeit aufweist, da völlig identische Überein stimmungen relativ selten sein dürften. Bei großer Ähn lichkeit zwischen der erkannten Signalfolge und mehreren gespeicherten Signalfolgen erfolgt in vorteilhafter Weise eine Auswahl mittels einer Kompatibilitäts-Codeprüfung, die auf grammatikalischen und/oder semantischen Regeln der ersten Sprache beruht. Indem während der Spracheingabe aus den eingegebenen Signalfolgen neue Kompatibilitäts-Codes gebildet und gespeichert werden, wird die Kompatibilitäts- Codeprüfung nach Art eines lernenden Systems ausgebildet. Bei dieser Kompatibilitäts-Codeprüfung kann zur Verbesse rung der Übersetzungsqualität auch noch die Kompatibilität mit benachbarten Signalfolgen berücksichtigt werden.An assignment is expediently also made if a signal sequence recognized between signal pauses with at least one stored language element a large one Similarity, since they are completely identical moods are likely to be relatively rare. With great similarity between the detected signal sequence and several stored signal sequences are carried out in an advantageous manner a selection using a compatibility code check, based on the grammatical and / or semantic rules of the first language. By off during voice input new compatibility codes for the signal sequences entered are formed and saved, the compatibility Code check designed like a learning system. This compatibility code check can improve Compatibility of the translation quality with adjacent signal sequences are taken into account.
Um zu verhindern, daß Personen mit schlechter Aussprache oder schlechter Kenntnis der einzugebenden Sprache oder einen Dialekt sprechende Personen falsche Kompatibilitäts- Codes erzeugen, kann die Bildung und Speicherung neuer Kompatibilitäts-Codes wahlweise zugelassen oder verhindert werden, z. B. mittels eines Umschalters oder eines Eingabe befehls. Diese Zulassung oder Verhinderung kann sich auch im Lernbetrieb auf das Einspeichern neuer Worte, Satzteile und Sätze beziehen.To prevent people with poor pronunciation or poor knowledge of the language to be entered or people speaking a dialect wrong compatibility Generating codes can create and store new ones Compatibility codes either allowed or prevented be, e.g. B. by means of a switch or an input commanding. This admission or prevention can also change in the learning mode on storing new words, parts of sentences and get sentences.
Um eine noch feiner abgestufte Spracherkennung zu er reichen, können die Signalpausen der zweiten Klasse wiederum bezüglich ihrer zeitlichen Länge wenigstens zwei Unterklassen zugeordnet werden, wobei das Sprach erkennungssystem wiederum entsprechend zunächst versucht, Signalfolgen zwischen längeren Signalpausen der ersten Unterklasse längeren Sprachelementen zuzuordnen, z. B. ganzen Sätzen, und nur bei vergeblichem Versuch die Signalfolgen zwischen kürzeren Signalpausen der zweiten Unterklasse zu analysieren versucht, die dann beispiels weise Satzteilen entsprechen. Hierdurch wird eine Unter teilung der eingegebenen Signalfolgen mittels der Pausen erkennung in Sätze, Satzteile und Worte erreicht. Selbst verständlich kann prinzipiell auch eine noch feinere Unterteilung durchgeführt werden.To achieve even finer graded speech recognition second class signal pauses may be sufficient again at least two in terms of their temporal length Subclasses are assigned, the language recognition system in turn first tried accordingly Signal sequences between longer signal pauses of the first Assign subclass to longer language elements, e.g. B. whole sentences, and only if the attempt is unsuccessful Signal sequences between shorter signal pauses of the second Tried to analyze subclass, which then, for example wise parts of the sentence correspond. This will create a sub division of the input signal sequences by means of the pauses Recognition in sentences, parts of sentences and words achieved. Yourself in principle, an even finer one can be understood Subdivision can be carried out.
Bei nicht befriedigend zuzuordnenden Signalfolgen wird eine vorteilhafte Hilfslösung dadurch erreicht, daß Teil signalfolgen gesucht werden, die Kernbegriffen zugeordnet werden können, wie Hauptwörtern, Adjektiven und Verben, und daß anschließend die Umgebung eines solchen erkannten Kernbegriffs, die z. B. aus Präpositionen, Pronomen, Ad jektiven u. dgl. besteht, analysiert und anhand einer Gram matikregelprüfung und/oder Grammatikregelzuordnung der Kernbegriff in seiner grammatikalischen Form erkannt und entsprechenden Sprachelementen zugeordnet wird, oder daß ein entsprechendes Sprachelement aufgebaut wird. Hierdurch kann in vielen Fällen auch bei schlechter Spracheingabe oder sprachunüblich gebildeten Sätzen noch der richtige Sinngehalt erfaßt und übersetzt werden.If the signal sequences cannot be assigned satisfactorily, achieved an advantageous auxiliary solution in that part signal sequences are searched, the key terms assigned like nouns, adjectives and verbs, and that subsequently recognized the environment of one Core concept that z. B. from prepositions, pronouns, ad jective and The like. Exists, analyzes and based on a grief Math rule check and / or grammar rule assignment of the Core concept recognized in its grammatical form and corresponding language elements is assigned, or that a corresponding language element is built up. Hereby can in many cases even with poor speech input or sentences with unusual language still the right one Meaning and be translated.
Da das erfindungsgemäße Verfahren eine sehr große Zahl von gespeicherten Worten, Satzteilen und Sätzen benötigt, werden in vorteilhafter Weise jeweils neu eingegebene Signalfolgen in einem Lernvorgang zur Korrektur und/oder Erweiterung der gespeicherten Signalfolgen (Wörterbuch) eingesetzt. Hierdurch wird dieses "Wörterbuch" ständig erweitert, was zu einer immer höheren Übersetzungsqualität führt. Im einfachsten Fall kann mit einer relativ geringen Anzahl von gespeicherten Signalfolgen begonnen werden, die sich dann durch das lernende System ständig erweitern.Since the method according to the invention has a very large number of stored words, parts of sentences and sentences required, are each newly entered in an advantageous manner Signal sequences in a learning process for correction and / or Extension of the stored signal sequences (dictionary) used. This makes this "dictionary" constantly expands, resulting in ever higher translation quality leads. In the simplest case it can be done with a relatively small Number of stored signal sequences that are started then continuously expand through the learning system.
In einer praktischen Ausgestaltung wird beim Lernvorgang jede eingegebene Signalfolge automatisch, verbal oder über eine Tastatur mit einer Zuordnungsnummer versehen und zu sammen mit dieser binär gespeichert. Jeder Zuordnungs nummer wird dann eine entsprechende Signalfolge in der wenigstens einen weiteren Sprache zugeordnet, so daß auf diese relativ einfache Weise bei der Übersetzung die Zu ordnung zum entsprechenden Begriff in der anderen Sprache erfolgen kann.In a practical embodiment, the learning process every signal sequence entered automatically, verbally or via assign an assignment number to a keyboard and to together with this stored binary. Every assignment number will then be a corresponding signal sequence in the assigned at least one other language, so that on this relatively simple way of translating the To order for the corresponding term in the other language can be done.
Zur Erleichterung der Suche nach gespeicherten Signal folgen, die der jeweils neu eingegebenen Signalfolge ent sprechen oder dieser ähnlich sind, werden die neu ge speicherten Signalfolgen jeweils Ähnlichkeitsbereichen zugeordnet, die ähnlichen Signalfolgen angehören. Die Zu ordnung zu Ähnlichkeitsbereichen erfolgt dann zweck mäßigerweise anhand der jeweiligen Binärfolgen.To facilitate the search for stored signal follow the ent of the newly entered signal sequence speaking or similar, the new ge stored signal sequences each have similarity ranges assigned that belong to similar signal sequences. The To Order of similarity areas is then done moderately based on the respective binary sequences.
Da sich Kinderstimmen, Frauenstimmen und Männerstimmen und die entsprechenden Signalfolgen für dieselben Sprach einheiten oft deutlich unterscheiden, was zu Verwechslungen und Fehlinterpretationen führen könnte, sind die nach Art eines Wörterbuchs gespeicherten Signalfolgen in vorteil hafter Weise in mehreren separaten Bereichen gespeichert, wobei die Bereiche einer Kinderstimmen und/oder einer Frauenstimme und/oder einer Männerstimme zugeordnet sind, wobei beim Lernvorgang und/oder Erkennungsvorgang der je weilige Bereich automatisch oder manuell vorgewählt wird.Because children's voices, women's voices and men's voices and the corresponding signal sequences for the same speech units often differ clearly, leading to confusion and could lead to misinterpretation, are those according to Art signal sequences stored in a dictionary are advantageous stored in several separate areas, the areas of a child's voice and / or one Female voice and / or a male voice are assigned, where during the learning process and / or recognition process the area is selected automatically or manually.
Ein Blockschaltbild einer Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens ist in der Zeichnung darge stellt und in der nachfolgenden Beschreibung zusammen mit dem erfindungsgemäßen Verfahren ausführlich beschrieben.A block diagram of a device for performing the The method according to the invention is shown in the drawing represents and in the following description together with the method according to the invention described in detail.
Ein Mikrofon 10 oder eine sonstige Wandlungseinrichtung zur Umwandlung von Schallsignalen in elektrische Signale ist über einen Analog-Digital-Wandler 11 mit dem Sprach eingang eines Sprachcomputers 12 verbunden, bei dem es sich beispielsweise um einen PC handeln kann. Zur Er läuterung des Sprachcomputers 12 wurde eine Darstellung gewählt, die die erforderlichen Funktionen und Funktions einheiten für die Sprachübersetzung betont, während tat sächlich selbstverständlich der übliche Aufbau vorliegt, der im wesentlichen einen Mikroprozessor, einen Festwert speicher, einen Arbeitsspeicher, eine Eingabetastatur, einen Bildschirm und Datenträger-Laufwerke enthält. Die dargestellten Funktionsblöcke werden real durch Funktionen des Mikroprozessors in Verbindung mit den übrigen, daran angeschlossenen Elementen des Computers realisiert.A microphone 10 or another conversion device for converting sound signals into electrical signals is connected via an analog-digital converter 11 to the voice input of a voice computer 12 , which can be, for example, a PC. To explain the speech computer 12 , a representation was chosen which emphasizes the necessary functions and functional units for the language translation, while in fact there is of course the usual structure, which essentially consists of a microprocessor, a read-only memory, a working memory, an input keyboard, a screen and contains disk drives. The functional blocks shown are actually realized by functions of the microprocessor in connection with the other elements of the computer connected to them.
Die dem Analog-Digital-Wandler 11 zugeführten analogen Signalfolgen, die den ins Mikrofon eingegebenen Sprech folgen entsprechen, werden als digitale bzw. binäre Signalfolgen einer Spracherkennungseinrichtung 13 zuge führt. Diese ist mit einem Speicher 14 großen Speicher inhalts verbunden, in dem binäre Signalfolgen abgelegt sind, die Wörtern, Satzteilen und Sätzen entsprechen. Weiterhin ist der Spracherkennungseinrichtung 13 eine Sprechpausenerkennungseinrichtung 15 zugeordnet.The supplied to the analog-to-digital converter 11 analog signal sequences, which correspond to the speech input into the microphone, are supplied as digital or binary signal sequences to a speech recognition device 13 . This is connected to a memory 14 large memory content in which binary signal sequences are stored, which correspond to words, parts of sentences and sentences. A speech pause recognition device 15 is also assigned to the speech recognition device 13 .
Zur Spracherkennung werden zunächst durch die Sprech pausenerkennungseinrichtung 15 die Signalpausen der der Spracherkennungseinrichtung 13 zugeführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge in drei Klassen klassifiziert. Selbstverständlich kann in einer einfacheren Version auch eine Klassifizierung in nur zwei Klassen oder bei aufwendigeren Ausführungen in eine noch größere Zahl von Klassen erfolgen. Die einer ersten Klasse zugeordneten sehr kurzen Signalpausen trennen die Ein gangssignalfolge in Abschnitte auf, die einzelnen Worten entsprechen, während längere Signalpausen einer zweiten Klasse zugeordnet werden und die Signalfolge in längere Abschnitte aufteilen, die Satzteilen oder ganzen Sätzen entsprechen. Dabei wird die zweite Klasse nochmals in zwei Unterklassen unterteilt, wobei mittlere Signalpausen zur Aufteilung der Signalfolge in Satzteile der einen Unter klasse und noch längere Signalpausen zur Unterteilung der Signalfolge in ganze Sätze der zweiten Unterklasse zuge ordnet werden. Dabei wird von der Überlegung ausgegangen, daß gemäß üblichen Sprechgewohnheiten zwischen ganzen Sätzen längere Sprechpausen, zwischen Satzteilen kürzere Sprechpausen und zwischen einzelnen Worten noch kürzere Sprechpausen gemacht werden.For speech recognition, the signal pauses of the signal sequences supplied to the speech recognition device 13 are first analyzed by the speech pause recognition device 15 and classified into three classes with regard to their length in time. Of course, a simpler version can also be classified in only two classes or, in more complex versions, in an even larger number of classes. The very short signal pauses assigned to a first class separate the input signal sequence into sections which correspond to individual words, while longer signal pauses are assigned to a second class and divide the signal sequence into longer sections which correspond to parts of sentences or entire sentences. The second class is subdivided into two subclasses, with middle signal pauses for dividing the signal sequence into parts of a subclass and longer signal pauses for subdividing the signal sequence into complete sets of the second subclass. This is based on the consideration that, according to customary speaking habits, longer speech pauses are made between entire sentences, shorter speech pauses between parts of the sentence and even shorter speech pauses between individual words.
Die Sprechpausen werden automatisch analysiert und jeder Sprache separat zugeordnet. Dazu werden zunächst durch das Mikrofon 10 größere gesprochene Texte eingelesen und digi talisiert. Dabei werden die Sprechpausen automatisch erfaßt, automatisch in die zwei bzw. drei Klassen unterteilt und für die jeweilige Sprache gespeichert. Diese gespeicherten klassifizierten Sprechpausen werden dann imfolgenden bei der Erkennung von gesprochenen Texten verwendet.The pauses in speech are automatically analyzed and assigned to each language separately. For this purpose, 10 larger spoken texts are first read in and digitized by the microphone. The pauses in speech are automatically recorded, automatically divided into two or three classes and saved for the respective language. These stored classified speech pauses are then used in the following for the recognition of spoken texts.
Zunächst werden die ganzen Sätzen zugeordneten längsten Signalfolgeabschnitte mit im Speicher 14 gespeicherten Signalfolgen verglichen. Sollte dort eine identische Signalfolge gespeichert sein, so wurde der gesamte Satz erkannt, und eine dieser gespeicherten Signalfolge zuge ordnete Zuordnungsnummer wird einer Übersetzungseinrich tung 16 zugeführt, der im Ausführungsbeispiel zwei Fremd sprachenspeicher 17 und 18 zugeordnet sind. In diesen sind jeweils Signalfolgen gespeichert, die Wörtern, Satzteilen und ganzen Sätzen in zwei Fremdsprachen entsprechen. Auch hier ist es selbstverständlich möglich, nur einen Fremd sprachenspeicher 17 vorzusehen, wenn eine Übersetzung nur in eine Fremdsprache erfolgen soll. Ebenso kann auch eine größere Anzahl von Fremdsprachenspeichern vorgesehen sein, wenn Übersetzungen in eine größere Zahl von Fremdsprachen erforderlich sind. Zur Sprachausgabe kann entweder eine Fremdsprache ausgewählt werden, in die übersetzt werden soll, oder es können mehrere Fremdsprachen vorgewählt werden, wenn eine simultane oder sequentielle Sprach ausgabe in mehreren Fremdsprachen erwünscht ist. Mit Hilfe der Zuordnungsnummer wird nun der den Fremdsprachen ent sprechende ganze Satz angewählt und aus dem Speicher aus gegeben. Die Ausgabe kann als Schrift auf einen Drucker 19 oder Bildschirm erfolgen, oder die Ausgangssignalfolge wird einem Speichermedium zugeführt und dort gespeichert, beispielsweise auf einer Diskette eines Disketten- Laufwerks 20, auf einer beschreibbaren CD od. dgl. Schließ lich kann auch noch eine direkte Sprachausgabe dadurch erfolgen, daß die Ausgangssignalfolge über einen Digital- Analog-Wandler 21 einem Lautsprecher 22 oder einem Kopf hörer zugeführt wird. Die verschiedenen Sprachausgabe- Möglichkeiten können simultan oder alternativ genutzt werden. First, the longest signal sequence sections assigned to entire sets are compared with signal sequences stored in the memory 14 . If an identical signal sequence is stored there, the entire sentence has been recognized, and an assignment number assigned to this stored signal sequence is supplied to a translation device 16 , which in the exemplary embodiment is assigned two foreign language memories 17 and 18 . Signal sequences are stored in these, which correspond to words, parts of sentences and complete sentences in two foreign languages. Here, too, it is of course possible to provide only one foreign language memory 17 if a translation should only be made into a foreign language. Likewise, a larger number of foreign language memories can also be provided if translations into a larger number of foreign languages are required. For speech output, either a foreign language can be selected into which translation is to be carried out, or several foreign languages can be selected if simultaneous or sequential speech output in several foreign languages is desired. With the aid of the assignment number, the entire sentence corresponding to the foreign languages is now selected and output from the memory. The output can be in writing on a printer 19 or screen, or the output signal sequence is fed to a storage medium and stored there, for example on a diskette of a diskette drive 20 , on a recordable CD or the like. Finally, direct speech can also be output in that the output signal sequence via a digital-to-analog converter 21 is supplied to a loudspeaker 22 or a headphone. The various voice output options can be used simultaneously or alternatively.
Kann eine einem ganzen Satz entsprechende lange Eingangs signalfolge nicht eindeutig gespeicherten Signalfolgen zugeordnet werden, so werden sehr ähnliche Signalfolgen im Speicher 14 gesucht. Diese sehr ähnlichen Signalfolgen werden einer Kompatibilitäts-Codeprüfung in der Sprach erkennungseinrichtung 13 unterzogen, wobei die einzelnen Signalfolgen auf grammatikalische und/oder semantische Regeln der Eingangssprache untersucht werden. Dabei kann auch eine Überprüfung derjenigen Signalfolgeabschnitte erfolgen, die dem zu überprüfenden Signalfolgeabschnitt vorangehen oder nachfolgen, um feststellen zu können, bei welcher der sehr ähnlichen gespeicherten Signalfolgen die größte Wahrscheinlichkeit besteht, daß ihre Bedeutung der der zu untersuchenden Signalfolge am nächsten kommt. Wird auf diese Weise eine der sehr ähnlichen Signalfolgen aus gewählt, so erfolgt in der bereits beschriebenen Weise eine Übersetzung in wenigstens eine der möglichen Fremd sprachen anhand der Zuordnungsnummer.If a long input signal sequence corresponding to an entire set cannot be allocated to signal sequences that are not clearly stored, very similar signal sequences are searched for in memory 14 . These very similar signal sequences are subjected to a compatibility code check in the speech recognition device 13 , the individual signal sequences being examined for grammatical and / or semantic rules of the input language. It is also possible to check those signal sequence sections which precede or follow the signal sequence section to be checked, in order to be able to determine which of the very similar stored signal sequences has the greatest probability that their meaning comes closest to the signal sequence to be examined. If one of the very similar signal sequences is selected in this way, then a translation into at least one of the possible foreign languages takes place in the manner already described on the basis of the assignment number.
Werden auch eine der zu untersuchenden Signalfolge sehr ähnliche gespeicherte Signalfolgen zugeordnet, die jeweils ganzen Sätzen entsprechen, so wird die zu untersuchende Signalfolge anhand der Signalpausen mittlerer Länge in größere Abschnitte unterteilt, die Satzteilen oder zu mindest längeren Ausdrücken entsprechen. Nun wiederholt sich der bereits beschriebene Vorgang, das heißt, zunächst werden jeweils zu jedem Abschnitt identische gespeicherte Signalfolgen gesucht und dann eine Auswahl zwischen ähn lichen getroffen. Ist dieses Verfahren bei einem oder mehreren dieser Abschnitte nicht möglich, so wird der jeweilige Abschnitt mit Hilfe der sehr kleinen Signal pausen wiederum in kleine Abschnitte unterteilt, die im wesentlichen einzelnen Worten entsprechen. Nun wiederholt sich das Verfahren erneut, das heißt, es werden zunächst identische gespeicherte Signalfolgen zu dem zu unter suchenden kleinen Signalfolgeabschnitt gesucht und dann ähnliche Signalfolgen.Also become one of the signal sequences to be examined very much similar stored signal sequences assigned, each whole sentences, then the one to be examined Signal sequence based on the signal pauses of medium length in divided into larger sections, the parts of the sentence or too match at least longer expressions. Now repeated the process already described, that is, initially identical sections are saved for each section Signal sequences searched and then a choice between similar met. Is this procedure with one or If several of these sections are not possible, the respective section using the very small signal pause again divided into small sections, which in the correspond to essential individual words. Now repeated the procedure again, that is, it will be first identical stored signal sequences to the one below and then looking for a small signal sequence section similar signal sequences.
Bei zu analysierenden Eingangssignalfolgeabschnitten mittlerer und kleinerer Länge (Satzteile, Wortkombina tionen und Worte), die schwer zu identifizieren sind, erfolgt eine Suche nach jeweils einem Kernbegriff, also beispielsweise nach einem Hauptwort, Adjektiv oder Verb. Anschließend werden dann die übrigen, in der Umgebung angeordneten Teilelemente, wie Präpositionen, Pronomen, Artikel u. dgl., analysiert und die erkannten Begriff einer Grammatikregelprüfung bzw. Grammatikregelzuordnung unter zogen. Dabei wird der Kernbegriff in seiner grammatika lischen Form erkannt und einem entsprechenden Sprach element zugeordnet, oder es wird ein entsprechendes Sprachelement anhand dieser grammatikalischen Regeln auf gebaut. For input signal sequence sections to be analyzed medium and small lengths (parts of sentences, word combination tions and words) that are difficult to identify, there is a search for a key term, ie for example after a noun, adjective or verb. Then the rest of the area arranged sub-elements, such as prepositions, pronouns, Articles and Like., Analyzes and the recognized term one Grammar rule check or grammar rule assignment under pulled. The core term is in its grammar recognized form and a corresponding language element assigned, or it will be a corresponding Language element based on these grammatical rules built.
Das beschriebene Verfahren arbeitet als lernendes System. Dies bedeutet, daß bei einer Spracheingabe die durch Sprechpausen längerer oder kürzerer Art unterteilten Signalfolgeabschnitte neu in den Speicher 14 einge speichert werden. Dies kann automatisch immer erfolgen oder aber gezielt nur dann, wenn die entsprechende Lernfunktion eingeschaltet ist. Den eingespeicherten Signalfolgeabschnitten wird dann wiederum automatisch oder durch die Bedienungsperson eine Zuordnungsnummer zuge teilt. Bei nicht automatischer Zuordnung erfolgt diese durch Sprecheingabe der Zuordnungsnummer oder durch Tastatureingabe. Die mit einer Zuordnungsnummer versehenen einzuspeichernden Signalfolgeabschnitte werden Ähnlich keitsgruppen zugeordnet. Dies erfolgt nach festlegbaren definierten Regeln, wie eng die einzugebende binäre Signalfolge der einer Gruppe kommt. Selbstverständlich kann auch eine Zuordnung zu mehreren Gruppen erfolgen. Diese Ähnlichkeits-Gruppenzuordnung erleichtert das Auf finden ähnlicher Signalfolgen bei der Zuordnung einer neuen eingegebenen und zu prüfenden Signalfolge.The described method works as a learning system. This means that the signal sequence sections divided by speech pauses of a longer or shorter type are newly stored in the memory 14 during a speech input. This can always be done automatically or only if the corresponding learning function is switched on. The stored signal sequence sections are then in turn automatically or assigned an assignment number by the operator. If the assignment is not automatic, this is done by voice input of the assignment number or by keyboard entry. The signal sequence sections to be stored, which are provided with an assignment number, are assigned to similar groups. This is done according to definable, defined rules of how closely the binary signal sequence to be entered comes from that of a group. Of course, it can also be assigned to several groups. This similarity group assignment makes it easier to find similar signal sequences when assigning a new input and test signal sequence.
Es ist selbstverständlich noch erforderlich, dem unter einer bestimmten Zuordnungsnummer eingegebenen Signal folgeabschnitt der ersten Sprache, also der Eingangs sprache, entsprechende Worte, Satzteile oder Sätze in den jeweils anderen Sprachen zuzuordnen, was über die Zuord nungsnummer erfolgt. Die entsprechenden fremdsprachlichen Begriffe müssen dann noch in den Fremdsprachenspeichern 17, 18 abgelegt werden. Die Eingabe dieser fremdsprach lichen Begriffe kann selbstverständlich ebenfalls über das Mikrofon 10 erfolgen, wobei der Sprachcomputer für diesen Fallin den Fremdsprachen-Eingabemodus umgeschaltet wird. Bei einer komfortablen Ausführung der beschriebenen An ordnung kann der Speicher 14 noch in drei Bereiche unter teilt sein, wobei der erste Bereich einer Kinderstimme, der zweite Bereich einer Frauenstimme und der dritte Bereich einer Männerstimme zugeordnet ist. Bei der Eingabe erfolgt dann jeweils eine entsprechende Einstellung manu ell oder automatisch, so daß beider lernenden Sprach eingabe und bei der Spracherkennung einer Kinderstimme nur der entsprechende erste Speicherbereich des Speichers 14 wirksam wird. Das heißt, neu eingegebene Begriffe durch die Kinderstimme werden nur in diesem Bereich abgelegt, und eine Überprüfung der eingegebenen Signalfolgen erfolgt nur anhand von gespeicherten Signalfolgen dieses ersten Bereichs. Entsprechendes gilt für den zweiten Bereich bei Frauenstimmen und den dritten Bereich bei Männerstimmen. Auch hier kann eine gröbere oder feinere Unterteilung realisiert werden.It is of course still necessary to assign corresponding words, parts of sentences or sentences in the other languages to the signal sequence section entered under a specific assignment number of the first language, that is to say the input language, which is done via the assignment number. The corresponding foreign language terms must then still be stored in the foreign language memories 17 , 18 . These foreign language terms can of course also be input via the microphone 10 , in which case the speech computer is switched to the foreign language input mode. In a comfortable implementation of the described arrangement, the memory 14 can be divided into three areas, the first area being assigned to a child's voice, the second area to a woman's voice and the third area to a male voice. When entering, a corresponding setting is made either manually or automatically, so that both learning speech input and the speech recognition of a child's voice only the corresponding first memory area of the memory 14 is effective. This means that newly entered terms by the child's voice are only stored in this area, and the inputted signal sequences are only checked on the basis of stored signal sequences of this first area. The same applies to the second area for female voices and the third area for male voices. A coarser or finer subdivision can also be implemented here.
Bei neu eingegebenen Wortfolgen bzw. entsprechenden Signalfolgen werden im Lernmodus nicht nur die durch Sprechpausen in unterschiedlicher Weise unterteilten Signalfolgeabschnitte gespeichert, sondern die Kompatibi litäts-Codeprüfung wird ebenfalls dem Lernmodus unter zogen, das heißt, auf Grund der Analyse der eingegebenen Signalfolgen werden neue Kompatibilitäts-Codes gebildet und vorhandene gegebenenfalls korrigiert und ergänzt. Diese neuen oder ergänzten Kompatibilitäts-Codes werden dann der Kompatibilitäts-Code-Prüfeinrichtung zugefügt, so daß sie bei künftigen Kompatibilitäts-Codeprüfungen be rücksichtigt werden. Hierdurch wird auch die Kompatibili täts-Codeprüfung durch Lernvorgänge ständig erweitert und verbessert.With newly entered word sequences or corresponding ones Signal sequences are not only used in the learning mode Speaking pauses divided in different ways Signal sequence sections saved, but the compatibility Lity code check is also under learning mode moved, that is, based on the analysis of the entered Signal sequences new compatibility codes are formed and corrected and supplemented existing ones if necessary. These new or supplemented compatibility codes will be then added to the compatibility code checking facility, so that they will be in future compatibility code checks be taken into account. This also makes the compatibility The activity code check is continuously expanded through learning processes and improved.
Um zu verhindern, daß durch schlechte oder fehlerhafte Sprechweise Kompatibilitäts-Codes in unerwünschter Weise verändert oder hinzugefügt werden oder daß entsprechend unerwünschte Worte, Satzteile oder ganze Sätze im Lern modus gespeichert werden, kann der Lernmodus wahlweise zugelassen oder verhindert werden. Dies bedeutet, daß bei einer Spracheingabe durch eine korrekt sprechende Person der Lernmodus zugelassen wird, während er bei anderen Personen abgeschaltet werden kann, die beispielsweise eine mundartlich bestimmte Sprechweise oder eine schlechte Aussprache haben oder deren Muttersprache nicht die Ein gabesprache ist. To prevent bad or faulty Speaking compatibility codes in an undesirable way changed or added or that accordingly unwanted words, parts of sentences or entire sentences in learning learning mode, the learning mode can be selected be allowed or prevented. This means that at a voice input by a correctly speaking person the learning mode is allowed while it is in others People can be switched off, for example, a spoken or bad speech Have pronunciation or their native language is not the one is the given language.
Da Fremdsprachen häufig eine völlig unterschiedliche Wort folge und Wortanordnung besitzen, besteht die Gefahr, daß bei wörtlicher Übersetzung die Übersetzungsqualität ab sinkt. Werden ganze Sätze (Signalfolgen zwischen zwei langen Sprechpausen) als Einheit übersetzt, so stellt dies kein Problem dar. Können dagegen Sätze oder Satzteile nicht zugeordnet werden und wird es dadurch erforderlich, eine Wort-für-Wort-Übersetzung vorzunehmen, so werden in der Übersetzungseinrichtung 16 die jeweiligen Wortfolgen oder auch kurzen Satzteile analysiert und mittels einer Korrekturvorrichtung gemäß gespeicherten semantischen oder grammatikalischen Regeln der jeweiligen Sprache in korrek ter Form umgruppiert.Since foreign languages often have a completely different word sequence and word order, there is a risk that the translation quality will decrease with literal translation. If entire sentences (signal sequences between two long pauses in speech) are translated as a unit, this does not pose a problem. If, on the other hand, sentences or parts of sentences cannot be assigned and it becomes necessary to carry out a word-for-word translation, the translation unit will: 16 the respective word sequences or short sentences are analyzed and regrouped in a correct form using a correction device in accordance with stored semantic or grammatical rules of the respective language.
Anstelle einer Ausgabe und Umsetzung in einer andere Sprache kann die Spracherkennung auch zur Ausgabe von Texten in der Basissprache dienen, beispielsweise um einen gesprochenen Text in einen geschriebenen Text automatisch umzuwandeln.Instead of one edition and implementation in another Speech can also use speech recognition to output Texts in the basic language serve, for example, by one spoken text into a written text automatically convert.
Claims (17)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19624987A DE19624987A1 (en) | 1996-06-22 | 1996-06-22 | Automatic spoken language translation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19624987A DE19624987A1 (en) | 1996-06-22 | 1996-06-22 | Automatic spoken language translation method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19624987A1 true DE19624987A1 (en) | 1998-01-02 |
Family
ID=7797697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19624987A Withdrawn DE19624987A1 (en) | 1996-06-22 | 1996-06-22 | Automatic spoken language translation method |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19624987A1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19830007A1 (en) * | 1998-06-24 | 1999-12-30 | Deutsche Telekom Ag | Method of operating a global virtual call center worldwide via Internet |
DE10213163A1 (en) * | 2002-03-23 | 2003-10-02 | Deutsche Telekom Ag | Method for automatic writing of data files based on spoken words, text or fragments of text uses communications networks linked to terminals like telephones, mobile telephones or computers. |
US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
GB2229558A (en) * | 1989-03-02 | 1990-09-26 | Nec Corp | Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups |
-
1996
- 1996-06-22 DE DE19624987A patent/DE19624987A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
GB2229558A (en) * | 1989-03-02 | 1990-09-26 | Nec Corp | Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19830007A1 (en) * | 1998-06-24 | 1999-12-30 | Deutsche Telekom Ag | Method of operating a global virtual call center worldwide via Internet |
US6829350B1 (en) | 1998-06-24 | 2004-12-07 | Deutsche Telekom Ag | Method for operating a global, virtual call center |
DE10213163A1 (en) * | 2002-03-23 | 2003-10-02 | Deutsche Telekom Ag | Method for automatic writing of data files based on spoken words, text or fragments of text uses communications networks linked to terminals like telephones, mobile telephones or computers. |
US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69726339T2 (en) | Method and apparatus for language translation | |
DE60016722T2 (en) | Speech recognition in two passes with restriction of the active vocabulary | |
DE69937176T2 (en) | Segmentation method to extend the active vocabulary of speech recognizers | |
EP1466317B1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
EP0802522B1 (en) | Apparatus and process to ascertain an action, and use of the apparatus and the process | |
DE60222093T2 (en) | METHOD, MODULE, DEVICE AND VOICE RECOGNITION SERVER | |
DE3042508C2 (en) | Electronic language translation device | |
DE2854837A1 (en) | TRANSLATION DEVICE | |
EP0925578B1 (en) | Speech-processing system and method | |
DE19847419A1 (en) | Procedure for the automatic recognition of a spoken utterance | |
DE602005000308T2 (en) | Device for voice-controlled applications | |
DE3910467A1 (en) | METHOD AND DEVICE FOR GENERATING REPORTS | |
DE10040214A1 (en) | Intelligent correction of dictated speech entered into a computer system uses comparison with word lists | |
DE4225200A1 (en) | ELECTRONIC WOUNDER BOOK | |
DE2946856C2 (en) | Word storage device | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
DE10040063A1 (en) | Procedure for assigning phonemes | |
DE19532114C2 (en) | Speech dialog system for the automated output of information | |
EP0814457B1 (en) | Method for automatic recognition of a spoken text | |
EP2034472B1 (en) | Speech recognition method and device | |
DE19624987A1 (en) | Automatic spoken language translation method | |
DE10229207B3 (en) | Process for natural speech recognition based on a generative transformation / phrase structure grammar | |
EP1038293B1 (en) | Method for voice recognition using a grammar | |
EP0414238B1 (en) | Voice controlled archival system | |
DE3438333A1 (en) | LANGUAGE SENSITIVE DEVICE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8141 | Disposal/no request for examination |