DE19508137A1

DE19508137A1 - Stepwise classification of arrhythmically segmented words

Info

Publication number: DE19508137A1
Application number: DE1995108137
Authority: DE
Inventors: Werner Prof Dr Ing Zuehlke; Karl Dr Ing Schran; Jiri Dipl Ing Navratil
Original assignee: Individual
Current assignee: Individual
Priority date: 1995-03-08
Filing date: 1995-03-08
Publication date: 1996-09-12

Abstract

The classification takes place in speech recognition systems. In the first step the test word is compared with all reference words for a part-word length, segment number, and a detected sound type sequence. The reference words are permitted to take part in the following classification step, only when the deviations lie within the preset tolerance range. For a decision between similar reference words, the segments stressed or expanded in spoked sound, or syllables of the test word, are more heavily weighted.

Description

Die Erfindung betrifft ein Verfahren zur schrittweisen Klassifi kation arrhythmisch segmentierter Worte und kommt bei der auto matischen Spracherkennung zur Anwendung.The invention relates to a method for gradual classification cation arrhythmically segmented words and comes at the auto Matic speech recognition for use.

Die bekannten Verfahren zur Spracherkennung segmentieren das Signal eines Wortes sowohl beim Training als auch beim Test in Segmente, sie berechnen für diese Segmente vereinbarte Merkmale und verglei chen die Merkmale des Testwortes mit den vorher gespeicherten Merkmalen aller trainierten Worte.The known methods for speech recognition segment the signal one word both during training and when testing in segments, they calculate agreed characteristics for these segments and compare them Chen the characteristics of the test word with the previously saved Characteristics of all trained words.

Dabei ermittelte Abstandsmaße sind die Grundlage für die nachfolgende Klassifizierung. (Dellert, J.R., Proakis, J.G., Hansen, J.H.L.: Diskrete-Time Processing of Speech Signals. Macmillan Publishing Company, New York 1993.)The distance dimensions determined are the basis for the subsequent classification. (Dellert, J.R., Proakis, J.G., Hansen, J.H.L .: Discrete-Time Processing of Speech Signals. Macmillan Publishing Company, New York 1993.)

Der Rechenaufwand für den Vergleich steigt mit der Anzahl trainierter Worte und ist durch die zulässige Verarbeitungszeit eingeschränkt. Für großes Vokabular und für die Erkennung fließender Sprache greift man deshalb auf kleinere phonetische Einheiten, wie Silben oder Halbsilben, zurück, deren Menge in der Sprache kleiner ist als die der Worte. Aber auch für Silben gibt es in der deutschen Sprache noch etwa 6000 und für Halbsilben etwa 1600 Klassen. (Waigel, W.: Silbenorientierte Erkennung fließender Sprache mittels diskreter stochastischer Modellierung. Diss., TU München, 1990). Zur Verminderung des Aufwandes wurden auch schon Verfahren zur Vorklassifikation auf der Basis von Phonemen vorgeschlagen. (Schulze, E.: Verfahren zur Referenzselektion für ein automatisches Sprachverarbeitungssystem. DE 32 16 871). Ergeben sich bei dem Vergleich mehrere Kandidaten, wird eine Nachklas sifikation durchgeführt. Dazu wurde eine automatische unterschei dungsrelevante Gewichtung von Zuständen und Merkmalen vorge schlagen. (Zünkler, K.: Verfahren zur Erkennung von Mustern in zeitvarianten Meßsignalen, DE 41 31 387).The computing effort for the comparison increases with the number trained words and is due to the allowable processing time limited. For large vocabulary and for recognition Fluent language is therefore resorted to smaller phonetic ones Units, such as syllables or half-syllables, back, their amount in the Language is smaller than that of words. But there are also syllables in the German language about 6000 and for half syllables about 1600 classes. (Waigel, W .: Syllable-oriented recognition of fluent Speech using discrete stochastic modeling. Diss., TU Munich, 1990). To reduce the effort have already been Preclassification procedure based on phonemes suggested. (Schulze, E .: Procedure for reference selection for an automatic speech processing system. DE 32 16 871). Surrender If there are several candidates in the comparison, it becomes a post-class sification carried out. There was an automatic difference weighting of conditions and characteristics relevant to the application beat. (Zünkler, K .: Process for recognizing patterns in time-variant measurement signals, DE 41 31 387).

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem bei arrhythmischer Segmentierung die Klassifizierung beschleunigt wird. The invention has for its object to provide a method with which for arrhythmic segmentation the classification is accelerated.

Die Aufgabe wird erfindungsgemäß dadurch gelöst, daß die Klassifikation in mindestens zwei Schritten erfolgt, wobei im ersten Schritten nach einfachen und groben Merkmalen, wie der Teilwortlänge, der Anzahl arrhythmischer Segmente und der ermittelten Lauttypfolge, verglichen und vorausgewählt wird, und in nachfolgenden Schritten die in den arrhythmischen Segmenten berechneten Merkmalsmuster zur Klassifikation herangezogen werden. Zur endgültigen Entscheidung zwischen ähnlichen Worten gehen stark betont oder auffallend gedehnt gesprochene Laute mit stärkerem Gewicht in die Entscheidung ein.The object is achieved in that the Classification takes place in at least two steps, whereby in first steps after simple and rough features like the Partial word length, the number of arrhythmic segments and the determined sound type sequence, compared and preselected, and in subsequent steps that in the arrhythmic segments calculated feature patterns can be used for classification. To make the final decision between similar words go strong emphasized or strikingly stretched spoken sounds with stronger Weight in the decision.

Die Erfindung wird nachstehend an zwei Ausführungsbeispielen erläutert.The invention is based on two exemplary embodiments explained.

Nach Erfindungsanspruch 1 werden in einem Worterkenner bei der Klassifikation eines unbekannten Testmusters im ersten Schritt diejenigen Worthypothesen ausgeschieden, deren Teilwortlängen variabilität die vorliegende Testteilwortlänge mit großer Wahr scheinlichkeit ausschließt, und bei denen die aus der arrhythmischen signaladaptiven Segmentierung sich ergebende Segmentanzahl signifikant von der Segmentanzahl des Testwortes abweicht und deren einzelne Segmentlängen oder deren Aufeinanderfolge der Lauttypen, wie stimmhaft oder stimmlos, zu stark von den ermittelten Werten und Folgen des Testwortes abweichen.According to claim 1 are in a word recognizer at Classification of an unknown test pattern in the first step those word hypotheses eliminated, whose partial word lengths variability the present test part word length with great truth excludes likelihood, and in which the arrhythmic resulting segment adaptive segmentation differs significantly from the number of segments of the test word and their individual segment lengths or their succession of sound types, how voiced or unvoiced, too much from the determined values and consequences of the test word deviate.

Teilwortlängen werden z. B. zwischen dem Anfang des ersten Vokals und dem Ende des letzten Vokals vereinbart. Sie sind genauer meßbar als die Wortlängen, wenn das Wort mit einem stimmlosen Laut beginnt oder endet.Subword lengths are e.g. B. between the beginning of the first vowel and the end of the last vowel. They can be measured more precisely than the word lengths if the word starts with an unvoiced sound or ends.

Treten nach dem Vergleich auf Basis berechneter Muster oder Generatorwahrscheinlichkeiten mehrere ähnliche Kandidaten auf, die eine eindeutige Klassifizierung noch nicht zulassen, werden nach Erfindungsanspruch 2 diese in einer Nachklassifikation dadurch unterschieden, daß stark betonte und/oder auffallend gedehnt gesprochene Laute oder Silben mit stärkerem Gewicht berücksichtigt werden.Occur after the comparison based on calculated patterns or Generator probabilities on several similar candidates, that do not allow clear classification yet according to claim 2 this in a reclassification distinguished that strongly emphasized and / or strikingly stretched spoken sounds or syllables with greater weight are taken into account will.

Claims

1. Verfahren zur schrittweisen Klassifikation arrhythmisch segmen tierter Worte in Spracherkennungsanlagen, dadurch gekennzeichnet, daß in einem ersten Schritt das Testwort mit allen Referenzworten nach einer Teilwortlänge, der Segmentanzahl und der ermittelten Lauttypfolge verglichen wird, und die Referenzworte zu dem nachfolgenden Klassifikationsschritt nur zugelassen werden, wenn die Abweichungen in vorgegebenen Toleranzen liegen.1. Method for the gradual classification of arrhythmically segregated words in speech recognition systems, characterized in that in a first step the test word is compared with all reference words according to a partial word length, the number of segments and the determined sound type sequence, and the reference words are only permitted for the subsequent classification step, if the deviations are within specified tolerances.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Entscheidung zwischen ähnlichen Referenzworten die Segmente betont oder gedehnt gesprochener Laute oder Silben des Testwortes stärker gewichtet werden.2. The method according to claim 1, characterized in that for Decision between similar reference words the segments emphasizes or stretches spoken sounds or syllables of the test word be weighted more heavily.