DE69712277T2

DE69712277T2 - Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten

Info

Publication number: DE69712277T2
Application number: DE69712277T
Authority: DE
Inventors: Germaine Kamp; Clarence Pauws; Fransiskus Willems
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1996-02-27
Filing date: 1997-01-31
Publication date: 2002-12-19
Anticipated expiration: 2017-02-01
Also published as: EP0823112B1; WO1997032299A1; KR19990008076A; TW434528B; KR100422263B1; US6208967B1; DE69712277D1; EP0823112A1; JPH11504734A

Description

Die Erfindung bezieht sich auf ein Verfahren zur automatischen Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen. Eine von verschiedenen möglichen Anwendungen ist die Sprachsynthese und insbesondere die Sprachsynthese auf der Basis von verketteten Diphonen. Diphone sind kurze Sprachsegmente, die hauptsächlich einen Übergang zwischen zwei benachbarten Phonemen enthalten plus den letzten Teil des vorhergehenden bzw. den ersten Teil des nachfolgenden Phonems. Diphone können nach bestimmten Regeln, die an sich bekannt sind, aus einer Datenbank extrahiert werden, die bereits in einzelne Phoneme segmentiert ist. Typischerweise besteht eine derartige Datenbank aus getrennten Wörtern, die von einem bestimmten einzelnen Sprecher in einer kontrollierten Umgebung aufgezeichnet wurden, und umfasst auch die verifizierte Übereinstimmung zwischen phonetischer Transkription und akustischer Realisierung. Eine einfache und automatische Realisierung des Segmentierungsverfahrens entsprechend der Einleitung und basierend auf Phonem-Hidden-Markov-Modellen (HMM) wurde von O. Boffard et al. in dem Artikel "Automatic Generation of Optimized Unit Dictionaries for Text to Speech Synthesis", International Conference on Speech and Language Processing, Banff, Alberta KANADA (1992), S. 1211-1215, beschrieben. Die Qualität des bekannten Verfahrens wurde jedoch dahingehend als unzureichend empfunden, dass die vom Verfahren gefundenen Grenzen im Allgemeinen zu weit von den Positionen abweichen, an denen die entsprechenden Grenzen bei manueller Vorgehensweise angeordnet würden. Natürlich könnte die Segmentierungsgenauigkeit verbessert werden, wenn man die Phonem-HMMs zuerst mit einer separaten und manuell segmentierten Datenbank trainiert. Die Einrichtung einer derartigen manuell segmentierten Datenbank ist jedoch oftmals zu kostenaufwendig, da dies jedes Mal wiederholt werden muss, wenn ein neuer Sprecher für ein Sprachsynthesesystem eingesetzt wird. Unter anderem hat die vorliegende Erfindung daher zur Aufgabe, ein Verfahren zur Sprachsegmentierung vorzuschlagen, das vollautomatisch funktioniert, kein manuell segmentiertes Sprachmaterial erfordert und zu einem besseres Ergebnis führt als das in der Referenzschrift genannte Verfahren.
Es ist zu beachten, dass in der Abhandlung "Recognition of intervocalic stops in continuous speech using context-dependant HMMs" von H. Franco in J. Acoust. Soc. Japan, Band 11, Nr. 1, Jan. 1990, eine automatische Segmentierungsprozedur beschrieben wird, die auf zwei Schritten beruht, wobei vorläufige Segmentierungspunkt- Kandidaten als Ankerpunkte zur Verknüpfung mit spezifischen Zuständen der HMM- Modelle benutzt werden.
Gemäß einem ihrer Aspekte schafft die Erfindung ein Verfahren zur automatischen Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei das genannte Verfahren die folgenden Schritte umfasst:
- Klassifizieren und Segmentieren von Äußerungen aus einer Sprachdatenbank in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still zum Erhalten von vorläufigen Segmentierungspositionen;
- Verwenden der vorläufigen Segmentierungspositionen als Ankerpunkte zur weiteren Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (sequence-constrained vector quantization) in einem SCVQ-Schritt;
- Initialisieren von Phonem-Hidden-Markov-Modellen mit den durch den SCVQ-Schritt gelieferten Segmenten und weitere Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung;
- schließlich Verwenden der vollständig trainierten HMMs zur Durchführung einer Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription und auf diese Weise Erhalten der endgültigen Segmentierungspunkte.
Ein weiterer Vorteil des genannten Verfahrens besteht darin, dass nur minimale Anfangsinformationen erforderlich sind, die zum Beispiel aus einer phonetischen Transkription der Äußerungen bestehen. Insbesondere ist keine separate manuell segmentierte Datenbank zur Schätzung der HMM-Parameter erforderlich.
Vorteilhafterweise wird nach der genannten Trainingsphase eine Diphongruppe zur weiteren Nutzung, zum Beispiel für die Sprachsynthese, konstruiert. Die Erfindung hat ein einfaches und kostengünstiges System für mehrere Sprecher geschaffen.
Die Erfindung bezieht sich auch auf eine Vorrichtung zur Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei die Vorrichtung folgendes umfasst:
- BPC-Segmentierungsmittel, die durch eine Sprachdatenbank gespeist werden und zur Klassifzierung und Segmentierung der empfangenen Äußerungen in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still dienen, um vorläufige Segmentierungspositionen zu erhalten;
- SCVQ-Segmentierungsmittel, die durch die genannten BPC- Segmentierungsmittel gespeist werden, um unter Verwendung der vorläufigen Segmentierungspositionen als Ankerpunkte eine weitere Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (SCVQ) durchzuführen;
- Phonem-Hidden-Markov-Modell-(HMM)-Mittel, die durch die genannten SCVQ-Segmentierungsmittel gespeist werden und zur Initialisierung des Phonem-HMMs und zur weiteren Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung dienen;
- abschließende Segmentierungsmittel, die die vollständig trainierten HMMs benutzen, um eine Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription durchzuführen und auf diese Weise die endgültigen Segmentierungspunkte zu erhalten.
Bei einer derartigen Vorrichtung würde es ungeschultem Personal möglich sein, sie in kurzer Zeit auf einen beliebigen neuen Sprecher zu trainieren. Weitere vorteilhafte Aspekte der Erfindung werden in den abhängigen Ansprüchen genannt.

KURZE BESCHREIBUNG DER ZEICHNUNG

Diese und andere Aufgaben und Vorteile der Erfindung werden im Folgenden unter Bezugnahme auf bevorzugte Ausführungsformen und insbesondere unter Bezugnahme auf die beigefügten Figuren ausführlich beschrieben, die Folgendes zeigen:
Fig. 1 ein Gesamtblockschaltbild der Vorrichtung;
Fig. 2 fünf Messungen für ein bestimmtes sinnloses Wort;
Fig. 3 eine erste Segmentierung in breite phonetische Klassen;
Fig. 4 eine Phonem-Segmentierung durch Vektorquantisierung;
Fig. 5 das Gleiche, aber mit Verbesserung durch HMM-Segmentierung.
Mit der vorliegenden Erfindung soll jede Äußerung aus einer Datenbank in eine Sequenz von nicht-überlappenden aneinandergrenzenden Phonem-Segmenten unterteilt werden und eine Eins-zu-Eins-Übereinstimmung zwischen diesen Segmenten und einer Sequenz von phonetischen Klassenkennungen gebildet werden, die durch phonetische Transkription geschaffen wurden. Die Sprache kann zweckmäßigerweise als eine Sequenz von akustischen Vektoren beschrieben werden, die jeweils die Sprache über ein gleichförmiges Zeitfenster von typischerweise 10-20 ms mit Verschiebungen zwischen den Fenstern von 2,5-10 ms charakterisieren. Ein p-dimensionaler akustischer Vektor eines Fensters t ist o(t) = [o&sub1;(t)... op(t)]', wobei das Akzentzeichen die Vektortransposition bezeichnet und eine komplette Sequenz von T Fenstern dann dargestellt wird durch O(1,T) = o(1), o(T). In der Ausführungsform der vorliegenden Erfindung ist für die BPC- Segmentierung p = 5, für die sequenzbegrenzte Vektorquantisierung p = 12 und für die Hidden-Markov-Modellierung p = 51. Ein BPC-Element oder eine phonemartige Einheit, die durch ein Segment I aufgespannt wird, kann durch einen prototypischen Vektor oder Schwerpunkt mit der Bezeichnung dargestellt werden. Der Intrasegment-Abstand d&sub1;(i,j) des Segmentes I ist definiert als die Summe der Abstände zwischen den Vektoren O(i,j), die das Segment aufspannen, einerseits und den Schwerpunkt
andererseits. Durch Minimierung der Verzerrung
erhält man die Segmentierungspunkte (bl(l = 1... L-1). Diese allgemeine Formel wird im Folgenden für die Abstandsmessung, für die Minimierungsprozedur und auch zur Bestimmung der Schwerpunkte benutzt.
Fig. 1 zeigt ein Gesamtblockschaltbild einer Ausführungsform des Systems. Hier ist Element 20 ein Mikrofon zum Empfangen von Sprache von einer bestimmten Sprecherperson, die angewiesen ist, die Gruppe von vorher festgelegten getrennten Wörtern auszusprechen, die jeweils segmentiert werden sollen. Derartige Gruppen wurden für verschiedene Sprachen vorgeschlagen. Einige oder alle der Worte können sinnlose Worte sein. Die erste Verarbeitungsebene in Block 22 besteht aus periodischer Abtastung, Digitalisierung und Filterung. Die Ergebnisse werden im Zwischenspeicher 24 gespeichert, um den Empfang der Sprache von der Verarbeitung abzukoppeln. Die allgemeine Steuerung befindet sich in Block 34, bei dem es sich um einen Standardcomputer handeln kann, der auf angemessene Weise programmiert wurde und der die Blöcke 24-31, 36 steuert. Die Steuerung kann das Synchronisieren, das Liefern eines Anwendungsprogramms und die eventuelle Zwischenspeicherung zwischen den verschiedenen Verarbeitungsschritten implizieren. Der Übersichtlichkeit halber wurde nur eine einzige unidirektionale Verbindung gezeichnet. Nach dem Auslesen der Äußerungen aus dem Speicher 24 wird in Block 26 die erste Phase der Klassifizierung und Segmentierung in die breiten phonetischen Klassen (BPC) stimmhaft (voiced), stimmlos (unvoiced) und still (silence) durchgeführt. Die Ergebnisse dieser vorläufigen BPC-Segmentierung werden in Block 28 weiter verarbeitet, der die zweite Phase, die sequenzbegrenzte Vektorquantisierung (sequence constrained vector quantizing, SCVQ), zur weiteren Segmentierung in Phoneme durchführt. In Block 30 wird die dritte Phase realisiert. Hierbei werden die durch die vorhergehende SCVQ- Stufe gelieferten Segmente zum Initialisieren der Phonem-HMMs benutzt, die dann durch Baum-Welch-Schätzung weiter auf die zu segmentierende Datenbank abgestimmt werden. Eine hervorragende und gut zugängliche Abhandlung über HMMs und den sogenannten Baum-Welch-Lösungsansatz findet man bei L.R. Rabiner, "A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proc. IEEE, Band 77, Nr. 2, Febr. 1989, S. 257-286. Schließlich werden diese HMMs in Block 31 benutzt, um eine zeitliche Viterbi-Ausrichtung der Äußerungen der Sprachenbank auf ihre phonetische Transkription durchzuführen. An sich ist die Viterbi-Ausrichtung eine Standardtechnologie, deren Beschreibung der gleichen Referenzschrift zu entnehmen ist.
Das Ergebnis der Segmentierung wird im Speicher 32 gespeichert. Aus der Sequenz der auf diese Weise pro geäußertem Wort erzeugten Phoneme erstellt das diphonerzeugende Gerät 39 die verschiedenen Diphone, die zur Erzeugung von tatsächlicher Sprache notwendig sind, wobei diese Diphone als Datenbank in den Speicher zurückgeschrieben werden, die zur Erzeugung von Sprache dient und einen beliebigen Inhalt haben kann, oder die für andere Sprachverarbeitungsanwendungen auf der Basis der tatsächlich erhaltenen begrenzten Sprachmenge vom menschlichen Sprecher genutzt werden kann. Die Kontrolle hierfür ist abgeleitet vom (begrifflichen) Steuerungs-/Wiedergabesystem 36, dass über die Verbindung 42 auf die Datenbank zugreift, über Leitung 40 Diphone erhält und über die bidirektionale Verbindung 38 weiter mit dem Speicher 32 in Interaktion bleibt. Die tatsächlichen Sprachausgabegeräte über Leitung 41 sind der Kürze halber nicht dargestellt. Ein Ablaufplan für die Sprachverarbeitung wird im Allgemeinen in ähnlicher Weise erstellt, wobei jedes betreffende gesprochene Wort vollständig verarbeitet wird, bevor das nächste vorgelegt wird.

ERSTE PHASE: SEGMENTIERUNG IN BREITE PHONETISCHE KLASSEN

Die erste Phase der Segmentierung soll sogenannte Ankerpunkte für nachfolgende Phasen schaffen. Die drei Klassen sind Stille (silence, SIL), wobei keine Sprachsignalform vorhanden ist, stimmhaft (voiced, voi), wobei die Sprachsignalform quasiperiodisch ist, und stimmlos (unvoiced, unv), wobei die Signalform aperiodisch oder zufällig ist. In der Ausführungsform basiert die Segmentierung auf fünf verschiedenen Messungen, und zwar wie folgt:
- normalisierte Kurzzeitenergie EN, so dass SIL EN nahe an 1 hat (es ist zu beachten, dass die Energie auf logarithmische Weise gemessen wird);
- normalisierte niederfrequente Energie Elow in einem Bereich von 50-1200 Hz;
- normalisierte hochfrequente Energie Ehigh in einem Bereich von 2000-4000 Hz;
- Nulldurchgang Rate ZN;
- erster LPC-Koeffizient a1 eines LPC-Modells erster Ordnung.
In der Ausführungsform wurde die abgetastete Signalform x(k) für k = 0... N-1 durch eine Filterfunktion (1 - 0,95 z&supmin;¹) vorverzerrt, blockiert und per Hamming- Fenster in Fenster von 20 ms mit einer fensterweisen Verschiebung von 2,5 ms aufgeteilt. Abb. 2 zeigt die fünf genannten Messungen für ein sinnloses Wort 'kekakke' in niederländischer Aussprache. Unmittelbar unter der Signalform sind die zugehörigen Phonemzeichen angegeben. Wie abgebildet betrug die Hauptdauer des Vokals 'A' ca. 10 ms. In der Figur lassen sich deutlich drei stimmhafte Intervalle, drei stimmlose Intervalle und vier stille Intervalle unterscheiden. Die Ergebnisse der fünf genannten Messungen sind in Form entsprechender Signalkurven abgebildet. Bestimmte Übergänge sind deutlicher zu sehen als andere. In der Praxis implizieren Übergänge zwischen aufeinanderfolgenden Phonemen nicht immer eine Änderung von breiten phonetischen Klassen.
Zunächst wird nun die verfügbare phonetische Transkription der Äußerungen auf eine Transkription in Form von breiten phonetischen Klassen abgebildet; in der Tat weiß das System, welches Wort eigentlich empfangen werden sollte, da der Sprecher die Worte in einer vorgegebenen Reihenfolge eingeben muss. Wenn beispielsweise eine bestimmte Äußerung aus einer Folge von L' Elementen breiter phonetischer Klassen besteht, müssen die entsprechenden nachfolgenden Segmente in der Beobachtung O&sub1;T zusammen mit einer Gruppe von Schwerpunkten { } gefunden werden, die den oben definierten Gesamtabstand minimiert. Der hier benutzte Abstand ist der gewichtete euklidische Abstand und die geschätzte Varianz der Messungen wird als Gewichtungsfaktor benutzt. Diese Minimierung wird in einer dynamischen Programmierumgebung durchgeführt, die mit der bekannten Vorgehensweise der Ebenenkonstruktion gut vergleichbar ist, siehe C.S. Myers und L.R. Rabiner, "A Level Building Dynamic Time Wraping Algorithm for Connected Word Recognition", IEEE Trans. ASSP, Band 29, Nr. 2, April 1981, S. 284-297. Das hier genutzte Verfahren ist im Wesentlichen iterativ und wird fortgesetzt, bis keine weitere Verbesserung mehr erzielt wird. Jede Wiederholung der Prozedur besteht aus aufeinanderfolgenden Schritten. Im ersten Schritt wird eine optimale Gruppe von Grenzen b&sub1; für eine gegebene Gruppe von Schwerpunkten gesucht. Im zweiten Schritt werden die Schwerpunkte { } und die Varianz unter Verwendung der neu erfassten Segmentierungspunkte aktualisiert. In Hinblick auf die hier benutzte gewichtete Euler-Distanz ist der aktualisierte Schwerpunkt, der eine breite phonetische Klasse darstellt, einfach der arithmetische Mittelwert aller Beobachtungsvektoren für die gegebene Gruppe von Segmentierungspunkten. Der erste Schritt beginnt mit der Einheitenvarianz und Schwerpunkten, die idealisierte breite phonetsiche Klassen darstellen:
Minimale, durchschnittliche und maximale Dauer eines BPC-Elementes sind gleich der Summe der entsprechenden Größen für die Phoneme, aus denen ein BPC-Segment besteht. Informationen über minimale und maximale'Dauer der Phoneme sind in der Literatur zu finden. Diese Informationen über minimale und maximale Dauer werden benutzt, um die Suche nach BPC-Grenzen durch die Vorgabe von Ober- und Untergrenzen für das Intervall, in dem ein BPC-Segment liegen kann, zu begrenzen. Die durchschnittliche Dauer schließlich dient zum Skalieren der minimalen und der maximalen Dauer im Verhältnis zur tatsächlichen Länge der Äußerung.
Fig. 3 zeigt das Ergebnis der ersten BPC-Segmentierung als kumulative Bruchteile, die weniger als eine bestimmte Marge von den manuell ermittelten Übergangspunkten abweichen. Wie abgebildet, werden 82% der Übergänge in zufriedenstellender Weise lokalisiert, da die Marge kleiner als 20 ms ist.

ZWEITE PHASE: SEQUENZBEGRENZTE VEKTORQUANTISIERUNG (SCVQ)

Aus der oben geschilderten Segmentierung ergeben sich Ankerpunkte für die weitere Verarbeitung der Sprache. Im Allgemeinen würde diese Verarbeitung sich auf die Segmentierung jedes BPC-Elementes in seine phonemartigen Einheiten reduzieren, aus denen es sich zusammensetzt. Spezieller werden die Äußerungen in aufeinanderfolgende quasi-stationäre Elemente segmentiert. Aufgrund der Forderung der Stationärheit werden Diphthonge und Plosive weiter in ihre zusammensetzenden Phoneme unterteilt. Auch hier müssen die Segmentgrenzen und Schwerpunkte gefunden werden, die die Gesamtverzerrung minimieren, was auf eine iterative Weise geschieht, die der Vorgehensweise in der vorhergehenden Phase ähnelt. Für den ersten Iterationsschritt wird der Schwerpunkt definiert als der Vektor, der die Verzerrung über alle Hypothesen minimiert, die die gleiche Kennung besitzen und in einer einzigen Beobachtungssequenz O = (bl-1+1),...(bl) zusammengefasst sind.
Auf diese Weise erhält man Schwerpunkte aus den vorliegenden Beobachtungen, was den offensichtlichen Vorteil hat, dass keine Vorkenntnisse erforderlich sind. Die erste SCQV-Iteration erfolgt durch ebenenkonstruierende dynamische Programmierung. Das Schema der zweiten Iteration ist das Gleiche wie bei der vorhergehenden BPC- segmentierenden Phase. Der in der ersten Iteration gefundene Phonem-Schwerpunkt wird im nächsten Schritt als Referenz verwendet, wodurch der Prozess auf einen Schablonenpaarigkeitsvergleich reduziert wird. Im dritten und letzten Schritt wird ein Schwerpunkt für jedes Auftreten einer Kennung berechnet. Weitere Iterationen führen zu keiner weiteren Verbesserung. Fig. 4 zeigt die Phonem-Segmentierung mit Hilfe der Ankerpunkte, die durch die erste Phase erzeugt wurden. Im Gegensatz zur BPC-Phase beziehen sich die Kennungen hier auf etwa fünfzig verschiedene Phonem-Klassen. Angesichts der wesentlich größeren Anzahl von Klassen ist die Segmentierung sicherlich akzeptabler als die Segmentierung der ersten Phase: bei ca. 70% aller Klassen war die Abweichung von der manuellen Segmentierung kleiner als 20 ms.

DRITTE PHASE: SEGMENTIERUNG DURCH HIDDEN-MARKOV-MODELLE (HMM)

Durch die Berücksichtigung der statistischen Veränderlichkeit der Sprache wird das mit der sequenzbegrenzten Vektorquantisierung erzielte Ergebnis durch die Verwendung von Hidden-Markov-Modellen weiter verbessert. Insgesamt wurden erneut etwa 50 verschiedene phonemartige Einheiten benutzt, wobei jede ein eigenes HMM bekamen.
Um die Realisierung einer vollautomatischen Prozedur sicherzustellen, werden die HMMs mit den in der SCQV-Phase erhaltenen Ergebnissen initialisiert. Jede phonemartige Einheit - mit Ausnahme der Burst-Einheit - erhält eine einfache HMM-Topologie von links nach rechts mit sechs Zuständen und enthält Selbstschleifen und direkte Übergänge zur nächsten Stufe; aus diesem Grund beträgt die Dauer mindestens sechs Fenster von jeweils 5 ms, und diese Fenster sind kürzer als die weiter oben betrachteten. Ein burstartiges Segment wird durch ein 2-Stufen-Modell mit der gleichen Art von Selbstschleifen und Übergängen dargestellt.
Die Emissionsverteilungen sind von kontinuierlicher Art. Jeder Beobachtungsvektor ist in 4 Teilvektoren unterteilt, die folgendes darstellen:
- Momentane Merkmale (16-Kanal-Filterbank-Analyse);
- die erste und die zweite finite Differenz dieser Merkmale, wie in Bezug auf die vorhergehenden Fenster bestimmt;
- Energiedaten.
Die Emissionswahrscheinlichkeitsdichte für jeden Teilvektor ist eine multivariante Gaußsche Mischungsverteilung.
Die HMM-Parameter werden folgendermaßen justiert. Man betrachtet eine bestimmte phonemartige Einheit und die Gruppe der Beobachtungssequenzen, die in der SCVQ-Phase hierfür herausgeschnitten wurden. Das HMM dieser phonemartigen Einheit wird initialisiert, indem die akustischen Vektoren von jeder Beobachtungssequenz gleichmäßig auf die 6 (oder 2) HMM-Zustände dieser Einheit verteilt werden. Dies hat zur Folge, dass jedem Zustand des Modells durch die gleichmäßige Verteilung auf die Zustände spezifische akustische Vektoren in einer Beobachtung zugeordnet werden. Als nächstes wird ein k-Mittel-Algorithmus verwendet, um diese akustischen Vektoren in Cluster aufzuteilen, aus denen Anfangswerte für die Parameter der Mischungsverteilung berechnet werden können. Siehe auch J.G. Wilpon und L.R. Rabiner, "A Modified K-Means Clustering Algorithm for Use in Isolated Word Recognition", IEEE Trans. ASSP, Band 33, Nr. 3, Juni 1985, S. 587 - 594.
Diese Parameter sind Mittelvektoren, Kovarianzmatrizen der Komponentendichten und Mischungsgewichte. Die Übergangswahrscheinlichkeiten werden bei willkürlichen Werten ungleich Null initialisiert. Hat man diese anfänglichen HMMs einmal erhalten, wird ein überwachtes Viterbi-Training angewendet, was zu einer neuen Segmentierung führt. Hieraus können aktualisierte HMM-Parameter berechnet werden. Letztere umfassen Übergangswahrscheinlichkeiten unter Verwendung der Übergangsstatistiken zwischen aus dem Ausrichtungspfad geholten Zuständen. Anschließend erfolgt eine Feinabstimmung der Modelle durch Schätzung der Parameter gemäß Baum-Welch für jede vollständige Äußerung.
Schließlich werden die vollständig trainierten HMMs benutzt, um eine Viterbi-Ausrichtung von jedem Wort in der Datenbank auf sein phonetisches Transkript durchzuführen. Dadurch erhält man die endgültigen Segmentierungspunkte. Fig. 5 zeigt das Ergebnis; die Verbesserung im Vergleich zur SCQV-Segmentierung aus Fig. 4 ist beeindruckend: bei nahezu 90% der Übergänge ist die Abweichung kleiner als 20 ms.

Claims

1. Verfahren zur automatischen Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei das genannte Verfahren die folgenden Schritte umfasst:

- Klassifizieren und Segmentieren von Äußerungen aus einer Sprachdatenbank in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still zum Erhalten von vorläufigen Segmentierungspositionen;

- Verwenden der vorläufigen Segmentierungspositionen als Ankerpunkte zur weiteren Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (sequence-constrained vector quantization) in einem SCVQ-Schritt;

- Initialisieren von Phonem-Hidden-Markov-Modellen mit den durch den SCVQ-Schritt gelieferten Segmenten und weitere Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung;

- schließlich Verwenden der vollständig trainierten HMMs zur Durchführung einer Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription und auf diese Weise Erhalten der endgültigen Segmentierungspunkte.

2. Verfahren nach Anspruch 1, wobei nach der genannten Segmentierung eine Diphongruppe zur weiteren Nutzung zusammengestellt wird.

3. Verfahren nach Anspruch 1 oder 2, wobei es sich bei der genannten Sprachverarbeitung um Sprachsynthese handelt.

4. Vorrichtung zur Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei die genannte Vorrichtung folgendes umfasst:

- BPC-Segmentierungsmittel (26), die durch eine Sprachdatenbank gespeist werden und zur Klassifzierung und Segmentierung der empfangenen Äußerungen in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still dienen, um vorläufige Segmentierungspositionen zu erhalten;

- SCVQ-Segmentierungsmittel (28), die durch die genannten BPC-Segmentierungsmittel gespeist werden, um unter Verwendung der vorläufigen Segmentierungspositionen als Ankerpunkte eine weitere Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (SCVQ) durchzuführen;

- Phonem-Hidden-Markov-Modell-(HMM)-Mittel (30), die durch die genannten SCVQ- Segmentierungsmittel gespeist werden und zur Initialisierung des Phonem-HMMs und zur weiteren Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung dienen;

- abschließende Segmentierungsmittel (31), die die vollständig trainierten HMMs benutzen, um eine Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription durchzuführen und auf diese Weise die endgültigen Segmentierungspunkte zu erhalten.

5. Vorrichtung nach Anspruch 4, die diphonerzeugende Mittel enthält, welche durch die genannten Segmentierungsmittel gespeist werden, um eine Diphongruppe zusammenzustellen.

6. Vorrichtung nach Anspruch 4 oder 5, die weiterhin eine Ausgangssteuerungsstufe zur Steuerung einer Sprachsynthese-Ausgangsstufe durch eine Zwischenspeicherstufe zwischen den genannten Abstimmungsmitteln und der genannten Sprachsynthese- Ausgangsstufe enthält.