DE69712277T2 - Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten - Google Patents

Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten

Info

Publication number
DE69712277T2
DE69712277T2 DE69712277T DE69712277T DE69712277T2 DE 69712277 T2 DE69712277 T2 DE 69712277T2 DE 69712277 T DE69712277 T DE 69712277T DE 69712277 T DE69712277 T DE 69712277T DE 69712277 T2 DE69712277 T2 DE 69712277T2
Authority
DE
Germany
Prior art keywords
segmentation
speech
phoneme
scvq
bpc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69712277T
Other languages
English (en)
Other versions
DE69712277D1 (de
Inventor
Germaine Kamp
Clarence Pauws
Fransiskus Willems
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69712277D1 publication Critical patent/DE69712277D1/de
Publication of DE69712277T2 publication Critical patent/DE69712277T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren zur automatischen Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen. Eine von verschiedenen möglichen Anwendungen ist die Sprachsynthese und insbesondere die Sprachsynthese auf der Basis von verketteten Diphonen. Diphone sind kurze Sprachsegmente, die hauptsächlich einen Übergang zwischen zwei benachbarten Phonemen enthalten plus den letzten Teil des vorhergehenden bzw. den ersten Teil des nachfolgenden Phonems. Diphone können nach bestimmten Regeln, die an sich bekannt sind, aus einer Datenbank extrahiert werden, die bereits in einzelne Phoneme segmentiert ist. Typischerweise besteht eine derartige Datenbank aus getrennten Wörtern, die von einem bestimmten einzelnen Sprecher in einer kontrollierten Umgebung aufgezeichnet wurden, und umfasst auch die verifizierte Übereinstimmung zwischen phonetischer Transkription und akustischer Realisierung. Eine einfache und automatische Realisierung des Segmentierungsverfahrens entsprechend der Einleitung und basierend auf Phonem-Hidden-Markov-Modellen (HMM) wurde von O. Boffard et al. in dem Artikel "Automatic Generation of Optimized Unit Dictionaries for Text to Speech Synthesis", International Conference on Speech and Language Processing, Banff, Alberta KANADA (1992), S. 1211-1215, beschrieben. Die Qualität des bekannten Verfahrens wurde jedoch dahingehend als unzureichend empfunden, dass die vom Verfahren gefundenen Grenzen im Allgemeinen zu weit von den Positionen abweichen, an denen die entsprechenden Grenzen bei manueller Vorgehensweise angeordnet würden. Natürlich könnte die Segmentierungsgenauigkeit verbessert werden, wenn man die Phonem-HMMs zuerst mit einer separaten und manuell segmentierten Datenbank trainiert. Die Einrichtung einer derartigen manuell segmentierten Datenbank ist jedoch oftmals zu kostenaufwendig, da dies jedes Mal wiederholt werden muss, wenn ein neuer Sprecher für ein Sprachsynthesesystem eingesetzt wird. Unter anderem hat die vorliegende Erfindung daher zur Aufgabe, ein Verfahren zur Sprachsegmentierung vorzuschlagen, das vollautomatisch funktioniert, kein manuell segmentiertes Sprachmaterial erfordert und zu einem besseres Ergebnis führt als das in der Referenzschrift genannte Verfahren.
  • Es ist zu beachten, dass in der Abhandlung "Recognition of intervocalic stops in continuous speech using context-dependant HMMs" von H. Franco in J. Acoust. Soc. Japan, Band 11, Nr. 1, Jan. 1990, eine automatische Segmentierungsprozedur beschrieben wird, die auf zwei Schritten beruht, wobei vorläufige Segmentierungspunkt- Kandidaten als Ankerpunkte zur Verknüpfung mit spezifischen Zuständen der HMM- Modelle benutzt werden.
  • Gemäß einem ihrer Aspekte schafft die Erfindung ein Verfahren zur automatischen Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei das genannte Verfahren die folgenden Schritte umfasst:
  • - Klassifizieren und Segmentieren von Äußerungen aus einer Sprachdatenbank in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still zum Erhalten von vorläufigen Segmentierungspositionen;
  • - Verwenden der vorläufigen Segmentierungspositionen als Ankerpunkte zur weiteren Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (sequence-constrained vector quantization) in einem SCVQ-Schritt;
  • - Initialisieren von Phonem-Hidden-Markov-Modellen mit den durch den SCVQ-Schritt gelieferten Segmenten und weitere Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung;
  • - schließlich Verwenden der vollständig trainierten HMMs zur Durchführung einer Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription und auf diese Weise Erhalten der endgültigen Segmentierungspunkte.
  • Ein weiterer Vorteil des genannten Verfahrens besteht darin, dass nur minimale Anfangsinformationen erforderlich sind, die zum Beispiel aus einer phonetischen Transkription der Äußerungen bestehen. Insbesondere ist keine separate manuell segmentierte Datenbank zur Schätzung der HMM-Parameter erforderlich.
  • Vorteilhafterweise wird nach der genannten Trainingsphase eine Diphongruppe zur weiteren Nutzung, zum Beispiel für die Sprachsynthese, konstruiert. Die Erfindung hat ein einfaches und kostengünstiges System für mehrere Sprecher geschaffen.
  • Die Erfindung bezieht sich auch auf eine Vorrichtung zur Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei die Vorrichtung folgendes umfasst:
  • - BPC-Segmentierungsmittel, die durch eine Sprachdatenbank gespeist werden und zur Klassifzierung und Segmentierung der empfangenen Äußerungen in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still dienen, um vorläufige Segmentierungspositionen zu erhalten;
  • - SCVQ-Segmentierungsmittel, die durch die genannten BPC- Segmentierungsmittel gespeist werden, um unter Verwendung der vorläufigen Segmentierungspositionen als Ankerpunkte eine weitere Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (SCVQ) durchzuführen;
  • - Phonem-Hidden-Markov-Modell-(HMM)-Mittel, die durch die genannten SCVQ-Segmentierungsmittel gespeist werden und zur Initialisierung des Phonem-HMMs und zur weiteren Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung dienen;
  • - abschließende Segmentierungsmittel, die die vollständig trainierten HMMs benutzen, um eine Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription durchzuführen und auf diese Weise die endgültigen Segmentierungspunkte zu erhalten.
  • Bei einer derartigen Vorrichtung würde es ungeschultem Personal möglich sein, sie in kurzer Zeit auf einen beliebigen neuen Sprecher zu trainieren. Weitere vorteilhafte Aspekte der Erfindung werden in den abhängigen Ansprüchen genannt.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Diese und andere Aufgaben und Vorteile der Erfindung werden im Folgenden unter Bezugnahme auf bevorzugte Ausführungsformen und insbesondere unter Bezugnahme auf die beigefügten Figuren ausführlich beschrieben, die Folgendes zeigen:
  • Fig. 1 ein Gesamtblockschaltbild der Vorrichtung;
  • Fig. 2 fünf Messungen für ein bestimmtes sinnloses Wort;
  • Fig. 3 eine erste Segmentierung in breite phonetische Klassen;
  • Fig. 4 eine Phonem-Segmentierung durch Vektorquantisierung;
  • Fig. 5 das Gleiche, aber mit Verbesserung durch HMM-Segmentierung.
  • Mit der vorliegenden Erfindung soll jede Äußerung aus einer Datenbank in eine Sequenz von nicht-überlappenden aneinandergrenzenden Phonem-Segmenten unterteilt werden und eine Eins-zu-Eins-Übereinstimmung zwischen diesen Segmenten und einer Sequenz von phonetischen Klassenkennungen gebildet werden, die durch phonetische Transkription geschaffen wurden. Die Sprache kann zweckmäßigerweise als eine Sequenz von akustischen Vektoren beschrieben werden, die jeweils die Sprache über ein gleichförmiges Zeitfenster von typischerweise 10-20 ms mit Verschiebungen zwischen den Fenstern von 2,5-10 ms charakterisieren. Ein p-dimensionaler akustischer Vektor eines Fensters t ist o(t) = [o&sub1;(t)... op(t)]', wobei das Akzentzeichen die Vektortransposition bezeichnet und eine komplette Sequenz von T Fenstern dann dargestellt wird durch O(1,T) = o(1), o(T). In der Ausführungsform der vorliegenden Erfindung ist für die BPC- Segmentierung p = 5, für die sequenzbegrenzte Vektorquantisierung p = 12 und für die Hidden-Markov-Modellierung p = 51. Ein BPC-Element oder eine phonemartige Einheit, die durch ein Segment I aufgespannt wird, kann durch einen prototypischen Vektor oder Schwerpunkt mit der Bezeichnung dargestellt werden. Der Intrasegment-Abstand d&sub1;(i,j) des Segmentes I ist definiert als die Summe der Abstände zwischen den Vektoren O(i,j), die das Segment aufspannen, einerseits und den Schwerpunkt
  • andererseits. Durch Minimierung der Verzerrung
  • erhält man die Segmentierungspunkte (bl(l = 1... L-1). Diese allgemeine Formel wird im Folgenden für die Abstandsmessung, für die Minimierungsprozedur und auch zur Bestimmung der Schwerpunkte benutzt.
  • Fig. 1 zeigt ein Gesamtblockschaltbild einer Ausführungsform des Systems. Hier ist Element 20 ein Mikrofon zum Empfangen von Sprache von einer bestimmten Sprecherperson, die angewiesen ist, die Gruppe von vorher festgelegten getrennten Wörtern auszusprechen, die jeweils segmentiert werden sollen. Derartige Gruppen wurden für verschiedene Sprachen vorgeschlagen. Einige oder alle der Worte können sinnlose Worte sein. Die erste Verarbeitungsebene in Block 22 besteht aus periodischer Abtastung, Digitalisierung und Filterung. Die Ergebnisse werden im Zwischenspeicher 24 gespeichert, um den Empfang der Sprache von der Verarbeitung abzukoppeln. Die allgemeine Steuerung befindet sich in Block 34, bei dem es sich um einen Standardcomputer handeln kann, der auf angemessene Weise programmiert wurde und der die Blöcke 24-31, 36 steuert. Die Steuerung kann das Synchronisieren, das Liefern eines Anwendungsprogramms und die eventuelle Zwischenspeicherung zwischen den verschiedenen Verarbeitungsschritten implizieren. Der Übersichtlichkeit halber wurde nur eine einzige unidirektionale Verbindung gezeichnet. Nach dem Auslesen der Äußerungen aus dem Speicher 24 wird in Block 26 die erste Phase der Klassifizierung und Segmentierung in die breiten phonetischen Klassen (BPC) stimmhaft (voiced), stimmlos (unvoiced) und still (silence) durchgeführt. Die Ergebnisse dieser vorläufigen BPC-Segmentierung werden in Block 28 weiter verarbeitet, der die zweite Phase, die sequenzbegrenzte Vektorquantisierung (sequence constrained vector quantizing, SCVQ), zur weiteren Segmentierung in Phoneme durchführt. In Block 30 wird die dritte Phase realisiert. Hierbei werden die durch die vorhergehende SCVQ- Stufe gelieferten Segmente zum Initialisieren der Phonem-HMMs benutzt, die dann durch Baum-Welch-Schätzung weiter auf die zu segmentierende Datenbank abgestimmt werden. Eine hervorragende und gut zugängliche Abhandlung über HMMs und den sogenannten Baum-Welch-Lösungsansatz findet man bei L.R. Rabiner, "A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proc. IEEE, Band 77, Nr. 2, Febr. 1989, S. 257-286. Schließlich werden diese HMMs in Block 31 benutzt, um eine zeitliche Viterbi-Ausrichtung der Äußerungen der Sprachenbank auf ihre phonetische Transkription durchzuführen. An sich ist die Viterbi-Ausrichtung eine Standardtechnologie, deren Beschreibung der gleichen Referenzschrift zu entnehmen ist.
  • Das Ergebnis der Segmentierung wird im Speicher 32 gespeichert. Aus der Sequenz der auf diese Weise pro geäußertem Wort erzeugten Phoneme erstellt das diphonerzeugende Gerät 39 die verschiedenen Diphone, die zur Erzeugung von tatsächlicher Sprache notwendig sind, wobei diese Diphone als Datenbank in den Speicher zurückgeschrieben werden, die zur Erzeugung von Sprache dient und einen beliebigen Inhalt haben kann, oder die für andere Sprachverarbeitungsanwendungen auf der Basis der tatsächlich erhaltenen begrenzten Sprachmenge vom menschlichen Sprecher genutzt werden kann. Die Kontrolle hierfür ist abgeleitet vom (begrifflichen) Steuerungs-/Wiedergabesystem 36, dass über die Verbindung 42 auf die Datenbank zugreift, über Leitung 40 Diphone erhält und über die bidirektionale Verbindung 38 weiter mit dem Speicher 32 in Interaktion bleibt. Die tatsächlichen Sprachausgabegeräte über Leitung 41 sind der Kürze halber nicht dargestellt. Ein Ablaufplan für die Sprachverarbeitung wird im Allgemeinen in ähnlicher Weise erstellt, wobei jedes betreffende gesprochene Wort vollständig verarbeitet wird, bevor das nächste vorgelegt wird.
  • ERSTE PHASE: SEGMENTIERUNG IN BREITE PHONETISCHE KLASSEN
  • Die erste Phase der Segmentierung soll sogenannte Ankerpunkte für nachfolgende Phasen schaffen. Die drei Klassen sind Stille (silence, SIL), wobei keine Sprachsignalform vorhanden ist, stimmhaft (voiced, voi), wobei die Sprachsignalform quasiperiodisch ist, und stimmlos (unvoiced, unv), wobei die Signalform aperiodisch oder zufällig ist. In der Ausführungsform basiert die Segmentierung auf fünf verschiedenen Messungen, und zwar wie folgt:
  • - normalisierte Kurzzeitenergie EN, so dass SIL EN nahe an 1 hat (es ist zu beachten, dass die Energie auf logarithmische Weise gemessen wird);
  • - normalisierte niederfrequente Energie Elow in einem Bereich von 50-1200 Hz;
  • - normalisierte hochfrequente Energie Ehigh in einem Bereich von 2000-4000 Hz;
  • - Nulldurchgang Rate ZN;
  • - erster LPC-Koeffizient a1 eines LPC-Modells erster Ordnung.
  • In der Ausführungsform wurde die abgetastete Signalform x(k) für k = 0... N-1 durch eine Filterfunktion (1 - 0,95 z&supmin;¹) vorverzerrt, blockiert und per Hamming- Fenster in Fenster von 20 ms mit einer fensterweisen Verschiebung von 2,5 ms aufgeteilt. Abb. 2 zeigt die fünf genannten Messungen für ein sinnloses Wort 'kekakke' in niederländischer Aussprache. Unmittelbar unter der Signalform sind die zugehörigen Phonemzeichen angegeben. Wie abgebildet betrug die Hauptdauer des Vokals 'A' ca. 10 ms. In der Figur lassen sich deutlich drei stimmhafte Intervalle, drei stimmlose Intervalle und vier stille Intervalle unterscheiden. Die Ergebnisse der fünf genannten Messungen sind in Form entsprechender Signalkurven abgebildet. Bestimmte Übergänge sind deutlicher zu sehen als andere. In der Praxis implizieren Übergänge zwischen aufeinanderfolgenden Phonemen nicht immer eine Änderung von breiten phonetischen Klassen.
  • Zunächst wird nun die verfügbare phonetische Transkription der Äußerungen auf eine Transkription in Form von breiten phonetischen Klassen abgebildet; in der Tat weiß das System, welches Wort eigentlich empfangen werden sollte, da der Sprecher die Worte in einer vorgegebenen Reihenfolge eingeben muss. Wenn beispielsweise eine bestimmte Äußerung aus einer Folge von L' Elementen breiter phonetischer Klassen besteht, müssen die entsprechenden nachfolgenden Segmente in der Beobachtung O&sub1;T zusammen mit einer Gruppe von Schwerpunkten { } gefunden werden, die den oben definierten Gesamtabstand minimiert. Der hier benutzte Abstand ist der gewichtete euklidische Abstand und die geschätzte Varianz der Messungen wird als Gewichtungsfaktor benutzt. Diese Minimierung wird in einer dynamischen Programmierumgebung durchgeführt, die mit der bekannten Vorgehensweise der Ebenenkonstruktion gut vergleichbar ist, siehe C.S. Myers und L.R. Rabiner, "A Level Building Dynamic Time Wraping Algorithm for Connected Word Recognition", IEEE Trans. ASSP, Band 29, Nr. 2, April 1981, S. 284-297. Das hier genutzte Verfahren ist im Wesentlichen iterativ und wird fortgesetzt, bis keine weitere Verbesserung mehr erzielt wird. Jede Wiederholung der Prozedur besteht aus aufeinanderfolgenden Schritten. Im ersten Schritt wird eine optimale Gruppe von Grenzen b&sub1; für eine gegebene Gruppe von Schwerpunkten gesucht. Im zweiten Schritt werden die Schwerpunkte { } und die Varianz unter Verwendung der neu erfassten Segmentierungspunkte aktualisiert. In Hinblick auf die hier benutzte gewichtete Euler-Distanz ist der aktualisierte Schwerpunkt, der eine breite phonetische Klasse darstellt, einfach der arithmetische Mittelwert aller Beobachtungsvektoren für die gegebene Gruppe von Segmentierungspunkten. Der erste Schritt beginnt mit der Einheitenvarianz und Schwerpunkten, die idealisierte breite phonetsiche Klassen darstellen:
  • Minimale, durchschnittliche und maximale Dauer eines BPC-Elementes sind gleich der Summe der entsprechenden Größen für die Phoneme, aus denen ein BPC-Segment besteht. Informationen über minimale und maximale'Dauer der Phoneme sind in der Literatur zu finden. Diese Informationen über minimale und maximale Dauer werden benutzt, um die Suche nach BPC-Grenzen durch die Vorgabe von Ober- und Untergrenzen für das Intervall, in dem ein BPC-Segment liegen kann, zu begrenzen. Die durchschnittliche Dauer schließlich dient zum Skalieren der minimalen und der maximalen Dauer im Verhältnis zur tatsächlichen Länge der Äußerung.
  • Fig. 3 zeigt das Ergebnis der ersten BPC-Segmentierung als kumulative Bruchteile, die weniger als eine bestimmte Marge von den manuell ermittelten Übergangspunkten abweichen. Wie abgebildet, werden 82% der Übergänge in zufriedenstellender Weise lokalisiert, da die Marge kleiner als 20 ms ist.
  • ZWEITE PHASE: SEQUENZBEGRENZTE VEKTORQUANTISIERUNG (SCVQ)
  • Aus der oben geschilderten Segmentierung ergeben sich Ankerpunkte für die weitere Verarbeitung der Sprache. Im Allgemeinen würde diese Verarbeitung sich auf die Segmentierung jedes BPC-Elementes in seine phonemartigen Einheiten reduzieren, aus denen es sich zusammensetzt. Spezieller werden die Äußerungen in aufeinanderfolgende quasi-stationäre Elemente segmentiert. Aufgrund der Forderung der Stationärheit werden Diphthonge und Plosive weiter in ihre zusammensetzenden Phoneme unterteilt. Auch hier müssen die Segmentgrenzen und Schwerpunkte gefunden werden, die die Gesamtverzerrung minimieren, was auf eine iterative Weise geschieht, die der Vorgehensweise in der vorhergehenden Phase ähnelt. Für den ersten Iterationsschritt wird der Schwerpunkt definiert als der Vektor, der die Verzerrung über alle Hypothesen minimiert, die die gleiche Kennung besitzen und in einer einzigen Beobachtungssequenz O = (bl-1+1),...(bl) zusammengefasst sind.
  • Auf diese Weise erhält man Schwerpunkte aus den vorliegenden Beobachtungen, was den offensichtlichen Vorteil hat, dass keine Vorkenntnisse erforderlich sind. Die erste SCQV-Iteration erfolgt durch ebenenkonstruierende dynamische Programmierung. Das Schema der zweiten Iteration ist das Gleiche wie bei der vorhergehenden BPC- segmentierenden Phase. Der in der ersten Iteration gefundene Phonem-Schwerpunkt wird im nächsten Schritt als Referenz verwendet, wodurch der Prozess auf einen Schablonenpaarigkeitsvergleich reduziert wird. Im dritten und letzten Schritt wird ein Schwerpunkt für jedes Auftreten einer Kennung berechnet. Weitere Iterationen führen zu keiner weiteren Verbesserung. Fig. 4 zeigt die Phonem-Segmentierung mit Hilfe der Ankerpunkte, die durch die erste Phase erzeugt wurden. Im Gegensatz zur BPC-Phase beziehen sich die Kennungen hier auf etwa fünfzig verschiedene Phonem-Klassen. Angesichts der wesentlich größeren Anzahl von Klassen ist die Segmentierung sicherlich akzeptabler als die Segmentierung der ersten Phase: bei ca. 70% aller Klassen war die Abweichung von der manuellen Segmentierung kleiner als 20 ms.
  • DRITTE PHASE: SEGMENTIERUNG DURCH HIDDEN-MARKOV-MODELLE (HMM)
  • Durch die Berücksichtigung der statistischen Veränderlichkeit der Sprache wird das mit der sequenzbegrenzten Vektorquantisierung erzielte Ergebnis durch die Verwendung von Hidden-Markov-Modellen weiter verbessert. Insgesamt wurden erneut etwa 50 verschiedene phonemartige Einheiten benutzt, wobei jede ein eigenes HMM bekamen.
  • Um die Realisierung einer vollautomatischen Prozedur sicherzustellen, werden die HMMs mit den in der SCQV-Phase erhaltenen Ergebnissen initialisiert. Jede phonemartige Einheit - mit Ausnahme der Burst-Einheit - erhält eine einfache HMM-Topologie von links nach rechts mit sechs Zuständen und enthält Selbstschleifen und direkte Übergänge zur nächsten Stufe; aus diesem Grund beträgt die Dauer mindestens sechs Fenster von jeweils 5 ms, und diese Fenster sind kürzer als die weiter oben betrachteten. Ein burstartiges Segment wird durch ein 2-Stufen-Modell mit der gleichen Art von Selbstschleifen und Übergängen dargestellt.
  • Die Emissionsverteilungen sind von kontinuierlicher Art. Jeder Beobachtungsvektor ist in 4 Teilvektoren unterteilt, die folgendes darstellen:
  • - Momentane Merkmale (16-Kanal-Filterbank-Analyse);
  • - die erste und die zweite finite Differenz dieser Merkmale, wie in Bezug auf die vorhergehenden Fenster bestimmt;
  • - Energiedaten.
  • Die Emissionswahrscheinlichkeitsdichte für jeden Teilvektor ist eine multivariante Gaußsche Mischungsverteilung.
  • Die HMM-Parameter werden folgendermaßen justiert. Man betrachtet eine bestimmte phonemartige Einheit und die Gruppe der Beobachtungssequenzen, die in der SCVQ-Phase hierfür herausgeschnitten wurden. Das HMM dieser phonemartigen Einheit wird initialisiert, indem die akustischen Vektoren von jeder Beobachtungssequenz gleichmäßig auf die 6 (oder 2) HMM-Zustände dieser Einheit verteilt werden. Dies hat zur Folge, dass jedem Zustand des Modells durch die gleichmäßige Verteilung auf die Zustände spezifische akustische Vektoren in einer Beobachtung zugeordnet werden. Als nächstes wird ein k-Mittel-Algorithmus verwendet, um diese akustischen Vektoren in Cluster aufzuteilen, aus denen Anfangswerte für die Parameter der Mischungsverteilung berechnet werden können. Siehe auch J.G. Wilpon und L.R. Rabiner, "A Modified K-Means Clustering Algorithm for Use in Isolated Word Recognition", IEEE Trans. ASSP, Band 33, Nr. 3, Juni 1985, S. 587 - 594.
  • Diese Parameter sind Mittelvektoren, Kovarianzmatrizen der Komponentendichten und Mischungsgewichte. Die Übergangswahrscheinlichkeiten werden bei willkürlichen Werten ungleich Null initialisiert. Hat man diese anfänglichen HMMs einmal erhalten, wird ein überwachtes Viterbi-Training angewendet, was zu einer neuen Segmentierung führt. Hieraus können aktualisierte HMM-Parameter berechnet werden. Letztere umfassen Übergangswahrscheinlichkeiten unter Verwendung der Übergangsstatistiken zwischen aus dem Ausrichtungspfad geholten Zuständen. Anschließend erfolgt eine Feinabstimmung der Modelle durch Schätzung der Parameter gemäß Baum-Welch für jede vollständige Äußerung.
  • Schließlich werden die vollständig trainierten HMMs benutzt, um eine Viterbi-Ausrichtung von jedem Wort in der Datenbank auf sein phonetisches Transkript durchzuführen. Dadurch erhält man die endgültigen Segmentierungspunkte. Fig. 5 zeigt das Ergebnis; die Verbesserung im Vergleich zur SCQV-Segmentierung aus Fig. 4 ist beeindruckend: bei nahezu 90% der Übergänge ist die Abweichung kleiner als 20 ms.

Claims (6)

1. Verfahren zur automatischen Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei das genannte Verfahren die folgenden Schritte umfasst:
- Klassifizieren und Segmentieren von Äußerungen aus einer Sprachdatenbank in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still zum Erhalten von vorläufigen Segmentierungspositionen;
- Verwenden der vorläufigen Segmentierungspositionen als Ankerpunkte zur weiteren Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (sequence-constrained vector quantization) in einem SCVQ-Schritt;
- Initialisieren von Phonem-Hidden-Markov-Modellen mit den durch den SCVQ-Schritt gelieferten Segmenten und weitere Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung;
- schließlich Verwenden der vollständig trainierten HMMs zur Durchführung einer Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription und auf diese Weise Erhalten der endgültigen Segmentierungspunkte.
2. Verfahren nach Anspruch 1, wobei nach der genannten Segmentierung eine Diphongruppe zur weiteren Nutzung zusammengestellt wird.
3. Verfahren nach Anspruch 1 oder 2, wobei es sich bei der genannten Sprachverarbeitung um Sprachsynthese handelt.
4. Vorrichtung zur Sprachsegmentierung zur Verwendung in Sprachverarbeitungsanwendungen, wobei die genannte Vorrichtung folgendes umfasst:
- BPC-Segmentierungsmittel (26), die durch eine Sprachdatenbank gespeist werden und zur Klassifzierung und Segmentierung der empfangenen Äußerungen in die drei breiten phonetischen Klassen (BPC) stimmhaft, stimmlos und still dienen, um vorläufige Segmentierungspositionen zu erhalten;
- SCVQ-Segmentierungsmittel (28), die durch die genannten BPC-Segmentierungsmittel gespeist werden, um unter Verwendung der vorläufigen Segmentierungspositionen als Ankerpunkte eine weitere Segmentierung in phonemartige Einheiten durch sequenzbegrenzte Vektorquantisierung (SCVQ) durchzuführen;
- Phonem-Hidden-Markov-Modell-(HMM)-Mittel (30), die durch die genannten SCVQ- Segmentierungsmittel gespeist werden und zur Initialisierung des Phonem-HMMs und zur weiteren Abstimmung der HMM-Parameter durch Baum-Welch-Schätzung dienen;
- abschließende Segmentierungsmittel (31), die die vollständig trainierten HMMs benutzen, um eine Viterbi-Ausrichtung der Äußerungen in Bezug auf ihre phonetische Transkription durchzuführen und auf diese Weise die endgültigen Segmentierungspunkte zu erhalten.
5. Vorrichtung nach Anspruch 4, die diphonerzeugende Mittel enthält, welche durch die genannten Segmentierungsmittel gespeist werden, um eine Diphongruppe zusammenzustellen.
6. Vorrichtung nach Anspruch 4 oder 5, die weiterhin eine Ausgangssteuerungsstufe zur Steuerung einer Sprachsynthese-Ausgangsstufe durch eine Zwischenspeicherstufe zwischen den genannten Abstimmungsmitteln und der genannten Sprachsynthese- Ausgangsstufe enthält.
DE69712277T 1996-02-27 1997-01-31 Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten Expired - Fee Related DE69712277T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96200509 1996-02-27
PCT/IB1997/000066 WO1997032299A1 (en) 1996-02-27 1997-01-31 Method and apparatus for automatic speech segmentation into phoneme-like units

Publications (2)

Publication Number Publication Date
DE69712277D1 DE69712277D1 (de) 2002-06-06
DE69712277T2 true DE69712277T2 (de) 2002-12-19

Family

ID=8223721

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69712277T Expired - Fee Related DE69712277T2 (de) 1996-02-27 1997-01-31 Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten

Country Status (7)

Country Link
US (1) US6208967B1 (de)
EP (1) EP0823112B1 (de)
JP (1) JPH11504734A (de)
KR (1) KR100422263B1 (de)
DE (1) DE69712277T2 (de)
TW (1) TW434528B (de)
WO (1) WO1997032299A1 (de)

Families Citing this family (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046945A1 (en) * 1999-12-20 2001-06-28 British Telecommunications Public Limited Company Learning of dialogue states and language model of spoken information system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US20040004599A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for facilitating playback of media
US7337115B2 (en) * 2002-07-03 2008-02-26 Verizon Corporate Services Group Inc. Systems and methods for providing acoustic classification
WO2004032112A1 (en) * 2002-10-04 2004-04-15 Koninklijke Philips Electronics N.V. Speech synthesis apparatus with personalized speech segments
US7292977B2 (en) * 2002-10-17 2007-11-06 Bbnt Solutions Llc Systems and methods for providing online fast speaker adaptation in speech recognition
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
EP1889255A1 (de) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatische textunabhängige, sprachenunabhänige sprecher-voice-print-erzeugung und sprechererkennung
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
CA2657087A1 (en) * 2008-03-06 2009-09-06 David N. Fernandes Normative database system and method
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
CA2685779A1 (en) * 2008-11-19 2010-05-19 David N. Fernandes Automated sound segment selection method and system
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11372917B2 (en) * 2017-12-27 2022-06-28 Meta Platforms, Inc. Labeling video files using acoustic vectors
US11468879B2 (en) 2019-04-29 2022-10-11 Tencent America LLC Duration informed attention network for text-to-speech analysis
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
CN112037755B (zh) * 2020-11-03 2021-02-02 北京淇瑀信息科技有限公司 一种基于音色克隆的语音合成方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0515709A1 (de) * 1991-05-27 1992-12-02 International Business Machines Corporation Verfahren und Einrichtung zur Darstellung von Segmenteinheiten zur Text-Sprache-Umsetzung
EP0559349B1 (de) * 1992-03-02 1999-01-07 AT&T Corp. Lernverfahren und Gerät zur Spracherkennung
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition

Also Published As

Publication number Publication date
EP0823112B1 (de) 2002-05-02
WO1997032299A1 (en) 1997-09-04
KR19990008076A (ko) 1999-01-25
TW434528B (en) 2001-05-16
KR100422263B1 (ko) 2004-07-30
US6208967B1 (en) 2001-03-27
DE69712277D1 (de) 2002-06-06
EP0823112A1 (de) 1998-02-11
JPH11504734A (ja) 1999-04-27

Similar Documents

Publication Publication Date Title
DE69712277T2 (de) Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
EP1159734B1 (de) Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
DE69524036T2 (de) Vorrichtung zur erkennung von gesprächsthemen
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE69713452T2 (de) Verfahren und System zur Auswahl akustischer Elemente zur Laufzeit für die Sprachsynthese
DE3242866C2 (de)
DE69519887T2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE68924134T2 (de) Spracherkennungssystem.
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE69613293T2 (de) Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee