DE60009583T2 - Sprecheradaptation auf der Basis von Stimm-Eigenvektoren - Google Patents

Sprecheradaptation auf der Basis von Stimm-Eigenvektoren Download PDF

Info

Publication number
DE60009583T2
DE60009583T2 DE60009583T DE60009583T DE60009583T2 DE 60009583 T2 DE60009583 T2 DE 60009583T2 DE 60009583 T DE60009583 T DE 60009583T DE 60009583 T DE60009583 T DE 60009583T DE 60009583 T2 DE60009583 T2 DE 60009583T2
Authority
DE
Germany
Prior art keywords
speech
model
language
units
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60009583T
Other languages
English (en)
Other versions
DE60009583D1 (de
Inventor
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60009583D1 publication Critical patent/DE60009583D1/de
Publication of DE60009583T2 publication Critical patent/DE60009583T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Spracherkennungssysteme und Sprachtrainingssysteme. Insbesondere bezieht sich die Erfindung auf ein Spracherkennungsgerät mit einem Adaptationssystem, das Eigenstimmen-Basisvektoren einsetzt, um das anfängliche Sprachmodell schnell auf jenes des Benutzers zu adaptieren. Das System verwendet weiter eine Vertrauensmesstechnik, wodurch das System seine Adaptation automatisch auf sprachliche Äußerungen basiert, die mit hohem Vertrauen erkannt werden, während es mit niedrigem Vertrauen erkannte sprachliche Äußerungen ignoriert. Auf diese Weise passt sich das System ziemlich schnell automatisch dem Benutzer an und erhöht die Chance des Spracherkenners gute Erkennungsleistung aufzuweisen, ohne sich inkorrekten Aussprachen anzupassen. Das System erweist sich daher bei schwierigen Sprechern, wie beispielsweise Kindern oder ausländischen Sprechern nützlich.
  • Jene, die heutige kontinuierliche Spracherkennungssysteme benutzt haben, werden mit dem zeitraubenden und rigorosen Prozess vertraut sein, durch den das Sprachmodell des Spracherkenners der Sprache des individuellen Benutzers angepasst wird. Für die meisten erwachsenen Benutzer, die die Sprache bereits fließend sprechen, involviert der Adaptationsprozess einfach die Disziplin genügend Proben der Sprache jenes Benutzers bereitzustellen, damit das anfänglich gelieferte sprecherunabhängige Sprachmodell einem sprecherabhängigen Modell für jenen Sprecher angepasst werden kann. Der Adaptationsprozess kann beaufsichtigt sein, wobei der Benutzer Wörter, Phrasen oder Sätze spricht, die dem Erkennungssystem im Voraus bekannt sind. Als Alternative kann der Adaptationsprozess unbeaufsichtigt sein, wobei der Benutzer in das System spricht, ohne dass das System a priori Wissen vom Sprachinhalt hat. Ein Beispiel einer bekannten Sprecheradaptation ist in der US-A-5787394 offenbart.
  • Adaptieren des Spracherkennungssystems auf Sprache, die von Kindern oder ausländischen Sprechern bereitgestellt wird, die die Sprache nicht fließend sprechen, ist erheblich schwieriger. Spracherkennungssysteme haben große Schwierigkeit die Sprache von Kindern und ausländischen Sprechern zu verarbeiten und zu erkennen, teilweise weil die Sprachmodelle heutiger Spracherkenner zum Großteil auf erwachsene Muttersprachler trainiert sind. Für Kinder und ausländische Sprecher sind einfach sehr wenige Daten verfügbar.
  • Zusätzlich zu schlechter Erkennung haben Spracherkenner Schwierigkeit mit Kindern und ausländischen Sprechern, weil Dialog mit dieser Art von Benutzern sehr schwierig ist. Kinder im Alter von vier bis sieben Jahren finden es im Allgemeinen schwierig sich auf die Aufgabe zu konzentrieren den Spracherkenner zu trainieren. Kinder lassen sich leicht ablenken und man kann ihnen nicht zutrauen, dass sie den Adaptationsprozeduren korrekt Folge leisten. Tatsächlich ist diese Schwierigkeit, Sprachdaten von Kindern zu erhalten, ein Grund warum der Großteil von Sprachdaten seitens Kinder so klein ist.
  • Ausländische Sprecher stellen ein ähnliches Problem dar. Obwohl erwachsene ausländische Sprecher in der Lage sind sich auf die Adaptationsaufgabe zu konzentrieren, können sie vielleicht, wie Kinder, unfähig sein zur Adaption benutzte Trainingstexte zu lesen, und sie können vielleicht so viele Wörter falsch aussprechen, dass es dem adaptierten Sprachmodell misslingen wird nachfolgende Sprache richtig zu erkennen.
  • Wie in den angehängten Ansprüchen beansprucht, geht die vorliegende Erfindung die vorgenannten Probleme an, indem sie ein Spracherkennungsgerät bereitstellt, welches das anfängliche Sprachmodell, unter Verwendung eines hoch wirksamen und schnellen Adaptationssystems adaptieren wird, das die Qualität oder die Genauigkeit der Aussprache des Benutzers automatisch bewerten wird, indem es nur sprachliche Äußerungen hohen Vertrauens zur Adaptation heranzieht. Das Adaptationssystem verwendet a priori Wissen über die Klasse von Sprechern, für welche die Anwendung auf die Stimme des Benutzers, mit einer nur sehr begrenzten Menge Adaptationsdaten, adaptiert werden soll.
  • Insbesondere beruht das Adaptationssystem auf einer Sprecherraumrepräsentation der Klasse von Sprechern. Eine Vielheit von Trainingssprechern ist gewöhnt Sprachmodelle zu generieren, die dann dimensional reduziert werden, um einen Satz von Basisvektoren zu generieren, die einen Eigenraum definieren. Beim Adaptationsprozess werden vom Benutzer ausgesprochene Spracheinheiten dazu benutzt das adaptierte Sprachmodell zu trainieren, während der von den Basisvektoren überspannte Raum dazu verwendet wird das adaptierte Sprachmodell zu zwingen innerhalb des Eigenraums zu liegen. Wie nachstehend ausführlicher beschrieben ist, haben wir festgestellt, dass diese Eigenstimmentechnik der Codierung von a priori Wissen über den Zielbenutzerbestand bemerkenswert schnelle Adaptation erzielt, selbst wenn sehr wenig Adaptationsdaten bereitgestellt werden. Das System ist fähig zu beginnen Adaptation fast so schnell durchzuführen wie der Benutzer zu sprechen beginnt. Sobald der Sprecher eine sprachliche Äußerung bereitgestellt hat, die das Vertrauensmesssystem als zuverlässig zulässt, kann das mit jener sprachlichen Äußerung assoziierte Sprachmodell in den Eigenraum platziert bzw. projiziert werden, wodurch ein adaptiertes Sprachmodell erstellt wird, das auf die Klasse von Sprechern beschränkt ist, für welche die Anwendung beabsichtigt ist.
  • Das Spracherkennungsgerät eignet sich für viele Verwendungen und macht eine Reihe interessanter Anwendungen möglich, die bisher schwer zu erzielen gewesen sind. Ein Beispiel ist das computergestützte Lehrsystem, das Kinder oder ausländische Sprecher in die korrekte Aussprache neuer Wörter in der Sprache einweist. In einem für Kinder geeigneten System, kann eine einfache beaufsichtigte Sitzung damit beginnen das Kind dazu zu bewegen einfach seinen Namen zu nennen. Das System kann a priori Wissen vom Namen des Kinds durch buchstabierte Eingabe mittels Tastatur haben.
  • In einem Sprachlehrsystem lässt sich die Vertrauensmessung außerdem dazu verwenden den Benutzer über Wörter zu befragen, die nicht zuversichtlich erkannt werden. Das Lehrsystem kann ein Sprachwiedergabesystem einschließen, das Sprachdaten enthält, die vorher aufgezeichnete Sprache repräsentieren. Diese Daten können richtige Aussprache von Wörtern als Teil der Rückfrage liefern, wobei um Benutzerverifizierung eines möglicherweise missverstandenen Worts gesucht wird, während das Wort gleichzeitig korrekt ausgesprochen wird, damit es der Benutzer hören kann.
  • Während das Spracherkennungsgerät der Erfindung höchst nützlich in Sprachlehrsystemen ist, macht das Schnelladaptationssystem gekoppelt mit der Vertrauensmessung den Spracherkenner in anderen Anwendungen ziemlich nützlich wo Adaptation schwierig ist. Diese Anwendungen schließen Fernsprechleitweglenkung und sprachaktivierte Marketingsysteme ein, wo schnelle und zuverlässige Sprecheradaptation fast vom Augenblick an erforderlich ist, an dem der Sprecher zu sprechen beginnt.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm des Spracherkennungsgeräts;
  • 2 ist ein Blockdiagramm, das illustriert wie die Vertrauensmessung unter Einsatz eines Likelihood-Punktverhältnisses generiert wird;
  • 3 ist ein Datenflussdiagramm, das illustriert wie man einen Eigenraum aus einer Vielheit von Trainingssprechern konstruiert; und
  • 4 ist ein Datenflussdiagramm, das illustriert wie ein adaptiertes Modell unter Verwendung der Eigenstimmen in Übereinstimmung mit der Erfindung konstruiert wird.
  • BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
  • Das Spracherkennungsgerät der Erfindung ist in seiner gegenwärtig bevorzugten Form in der 1 illustriert. Das System passt sich schnell an sowie ein neuer Sprecher 10 mit dem Erkennungsgerät einen Dialog durch das Dialogsystem 12 führt. Das Dialogsystem 12 kann eine einfache Schnittstelle zum Spracherkenner 14 sein, oder es kann die interaktive Fähigkeit einschließen den neuen Sprecher zu Eingabe zu veranlassen oder dem Sprecher Anweisungen darüber zu geben wie Wörter in der Sprache richtig auszusprechen sind.
  • Der Spracherkenner 14 arbeitet im Zusammenhang mit einem oder mehreren Sprachmodellen, die alle vom System erkannten Klangeinheiten repräsentieren. Im illustrierten Ausführungsbeispiel ist ein anfängliches Sprachmodell 16 mit einem Spracherkenner 14 assoziiert, um das sprecherunabhängige Modell zu definieren, mit dem der neue Sprecher während der Adaptation einen Dialog führen wird. Das Spracherkennungsgerät schließt ein Adaptationssystem 18 ein, das das anfängliche Sprachmodell 16, auf der Basis selektierter sprachlicher Äußerungen hohen Vertrauens seitens des neuen Sprechers, adaptiert. Das Adaptationssystem adaptiert somit das anfängliche Sprachmodell, um ein adaptiertes Sprachmodell 20 zu schaffen, das mit dem Spracherkenner 14 assoziiert ist. Das adaptierte Sprachmodell kann abseits vom anfänglichen Sprachmodell gespeichert werden, was das anfängliche Sprachmodell zur nachfolgenden Benutzung durch verschiedene neue Sprecher intakt lässt. Als Alternative können, wenn erwünscht, das anfängliche Sprachmodell und das adaptierte Sprachmodell zu einem einzigen Modell vermischt werden.
  • Das Adaptationssystem 18 führt, dank seines a priori Wissens über die Klasse der neuen Sprecher, Adaptation mit hoher Geschwindigkeit durch. Dieses Wissen wird als ein Satz Eigenraum-Basisvektoren repräsentiert, die wir Eigenstimmen nennen. Die Eigenstimmen werden von einer Vielheit von Trainingssprechern 22 abgeleitet und repräsentieren Sprecherraum. Das bevorzugte Ausführungsbeispiel repräsentiert Sprecherraum als Eigenstimmendaten 24. Das Adaptationssystem schließt somit einen Eigenstimmen-Datenspeicher 24 ein, der eine Eigenraum-Datenstruktur enthält, die die Vielheit von Trainingssprechern als einen Satz dimensional reduzierter Modelle repräsentiert. Wie nachstehend ausführlicher beschrieben werden wird, stellen die Trainingssprecher 22 Sprache bereit, nach der Modelle trainiert werden, und jene Modelle werden dann dimensional reduziert, um einen Satz Basisvektoren zu generieren, die den Eigenraum definieren. Im Wesentlichen repräsentiert der Eigenstimmen-Datenspeicher die ganze Sammlung von Trainingssprechern. Das Adaptationssystem verwendet die im Datenspeicher 24 gespeicherten Basisvektoren, um das adaptierte Sprachmodell 20 einzuschränken, so dass es innerhalb des festgelegten Eigenraums liegt.
  • Ein wichtiger Vorteil des Eigenstimmen-Adaptationssystems ist Geschwindigkeit. Der Adaptationsprozess kann auf der Basis einer einzigen sprachlichen Äußerung beginnen. Der neue Sprecher braucht keine Beispiele jeder Klangeinheit im Sprachmodell bereitstellen, bevor Adaptation beginnen kann. Dieser Vorteil ergibt sich aus der Eigenstimmenrepräsentation, weil eine einzige sprachliche Äußerung dafür verwendet werden kann einen Satz von Vektoren zu generieren, die dann auf den Eigenraum platziert bzw. projiziert werden können. Obwohl das adaptierte Sprachmodell 20 typisch dazu neigt sich über Zeit zu verbessern, sowie das System benutzt wird, tendiert das allererste adaptierte Sprachmodell, das vom System generiert wurde, dazu nichtsdestoweniger erstaunlich genau zu sein.
  • Beim Adaptieren der Sprache schwieriger Sprecher, wie beispielsweise Kindern oder ausländischen Sprechern, können sprachliche Äußerungen so weit vom Erwarteten entfernt sein, dass sie verworfen werden müssen. Wenn, beispielsweise, das Dialogsystem 12 den neuen Sprecher auffordert das Wort „Katze" zu sagen, aber der Sprecher das Wort „Elefant" sagt, sollte jene sprachliche Äußerung nicht dafür benutzt werden das mit dem Wort „Katze" assoziierte Sprachmodell zu trainieren. Während dieses extreme Beispiel bereitgestellt wurde den Punkt zu illustrieren, haben wir festgestellt, dass kleine Kinder große Schwierigkeit haben sich auf langwierige Aufforderungs-Antwort-Sitzungen zu konzentrieren und häufig falsche sprachliche Äußerungen in das System eingeben können. Kleine Kinder neigen außerdem dazu weniger gewahr zu sein die Mikrofonplatzierungsanweisungen zu befolgen. Sie sprechen nicht immer ab einer vorbestimmten Distanz ins Mikrofon. Hintergrundgeräusch, das vom Fernseher oder durch andere Kinder generiert wird, kann vom Mikrofon aufgenommen werden und gewisse sprachlichen Äußerungen unerkennbar machen.
  • Um dieses Problem anzugehen, verwendet das Spracherkennungsgerät ein Vertrauensmesssystem 26, das an den Spracherkenner 14 gekoppelt ist und eine quantitative Messung davon bereitstellt wie zuverlässig jede sprachliche Äußerung ist. Das Vertrauensmesssystem führt den Adaptationsprozess herbei, und siebt sprachliche Äußerungen aus, die zur Verwendung durch das Adaptationssystem 18 nicht zuverlässig genug sind. Obwohl es eine Reihe verschiedener Techniken zum Messen von Vertrauen und zum Einsatz dieser Messungen im Adaptationssystem gibt, verwendet das gegenwärtig bevorzugte Ausführungsbeispiel ein Likelihood-Punktverhältnis, das das mit der korrekten Erkennung assoziierte Likelihood-Punktergebnis mit den mittleren oder durchschnittlichen Likelihood-Punktergebnissen vergleicht, die mit inkorrekter Erkennung assoziiert sind. Weitere Details dieses Likelihood-Verhältnisses werden in Verbindung mit der 2 bereitgestellt, die als Nächstes erörtert wird.
  • Wenn erwünscht, kann das Vertrauensmesssystem mit dem Dialogsystem als ein Mechanismus zum Herbeiführen des Adaptationsprozesses gekoppelt werden. Sowie der neue Sprecher dem Dialogsystem sprachliche Äußerungen liefert, führt der Spracherkenner 14 Spracherkennung durch, und das Vertrauensmesssystem 26 ordnet den Ergebnissen jener Erkennung eine Vertrauensmessung zu. Erkannte sprachliche Äußerungen mit einer ausreichend hohen Vertrauensmessung (jene über einem vorbestimmten Vertrauensmessungsschwellwert) werden vom Dialogsystem 12 ans Adaptationssystem 18 weitergeleitet. Sprachliche Äußerungen mit einer niedrigen Vertrauensmessung werden nicht ans Adaptationssystem weitergeleitet.
  • Obwohl sprachliche Äußerungen niedrigen Vertrauens einfach verworfen werden können, kann das Dialogsystem 12 die Vertrauensmessung ausnutzen den neuen Sprecher auf eine Art und Weise aufzufordern, die: (a) den neuen Sprecher auffordert die sprachliche Äußerung zu wiederholen und (b) dem neuen Sprecher die richtige Aussprache für das Wort lehrt, das laut Spracherkenner vom Sprecher geäußert worden ist. Betrachten sie das folgende Beispiel:
    System: „Was für eine Farbe hat die Giraffe?"
    Kind: (Antwort unverständlich – niedriges Vertrauen, klingt wie „braun")
    System: „Hast du ,braun' gesagt?"
    Kind: „Ja"
    System: Sag, „die Giraffe ist braun." Kind: „Die Giraffe ist braun."
  • In der vorhergehenden Sequenz wurde, die anfänglich unverständliche Antwort des Kinds – als das Wort „braun" interpretiert – in einer nachfolgenden Reihe von Aufforderungen verwendet, die konzipiert ist dem Kind die richtige Aussprache zu lehren.
  • Das Vertrauensmesssystem 26 kann viele Formen annehmen. Das gegenwärtig bevorzugte Ausführungsbeispiel verwendet die vom Spracherkenner generierten Likelihood-Punktergebnisse auf eine Weise, die die Punktergebnisse normalisiert, um ein Messsystem hervorzubringen, das vom Vokabular unabhängig ist. Die 2 illustriert ein gegenwärtig bevorzugtes Ausführungsbeispiel eines solchen Normalisiersystems. Eingabesprache 40 wird dem Spracherkenner 14 bereitgestellt, mit dem eine Vielheit von Sprachmodellen, in diesem Fall Hidden Markov Modelle 42 (HMMs), assoziiert ist. Jedes HMM ist trainiert worden eine verschiedene Klangeinheit zu repräsentieren. Für Illustrationszwecke entsprechen die in der 2 gezeigten HMMs jeweils verschiedenen Wörtern, die das System erkennen wird. Die hier illustrierten Techniken sind nicht auf Modelle auf Wortbasis beschränkt, da sie im Allgemeinen auf Erkenner anwendbar sind, die auf anderen Klangeinheiten beruhen (z.B. volle Namen, Silben, Wörter, Phrasen, usw.).
  • Als Reaktion auf eine sprachliche Äußerung 40, beurteilt der Erkenner was die Likelihood bzw. Wahrscheinlichkeit ist, dass jedes seiner Modelle die Eingabeäußerung generieren würde. Der Erkenner ordnet jedem Modell ein Erkennungsergebnis zu bzw. verbindet ein solches damit. Wenn, daher die Eingabesprache das Wort „Bob" umfasst, wird das „bob" Modell ein höheres Erkennungsergebnis als die anderen Modelle, „cob", „dog", und so weiter, generieren. Bei 44 sind die Erkennungsergebnisse illustriert, die dem Fall entsprechen wo die sprachliche Äußerung (Bob) korrekt erkannt ist. Beachten Sie, dass das vom HMM-Modell für Bob generierte Erkennungsergebnis (0,9) höher als die von den anderen Modellen generierten Erkennungsergebnisse sind.
  • Andererseits kann die Eingabesprache inkorrekt erkannt werden, weil die sprachliche Äußerung falsch ausgesprochen ist. Die Likelihood-Ergebnisse identifizieren die Eingabeäußerung nicht länger, wie bei 46 illustriert, als die Wahrscheinlichste. Im Allgemeinen, kann es vielleicht zahlreiche Beispiele inkorrekter Erkennung, jedes mit einem anderen Satz von Likelihood-Ergebnissen, geben. Dies wurde bei 46 als eine Vielheit von „Seiten" illustriert, wobei jede eine andere Likelihood-Verteilung enthält.
  • Die bei 44 und 46 illustrierten Likelihood-Daten repräsentieren somit zwei verschiedene Klassen. Die erste Klasse entspricht dem Fall der korrekten Erkennung (44) und die zweite Klasse entspricht dem Fall inkorrekter Erkennung (46). Ein Verhältnis dieser zwei Klassen kann, wie bei 48 dargestellt, konstruiert werden. Das Verhältnis umfasst das Likelihood-Ergebnis für korrekte Erkennung (als Zähler) und das Mittel der Likelihood-Ergebnisse für inkorrekte Erkennung (als Nenner).
  • Das in der 2 beschriebene Verhältnis lässt sich als ein Logarithmus berechnen, in welchem Fall der Log-Likelihood-Unterschied zu einer Repräsentation wird, ob die sprachliche Äußerung ein hohes Vertrauensmaß oder ein niedriges Vertrauensmaß hat.
    Figure 00090001
    Wo:
    Oj eine mit Modell sj assoziierte Sprachobservation ist;
    sj ein HMM-Modell ist;
    L(Oj|sj) die Likelihood der Observation O j des gegebenen HMM-Modells sj ist;
    γ ein Abstimmungsfaktor ist.
  • Die obige Gleichung demonstriert, dass, wenn der erste Ausdruck dominiert (wenn die Log-Likelihood-Differenz positiv ist), das Ergebnis ein hohes Vertrauensmaß ist. Wenn der zweite Ausdruck dominiert (die Log-Likelihood-Differenz ist negativ), ergibt sich ein niedriges Vertrauensmaß. Somit kann das Vertrauensmesssystem 26 (1) leicht bestimmen, ob eine gegebene sprachliche Äußerung vom Adaptationssystem verwendet werden soll oder nicht, indem es einfach die Log-Likelihood-Differenz in Übereinstimmung mit der obigen Gleichung berechnet und prüft ob jene Differenz positiv oder negativ ist oder indem es sie mit einem vorbestimmten Schwellwert vergleicht.
  • Das auf der Log-Likelihood-Differenz beruhende Vertrauensmaß lässt sich durch Einstellen des Werts der Konstante γ fein abstimmen. Ist der Wert sehr groß eingestellt, wird die Summe im zweiten Ausdruck durch den großen Likelihood-Wert dominiert. Dies deutet darauf hin, dass nur der Beitrag des ersten konkurrierenden Wortmodells zu jenem des korrekten Erkennungsfalls in Betracht gezogen wird. Da γ kleiner gemacht wird, wird der Beitrag der anderen Likelihoods signifikanter. In der Praxis sollte γ auf einen Wert eingestellt werden, der zu einer gesamten guten Verifizierungsleistung für alle Wörter führt.
  • Konstruieren des Eigenstimmenraums
  • Der Prozess für das Konstruieren eines Eigenraums, um eine Vielheit von Trainingssprechern zu repräsentieren, ist in der 3 illustriert. Die Illustration nimmt an, dass eine Zahl T von Trainingssprechern 120 einen Bestand von Trainingsdaten 122 bereitstellt, nach denen der Eigenraum konstruiert werden wird. Vorzugsweise werden die Trainingsdaten von einer großen Anzahl von Sprechern (um die 100 bis 200) bereitgestellt. Diese Trainingsdaten werden dann dazu verwendet ein sprecherabhängiges Modell (SD), wie bei 124 illustriert, zu trainieren.
  • Bei Schritt 124 wird ein Modell pro Sprecher konstruiert, wobei jedes Modell das ganze Lexikon repräsentiert, das vom Erkennungssystem verstanden werden soll. Jedes Modell kann ein Satz von HMMs sein, d.h. ein HMM für jede Klangeinheit. Dies ist in der 3 bei 126 illustriert.
  • Nach dem alle Trainingsdaten von T-Sprechern verwendet worden sind, um die jeweiligen sprecherabhängigen Modelle zu trainieren, wird ein Satz von T-Supervektoren bei 128 konstruiert. Daher wird es einen Supervektor 130 für jeden der T-Sprecher geben. Der Supervektor für jeden Sprecher umfasst eine geordnete Liste von Parametern (typische Gleitkommazahlen) die wenigstens einem Teil der Parameter der Hidden Markov Modelle für jenen Sprecher entsprechen. Jeder Klangeinheit entsprechende Parameter sind für einen gegebenen Sprecher im Supervektor inbegriffen. Die Parameter lassen sich in jeder praktischen Reihenfolge organisieren. Die Reihenfolge ist nicht kritisch; sie muss jedoch, sobald eine Reihenfolge adoptiert ist, diese für alle T-Sprecher befolgen.
  • Die geordneten Parameter für das Hidden Markov Modell werden dann verkettet, um den Supervektor zu formen. Die Wahl, welche HMM-Parameter in den Supervektor eingeschlossen werden sollen, kann von der verfügbaren Verarbeitungsleistung abhängen. Wir haben festgestellt, dass das Konstruieren von Supervektoren aus Gaußschen Mitteln gute Ergebnisse bringt. Wenn größere Verarbeitungsleistung zur Verfügung steht, können die Supervektoren außerdem andere HMM-Parameter, wie beispielsweise die Übergangswahrscheinlichkeiten oder die Kovarianz-Matrixparameter einschließen. Natürlich, wenn die Hidden Markov Modelle diskrete Ausgaben (im Gegensatz zu Wahrscheinlichkeitsdichten) generieren, dann können diese Ausgabewerte dazu verwendet werden den Supervektor zu umfassen.
  • Nach dem Supervektoren für jeden der Trainingssprecher konstruiert worden sind, wird bei Schritt 132 Dimensionsreduzierung ausgeführt. Im Allgemeinen involviert Eigenstimmenadaptation eine vorteilhafte Dimensionsreduktion, welche die Geschwindigkeit und Effizienz stark verbessern kann, mit der Sprecher- und Umweltadaptation ausgeführt wird. Dimensionsreduzierung bezieht sich auf ein Mapping von hochdimensionalem Raum auf einen niedrigdimensionalen Raum. Es lässt sich eine Reihe verschiedener Techniken benutzen, um Dimensionsreduzierung zu bewirken. Diese schließen Hauptkomponentenanalyse (PCA), Lineare Diskriminanzanalyse (LDA), Faktoranalyse (FA), Singuläre Wertzerlegung (SVD) und andere Transformationen ein, die auf Varianz beruhende Reduktionskriterien anwenden. Im gegenwärtigen, hier illustrierten Beispiel, wurde Hauptkomponentenanalyse benutzt.
  • Hauptkomponentenanalyse auf T-Supervektoren ergibt T-Eigenvektoren, wie bei 134. Wenn, daher 120 Trainingssprecher verwendet wurden, wird das System 120 Eigenvektoren generieren. Diese Eigenvektoren definieren was wir Eigenstimmenraum bzw. Eigenraum nennen.
  • Die Eigenvektoren, die den Eigenstimmenraum ausmachen, sind unkorreliert; sie repräsentieren jeweils eine verschiedene Dimension über die verschiedene Sprecher differenziert werden können. Jeder Supervektor im originalen Trainingssatz kann als eine lineare Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren sind nach ihrer Wichtigkeit beim Modellieren der Daten geordnet: Der erste Eigenvektor ist wichtiger als der Zweite, der wichtiger ist als der Dritte, und so weiter. Unsere bisherigen Experimente mit dieser Technik zeigen, dass der erste Eigenvektor einer männlich-weiblichen Dimension zu entsprechen scheint.
  • Obwohl ein Maximum von T-Eigenvektoren bei Schritt 132 produziert wird, ist es, in der Praxis, möglich mehrere dieser Eigenvektoren zu verwerfen und nur die ersten N-Eigenvektoren zu behalten. Daher entnehmen wir bei Schritt 136 optional N der T-Eigenvektoren, um bei 138 einen reduzierten Parameter-Eigenraum zu umfassen. Die Eigenvektoren höherer Ordnung können verworfen werden, weil sie typisch weniger wichtige Information enthalten, mit der unter Sprechern zu diskriminieren ist. Reduzieren des Eigenstimmenraums auf weniger als die Gesamtzahl von Trainingssprechern stellt eine innewohnende Datenkomprimierung bereit, die beim Konstruieren praktischer Systeme mit begrenzten Speicher- und Prozessorressourcen hilfreich sein kann.
  • Durchführen der Adaptation
  • Sobald der Eigenstimmenraum konstruiert worden ist, lassen sich Sprecheradaptation oder Umweltadaptation leicht erzielen. Während das Konstruieren des Eigenraums etwas rechenbetont intensiv ist, und typisch „offline" durchgeführt wird, ist Adaptation eine verhältnismäßig einfache rechenbetonte Funktion, die ausgeführt werden kann während der neue Sprecher das System benutzt. Mit Bezugnahme auf die 4, wird Sprache vom neuen Sprecher 140 bei Schritt 142 dazu verwendet ein sprecherabhängiges Modell zu trainieren, um einen Satz von HMMs 144 zu konstruieren (eins für jede Klangeinheit). Das sprecherabhängige Modell kann entweder in einem beaufsichtigten Modus, wo das Trainingssystem den Inhalt der Trainingssprache im Voraus kennt, oder in einem unbeaufsichtigten Modus, wo das Spracherkennungssystem ein sprecherunabhängiges Modell verwendet, trainiert werden, um den Inhalt der Adaptationssprache zu bestimmen.
  • Das auf diesen neuen Sprecher trainierte sprecherabhängige Modell wird, wenigstens zuerst, gewöhnlich für Spracherkennung sehr unzureichend sein. Jedoch kann das Modell nichtsdestoweniger zum Konstruieren eines Supervektors verwendet werden. Der Supervektor wird bei Schritt 146 so konstruiert, dass der Supervektor (Supervektor 148) beschränkt wird innerhalb des Eigenstimmenraums 138 zu fallen, der vorher von den Trainingssprechern geschaffen wurde. Der Supervektor 148 wird mit der auferlegten Beschränkung konstruiert, dass das zur Erkennung verwendete HMM-Modell eine lineare Kombination der Eigenstimmen sein muss, die den Eigenstimmenraum 138 umfasst.
  • Das sprecherabhängige Modell 144 dient dazu die lineare Kombination von Koeffizienten zu schätzen, die das adaptierte Modell für jenen neuen Sprecher umfassen werden. Daher wird bei Schritt 150 ein neuer Satz von HMMs auf der Basis des Supervektors 148 konstruiert, um das adaptierte Modell 152 zu generieren. Wenn erwünscht, kann bei 154 ein optionaler iterativer Prozess ausgeführt werden, um einen neuen Supervektor ab dem adaptierten Modell 152 zu konstruieren und danach noch einen Satz von HMMs zu konstruieren, aus denen ein weiteres adaptiertes Modell konstruiert werden kann.
  • Das Konstruieren des Supervektors 148 kann durch eine rechenbetont einfache Projektionsfunktion oder dergleichen erzielt werden, wodurch die Parameter ab dem sprecherabhängigen Modell 144 projiziert oder anderweitig in den Eigenstimmenraum 138 transformiert bzw. „platziert" werden. Die genaue Technik für das Platzieren der Parameter in den Eigenraum kann vielleicht von den verfügbaren Computerressourcen abhängen. Wenn Ressourcen knapp sind, lässt sich eine einfache Projektionsfunktion verwenden; wenn größere Ressourcen verfügbar sind, kann eine optimierende Funktion benutzt werden, um den Punkt im Eigenraum zu finden, der die höchste Wahrscheinlichkeit bzw. die beste Anpassung an die Adaptationsdaten repräsentiert. Auf diese Weise wird das sprecherabhängige Modell 144, das mit Adaptationsdaten trainiert ist, mit den Eigenstimmen-Vektoren kombiniert, um eine angemessene Schätzung des sprecherabhängigen Modells für den neuen Sprecher (das adaptierte Modell 152) durch eine rechenbetont billige Funktion zu erhalten.
  • Wenn der neue Satz von HMMs bei Schritt 150 konstruiert wird, können jegliche Parameter, die beim Konstruieren des Supervektors 148 nicht verwendet wurden (falls, beispielsweise, nur Gaußsche Mittelvektoren benutzt wurden) vielleicht von einem vorher konstruierten, sprecherunabhängigen Modell erhalten werden.
  • In einigen Fällen können die Adaptationsdaten fehlende Klangeinheiten haben (gewisse Klangeinheiten wurden vom neuen Sprecher nicht gesprochen). Daher könnte das sprecherabhängige Modell 144 nicht komplett sein.
  • Die Eigenstimmen-Adaptionstechnik wird jedoch selbst mit fehlenden Klangeinheiten funktionieren. Auf den ersten Blick kann dies erstaunlich erscheinen, erinnern Sie sich jedoch daran, dass die Eigenvektoren unkorrelierte Vektoren sind, wobei der erste Eigenvektor wichtiger als der Zweite ist, und so weiter. Demzufolge ist es möglich eine signifikante Menge nützlicher Information aus den Adaptationsdaten abzuleiten, selbst wenn einige davon fehlen.
  • Ein Weg fehlende Klangeinheiten handzuhaben, ist die fehlenden HMM-Parameter der Klangeinheit mit entsprechenden Werten zu ersetzen, die man ab einem sprecherunabhängigen Modell erhält. Dies ist eine rechenbetont billige Vorgehensweise, hat aber den Nachteil, dass das adaptierte Modell dem sprecherunabhängigen Modell ziemlich ähnlich sein kann, wenn nur kleine Mengen von Adaptationsdaten verfügbar sind.
  • Eine weitere Vorgehensweise ist den Punkt Y im Eigenraum zu finden, der die Likelihood der Adaptationsdaten maximiert, wenn man voraussetzt, dass das adaptierte Modell von Y abgeleitet wurde. Diese Maximum-Likelihood- Schätzfunktion erfordert, dass wir einen anderen Satz linearer Gleichungen während der Durchlaufzeit lösen.
  • Aus dem Vorgenannten wird man erkennen, dass die vom illustrierten Adaptationssystem verwendeten Techniken in einer Reihe von verschiedenen Spracherkennungssystemen und Sprachlehrsystemen zum Einsatz kommen können. Überdies, während die hierin beschriebenen Eigenstimmentechniken gegenwärtig bevorzugt werden, können andere Techniken benutzt werden, um Sprecherraum im Adaptationssystem zu repräsentieren.
  • Folglich, obwohl die Erfindung in ihren gegenwärtig bevorzugten Ausführungsbeispielen beschrieben worden ist, wird man zum Schluss gelangen sein, dass die Erfindung zu Modifikation und Änderung fähig ist, ohne vom Umfang der Erfindung abzuweichen wie sie in den angehängten Ansprüchen dargelegt ist.

Claims (8)

  1. Ein Spracherkennungsgerät (10, 12, 14, 16, 18, 20), das ein anfängliches Sprachmodell (16) adaptiert, das auf Eingabesprache (40) seitens eines Benutzers beruht und umfasst: Ein Sprachmodell (16), das Sprache als eine Vielheit von Spracheinheitsmodellen repräsentiert; ein Adaptationssystem (18) mit einem Datenspeicher, der Information enthält, die a priori Wissen über einen Sprecherraum (24) reflektiert, wobei besagtes Adaptationssystem (18) maßgeblich dafür ist geäußerte Spracheinheiten zu selektieren, die ein vorbestimmtes Vertrauensmaß überschreiten und besagte selektierten geäußerten Spracheinheiten und besagte Information, die a priori Wissen reflektiert, dafür zu verwenden besagtes Sprachmodell zu adaptieren; einen Spracherkenner (14); und ein Vertrauensmesssystem (26), das mit besagtem Spracherkenner assoziiert ist; worin: besagter Spracherkenner (14) Eingabesprache seitens des Benutzers verarbeitet, der besagtes Sprachmodell (16) verwendet, um geäußerte Spracheinheiten in besagter Eingabesprache durch Auswerten einer Vielheit besagter Spracheinheitsmodelle zu erkennen und das wahrscheinlichste Spracheinheitsmodell (42) für eine geäußerte Spracheinheit zu identifizieren; und besagtes Vertrauensmesssystem (26), das mit besagtem Spracherkenner (14) assoziiert ist, ein Vertrauensmaß mit jeder der besagten geäußerten Spracheinheiten assoziiert, das auf einem Vergleich eines Erkennungsergebnisses des wahrscheinlichsten Spracheinheits-Erkennungsmodells (42) mit wenigstens einem anderen Erkennungsergebnis eines weiteren ausgewerteten Spracheinheitsmodells beruht.
  2. Das Spracherkennungsgerät des Anspruchs 1, worin besagtes Adaptationssystem (18) einen Datenspeicher einschließt, der einen Satz Eigenraum-Basisvektoren enthält, die eine Vielheit von Trainingssprechern repräsentieren und worin besagtes Adaptationssystem besagte selektierten, geäußerten Einheiten dazu verwendet ein adaptiertes Sprachmodell zu trainieren während es besagte Basisvektoren dazu verwendet besagtes adaptierte Modell so zu beschränken, dass besagtes adaptierte Sprachmodell innerhalb des besagten Eigenraums liegt.
  3. Der Spracherkennungsapparat des Anspruchs 1 worin besagtes Adaptationssystem (18) einen Datenspeicher einschließt, der eine Eigenraum-Datenstruktur enthält, die eine Vielheit von Trainingssprechern als einen Satz von Modellen für besagte Trainingssprecher repräsentiert, die dimensional reduziert worden ist, um einen Satz Basisvektoren zu generieren, die besagten Eigenraum definieren; und worin besagtes Adaptationssystem besagte selektierte, geäußerte Spracheinheiten verwendet, um ein adaptiertes Sprachmodell zu trainieren, während es besagte Basisvektoren dazu verwendet besagtes adaptiertes Sprachmodell so zu beschränken, dass besagtes adaptiertes Sprachmodell innerhalb des besagten Eigenraums liegt.
  4. Das Spracherkennungsgerät des Anspruchs 1, das weiter ein an besagtes Vertrauensmesssystem (26) gekoppeltes Dialogsystem (12), zum Selektieren von wenigstens einem Teil der besagten geäußerten Spracheinheiten und zum Führen des besagten Benutzer auf der Basis des besagten selektierten Teils der besagten geäußerten Spracheinheiten, umfasst.
  5. Das Spracherkennungsgerät des Anspruchs 4, das weiter ein Sprachwiedergabesystem umfasst, das Sprachdaten enthält, die aufgezeichnete Sprache repräsentieren, wobei besagtes Wiedergabesystem mit besagtem Dialogsystem gekoppelt ist, um dem besagten Benutzer besagten Teil der besagten geäußerten Spracheinheiten, unter Verwendung besagter Sprachdaten, zu bestätigen, um eine hörbare Widergabe bereitzustellen, die dem besagten Teil der besagten geäußerten Spracheinheiten entspricht.
  6. Das Spracherkennungsgerät des Anspruchs 1, worin besagter Vergleich eines Erkennungsergebnisses vom wahrscheinlichsten Spracheinheits-Erkennungsmodell mit dem Mittel bzw. dem Durchschnitt der Likelihood-Ergebnisse mit inkorrekter Erkennung assoziiert ist.
  7. Das Spracherkennungsgerät des Anspruchs 1 oder des Anspruchs 6, worin besagter Vergleich die Kalkulation eines Verhältnisses eines Likelihood-Ergebnisses für korrekte Erkennung (als Zähler) und der mittleren Ergebnisse für inkorrekte Erkennung (als Nenner) umfasst.
  8. Ein Verfahren der Spracherkennung, wobei besagtes Verfahren ein anfängliches Sprachmodell (16) adaptiert, das auf Eingabesprache (40) seitens eines Benutzers beruht, wobei besagtes Verfahren folgende Schritte umfasst: Bereitstellen eines Sprachmodells (16), das Sprache als eine Vielheit von Spracheinheitsmodellen repräsentiert; Bereitstellen eines Adaptationssystem (18) mit einem Datenspeicher, der Information enthält, die a priori Wissen über einen Sprecherraum (24) reflektiert, wobei besagtes Adaptationssystem (18) geäußerte Spracheinheiten selektiert, die ein vorbestimmtes Vertrauensmaß überschreiten und besagte selektierten geäußerten Spracheinheiten und besagte Information, die a priori Wissen reflektiert, dafür verwendet besagtes Sprachmodell zu adaptieren; Bereitstellen eines Spracherkenners (14); und Bereitstellen eines Vertrauensmesssystems (26), das mit besagtem Spracherkenner (14) assoziiert ist; Verwenden des besagten Spracherkenners (14), um Eingabesprache seitens des Benutzers zu verarbeiten, wobei besagtes Sprachmodell (16) dazu verwendet wird geäußerte Spracheinheiten innerhalb besagter Eingabesprache durch Auswerten einer Vielheit besagter Spracheinheitsmodelle zu erkennen und das wahrscheinlichste Spracheinheitsmodell (42) für eine geäußerte Spracheinheit zu identifizieren; und Verwenden des besagten Vertrauensmesssystems (26), um ein Vertrauensmaß mit jeder der besagten geäußerten Spracheinheiten zu assoziieren, wobei das besagte Vertrauensmaß auf einem Vergleich eines Erkennungsergebnisses des wahrscheinlichsten Spracheinheits-Erkennungsmodells (42) mit wenigstens einem anderen Erkennungsergebnis eines weiteren ausgewerteten Spracheinheitsmodells beruht.
DE60009583T 1999-01-22 2000-01-17 Sprecheradaptation auf der Basis von Stimm-Eigenvektoren Expired - Fee Related DE60009583T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US235181 1999-01-22
US09/235,181 US6253181B1 (en) 1999-01-22 1999-01-22 Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers

Publications (2)

Publication Number Publication Date
DE60009583D1 DE60009583D1 (de) 2004-05-13
DE60009583T2 true DE60009583T2 (de) 2005-05-25

Family

ID=22884446

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60009583T Expired - Fee Related DE60009583T2 (de) 1999-01-22 2000-01-17 Sprecheradaptation auf der Basis von Stimm-Eigenvektoren

Country Status (4)

Country Link
US (1) US6253181B1 (de)
EP (1) EP1022722B1 (de)
JP (1) JP2000214882A (de)
DE (1) DE60009583T2 (de)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253181B1 (en) 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US7062441B1 (en) * 1999-05-13 2006-06-13 Ordinate Corporation Automated language assessment using speech recognition modeling
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
EP1205906B1 (de) * 2000-11-07 2003-05-07 Telefonaktiebolaget L M Ericsson (Publ) Anwendung von Referenzdaten für Spracherkennung
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
EP1239459A1 (de) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Anpassung eines Spracherkenners an die Aussprache eines ausländischen Sprechers
DE60104284T2 (de) * 2001-05-08 2005-08-25 Sony International (Europe) Gmbh Verfahren zur Adaption von Sprecheridentifikationsdaten unter Verwendung von im Betrieb gewonnener Sprache
DE10127559A1 (de) 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Benutzergruppenspezifisches Musterverarbeitungssystem
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
GB2399931A (en) * 2003-03-28 2004-09-29 Barnsley Distr General Hospita Assistive technology
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
WO2005024780A2 (en) * 2003-09-05 2005-03-17 Grody Stephen D Methods and apparatus for providing services using speech recognition
JP4729902B2 (ja) * 2003-12-12 2011-07-20 株式会社豊田中央研究所 音声対話システム
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
US20050216266A1 (en) * 2004-03-29 2005-09-29 Yifan Gong Incremental adjustment of state-dependent bias parameters for adaptive speech recognition
US20060008781A1 (en) * 2004-07-06 2006-01-12 Ordinate Corporation System and method for measuring reading skills
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US7734471B2 (en) * 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US7885817B2 (en) 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US7707131B2 (en) * 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
ATE453183T1 (de) * 2005-06-01 2010-01-15 Loquendo Spa Verfahren zum anpassen eines neuronalen netzwerks einer automatischen spracherkennungseinrichtung
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
EP2126901B1 (de) * 2007-01-23 2015-07-01 Infoture, Inc. System zur sprachanalyse
US7881933B2 (en) * 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US20110166862A1 (en) * 2010-01-04 2011-07-07 Eyal Eshed System and method for variable automated response to remote verbal input at a mobile device
EP2817962A4 (de) * 2012-02-23 2015-09-02 Collegenet Inc Asynchrones videointerviewsystem
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
EP2867889A4 (de) * 2012-06-29 2016-03-02 Elwha Llc Verfahren und systeme zur verwaltung von anpassungsdaten
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
US9653075B1 (en) * 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
CN107610706A (zh) * 2017-09-13 2018-01-19 百度在线网络技术(北京)有限公司 语音搜索结果的处理方法和处理装置
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN108986792B (zh) * 2018-09-11 2021-02-12 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及***
EP4086904A1 (de) * 2019-12-04 2022-11-09 Google LLC Sprecherbewusstsein mittels sprecherabhängiger sprachmodelle

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5717828A (en) 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5787394A (en) 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
TW436758B (en) 1998-04-30 2001-05-28 Matsushita Electric Ind Co Ltd Speaker and environment adaptation based on eigenvoices including maximum likelihood method
US6253181B1 (en) 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers

Also Published As

Publication number Publication date
JP2000214882A (ja) 2000-08-04
EP1022722B1 (de) 2004-04-07
EP1022722A3 (de) 2000-08-16
EP1022722A2 (de) 2000-07-26
US6253181B1 (en) 2001-06-26
DE60009583D1 (de) 2004-05-13

Similar Documents

Publication Publication Date Title
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE69916951T2 (de) Dimensionsreduktion für die Sprechernormalisierung und Sprecher- und Umgebungsadaptation mittels Eigenstimm-Techniken
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE3337353A1 (de) Sprachanalysator auf der grundlage eines verborgenen markov-modells
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication of lapse of patent is to be deleted
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee