DE60023736T2

DE60023736T2 - Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen

Info

Publication number: DE60023736T2
Application number: DE60023736T
Authority: DE
Inventors: Frederic Soufflet; Nour-Eddine Tazine
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 1999-12-02
Filing date: 2000-12-01
Publication date: 2006-08-10
Anticipated expiration: 2020-12-02
Also published as: EP1234303B1; WO2001041126A1; AU2181601A; US20030093272A1; CN1254787C; DE60023736D1; JP2003515778A; EP1234303A1; MXPA02005387A; CN1402868A

Description

Die Erfindung bezieht sich auf die Verwendung eines Spracherkennungsverfahrens, das mehrere Sprachmodelle zur Gewinnung einer besseren Erkennung enthält. Die Erfindung betrifft auch eine Vorrichtung diese Verfahren anzuwenden.
Die Informationssysteme oder Kontrollsysteme verwenden zunehmend eine Sprachschnittstelle, um die Interaktion mit dem Benutzer schnell und intuitiv zu gestalten. Diese Systeme werden immer komplexer, die unterstützten Dialogarten sind immer umfangreicher und man kommt in den Bereich der kontinuierlichen Spracherkennung mit sehr umfangreichem Vokabular.
Die Spracherkennung mit grossem Vokabular basiert auf den Hidden-Markov-Modellen, sowohl für den akustischen Teil als auch auf für den Sprachmodellteil.
Die Erkennung eines Satzes läuft darauf hinaus, die wahrscheinlichste Wortfolge zu finden unter Kenntnis der über das Mikrofon aufgenommenen akustischen Daten.
Der Algorithmus von Viterbi wird allgemein zu diesem Zweck verwendet.
Für die praktischen Probleme jedoch, das heisst zum Beispiel für Vokabulare, die aus mehreren Tausend Worten bestehen und selbst für Modelle mit einer einfachen Sprache vom Typ bigram, beinhaltet das zu analysierende Markovsche Netz zu viele Zustände, damit der Algorithmus von Viterbi in diesem Zustand angewendet werden könnte.
Vereinfachungen sind notwendig.
Eine bekannte Vereinfachung ist das „beam-search" genannte Verfahren („Lichtstrahlsuchen"). Die Idee auf der es basiert ist einfach: im Verlauf des Viterbi-Algorithmus werden einige Zustände des Gitters entfernt, wenn das Ergebnis, das sie erzielen, niedriger als eine bestimmter Schwellenwert ist (wobei das Gitter eine zeitliche Darstellung der Zustände und Übergänge im Markovschen Netz ist). Diese Ausdünnung reduziert erheblich die Zahl der Zustände, die im Laufe der Suche nach der wahrscheinlichsten Wortfolge in den Vergleich einbezogen werden. Eine klassische Variante ist das Verfahren „N-beast search" (Suche den n-besten Lösungen), die am Ausgang die n-Wortfolgen liefert, die das beste Ergebnis erzielen.
Die im Verlauf des „N-best search" – Verfahrens benutzte Ausdünnung, die auf den gemittelten Ergebnissen in der links rechts Satzanalyse basiert, ist manchmal nicht zur Suche der besten Wortfolge geeignet: Zwei grundlegende Probleme bestehen:
Auf der einen Seite, wenn dieses Verfahren auf die Sprachmodelle des Typs n-gram angepasst wird, in denen die ganze Sprachmodellinformation über die wahrscheinlichste Wortfolge begrenzt ist auf n aufeinander folgenden, gerade analysierten Worten, ist es für die Sprachmodelle des Grammatikentyps, die ein Modell mit den Einflüssen der Abstände zwischen Wortgruppen schaffen, weniger wirkungsvoll. Es kann also passieren, dass die n besten berücksichtigten Wortfolgen in einem bestimmten Stadium der Dekodierung, nicht mehr die möglichen Kandidaten in der Schlussphase der Satzanalyse sind, da der Rest des Satzes ihre Kandidatur beschädigt, vor Sätzen mit einem schwächeren Ergebnis als zu Beginn, stimmt jedoch besser mit dem Sprachmodell überein, wie es durch die bekannten Grammatiken dargestellt wird.
Auf der anderen Seite geschieht es oft, dass eine Anwendung modulweise oder in mehreren Schritten, wobei jedes Modul mit genauen Funktionalitäten der Schnittstelle versehen ist, mit zunächst unterschiedlichen Sprachmodellen, entwickelt wird. Im n-best – Verfahren werden diese verschiedenen Sprachmodelle vermischt und es ergibt sich daraus, wenn eine Untergruppe der Anwendung befriedigende Erkennungswerte geliefert hat, es nicht garantiert ist, dass diese Werte, wenn man neue Module hinzufügt, auch erhalten bleiben, selbst wenn ihr Anwendungsgebiet unterschiedlich ist: die beiden Modelle werden sich gegenseitig stören.
Dazu zeigt die 1 ein Schaubild eines auf Grammatiken basierenden Sprachmodells. Die schwarzen Kreise stellen die Entscheidungsschritte dar, die Striche zwischen den kreisen stellen die Übergänge dar, auf die das Sprachmodell die Erzeugungswahrscheinlichkeit ausübt und die weissen Kreise stellen die Worte des Vokabulars dar, die mit Markovschen Netzen verbunden sind, die dank der phonetischen Kenntniss ihrer möglichen Aussprachen aufgebaut wurden.
Wenn in der Anwendung mehrere Grammatiken aktiv sind, werden die Sprachmodelle jeder einzelnen Grammatik zusammengelegt, um nur ein Netz zu bilden. Die anfängliche Wahrscheinlichkeit, jede der Grammatiken zu aktivieren, geschieht normalerweise zwischen den Grammatiken zu gleichen Teilen, wie das auch in der 2 beschrieben ist, wo man unterstellt, dass die beiden Übergänge, die vom Ursprungsknoten ausgehen, die gleiche Wahrscheinlichkeit haben.
Man kommt also zum Ursprungsproblem nur eines Sprachmodells zurück und das „bean search"-Verfahren erlaubt durch eine Ausdünnung der Suchwege, die als die am wenigsten wahrscheinlichen betrachtet werden, den Satz zu finden, der den höchsten Wert darstellt (oder die n Sätze im Fall des n-best search).
Die Erfindung zielt auf ein Spracherkennungsverfahren ab, das eine Stufe der Erkennung eines akustischen Signals beinhaltet, sowie ein Stufe der akusto-phonetischen Entschlüsselung und eine Stufe der sprachlichen Dekodierung, die dadurch gekennzeichnet ist, dass die Stufe der Sprachdekodierung folgende Stufen beinhaltet:

– eine von der Vielzahl der Sprachmodelle getrennte Anwendungsstufe zur Analyse einer Audiosequenz, um eine Vielzahl von Wortfolgekandidaten zu bestimmen;
– eine Bestimmungsstufe mit einem Suchmotor für die wahrscheinlichste Wortfolge unter den Wortfolgekandidaten.

Gemäß einem besonderen Ausführungsbeispiel ist die Bestimmung durch den Suchmotor eine Funktion der während der Anwendung der Sprachmodelle nicht in Betracht gezogenen Parameter.
Gemäß einem besonderen Ausführungsbeispiel sind die Sprachmodelle auf Grammatiken aufgebaut.
Das Ziel der Erfindung ist auch eine Vorrichtung zur Spracherkennung und beinhaltet einen Audioprozessor zur Audiosignalerkennung und einen Sprachdekodierer zur Festlegung einer Wortfolge, die dem Audiosignal entspricht, dadurch gekennzeichnet, dass der Sprachdekodierer:

– eine Vielzahl von Sprachmodellen für eine getrennte Anwendung zur Analyse eines gleichen Satzes beinhaltet, um eine Vielzahl von Wortfolgekandidaten fest zu legen.
– einen Suchmotor zur Festlegung der am meisten wahrscheinlichen Wortfolgekandidaten, unter der Vielzahl von Wortfolgekandidaten, beinhaltet.

Andere Besonderheiten und Vorteile der Erfindung werden bei der Beschreibung eines Ausführungsbeispieles auftreten, das aber keine einschränkende Wirkung hat und durch die anhängenden Abbildungen erklärt wird, darunter zeigt die:
1 ein Diagramm in Baumstruktur mit schematischer Darstellung eines Sprachmodells auf der Grundlage von Grammatiken;
2 ein Diagramm in Baumstruktur mit schematischer Umsetzung eines Suchalgorithmus auf der Basis von zwei Sprachmodellen des Typs aus der 1 und in einem Modell vereint.
3 ein Diagramm in Baumstruktur nach einem erfindungsgemäßem Ausführungsbeispiel, angewendet auf zwei Sprachmodelle.
4 ein Diagramm in Blockform in Übereinstimmung mit dem Ausführungsbeispiel, unter Einsatz unterschiedlicher Sprachmodelle durch unterschiedliche Instanzen des Suchalgorithmus;
5 ein Diagramm in Blockform einer Worterkennungsvorrichtung unter Einsatz des gleichen Verfahrens wie das Ausführungsbeispiel.
Die vorgeschlagene Lösung beruht auf einer Ausdünnung der Wortbedeutungen während des Algorithmus des Beam search: die Anwendung ist in zwei unabhängige Module geteilt, wobei beide mit einem besonderen Sprachmodell verbunden sind.
Für jedes dieser Module wird eine Suche n-best search gestartet, ohne dass sich ein Modul über die Werte des anderen Moduls sorgen müsste. Diese Analysen beziehen sich auf unterschiedliche Informationen und sind demnach unabhängig und können parallel gestartet werden und sich der Architektur der Multiprozessortechnik bedienen.
Wir werden die Erfindung für den Fall wo das Sprachmodell auf der Benutzung von Grammatiken basiert, beschreiben, dabei kann aber auch ein Model vom Typ n-gram Vorteile aus der Erfindung ziehen.
Zur Beschreibung des vorliegenden Ausführungsbeispiels versetze man sich in den Bereich der Anwendungen in der Unterhaltungselektronik, genauer: eine Benutzerschnittstelle eines Fernsehgerätes, die ein Spracherkennungsmodell in Gang setzt. Das Mikrofon befindet sich in der Fernbedienung, während die aufgenommenen Audiodaten zum Fernsehgerät gesendet werden, genauer gesagt zur Sprachanalyse geschickt werden. Der Empfänger beinhaltet dazu eine Worterkennungsvorrichtung.
Die 5 ist ein beispielhaftes Blockdiagramm der Vorrichtung 1 zur Worterkennung. Für die Klarheit der Darstellung wurde die Gesamtheit der notwendigen Mittel zur Worterkennung in der Vorrichtung 1 untergebracht, selbst wenn im Rahmen der beabsichtigten Anwendung gewisse Elemente, am Anfang der Kette, in der Fernbedienung des Empfängers gezeigt werden.
Diese Vorrichtung beinhaltet einen Prozessor 2 für das Audiosignal und sorgt für die Digitalisierung des vom Mikrofon 3 kommenden Audiosignals über den Signalerkennungsschaltkreis 4. Der Prozessor übersetzt auch die digitalen Abtastmuster in akustische Symbole, die in einem vorbestimmten Alphabet ausgewählt wurden. Zu diesem Zweck beinhaltet er einen akusto-phonetischen Dekodierer 5. Ein Sprachdekodierer 6 bearbeitet diese Symbole mit dem Ziel, für eine Symbolfolge A, die Folge W der am meisten wahrscheinlichen Worte zu bestimmen, wobei die Folge A gegeben ist.
Der Sprachdekodierer benutzt ein akustische Modell 7 und ein Sprachmodell 8, die durch einen Suchalgorithmus durch Hypothese 9 in Gang gesetzt werden. Das akustische Modell ist beispielsweise ein Modell „Hidden Markov model oder HMM) genannt. Es wird zur Errechnung von Akustikwerten für Wortsequenzen (Wahrscheinlichkeiten) benutzt, die im Laufe der Entschlüsselung in Frage kommen. Das im vorliegenden Ausführungsbeispiel eingesetzte Sprachmodell basiert auf einer Grammatik, die unter Zuhilfenahme der Syntaxregeln der Backus Naur-Form beschrieben wurden. Das Sprachmodell wird benötigt, um die Analyse des Audio-Datenstroms zu führen und um die Sprachwerte zu kalkulieren. Der Erkennungsalgorithmus, der genau gesagt der Erkennungsmotor ist, ist für das vorliegende Beispiel ein Algorithmus, der auf dem Algorithmus des Typs Viterbi beruht und n-best genannt wird. Der Algorithmus des Typs n-best bestimmt bei jedem Schritt einer Satzanalyse die n Sequenzen der wahrscheinlichsten Worte, wobei die gesammelten Audiodaten gegeben sind. Am Satzende wird die wahrscheinlichste Lösung unter den n Kandidaten ausgewählt.
Die Begriffe des obigen Abschnitts sind für unter Fachleuten bekannt, jedoch werden zusätzliche Informationen in Bezug auf den besonderen Algorithmus n-best in der folgenden Veröffentlichung ausgeführt:
„Statistical methods for speech recognition" von F. Jelinek, MIT Press 1999 ISBN o-262-10066-5 pp 79–84. Andere Algorithmen können auch eingesetzt werden. Insbesondere andere Algorithmen des Typs "Beam Search" wovon "n-best" eine Variante ist.
Der akusto-phonetische Dekodierer und der Sprachdekodierer können durch Einsatz eines geeigneten Programms mit einem Mikroprozessor, der Zugang zu einem Speichers mit dem Algorithmus des Erkennungsmotors und den Akustik- und Sprachmodellen hat, realisiert werden.
Gemäß dem vorliegenden Ausführungsbeispiel, setzt die Vorrichtung mehrere Sprachmodelle in Gang. Die beabsichtigte Anwendung ist eine Benutzerschnittstelle mit Sprachsteuerung zur Steuerung eines elektronischen Programmführers, ein erstes Sprachmodell ist zur Filterung der vorgeschlagenen Senderprogramme angepasst, mit dem Ziel, zeitliche oder thematische Filter auf Basis von Daten verfügbarer Sender anzuwenden, während ein zweites Sprachmodell für einen Senderwechsel, ausserhalb des Programmführerkontextes, (zapping) angepasst ist. Es stellt sich in der Praxis heraus, dass Sätze, die sich akustisch sehr ähnlich sind, im Rahmen der Kontexte beider Modelle, sehr unterschiedliche Bedeutungen haben können.
Die 3 ist ein Schaubild, auf dem die Verzweigungen schematisch dargestellt sind, entsprechend für jedes der beiden Modelle. Wie in den 1 und 2 die schwarzen Kreise die Entscheidungsstufen darstellen, so zeigen die Striche die Übergänge, denen das Sprachmodell die Zutreffswahrscheinlichkeit zuordnet, die weissen Kreise stehen für Wörter aus dem Vokabular, dem die Markovschen Netze zugeordnet sind, die aufgrund der phonetischen Kenntnis der möglichen Aussprache, erstellt wurden.
Verschiedene Instanzen des beam search-Verfahrens werden getrennt für jedes Modell angewendet. Die Letzteren sind nicht zusammen geführt, sondern bleiben getrennt und jede Verfahrensinstanz liefert den wahrscheinlichsten Satz für das zugeordnete Modell.
Gemäß einer Variante des Ausführungsbeispiels wendet man ein Verfahren des Typs n-best bei einem oder mehreren oder allen Modellen an.
Sobald die Analyse für alle Module beendet ist, dient der beste Wert (oder die besten Werte, je nach Variante) von jedem Modul zur Wahl, auf klassische Art, des eventuell verstandenen Satzes.
Gemäß einer Variante des Ausführungsbeispiels, werden, nachdem die Analyse aller Module einmal stattgefunden hat, die verschiedenen Kandidatensätze, die aus dieser Analyse hervorgegangen sind, für eine zweite, feinere, Analyse herangezogen, wobei man die nicht eingesetzten akustischen Parameter der vorhergehenden Analysephase benutzt.
Die vorgeschlagene Verarbeitung besteht darin, dass kein globales Sprachmodell geformt wird, sondern dass man Teilsprachmodelle speichert. Jedes wird auf eine unabhängige Art mit einem beam-search Algorithmus behandelt und der Wert der besten Sequenzen wird berechnet.
Die Erfindung beruht also auf einer Gesamtheit von getrennten Modulen, wobei jedes Modul von einem Teil der Systemressourcen profitiert, die einen oder mehrere Prozessoren in einer bevorrechtigten Mehrfachzugriffsarchitektur vorschlagen kann, so wie in der 4 dargestellt ist.
Es ist ein Vorteil, dass der Irrtum in jedem Sprachmodell an sich gering ist und dass die Summe der Irrtümer von n vorhandenen Sprachmodellen geringer als die Irrtümer die aus ihrem Zusammenschluss entstehen würden. Die Verarbeitung der Daten verlangt also weniger Rechenaufwand.
Andererseits gibt schon die Kenntnis des Ursprungssprachenmodells des Satzes, bei der Wahl des besten Satzes unter den Ergebnissen der verschiedenen Suchverfahren, eine Information über seinen Sinn und über das Anwendungsgebiet, das ihm zugeordnet ist. Die zugehörigen Parser können also diesen Gebieten gewidmet werden und demzufolge einfacher und wirkungsvoller sein.
In unserer Erfindung stellt ein Modul den gleichen Erkennungswert dar, oder genauer gesagt, liefert die gleiche Gesamtheit der n-besten Sätze und denselben Wert für jeden Satz, ob er alleine oder mit anderen Modulen verwendet wird. Es gibt keine Verminderung der Leistung aufgrund einer Vereinigung der Module zu einem einzigen Modul.
Referenzen:

Error bounds für convolutional codes and an asysmetrically optimum decoding algorithm. A.J. Viterbi IEEE Transactions or Information Theory, Band IT-13, Seiten 260–67, 1967
Statistical mehtods for speech recognition. F. Jelinek. MIT Press ISBN 0-262-100066-5 Seiten 79–84
Perceptual linear prediction (PLP) analysis of speech. Hynek Hermansky Journal of the Acoustical Society of America, Band 87, Nr. 4, 1990, 1738.1752

Claims

Verfahren zur Spracherkennung, die eine Stufe zur Erfassung eines akustischen Signals, eine Stufe zur akustophonetischen Dekodierung und eine Stufe zur Sprachdekodierung beinhaltet, dadurch gekennzeichnet, dass die Stufe zur Sprachdekodierung aus folgenden Stufen besteht: – getrennte Anwendungsstufen für eine Vielzahl von Sprachanalysemodellen, einer Tonfolge zur Bestimmung einer Vielzahl von Wortfolgekandidaten, die mit den jeweiligen Modellen verbunden sind; – Bestimmungsstufe mit einem Suchmotor der wahrscheinlichsten Wortfolge unter den Wortfolgekandidaten.
Verfahren gemäß Anspruch 1 dadurch gekennzeichnet, dass es eine zweite Analysephase beinhaltet und die Wortfolgekandidaten benutzt, die aus der mit jedem Modul durchgeführten Analyse und den akustischen Parametern stammen und während der vorangegangen Analysephase nicht angewendet wurden.
Verfahren gemäß einem der Ansprüche 1 oder 2 dadurch gekennzeichnet, dass die Sprachmodelle auf Grammatiken aufgebaut sind.
Verfahren gemäß einem der Ansprüche 1 bis 3 dadurch gekennzeichnet, dass jedes Sprachmodell einem unterschiedlichen Anwendungskontext entspricht.
Verfahren gemäß dem Anspruch 1 dadurch gekennzeichnet, dass die Anwendungsstufe für jedes Sprachmodell die Stufe zur Generierung der wahrscheinlichsten Wortfolge beinhaltet.
Verfahren gemäß Anspruch 1 dadurch gekennzeichnet, dass die Anwendungsstufe die Durchführung eines Verfahrens der Art n-best für eines oder mehrere oder für die Gesamtheit der Sprachmodelle beinhaltet.
Stimmerkennungsvorrichtung die einen Audioprozessor (2) zur Erstellung eines Audiosignals und einen Sprachdekodierer (6) zur Bestimmung einer Wortfolge, die dem Audiosignal entspricht, enthält und dadurch gekennzeichnet ist, dass der Sprachdekodierer – eine Vielzahl an Sprachmodellen (8) enthält mit einer von der Anwendung abgetrennten Analyse des selben Satzes zur Bestimmung einer Vielzahl von Wortsequenzenkandidaten, die mit den jeweiligen Modellen verbunden sind; – ein Suchmotor zur Bestimmung der wahrscheinlichsten Wortfolge innerhalb der Vielzahl der Wortfolgekandidaten.