Beschreibung
Betriebsverfahren eines automatischen Spracherkenners zur sprecherunabhängigen Spracherkennung von Worten aus verschie- denen Sprachen und automatischer Spracherkenner
Die Erfindung betrifft ein Betriebsverfahren eines automatischen Spracherkenners zur sprecherunabhängigen Spracherkennung von Worten aus verschiedenen Sprachen gemäß Patentan- spruch 1 und einen entsprechenden automatischen Spracherkenner gemäß Patentanspruch 6.
Für die phonembasierte Spracherkennung ist ein Spracherken- nungs-Vokabular erforderlich, das die phonetischen Beschrei- bungen aller zu erkennender Wörter umfaßt. Dies ist eine Grundvoraussetzung für die phonembasierte Spracherkennung. Wörter werden hierbei durch Phonemfolgen oder -ketten im Vokabular repräsentiert. Während eines Spracherkennungs-Vor- gangs wird eine Suche nach dem besten Pfad durch die Phonem- folgen im Vokabular durchgeführt. Diese Suche kann beispielsweise mit dem sogenannten Viterbi-Algorithmus erfolgen. Bei kontinuierlicher Spracherkennung können zudem die Wahrscheinlichkeiten für Übergange zwischen Wörtern modelliert und in den Viterbi-Algorithmus einbezogen werden.
Die phonetischen Umschriften für die zu erkennenden Wörter sind die Basis der phonembasierten Spracherkennung. Daher stellt sich zu Beginn des Einsatzes eines phonembasierten Spracherkenners immer die Frage, wie derartige phonetische Umschriften gewonnen werden können. Unter phonetischen Umschriften werden hier die phonetischen Beschreibungen der Wörter aus einem Zielvokabular verstanden. Insbesondere stellt sich diese Frage bei Wörtern, die dem Spracherkenner nicht bekannt sind.
Bekannt sind Mobil- oder Schnurlostelefone, die eine sprecherabhängige Namenswahl ermöglichen. Ein Benutzer eines der-
artigen Telefons muß hierzu die im elektronischen Telefonbuch des Telefons enthaltenen Einträge trainieren, um diese später zur Namenswahl per Sprache nutzen zu können. Allerdings kann in der Regel kein anderer Benutzer dieses Feature nutzen, da die sprecherabhängige Namenswahl nur für eine Person geeignet ist, nämlich für diejenige, welche die Sprachwahl trainiert hat. Um dieses Problem zu umgehen, können die Einträge im elektronischen Telefonbuch in phonetische Umschriften umgewandelt werden.
Zum Ermitteln der phonetischen Umschrift aus einem geschriebenen Wort, beispielsweise einem Telefonbucheintrag, sind unterschiedliche Ansätze bekannt. Es sei hier beispielsweise auf die sogenannten Diktiersysteme, die im allgemeinen auf einem PC zur Ausführung kommen, verwiesen. Bei derartigen
Diktiersystemen ist im Normalfall ein Lexikon von typischerweise mehreren 10000 Wörtern mit den Zuordnungen von Buchstabenfolgen zu Phonemfolgen hinterlegt. Da ein solches Lexikon allerdings einen sehr hohen Speicherplatzbedarf aufweist, ist es für mobile Endgeräte wie beispielsweise Mobil- oder Schnurlostelefone nicht praktikabel.
Bekannt sind auch Systeme, bei denen die Umsetzung eines Wortes in dessen phonetische Umschrift regelbasiert oder durch speziell trainierte neuronale Netze erfolgt. Diese Verfahren besitzen wie das Lexikon den Nachteil, daß festgelegt werden muß, in welcher Sprache die Phonemfolge realisiert werden soll. Allerdings können insbesondere in elektronischen Telefonbüchern Namen aus verschiedenen Sprachen vorhanden sein. Eine Umsetzung wäre dann mit dem oben beschriebenen Verfahren nicht oder nur unvollständig möglich.
Daher wurden sogenannte multilinguale Systeme zur Phonemkettenermittlung und Spracherkennung entworfen. Diese Systeme erlauben die Erzeugung von Phonemketten aus verschiedenen Sprachen.
Schließlich existiert noch eine andere Lösung: Ein Benutzer spricht die Worte in ein Spracherkennungssystem ein, das daraus automatisch Phonemfolgen generiert. Bei großen Wortschätzen, aber auch schon bei einigen dutzend Wörtern, wie bei- spielsweise bei einem elektronischen Telefonbuch mit 80 Einträgen, ist dies für den Benutzer nicht mehr akzeptabel.
Aufgabe der vorliegenden Erfindung ist es daher, ein Betriebsverfahrens eines automatischen Spracherkenners zur sprecherunabhängigen Spracherkennung von Worten aus verschiedenen Sprachen sowie einen entsprechenden automatischen Spracherkenner vorzuschlagen, welche einfach zu implementieren sind, sich insbesondere zum Einsatz in mobilen Endgeräten eignen, und kostengünstig zu realisieren sind.
Diese Aufgabe wird durch ein Betriebsverfahren mit den Merkmalen des Patentanspruchs 1 und durch einen automatischen Spracherkenner mit den Merkmalen des Patentanspruchs 6 gelöst .
Der Erfindung liegt im wesentlichen die Idee zugrunde, phonetische Umschriften von Wörtern jeweils für N-verschiedene Sprachen zu ermitteln, diese anschließend nachzuverarbeiten und einer phonembasierten einsprachigen Spracherkennung zuzu- führen. Diese Vorgehensweise beruht im wesentlichen auf der
Erkenntnis, daß ein Benutzer der Spracherkennung normalerweise in seiner Muttersprache spricht. Auch fremdsprachige Wörter, beispielsweise Namen, spricht er normalerweise mit einer "Muttersprachenfärbung", also einem Akzent aus, die bzw. der durch einen sogenannten Muttersprachen-Spracherkenner grob modelliert werden kann. Das Betriebsverfahren geht daher von einer als Muttersprache definierten Sprache aus.
Jede Sprache läßt sich nun mit unterschiedlichen, der jewei- ligen Sprache eigenen Phonemen beschreiben. Bekanntermaßen ähneln sich jedoch viele Phoneme verschiedener Sprachen. Ein Beispiel hierfür ist das "p" im englischen und deutschen.
Diese Tatsache wird bei der multilingualen Spracherkennung ausgenutzt. Für ein Ensemble von Sprachen wird hier ein einziges Hidden-Markov-Modell erstellt, mit dem simultan mehrere Sprachen erkannt werden können. Allerdings führt dies zu ei- nem sehr großen Hidden-Markov-Modell, das eine niedrigere Erkennungsrate als ein einsprachiges Hidden-Markov-Modell besitzt. Zudem muß bei einer Erweiterung des Ensembles von Sprachen um beispielsweise eine weitere Sprache ein neues Hidden-Markov-Modell erstellt werden, was sehr aufwendig ist. Dies wird mit der Erfindung vermieden.
Erfindungsgemäß werden in einem ersten Schritt der Eingabephase zur Erstellung eines Spracherkenner-Vokabulars eines Betriebsverfahrens eines automatischen Spracherkenners zur sprecherunabhängigen Spracherkennung von Worten aus verschiedenen Sprachen, insbesondere von Erkennung von Namen aus verschiedenen Sprachen, die phonetischen Umschriften von Wörtern jeweils für N-verschiedene Sprachen ermittelt, um pro Wort N- erste Phonemfolgen entsprechend N-ersten Aussprachevarianten zu erhalten. In einem zweiten Schritt werden die Ähnlichkeiten zwischen den Sprachen ausgenutzt. Hierzu wird eine Abbildung der Phoneme jeder Sprache auf den jeweiligen Phonemsatz der Muttersprache implementiert. Ferner wird in einem dritten Schritt die implementierte Abbildung auf die im ersten Schritt ermittelten N-ersten Phonemfolgen für jedes Wort angewandt. Dadurch werden pro Wort N-zweite Phonemfolgen entsprechend N-zweiten Aussprachevarianten erhalten. Mit dem Muttersprachen-Spracherkenner kann dann bereits eine Anzahl N-verschiedener Sprachen nach Erstellen eines Spracherkenner- Vokabulars mit den im vorhergehenden Schritt erhaltenenen N- zweiten Phonemfolgen pro Wort für den Muttersprachen-Spracherkenner erkannt werden.
Die Erfindung hat im wesentlichen die folgenden Vorteile: Während ein Look-up-Verfahren in einem Lexikon bei mobilen Endgeräten wegen des großen Speicherplatzbedarfs scheitert und bei der multilingualen Spracherkennung, die für einen
Satz von Sprachen optimiert wurde, für jede neue Sprache neue Hidden-Markov-Modelle erstellt und optimiert werden müssen, wird durch die Grapheme/Phoneme-Konversion in mehrere Sprachen gemäß der Erfindung ein multilinguales System geschaf- fen, das mit relativ einfachen Mitteln zu implementieren ist, sich daher vor allem zum Einsatz in mobilen Endgeräten eignet und nicht zuletzt kostengünstig zu realisieren ist. Für die Erfindung ist neben der Graphem-zu-Phonem-Umwandlung im wesentlichen nur noch ein Mapping, d. h. ein Abbilden zwischen den einzelnen Sprachen - wie oben erläutert - erforderlich. Die Phonemfolgen-Ermittlung und das anschließende Mapping bzw. Abbilden laufen normalerweise "offline" auf einem Gerät ab, beispielsweise einem Mobiltelefon, einem Personal Digital Assistant oder Personal Computer mit entsprechender Software, und sind daher zeitunkritisch. Die hierfür benötigten Ressourcen können in einem langsamen externen Speicher untergebracht werden.
Da das mit dem oben beschriebenen Verfahren erstellte Sprach- erkenner-Vokabular jedoch für jedes Wort N-Aussprachevarian- ten umfaßt, ist der Suchaufwand bei der Spracherkennung groß. Um ihn zu verringern, kann ein weiterer Schritt in das Verfahren eingeführt werden, der noch vor dem Erstellen des Ξpracherkenner-Vokabulars und nach dem Erzeugen der N-zweiten Phonemfolgen pro Wort ausgeführt wird. In diesem Schritt werden die N-zweiten Phonemfolgen entsprechend den N-zweiten Aussprachevarianten jedes Wort bearbeitet, indem jede zweite Phonemfolge mittels geeigneter Distanzen, insbesondere der Levenshtein-Distanz, analysiert und klassifiziert wird, und die N-zweiten Phonemfolgen jedes Wortes auf wenige, vorzugsweise zwei bis drei, Phonemfolgen reduziert werden, insbesondere indem die Aussprachevarianten weggelassen werden, die der Aussprachevariante der Muttersprache am wenigsten ähnlich sind. Vereinfacht ausgedrückt werden durch diese Reduzierung die weniger wichtigen Aussprachevarianten weggelassen, wodurch sich der Suchaufwand bei der Spracherkennung verringert.
Eine weitere Aufwandsreduktion läßt sich erreichen, indem vor dem ersten Schritt eine Sprachidentifikation und -reduktion vorgenommen wird. Im Rahmen dieser Sprachidentifikation wird für jedes zu erkennende Wort die Wahrscheinlichkeit der Zugehörigkeit zu jeder der N-verschiedenen Sprachen bestimmt. An¬ hand des Ergebnisses dieser Sprachidentifikation wird die Anzahl der im ersten Verfahrensschritt zu verarbeitenden Sprachen, vorzugsweise auf zwei bis drei verschiedene Sprachen, reduziert. Diese Sprachreduktion erfolgt vorzugsweise, indem die Sprachen mit der geringsten Wahrscheinlichkeit nicht weiterverarbeitet werden. Für ein bestimmtes Wort kann das Ergebnis der Sprachidentifikation beispielsweise wie folgt lauten: "Deutsch 55%, UK-Englisch 16%, US-Englisch 14%, Schwe- disch 3%, ...". Bereits nach diesem Ergebnis kann auf drei verschiedene Sprachen reduziert werden, indem Schwedisch weggelassen, d. h. nicht weiterverarbeitet wird.
Das Ermitteln der phonetischen Umschriften im ersten Verfah- rensschritt erfolgt vorzugsweise durch mindestens ein neuronales Netz. Neuronale Netze haben sich zum Ermitteln phonetischer Umschriften aus geschriebenen Worten bewährt, da sie gute Ergebnisse hinsichtlich der Genauigkeit und vor allem Verarbeitungsgeschwindigkeit liefern sowie einfach, insbeson- dere in Software implementierbar sind.
Als Muttersprachen-Spracherkenner kann insbesondere ein Hidden-Markov-Modell zum Einsatz kommen, das für die als Muttersprache definierte Sprache erstellt worden ist.
Die Erfindung betrifft ferner einen Spracherkenner zur sprecherunabhängigen Spracherkennung von Worten aus verschiedenen Sprachen, insbesondere zur Erkennung von Namen aus verschiedenen Sprachen. Hierbei ist eine der verschiedenen Sprachen als Muttersprache definiert. Der Spracherkenner umfaßt - einen Muttersprachen-Spracherkenner,
- ein erstes Verarbeitungsmodul zum Ermitteln der phonetischen Umschriften von Wörtern jeweils für N-verschiedene Sprachen, um pro Wort N-erste Phonemfolgen entsprechend N- ersten Aussprachevarianten zu erhalten, - ein zweites Verarbeitungsmodul zum Implementieren einer Ab¬ bildung der Phonem jeder Sprache auf dem jeweiligen Phonem¬ satz der Muttersprache,
- ein drittes Verarbeitungsmodul zum Anwenden der mit dem zweiten Verarbeitungsmodul implementierten Abbildung auf die mit dem ersten Verarbeitungsmodul ermittelten N-ersten Phonemfolgen für jedes Wort, wodurch pro Wort N-zweite Phonemfolgen entsprechend N-zweiten Aussprachevarianten erhalten werden, die mit dem Muttersprachen-Spracherkenner erkannt werden können und - ein viertes Verarbeitungsmodul zum Erstellen eines Spracherkenner-Vokabulars mit den durch das dritte Verarbeitungsmodul erhaltenen N-zweiten Phonemfolgen pro Wort für den Muttersprachen-Spracherkenner.
In einer bevorzugten Ausführungsform umfaßt der automatische Spracherkenner ein fünftes Verarbeitungsmodul zum Bearbeiten der N-zweiten Phonemfolgen entsprechend den N-zweiten Aussprachevarianten jedes Wortes. Das fünfte Verarbeitungsmodul ist derart ausgebildet, daß jede zweite Phonemfolge mittels geeigneter Distanzen, insbesondere der Levenshtein-Distanz, analysiert und klassifiziert wird, und die N-zweiten Phonemfolgen jedes Wortes auf wenige, vorzugsweise zwei bis drei, Phonemfolgen reduziert werden.
Ferner kann der automatische Spracherkenner einen Sprachiden- tifikator und einen Sprachreduzierer umfassen. Der Sprachi- dentifikator ist vor das erste Verarbeitungsmodul geschaltet und bestimmt für jedes zu erkennende Wort die Wahrscheinlichkeit der Zugehörigkeit zu jeder der N-verschiedenen Sprachen. Der Sprachreduzierer reduziert die Anzahl der vom ersten Verarbeitungsmodul zu verarbeitenden Sprachen, vorzugsweise auf zwei bis drei verschiedene Sprachen, indem die Sprachen mit
der geringsten Wahrscheinlichkeit nicht weiterverarbeitet werden. Sprachidentifikator und Sprachreduzierer verringern sowohl den Verarbeitungsaufwand des automatischen Spracherkenners sowohl in der Eingabephase als auch in der Erken- nungsphase beträchtlich.
Vorzugsweise weist das erste Verarbeitungsmodul mindestens ein neuronales Netz zum Ermitteln der phonetischen Umschriften auf.
Schließlich weist der Muttersprachen-Spracherkenner in einer bevorzugten Ausführungsform ein Hidden-Markov-Modell auf, das für die als Muttersprache definierte Sprache erstellt worden ist.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus der nachfolgenden Beschreibung eines Ausführungsbeispiels der Erfindung anhand der einzigen Figur. Diese zeigt ein schematisches Ablaufdiagrarttm der Eingabephase zur Erstellung eines Spracherkenner-Vokabulars gemäß der Erfindung.
Es soll die sprecherabhängige Namenswahl auf einem Mobiltelefon mit den Namen aus dem Telefonbuch für einen deutschspra- chigen Benutzer realisiert werden. In dem Telefonbuch befinden sich neben überwiegend deutschsprachigen Namen auch einige fremdsprachige Namen. Ein Umsetzer für die graphemische Darstellung der Namen ist auf die Sprachen Deutsch, Italienisch, Tschechich, Griechisch, Türkisch eingestellt, insge- samt als N = 5 verschiedene Sprachen.
In einem Anfangsschritt SO wird eine Sprachidentifikation der zugeführten Worte 10 bzw. Einträge des Telefonbuchs vorgenommen. Genauer gesagt wird jedes einzelne Wort auf die Wahr- scheinlichkeit der Zugehörigkeit zu einer der fünf Sprachen analysiert. Wird beispielsweise ein deutscher Name verarbeitet, so wird die Wahrscheinlichkeit für Deutsch sehr hoch
sein, für die anderen vier Sprachen, nämlich Italienisch, Tschechisch, Griechisch und Türkisch dagegen sehr viel niedriger. Anhand der pro Wort ermittelten Wahrscheinlichkeiten wird die Sprache mit der geringsten Wahrscheinlichkeit für die weitere Verarbeitung weggelassen. Das bedeutet, daß im nachfolgenden Verarbeitungsgang nur noch vier, anstatt fünf Sprachen verarbeitet werden müssen.
In einem ersten Verfahrensschritt SI wird für jedes Wort die phonetische Umschrift für jede der vier verschiedenen Sprachen ermittelt. Dadurch werden für jedes Wort vier Phonemfolgen entsprechend vier ersten Aussprachevarianten erhalten.
In einem zweiten Verfahrensschritt S2 wird anschließend eine Abbildung der Phoneme jeder der vier Sprachen auf den jeweiligen Phonemsatz der Muttersprache implementiert.
Diese Abbildung wird in einem dritten Verfahrensschritt S3 auf die im ersten Verfahrensschritt SI erhaltenen vier ersten Phonemfolgen 12 angewandt. Hierdurch werden für jedes Wort vier zweite Phonemfolgen 14 entsprechend vier zweiten Aussprachevarianten erhalten. Die vier zweiten Phonemfolgen 14 können bereits mit einem Muttersprachen-Spracherkenner erkannt werden.
Um allerdings den Verarbeitungsaufwand für den Spracherkenner weiter zu reduzieren, wird pro Wort jede zweite Phonemfolge mittels der Levenshtein-Distanz analysiert und klassifiziert (Schritt S4) . Anschließend folgt ein fünfter Verfahrens- schritt S5, in dem die analysierten und klassifizierten zweiten Phonemfolgen pro Wort auf drei Phonemfolgen reduziert werden.
Schließlich wird in einem letzten Schritt S6 ein Spracherken- ner-Vokabular mit dem in dem fünften Verfahrensschritt S5 erhaltenen drei zweiten Phonemfolgen pro Wort für den Muttersprachen-Spracherkenner erstellt. Durch die nochmalige Reduk-
tion der Phonemfolgen im fünften Verfahrensschritt S5 wird also das zu speichernde und während einer Spracherkennung zu durchsuchende Spracherkenner-Vokabular merklich reduziert. Dies bringt in einer praktischen Anwendung der Spracherken- nung einerseits den Vorteil eines geringeren Speicherplat∑be- darfs und andererseits einer schnelleren Verarbeitung, da ein kleineres Vokabular durchsucht werden muß .
Nach Ablauf des beschriebenen Verfahrens kann der Benutzer mittels Spracherkennung eine Namenswahl, also den sprachgesteuerten Aufruf gespeicherter Rufnummern über den Namen des
I
Teilnehmers vornehmen, ohne daß er den Namen des zu rufenden Teilnehmers explizit einmal vorsprechen, also trainieren, muß.
Im folgenden wird kurz erläutert, was der Benutzer des Mobiltelefons zur Verbesserung der Spracherkennung tun kann. Sollte er einmal feststellen, daß ein bestimmter Name nicht gut erkannt wird, kann er das Spracherkenner-Menü seines Mobilte- lefons aufrufen und dort die Anwendung "Namenswahl" auswählen. Unter dieser Anwendung kann ihm nun eine oder auch mehrere Möglichkeiten angeboten werden, um die Spracherkennung eines bestimmten Wortes, genauer gesagt eines bestimmten Namens aus dem elektronischen Telefonbuch des Mobiltelefons zu verbessern. Im folgenden werden beispielhaft einige dieser Möglichkeiten kurz erläutert:
1. Der Benutzer kann das schlecht oder gar nicht erkannte Wort nochmals in das Mobiltelefon einsprechen und anschlie- ßend durch den im Mobiltelefon enthaltenen Spracherkenner in eine Phonemfolge umsetzen lassen. In diesem Fall werden vorher automatisch ermittelte Aussprachevarianten ganz oder teilweise, je nachdem welche Nähe sie zu der neu ermittelten Phonemfolge besitzen, aus dem Vokabular des Spracherkenners entfernt.
2. Alternativ kann sich der Benutzer auf dem Display des Mobiltelefons eine Art Lautschrift des schlecht oder gar nicht erkannten Eintrags des elektronischen Telefonbuchs anzeigen lassen. Die Art Lautschrift kann der Benutzer dann bei Nicht- zutreffen, d. h. bei schlechter Übereinstimmung mit seiner Aussprache, editieren. Beispielsweise kann durch die automatische Umsetzung des Eintrags "Jacques Chirac" als Lautschrift "Jakwes Schirack" gespeichert sein. Erscheint nun dem Benutzer diese Lautschrift als fehlerhaft, kann er sie mit- tels seines Mobiltelefons editieren, beispielsweise zu
"Schack Schirack". Anschließend kann das System dazu die phonetische Beschreibung ermittelt und diese ins Spracherkenner- Vokabular neu aufnehmen. Damit sollte die automatische Spracherkennung zuverlässig funktionieren.
3. Schließlich kann der Benutzer durch eine explizite Angabe der Sprache, aus der ein fehlerhaft oder gar nicht erkannter Name stammt oder durch explizite Auswahl einer bestimmten Sprache für einen bestimmten Namen die Erkennung wesentlich verbessern. In einem derartigen Fall werden alle Aussprachevarianten für den Namen aus dem Spracherkenner-Vokabular entfernt, die nicht der explizit angegeben Sprache zugeordnet sind.
Die Erfindung kann auch vorteilhaft in anderen mobilen Geräten außer einem Mobiltelefon z. B. einem Personal Assistant oder auch einem Personal Computer verwendet, d. h. eingesetzt werden.