DE60219943T2

DE60219943T2 - Verfahren zum komprimieren von wörterbuchdaten

Info

Publication number: DE60219943T2
Application number: DE60219943T
Authority: DE
Inventors: Jilei Tian
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-11-12
Filing date: 2002-11-08
Publication date: 2008-01-17
Anticipated expiration: 2022-11-09
Also published as: CN1585968A; BR0214042A; US20030120482A1; FI20012193A; FI114051B; US7181388B2; FI20012193A0; US20070073541A1; DE60219943D1; JP2005509905A; CA2466652C; CA2466652A1; CN1269102C; EP1444685A1; EP1444685B1; KR100597110B1; ES2284932T3; KR20050044399A; WO2003042973A1; ATE361523T1

Description

Hintergrund der Erfindung
Die Erfindung bezieht sich auf eine sprecherunabhängige Spracherkennung und genauer auf die Komprimierung eines Aussprachelexikons.
Verschiedene Einsatzgebiete für die Spracherkennung wurden während der letzten Jahre entwickelt, zum Beispiel Fahrzeugnutzer-Schnittstellen und mobile Endgeräte, wie Mobiltelefone, PDA-Vorrichtungen und tragbare Computer. Bekannte Verfahren für mobile Endgeräte umfassen Verfahren zum Anrufen einer bestimmten Person durch lautes Aussprechen ihres Namens in das Mikrofon des mobilen Endgeräts und durch Aufbauen eines Anrufs zu der Nummer entsprechend des durch den Benutzer gesagten Namens. Gegenwärtige sprecherunabhängige Verfahren erfordern jedoch üblicherweise, dass das Spracherkennungssystem trainiert wird, um die Aussprache jedes Namens zu erkennen. Eine sprecherunabhängige Spracherkennung verbessert die Nutzbarkeit einer sprachgesteuerten Benutzerschnittstelle, da die Trainingsstufe weggelassen werden kann. Bei einer sprecherunabhängigen Namenauswahl kann die Aussprache von Namen vorher gespeichert werden und kann der durch den Benutzer gesprochene Name mit der vordefinierten Aussprache identifiziert werden, wie beispielsweise durch eine Phonemsequenz. Obwohl in vielen Sprachen die Aussprache vieler Worte durch Regeln oder sogar Modelle dargestellt werden kann, kann die Aussprache einiger Worte nach wie vor nicht korrekt durch diese Regeln oder Modelle erzeugt werden. In vielen Sprachen jedoch kann die Aussprache nicht durch allgemeine Ausspracheregeln dargestellt werden, sondern hat jedes Wort eine spezifische Aussprache. In diesen Sprachen beruht die Spracherkennung auf der Verwendung so genannter Aussprachelexika, in welchen eine geschriebene Form jedes Wortes der Sprache und die phonetische Darstellung seiner Aussprache in einer listenartigen Struktur gespeichert sind.
In Mobiltelefonen ist die Speichergröße häufig aus Gründen der Kosten und der Hardwaregröße beschränkt. Dies legt auch den Einsatzgebieten der Spracherkennung Beschränkungen auf. In einer Vorrichtung, die geeignet ist, mehrere Sprachen für die Benutzerschnittstelle zu haben, verwendet die Lösung für die sprecherunabhängige Spracherkennung häufig Aussprachelexika. Weil ein Aussprachelexikon üblicherweise groß ist, zum Beispiel 37 KB für zweitausend Namen, muss dieses für die Speicherung komprimiert werden. Grob gesagt, fallen die meisten Textkomprimierungsverfahren in zwei Klassen: lexikonbasiert und statistikbasiert. Es gibt mehrere unterschiedliche Implementierungen bei der lexikonbasierten Komprimierung, zum Beispiel LZ77/78 und LZW (Lempel-Ziv-Welch). Durch Kombinieren eines statistischen Verfahrens, zum Beispiel einer arithmetischen Kodierung, mit leistungsfähigen Modellbildungstechniken, kann eine bessere Leistungsfähigkeit erreicht werden als mit lexikonbasierten Verfahren alleine. Das Problem mit dem statistisch basierten Verfahren besteht jedoch darin, dass dieses einen großen Arbeitsspeicher (Puffer) während des Dekomprimierungsverfahrens benötigt. Deshalb ist diese Lösung nicht geeignet für die Verwendung in kleinen tragbaren elektronischen Vorrichtungen, wie mobilen Endgeräten. Die Druckschrift US-A-5,930,754 offenbart ein Verfahren zum Bearbeiten eines Aussprachelexikons für die Komprimierung. Das Aussprachelexikon besteht aus Orthografien paarweise zusammen mit entsprechenden phonetischen Darstellungen. Die Sequenz von Buchstaben ist mit ihrer entsprechenden Folge von Phonen ausgerichtet. Ein neurales Netzwerk wird mit den ausgerichteten Sequenzen trainiert.
Obwohl die bestehenden Komprimierungsverfahren allgemein gut sind, ist die Komprimierung der Aussprachelexika nicht effizient genug für tragbare Vorrichtungen.
Kurzbeschreibung der Erfindung
Die Aufgabe der Erfindung ist, ein effizienteres Komprimierungsverfahren zum Komprimieren eines Aussprachelexikons zu schaffen. Die Aufgabe der Erfindung wird mit einem Verfahren, mit elektronischen Vorrichtungen, einem System und Computerprogrammprodukten gelöst, die gekennzeichnet sind, durch das, was in den unabhängigen Ansprüchen offenbart ist. Die bevorzugten Ausführungsformen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Gemäß einem ersten Aspekt der Erfindung wird das Aussprachelexikon vor der Komprimierung vorbearbeitet. Die Vorbearbeitung kann zusammen mit einem Verfahren zum Komprimieren eines Lexikons verwendet werden. In der Vorbearbeitung wird jeder Eintrag in das Aussprachelexikon unter Verwendung eines statistischen Algorithmus ausgerichtet. Während der Ausrichtung werden eine Sequenz von Zeicheneinheiten und eine Sequenz von Phonemeinheiten so modifiziert, dass sie eine gleiche Anzahl von Einheiten in den Sequenzen haben. Die ausgerichteten Sequenzen von Zeicheneinheiten und von Nebeneinheiten werden dann verschachtelt, so dass jede Phonemeinheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeicheneinheit eingefügt wird.
Eine Sequenz von Zeicheneinheiten ist typischerweise eine Buchstaben enthaltende Textsequenz. In Abhängigkeit von der Sprache kann der Alphabetsatz erweitert werden, so dass dieser mehr Buchstaben oder Symbole enthält, als das herkömmliche englische Alphabet.
Eine Sequenz von Phonemeinheiten repräsentiert die Aussprache des Wortes und sie enthält gewöhnlich Buchstaben und Symbole, zum Beispiel '@','A:', '{'in SAMPA (Seeach Assessment Methods Phonetic Alphabet)-Schreibweise. Das phonetische Alphabet kann auch bestimmte nicht druckfähige Zeichen enthalten. Weil ein Phonem mit mehr als einem Buchstaben oder Symbol repräsentiert werden kann, werden die Phoneme durch ein Leerzeichen getrennt.
Gemäß einem zweiten Aspekt der Erfindung, wie im unabhängigen Anspruch 8 beansprucht, ist eine elektronische Vorrichtung so konfiguriert, dass diese eine Textfolge-Eingabe in eine Sequenz von Phonemeinheiten umwandelt. Ein komprimiertes und vorbearbeitetes Aussprachelexikon mit Einträgen, wobei die Einträge eine erste Gruppe von Einheiten mit Zeicheneinheiten und eine zweite Gruppe von Einheiten mit Phonemeinheiten umfassen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe durch Einfügen jeder Phonemeinheit an einer vorbestimmten Stelle in Bezug zu der entsprechenden Zeicheneinheit ausgerichtet und verschachtelt sind, ist in dem Speicher der Vorrichtung gespeichert. Ein übereinstimmender Eintrag für die Textfolgeeingabe wird in dem vorbearbeiteten Aussprachelexikon gefunden, indem die Einheiten der ersten Gruppe von Einheiten des Eintrags von dem vorbestimmten Stellen verwendet werden. Aus dem übereinstimmenden Eintrag werden Einheiten der zweiten Gruppe von Einheiten ausgewählt und zu einer Folge von Phonemeinheiten verknüpft. Auch die Leerstellen aus der Folge von Phonemeinheiten entfernt.
Gemäß einem dritten Aspekt der Erfindung, wie dieser im unabhängigen Anspruch 11 beansprucht wird, ist eine elektronische Vorrichtung so konfiguriert, dass diese eine Sprachinformations-Eingabe in eine Sequenz von Zeicheneinheiten umwandelt. Ein komprimiertes und vorbearbeitetes Aussprachelexikon mit Einträgen, wobei die Einträge eine erste Gruppe von Einheiten mit Zeicheneinheiten und eine zweite Gruppe von Einheiten mit Phonemeinheiten umfassen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe durch Einfügen jeder Phonemeinheit an einer vorbestimmten Stelle in Bezug zu der korrespondierenden Zeicheneinheit ausgerichtet und verschachtelt sind, ist in dem Speicher der Vorrichtung gespeichert. Aussprachemodelle für jede phonetische Darstellung des Eintrags sind entweder in dem Speicher zusammen mit dem Aussprachelexikon gespeichert oder werden während des Prozesses erzeugt. Ein übereinstimmender Eintrag für die Sprachinformation wird gefunden, indem die Sprachinformation mit den Aussprachemodellen verglichen wird und der am besten korrespondierende Eintrag gewählt wird. Aus dem übereinstimmenden Eintrag werden Einheiten der ersten Gruppe von Einheiten ausgewählt und zu einer Folge von Zeicheneinheiten verkettet. Schließlich werden die Leerstellen aus der Folge von Zeicheneinheiten entfernt.
Ein Vorteil der Erfindung besteht daran, dass mit der beschriebenen Bearbeitung die Entropie (H) des Lexikons vermindert wird. Gemäß der Informationstheorie weist eine niedrige Entropierate (H) daraufhin, dass eine effektivere Komprimierung erreicht werden kann, da die Entropierate die Untergrenze für die Komprimierung bestimmt (die Komprimierungsrate mit der bestmöglichen verlustfreien Komprimierung). Dies ermöglicht eine bessere Komprimierung und die Speicheranforderung ist kleiner. Darüber hinaus ist das Aussprachelexikon relativ einfach und schnell für die Spracherkennung anzuwenden.
In einer Ausführungsform der Erfindung ist der HMM-Viterbi Algorithmus so angepasst, dass dieser für die Ausrichtung verwendet werden kann. Der HMM-Viterbi Algorithmus gewährleistet, dass die Ausrichtung in einer im statistischen Sinne optimalen Weise durchgeführt wird und somit die verbleibende Entropie des Lexikoneintrags minimiert. Ferner besteht ein Vorteil der Verwendung des HMM-Viterbi Algorithmus für die Ausrichtung darin, dass eine im statistischen Sinne optimalere Ausrichtung erreicht werden kann.
In einer weiteren Ausführungsform der Erfindung wird der Vorbearbeitung ein Abbildungsschritt hinzugefügt. Das Abbilden kann entweder vor oder nach der Ausrichtung durchgeführt werden. In diesem Schritt wird jede Phonemeinheit als ein Symbol abgebildet, und anstelle der durch viele Zeichen repräsentierten Phonemeinheiten wird ein einziges Symbol verwendet, um die Phonemeinheiten zu bezeichnen. Durch Verwenden der Abbildungstechnik können die Leerzeichen aus dem Eintrag entfernt werden, und auch ein Dekodieren der verschachtelten Sequenz ist noch möglich. Die Entfernung der Leerzeichen verbessert das Komprimierungsverhältnis weiter. Zudem besteht ein Vorteil des Abbildens darin, dass das Verfahren an viele Sprachen angepasst werden kann, oder es kann sogar eine große Abbildungstabelle für alle Sprachen in der Vorrichtung verwendet werden.
Kurzbeschreibung der Zeichnungen
Im Folgenden wird die Erfindung in weiterem Detail mithilfe bevorzugter Ausführungsformen und mit Bezug auf die beigefügten Zeichnungen beschrieben, in welchen
1 ein Blockdiagramm ist, welches eine Datenbearbeitungsvorrichtung zeigt, welche die Vorbearbeitung und Komprimierung des Aussprachelexikons gemäß einer bevorzugten Ausführungsform der Erfindung unterstützt;
2 ein Flussdiagramm eines Verfahrens gemäß einer bevorzugten Ausführungsform der Erfindung ist;
3 die Verwendung des HMM-Algorithmus für die Ausrichtung des Aussprachelexikons zeigt;
4 die Vorbearbeitungsschritte für einen Lexikoneintrag zeigt;
5 ein Blockdiagramm ist, das eine elektronische Vorrichtung zeigt, welche das vorbearbeitete Aussprachelexikon verwendet;
6 ein Flussdiagramm ist, das die Verwendung des vorbearbeiteten Aussprachelexikons zeigt, wenn eine Textfolge in eine Aussprachemodell gemäß einer bevorzugten Ausführungsform der Erfindung umgewandelt ist; und
7 ein Flussdiagramm ist, das die Verwendung des vorbearbeiteten Aussprachelexikons zeigt, wenn eine Sprachinformation in einer Folge von Texteinheiten gemäß einer bevorzugten Ausführungsform der Erfindung umgewandelt ist.
Detaillierte Beschreibung der Erfindung
1 zeigt eine Datenbearbeitungsvorrichtung (TE) nur in den Teilen, die für eine bevorzugte Ausführungsform der Erfindung relevant sind. Die Datenbearbeitungseinrichtung (TE) kann zum Beispiel ein Personalcomputer (PC) oder ein mobiles Endgerät sein. Die Datenbearbeitungseinheit (TE) umfasst eine I/O-Einrichtung (I/O), eine zentrale Bearbeitungseinheit (CPU) und einen Speicher (MEM). Der Speicher (MEM) umfasst einen schreibgeschützten ROM-Bereich und einen wieder beschreibbaren Bereich, wie einen Direktzugriffsspeicher RAM und Flash-Speicher. Die Information, die verwendet wird, um mit verschiedenen externen Beteiligten zu kommunizieren, zum Beispiel einer CD-ROM, anderen Einrichtungen und dem Benutzer, wird durch die I/O-Einrichtung (I/O) zu der zentralen Bearbeitungseinheit (CPU) und von dieser übertragen. Die zentrale Bearbeitungseinheit (CPU) liefert einen Bearbeitungsblock (PRE) und einen Komprimierungsblock (COM). Die Funktionalität dieser Blocks wird typischerweise implementiert, indem ein Softwarekode in einem Prozessor ausgeführt wird, sie kann aber auch mit einer Hardwarelösung (zum Beispiel einer ASIC) oder als eine Kombination dieser beiden implementiert sein.
Der Vorbearbeitungsblock (PRE) liefert die Vorbearbeitungsschritte einer bevorzugten Ausführungsform, die in 2 im Detail dargestellt ist. Der Komprimierungsblock (COM) liefert die Komprimierung des Aussprachelexikons, wobei für diesen Zweck mehrere unterschiedliche Komprimierungsverfahren, zum Beispiel LZ77, LZW oder eine arithmetische Kodierung, verwendet werden können. Die Vorbearbeitung kann mit einem der anderen Komprimierungsverfahren kombiniert werden, um die Komprimierungseffizienz zu verbessern.
Das Aussprachelexikon, das vorbearbeitet und komprimiert werden muss, wird in dem Speicher (MEM) gespeichert. Das Lexikon kann auch unter Verwendung der I/O-Einrichtung (I/O) von einer externen Speichereinrichtung, zum Beispiel von einer CD-ROM oder einem Netzwerk, heruntergeladen werden. Das Aussprachelexikon umfasst Einträge, die wiederum jeweils ein Wort in einer Sequenz von Zeicheneinheiten (Textsequenz) und in einer Sequenz von Phonemeinheiten (Phonemsequenz) enthält. Die Sequenz aus Phonemeinheiten repräsentiert die Aussprache der Sequenz von Zeicheneinheiten. Die Repräsentation der Phonemeinheiten ist abhängig von dem verwendeten Phonem-Notationssystem. Mehrere unterschiedliche Phonem-Notationssysteme können verwendet werden, zum Beispiel SAMPA und IPS. SAMPA (Seeach Assessment Methods Phonetic Alphabet) ist ein maschinenlesbares phonetisches Alphabet. Die International Phonetic Association liefert einen nationalen Standard, das International Phonetic Alphabet (IPA) für die phonetische Repräsentation zahlreicher Sprachen. Ein Lexikoneintrag, der das SAMPA-Phonem-Notationssystem verwendet, könnte zum Beispiel sein:

Textsequenz Phonemsequenz Eintrag

Father F A: D @ Father f A: D @
Die Entropie, mit H bezeichnet, ist ein grundlegendes Attribut, welches den Datengehalt des Signals kennzeichnet. Es ist möglich, den kürzesten Weg zu finden, um ein Signal (komprimiert) ohne Verlust von Daten zu präsentieren. Die Länge der kürzesten Repräsentation ist durch die Entropie des Signals angegeben. Statt den exakten Entropiewert einzeln für jedes Signal zu zählen, wurde durch Shannon ein Verfahren etabliert, diesen zu schätzen (siehe zum Beispiel C.E.Shannon, A Mathematical Theory of Communication, The Bell System Technical Journal, Band 27, Seiten 379-423, 623-656, Juli, Oktober 1948). Dies wird im Folgenden kurz beschrieben.
P(l_j|l_i) sei die bedingte Wahrscheinlichkeit, dass das vorliegende Zeichen der jth Buchstabe im Alphabet ist, angenommen, dass das vorherige Zeichen der ith Buchstabe ist und P(l_i) die Wahrscheinlichkeit ist, dass das vorherige Zeichen der ith Buchstabe des Alphabets ist. Die Entropierate H₂ der Statistiken zweiter Ordnung ist
Die Entropierate H in einem allgemeinen Fall ist gegeben durch
In welcher B_n die ersten Zeichen repräsentiert. Es ist praktisch unmöglich, die Entropierate gemäß der obigen Gleichung (2) zu berechnen. Unter Verwendung dieses Voraussageverfahrens der Gleichung (1) ist es möglich, abzuschätzen, dass die Entropierate eines Englischtextes mit 27 Zeichen in etwa 2,3 Bits/Zeichen beträgt.
Um die Komprimierung eines Aussprachelexikons zu verbessern, wird die Vorbearbeitung des Textes dazu verwendet, die Entropie zu senken.
2 zeigt ein Verfahren gemäß einer bevorzugten Ausführungsform der Erfindung. Das Verfahren konzentriert sich auf die Vorbearbeitung des Aussprachelexikons, um die Entropierate (H) zu senken.
Jeder Eintrag wird ausgerichtet (200), das heißt, die Text- und Phonemsequenzen werden modifiziert, um so viele Phonemeinheiten in der Phonemsequenz zu haben, wie es Zeicheneinheiten in der Textsequenz gibt. In der englischen Sprache kann zum Beispiel ein Buchstabe mit null, einem oder zwei Phonemen korrespondieren. Die Ausrichtung wird erhalten, indem graphemische oder phonemische Epsilons (Nullen) zwischen die Buchstaben in der Textfolge oder zwischen die Phoneme in den Phonemsequenzen eingefügt werden. Die Verwendung von graphemischen Epsilons kann durch Einführen einer kurzen Liste von Pseudophonemen, die durch Verketten von zwei Phonemen erhalten werden, die dafür bekannt sind, mit einem einzigen Buchstaben zu korrespondieren, zum Beispiel „x → k s" vermieden werden. Um die Einträge auszurichten, muss die Gruppe erlaubter Phoneme für jeden Buchstaben definiert sein. Die Phonemliste umfasst die Pseudophoneme für den Buchstaben und das mögliche phonemische Epsilon. Der allgemeine Grundsatz ist, eine graphemische Null (definiert als Epsilon) in die Textsequenz und/oder eine phonemische Null (auch Epsilon bezeichnet) in die Phonemsequenz einzufügen, wenn dies notwendig ist. Unten wird das oben verwendete Wort als ein Beispiel nach der Ausrichtung verwendet.

Textsequenz Phonemsequenz Ausgerichteter Eintrag

Father f A: D @ father f A: D ε ε @
Hier hat das Wort „father" 6 Einheiten und nach dem Ausrichten gibt es 6 Phoneme in der Phonemsequenz; 'f A: D ε ε @'. Das Ausrichten kann auf mehreren unterschiedlichen Wegen erfolgen. Gemäß einer Ausführungsform der Erfindung wird die Ausrichtung mit HMM-Viterbi Algorithmus durchgeführt. Das Prinzip der Ausrichtung ist in größerem Detail in 3 dargestellt und beschrieben.
Nach dem Ausrichten (200) wird jedes in dem Phonem-Notationssystem verwendete Phonem vorzugsweise als ein einzelnes Symbol abgebildet (202), zum Beispiel ein Byte ASCII-Kode. Das Abbilden ist jedoch nicht notwendig, um die Vorteile der Erfindung zu erhalten, kann dieser aber weiter verbessern. Das Abbilden kann zum Beispiel in einer Abbildungstabelle dargestellt werden. Unten ist ein Beispiel dafür, wie die Phoneme in dem als Beispiel verwendeten Wort abgebildet sein könnten:

Phonemsymbol ASCII Zahl ASCII Symbol

F 0 × 66 F

A: 0 × 41 A

D 0 × 44 D

@ 0 × 40 @

ε 0 × 5F –
Durch Darstellen jedes Phonems mit einem Symbol können die ein Phonem repräsentierenden zwei Zeichen durch nur ein 8-bit ASCII Symbol ersetzt werden. Als Ergebnis ist das Beispiel:

Phonem-Sequenz Abgebildete Sequenz (ASCII Zahlen) Abgebildete Sequenz (Symbole)

f A: D ε ε @ 0 × 66 0 × 41 0 × 44 0 × 5F 0 × 5F 0 × 40 F A D_ _ @
Nach dem Darstellen der Phoneme durch ein Symbol können die Leerstellen zwischen den Einheiten entfernt werden. Auch die Leerstelle zwischen der Textfolge und der abgebildeten und ausgerichteten Phonemsequenz kann entfernt werden, da es eine gleiche Anzahl von Einheiten in beiden Sequenzen gibt und es klar ist, welche Zeichen zum Text gehören und welche zu der phonetischen Repräsentation.
Ausgerichteter und abgebildeter Eintrag
fatherAD_@
Das Abbilden der Phonemeinheiten zu einzelnen Symbolen (202) ist ein wichtiger Schritt die Verschachtelung, da die Leerzeichen vermieden werden können. Das Abbilden verbessert das Endergebnis in sich auch weiter, da einzelne Zeichen weniger Platz einnehmen im Vergleich zu zum Beispiel Zwei-Zeichenkombinationen, und die Korrelation des korrespondierenden Textzeichens wird gesteigert. Die Reihenfolge des Ausrichtens (200) und des Abbildens (202) beeinflusst nicht das Endergebnis, das Abbilden (202) kann auch vor dem Ausrichten durchgeführt werden.
Die Abbildungstabelle ist nur abhängig von dem in dem Aussprachelexikon verwendeten Phonemnotationsverfahren. Es kann so implementiert sein, dass es sprachenabhängig ist, so dass verschiedene Systeme oder Implementierungen für unterschiedliche Dialekte oder Sprachen nicht erforderlich sind. Falls eine Mehrzahl von Aussprachelexika in verschiedenen Phonemnotationsverfahren benutzt würde, bestände ein Bedarf für separate Abbildungstabellen für jedes Phonemnotationsverfahren.
Nach dem Ausrichten (200) und Abbilden (202) werden die Einträge verschachtelt (204). Da das Zeichen → Phonemmuster eine höhere Wahrscheinlichkeit (geringe Entropie) als das fortlaufende Buchstabenmuster, insbesondere dann, wenn die Ausrichtung optimal ausgeführt worden ist, wird die Redundanz erhöht. Dies kann durch Einfügen von Aussprachephonemen zwischen die Buchstaben des Wortes gemacht werden, um ein einzelnes Wort zu bilden. Mit anderen Worten, die Phonemeinheiten werden neben die korrespondierenden Zeicheneinheiten eingefügt. Nach dem Ausrichten (200) haben die Textsequenz und die Phonemsequenz eine gleiche Anzahl von Symbolen, und das Zeichen-Phonempaar ist leicht zu finden. Zum Beispiel:

Textsequenz Phonemsequenz Verschachtelter Eintrag

father FAD_ _@ ffaAtDh_e_e@

in welcher kursive und fette Symbole für Aussprachephoneme stehen. Aus dem Beispiel wird deutlich, dass das Zusammenbringen und Zerlegen eines Eintrags zwischen die ursprünglichen und neuen Formate eindeutig definiert ist, die Textsequenz und die Phonemsequenz, die verschachtelt sind, eine gleiche Anzahl von Einheiten enthalten.
Nach der Vorbearbeitung kann die Komprimierung (206) des vorbearbeiteten Phonemlexikons durchgeführt werden.
3 zeigt das Graphem HMM zum Ausrichten der inhaltlichen und phonetischen Repräsentationen eines Eintrags.
Das Hidden Markov Modell (HMM) ist ein allgemein bekanntes und weit verbreitetes statistisches Verfahren, das zum Beispiel in der Spracherkennung angewendet wurde. Diese Modelle werden auch als Markov-Quellen oder Wahrscheinlichkeitsfunktionen der Markovkette bezeichnet. Die dem HMM unterliegende Vermutung ist, dass ein Signal gut als ein parametrischer Zufallsprozess gekennzeichnet werden kann und dass die Parameter des stochastischen Prozesses in einer präzisen, gut definierten Weise bestimmt/geschätzt werden können. Die HMMs können in diskrete und kontinuierliche Modelle klassifiziert werden, je nachdem, ob jedem Zustand zugewiesene, zu beobachtende Ereignisse diskret sind, Kodewörter, oder ob sie kontinuierlich sind. In beiden Fällen ist die Beobachtung probalistisch. Das Modell in dem zugrunde liegenden stochastischen Prozess ist nicht direkt beobachtbar (es ist verborgen), es kann aber nur durch eine andere Gruppe von stochastischen Prozessen sichtbar werden, welche die Sequenz von Beobachtungen produzieren. Das HMM wird aus unsichtbaren Zuständen mit einem Übergang zwischen den Zuständen zusammengesetzt. Die mathematische Darstellung umfasst drei Dinge: Zustandsübergangswahrscheinlichkeit zwischen den Zuständen, Beobachtungswahrscheinlichkeit jedes Zustands und Anfangszustandsverteilung. Bei einem gegebenen HMM und einer Beobachtung wird der Viterbi Algorithmus verwendet, um die Beobachtungszustands-Ausrichtung durch Verfolgung des besten Weges zu geben.
Es wird in der vorliegenden Erfindung bestätigt, dass das HMM dazu verwendet werden kann, das Problem einer optimalen Ausrichtung einer Beobachteten Sequenz mit den Zuständen des Hidden Markov Modell zu lösen. Darüber hinaus kann der Viterbi Algorithmus in Verbindung mit dem HMM dazu verwendet werden, die optimale Ausrichtung zu finden. Mehr Informationen über die Hidden Markov Modelle und ihre Anwendungen sind zu finden zum Beispiel in dem Buch „Speech Recognition System Design and Implementation Issues", Seiten 322-342.
Zuerst werden für ein gegebenes Buchstaben-Phonempaar die Gewichtungen p(f|ll) mit Null eröffnet, falls das Phonem f in der Liste der zugelassenen Phoneme des Buchstaben l gefunden werden kann, andernfalls werden sie mit großen positiven Werten eröffnet. Mit den anfänglichen Gewichtungswerten wird das Lexikon in zwei Schritten ausgerichtet. Im ersten Schritt werden alle möglichen Ausrichtungen für jeden Eintrag im Lexikon erzeugt. Basierend auf all den ausgerichteten Einträgen werden die Gewichtungswerte dann nachbewertet. In dem zweiten Schritt wird nur eine einzige beste Ausrichtung für jeden Eintrag gefunden.
Für jeden Eintrag wird die optimale Ausrichtung mit dem Viterbi Algorithmus auf dem Graphem HMM gefunden. Das Graphem HMM hat den Eintrag (ES), einen Ausgang (EXS) und Buchstabenzustände (S1, S2 und S3). Die Buchstaben, die zu Pseudophonemen abgebildet werden können, werden gehandhabt als hätten sie einen Dauerzustand (EPS). Die Zustände 1 bis 3 (S1, S2, S3) sind Zustände, die den Buchstaben in dem Wort entsprechen. Der Zustand 2 (S2) entspricht einem Buchstaben, der ein Pseudophonem produzieren kann. Sprünge von allen vorherigen Zuständen zum gegenwärtigen Zustand sind erlaubt, um die phonemischen Epsilons zu unterstützen.
Jeder Zustand und der Dauerzustand halten einen Token, der eine kumulative Gewichtung (als Summe logarithmischer Wahrscheinlichkeiten) der Ausrichtung der Phonemsequenz gegenüber dem Graphem HMM und den Zustandssequenzen, die der kumulativen Wertung entsprechen, enthält. Die Phonemsequenz wird gegenüber Buchstaben abgestimmt, indem phonemweise vom Beginn zum Ende durch die Phonemsequenz hindurchgegangen wird. Um die Viterbi-Ausrichtung zwischen den Buchstaben und den Phonemen zu finden, wird ein Token-Durchgang ausgeführt. Wenn die Token von einem Zustand zu einem anderen gelangen, nehmen sie die Gewichtung jedes Zustands auf. Das Passierenlassen von Token kann auch das Abspalten von Token und Kombinieren oder Auswählen von Token, um in den nächsten Zustand einzutreten, umfassen. Der Token, der am Ende den geringsten kumulativen Strafwert hat, befindet sich über allen Zuständen des HMM. Basierend auf der Zustandssequenz des Token kann die Ausrichtung zwischen den Buchstaben des Wortes und der Phoneme bestimmt werden.
Die Ausrichtung arbeitet für die meisten Einträge richtig, es gibt aber einige spezielle Einträge, die nicht ausgerichtet werden können. In solchen Fällen wird eine andere einfache Ausrichtung angewendet: graphemische oder phonemische Epsilons werden dem Ende der Buchstaben- oder Phonemsequenzen hinzugefügt.
4 zeigt in größerem Detail die Vorbearbeitung des als ein Beispiel gemäß einer bevorzugten Ausführungsform der Erfindung verwendeten Eintrags.
Der ursprüngliche Eintrag (400) hat die zwei Teile, eine Textsequenz 'father' und eine Phonemsequenz 'f A: D @'. Diese zwei Sequenzen sind mit einem Leerzeichen getrennt und auch die Phonemeinheiten sind mit Leerzeichen getrennt.
Beim Ausrichten (402) werden die phonemischen und graphemischen Epsilons hinzugefügt, um eine gleiche Anzahl von Einheiten in beiden Sequenzen zu haben. In dem Beispielwort werden zwei phonemische Epsilons benötigt, und das Ergebnis der Phonemsequenz lautet 'f A: D ε ε @'.
Das Abbilden (404) der Phonemeinheiten in eine Symboldarstellung verändert nur die Phonemsequenz. Nach dem Abbilden lautet die Phonemsequenz des Beispielwortes 'f A D _ _@'.
Wenn der Eintrag abgebildet wird (404) ist es möglich, die Leerzeichen (406) zu entfernen. Daraus ergibt sich eine Folge 'fatherfAD_@'.
Der letzte Schritt ist die Verschachtelung (408), und der Beispieleintrag lautet 'ffaAtDh_e_r@'. Nun kann der Eintrag weiter bearbeitet werden, zum Beispiel kann er komprimiert werden.
All diese Schritte sind in größerem Detail in 2 beschrieben.
Das oben beschriebene Vorbearbeitungsverfahren, einschließlich auch der Abbildung (202), wurde experimentell getestet. Das Experiment wurde unter Verwendung des Carnegie Mellon University Pronouncing Dictionary durchgeführt, welches ein Aussprachelexikon für nordamerikanisches Englisch ist, das mehr als 100.000 Worte und ihre Lautschriften enthält. In dem Experiment wurde die Leistungsfähigkeit zuerst durch Verwenden typischer auf Lexika basierender Komprimierungsverfahren, LZ77 und LZW, und eines auf Statistik basierenden Komprimierungsverfahrens, der arithmetischen Komprimierung zweiter Ordnung, ausgewertet.
Die Leistungsfähigkeit wurde dann mit dem Bearbeitungsverfahren zusammen mit den Komprimierungsverfahren (LZ77, LZW und Arithmetik) getestet. In Tabelle 1 zeigen die Ergebnisse, in Kilobytes angegeben, dass das Bearbeitungsverfahren in allen Fällen besser abschneidet. Ganz allgemein kann es mit jeden Komprimierungsalgorithmen verwendet werden. Tabelle 1: Komprimierungs-Leistungsvergleich, getestet unter Verwendung des CMU Englisch-Aussprachelexikons. Die Ergebnisse sind in Kilobytes angegeben.

Verfahren Vorkomprimierung Komprimierung ohne Vorbearbeitung Komprimierung mit Vorbearbeitung Verbesserung

LZ77 2580 1181 940 20,4%

LZW 2580 1315 822 37,5%

Arithmetik 2580 899 501 44,3%
Wie wir aus Tabelle 1 ersehen können, verbessert die Vorbearbeitung die Komprimierung mit allen Komprimierungsverfahren. Kombiniert mit dem LZ77 Komprimierungsverfahren verbesserte die Vorbearbeitung die Komprimierung mit über 20%. Die Verbesserung ist sogar größer, wenn die Vorbearbeitung mit dem LZW-Verfahren oder mit dem Arithmetik-Verfahren kombiniert wurde, was eine etwa um 40% bessere Komprimierung lieferte.
Es sollte so zu verstehen sein, dass die Erfindung für jedes Universallexikon angewendet werden, das bei der Spracherkennung oder Sprachsynthese oder all die Anwendungen, bei denen ein Aussprachelexikon mit effizienter Speichernutzung gespeicherte werden muss, verwendet wird. Es ist auch möglich, die Erfindung für die Komprimierung jeder anderen Liste mit Gruppen von Texteinträgen anzuwenden, die eine hohe Korrelation zu dem Zeichenlevel haben, zum Beispiel übliche Wörterbücher, die alle Formen eines Wortes zeigen und Spell-Checkerprogramme.
5 zeigt eine elektronische Vorrichtung (ED), nur in den Teilen, die für eine bevorzugte Ausführungsform der Erfindung relevant sind. Die elektronische Vorrichtung (ED) kann zum Beispiel eine PDA-Vorrichtung, ein mobiles Endgerät, ein Personalcomputer (PC) oder sogar irgendeine Zubehöreinrichtung sein, die für die Verwendung mit diesen vorgesehen ist, zum Beispiel ein intelligentes Headset oder eine Fernsteuereinrichtung. Die elektronische Vorrichtung (ED) umfasst eine I/O-Einrichtung (IO), eine zentrale Bearbeitungseinheit (PRO) und einen Speicher (ME). Der Speicher (ME) umfasst einen schreibgeschützten ROM-Bereich und einen wieder beschreibbaren Bereich, wie einen Speicher mit wahlfreiem Zugriff RAM und einen FLASH-Speicher. Die für die Kommunikation mit verschiedenen externen Beteiligten, zum Beispiel dem Netzwerk, anderen Vorrichtungen oder dem Benutzer, verwendete Information wird durch die I/O-Einrichtung (IO) zu der Zentralbearbeitungseinheit (PRO) und von dieser aus übertragen. Die Benutzerschnittstelle, wie ein Mikrofon oder eine Tastatur, die es ermöglichen, eine Zeichensequenz in die Vorrichtung einzugeben, ist somit Teil der I/O-Einrichtung (IO). Ein vorbearbeitetes Aussprachelexikon kann von der Datenbearbeitungseinrichtung (TE) in die elektronische Vorrichtung (ED) durch die I/O-Einrichtung (IO), zum Beispiel als Download von dem Netzwerk heruntergeladen werden. Das Lexikon wird dann in dem Speicher (ME) für die weitere Verwendung gespeichert.
Die in den 6 und 7 gezeigten Schritte können mit einem Computerprogrammkode implementiert sein, der in der zentralen Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) ausgeführt wird. Das Computerprogramm kann in die zentrale Bearbeitungseinheit (PRO) durch die I/O-Einrichtung (IO) geladen werden. Die Implementierung kann auch mit einer Hardwarelösung (zum Beispiel ASIC) oder mit einer Kombination von diesen beiden durchgeführt werden. Gemäß einer bevorzugten Ausführungsform wird das in dem Speicher (ME) der Vorrichtung (ED) gespeicherte Phonemlexikon vorbearbeitet, wie dies in 2 beschrieben ist.
In 6 empfängt die zentrale Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) eine Textfolgeeingabe, die in ein Aussprachemodell umgewandelt werden muss. Die eingegebene Textfolge kann zum Beispiel ein Name sein, den der Benutzer unter Verwendung I/O-Einrichtung (IO) einer Kontaktdatenbank der elektronischen Vorrichtung (ED) hinzugefügt hat. Zuerst muss ein übereinstimmender Eintrag in dem vorbearbeiteten Aussprachelexikon gefunden werden (600), der in dem Speicher (ME) gespeichert ist. Das Finden des übereinstimmenden Eintrag basiert auf einem Vergleich der eingegebenen Textfolge mit den Zeicheneinheiten der Einträge. Weil die Einträge verschachtelt sind, ist eine Eintragsfolge eine Kombination aus Zeichen- und Phonemeinheiten. Falls die Verschachtelung entsprechend der in 2 beschriebenen bevorzugten Ausführungsform erfolgt ist, wird, wenn die eingegebene Folge mit dem Eintrag verglichen wird, nur jede zweite Einheit verwendet. Die Zeicheneinheiten des Eintrags können durch Auswählen von ungeraden Einheiten gefunden werden, startend mit der ersten. Der Vergleich wird mit der ursprünglichen Zeichenfolge des Eintrags durchgeführt, und deshalb werden leere Stellen, zum Beispiel graphemische Epsilons, ignoriert. Es gibt mehrere Verfahren und Algorithmen zum Finden des übereinstimmenden Eintrags, die einem Fachmann als solche bekannt sind, und es gibt keinen Bedarf, diese hier zu beschreiben, da sie nicht Teil der Erfindung sind. Wenn die Zeicheneinheiten mit den Einheiten der eingegebenen Textfolge exakt übereinstimmen, ist der überstimmende Eintrag gefunden. Es sollte jedoch so zu verstehen sein, dass es in einigen Anwendungen vorteilhaft sein könnte, einen nicht genau übereinstimmenden Algorithmus anstelle zum Beispiel eines sogenannte Wildcards Nutzenden zu verwenden.
Wenn der übereinstimmende Eintrag gefunden ist, werden die Phonemeinheiten des Eintrags ausgewählt (602). Wegen der Verschachtelung (erfolgt entsprechend der in 2 beschriebenen bevorzugten Ausführungsform) wird jede zweite Einheit der Eintragsfolge verwendet. Um die Phonemeinheiten zu bestimmen, wird die Auswahl von der zweiten Einheit aus gestartet. Die ausgewählten Einheiten können dann verkettet werden, um die Sequenz von Phonemeinheiten zu erzeugen.
Wenn die Einheiten ausgerichtet sind, kann die Sequenz von Phonemeinheiten Leerstellen umfassen, zum Beispiel phonemische Epsilons. Die Leerstellen werden entfernt, um eine Sequenz bestehend nur aus Phonemen (604) zu erzeugen.
Falls die Vorbearbeitung des Phonemlexikons auch ein Abbilden umfasst, wird eine Umkehrabbildung benötigt (606). Das umgekehrte Abbilden kann unter Verwendung einer ähnlichen Abbildungstabelle, wie derjenigen, die während der Vorbearbeitung verwendet wurde, aber in umgekehrter Reihenfolge durchgeführt werden. Dieser Schritt verändert das erste Darstellungsverfahren, zum Beispiel eine Zeichendarstellung, der Phonemeinheiten in dem zweiten Darstellungsverfahren, zum Beispiel SAMPA, das in dem System verwendet wird.
Wenn die Sequenz von Phonemeinheiten erzeugt wird, wird diese typischerweise weiterbearbeitet, zum Beispiel wird ein Aussprachemodell der Sequenz erzeugt. Gemäß einer Ausführungsform wird ein Aussprachemodell für jedes Phonem unter Verwendung zum Beispiel eines HMM-Algorithmus erzeugt. Die Phonem-Aussprachemodelle werden in dem Speicher (ME) gespeichert. Um ein Aussprachemodell eines Eintrags zu erzeugen, wird ein Aussprachemodell für jedes Phonem der Phonemsequenz aus dem Speicher (608) zurückgeladen. Diese Phonemmodelle werden dann verkettet (610), und das Aussprachemodell für die Phonemsequenz wird erzeugt.
Das Umwandeln einer Textfolgeeingabe in ein oben beschriebenes Aussprachemodell kann auch zwischen zwei elektronischen Vorrichtungen verteilt werden. Zum Beispiel wird das vorbearbeitete Lexikon in der ersten elektronischen Vorrichtung, zum Beispiel in Netzwerk gespeichert, in welchem das Auffinden eines übereinstimmenden Eintrags (600) durchgeführt wird. Der übereinstimmende Eintrag wird dann zu der zweiten elektronischen Vorrichtung erschickt, zum Beispiel einem mobilen Endgerät, in welchem der Rest des Prozesses (Schritte 602 bis 610) durchgeführt wird.
7 zeigt eine bevorzugte Ausführungsform einer Umwandlung einer Sprachinformation in eine Sequenz von Zeicheneinheiten in einer elektronischen Vorrichtung (ED), die ein vorbearbeitetes Aussprachelexikon verwendet. Die zentrale Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) empfängt eine Sprachinformationseingabe über die I/O-Einrichtung (IO). Diese Sprachinformation muss in eine Sequenz aus Zeicheneinheiten für die weitere Verwendung umgewandelt werden, zum Beispiel um diese als Text auf dem Display anzuzeigen oder um diese mit einer Textfolge eines vorbestimmten Sprachbefehls einer sprachgesteuerten Vorrichtung zu vergleichen.
Das Auffinden eines übereinstimmenden Eintrags (702) basiert auf einem Vergleich der eingegebenen Sprachinformation mit den Aussprachemodellen jedes Eintrags in dem Aussprachelexikon. Deshalb wird vor dem Vergleich die Aussprache jedes Eintrags modelliert (700). Gemäß einer bevorzugten Ausführungsform werden die Modelle in der elektronischen Vorrichtung (ED) erzeugt. Das Phonemlexikon ist bereits verschachtelt und ausgerichtet, so dass das Modellieren, wie in 6 beschrieben, den Schritten 602 bis 610 folgend durchgeführt werden kann. Wenn das Modellieren in der elektronischen Vorrichtung (ED) durchgeführt wird, ist der Bedarf an Bearbeitungskapazität und Arbeitsspeicher erhöht. Stattdessen kann der Speicherverbrauch zum Speichern des Aussprachelexikons niedrig gehalten werden.
Gemäß einer zweiten bevorzugten Ausführungsform werden die Modelle vor dem Vorbearbeiten des Aussprachelexikons in der Datenbearbeitungsvorrichtung (TE) erzeugt. Das Modellieren kann, wie in 6 beschrieben, den Schritten 608 bis 610 folgend durchgeführt werden. Weil das Modellieren vor dem Vorbearbeiten durchgeführt wird und das Lexikon noch nicht verschachtelt, ausgerichtet oder abgebildet ist, werden die Schritte 602 bis 606 nicht benötigt. Die Aussprachemodell wird dann in dem Speicher (MEM) zusammen mit dem Eintrag gespeichert. Wenn das Lexikon zu der elektronischen Vorrichtung (ED) übertragen wird, werden auch die Modelle übertragen. In dieser Lösung wird weniger Bearbeitungskapazität und Arbeitsspeicher für das Umwandeln von Sprachinformation in eine Textsequenz benötigt. Stattdessen wird der Speicherverbrauch des Speichers (ME) erhöht.
Das Auffinden eines übereinstimmenden Eintrags (702) wird unter Verwendung der eingegebenen Sprachinformation und der Aussprachemodelle der Einträge durchgeführt, die in dem Speicher (ME) gespeichert sind. Die Sprachinformation wird mit jedem Eintrag verglichen, und eine Wahrscheinlichkeit, wie gut die eingegebene Sprachinformation mit jedem Aussprachemodell eines Eintrags übereinstimmt, wird berechnet. Nach dem Berechnen der Wahrscheinlichkeiten kann der übereinstimmende Eintrag durch Auswahl des Eintrags mit der höchsten Wahrscheinlichkeit gefunden werden.
Die Zeicheneinheiten werden dann aus dem übereinstimmenden Eintrag (704) ausgewählt. Wegen der Verschachtelung, die so erfolgt, wie dies in 2 beschrieben ist, wird jede zweite Einheit der Eintragsfolge verwendet. Das Auswählen muss von der ersten Einheit aus starten, um die Zeicheneinheiten zu erhalten. Diese ausgewählten Einheiten können dann verkettet werden, um eine Sequenz aus graphemischen Einheiten zu bilden.
Wegen des Ausrichtens kann die Sequenz der graphemischen Einheiten Leerstellen umfassen, zum Beispiel graphemische Epsilons. Um eine Sequenz zu erzeugen, die nur Grapheme aufweist, werden Leerstellen entfernt (706). Als Ergebnis haben wir eine Textfolge, die in dem System weiter verwendet werden kann.
Eine elektronische Vorrichtung, zum Beispiel ein Mobiltelefon mit einer Fahrzeugnutzerschnittstelle, hat eine sprecherunabhängige Spracherkennung für Sprachbefehle. Jeder Sprachbefehl ist ein Eintrag in dem Aussprachelexikon. Der Benutzer möchte während des Fahrens einen Anruf tätigen. Wenn die Spracherkennung aktiv ist, sagt der Benutzer 'CALL'. Das Telefon empfängt den Sprachbefehl mit einem Mikrofon und überträgt die Sprachinformation über die I/O-Einrichtung an die zentrale Bearbeitungseinheit. Die zentrale Bearbeitungseinheit wandelt die Spracheingabe in eine Textsequenz um, wie dies in 7 beschrieben ist. Die Textsequenz wird über die I/O-Einrichtung zu dem Display übertragen, um dem Benutzer eine Rückkopplung von dem zu geben, was die Vorrichtung gerade macht. Neben dem Text auf dem Schirm gibt die Vorrichtung auch eine Audio-Rückkopplung. Das Aussprachemodell des übereinstimmenden Eintrags, welches als ein Teil des Sprache-in-Text-Umwandlungsprozess erzeugt wurde, wird über die I/O-Einrichtung zu dem Lautsprecher übertragen. Das Telefon führt dann den Anruf der Nummer durch, welche der Benutzer ausgewählt hat.
Figurenbeschreibung
2

Aligning 200 = Ausrichten 200
Mapping 202 = Abbilden 202
Interleaving 204 = Verschachteln 204
Compressing 206 = Komprimieren 206

4

Original Entry 400 = Ursprünglicher Eintrag 400
Aligned Entry 402 = Ausgerichteter Eintrag 402
Mapped Entry 404 = Abgebildeter Eintrag 404
Spaces removed 406 = Leerstellen entfernt 406
Interleaved Entry 408 = Verschachtelter Eintrag 408

6

Text string = Textfolge
Find the match entry 600 = Finde den übereinstimmenden Eintrag 600
Select the phoneme units 602 = Wähle die Phonemeinheiten 602
Remove phonemic epsilons 604 = Entferne phonemische Epsilons 604
Reversed mapping 606 = Umgekehrtes Abbilden 606
Pick phoneme models 608 = Nehme Phonemmodelle 608
Concatenate phonemes 610 = Verkette Phoneme 610
Pronunciation model = Aussprachemodell

7

Pronunciation dictionary = Aussprachelexikon
Create the pronunciation 700 = Erzeuge die Aussprachemodels Modelle 700
Speech information = Sprachinformation
Find the match entry 702 = Finde den übereinstimmendenEintrag 702
Select the character 704 = Wähle die Zeicheneinheitenunits 704
Remove graphemic epsilons 706 = Entferne graphemische Epsilons 706
Character sequence = Zeichensequenz

Claims

Verfahren zum Vor-Verarbeiten eines Aussprache-Wörterbuchs zur Kompression in einer Daten-Verarbeitungsvorrichtung, wobei das Aussprache-Wörterbuch wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeicheneinheiten und eine Sequenz von Phonem-Einheiten aufweist, dadurch gekennzeichnet, dass das Verfahren die Schritte aufweist: Ausrichten (200) der Sequenz von Zeicheneinheiten und der Sequenz von Phonem-Einheiten unter Verwendung eines statistischen Algorithmus; und Verschachteln (204) der ausgerichteten Sequenz von Zeicheneinheiten und der ausgerichteten Sequenz von Phonem-Einheiten durch Einfügen jeder Phonem-Einheit an einer vorbestimmten Stelle bezüglich der entsprechenden Zeicheneinheit.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der statistische Algorithmus einen HMM-Viterbi Algorithmus einsetzt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Phonem-Einheiten neben den entsprechenden Zeichen-Einheiten angeordnet sind.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die ausgerichtete Sequenz von Zeicheneinheiten und die ausgerichtete Sequenz von Phonem-Einheiten gemacht sind, um eine gleiche Anzahl von Einheiten aufzuweisen, durch Einsetzen graphischer bzw. graphemischer Epsilons in die Sequenz von Zeicheneinheiten und/oder phonemischer Epsilons in die Sequenz von Phonem-Einheiten.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Zeicheneinheiten Buchstaben oder Abstandszeichen sind.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Phonem-Einheiten Buchstaben oder Abstandszeichen sind, die ein einzelnes Phonem oder ein phonemisches Epsilon darstellen und wobei eine Einheit bezeichnet ist mit wenigstens einem Zeichen.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das Verfahren die Schritte aufweist: Abbilden (202) jeder Phonem-Einheit in ein Symbol.
Elektronische Vorrichtung, konfiguriert, um eine Text string-Eingabe in eine Sequenz von Phonem-Einheiten umzuwandeln, gekennzeichnet durch Aufweisen: einer Einrichtung zum Speichern eines komprimierten und vor- verarbeitetem Aussprache-Wörterbuchs aufweisend Einheiten, wobei die Einheiten wenigstens eine Gruppe von Einheiten aufweisen, die Zeichen-Einheiten aufweisen und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe ausgerichtet (200) und verschachtelt (204) sind durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeicheneinheit; einer Einrichtung zum Auffinden eines übereinstimmenden Eintrags für die Text string-Eingabe aus dem vor-verarbeiteten Aussprache-Wörterbuch unter Verwendung der ersten Gruppe von Einheiten des Eintrags aus vorbestimmten Orten; einer Einrichtung zum Auswählen von dem übereinstimmenden Eintrag von Einheiten der zweiten Gruppe von Einheiten aus vorbestimmten Orten und Verketten dieser in eine Sequenz von Phonem-Einheiten; einer Einrichtung zum Entfernen von Leerräumen aus der Sequenz von Phonem-Einheiten.
Elektronische Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, dass die elektronische Vorrichtung ein mobiles Endgerät in einem mobilen Kommunikationssystem ist.
Elektronische Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, dass sie ferner aufweist: eine Einrichtung zum Abbilden jeder Phonem-Einheit aus einem ersten phonemischen Darstellungsverfahren in ein zweites phonemisches Darstellungsverfahren.
Elektronische Vorrichtung, konfiguriert, um eine Sprachinformations-Eingabe in eine Sequenz von Zeicheneinheiten zu wandeln, gekennzeichnet durch Aufweisen: einer Einrichtung zum Speichern eines komprimierten und vor-verarbeiteten Aussprache-Wörterbuchs, das Einträge aufweist, wobei die Einträge eine erste Gruppe von Einträgen aufweisen, die Zeicheneinheiten aufweisen und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe ausgerichtet und verschachtelt sind durch Einsetzen jeder Phonem-Einheit an einen vorbestimmten Ort relativ zu den entsprechenden Zeicheneinheiten; einer Einrichtung zum Speichern oder Erzeugen von Aussprache Modellen der phonemischen Darstellung jedes Eintrags; einer Einrichtung zum Auffinden eines übereinstimmenden Eintrags für die Sprachinformation durch Vergleichen der Sprachinformation mit den Aussprache-Modellen und Auswählen des nächst kommenden Eintrags; einer Einrichtung zum Auswählen von dem übereinstimmenden Eintrag von Einheiten der ersten Gruppe von Einheiten von vorbestimmten Orten und Verketten dieser in eine Sequenz von Zeicheneinheiten; einer Einrichtung zum Entfernen von Leerräumen von der Sequenz von Zeicheneinheiten.
System aufweisend eine erste elektronische Vorrichtung und eine zweite elektronische Vorrichtung, die angeordnet sind in einer Kommunikationsverbindung miteinander, wobei das System konfiguriert ist, eine Text string-Eingabe in eine Sequenz von phonetischen Einheiten zu wandeln, dadurch gekennzeichnet, dass die erst elektronische Vorrichtung eine Einrichtung aufweist zum Speichern eines komprimierten und vor-verarbeiteten Aussprache-Wörterbuchs, das aufweist Einheiten, wobei die Einheiten ausgerichtet und verschachtelt sind durch Einsetzen jeder Phonem-Einheit an einem vorbestimmten Ort relativ zu der entsprechenden Zeichen-Einheit, wobei die Einheiten eine erste Gruppe von Einheiten aufweisen, die Zeichen-Einheiten aufweisen, und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen; wobei die erste elektronische Vorrichtung eine Einrichtung zum Auffinden eines übereinstimmenden Eintrags für die Text string-Eingabe von dem vor-verarbeiteten Aussprache-Wörterbuch aufweist, unter Verwendung der ersten Gruppe von Einheiten des Eintrags; die erste elektronische Vorrichtung eine Einrichtung aufweist zum Übertragen des übereinstimmenden Eintrags an die zweite elektronische Vorrichtung; die zweite elektronische Vorrichtung eine Einrichtung aufweist zum Empfangen des übereinstimmenden Eintrags von der ersten elektronischen Vorrichtung; die zweite elektronische Vorrichtung aufweist eine Einrichtung zum Auswählen von dem übereinstimmenden Eintrag von Einheiten der zweiten Gruppe von Einheiten und Verketten dieser in einer Sequenz von Phonem-Einheiten; die zweite elektronische Vorrichtung eine Einrichtung aufweist zum Entfernen von Leerräumen von der Sequenz von Phonem-Einheiten.
Computer-Programm Produkt, ladefähig in den Speicher einer Daten-Verarbeitungsvorrichtung gekennzeichnet durch Aufweisen eines Codes, der ausführbar ist in einer Daten-Verarbeitungsvorrichtung, welche die Datenverarbeitungsvorrichtung veranlasst: aus dem Speicher ein Aussprache-Wörterbuch aufzurufen, das wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeicheneinheiten aufweist und eine Sequenz von Phonem-Einheiten; die Sequenz der Zeichen-Einheiten und der Sequenz der Phonem-Einheiten unter Verwendung eines statistischen Algorithmus auszurichten (200); und die ausgerichtete Sequenz von Zeichen-Einheiten und die ausgerichtete Sequenz von Phonem-Einheiten zu verschachteln durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeichen-Einheit.
Computer-Programm Produkt, ladefähig in den Speicher einer elektronischen Vorrichtung, gekennzeichnet durch Aufweisen eines Codes, der ausführbar ist in der elektronischen Vorrichtung und die elektronische Vorrichtung veranlasst: aus dem Speicher ein vor-verarbeitetes Aussprache-Wörterbuch aufzufinden bzw. aufzurufen, das Einträge aufweist, wobei die Einträge eine erste Gruppe von Einheiten aufweist, die Zeichen-Einheiten aufweisen, und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen, wobei die erste Gruppe von Einheiten und die zweite Gruppe von Einheiten ausgerichtet und verschachtelt sind durch Einsetzen jeder Phonem-Einheit einer vorbestimmten Stelle relativ zu der entsprechenden Zeichen-Einheit; auffinden (600) eines übereinstimmenden Eintrags aus dem vor-verarbeiteten Aussprache-Wörterbuch für eine Text string-Eingabe unter Verwendung der ersten Gruppe von Einheiten des Eintrags aus den vorbestimmten Stellen und Ignorieren von Leerräumen; auswählen (602) von dem übereinstimmenden Eintrag der Einheiten der zweiten Gruppe von Einheiten von den vorbestimmten Stellen und Verketten dieser in eine Sequenz von Phonem-Einheiten; und Entfernen (604) von Leerräumen aus der Sequenz von Phonem-Einheiten.
Computer-Programm Produkt, ladefähig in den Speicher einer elektronischen Vorrichtung, gekennzeichnet durch Aufweisen eines Codes, der ausführbar ist in der elektronischen Vorrichtung, welche die elektronische Vorrichtung veranlasst: aus dem Speicher ein vor-verarbeitetes Aussprachewörterbuch aufzurufen, das Einträge aufweist, wobei die Einträge eine erste Gruppe von Einträgen aufweisen, die Zeicheneinheiten aufweisen und eine zweite Gruppe von Einheiten aufweisen, die Phonem-Einheiten aufweisen, wobei die erste Gruppe von der Einheit und die zweite Gruppe der Einheit ausgerichtet sind und verschachtelt durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeichen-Einheit; speichern oder Erzeugen (700) von Aussprache-Modellen der phonemischen Darstellung jedes Eintrags; auffinden (702) eines übereinstimmenden Eintrags für jede Sprachinformation durch Vergleichen der Sprachinformation mit den Aussprachemodellen und Auswählen des nächstkommenden Eintrags; auswählen aus dem übereinstimmenden Eintrag der Einheiten der ersten Gruppe von Einheiten von den vorbestimmten Stellen und Verketten dieser in eine Sequenz von Zeichen-Einheiten; entfernen (706) von Leerräumen aus der Sequenz von Zeichen-Einheiten.
Daten-Verarbeitungsvorrichtung aufweisend einen Speicher zum Speichern eines Aussprachewörterbuchs, das wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeichen-Einheiten aufweist und eine Sequenz von Phonem-Einheiten, dadurch gekennzeichnet, dass die Vorrichtung aufweist: eine Einrichtung zum Auffinden aus dem Speicher eines Aussprachewörterbuchs, das wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeichen-Einheiten oder eine Sequenz von Phonem-Einheiten aufweist; eine Einrichtung zum Ausrichten der Sequenz von Zeichen-Einheiten und der Sequenz von Phonem-Einheiten unter Verwendung eines statistischen Algorithmus; eine Einrichtung zum Verschachteln der ausgerichteten Sequenz von Zeichen-Einheiten und der ausgerichteten Sequenz von Phonem-Einheiten durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stell bezüglich der entsprechenden Zeichen-Einheit