-
Hintergrund der Erfindung
-
Die
Erfindung bezieht sich auf eine sprecherunabhängige Spracherkennung und genauer
auf die Komprimierung eines Aussprachelexikons.
-
Verschiedene
Einsatzgebiete für
die Spracherkennung wurden während
der letzten Jahre entwickelt, zum Beispiel Fahrzeugnutzer-Schnittstellen
und mobile Endgeräte,
wie Mobiltelefone, PDA-Vorrichtungen und tragbare Computer. Bekannte
Verfahren für
mobile Endgeräte
umfassen Verfahren zum Anrufen einer bestimmten Person durch lautes
Aussprechen ihres Namens in das Mikrofon des mobilen Endgeräts und durch Aufbauen
eines Anrufs zu der Nummer entsprechend des durch den Benutzer gesagten
Namens. Gegenwärtige
sprecherunabhängige
Verfahren erfordern jedoch üblicherweise,
dass das Spracherkennungssystem trainiert wird, um die Aussprache
jedes Namens zu erkennen. Eine sprecherunabhängige Spracherkennung verbessert
die Nutzbarkeit einer sprachgesteuerten Benutzerschnittstelle, da
die Trainingsstufe weggelassen werden kann. Bei einer sprecherunabhängigen Namenauswahl
kann die Aussprache von Namen vorher gespeichert werden und kann
der durch den Benutzer gesprochene Name mit der vordefinierten Aussprache identifiziert
werden, wie beispielsweise durch eine Phonemsequenz. Obwohl in vielen
Sprachen die Aussprache vieler Worte durch Regeln oder sogar Modelle
dargestellt werden kann, kann die Aussprache einiger Worte nach
wie vor nicht korrekt durch diese Regeln oder Modelle erzeugt werden.
In vielen Sprachen jedoch kann die Aussprache nicht durch allgemeine
Ausspracheregeln dargestellt werden, sondern hat jedes Wort eine spezifische
Aussprache. In diesen Sprachen beruht die Spracherkennung auf der
Verwendung so genannter Aussprachelexika, in welchen eine geschriebene
Form jedes Wortes der Sprache und die phonetische Darstellung seiner
Aussprache in einer listenartigen Struktur gespeichert sind.
-
In
Mobiltelefonen ist die Speichergröße häufig aus Gründen der Kosten und der Hardwaregröße beschränkt. Dies
legt auch den Einsatzgebieten der Spracherkennung Beschränkungen
auf. In einer Vorrichtung, die geeignet ist, mehrere Sprachen für die Benutzerschnittstelle
zu haben, verwendet die Lösung
für die
sprecherunabhängige
Spracherkennung häufig
Aussprachelexika. Weil ein Aussprachelexikon üblicherweise groß ist, zum
Beispiel 37 KB für
zweitausend Namen, muss dieses für
die Speicherung komprimiert werden. Grob gesagt, fallen die meisten
Textkomprimierungsverfahren in zwei Klassen: lexikonbasiert und
statistikbasiert. Es gibt mehrere unterschiedliche Implementierungen
bei der lexikonbasierten Komprimierung, zum Beispiel LZ77/78 und
LZW (Lempel-Ziv-Welch).
Durch Kombinieren eines statistischen Verfahrens, zum Beispiel einer arithmetischen
Kodierung, mit leistungsfähigen
Modellbildungstechniken, kann eine bessere Leistungsfähigkeit
erreicht werden als mit lexikonbasierten Verfahren alleine. Das
Problem mit dem statistisch basierten Verfahren besteht jedoch darin,
dass dieses einen großen
Arbeitsspeicher (Puffer) während
des Dekomprimierungsverfahrens benötigt. Deshalb ist diese Lösung nicht
geeignet für
die Verwendung in kleinen tragbaren elektronischen Vorrichtungen,
wie mobilen Endgeräten.
Die Druckschrift
US-A-5,930,754 offenbart
ein Verfahren zum Bearbeiten eines Aussprachelexikons für die Komprimierung.
Das Aussprachelexikon besteht aus Orthografien paarweise zusammen
mit entsprechenden phonetischen Darstellungen. Die Sequenz von Buchstaben
ist mit ihrer entsprechenden Folge von Phonen ausgerichtet. Ein
neurales Netzwerk wird mit den ausgerichteten Sequenzen trainiert.
-
Obwohl
die bestehenden Komprimierungsverfahren allgemein gut sind, ist
die Komprimierung der Aussprachelexika nicht effizient genug für tragbare
Vorrichtungen.
-
Kurzbeschreibung der Erfindung
-
Die
Aufgabe der Erfindung ist, ein effizienteres Komprimierungsverfahren
zum Komprimieren eines Aussprachelexikons zu schaffen. Die Aufgabe
der Erfindung wird mit einem Verfahren, mit elektronischen Vorrichtungen,
einem System und Computerprogrammprodukten gelöst, die gekennzeichnet sind,
durch das, was in den unabhängigen
Ansprüchen
offenbart ist. Die bevorzugten Ausführungsformen der Erfindung
sind in den abhängigen
Ansprüchen
angegeben.
-
Gemäß einem
ersten Aspekt der Erfindung wird das Aussprachelexikon vor der Komprimierung
vorbearbeitet. Die Vorbearbeitung kann zusammen mit einem Verfahren
zum Komprimieren eines Lexikons verwendet werden. In der Vorbearbeitung
wird jeder Eintrag in das Aussprachelexikon unter Verwendung eines statistischen
Algorithmus ausgerichtet. Während
der Ausrichtung werden eine Sequenz von Zeicheneinheiten und eine
Sequenz von Phonemeinheiten so modifiziert, dass sie eine gleiche
Anzahl von Einheiten in den Sequenzen haben. Die ausgerichteten
Sequenzen von Zeicheneinheiten und von Nebeneinheiten werden dann verschachtelt,
so dass jede Phonemeinheit an einer vorbestimmten Stelle relativ
zu der entsprechenden Zeicheneinheit eingefügt wird.
-
Eine
Sequenz von Zeicheneinheiten ist typischerweise eine Buchstaben
enthaltende Textsequenz. In Abhängigkeit
von der Sprache kann der Alphabetsatz erweitert werden, so dass
dieser mehr Buchstaben oder Symbole enthält, als das herkömmliche
englische Alphabet.
-
Eine
Sequenz von Phonemeinheiten repräsentiert
die Aussprache des Wortes und sie enthält gewöhnlich Buchstaben und Symbole,
zum Beispiel '@','A:', '{'in SAMPA (Seeach Assessment Methods
Phonetic Alphabet)-Schreibweise. Das phonetische Alphabet kann auch
bestimmte nicht druckfähige
Zeichen enthalten. Weil ein Phonem mit mehr als einem Buchstaben
oder Symbol repräsentiert
werden kann, werden die Phoneme durch ein Leerzeichen getrennt.
-
Gemäß einem
zweiten Aspekt der Erfindung, wie im unabhängigen Anspruch 8 beansprucht,
ist eine elektronische Vorrichtung so konfiguriert, dass diese eine
Textfolge-Eingabe in eine Sequenz von Phonemeinheiten umwandelt.
Ein komprimiertes und vorbearbeitetes Aussprachelexikon mit Einträgen, wobei
die Einträge
eine erste Gruppe von Einheiten mit Zeicheneinheiten und eine zweite
Gruppe von Einheiten mit Phonemeinheiten umfassen, wobei die Einheiten
der ersten Gruppe und die Einheiten der zweiten Gruppe durch Einfügen jeder
Phonemeinheit an einer vorbestimmten Stelle in Bezug zu der entsprechenden
Zeicheneinheit ausgerichtet und verschachtelt sind, ist in dem Speicher
der Vorrichtung gespeichert. Ein übereinstimmender Eintrag für die Textfolgeeingabe
wird in dem vorbearbeiteten Aussprachelexikon gefunden, indem die
Einheiten der ersten Gruppe von Einheiten des Eintrags von dem vorbestimmten
Stellen verwendet werden. Aus dem übereinstimmenden Eintrag werden
Einheiten der zweiten Gruppe von Einheiten ausgewählt und
zu einer Folge von Phonemeinheiten verknüpft. Auch die Leerstellen aus
der Folge von Phonemeinheiten entfernt.
-
Gemäß einem
dritten Aspekt der Erfindung, wie dieser im unabhängigen Anspruch
11 beansprucht wird, ist eine elektronische Vorrichtung so konfiguriert,
dass diese eine Sprachinformations-Eingabe in eine Sequenz von Zeicheneinheiten
umwandelt. Ein komprimiertes und vorbearbeitetes Aussprachelexikon
mit Einträgen,
wobei die Einträge
eine erste Gruppe von Einheiten mit Zeicheneinheiten und eine zweite
Gruppe von Einheiten mit Phonemeinheiten umfassen, wobei die Einheiten
der ersten Gruppe und die Einheiten der zweiten Gruppe durch Einfügen jeder
Phonemeinheit an einer vorbestimmten Stelle in Bezug zu der korrespondierenden
Zeicheneinheit ausgerichtet und verschachtelt sind, ist in dem Speicher
der Vorrichtung gespeichert. Aussprachemodelle für jede phonetische Darstellung
des Eintrags sind entweder in dem Speicher zusammen mit dem Aussprachelexikon
gespeichert oder werden während
des Prozesses erzeugt. Ein übereinstimmender Eintrag
für die
Sprachinformation wird gefunden, indem die Sprachinformation mit
den Aussprachemodellen verglichen wird und der am besten korrespondierende
Eintrag gewählt
wird. Aus dem übereinstimmenden
Eintrag werden Einheiten der ersten Gruppe von Einheiten ausgewählt und
zu einer Folge von Zeicheneinheiten verkettet. Schließlich werden
die Leerstellen aus der Folge von Zeicheneinheiten entfernt.
-
Ein
Vorteil der Erfindung besteht daran, dass mit der beschriebenen
Bearbeitung die Entropie (H) des Lexikons vermindert wird. Gemäß der Informationstheorie
weist eine niedrige Entropierate (H) daraufhin, dass eine effektivere
Komprimierung erreicht werden kann, da die Entropierate die Untergrenze
für die
Komprimierung bestimmt (die Komprimierungsrate mit der bestmöglichen
verlustfreien Komprimierung). Dies ermöglicht eine bessere Komprimierung
und die Speicheranforderung ist kleiner. Darüber hinaus ist das Aussprachelexikon
relativ einfach und schnell für
die Spracherkennung anzuwenden.
-
In
einer Ausführungsform
der Erfindung ist der HMM-Viterbi Algorithmus so angepasst, dass
dieser für die
Ausrichtung verwendet werden kann. Der HMM-Viterbi Algorithmus gewährleistet,
dass die Ausrichtung in einer im statistischen Sinne optimalen Weise
durchgeführt
wird und somit die verbleibende Entropie des Lexikoneintrags minimiert.
Ferner besteht ein Vorteil der Verwendung des HMM-Viterbi Algorithmus
für die
Ausrichtung darin, dass eine im statistischen Sinne optimalere Ausrichtung
erreicht werden kann.
-
In
einer weiteren Ausführungsform
der Erfindung wird der Vorbearbeitung ein Abbildungsschritt hinzugefügt. Das
Abbilden kann entweder vor oder nach der Ausrichtung durchgeführt werden.
In diesem Schritt wird jede Phonemeinheit als ein Symbol abgebildet,
und anstelle der durch viele Zeichen repräsentierten Phonemeinheiten
wird ein einziges Symbol verwendet, um die Phonemeinheiten zu bezeichnen.
Durch Verwenden der Abbildungstechnik können die Leerzeichen aus dem
Eintrag entfernt werden, und auch ein Dekodieren der verschachtelten
Sequenz ist noch möglich.
Die Entfernung der Leerzeichen verbessert das Komprimierungsverhältnis weiter.
Zudem besteht ein Vorteil des Abbildens darin, dass das Verfahren
an viele Sprachen angepasst werden kann, oder es kann sogar eine
große
Abbildungstabelle für
alle Sprachen in der Vorrichtung verwendet werden.
-
Kurzbeschreibung der Zeichnungen
-
Im
Folgenden wird die Erfindung in weiterem Detail mithilfe bevorzugter
Ausführungsformen
und mit Bezug auf die beigefügten
Zeichnungen beschrieben, in welchen
-
1 ein
Blockdiagramm ist, welches eine Datenbearbeitungsvorrichtung zeigt,
welche die Vorbearbeitung und Komprimierung des Aussprachelexikons
gemäß einer
bevorzugten Ausführungsform
der Erfindung unterstützt;
-
2 ein
Flussdiagramm eines Verfahrens gemäß einer bevorzugten Ausführungsform
der Erfindung ist;
-
3 die
Verwendung des HMM-Algorithmus für
die Ausrichtung des Aussprachelexikons zeigt;
-
4 die
Vorbearbeitungsschritte für
einen Lexikoneintrag zeigt;
-
5 ein
Blockdiagramm ist, das eine elektronische Vorrichtung zeigt, welche
das vorbearbeitete Aussprachelexikon verwendet;
-
6 ein
Flussdiagramm ist, das die Verwendung des vorbearbeiteten Aussprachelexikons
zeigt, wenn eine Textfolge in eine Aussprachemodell gemäß einer
bevorzugten Ausführungsform
der Erfindung umgewandelt ist; und
-
7 ein
Flussdiagramm ist, das die Verwendung des vorbearbeiteten Aussprachelexikons
zeigt, wenn eine Sprachinformation in einer Folge von Texteinheiten
gemäß einer
bevorzugten Ausführungsform
der Erfindung umgewandelt ist.
-
Detaillierte Beschreibung
der Erfindung
-
1 zeigt
eine Datenbearbeitungsvorrichtung (TE) nur in den Teilen, die für eine bevorzugte
Ausführungsform
der Erfindung relevant sind. Die Datenbearbeitungseinrichtung (TE)
kann zum Beispiel ein Personalcomputer (PC) oder ein mobiles Endgerät sein.
Die Datenbearbeitungseinheit (TE) umfasst eine I/O-Einrichtung (I/O),
eine zentrale Bearbeitungseinheit (CPU) und einen Speicher (MEM).
Der Speicher (MEM) umfasst einen schreibgeschützten ROM-Bereich und einen
wieder beschreibbaren Bereich, wie einen Direktzugriffsspeicher
RAM und Flash-Speicher. Die Information, die verwendet wird, um
mit verschiedenen externen Beteiligten zu kommunizieren, zum Beispiel
einer CD-ROM, anderen
Einrichtungen und dem Benutzer, wird durch die I/O-Einrichtung (I/O)
zu der zentralen Bearbeitungseinheit (CPU) und von dieser übertragen.
Die zentrale Bearbeitungseinheit (CPU) liefert einen Bearbeitungsblock
(PRE) und einen Komprimierungsblock (COM). Die Funktionalität dieser
Blocks wird typischerweise implementiert, indem ein Softwarekode
in einem Prozessor ausgeführt
wird, sie kann aber auch mit einer Hardwarelösung (zum Beispiel einer ASIC)
oder als eine Kombination dieser beiden implementiert sein.
-
Der
Vorbearbeitungsblock (PRE) liefert die Vorbearbeitungsschritte einer
bevorzugten Ausführungsform,
die in 2 im Detail dargestellt ist. Der Komprimierungsblock
(COM) liefert die Komprimierung des Aussprachelexikons, wobei für diesen
Zweck mehrere unterschiedliche Komprimierungsverfahren, zum Beispiel LZ77,
LZW oder eine arithmetische Kodierung, verwendet werden können. Die
Vorbearbeitung kann mit einem der anderen Komprimierungsverfahren
kombiniert werden, um die Komprimierungseffizienz zu verbessern.
-
Das
Aussprachelexikon, das vorbearbeitet und komprimiert werden muss,
wird in dem Speicher (MEM) gespeichert. Das Lexikon kann auch unter
Verwendung der I/O-Einrichtung (I/O) von einer externen Speichereinrichtung,
zum Beispiel von einer CD-ROM oder einem Netzwerk, heruntergeladen
werden. Das Aussprachelexikon umfasst Einträge, die wiederum jeweils ein
Wort in einer Sequenz von Zeicheneinheiten (Textsequenz) und in
einer Sequenz von Phonemeinheiten (Phonemsequenz) enthält. Die
Sequenz aus Phonemeinheiten repräsentiert
die Aussprache der Sequenz von Zeicheneinheiten. Die Repräsentation
der Phonemeinheiten ist abhängig
von dem verwendeten Phonem-Notationssystem.
Mehrere unterschiedliche Phonem-Notationssysteme
können
verwendet werden, zum Beispiel SAMPA und IPS. SAMPA (Seeach Assessment
Methods Phonetic Alphabet) ist ein maschinenlesbares phonetisches
Alphabet. Die International Phonetic Association liefert einen nationalen
Standard, das International Phonetic Alphabet (IPA) für die phonetische Repräsentation
zahlreicher Sprachen. Ein Lexikoneintrag, der das SAMPA-Phonem-Notationssystem
verwendet, könnte
zum Beispiel sein:
Textsequenz | Phonemsequenz | Eintrag |
Father | F
A: D @ | Father
f A: D @ |
-
Die
Entropie, mit H bezeichnet, ist ein grundlegendes Attribut, welches
den Datengehalt des Signals kennzeichnet. Es ist möglich, den
kürzesten
Weg zu finden, um ein Signal (komprimiert) ohne Verlust von Daten
zu präsentieren.
Die Länge
der kürzesten
Repräsentation
ist durch die Entropie des Signals angegeben. Statt den exakten
Entropiewert einzeln für
jedes Signal zu zählen,
wurde durch Shannon ein Verfahren etabliert, diesen zu schätzen (siehe
zum Beispiel C.E.Shannon, A Mathematical Theory of Communication,
The Bell System Technical Journal, Band 27, Seiten 379-423, 623-656,
Juli, Oktober 1948). Dies wird im Folgenden kurz beschrieben.
-
P(l
j|l
i) sei die bedingte
Wahrscheinlichkeit, dass das vorliegende Zeichen der jth Buchstabe
im Alphabet ist, angenommen, dass das vorherige Zeichen der ith
Buchstabe ist und P(l
i) die Wahrscheinlichkeit
ist, dass das vorherige Zeichen der ith Buchstabe des Alphabets
ist. Die Entropierate H
2 der Statistiken
zweiter Ordnung ist
-
Die
Entropierate H in einem allgemeinen Fall ist gegeben durch
-
In
welcher Bn die ersten Zeichen repräsentiert.
Es ist praktisch unmöglich,
die Entropierate gemäß der obigen
Gleichung (2) zu berechnen. Unter Verwendung dieses Voraussageverfahrens
der Gleichung (1) ist es möglich,
abzuschätzen,
dass die Entropierate eines Englischtextes mit 27 Zeichen in etwa
2,3 Bits/Zeichen beträgt.
-
Um
die Komprimierung eines Aussprachelexikons zu verbessern, wird die
Vorbearbeitung des Textes dazu verwendet, die Entropie zu senken.
-
2 zeigt
ein Verfahren gemäß einer
bevorzugten Ausführungsform
der Erfindung. Das Verfahren konzentriert sich auf die Vorbearbeitung
des Aussprachelexikons, um die Entropierate (H) zu senken.
-
Jeder
Eintrag wird ausgerichtet (
200), das heißt, die
Text- und Phonemsequenzen
werden modifiziert, um so viele Phonemeinheiten in der Phonemsequenz
zu haben, wie es Zeicheneinheiten in der Textsequenz gibt. In der
englischen Sprache kann zum Beispiel ein Buchstabe mit null, einem
oder zwei Phonemen korrespondieren. Die Ausrichtung wird erhalten,
indem graphemische oder phonemische Epsilons (Nullen) zwischen die
Buchstaben in der Textfolge oder zwischen die Phoneme in den Phonemsequenzen
eingefügt
werden. Die Verwendung von graphemischen Epsilons kann durch Einführen einer
kurzen Liste von Pseudophonemen, die durch Verketten von zwei Phonemen
erhalten werden, die dafür
bekannt sind, mit einem einzigen Buchstaben zu korrespondieren,
zum Beispiel „x → k s" vermieden werden.
Um die Einträge
auszurichten, muss die Gruppe erlaubter Phoneme für jeden
Buchstaben definiert sein. Die Phonemliste umfasst die Pseudophoneme
für den
Buchstaben und das mögliche
phonemische Epsilon. Der allgemeine Grundsatz ist, eine graphemische
Null (definiert als Epsilon) in die Textsequenz und/oder eine phonemische
Null (auch Epsilon bezeichnet) in die Phonemsequenz einzufügen, wenn
dies notwendig ist. Unten wird das oben verwendete Wort als ein
Beispiel nach der Ausrichtung verwendet.
Textsequenz | Phonemsequenz | Ausgerichteter
Eintrag |
Father | f
A: D @ | father f
A: D ε ε @ |
-
Hier
hat das Wort „father" 6 Einheiten und
nach dem Ausrichten gibt es 6 Phoneme in der Phonemsequenz; 'f A: D ε ε @'. Das Ausrichten
kann auf mehreren unterschiedlichen Wegen erfolgen. Gemäß einer
Ausführungsform
der Erfindung wird die Ausrichtung mit HMM-Viterbi Algorithmus durchgeführt. Das
Prinzip der Ausrichtung ist in größerem Detail in 3 dargestellt
und beschrieben.
-
Nach
dem Ausrichten (
200) wird jedes in dem Phonem-Notationssystem verwendete
Phonem vorzugsweise als ein einzelnes Symbol abgebildet (
202),
zum Beispiel ein Byte ASCII-Kode. Das Abbilden ist jedoch nicht
notwendig, um die Vorteile der Erfindung zu erhalten, kann dieser
aber weiter verbessern. Das Abbilden kann zum Beispiel in einer
Abbildungstabelle dargestellt werden. Unten ist ein Beispiel dafür, wie die Phoneme
in dem als Beispiel verwendeten Wort abgebildet sein könnten:
Phonemsymbol | ASCII
Zahl | ASCII
Symbol |
F | 0 × 66 | F |
A: | 0 × 41 | A |
D | 0 × 44 | D |
@ | 0 × 40 | @ |
ε | 0 × 5F | – |
-
Durch
Darstellen jedes Phonems mit einem Symbol können die ein Phonem repräsentierenden
zwei Zeichen durch nur ein 8-bit ASCII Symbol ersetzt werden. Als
Ergebnis ist das Beispiel:
Phonem-Sequenz | Abgebildete
Sequenz
(ASCII Zahlen) | Abgebildete
Sequenz
(Symbole) |
f A:
D ε ε @ | 0 × 66 0 × 41 0 × 44 0 × 5F 0 × 5F 0 × 40 | F
A D_ _ @ |
-
Nach
dem Darstellen der Phoneme durch ein Symbol können die Leerstellen zwischen
den Einheiten entfernt werden. Auch die Leerstelle zwischen der
Textfolge und der abgebildeten und ausgerichteten Phonemsequenz
kann entfernt werden, da es eine gleiche Anzahl von Einheiten in
beiden Sequenzen gibt und es klar ist, welche Zeichen zum Text gehören und
welche zu der phonetischen Repräsentation.
-
Ausgerichteter und abgebildeter
Eintrag
-
fatherAD_@
-
Das
Abbilden der Phonemeinheiten zu einzelnen Symbolen (202)
ist ein wichtiger Schritt die Verschachtelung, da die Leerzeichen
vermieden werden können.
Das Abbilden verbessert das Endergebnis in sich auch weiter, da
einzelne Zeichen weniger Platz einnehmen im Vergleich zu zum Beispiel
Zwei-Zeichenkombinationen,
und die Korrelation des korrespondierenden Textzeichens wird gesteigert.
Die Reihenfolge des Ausrichtens (200) und des Abbildens
(202) beeinflusst nicht das Endergebnis, das Abbilden (202)
kann auch vor dem Ausrichten durchgeführt werden.
-
Die
Abbildungstabelle ist nur abhängig
von dem in dem Aussprachelexikon verwendeten Phonemnotationsverfahren.
Es kann so implementiert sein, dass es sprachenabhängig ist,
so dass verschiedene Systeme oder Implementierungen für unterschiedliche
Dialekte oder Sprachen nicht erforderlich sind. Falls eine Mehrzahl
von Aussprachelexika in verschiedenen Phonemnotationsverfahren benutzt
würde,
bestände
ein Bedarf für
separate Abbildungstabellen für
jedes Phonemnotationsverfahren.
-
Nach
dem Ausrichten (
200) und Abbilden (
202) werden
die Einträge
verschachtelt (
204). Da das Zeichen → Phonemmuster eine höhere Wahrscheinlichkeit
(geringe Entropie) als das fortlaufende Buchstabenmuster, insbesondere
dann, wenn die Ausrichtung optimal ausgeführt worden ist, wird die Redundanz
erhöht. Dies
kann durch Einfügen
von Aussprachephonemen zwischen die Buchstaben des Wortes gemacht
werden, um ein einzelnes Wort zu bilden. Mit anderen Worten, die
Phonemeinheiten werden neben die korrespondierenden Zeicheneinheiten
eingefügt.
Nach dem Ausrichten (
200) haben die Textsequenz und die
Phonemsequenz eine gleiche Anzahl von Symbolen, und das Zeichen-Phonempaar
ist leicht zu finden. Zum Beispiel:
Textsequenz | Phonemsequenz | Verschachtelter
Eintrag |
father | FAD_
_@ | ffaAtDh_e_e@ |
in welcher kursive und fette Symbole für Aussprachephoneme
stehen. Aus dem Beispiel wird deutlich, dass das Zusammenbringen
und Zerlegen eines Eintrags zwischen die ursprünglichen und neuen Formate
eindeutig definiert ist, die Textsequenz und die Phonemsequenz,
die verschachtelt sind, eine gleiche Anzahl von Einheiten enthalten.
-
Nach
der Vorbearbeitung kann die Komprimierung (206) des vorbearbeiteten
Phonemlexikons durchgeführt
werden.
-
3 zeigt
das Graphem HMM zum Ausrichten der inhaltlichen und phonetischen
Repräsentationen eines
Eintrags.
-
Das
Hidden Markov Modell (HMM) ist ein allgemein bekanntes und weit
verbreitetes statistisches Verfahren, das zum Beispiel in der Spracherkennung
angewendet wurde. Diese Modelle werden auch als Markov-Quellen oder
Wahrscheinlichkeitsfunktionen der Markovkette bezeichnet. Die dem
HMM unterliegende Vermutung ist, dass ein Signal gut als ein parametrischer
Zufallsprozess gekennzeichnet werden kann und dass die Parameter
des stochastischen Prozesses in einer präzisen, gut definierten Weise
bestimmt/geschätzt werden
können.
Die HMMs können
in diskrete und kontinuierliche Modelle klassifiziert werden, je
nachdem, ob jedem Zustand zugewiesene, zu beobachtende Ereignisse
diskret sind, Kodewörter,
oder ob sie kontinuierlich sind. In beiden Fällen ist die Beobachtung probalistisch.
Das Modell in dem zugrunde liegenden stochastischen Prozess ist
nicht direkt beobachtbar (es ist verborgen), es kann aber nur durch
eine andere Gruppe von stochastischen Prozessen sichtbar werden,
welche die Sequenz von Beobachtungen produzieren. Das HMM wird aus
unsichtbaren Zuständen
mit einem Übergang
zwischen den Zuständen
zusammengesetzt. Die mathematische Darstellung umfasst drei Dinge:
Zustandsübergangswahrscheinlichkeit
zwischen den Zuständen,
Beobachtungswahrscheinlichkeit jedes Zustands und Anfangszustandsverteilung.
Bei einem gegebenen HMM und einer Beobachtung wird der Viterbi Algorithmus
verwendet, um die Beobachtungszustands-Ausrichtung durch Verfolgung
des besten Weges zu geben.
-
Es
wird in der vorliegenden Erfindung bestätigt, dass das HMM dazu verwendet
werden kann, das Problem einer optimalen Ausrichtung einer Beobachteten
Sequenz mit den Zuständen
des Hidden Markov Modell zu lösen.
Darüber
hinaus kann der Viterbi Algorithmus in Verbindung mit dem HMM dazu
verwendet werden, die optimale Ausrichtung zu finden. Mehr Informationen über die
Hidden Markov Modelle und ihre Anwendungen sind zu finden zum Beispiel
in dem Buch „Speech Recognition
System Design and Implementation Issues", Seiten 322-342.
-
Zuerst
werden für
ein gegebenes Buchstaben-Phonempaar die Gewichtungen p(f|ll) mit
Null eröffnet, falls
das Phonem f in der Liste der zugelassenen Phoneme des Buchstaben
l gefunden werden kann, andernfalls werden sie mit großen positiven
Werten eröffnet.
Mit den anfänglichen
Gewichtungswerten wird das Lexikon in zwei Schritten ausgerichtet.
Im ersten Schritt werden alle möglichen
Ausrichtungen für
jeden Eintrag im Lexikon erzeugt. Basierend auf all den ausgerichteten
Einträgen
werden die Gewichtungswerte dann nachbewertet. In dem zweiten Schritt
wird nur eine einzige beste Ausrichtung für jeden Eintrag gefunden.
-
Für jeden
Eintrag wird die optimale Ausrichtung mit dem Viterbi Algorithmus
auf dem Graphem HMM gefunden. Das Graphem HMM hat den Eintrag (ES),
einen Ausgang (EXS) und Buchstabenzustände (S1, S2 und S3). Die Buchstaben,
die zu Pseudophonemen abgebildet werden können, werden gehandhabt als
hätten sie
einen Dauerzustand (EPS). Die Zustände 1 bis 3 (S1, S2, S3) sind
Zustände,
die den Buchstaben in dem Wort entsprechen. Der Zustand 2 (S2) entspricht
einem Buchstaben, der ein Pseudophonem produzieren kann. Sprünge von
allen vorherigen Zuständen
zum gegenwärtigen
Zustand sind erlaubt, um die phonemischen Epsilons zu unterstützen.
-
Jeder
Zustand und der Dauerzustand halten einen Token, der eine kumulative
Gewichtung (als Summe logarithmischer Wahrscheinlichkeiten) der
Ausrichtung der Phonemsequenz gegenüber dem Graphem HMM und den
Zustandssequenzen, die der kumulativen Wertung entsprechen, enthält. Die
Phonemsequenz wird gegenüber
Buchstaben abgestimmt, indem phonemweise vom Beginn zum Ende durch
die Phonemsequenz hindurchgegangen wird. Um die Viterbi-Ausrichtung
zwischen den Buchstaben und den Phonemen zu finden, wird ein Token-Durchgang
ausgeführt.
Wenn die Token von einem Zustand zu einem anderen gelangen, nehmen
sie die Gewichtung jedes Zustands auf. Das Passierenlassen von Token
kann auch das Abspalten von Token und Kombinieren oder Auswählen von
Token, um in den nächsten
Zustand einzutreten, umfassen. Der Token, der am Ende den geringsten
kumulativen Strafwert hat, befindet sich über allen Zuständen des
HMM. Basierend auf der Zustandssequenz des Token kann die Ausrichtung
zwischen den Buchstaben des Wortes und der Phoneme bestimmt werden.
-
Die
Ausrichtung arbeitet für
die meisten Einträge
richtig, es gibt aber einige spezielle Einträge, die nicht ausgerichtet
werden können.
In solchen Fällen
wird eine andere einfache Ausrichtung angewendet: graphemische oder
phonemische Epsilons werden dem Ende der Buchstaben- oder Phonemsequenzen
hinzugefügt.
-
4 zeigt
in größerem Detail
die Vorbearbeitung des als ein Beispiel gemäß einer bevorzugten Ausführungsform
der Erfindung verwendeten Eintrags.
-
Der
ursprüngliche
Eintrag (400) hat die zwei Teile, eine Textsequenz 'father' und eine Phonemsequenz 'f A: D @'. Diese zwei Sequenzen
sind mit einem Leerzeichen getrennt und auch die Phonemeinheiten
sind mit Leerzeichen getrennt.
-
Beim
Ausrichten (402) werden die phonemischen und graphemischen
Epsilons hinzugefügt,
um eine gleiche Anzahl von Einheiten in beiden Sequenzen zu haben.
In dem Beispielwort werden zwei phonemische Epsilons benötigt, und
das Ergebnis der Phonemsequenz lautet 'f A: D ε ε @'.
-
Das
Abbilden (404) der Phonemeinheiten in eine Symboldarstellung
verändert
nur die Phonemsequenz. Nach dem Abbilden lautet die Phonemsequenz
des Beispielwortes 'f
A D _ _@'.
-
Wenn
der Eintrag abgebildet wird (404) ist es möglich, die
Leerzeichen (406) zu entfernen. Daraus ergibt sich eine
Folge 'fatherfAD_@'.
-
Der
letzte Schritt ist die Verschachtelung (408), und der Beispieleintrag
lautet 'ffaAtDh_e_r@'. Nun kann der Eintrag
weiter bearbeitet werden, zum Beispiel kann er komprimiert werden.
-
All
diese Schritte sind in größerem Detail
in 2 beschrieben.
-
Das
oben beschriebene Vorbearbeitungsverfahren, einschließlich auch
der Abbildung (202), wurde experimentell getestet. Das
Experiment wurde unter Verwendung des Carnegie Mellon University
Pronouncing Dictionary durchgeführt,
welches ein Aussprachelexikon für
nordamerikanisches Englisch ist, das mehr als 100.000 Worte und
ihre Lautschriften enthält.
In dem Experiment wurde die Leistungsfähigkeit zuerst durch Verwenden
typischer auf Lexika basierender Komprimierungsverfahren, LZ77 und
LZW, und eines auf Statistik basierenden Komprimierungsverfahrens,
der arithmetischen Komprimierung zweiter Ordnung, ausgewertet.
-
Die
Leistungsfähigkeit
wurde dann mit dem Bearbeitungsverfahren zusammen mit den Komprimierungsverfahren
(LZ77, LZW und Arithmetik) getestet. In Tabelle 1 zeigen die Ergebnisse,
in Kilobytes angegeben, dass das Bearbeitungsverfahren in allen
Fällen
besser abschneidet. Ganz allgemein kann es mit jeden Komprimierungsalgorithmen
verwendet werden. Tabelle 1: Komprimierungs-Leistungsvergleich,
getestet unter Verwendung des CMU Englisch-Aussprachelexikons. Die
Ergebnisse sind in Kilobytes angegeben.
Verfahren | Vorkomprimierung | Komprimierung ohne
Vorbearbeitung | Komprimierung
mit Vorbearbeitung | Verbesserung |
LZ77 | 2580 | 1181 | 940 | 20,4% |
LZW | 2580 | 1315 | 822 | 37,5% |
Arithmetik | 2580 | 899 | 501 | 44,3% |
-
Wie
wir aus Tabelle 1 ersehen können,
verbessert die Vorbearbeitung die Komprimierung mit allen Komprimierungsverfahren.
Kombiniert mit dem LZ77 Komprimierungsverfahren verbesserte die
Vorbearbeitung die Komprimierung mit über 20%. Die Verbesserung ist
sogar größer, wenn
die Vorbearbeitung mit dem LZW-Verfahren oder mit dem Arithmetik-Verfahren
kombiniert wurde, was eine etwa um 40% bessere Komprimierung lieferte.
-
Es
sollte so zu verstehen sein, dass die Erfindung für jedes
Universallexikon angewendet werden, das bei der Spracherkennung
oder Sprachsynthese oder all die Anwendungen, bei denen ein Aussprachelexikon mit
effizienter Speichernutzung gespeicherte werden muss, verwendet
wird. Es ist auch möglich,
die Erfindung für
die Komprimierung jeder anderen Liste mit Gruppen von Texteinträgen anzuwenden,
die eine hohe Korrelation zu dem Zeichenlevel haben, zum Beispiel übliche Wörterbücher, die
alle Formen eines Wortes zeigen und Spell-Checkerprogramme.
-
5 zeigt
eine elektronische Vorrichtung (ED), nur in den Teilen, die für eine bevorzugte
Ausführungsform
der Erfindung relevant sind. Die elektronische Vorrichtung (ED)
kann zum Beispiel eine PDA-Vorrichtung, ein mobiles Endgerät, ein Personalcomputer
(PC) oder sogar irgendeine Zubehöreinrichtung
sein, die für
die Verwendung mit diesen vorgesehen ist, zum Beispiel ein intelligentes
Headset oder eine Fernsteuereinrichtung. Die elektronische Vorrichtung
(ED) umfasst eine I/O-Einrichtung (IO), eine zentrale Bearbeitungseinheit
(PRO) und einen Speicher (ME). Der Speicher (ME) umfasst einen schreibgeschützten ROM-Bereich
und einen wieder beschreibbaren Bereich, wie einen Speicher mit
wahlfreiem Zugriff RAM und einen FLASH-Speicher. Die für die Kommunikation
mit verschiedenen externen Beteiligten, zum Beispiel dem Netzwerk,
anderen Vorrichtungen oder dem Benutzer, verwendete Information
wird durch die I/O-Einrichtung
(IO) zu der Zentralbearbeitungseinheit (PRO) und von dieser aus übertragen.
Die Benutzerschnittstelle, wie ein Mikrofon oder eine Tastatur,
die es ermöglichen,
eine Zeichensequenz in die Vorrichtung einzugeben, ist somit Teil
der I/O-Einrichtung (IO). Ein vorbearbeitetes Aussprachelexikon
kann von der Datenbearbeitungseinrichtung (TE) in die elektronische
Vorrichtung (ED) durch die I/O-Einrichtung
(IO), zum Beispiel als Download von dem Netzwerk heruntergeladen
werden. Das Lexikon wird dann in dem Speicher (ME) für die weitere
Verwendung gespeichert.
-
Die
in den 6 und 7 gezeigten Schritte können mit
einem Computerprogrammkode implementiert sein, der in der zentralen
Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) ausgeführt wird. Das
Computerprogramm kann in die zentrale Bearbeitungseinheit (PRO)
durch die I/O-Einrichtung
(IO) geladen werden. Die Implementierung kann auch mit einer Hardwarelösung (zum
Beispiel ASIC) oder mit einer Kombination von diesen beiden durchgeführt werden.
Gemäß einer
bevorzugten Ausführungsform
wird das in dem Speicher (ME) der Vorrichtung (ED) gespeicherte
Phonemlexikon vorbearbeitet, wie dies in 2 beschrieben
ist.
-
In 6 empfängt die
zentrale Bearbeitungseinheit (PRO) der elektronischen Vorrichtung
(ED) eine Textfolgeeingabe, die in ein Aussprachemodell umgewandelt
werden muss. Die eingegebene Textfolge kann zum Beispiel ein Name
sein, den der Benutzer unter Verwendung I/O-Einrichtung (IO) einer
Kontaktdatenbank der elektronischen Vorrichtung (ED) hinzugefügt hat.
Zuerst muss ein übereinstimmender
Eintrag in dem vorbearbeiteten Aussprachelexikon gefunden werden
(600), der in dem Speicher (ME) gespeichert ist. Das Finden
des übereinstimmenden
Eintrag basiert auf einem Vergleich der eingegebenen Textfolge mit
den Zeicheneinheiten der Einträge.
Weil die Einträge
verschachtelt sind, ist eine Eintragsfolge eine Kombination aus
Zeichen- und Phonemeinheiten. Falls die Verschachtelung entsprechend
der in 2 beschriebenen bevorzugten Ausführungsform
erfolgt ist, wird, wenn die eingegebene Folge mit dem Eintrag verglichen
wird, nur jede zweite Einheit verwendet. Die Zeicheneinheiten des
Eintrags können
durch Auswählen
von ungeraden Einheiten gefunden werden, startend mit der ersten.
Der Vergleich wird mit der ursprünglichen
Zeichenfolge des Eintrags durchgeführt, und deshalb werden leere
Stellen, zum Beispiel graphemische Epsilons, ignoriert. Es gibt mehrere
Verfahren und Algorithmen zum Finden des übereinstimmenden Eintrags,
die einem Fachmann als solche bekannt sind, und es gibt keinen Bedarf,
diese hier zu beschreiben, da sie nicht Teil der Erfindung sind. Wenn
die Zeicheneinheiten mit den Einheiten der eingegebenen Textfolge
exakt übereinstimmen,
ist der überstimmende
Eintrag gefunden. Es sollte jedoch so zu verstehen sein, dass es
in einigen Anwendungen vorteilhaft sein könnte, einen nicht genau übereinstimmenden
Algorithmus anstelle zum Beispiel eines sogenannte Wildcards Nutzenden
zu verwenden.
-
Wenn
der übereinstimmende
Eintrag gefunden ist, werden die Phonemeinheiten des Eintrags ausgewählt (602).
Wegen der Verschachtelung (erfolgt entsprechend der in 2 beschriebenen
bevorzugten Ausführungsform)
wird jede zweite Einheit der Eintragsfolge verwendet. Um die Phonemeinheiten
zu bestimmen, wird die Auswahl von der zweiten Einheit aus gestartet.
Die ausgewählten
Einheiten können
dann verkettet werden, um die Sequenz von Phonemeinheiten zu erzeugen.
-
Wenn
die Einheiten ausgerichtet sind, kann die Sequenz von Phonemeinheiten
Leerstellen umfassen, zum Beispiel phonemische Epsilons. Die Leerstellen
werden entfernt, um eine Sequenz bestehend nur aus Phonemen (604)
zu erzeugen.
-
Falls
die Vorbearbeitung des Phonemlexikons auch ein Abbilden umfasst,
wird eine Umkehrabbildung benötigt
(606). Das umgekehrte Abbilden kann unter Verwendung einer ähnlichen
Abbildungstabelle, wie derjenigen, die während der Vorbearbeitung verwendet
wurde, aber in umgekehrter Reihenfolge durchgeführt werden. Dieser Schritt
verändert
das erste Darstellungsverfahren, zum Beispiel eine Zeichendarstellung,
der Phonemeinheiten in dem zweiten Darstellungsverfahren, zum Beispiel
SAMPA, das in dem System verwendet wird.
-
Wenn
die Sequenz von Phonemeinheiten erzeugt wird, wird diese typischerweise
weiterbearbeitet, zum Beispiel wird ein Aussprachemodell der Sequenz
erzeugt. Gemäß einer
Ausführungsform
wird ein Aussprachemodell für
jedes Phonem unter Verwendung zum Beispiel eines HMM-Algorithmus
erzeugt. Die Phonem-Aussprachemodelle werden in dem Speicher (ME)
gespeichert. Um ein Aussprachemodell eines Eintrags zu erzeugen,
wird ein Aussprachemodell für
jedes Phonem der Phonemsequenz aus dem Speicher (608) zurückgeladen.
Diese Phonemmodelle werden dann verkettet (610), und das
Aussprachemodell für
die Phonemsequenz wird erzeugt.
-
Das
Umwandeln einer Textfolgeeingabe in ein oben beschriebenes Aussprachemodell
kann auch zwischen zwei elektronischen Vorrichtungen verteilt werden.
Zum Beispiel wird das vorbearbeitete Lexikon in der ersten elektronischen
Vorrichtung, zum Beispiel in Netzwerk gespeichert, in welchem das
Auffinden eines übereinstimmenden
Eintrags (600) durchgeführt
wird. Der übereinstimmende
Eintrag wird dann zu der zweiten elektronischen Vorrichtung erschickt,
zum Beispiel einem mobilen Endgerät, in welchem der Rest des
Prozesses (Schritte 602 bis 610) durchgeführt wird.
-
7 zeigt
eine bevorzugte Ausführungsform
einer Umwandlung einer Sprachinformation in eine Sequenz von Zeicheneinheiten
in einer elektronischen Vorrichtung (ED), die ein vorbearbeitetes
Aussprachelexikon verwendet. Die zentrale Bearbeitungseinheit (PRO)
der elektronischen Vorrichtung (ED) empfängt eine Sprachinformationseingabe über die
I/O-Einrichtung (IO). Diese Sprachinformation muss in eine Sequenz
aus Zeicheneinheiten für
die weitere Verwendung umgewandelt werden, zum Beispiel um diese
als Text auf dem Display anzuzeigen oder um diese mit einer Textfolge
eines vorbestimmten Sprachbefehls einer sprachgesteuerten Vorrichtung
zu vergleichen.
-
Das
Auffinden eines übereinstimmenden
Eintrags (702) basiert auf einem Vergleich der eingegebenen Sprachinformation
mit den Aussprachemodellen jedes Eintrags in dem Aussprachelexikon.
Deshalb wird vor dem Vergleich die Aussprache jedes Eintrags modelliert
(700). Gemäß einer
bevorzugten Ausführungsform werden
die Modelle in der elektronischen Vorrichtung (ED) erzeugt. Das
Phonemlexikon ist bereits verschachtelt und ausgerichtet, so dass
das Modellieren, wie in 6 beschrieben, den Schritten 602 bis 610 folgend durchgeführt werden
kann. Wenn das Modellieren in der elektronischen Vorrichtung (ED)
durchgeführt
wird, ist der Bedarf an Bearbeitungskapazität und Arbeitsspeicher erhöht. Stattdessen
kann der Speicherverbrauch zum Speichern des Aussprachelexikons
niedrig gehalten werden.
-
Gemäß einer
zweiten bevorzugten Ausführungsform
werden die Modelle vor dem Vorbearbeiten des Aussprachelexikons
in der Datenbearbeitungsvorrichtung (TE) erzeugt. Das Modellieren
kann, wie in 6 beschrieben, den Schritten 608 bis 610 folgend
durchgeführt
werden. Weil das Modellieren vor dem Vorbearbeiten durchgeführt wird
und das Lexikon noch nicht verschachtelt, ausgerichtet oder abgebildet
ist, werden die Schritte 602 bis 606 nicht benötigt. Die
Aussprachemodell wird dann in dem Speicher (MEM) zusammen mit dem
Eintrag gespeichert. Wenn das Lexikon zu der elektronischen Vorrichtung
(ED) übertragen
wird, werden auch die Modelle übertragen.
In dieser Lösung
wird weniger Bearbeitungskapazität
und Arbeitsspeicher für
das Umwandeln von Sprachinformation in eine Textsequenz benötigt. Stattdessen
wird der Speicherverbrauch des Speichers (ME) erhöht.
-
Das
Auffinden eines übereinstimmenden
Eintrags (702) wird unter Verwendung der eingegebenen Sprachinformation
und der Aussprachemodelle der Einträge durchgeführt, die in dem Speicher (ME)
gespeichert sind. Die Sprachinformation wird mit jedem Eintrag verglichen,
und eine Wahrscheinlichkeit, wie gut die eingegebene Sprachinformation
mit jedem Aussprachemodell eines Eintrags übereinstimmt, wird berechnet. Nach
dem Berechnen der Wahrscheinlichkeiten kann der übereinstimmende Eintrag durch
Auswahl des Eintrags mit der höchsten
Wahrscheinlichkeit gefunden werden.
-
Die
Zeicheneinheiten werden dann aus dem übereinstimmenden Eintrag (704)
ausgewählt.
Wegen der Verschachtelung, die so erfolgt, wie dies in 2 beschrieben
ist, wird jede zweite Einheit der Eintragsfolge verwendet. Das Auswählen muss
von der ersten Einheit aus starten, um die Zeicheneinheiten zu erhalten. Diese
ausgewählten
Einheiten können
dann verkettet werden, um eine Sequenz aus graphemischen Einheiten zu
bilden.
-
Wegen
des Ausrichtens kann die Sequenz der graphemischen Einheiten Leerstellen
umfassen, zum Beispiel graphemische Epsilons. Um eine Sequenz zu
erzeugen, die nur Grapheme aufweist, werden Leerstellen entfernt
(706). Als Ergebnis haben wir eine Textfolge, die in dem
System weiter verwendet werden kann.
-
Eine
elektronische Vorrichtung, zum Beispiel ein Mobiltelefon mit einer
Fahrzeugnutzerschnittstelle, hat eine sprecherunabhängige Spracherkennung
für Sprachbefehle.
Jeder Sprachbefehl ist ein Eintrag in dem Aussprachelexikon. Der
Benutzer möchte
während
des Fahrens einen Anruf tätigen.
Wenn die Spracherkennung aktiv ist, sagt der Benutzer 'CALL'. Das Telefon empfängt den
Sprachbefehl mit einem Mikrofon und überträgt die Sprachinformation über die
I/O-Einrichtung an die zentrale Bearbeitungseinheit. Die zentrale
Bearbeitungseinheit wandelt die Spracheingabe in eine Textsequenz
um, wie dies in 7 beschrieben ist. Die Textsequenz
wird über
die I/O-Einrichtung zu dem Display übertragen, um dem Benutzer
eine Rückkopplung
von dem zu geben, was die Vorrichtung gerade macht. Neben dem Text
auf dem Schirm gibt die Vorrichtung auch eine Audio-Rückkopplung.
Das Aussprachemodell des übereinstimmenden
Eintrags, welches als ein Teil des Sprache-in-Text-Umwandlungsprozess
erzeugt wurde, wird über
die I/O-Einrichtung zu dem Lautsprecher übertragen. Das Telefon führt dann
den Anruf der Nummer durch, welche der Benutzer ausgewählt hat.
-
Figurenbeschreibung
-
2
-
- Aligning 200 = Ausrichten 200
- Mapping 202 = Abbilden 202
- Interleaving 204 = Verschachteln 204
- Compressing 206 = Komprimieren 206
-
4
-
- Original Entry 400 = Ursprünglicher
Eintrag 400
- Aligned Entry 402 = Ausgerichteter Eintrag 402
- Mapped Entry 404 = Abgebildeter Eintrag 404
- Spaces removed 406 = Leerstellen entfernt 406
- Interleaved Entry 408 = Verschachtelter Eintrag 408
-
6
-
- Text string = Textfolge
- Find the match entry 600 = Finde den übereinstimmenden
Eintrag 600
- Select the phoneme units 602 = Wähle die Phonemeinheiten 602
- Remove phonemic epsilons 604 = Entferne phonemische
Epsilons 604
- Reversed mapping 606 = Umgekehrtes Abbilden 606
- Pick phoneme models 608 = Nehme Phonemmodelle 608
- Concatenate phonemes 610 = Verkette Phoneme 610
- Pronunciation model = Aussprachemodell
-
7
-
- Pronunciation dictionary = Aussprachelexikon
- Create the pronunciation 700 = Erzeuge die Aussprachemodels
Modelle 700
- Speech information = Sprachinformation
- Find the match entry 702 = Finde den übereinstimmendenEintrag 702
- Select the character 704 = Wähle die Zeicheneinheitenunits 704
- Remove graphemic epsilons 706 = Entferne graphemische
Epsilons 706
- Character sequence = Zeichensequenz