-
Die
vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines
Systems zur sprachlichen Wiedergabe von Text (TTS) gemäß Patentanspruch
1 und ein Mobiltelefon gemäß Patentanspruch
13, das solch ein TTS-System umfasst.
-
Ein
System zur sprachlichen Wiedergabe von Text (TTS für engl.
text to speech) wandelt Text in Sprache um und bezieht das Bestimmen
der korrekten Aussprache ein. 1 stellt
ein typisches TTS-System dar, welches vier typische Verarbeitungsschritte
umfasst. Der eingegebene Text wird im ersten Verarbeitungsschritt analysiert,
segmentiert und normalisiert. Im zweiten Schritt wird der normalisierte
Text morphologisch und syntaktisch analysiert, um die Wörter oder
morphologischen Textelemente und die Syntax dieser Wörter in
eine Notation, welche die Aussprache darstellt, zu bestimmen. Diese
Notation oder dieser linguistische Text wird in Schritt drei zusammen
mit prosodischen Parametern kombiniert. Schließlich wird der linguistische
Text zusammen mit der Prosodie unter Verwendung der Aussprachenotation
synthetisiert, um die sprachliche Wiedergabe des eingegebenen Textes
auszugeben.
-
Die
Erfindung ist an solch ein TTS-System gerichtet und bezieht wenigstens
eine Verbesserung von Schritt 2 beim Bestimmen der Aussprache ein.
-
Bisher
wurden zwei Verfahren zum Bestimmen der Aussprache vorgeschlagen.
Das erste Verfahren ist, Ausspracheregeln zu verwenden. Diese Regeln
werden normalerweise basierend auf einer extensiven Kenntnis und
einem extensiven Umgang mit der Sprache, die im TTS-System verwendet
wird, entwickelt (entweder manuell oder automatisch). Beispiele
für die
Konstruktionen für
solche Regeln sind in den folgenden Bezugsquellen zu finden:
- [1] The CMU Pronouncing Dictionary (http://www.speech.cs.cmu.edu/cgi-bin/cmudict)
- [2] „Phonemic
transcription by analogy in text to speech synthesis: Novel word
pronounciation and lexicon comression" von Bagshaw, Computer Speech and Language
(1998), Bd. 12, Seiten 119–142.
-
Die
historisch frühesten
TTS-Systeme verwendeten solche Regeln extensiv. Der Hauptvorteil
dieses Verfahrens sind die geringen Speicherplatzanforderungen.
Mit der Verbesserung der Qualität
des TTS-Systems wurden auch die Aussprachefehler des regelbasierten
Verfahrens offensichtlicher.
-
Die
Technik entwickelte sich, um das zweite Verfahren abzuleiten, das
ein Lexikon verwendet. Das Lexikon oder Wörterbuch speichert eine potenziell
große
Anzahl von eingegebenen Wörtern
zusammen mit der dazugehörigen
Aussprache vorzugsweise für
alle syntaktischen Varianten des Wortes. Ein typisches Beispiel für zwei Einträge in solch
einem Lexikon ist wie folgt:
-
Jeder
Eintrag umfasst das Wort in der Form einer orthografischen Darstellung,
eines Feldes, das die syntaktische Kategorie des Wortes definiert,
und der Aussprache, wobei in diesem Fall eine phonetische Notation
verwendet wird. Demnach zeigen die beiden vorstehenden Einträge die beiden
Aussprachen für
das Wort „record" für die beiden
verschiedenen syntaktischen Kategorien. Einträge für viele andere Wörter sind
in der zuvor erwähnten
Bezugsquelle [1] zu finden.
-
Wenn
ein Wort nicht im Lexikon zu finden ist, dann greift das TTS auf
das Bestimmen der Aussprache unter Verwendung der Ausspracheregeln
zurück.
-
Es
stellte sich heraus, dass das Lexikonverfahren eine qualitativ höher stehende
Sprache als das Ausspracheregelverfahren erzeugt. Das Lexikonverfahren
benötigt
jedoch einen großen
Speicher, um das Lexikon zu speichern. In bestimmten Anwendungen
muss ein Kompromiss zwischen der Sprachqualität und der Größe des Speichers,
der verwendet werden kann, geschlossen werden. Bislang ist die gängigste
Art und Weise, diesen Kompromiss einzugehen, das Lexikon so zu konzipieren,
dass es nur Wörter
beinhaltet, von welchen es am wahrscheinlichsten ist, dass sie in
dieser Anwendung verwendet werden. Diese am häufigsten verwendeten Wörter müssen für die jeweilige
Anwendung analysiert werden. Solch ein Kompromiss und alternative
Möglichkeiten,
diesen Kompromiss einzugehen, werden unter dem zuvor erwähnten Bezugszeichen
[2] und in den folgenden Bezugsquellen beschrieben:
- [3] „Speech
Technology for Communications" von
Westall, Johnston & Lewis,
1998, ISBN 0 412 79080 7, Kapitel 6.
- [4] „Letter
to sound rules für
accented lexicon compression",
Pagel, Lenzo & Black,
ESCA98, 3rd International Workshop on Speech Synthesis, November
1998.
-
Demnach
beabsichtigt die vorliegende Erfindung, diesen Kompromiss einzugehen
und die Ausgewogenheit zwischen der Sprachqualität und der Speichergröße zu verbessern.
Im Wesentlichen betrifft die vorliegende Erfindung das Anpassen
der Inhalte im Speicher durch Hinzufügen oder Bewahren jener Wörter, die
am häufigsten
verwendet werden, und Löschen
jener Wörter,
die weniger häufig
verwendet werden.
-
Das
folgende Dokument ist ein Beispiel für ein Synthesesystem zur sprachlichen
Wiedergabe von Text, wobei sowohl ein Lexikon als auch Ausspracheregeln
zum Handhaben von Ausnahmen verwendet werden:
-
Demgemäß betrifft
die vorliegende Erfindung ein Verfahren zum Realisieren eines Systems
zur sprachlichen Wiedergabe von Text (TTS), das ein Aussprachelexikon
und einen Speicher aufweist, welcher Ausspracheregeln enthält, wobei
das Verfahren umfasst:
Vergleichen jedes Wortes in dem Text
mit Wörtern
im Aussprachelexikon, um zu ermitteln, ob das gleiche Wort vorhanden
ist;
wenn das Wort ermittelt wird, dann Erhalten der Aussprache
des Wortes;
wenn das Wort nicht ermittelt wird, dann Anwenden
der Ausspracheregeln auf das Wort, um die Aussprache des Wortes
zu erhalten; wobei die Verbesserung im
Speichern jedes Wortes,
das nicht ermittelt wird, in einem Ausnahmenprotokoll; und
Hinzufügen der
am häufigsten
genannten Wörter
aus dem Ausnahmenprotokoll zum Aussprachelexikon liegt.
-
In
vielen Fällen
ist die Größe des Speichers
begrenzt. Demnach ermöglicht
das Verfahren es, das Lexikon, das im Speicher gespeichert ist,
so auszulegen, dass es nur die am häufigsten verwendeten Wörter bewahrt.
Dadurch wird die Notwendigkeit einer anfänglichen Analyse der Anwendung
des TTS-Systems umgangen. Außerdem
kann in vielen Anwendungen, in welche die Speichergröße stark
eingeschränkt
ist, wie beispielsweise in einem Mobiltelefon, die Sprachqualität erheblich
verbessert werden.
-
Demgemäß betrifft
die vorliegende Erfindung auch ein Mobiltelefon, welches ein TTS-System
umfasst, wie in den angehängten
Ansprüchen
definiert.
-
Ausführungsformen
der vorliegenden Erfindung werden nun als weiteres Beispiel unter
Bezugnahme auf die beiliegenden Zeichnungen beschrieben, wobei:
-
1 eine
Veranschaulichung eines TTS-Systems ist, auf welches die vorliegende
Erfindung angewendet werden kann;
-
2 eine
Veranschaulichung der vorliegenden Erfindung beim Bestimmen der
Aussprache ist;
-
3 eine
Veranschaulichung der Wechselbeziehung zwischen der Aussprachebestimmungsstufe und
einer Lexikonaktualisierungsstufe ist;
-
4 eine
Veranschaulichung der Lexikonaktualisierungsstufe ist;
-
5 eine
schematische Ansicht eines Mobiltelefons ist, welches ein TTS-System
gemäß der vorliegenden
Erfindung umfasst;
-
6 eine
schematische Ansicht eines mobilen Personalcomputer ist, welcher
ein TTS-System gemäß der vorliegenden
Erfindung umfasst; und
-
7 eine
schematische Ansicht einer Digitalkamera ist, welche ein TTS-System
gemäß der vorliegenden
Erfindung umfasst.
-
Wie
bereits erwähnt,
wandelt ein typisches TTS-System, wie in 1 dargestellt,
Text in Sprache um und analysiert in Schritt 2 den normalisierten
Text morphologisch und syntaktisch, um die Wörter oder morphologischen Textelemente
und die Syntax dieser Wörter
in eine Notation, welche die Aussprache darstellt, zu bestimmen.
Das TTS-System stellt fest, ob das Wort oder Textelement im Lexikon
vorhanden ist, und, wenn dies der Fall ist, erhält es die Aussprache, aber,
wenn nicht, dann wendet es Ausspracheregeln an, um die Aussprache
zu bestimmen. Die vorliegende Erfindung stellt eine Verbesserung
bereit, wie in 2 dargestellt.
-
Zunächst ist
in der Ausführungsform
der Speicher 2, welcher das Lexikon enthält, voll,
und ein Ausnahmenprotokoll 4 ist leer. Der Speicher 2 enthält für jeden
Eintrag wenigstens eine orthografische Darstellung des Wortes, die
syntaktische Kategorie und die Aussprache gemäß dem Stand der Technik. Außerdem enthält der Speicher 2 zwei
weitere Felder für
jeden Eintrag, nämlich
eine langfristige Häufigkeitszählung und
eine aktuelle Häufigkeitszählung. Die
langfristige Häufigkeitszählung speichert
die durchschnittliche Anzahl von Textelementen, die zwischen jedem
Auftreten eines Textelements analysiert wurden. Die aktuelle Häufigkeitszählung speichert
die aktuelle Anzahl von Textelementen, die seit dem letzten Auftreten
eins Textelements analysiert wurden.
-
Das
Ausnahmenprotokoll 4 enthält ähnlicherweise für jeden
Eintrag wenigstens die orthografische Darstellung des Wortes oder
Textelements, die syntaktische Kategorie und die Aussprache zusammen
mit der langfristigen Häufigkeitszählung und
der aktuellen Häufigkeitszählung.
-
Ein
Aussprachemodul 6 empfängt
das Wort oder morphologische Textelement. Das Modul 6 nimmt
jedes Textelement und sucht das Lexikon 2 ab, um zu ermitteln,
ob das Textelement im Lexikon 2 vorhanden ist. Wenn das
Textelement vorhanden ist, dann erhält das Modul die Aussprache.
Eine Lexikonsuch- und Statistikmodul 8 erhöht die aktuelle
Häufigkeitszählung für diesen
Eintrag, wenn das Textelement im Lexikon vorhanden ist. Jedes der
Module 6 oder 8 kann das Lexikon 2 absuchen.
-
Wenn
das Textelement nicht im Lexikon 2 vorhanden ist, dann
sucht das Aussprachemodul 6 das Ausnahmenprotokoll 4 ab,
um zu ermitteln, ob das Textelement im Ausnahmenprotokoll vorhanden
ist.
-
Wenn
das Textelement vorhanden ist, dann erhält das Modul 6 die
Aussprache vom Ausnahmenprotokoll 4. Wenn das Textelement
im Ausnahmenprotokoll vorhanden ist, wird außerdem die aktuelle Häufigkeitszählung für diesen
Eintrag erhöht.
-
Wenn
das Textelement nicht vorhanden ist, dann wendet das Modul die Ausspracheregeln
an, um die Aussprache für
das Textelement zu erhalten. Die Ausspracheregeln sind ein einem
Speicher (nicht dargestellt) gespeichert, der im Aussprachemodul 6 eingebaut
oder damit verbunden ist. Wenn das Textelement nicht vorhanden ist,
dann wird das Textelement außerdem
dem Ausnahmenprotokoll hinzugefügt,
wenn Platz im Ausnahmenprotokoll vorhanden ist. Wenn kein Platz
im Ausnahmenprotokoll vorhanden ist, dann ermittelt das Modul 6 das
Textelement mit der niedrigstgewichtigen Häufigkeitsstatistik, das bereits
im Ausnahmenprotokoll gespeichert ist, wie folgt:
k1·aktuelle
Häufigkeitszählung +
k2·langfristige
Häufigkeitszählung
-
Wenn
die niedrigstgewichtige Häufigkeitsstatistik
unter einer Schwelle k3 ist, dann ersetzt
das neue Textelement dasjenige, das im Ausnahmenprotokoll gespeichert
ist. wenn die niedrigstgewichtige Häufigkeitsstatistik über einer Schwelle
k3 ist, dann wird keine Maßnahme in
Bezug auf das neue Textelement ergriffen.
-
Demnach
ist das Ausnahmenprotokoll 4 nur auf jene Einträge beschränkt, welche
am häufigsten
auftreten und welche nicht im Lexikon 2 gefunden wurden.
-
In
der vorliegenden Erfindung wird das Lexikon 2 regelmäßig mit
Einträgen
aus dem Ausnahmenprotokoll 4 aktualisiert. Das Aktualisieren
kann in regelmäßigen Zeitabständen erfolgen,
oder es kann nach bestimmten Ereignissen oder einer Kombination
von beidem oder auch durch sich exponentiell ändernde Zeitspannen erfolgen,
um das Lexikon sehr häufig
zu aktualisieren, wenn es zum ersten Mal aktiviert wird, und weniger
häufig
danach, sobald ein optimaler Inhalt des Lexikons für die Anwendung,
in welcher das TTS realisiert wird, erreicht ist.
-
Bestimmte
Ereignisse umfassen, dass das Aussprachemodul 6 eine Gesamtzahl
von Textelementen verarbeitet hat, welche eine vorbestimmte Schwelle überschreitet,
oder dass das Ausnahmenprotokoll voll ist, oder das Ereignis könnte durch
einen Benutzer eintreten, der das System betätigt, oder dass die Anwendung, in
welcher das System realisiert wird, Zugriff auf ein Fernaussprachelexikon
hat, das im Folgenden ausführlicher
zu erörtern
ist.
-
3 veranschaulicht
die Wechselbeziehung zwischen der Aussprachebestimmungsstufe und
der Lexikonaktualisierungsstufe. Die Lexikonaktualisierungsstufe
wird nur ausgeführt,
wenn das TTS-System keinen Text verarbeitet und keine Sprache ausgibt
und umgekehrt. Wenn das TTS-System das Lexikon nach einem der Ereignisse
oder zu einem bestimmten Zeitpunkt, wie zuvor erörtert, aktualisieren soll,
deaktiviert ein Schalter 12 die Aussprachestufe und aktiviert
die Lexikonaktualisierungsstufe.
-
Wie
in 4 dargestellt, berechnet zunächst ein Lexikonaktualisierungssteuermodul 14 die
mittlere Häufigkeitsstatistik
und aktualisiert die langfristige Häufigkeitszählung im Aussprachelexikon
ebenso wie im Ausnahmenprotokoll. Die mittlere Häufigkeitsstatistik wird als
eine gewichtete Funktion folgendermaßen aktualisiert:
langfristige
Häufigkeitszählung =
k4·langfristige
Häufigkeitszählung +
k5·aktuelle
Häufigkeitszählung
-
Die
Konstanten k4 und k5 können für das Ausnahmenprotokoll
und das Aussprachelexikon verschieden sein, und sie können fest
oder veränderlich
sein. Zum Beispiel können
sich die Konstanten in Abhängigkeit von
der Anzahl von Textelementen ändern,
die verarbeitet wurden, seit das Lexikon zuletzt aktualisiert wurde.
-
Die
aktuelle Häufigkeitszählung für jeden
Eintrag wird auf null zurückgestellt.
-
Sobald
die langfristige Häufigkeitszählung aktualisiert
und die aktuelle Häufigkeitszählung zurückgestellt
ist, vergleicht das Lexikonaktualisierungssteuermodul 8 eine
Löschliste
vom Aussprachelexikon 2, welche alle Einträge umfasst,
deren langfristige Häufigkeitszählung unter
einer Löschkandidatenschwelle
ist, und eine Hinzufügungskandidatenliste
vom Ausnahmenprotokoll für
alle Einträge,
bei welchen die langfristige Häufigkeitszählung über der
Hinzufügungskandidatenschwelle
ist. Die Hinzufügungszählungsschwelle
kann auf null eingestellt werden oder nicht.
-
Demnach
sind Textelemente in der Löschliste
jene, auf welche das TTS-System selten stößt. Infolgedessen würde ihre
Löschung
aus dem Aussprachelexikon einbeziehen, dass es keine signifikante
Verschlechterung der Sprachqualität gäbe.
-
Die
Hinzufügungskandidatenliste
ist gemäß der langfristigen
Häufigkeitszählung in
absteigender Reihenfolge sortiert. Das heißt, die wahrscheinlichsten
Textelemente werden zuerst hinzugefügt. Die Löschkandidatenliste ist gemäß der langfristigen
Häufigkeitszählung in
aufsteigender Reihenfolge sortiert. Das heißt, der wahrscheinlichste Löschkandidat
zuerst.
-
Das
Lexikonaktualisierungssteuermodul 14 analysiert die Hinzufügungskandidatenliste
und die Löschkandidatenliste
Eintrag für
Eintrag, wobei der wahrscheinlichste Hinzufügungskandidat den nächsten Löschkandidaten
ersetzt, wenn die langfristige Häufigkeitszählung des
Hinzufügungskandidaten
höher als
die langfristige Häufigkeitszählung des
Löschkandidaten
ist.
-
Die
Anzahl von Einträgen
in der Hinzufügungsliste
kann gleich der Anzahl von Einträgen
in der Löschliste
sein oder nicht. Die verschiedenen Schwellen und Konstanten können in
Abhängigkeit
von früheren
Lexikonaktualisierungsstufen angepasst werden.
-
Wann
immer ein Textelement aus der Hinzufügungsliste einen Löschkandidaten
ersetzt, wird der Hinzufügungskandidat
im Ausnahmenprotokoll gelöscht,
und die langfristige Häufigkeitszählung wird
auf null zurückgestellt.
-
Außerdem ist,
wenn ein Textelement aus der Hinzufügungsliste einen Löschkandidaten
ersetzt, eine Überprüfung der
Aussprache des Textelements erforderlich. Die Überprüfung kann durch eine von zwei
Möglichkeiten
bewerkstelligt werden und wird von einem Ausspracheerfassungsmodul 16 durchgeführt.
-
Die
erste Möglichkeit
ist, den Benutzer aufzufordern, die korrekte Aussprache für das Textelement
zu definieren. In diesem Fall fordert das Ausspracheerfassungsmodul 16 ein Benutzerdialogmodul 18 auf,
einen Überprüfungsdialog
mit dem Benutzer zu beginnen. Der Dialog umfasst eine Wechselbeziehung
mit dem Benutzer über
eine Benutzschnittstelle 20. Die Benutzerschnittstelle
umfasst einen Bildschirm, eine Tastatur und einen Sprachdialog.
In dieser Ausführungsform
meldet das Benutzerdialogmodul 16, dass ein Überprüfungsdialog
mit dem Benutzer beginnen soll, und fordert eine Bestätigung vom
Benutzer. Wenn keine Bestätigung empfangen
wird, dann wird der Überprüfungsdialog
für eine
Zeitspanne aufgeschoben. Sobald eine Bestätigung empfangen wird, zeigt
das Benutzerdialogmodul 18 Textelemente auf dem Bildschirm
zusammen mit der Syntaxkategorie und der Aussprache für gewöhnlich in
der Form einer phonetischen Notation an. Der Benutzer wird aufgefordert, über die
Tastatur eine Bestätigung
einzugeben, dass die Textelementdefinition korrekt ist. Wenn der
Benutzer mit der phonetischen Notation nicht vertraut ist, dann
kann der Benutzer das Textelement auf eine phonetischere Weise bestätigen oder
korrigieren. Es gibt auch die Option für den Benutzer, anzuzeigen,
dass das TTS-System das Textelement mit der definierten Aussprache
ausgeben sollte, damit der Benutzer auditiv überprüfen kann, dass die korrekte
Aussprache definiert ist. Schließlich kann der Benutzer dann, wenn
das Textelement eine Abkürzung
oder ein Akronym ist, das Textelement in seiner vollen Form eingeben.
-
Die
zweite Möglichkeit
zur Überprüfung umfasst
die Wechselbeziehung mit einem Fernaussprachelexikon 22.
In diesem Fall liefert das Fernaussprachelexikon 22 die Überprüfung der
Aussprache des Textelements. Wenn das Textelement im Fernaussprachelexikon
fehlt, dann muss die korrekte Aussprache vom Benutzer gemäß der ersten
Möglichkeit überprüft werden.
-
Das
Fernaussprachelexikon 22 ist normalerweise sehr groß, weshalb
es unwahrscheinlich wäre,
dass es innerhalb der Anwendung, welche das TTS-System realisiert,
gespeichert wird. Die Verfügbarkeit
des Fernaussprachelexikons wäre
abhängig
von der Verfügbarkeit
des Zugriffs, der für
gewöhnlich
physikalischen oder kostenmäßigen Überlegungen
unterliegt.
-
Das
Ausspracheerfassungsmodul 16 beauftragt ein Fernlexikonzugriffsmodul 24,
festzustellen, ob auf das Fernaussprachelexikon 22 zugegriffen
werden kann. Dies bezieht ein, dass das Fernlexikonzugriffsmodul 24 eine Übertragungsverbindungsteuerung 26 aktiviert.
Die Übertragungsverbindungssteuerung 26 leitet
eine Übertragungsverbindung
zu einer anderen Übertragungsverbindungssteuerung 28 ein.
Die Übertragungsverbindung
kann eine jede derjenigen umfassen, die auf dem Fachgebiet bekannt
sind, wie beispielsweise eine Infrarotverbindung; eine drahtlose
Verbindung, wie beispielsweise die GSM-Luftschnittstelle, GDM-Datenkanäle oder
GSM-Kurznachrichtendienstkanäle;
oder eine Kabelverbindung, welche die Anwendung, in der das TTS
realisiert wird, mit einem Computer oder einem Wirts-PC verbindet.
Die Übertragungsverbindungen 26, 28 greifen
auf das Fernaussprachelexikon 22 über einen Fernlexikonserver 30 zu.
-
Die
Hinzufügungskandidatenliste
und die überprüfte Aussprache
werden an ein Lexikonaktualisierungsmodul 32 weitergeleitet.
Das Lexikonaktualisierungsmodul 32 aktualisiert das Aussprachelexikon 2 durch Überschreiben
jener Einträge
im Aussprachelexikon, die zur Auflistung in der Löschliste
markiert und in der Hinzufügungskandidatenliste
vorhanden sind, mit jenen, die der Hinzufügungskandidatenliste hinzuzufügen sind.
-
Demnach
ermöglicht
die vorliegende Erfindung es, die Größe des Aussprachelexikons zu
minimieren und infolgedessen die Speichergröße des TTS-Systems zu reduzieren.
Um sicherzustellen, dass dies nicht zu einem unannehmbaren Verlust
von Sprachqualität
führt,
stellt das Verfahren Schritte zum An passen der Inhalte des Aussprachelexikons
bereit, damit es nur jene Einträge
enthält,
auf welche das TTS-System am häufigsten
stößt.
-
Die
vorliegende Erfindung ist vorteilhaft zur Verwendung in kleinen,
mobilen elektronischen Produkten, wie beispielsweise Mobiltelefonen,
Computern, CD-Spielern, DVD-Spielern und dergleichen, obwohl sie
nicht darauf beschränkt
ist.
-
Es
werden nun mehrere elektronische Vorrichtungen beschrieben, welche
das TTS-System verwenden.
-
<1: Tragbares Telefon>
-
Es
wird nun ein Beispiel beschrieben, in welchem das TTS-System auf ein tragbares
oder mobiles Telefon angewendet wird. 5 ist eine
isometrische Ansicht, welche die Konfiguration des tragbaren Telefons veranschaulicht.
In der Zeichnung ist das tragbare Telefon 1200 mit einer
Mehrzahl von Bedienungstasten 1202, einer Hörmuschel 1204,
einer Sprechmuschel 1206 und einem Anzeigefeld 100 versehen.
Die Sprechmuschel 1206 oder die Hörmuschel 1204 können zur
Ausgabe von Sprache verwendet werden.
-
<2: Mobiler Computer>
-
Es
wird nun ein Beispiel beschrieben, in welchem das TTS-System gemäß einer
der zuvor dargelegten Ausführungsformen
auf einen mobilen Personalcomputer angewendet wird.
-
6 ist
ein isometrische Ansicht, welche die Konfiguration dieses Personalcomputers
veranschaulicht. In der Zeichnung ist der Personalcomputer 1100 mit
einem Körper 1104 versehen,
welcher eine Taststur 1102 und eine Anzeigeeinheit 1106 umfasst.
Das TTS-System kann die Anzeigeeinheit 1106 oder die Tastatur 1102 verwenden,
um die Benutzerschnittstelle gemäß der vorliegenden
Erfindung bereitzustellen, wie zuvor beschrieben.
-
<3: Digitale Standbildkamera>
-
Als
Nächstes
wird eine digitale Standbildkamera beschrieben, welche ein TTS-System
verwendet. 7 ist eine isometrische Ansicht,
welche die Konfiguration der digitalen Standbildkamera und die Verbindung
mit externen Geräten
kurz veranschaulicht.
-
Typische
Kameras sensibilisieren Filme basierend auf optischen Bildern von
Objekten, wohingegen die digitale Standbildkamera 1300 Bildgebungssignale
vom optischen Bild eines Objekts durch fotoelektrische Umwandlung
zum Beispiel unter Verwendung eines ladungsgekoppelten Bildwandlers
(CCD für
engl. charge coupled device) erzeugt. Die digitale Standbildkamera 1300 ist
an der Rückseite
eines Gehäuses 1302 mit
einem OEL-Element 100 versehen, um basierend auf den Bildgebungssignalen
vom CCD eine Anzeige durchzuführen.
Eine Fotoaufnahmeeinheit 1304, welche optische Linsen und
den CCD umfasst, ist an der Vorderseite (in der Zeichnung hinten)
des Gehäuses 1302 vorgesehen.
Das TTS-System kann in der digitalen Standbildkamera realisiert
sein.
-
Weitere
Beispiele von elektronischen Vorrichtungen außer dem Personalcomputer, der
in 6 dargestellt ist, dem tragbaren Telefon, das
in 5 dargestellt ist, und der digitalen Standbildkamera,
die in 7 dargestellt ist, umfassen Fernsehapparate, Videoaufzeichnungsgeräte der Sucher-
und Überwachungsart, Fahrzeugnavigationssysteme,
Pager, elektronische Notebooks, tragbare Rechenmaschinen, Textverarbeitungsgeräte, Arbeitsplatzrechner,
TV-Telefone, Kassensystemterminals (POS für engl. point of sale) und
Vorrichtungen, die mit Berührungsbildschirmen
versehen sind. Natürlich
kann das TTS-System auf jede dieser elektronischen Vorrichtungen
angewendet werden.
-
Die
vorstehende Beschreibung erfolgte lediglich als Beispiel, und für einen
Fachmann ist zu erkennen, dass Modifikationen vorgenommen werden
können,
ohne sich vom Rahmen der vorliegenden Erfindung zu entfernen.
-
Zum
Beispiel speichert das Ausnahmenprotokoll möglicherweise nicht immer die
Aussprache eines Wortes, das nicht im Lexikon gefunden wurde, sondern
nur das Wort selbst zusammen mit den durchschnittlichen und aktuellen
Häufigkeitszählungen.
Das Lexikon ist möglicherweise
anfänglich
nicht immer voll, sondern das Lexikon ist vielmehr leer, und alle
Wörter,
die zunächst
einmal genannt werden, werden im Lexikon gespeichert. Das Aussprachemodul
und das Lexikonaktualisierungsmodul stellen möglicherweise nicht die Schwellen
und Konstanten ein, sondern diese werden vielmehr vorgegeben. In
bestimmten Fällen
ist die Anzahl von Einträgen
in der Löschliste
möglicherweise
nicht gleich der Anzahl in der Hinzufügungsliste.
-
Außerdem könnte das
Lexikon ständig
aktualisiert werden, anstatt zu warten, bis die Aussprachestufe angehalten
hat, und dann von der Aussprachestufe auf die Lexikonaktualisierungsstufe
umzuschalten.
-
Das
TTS-System der vorliegenden Erfindung kann mit oder ohne Speicher
für das
Lexikon und das Ausnahmenprotokoll und mit oder ohne Mittel zum
Ausgeben eines Sprachcodierers/decodierers (CODEC) auf einem einzigen
Halbleiterchip angeordnet werden.