DE60309131T2 - Verfahren zur adaptation eines aussprache-lexikons für die sprachsynthese - Google Patents

Verfahren zur adaptation eines aussprache-lexikons für die sprachsynthese Download PDF

Info

Publication number
DE60309131T2
DE60309131T2 DE60309131T DE60309131T DE60309131T2 DE 60309131 T2 DE60309131 T2 DE 60309131T2 DE 60309131 T DE60309131 T DE 60309131T DE 60309131 T DE60309131 T DE 60309131T DE 60309131 T2 DE60309131 T2 DE 60309131T2
Authority
DE
Germany
Prior art keywords
pronunciation
word
tts system
words
lexicon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60309131T
Other languages
English (en)
Other versions
DE60309131D1 (de
Inventor
John Anderton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Application granted granted Critical
Publication of DE60309131D1 publication Critical patent/DE60309131D1/de
Publication of DE60309131T2 publication Critical patent/DE60309131T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines Systems zur sprachlichen Wiedergabe von Text (TTS) gemäß Patentanspruch 1 und ein Mobiltelefon gemäß Patentanspruch 13, das solch ein TTS-System umfasst.
  • Ein System zur sprachlichen Wiedergabe von Text (TTS für engl. text to speech) wandelt Text in Sprache um und bezieht das Bestimmen der korrekten Aussprache ein. 1 stellt ein typisches TTS-System dar, welches vier typische Verarbeitungsschritte umfasst. Der eingegebene Text wird im ersten Verarbeitungsschritt analysiert, segmentiert und normalisiert. Im zweiten Schritt wird der normalisierte Text morphologisch und syntaktisch analysiert, um die Wörter oder morphologischen Textelemente und die Syntax dieser Wörter in eine Notation, welche die Aussprache darstellt, zu bestimmen. Diese Notation oder dieser linguistische Text wird in Schritt drei zusammen mit prosodischen Parametern kombiniert. Schließlich wird der linguistische Text zusammen mit der Prosodie unter Verwendung der Aussprachenotation synthetisiert, um die sprachliche Wiedergabe des eingegebenen Textes auszugeben.
  • Die Erfindung ist an solch ein TTS-System gerichtet und bezieht wenigstens eine Verbesserung von Schritt 2 beim Bestimmen der Aussprache ein.
  • Bisher wurden zwei Verfahren zum Bestimmen der Aussprache vorgeschlagen. Das erste Verfahren ist, Ausspracheregeln zu verwenden. Diese Regeln werden normalerweise basierend auf einer extensiven Kenntnis und einem extensiven Umgang mit der Sprache, die im TTS-System verwendet wird, entwickelt (entweder manuell oder automatisch). Beispiele für die Konstruktionen für solche Regeln sind in den folgenden Bezugsquellen zu finden:
    • [1] The CMU Pronouncing Dictionary (http://www.speech.cs.cmu.edu/cgi-bin/cmudict)
    • [2] „Phonemic transcription by analogy in text to speech synthesis: Novel word pronounciation and lexicon comression" von Bagshaw, Computer Speech and Language (1998), Bd. 12, Seiten 119–142.
  • Die historisch frühesten TTS-Systeme verwendeten solche Regeln extensiv. Der Hauptvorteil dieses Verfahrens sind die geringen Speicherplatzanforderungen. Mit der Verbesserung der Qualität des TTS-Systems wurden auch die Aussprachefehler des regelbasierten Verfahrens offensichtlicher.
  • Die Technik entwickelte sich, um das zweite Verfahren abzuleiten, das ein Lexikon verwendet. Das Lexikon oder Wörterbuch speichert eine potenziell große Anzahl von eingegebenen Wörtern zusammen mit der dazugehörigen Aussprache vorzugsweise für alle syntaktischen Varianten des Wortes. Ein typisches Beispiel für zwei Einträge in solch einem Lexikon ist wie folgt:
    Figure 00020001
  • Jeder Eintrag umfasst das Wort in der Form einer orthografischen Darstellung, eines Feldes, das die syntaktische Kategorie des Wortes definiert, und der Aussprache, wobei in diesem Fall eine phonetische Notation verwendet wird. Demnach zeigen die beiden vorstehenden Einträge die beiden Aussprachen für das Wort „record" für die beiden verschiedenen syntaktischen Kategorien. Einträge für viele andere Wörter sind in der zuvor erwähnten Bezugsquelle [1] zu finden.
  • Wenn ein Wort nicht im Lexikon zu finden ist, dann greift das TTS auf das Bestimmen der Aussprache unter Verwendung der Ausspracheregeln zurück.
  • Es stellte sich heraus, dass das Lexikonverfahren eine qualitativ höher stehende Sprache als das Ausspracheregelverfahren erzeugt. Das Lexikonverfahren benötigt jedoch einen großen Speicher, um das Lexikon zu speichern. In bestimmten Anwendungen muss ein Kompromiss zwischen der Sprachqualität und der Größe des Speichers, der verwendet werden kann, geschlossen werden. Bislang ist die gängigste Art und Weise, diesen Kompromiss einzugehen, das Lexikon so zu konzipieren, dass es nur Wörter beinhaltet, von welchen es am wahrscheinlichsten ist, dass sie in dieser Anwendung verwendet werden. Diese am häufigsten verwendeten Wörter müssen für die jeweilige Anwendung analysiert werden. Solch ein Kompromiss und alternative Möglichkeiten, diesen Kompromiss einzugehen, werden unter dem zuvor erwähnten Bezugszeichen [2] und in den folgenden Bezugsquellen beschrieben:
    • [3] „Speech Technology for Communications" von Westall, Johnston & Lewis, 1998, ISBN 0 412 79080 7, Kapitel 6.
    • [4] „Letter to sound rules für accented lexicon compression", Pagel, Lenzo & Black, ESCA98, 3rd International Workshop on Speech Synthesis, November 1998.
  • Demnach beabsichtigt die vorliegende Erfindung, diesen Kompromiss einzugehen und die Ausgewogenheit zwischen der Sprachqualität und der Speichergröße zu verbessern. Im Wesentlichen betrifft die vorliegende Erfindung das Anpassen der Inhalte im Speicher durch Hinzufügen oder Bewahren jener Wörter, die am häufigsten verwendet werden, und Löschen jener Wörter, die weniger häufig verwendet werden.
  • Das folgende Dokument ist ein Beispiel für ein Synthesesystem zur sprachlichen Wiedergabe von Text, wobei sowohl ein Lexikon als auch Ausspracheregeln zum Handhaben von Ausnahmen verwendet werden:
    • [5] US 2002/01203648-A1.
  • Demgemäß betrifft die vorliegende Erfindung ein Verfahren zum Realisieren eines Systems zur sprachlichen Wiedergabe von Text (TTS), das ein Aussprachelexikon und einen Speicher aufweist, welcher Ausspracheregeln enthält, wobei das Verfahren umfasst:
    Vergleichen jedes Wortes in dem Text mit Wörtern im Aussprachelexikon, um zu ermitteln, ob das gleiche Wort vorhanden ist;
    wenn das Wort ermittelt wird, dann Erhalten der Aussprache des Wortes;
    wenn das Wort nicht ermittelt wird, dann Anwenden der Ausspracheregeln auf das Wort, um die Aussprache des Wortes zu erhalten; wobei die Verbesserung im
    Speichern jedes Wortes, das nicht ermittelt wird, in einem Ausnahmenprotokoll; und
    Hinzufügen der am häufigsten genannten Wörter aus dem Ausnahmenprotokoll zum Aussprachelexikon liegt.
  • In vielen Fällen ist die Größe des Speichers begrenzt. Demnach ermöglicht das Verfahren es, das Lexikon, das im Speicher gespeichert ist, so auszulegen, dass es nur die am häufigsten verwendeten Wörter bewahrt. Dadurch wird die Notwendigkeit einer anfänglichen Analyse der Anwendung des TTS-Systems umgangen. Außerdem kann in vielen Anwendungen, in welche die Speichergröße stark eingeschränkt ist, wie beispielsweise in einem Mobiltelefon, die Sprachqualität erheblich verbessert werden.
  • Demgemäß betrifft die vorliegende Erfindung auch ein Mobiltelefon, welches ein TTS-System umfasst, wie in den angehängten Ansprüchen definiert.
  • Ausführungsformen der vorliegenden Erfindung werden nun als weiteres Beispiel unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, wobei:
  • 1 eine Veranschaulichung eines TTS-Systems ist, auf welches die vorliegende Erfindung angewendet werden kann;
  • 2 eine Veranschaulichung der vorliegenden Erfindung beim Bestimmen der Aussprache ist;
  • 3 eine Veranschaulichung der Wechselbeziehung zwischen der Aussprachebestimmungsstufe und einer Lexikonaktualisierungsstufe ist;
  • 4 eine Veranschaulichung der Lexikonaktualisierungsstufe ist;
  • 5 eine schematische Ansicht eines Mobiltelefons ist, welches ein TTS-System gemäß der vorliegenden Erfindung umfasst;
  • 6 eine schematische Ansicht eines mobilen Personalcomputer ist, welcher ein TTS-System gemäß der vorliegenden Erfindung umfasst; und
  • 7 eine schematische Ansicht einer Digitalkamera ist, welche ein TTS-System gemäß der vorliegenden Erfindung umfasst.
  • Wie bereits erwähnt, wandelt ein typisches TTS-System, wie in 1 dargestellt, Text in Sprache um und analysiert in Schritt 2 den normalisierten Text morphologisch und syntaktisch, um die Wörter oder morphologischen Textelemente und die Syntax dieser Wörter in eine Notation, welche die Aussprache darstellt, zu bestimmen. Das TTS-System stellt fest, ob das Wort oder Textelement im Lexikon vorhanden ist, und, wenn dies der Fall ist, erhält es die Aussprache, aber, wenn nicht, dann wendet es Ausspracheregeln an, um die Aussprache zu bestimmen. Die vorliegende Erfindung stellt eine Verbesserung bereit, wie in 2 dargestellt.
  • Zunächst ist in der Ausführungsform der Speicher 2, welcher das Lexikon enthält, voll, und ein Ausnahmenprotokoll 4 ist leer. Der Speicher 2 enthält für jeden Eintrag wenigstens eine orthografische Darstellung des Wortes, die syntaktische Kategorie und die Aussprache gemäß dem Stand der Technik. Außerdem enthält der Speicher 2 zwei weitere Felder für jeden Eintrag, nämlich eine langfristige Häufigkeitszählung und eine aktuelle Häufigkeitszählung. Die langfristige Häufigkeitszählung speichert die durchschnittliche Anzahl von Textelementen, die zwischen jedem Auftreten eines Textelements analysiert wurden. Die aktuelle Häufigkeitszählung speichert die aktuelle Anzahl von Textelementen, die seit dem letzten Auftreten eins Textelements analysiert wurden.
  • Das Ausnahmenprotokoll 4 enthält ähnlicherweise für jeden Eintrag wenigstens die orthografische Darstellung des Wortes oder Textelements, die syntaktische Kategorie und die Aussprache zusammen mit der langfristigen Häufigkeitszählung und der aktuellen Häufigkeitszählung.
  • Ein Aussprachemodul 6 empfängt das Wort oder morphologische Textelement. Das Modul 6 nimmt jedes Textelement und sucht das Lexikon 2 ab, um zu ermitteln, ob das Textelement im Lexikon 2 vorhanden ist. Wenn das Textelement vorhanden ist, dann erhält das Modul die Aussprache. Eine Lexikonsuch- und Statistikmodul 8 erhöht die aktuelle Häufigkeitszählung für diesen Eintrag, wenn das Textelement im Lexikon vorhanden ist. Jedes der Module 6 oder 8 kann das Lexikon 2 absuchen.
  • Wenn das Textelement nicht im Lexikon 2 vorhanden ist, dann sucht das Aussprachemodul 6 das Ausnahmenprotokoll 4 ab, um zu ermitteln, ob das Textelement im Ausnahmenprotokoll vorhanden ist.
  • Wenn das Textelement vorhanden ist, dann erhält das Modul 6 die Aussprache vom Ausnahmenprotokoll 4. Wenn das Textelement im Ausnahmenprotokoll vorhanden ist, wird außerdem die aktuelle Häufigkeitszählung für diesen Eintrag erhöht.
  • Wenn das Textelement nicht vorhanden ist, dann wendet das Modul die Ausspracheregeln an, um die Aussprache für das Textelement zu erhalten. Die Ausspracheregeln sind ein einem Speicher (nicht dargestellt) gespeichert, der im Aussprachemodul 6 eingebaut oder damit verbunden ist. Wenn das Textelement nicht vorhanden ist, dann wird das Textelement außerdem dem Ausnahmenprotokoll hinzugefügt, wenn Platz im Ausnahmenprotokoll vorhanden ist. Wenn kein Platz im Ausnahmenprotokoll vorhanden ist, dann ermittelt das Modul 6 das Textelement mit der niedrigstgewichtigen Häufigkeitsstatistik, das bereits im Ausnahmenprotokoll gespeichert ist, wie folgt:
    k1·aktuelle Häufigkeitszählung + k2·langfristige Häufigkeitszählung
  • Wenn die niedrigstgewichtige Häufigkeitsstatistik unter einer Schwelle k3 ist, dann ersetzt das neue Textelement dasjenige, das im Ausnahmenprotokoll gespeichert ist. wenn die niedrigstgewichtige Häufigkeitsstatistik über einer Schwelle k3 ist, dann wird keine Maßnahme in Bezug auf das neue Textelement ergriffen.
  • Demnach ist das Ausnahmenprotokoll 4 nur auf jene Einträge beschränkt, welche am häufigsten auftreten und welche nicht im Lexikon 2 gefunden wurden.
  • In der vorliegenden Erfindung wird das Lexikon 2 regelmäßig mit Einträgen aus dem Ausnahmenprotokoll 4 aktualisiert. Das Aktualisieren kann in regelmäßigen Zeitabständen erfolgen, oder es kann nach bestimmten Ereignissen oder einer Kombination von beidem oder auch durch sich exponentiell ändernde Zeitspannen erfolgen, um das Lexikon sehr häufig zu aktualisieren, wenn es zum ersten Mal aktiviert wird, und weniger häufig danach, sobald ein optimaler Inhalt des Lexikons für die Anwendung, in welcher das TTS realisiert wird, erreicht ist.
  • Bestimmte Ereignisse umfassen, dass das Aussprachemodul 6 eine Gesamtzahl von Textelementen verarbeitet hat, welche eine vorbestimmte Schwelle überschreitet, oder dass das Ausnahmenprotokoll voll ist, oder das Ereignis könnte durch einen Benutzer eintreten, der das System betätigt, oder dass die Anwendung, in welcher das System realisiert wird, Zugriff auf ein Fernaussprachelexikon hat, das im Folgenden ausführlicher zu erörtern ist.
  • 3 veranschaulicht die Wechselbeziehung zwischen der Aussprachebestimmungsstufe und der Lexikonaktualisierungsstufe. Die Lexikonaktualisierungsstufe wird nur ausgeführt, wenn das TTS-System keinen Text verarbeitet und keine Sprache ausgibt und umgekehrt. Wenn das TTS-System das Lexikon nach einem der Ereignisse oder zu einem bestimmten Zeitpunkt, wie zuvor erörtert, aktualisieren soll, deaktiviert ein Schalter 12 die Aussprachestufe und aktiviert die Lexikonaktualisierungsstufe.
  • Wie in 4 dargestellt, berechnet zunächst ein Lexikonaktualisierungssteuermodul 14 die mittlere Häufigkeitsstatistik und aktualisiert die langfristige Häufigkeitszählung im Aussprachelexikon ebenso wie im Ausnahmenprotokoll. Die mittlere Häufigkeitsstatistik wird als eine gewichtete Funktion folgendermaßen aktualisiert:
    langfristige Häufigkeitszählung = k4·langfristige Häufigkeitszählung + k5·aktuelle Häufigkeitszählung
  • Die Konstanten k4 und k5 können für das Ausnahmenprotokoll und das Aussprachelexikon verschieden sein, und sie können fest oder veränderlich sein. Zum Beispiel können sich die Konstanten in Abhängigkeit von der Anzahl von Textelementen ändern, die verarbeitet wurden, seit das Lexikon zuletzt aktualisiert wurde.
  • Die aktuelle Häufigkeitszählung für jeden Eintrag wird auf null zurückgestellt.
  • Sobald die langfristige Häufigkeitszählung aktualisiert und die aktuelle Häufigkeitszählung zurückgestellt ist, vergleicht das Lexikonaktualisierungssteuermodul 8 eine Löschliste vom Aussprachelexikon 2, welche alle Einträge umfasst, deren langfristige Häufigkeitszählung unter einer Löschkandidatenschwelle ist, und eine Hinzufügungskandidatenliste vom Ausnahmenprotokoll für alle Einträge, bei welchen die langfristige Häufigkeitszählung über der Hinzufügungskandidatenschwelle ist. Die Hinzufügungszählungsschwelle kann auf null eingestellt werden oder nicht.
  • Demnach sind Textelemente in der Löschliste jene, auf welche das TTS-System selten stößt. Infolgedessen würde ihre Löschung aus dem Aussprachelexikon einbeziehen, dass es keine signifikante Verschlechterung der Sprachqualität gäbe.
  • Die Hinzufügungskandidatenliste ist gemäß der langfristigen Häufigkeitszählung in absteigender Reihenfolge sortiert. Das heißt, die wahrscheinlichsten Textelemente werden zuerst hinzugefügt. Die Löschkandidatenliste ist gemäß der langfristigen Häufigkeitszählung in aufsteigender Reihenfolge sortiert. Das heißt, der wahrscheinlichste Löschkandidat zuerst.
  • Das Lexikonaktualisierungssteuermodul 14 analysiert die Hinzufügungskandidatenliste und die Löschkandidatenliste Eintrag für Eintrag, wobei der wahrscheinlichste Hinzufügungskandidat den nächsten Löschkandidaten ersetzt, wenn die langfristige Häufigkeitszählung des Hinzufügungskandidaten höher als die langfristige Häufigkeitszählung des Löschkandidaten ist.
  • Die Anzahl von Einträgen in der Hinzufügungsliste kann gleich der Anzahl von Einträgen in der Löschliste sein oder nicht. Die verschiedenen Schwellen und Konstanten können in Abhängigkeit von früheren Lexikonaktualisierungsstufen angepasst werden.
  • Wann immer ein Textelement aus der Hinzufügungsliste einen Löschkandidaten ersetzt, wird der Hinzufügungskandidat im Ausnahmenprotokoll gelöscht, und die langfristige Häufigkeitszählung wird auf null zurückgestellt.
  • Außerdem ist, wenn ein Textelement aus der Hinzufügungsliste einen Löschkandidaten ersetzt, eine Überprüfung der Aussprache des Textelements erforderlich. Die Überprüfung kann durch eine von zwei Möglichkeiten bewerkstelligt werden und wird von einem Ausspracheerfassungsmodul 16 durchgeführt.
  • Die erste Möglichkeit ist, den Benutzer aufzufordern, die korrekte Aussprache für das Textelement zu definieren. In diesem Fall fordert das Ausspracheerfassungsmodul 16 ein Benutzerdialogmodul 18 auf, einen Überprüfungsdialog mit dem Benutzer zu beginnen. Der Dialog umfasst eine Wechselbeziehung mit dem Benutzer über eine Benutzschnittstelle 20. Die Benutzerschnittstelle umfasst einen Bildschirm, eine Tastatur und einen Sprachdialog. In dieser Ausführungsform meldet das Benutzerdialogmodul 16, dass ein Überprüfungsdialog mit dem Benutzer beginnen soll, und fordert eine Bestätigung vom Benutzer. Wenn keine Bestätigung empfangen wird, dann wird der Überprüfungsdialog für eine Zeitspanne aufgeschoben. Sobald eine Bestätigung empfangen wird, zeigt das Benutzerdialogmodul 18 Textelemente auf dem Bildschirm zusammen mit der Syntaxkategorie und der Aussprache für gewöhnlich in der Form einer phonetischen Notation an. Der Benutzer wird aufgefordert, über die Tastatur eine Bestätigung einzugeben, dass die Textelementdefinition korrekt ist. Wenn der Benutzer mit der phonetischen Notation nicht vertraut ist, dann kann der Benutzer das Textelement auf eine phonetischere Weise bestätigen oder korrigieren. Es gibt auch die Option für den Benutzer, anzuzeigen, dass das TTS-System das Textelement mit der definierten Aussprache ausgeben sollte, damit der Benutzer auditiv überprüfen kann, dass die korrekte Aussprache definiert ist. Schließlich kann der Benutzer dann, wenn das Textelement eine Abkürzung oder ein Akronym ist, das Textelement in seiner vollen Form eingeben.
  • Die zweite Möglichkeit zur Überprüfung umfasst die Wechselbeziehung mit einem Fernaussprachelexikon 22. In diesem Fall liefert das Fernaussprachelexikon 22 die Überprüfung der Aussprache des Textelements. Wenn das Textelement im Fernaussprachelexikon fehlt, dann muss die korrekte Aussprache vom Benutzer gemäß der ersten Möglichkeit überprüft werden.
  • Das Fernaussprachelexikon 22 ist normalerweise sehr groß, weshalb es unwahrscheinlich wäre, dass es innerhalb der Anwendung, welche das TTS-System realisiert, gespeichert wird. Die Verfügbarkeit des Fernaussprachelexikons wäre abhängig von der Verfügbarkeit des Zugriffs, der für gewöhnlich physikalischen oder kostenmäßigen Überlegungen unterliegt.
  • Das Ausspracheerfassungsmodul 16 beauftragt ein Fernlexikonzugriffsmodul 24, festzustellen, ob auf das Fernaussprachelexikon 22 zugegriffen werden kann. Dies bezieht ein, dass das Fernlexikonzugriffsmodul 24 eine Übertragungsverbindungsteuerung 26 aktiviert. Die Übertragungsverbindungssteuerung 26 leitet eine Übertragungsverbindung zu einer anderen Übertragungsverbindungssteuerung 28 ein. Die Übertragungsverbindung kann eine jede derjenigen umfassen, die auf dem Fachgebiet bekannt sind, wie beispielsweise eine Infrarotverbindung; eine drahtlose Verbindung, wie beispielsweise die GSM-Luftschnittstelle, GDM-Datenkanäle oder GSM-Kurznachrichtendienstkanäle; oder eine Kabelverbindung, welche die Anwendung, in der das TTS realisiert wird, mit einem Computer oder einem Wirts-PC verbindet. Die Übertragungsverbindungen 26, 28 greifen auf das Fernaussprachelexikon 22 über einen Fernlexikonserver 30 zu.
  • Die Hinzufügungskandidatenliste und die überprüfte Aussprache werden an ein Lexikonaktualisierungsmodul 32 weitergeleitet. Das Lexikonaktualisierungsmodul 32 aktualisiert das Aussprachelexikon 2 durch Überschreiben jener Einträge im Aussprachelexikon, die zur Auflistung in der Löschliste markiert und in der Hinzufügungskandidatenliste vorhanden sind, mit jenen, die der Hinzufügungskandidatenliste hinzuzufügen sind.
  • Demnach ermöglicht die vorliegende Erfindung es, die Größe des Aussprachelexikons zu minimieren und infolgedessen die Speichergröße des TTS-Systems zu reduzieren. Um sicherzustellen, dass dies nicht zu einem unannehmbaren Verlust von Sprachqualität führt, stellt das Verfahren Schritte zum An passen der Inhalte des Aussprachelexikons bereit, damit es nur jene Einträge enthält, auf welche das TTS-System am häufigsten stößt.
  • Die vorliegende Erfindung ist vorteilhaft zur Verwendung in kleinen, mobilen elektronischen Produkten, wie beispielsweise Mobiltelefonen, Computern, CD-Spielern, DVD-Spielern und dergleichen, obwohl sie nicht darauf beschränkt ist.
  • Es werden nun mehrere elektronische Vorrichtungen beschrieben, welche das TTS-System verwenden.
  • <1: Tragbares Telefon>
  • Es wird nun ein Beispiel beschrieben, in welchem das TTS-System auf ein tragbares oder mobiles Telefon angewendet wird. 5 ist eine isometrische Ansicht, welche die Konfiguration des tragbaren Telefons veranschaulicht. In der Zeichnung ist das tragbare Telefon 1200 mit einer Mehrzahl von Bedienungstasten 1202, einer Hörmuschel 1204, einer Sprechmuschel 1206 und einem Anzeigefeld 100 versehen. Die Sprechmuschel 1206 oder die Hörmuschel 1204 können zur Ausgabe von Sprache verwendet werden.
  • <2: Mobiler Computer>
  • Es wird nun ein Beispiel beschrieben, in welchem das TTS-System gemäß einer der zuvor dargelegten Ausführungsformen auf einen mobilen Personalcomputer angewendet wird.
  • 6 ist ein isometrische Ansicht, welche die Konfiguration dieses Personalcomputers veranschaulicht. In der Zeichnung ist der Personalcomputer 1100 mit einem Körper 1104 versehen, welcher eine Taststur 1102 und eine Anzeigeeinheit 1106 umfasst. Das TTS-System kann die Anzeigeeinheit 1106 oder die Tastatur 1102 verwenden, um die Benutzerschnittstelle gemäß der vorliegenden Erfindung bereitzustellen, wie zuvor beschrieben.
  • <3: Digitale Standbildkamera>
  • Als Nächstes wird eine digitale Standbildkamera beschrieben, welche ein TTS-System verwendet. 7 ist eine isometrische Ansicht, welche die Konfiguration der digitalen Standbildkamera und die Verbindung mit externen Geräten kurz veranschaulicht.
  • Typische Kameras sensibilisieren Filme basierend auf optischen Bildern von Objekten, wohingegen die digitale Standbildkamera 1300 Bildgebungssignale vom optischen Bild eines Objekts durch fotoelektrische Umwandlung zum Beispiel unter Verwendung eines ladungsgekoppelten Bildwandlers (CCD für engl. charge coupled device) erzeugt. Die digitale Standbildkamera 1300 ist an der Rückseite eines Gehäuses 1302 mit einem OEL-Element 100 versehen, um basierend auf den Bildgebungssignalen vom CCD eine Anzeige durchzuführen. Eine Fotoaufnahmeeinheit 1304, welche optische Linsen und den CCD umfasst, ist an der Vorderseite (in der Zeichnung hinten) des Gehäuses 1302 vorgesehen. Das TTS-System kann in der digitalen Standbildkamera realisiert sein.
  • Weitere Beispiele von elektronischen Vorrichtungen außer dem Personalcomputer, der in 6 dargestellt ist, dem tragbaren Telefon, das in 5 dargestellt ist, und der digitalen Standbildkamera, die in 7 dargestellt ist, umfassen Fernsehapparate, Videoaufzeichnungsgeräte der Sucher- und Überwachungsart, Fahrzeugnavigationssysteme, Pager, elektronische Notebooks, tragbare Rechenmaschinen, Textverarbeitungsgeräte, Arbeitsplatzrechner, TV-Telefone, Kassensystemterminals (POS für engl. point of sale) und Vorrichtungen, die mit Berührungsbildschirmen versehen sind. Natürlich kann das TTS-System auf jede dieser elektronischen Vorrichtungen angewendet werden.
  • Die vorstehende Beschreibung erfolgte lediglich als Beispiel, und für einen Fachmann ist zu erkennen, dass Modifikationen vorgenommen werden können, ohne sich vom Rahmen der vorliegenden Erfindung zu entfernen.
  • Zum Beispiel speichert das Ausnahmenprotokoll möglicherweise nicht immer die Aussprache eines Wortes, das nicht im Lexikon gefunden wurde, sondern nur das Wort selbst zusammen mit den durchschnittlichen und aktuellen Häufigkeitszählungen. Das Lexikon ist möglicherweise anfänglich nicht immer voll, sondern das Lexikon ist vielmehr leer, und alle Wörter, die zunächst einmal genannt werden, werden im Lexikon gespeichert. Das Aussprachemodul und das Lexikonaktualisierungsmodul stellen möglicherweise nicht die Schwellen und Konstanten ein, sondern diese werden vielmehr vorgegeben. In bestimmten Fällen ist die Anzahl von Einträgen in der Löschliste möglicherweise nicht gleich der Anzahl in der Hinzufügungsliste.
  • Außerdem könnte das Lexikon ständig aktualisiert werden, anstatt zu warten, bis die Aussprachestufe angehalten hat, und dann von der Aussprachestufe auf die Lexikonaktualisierungsstufe umzuschalten.
  • Das TTS-System der vorliegenden Erfindung kann mit oder ohne Speicher für das Lexikon und das Ausnahmenprotokoll und mit oder ohne Mittel zum Ausgeben eines Sprachcodierers/decodierers (CODEC) auf einem einzigen Halbleiterchip angeordnet werden.

Claims (13)

  1. Verfahren zum Betreiben eines Systems zur sprachlichen Wiedergabe von Text (TTS), das ein Aussprachelexikon und einen Speicher aufweist, welcher Ausspracheregeln enthält, wobei das Verfahren umfasst: Vergleichen jedes Wortes in dem Text mit Wörtern im Aussprachelexikon, um zu ermitteln, ob das gleiche Wort vorhanden ist; wenn das Wort ermittelt wird, dann Erhalten der Aussprache des Wortes; wenn das Wort nicht ermittelt wird, dann Anwenden der Ausspracheregeln auf das Wort, um die Aussprache des Wortes zu erhalten; wobei jedes Wort, das nicht ermittelt wird, in einem Ausnahmenprotokoll gespeichert wird; und die am häufigsten genannten Wörter aus dem Ausnahmenprotokoll dem Aussprachelexikon hinzugefügt werden.
  2. Verfahren zum Realisieren eines TTS-Systems nach Anspruch 1, in welchem dann, wenn das Wort im Aussprachelexikon nicht ermittelt wird, das Wort mit jenen im Ausnahmenprotokoll vergleichen wird, um zu ermitteln, ob das Wort bereits im Ausnahmenprotokoll gespeichert ist.
  3. Verfahren zum Realisieren eines TTS-Systems nach Anspruch 1 oder 2, in welchem auch die Aussprache in Ausnahmenprotokoll gespeichert wird.
  4. Verfahren zum Realisieren eines TTS-Systems nach einem der Ansprüche 1 bis 3, in welchem auch die Syntax im Ausnahmenprotokoll gespeichert wird.
  5. Verfahren zum Realisieren eines TTS-Systems nach einem der vorhergehenden Ansprüche, welches ferner das Protokollieren der Anzahl von Malen, die ein Wort im Lexikon nicht ermittelt wurde, im Ausnahmenprotokoll umfasst.
  6. Verfahren zum Realisieren eines TTS-Systems nach einem der vorhergehenden Ansprüche, welches ferner das Protokollieren der Anzahl von Malen, die ein Wort ermittelt wurde, im Lexikon umfasst.
  7. Verfahren zum Realisieren eines TTS-Systems nach Anspruch 5 und 6, welcher ferner das Analysieren der am häufigsten protokollierten Wörter im Ausnahmenprotokoll mit den am wenigsten häufig protokollierten Wörtern im Lexikon und das Löschen der am wenigstens protokollierten Wörter im Lexikon bei Hinzufügen der am häufigsten protokollierten Wörter aus dem Ausnahmenprotokoll umfasst.
  8. Verfahren zum Realisieren eines TTS-Systems nach einem der vorhergehenden Ansprüche, welches ferner das regelmäßige Hinzufügen der am häufigsten verwendeten Wörter umfasst.
  9. Verfahren zum Realisieren eines TTS-Systems nach einem der Ansprüche 1 bis 7, welches ferner das Hinzufügen der am häufigsten verwendeten Wörter umfasst, wenn irgendeines der folgenden Ereignisse eintritt: wenn die Anzahl von Wörtern, die verglichen werden, eine vorbestimmte Anzahl überschreitet, oder dass das Ausnahmenprotokoll voll ist, oder nach dem Empfang eines Befehls von einem Benutzer des TTS-Systems, oder expo nentiell während der ganzen Zeit, welche auf die Inbetriebnahme des TTS-Systems folgt.
  10. Verfahren zum Betreiben eines TTS-Systems nach einem der vorhergehenden Ansprüche, welches ferner das Überprüfen der Aussprache der Wörter, die im Ausnahmenprotokoll gespeichert sind, vor dem Hinzufügen der Wörter zum Lexikon umfasst.
  11. Verfahren zum Betreiben eines TTS-Systems nach Anspruch 10, wobei das Überprüfen der Aussprache das Überprüfen der Aussprache mit einem Benutzer des TTS-Systems umfasst.
  12. Verfahren zum Betreiben eines TTS-Systems nach Anspruch 10, wobei das Überprüfen der Aussprache das Überprüfen der Aussprache mit einem Fernaussprachelexikon umfasst.
  13. Mobiltelefon, das ein System zur sprachlichen Wiedergabe von Text aufweist, das so ausgelegt ist, dass es gemäß dem Verfahren nach einem der vorhergehenden Ansprüche betrieben wird.
DE60309131T 2002-09-20 2003-09-22 Verfahren zur adaptation eines aussprache-lexikons für die sprachsynthese Expired - Lifetime DE60309131T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0221945A GB2393369A (en) 2002-09-20 2002-09-20 A method of implementing a text to speech (TTS) system and a mobile telephone incorporating such a TTS system
GB0221945 2002-09-20
PCT/GB2003/004037 WO2004027757A1 (en) 2002-09-20 2003-09-22 Method for adapting a pronunciation dictionary used for speech synthesis

Publications (2)

Publication Number Publication Date
DE60309131D1 DE60309131D1 (de) 2006-11-30
DE60309131T2 true DE60309131T2 (de) 2007-08-23

Family

ID=9944517

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60309131T Expired - Lifetime DE60309131T2 (de) 2002-09-20 2003-09-22 Verfahren zur adaptation eines aussprache-lexikons für die sprachsynthese

Country Status (5)

Country Link
EP (1) EP1454313B1 (de)
AU (1) AU2003267582A1 (de)
DE (1) DE60309131T2 (de)
GB (1) GB2393369A (de)
WO (1) WO2004027757A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2405066A (en) * 2003-05-13 2005-02-16 Intellprop Ltd Auditory assistance with language learning and pronunciation via a text to speech translation in a mobile communications device
GB2481992A (en) 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US6119085A (en) * 1998-03-27 2000-09-12 International Business Machines Corporation Reconciling recognition and text to speech vocabularies
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice

Also Published As

Publication number Publication date
EP1454313A1 (de) 2004-09-08
GB2393369A (en) 2004-03-24
WO2004027757A1 (en) 2004-04-01
GB0221945D0 (en) 2002-10-30
EP1454313B1 (de) 2006-10-18
DE60309131D1 (de) 2006-11-30
AU2003267582A1 (en) 2004-04-08

Similar Documents

Publication Publication Date Title
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE602004003497T2 (de) System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
EP0814611B1 (de) Kommunikationssystem und Verfahren zur Aufnahme und Verwaltung digitaler Bilder
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE202017105669U1 (de) Modalitätslernen an mobilen Vorrichtungen
DE10321944A1 (de) Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten
EP1113420A2 (de) Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem
Armbrust A history of new media in the Arab Middle East
US11954455B2 (en) Method for translating words in a picture, electronic device, and storage medium
DE60305645T2 (de) System und Verfahren zur Text-zu-Sprache Umsetzung mit einer Funktion zur Bereitstellung zusätzlicher Information
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
DE19510083A1 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
CN113724686B (zh) 编辑音频的方法、装置、电子设备及存储介质
DE102022128593A1 (de) Verfahren und system zur automatischen kontextgebundenen domänenspezifischen spracherkennung
DE112019007274T5 (de) Automatisches untertiteln hörbarer teile von inhalten auf einem computergerät
DE60309131T2 (de) Verfahren zur adaptation eines aussprache-lexikons für die sprachsynthese
US20120078629A1 (en) Meeting support apparatus, method and program
DE102017120698A1 (de) Sprachliche Ausgabe von schriftlichen Kommunikationen in einer Stimme eines Senders
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
US10477136B2 (en) Display mode determining device, display, display mode determining method, and non-transitory storage medium
CN110852801A (zh) 信息处理方法、装置及设备

Legal Events

Date Code Title Description
8364 No opposition during term of opposition