DE602005002706T2

DE602005002706T2 - Verfahren und System für die Umsetzung von Text-zu-Sprache

Info

Publication number: DE602005002706T2
Application number: DE602005002706T
Authority: DE
Inventors: Christel Amato; Hubert Crepy; Stephane Revelin; Claire Waast-Richard
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2004-08-11
Filing date: 2005-08-11
Publication date: 2008-07-17
Anticipated expiration: 2025-08-12
Also published as: DE602005002706D1; US7869999B2; US20060041429A1; ATE374991T1

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft allgemein ein System und Verfahren für die Umsetzung von Text in Sprache und insbesondere ein auf Verkettungstechnologie beruhendes System und Verfahren.
HINTERGRUND DER ERFINDUNG
Text-zu-Sprache-Systeme (TTS-Systeme) erzeugen aus einem Eingabetext synthetische Sprache, die die natürliche Sprache simuliert. TTS-Systeme, die auf Verkettungstechnologie beruhen, umfassen üblicherweise drei Komponenten: eine Sprecherdatenbank, eine TTS-Engine und ein Front-End.
Zunächst wird die Sprecherdatenbank erzeugt, indem eine große Anzahl von einem Sprecher gesprochener Sätze, die Äußerungen, aufgezeichnet wird. Diese Äußerungen werden in phonetische Elementareinheiten transkribiert, die aus den Aufzeichnungen als Sprachbestandteile (bzw. Sprachsegmente) extrahiert werden, welche die Sprecherdatenbank der Sprachsegmente bilden. Es sollte nachvollziehbar sein, dass jede erzeugte Datenbank sprecherspezifisch ist.
Das Front-End beruht im Allgemeinen auf linguistischen Regeln und ist die erste Komponente, die zur Laufzeit verwendet wird. Das Front-End normalisiert einen Eingabetext, um mit Hilfe eines Phonetisierers für jedes Wort des Eingabetextes eine phonetische Transkription zu erzeugen. Es sollte nachvollziehbar sein, dass das Front-End sprecherunabhängig ist.
Die TTS-Engine wählt dann für die gesamte phonetische Transkription des Eingabetextes die entsprechenden Sprachsegmente aus einer Sprecherdatenbank aus und verkettet diese, um synthetische Sprache zu erzeugen. Die TTS-Engine kann jede der verfügbaren Sprecherdatenbanken (bzw. Stimmen), jedoch jeweils nur eine, verwenden.
Das Front-End ist, wie oben erwähnt, sprecherunabhängig und erzeugt dieselben phonetischen Transkriptionen, selbst wenn Datenbanken mit Sprachsegmenten von unterschiedlichen Sprechern (d. h. unterschiedliche „Stimmen") verwendet werden. In der Praxis jedoch unterscheiden sich Sprecher (selbst professionelle Sprecher) zumindest als Folge von Variationen im Dialekt oder Sprachstil in ihrer Art des Sprechens und Aussprechens von Wörtern. Beispielsweise kann das Wort „tomato" als [tom ah toe] oder [tom hey toe] ausgesprochen werden.
Derzeitige Front-End-Systeme berechnen phonetische Formen voraus und verwenden dazu sprecherunabhängige statistische Modelle oder Regeln. Idealerweise sollten die vom Front-End ausgegebenen phonetischen Formen an den Aussprachestil des Sprechers angepasst sein. Andernfalls finden die vom Front-End vorgegebenen phonetischen Zielformen keine guten Entsprechungen in der Sprecherdatenbank, was zu einem verschlechterten Ausgabesignal führt.
Bei einem regelbasierten Front-End werden die Regeln in den meisten Fällen von Linguistikexperten erzeugt. Zur Sprecheranpassung müsste der Experte jedes Mal, wenn eine neue Stimme (d. h. ein TTS-System mit einer neuen Sprecherdatenbank) erzeugt wird, die Regeln manuell an den Sprachstil des Sprechers anpassen. Dies ist unter Umständen sehr zeitraubend.
Bei einem statistischen Front-End muss ein neues, dem Sprecher zugeordnetes Front-End eintrainiert werden, was ebenfalls sehr zeitraubend ist.
Somit führen derzeitige sprecherunabhängige Front-End-Systeme zwangsweise zu Aussprachen, die für die aufgezeichneten Sprecher nicht notwendigerweise natürlich sind. Derartige Fehlanpassungen haben einen sehr negativen Einfluss auf die Qualität des endgültigen Signals, indem sie viele Verkettungen und Abstimmungen bei der Signalverarbeitung verursachen.
Somit wäre ein Text-zu-Sprache-System wünschenswert, bei dem die Qualität des endgültigen Signals nicht aufgrund von Fehlanpassungen zwischen den phonetischen Transkriptionen des Front-Ends und den aufgezeichneten Sprachsegmenten beeinträchtigt ist. Die vorliegende Erfindung bietet eine derartige Lösung.
ÜBERBLICK ÜBER DIE ERFINDUNG
Dementsprechend besteht die Hauptaufgabe der Erfindung darin, ein TTS-System bereitzustellen und ein Verfahren zu erhalten, das die Qualität der erzeugten synthetischen Sprache stark verbessert, indem die Anzahl von Artefakten zwischen Sprachsegmenten reduziert wird, wodurch viel Zeit für die Verarbeitung eingespart wird.
Kurz gesagt, bei einer durch das Front-End vorgegebenen Sequenz von Phonen gibt es unterschiedliche Sequenzen von Sprachsegmenten, d. h. verschiedene Hypothesen, die zur Synthetisierung dieser phonetischen Sequenz verwendet werden können. Die TTS-Engine wählt die passenden Segmente durch Abarbeiten eines dynamischen Programmieralgorithmus aus, der jede einzelne Hypothese auf der Grundlage verschiedener Kriterien mit einer Aufwandfunktion bewertet. Die Sequenz von Segmenten mit dem niedrigsten Aufwand wird dann ausgewählt. Wenn die phonetische Transkription, die vom Front-End der TTS-Engine zur Laufzeit bereitgestellt wird, gut zum aufgezeichneten Aussprachestil des Sprechers passt, ist es für die Engine leichter, eine passende Segmentsequenz in der Sprecherdatenbank zu finden. Es wird weniger Signalverarbeitung benötigt, um die Segmente nahtlos miteinander zu verbinden. Bei dieser Konfiguration bewertet der Suchalgorithmus anstelle nur einer Möglichkeit verschiedene Möglichkeiten der phonetischen Transkription für jedes Wort und berechnet dann den günstigsten Aufwand für jede Möglichkeit. Letztendlich ist die ausgewählte phonetische Transkription diejenige, bei der der geringste Verkettungsaufwand entsteht. Beispielsweise kann das Front-End den Begriff „tomato" in die zwei Möglichkeiten [tom ah toe] oder [tom hey toe] phonetisieren. Diejenige, die zum aufgezeichneten Sprachstil des Sprechers passt, führt voraussichtlich zu geringerem Verkettungsaufwand und wird daher von der Engine für die Synthese ausgewählt.
Bei einer bevorzugten Ausführungsart wird die Erfindung in einem im Computer implementierten TTS-System angewendet, das mindestens eine zuvor aus Sprecheraufzeichnungen erzeugte Sprecherdatenbank, ein Front-End-System zum Empfang eines Eingabetextes und eine Text-zu-Sprache-Engine umfasst. Insbesondere erzeugt das Front-End-System für jedes Wort des Eingabetextes mehrere phonetische Transkriptionen und die TTS-Engine verwendet eine Aufwandfunktion, um auszuwählen, welche phonetische Transkription die besser geeignete ist, um die Sprachsegmente in der Sprecherdatenbank zu suchen, die verkettet und synthetisiert werden sollen.
Allgemeiner ausgedrückt umfasst ein Computersystem zur Erzeugung synthetischer Sprache Folgendes:

(a) eine Sprecherdatenbank zur Speicherung von Sprachsegmenten;
(b) eine Front-End-Schnittstelle zum Empfang eines aus einer Vielzahl von Wörtern bestehenden Eingabetextes,
(c) eine Ausgabeschnittstelle zur Ausgabe der synthetischen Sprache in hörbarer Form; und
(d) vom Computer ausführbare computerlesbare Programmmittel zum Durchführen von Aktionen einschließlich:
(i) des Erzeugens einer Vielzahl phonetischer Transkriptionen für jedes Wort des Eingabetextes;
(ii) des Berechnens einer Aufwandbewertung für jede phonetische Transkription durch Anwenden einer Aufwandfunktion auf die Vielzahl von Sprachsegmenten und
(iii) des Sortierens der Vielzahl phonetischer Transkriptionen entsprechend den berechneten Aufwandbewertungen.

In einer handelsüblichen Form sind die computerlesbaren Programmmittel auf einer Programmspeichervorrichtung verkörpert, die für einen Computer lesbar ist.
Eine weitere Aufgabe der Erfindung ist die Bereitstellung eines in den Verfahrensansprüchen definierten Verfahrens.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Das Vorangegangene sowie weitere Aufgaben, Merkmale und Vorteile der Erfindung werden aus der folgenden spezifischeren Beschreibung der Erfindung verständlicher, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Es zeigen:
1 eine allgemeine Ansicht des Systems der vorliegenden Erfindung,
2 ein Ablaufdiagramm der Hauptschritte zur Erzeugung synthetischer Sprache gemäß der vorliegenden Erfindung,
3 eine veranschaulichende Kurve der Aufwandfunktion,
4-a und 4-b eine Erläuterung der Auswahl bevorzugter Segmente in einem Erstdurchlauf-Ansatz,
5 eine Erläuterung der Auswahl bevorzugter Segmente in einem Einfachdurchlauf-Ansatz.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Ein erfindungsgemäßes Text-zu-Sprache-System (TTS-System) ist in 1 veranschaulicht. Das allgemeine System 100 umfasst eine Sprecherdatenbank 102, die Sprecheraufzeichnungen enthält, und einen Front-End-Block 104 zum Empfang eines Eingabetextes. Ein Aufwandberechnungsblock 106 ist an die Sprecherdatenbank und an den Front-End-Block gekoppelt, um einen Aufwandfunktionsalgorithmus anzuwenden. Ein Nachbearbeitungsblock 108 ist an den Aufwandberechnungsblock gekoppelt, um die vom Aufwandberechnungsblock ausgegebenen Ergebnisse zu verketten. Der Nachbearbeitungsblock ist an einen Ausgabeblock 110 gekoppelt, um synthetische Sprache zu erzeugen.
Das von der vorliegenden Erfindung vorzugsweise verwendete TTS-System beruht auf der Verkettungstechnologie. Es benötigt eine Sprecherdatenbank, die aus den Aufzeichnungen eines Sprechers aufgebaut ist. Jedoch können verschiedene Sprecher Sätze aufzeichnen, um verschiedene Sprecherdatenbanken zu erzeugen, ohne dass dies die Erfindung einschränkt. Bei der Anwendung ist die Sprecherdatenbank für jedes TTS-System eine andere, die TTS-Engine und die Front-End-Engine sind jedoch dieselben.
Unterschiedliche Sprecher sprechen ein vorgegebenes Wort jedoch möglicherweise unterschiedlich aus, selbst in einem bestimmten Kontext. In den folgenden zwei Beispielen kann das Wort „tomato" als [tom ah toe] oder [tom hey toe] und das französische Wort „fenêtre" als [fenètre] oder [fenètr] oder [fnètr] ausgesprochen werden. Wenn das Front-End die Aussprache [fenètr] vorausberechnet, obwohl der aufgezeichnete Sprecher das Wort stets als [fnètr] ausgesprochen hat, wird es schwierig, in der Sprecherdatenbank das fehlende [e] in diesem Kontext für dieses Wort zu finden. Hat der Sprecher beide Aussprachen verwendet, könnte es andererseits zweckmäßig sein, in Abhängigkeit von den weiteren Randbedingungen, die sich von einem Satz zum anderen unterscheiden können, die eine oder die andere Aussprache zu wählen. Dann stellt das Front-End mehrere phonetische Transkriptionen für jedes Wort des Eingabetextes bereit und die TTS-Engine wählt beim Durchsuchen der aufgezeichneten Sprachsegmente die bevorzugte phonetische Transkription, um die bestmögliche Qualität der synthetischen Sprache zu erzielen.
Wie bereits erwähnt, wird die im TTS-System der Erfindung verwendete Sprecherdatenbank in üblicher Weise aufgebaut, indem ein Sprecher eine Vielzahl der Sätze aufzeichnet. Die Sätze werden verarbeitet, um jedem der aufgezeichneten Wörter eine entsprechende phonetische Transkription zuzuordnen. Aufgrund des Sprachstils des Sprechers können sich die phonetischen Transkriptionen für jedes Auftreten desselben Wortes voneinander unterscheiden. Nach Abschluss der phonetischen Transkription für jedes aufgezeichnete Wort wird jede Audiodatei entsprechend dieser phonetischen Transkriptionen in Einheiten (sogenannte Sprachbestandteile oder Sprachsegmente) aufgeteilt. Außerdem werden die Sprachsegmente anhand verschiedener Parameter wie phonetischer Kontext, Intonation, Lautdauer oder Lautstärke klassifiziert. Diese Klassifizierung bildet die Sprecherdatenbank, aus der, wie später erläutert wird, während der Laufzeit die Sprachsegmente durch den Aufwandberechnungsblock 106 extrahiert und dann im Nachbearbeitungsblock 108 verkettet werden, woraus schließlich im Ausgabeblock 110 synthetische Sprache erzeugt wird.
Unter Bezugnahme auf 2 werden nun die Hauptschritte des Gesamtprozesses 200 zur Ausgabe einer verbesserten synthetischen Sprache gemäß der vorliegenden Erfindung beschrieben.
Der Prozess beginnt bei Schritt 202 mit dem Empfang eines Eingabetextes im Front-End-Block. Der Eingabetext kann in Form eines durch einen Benutzer eingetippten Textes oder in Form einer beliebigen Anwendung vorliegen, die eine Benutzeranforderung überträgt.
Im Schritt 204 wird der Eingabetext in einer üblichen Weise normalisiert, die dem Fachmann wohlbekannt ist.
Im nächsten Schritt 206 werden für jedes Wort des normalisierten Textes mehrere phonetische Transkriptionen erzeugt. Es sollte nachvollziehbar sein, dass die Art, in der das Front-End mehrere phonetische Formen erzeugt, nicht kritisch ist, solange alle alternativen Formen für den gegebenen Satz korrekt sind. Somit können ein statistisches oder ein regelbasiertes Front-End ohne Unterschied verwendet werden, oder ein beliebiges anderes Front-End, das auf beliebigen anderen Verfahren beruht. Vollständige Informationen über statistische Front-End-Systeme findet der Fachmann in „Optimisation d'arbres de decision pour la conversion graphemes-phonemes" von H. Crépy, C. Amato-Beaujard, J. C. Marcadet und C. Waast-Richard, Proc. of XXIVèmes Journées d'Étude sur la Parole, Nancy, 2002, und weitere vollständige Informationen über regelbasierte Front-End-Systeme in „Selflearning techniques for Grapheme-to-Phoneme conversion" von F. Yvon, Proc. of the 2nd Onomastica Research Colloquium, 1994.
Unabhängig vom verwendeten Front-End-System muss das System selbstständig dafür sorgen, dass nicht-homophone Homographe eindeutig sind (z. B. „record" [reykord] und „record" [rekord]), und es muss phonetische Formen vorschlagen, die für den Gebrauch des Wortes in dem Satz gültig sind.
Um dies am vorherigen Beispiel des Wortes „fenêtre" zu veranschaulichen, das je nach Sprachstil als [fenètre] oder [fenètr] oder [fnètr] ausgesprochen werden kann, kann der gewählte Front-End-Block diese drei phonetischen Formen erzeugen.
Im Gegensatz dazu hat das französische Wort „président" je nach seiner grammatischen Gattung zwei mögliche Aussprachen:
[prézidan], wenn es sich um ein Substantiv handelt, oder [prézid], wenn es sich um ein Verb handelt. Die Wahl der einen oder anderen Aussprache hängt vollständig von der Syntax des Satzes ab. In diesem Fall darf das Front-End für das Wort „président" nicht mehrere phonetische Transkriptionen erzeugen.
Im Schritt 208 erzeugt das Front-End eine Vorhersage der Gesamtkontur der Intonation des Eingabetextes (und erzeugt somit nebenbei die Intonationswerte), der Lautdauer und -stärke der Sprachsegmente, also der wohlbekannten Prosodieparameter. Auf diese Weise definiert das Front-End Zielmerkmale, die dann im nächsten Schritt 210 vom Suchalgorithmus verwendet werden.
Schritt 210 ermöglicht die Anwendung einer Aufwandfunktion für jede vom Front-End bereitgestellte phonetische Transkription. Es wird eine Extraktion von Sprachsegmenten durchgeführt, und bei einem gegebenen aktuellen Segment zielt dieser Suchalgorithmus darauf ab, unter den verfügbaren Segmenten die nächstbesten Segmente zu finden, die mit dem aktuellen Segment verkettet werden sollen. Bei dieser Suche werden die Merkmale eines jeden Segments und die vom Front-End bereitgestellten Zielmerkmale berücksichtigt. Die Suchroutine ermöglicht die parallele Bewertung verschiedener Pfade, wie in 3 veranschaulicht.
Bei jeder Auswahl einer Einheit werden, wie durch einen jeweils anderen Buchstaben im Beispiel von 3 angezeigt ist, bei den zuvor ausgewählten Kandidaten (sofern vorhanden) für verschiedene Segmente der Aufwand ermittelt und die Segmente ausgewählt. Für jedes Segment wird durch die Aufwandfunktion der Verkettungsaufwand berechnet, und die Segmente mit dem niedrigsten Aufwand werden zu einem Raster von Kandidatensegmenten hinzugefügt. Die Aufwandfunktion beruht auf verschiedenen abstimmbaren Kriterien (die z. B. unterschiedlich gewichtet werden können). Wird beispielsweise die phonetische Dauer als sehr wichtig erachtet, so wird durch eine hohe Gewichtung dieses Kriteriums die Wahl von Segmenten mit einer Dauer, die sich sehr stark von der Zieldauer unterscheidet, benachteiligt.
Als Nächstes wird im Schritt 212 der beste/bevorzugte Pfad ausgewählt, der in der bevorzugten Ausführungsart derjenige mit dem niedrigsten Gesamtaufwand ist. Die mit diesem Pfad verbundenen Segmente werden dann beibehalten. Hat der Algorithmus den besten Pfad aus den verschiedenen Möglichkeiten gefunden, werden im Schritt 214 alle ausgewählten Sprachbestandteile unter Verwendung von Standard- Signalverarbeitungsverfahren verkettet, um schließlich in Schritt 216 synthetische Sprache zu erzeugen. Die bestmögliche Qualität der synthetischen Sprache wird erzielt, wenn der Suchalgorithmus den Umfang der auf die Sprachbestandteile angewendeten Signalverarbeitung erfolgreich begrenzt. Wenn die zur Synthetisierung eines Satzes verwendeten phonetischen Transkriptionen dieselben sind wie diejenigen, die der Sprecher bei den Aufzeichnungen tatsächlich verwendet hat, findet der mit dynamischer Programmierung arbeitende Suchalgorithmus in der Sprecherdatenbank wahrscheinlich Segmente in ähnlichen Kontexten, die im Idealfall zusammenhängen. Wenn zwei Segmente in der Datenbank zusammenhängen, können diese nahtlos verkettet werden, da beim Zusammenfügen der Segmente nahezu keine Signalverarbeitung involviert ist. Die Vermeidung oder Begrenzung der durch die Signalverarbeitung eingeführten Verschlechterung führt zu besserer Signalqualität der synthetisierten Sprache. Die Bereitstellung verschiedener alternativer Kandidaten von phonetischen Transkriptionen für den Suchalgorithmus erhöht die Chancen für die Auswahl der am besten passenden Sprechersegmente, da diese mit niedrigerem Verkettungsaufwand verbunden sind.
Weitere Einzelheiten zur Verkettung und Erzeugung synthetischer Sprache findet der Fachmann in „Current status of the IBM Trainable Speech Synthesis System" von R. Donovan, A. Ittycheriah, M. Franz, B. Ramabhadran, E. Eide, M. Viswanathan, R. Bakis, W. Hamza, M. Picheny, P. Gleason, T. Rutherfoord, P. Cox, D. Green, E. Janke, S. Revelin, C. Waast, B. Zeller, C. Guenther und S. Kunzmann in Proc. of the 4th ISCA Tutorial and Research Workshop an Speech Synthesis, Edinburgh, Scotland, 2001, und in „Recent improvements to the IBM Trainable Speech Synthesis System" von E. Eide, A. Aaron, R. Bakis, P. Cohen, R. Donovan, W. Hamza, T. Mathes, J. Ordinas, M. Polkosky, M. Picheny, M. Smith und M. Viswanathan in Proc. of the IEEE Int. Conf. an Acoustics, Speech, and Signal Processing, Hong Kong, 2003. Front-End.
Es ist anzumerken, dass zur Auswahl der am besten geeigneten phonetischen Transkriptionen zwei Verfahren verwendet werden können: ein Erstdurchlaufverfahren oder ein Einfachdurchlauf-Auswahlverfahren, die im Folgenden detailliert beschrieben werden.
Das Erstdurchlaufverfahren besteht aus der Durchführung des Suchalgorithmus in lediglich einem ersten Durchlauf, um die Auswahl der phonetischen Transkription durchzuführen. Das Prinzip besteht darin, das phonetische Kriterium in der Aufwandfunktion zu favorisieren, z. B. durch Einstellen einer Gewichtung null (oder einer extrem kleinen Gewichtung) für die anderen Kriterien, um die phonetischen Randbedingungen hervorzuheben. Dieses Verfahren erhöht die Chancen, eine phonetische Form zu wählen, die mit den Formen, die der Sprecher während der Aufzeichnungen verwendete, identisch oder diesen sehr ähnlich ist. Bei jeder vom Front-End für ein Wort bereitgestellten phonetischen Form werden unterschiedliche Pfade bewertet, wie in 4-a gezeigt. Die besten Pfade aller phonetischen Formen werden verglichen und der allerbeste Pfad ist die phonetische Transkription, die für die Auswahl weiterer Sprachsegmente (Schritt 212) zurückbehalten wird. Nach der Wahl der phonetischen Transkription setzt die TTS-Engine den Vorgang in einem zweiten Durchlauf, dem das Ergebnis dieses ersten Durchlaufs vorgegeben wird, mit der üblichen Suche nach Sprachsegmenten fort, wie in 4-b gezeigt.
Der zweite Ansatz, die „Einfachdurchlaufauswahl", ermöglicht die Auswahl der entsprechenden phonetischen Form aus mehreren phonetischen Transkriptionen, indem diese in den üblichen Suchschritt eingeführt werden. Das Prinzip ist im Wesentlichen mit dem vorherigen Verfahren identisch, ausgenommen, dass nur ein Suchdurchlauf durchgeführt wird und keine Parameter der Aufwandfunktion stark favorisiert werden. Alle Parameter der Aufwandfunktion werden abgestimmt, um bei der Segmentauswahl den besten Kompromiss zwischen den phonetischen Formen und den anderen Randbedingungen zu wählen. Wenn ein Sprecher während der Aufzeichnungen ein Wort in unterschiedlicher Weise ausgesprochen hat, kann die Wahl der am besten geeigneten phonetischen Transkription durch die anderen Randbedingungen wie Intonation, Dauer und Art des Satzes unterstützt werden. Dies ist in 4 veranschaulicht. Als Beispiel folgen zwei französische Sätze mit demselben, unterschiedlich ausgesprochenen Wort „fenêtre":

(1) La fenêtre est ouverte. wobei das Wort „fenêtre" als [fenètr] ausgesprochen wird, und
(2) Ferme la fenêtre! wobei das Wort „fenêtre" als [fnètr] ausgesprochen wird.

Der erste Satz ist ein Aussagesatz, während der zweite Satz ein Ausrufesatz ist. Diese Sätze unterscheiden sich in der Intonationskontur, der Lautdauer und -stärke. Während der Synthese können diese Informationen beispielsweise dazu beitragen, die entsprechende phonetische Form auszuwählen, da es für den Suchalgorithmus leichter ist, Sprachsegmente zu finden, deren Intonation, Lautdauer und -stärke ähnlich der vorhergesagten Intonation, Lautdauer und -stärke in passenden Sätzen ist.
Bei dieser Implementierung wird die Auswahl der phonetischen Transkription zur selben Zeit wie die Auswahl von Spracheinheiten durchgeführt. Dann werden die Segmente verkettet, um die synthetisierte Sprache zu erzeugen.

Claims

Verfahren, geeignet für ein Text-zu-Sprache-System, zum Auswählen bevorzugter phonetischer Transkriptionen eines Eingabetextes, das die folgenden Schritte umfasst: – Erzeugen einer Vielzahl phonetischer Transkriptionen für jedes Wort des Eingabetextes, – Berechnen einer Aufwandbewertung für jede phonetische Transkription durch Anwenden einer Verkettungsaufwandfunktion auf eine Vielzahl von vordefinierten Sprachsegmenten, die als Kandidaten für das Synthetisieren der Transkription ausgewählt wurden, und – Sortieren der Vielzahl phonetischer Transkriptionen entsprechend den berechneten Aufwandbewertungen.
Verfahren nach Anspruch 1, das des Weiteren den Schritt des Normalisierens des Eingabetextes vor dem Erzeugen der Vielzahl phonetischer Transkriptionen umfasst.
Verfahren nach Anspruch 1 oder 2, das des Weiteren den Schritt des Anwendens von Prosodieparametern nach dem Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen umfasst.
Verfahren nach einem der Ansprüche 1 bis 3, das des Weiteren den Schritt des Auswählens bevorzugter Sprachsegmente nach dem Schritt des Sortierens der Vielzahl phonetischer Transkriptionen umfasst.
Verfahren nach Anspruch 4, das des Weiteren den Schritt des Verkettens der bevorzugten Sprachsegmente umfasst.
Verfahren nach Anspruch 5, das des Weiteren den Schritt des Ausgebens synthetischer Sprache nach dem Verkettungsschritt umfasst.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem der Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen ein regelbasierter Schritt ist.
Verfahren nach einem der Ansprüche 1 oder 6, bei dem der Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen auf statistischer Berechnung beruht.
System, das Mittel umfasst, die angepasst sind, um die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchzuführen.
Computerprogramm, das Anweisungen umfasst, die so angepasst sind, dass sie die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchführen, wenn das Computerprogramm auf einem Computersystem ausgeführt wird.