DE602005002706T2 - Verfahren und System für die Umsetzung von Text-zu-Sprache - Google Patents

Verfahren und System für die Umsetzung von Text-zu-Sprache Download PDF

Info

Publication number
DE602005002706T2
DE602005002706T2 DE602005002706T DE602005002706T DE602005002706T2 DE 602005002706 T2 DE602005002706 T2 DE 602005002706T2 DE 602005002706 T DE602005002706 T DE 602005002706T DE 602005002706 T DE602005002706 T DE 602005002706T DE 602005002706 T2 DE602005002706 T2 DE 602005002706T2
Authority
DE
Germany
Prior art keywords
speech
phonetic
phonetic transcriptions
speaker
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005002706T
Other languages
English (en)
Other versions
DE602005002706D1 (de
Inventor
Christel Amato
Hubert Crepy
Stephane Revelin
Claire Waast-Richard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE602005002706D1 publication Critical patent/DE602005002706D1/de
Application granted granted Critical
Publication of DE602005002706T2 publication Critical patent/DE602005002706T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft allgemein ein System und Verfahren für die Umsetzung von Text in Sprache und insbesondere ein auf Verkettungstechnologie beruhendes System und Verfahren.
  • HINTERGRUND DER ERFINDUNG
  • Text-zu-Sprache-Systeme (TTS-Systeme) erzeugen aus einem Eingabetext synthetische Sprache, die die natürliche Sprache simuliert. TTS-Systeme, die auf Verkettungstechnologie beruhen, umfassen üblicherweise drei Komponenten: eine Sprecherdatenbank, eine TTS-Engine und ein Front-End.
  • Zunächst wird die Sprecherdatenbank erzeugt, indem eine große Anzahl von einem Sprecher gesprochener Sätze, die Äußerungen, aufgezeichnet wird. Diese Äußerungen werden in phonetische Elementareinheiten transkribiert, die aus den Aufzeichnungen als Sprachbestandteile (bzw. Sprachsegmente) extrahiert werden, welche die Sprecherdatenbank der Sprachsegmente bilden. Es sollte nachvollziehbar sein, dass jede erzeugte Datenbank sprecherspezifisch ist.
  • Das Front-End beruht im Allgemeinen auf linguistischen Regeln und ist die erste Komponente, die zur Laufzeit verwendet wird. Das Front-End normalisiert einen Eingabetext, um mit Hilfe eines Phonetisierers für jedes Wort des Eingabetextes eine phonetische Transkription zu erzeugen. Es sollte nachvollziehbar sein, dass das Front-End sprecherunabhängig ist.
  • Die TTS-Engine wählt dann für die gesamte phonetische Transkription des Eingabetextes die entsprechenden Sprachsegmente aus einer Sprecherdatenbank aus und verkettet diese, um synthetische Sprache zu erzeugen. Die TTS-Engine kann jede der verfügbaren Sprecherdatenbanken (bzw. Stimmen), jedoch jeweils nur eine, verwenden.
  • Das Front-End ist, wie oben erwähnt, sprecherunabhängig und erzeugt dieselben phonetischen Transkriptionen, selbst wenn Datenbanken mit Sprachsegmenten von unterschiedlichen Sprechern (d. h. unterschiedliche „Stimmen") verwendet werden. In der Praxis jedoch unterscheiden sich Sprecher (selbst professionelle Sprecher) zumindest als Folge von Variationen im Dialekt oder Sprachstil in ihrer Art des Sprechens und Aussprechens von Wörtern. Beispielsweise kann das Wort „tomato" als [tom ah toe] oder [tom hey toe] ausgesprochen werden.
  • Derzeitige Front-End-Systeme berechnen phonetische Formen voraus und verwenden dazu sprecherunabhängige statistische Modelle oder Regeln. Idealerweise sollten die vom Front-End ausgegebenen phonetischen Formen an den Aussprachestil des Sprechers angepasst sein. Andernfalls finden die vom Front-End vorgegebenen phonetischen Zielformen keine guten Entsprechungen in der Sprecherdatenbank, was zu einem verschlechterten Ausgabesignal führt.
  • Bei einem regelbasierten Front-End werden die Regeln in den meisten Fällen von Linguistikexperten erzeugt. Zur Sprecheranpassung müsste der Experte jedes Mal, wenn eine neue Stimme (d. h. ein TTS-System mit einer neuen Sprecherdatenbank) erzeugt wird, die Regeln manuell an den Sprachstil des Sprechers anpassen. Dies ist unter Umständen sehr zeitraubend.
  • Bei einem statistischen Front-End muss ein neues, dem Sprecher zugeordnetes Front-End eintrainiert werden, was ebenfalls sehr zeitraubend ist.
  • Somit führen derzeitige sprecherunabhängige Front-End-Systeme zwangsweise zu Aussprachen, die für die aufgezeichneten Sprecher nicht notwendigerweise natürlich sind. Derartige Fehlanpassungen haben einen sehr negativen Einfluss auf die Qualität des endgültigen Signals, indem sie viele Verkettungen und Abstimmungen bei der Signalverarbeitung verursachen.
  • Somit wäre ein Text-zu-Sprache-System wünschenswert, bei dem die Qualität des endgültigen Signals nicht aufgrund von Fehlanpassungen zwischen den phonetischen Transkriptionen des Front-Ends und den aufgezeichneten Sprachsegmenten beeinträchtigt ist. Die vorliegende Erfindung bietet eine derartige Lösung.
  • ÜBERBLICK ÜBER DIE ERFINDUNG
  • Dementsprechend besteht die Hauptaufgabe der Erfindung darin, ein TTS-System bereitzustellen und ein Verfahren zu erhalten, das die Qualität der erzeugten synthetischen Sprache stark verbessert, indem die Anzahl von Artefakten zwischen Sprachsegmenten reduziert wird, wodurch viel Zeit für die Verarbeitung eingespart wird.
  • Kurz gesagt, bei einer durch das Front-End vorgegebenen Sequenz von Phonen gibt es unterschiedliche Sequenzen von Sprachsegmenten, d. h. verschiedene Hypothesen, die zur Synthetisierung dieser phonetischen Sequenz verwendet werden können. Die TTS-Engine wählt die passenden Segmente durch Abarbeiten eines dynamischen Programmieralgorithmus aus, der jede einzelne Hypothese auf der Grundlage verschiedener Kriterien mit einer Aufwandfunktion bewertet. Die Sequenz von Segmenten mit dem niedrigsten Aufwand wird dann ausgewählt. Wenn die phonetische Transkription, die vom Front-End der TTS-Engine zur Laufzeit bereitgestellt wird, gut zum aufgezeichneten Aussprachestil des Sprechers passt, ist es für die Engine leichter, eine passende Segmentsequenz in der Sprecherdatenbank zu finden. Es wird weniger Signalverarbeitung benötigt, um die Segmente nahtlos miteinander zu verbinden. Bei dieser Konfiguration bewertet der Suchalgorithmus anstelle nur einer Möglichkeit verschiedene Möglichkeiten der phonetischen Transkription für jedes Wort und berechnet dann den günstigsten Aufwand für jede Möglichkeit. Letztendlich ist die ausgewählte phonetische Transkription diejenige, bei der der geringste Verkettungsaufwand entsteht. Beispielsweise kann das Front-End den Begriff „tomato" in die zwei Möglichkeiten [tom ah toe] oder [tom hey toe] phonetisieren. Diejenige, die zum aufgezeichneten Sprachstil des Sprechers passt, führt voraussichtlich zu geringerem Verkettungsaufwand und wird daher von der Engine für die Synthese ausgewählt.
  • Bei einer bevorzugten Ausführungsart wird die Erfindung in einem im Computer implementierten TTS-System angewendet, das mindestens eine zuvor aus Sprecheraufzeichnungen erzeugte Sprecherdatenbank, ein Front-End-System zum Empfang eines Eingabetextes und eine Text-zu-Sprache-Engine umfasst. Insbesondere erzeugt das Front-End-System für jedes Wort des Eingabetextes mehrere phonetische Transkriptionen und die TTS-Engine verwendet eine Aufwandfunktion, um auszuwählen, welche phonetische Transkription die besser geeignete ist, um die Sprachsegmente in der Sprecherdatenbank zu suchen, die verkettet und synthetisiert werden sollen.
  • Allgemeiner ausgedrückt umfasst ein Computersystem zur Erzeugung synthetischer Sprache Folgendes:
    • (a) eine Sprecherdatenbank zur Speicherung von Sprachsegmenten;
    • (b) eine Front-End-Schnittstelle zum Empfang eines aus einer Vielzahl von Wörtern bestehenden Eingabetextes,
    • (c) eine Ausgabeschnittstelle zur Ausgabe der synthetischen Sprache in hörbarer Form; und
    • (d) vom Computer ausführbare computerlesbare Programmmittel zum Durchführen von Aktionen einschließlich:
    • (i) des Erzeugens einer Vielzahl phonetischer Transkriptionen für jedes Wort des Eingabetextes;
    • (ii) des Berechnens einer Aufwandbewertung für jede phonetische Transkription durch Anwenden einer Aufwandfunktion auf die Vielzahl von Sprachsegmenten und
    • (iii) des Sortierens der Vielzahl phonetischer Transkriptionen entsprechend den berechneten Aufwandbewertungen.
  • In einer handelsüblichen Form sind die computerlesbaren Programmmittel auf einer Programmspeichervorrichtung verkörpert, die für einen Computer lesbar ist.
  • Eine weitere Aufgabe der Erfindung ist die Bereitstellung eines in den Verfahrensansprüchen definierten Verfahrens.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Das Vorangegangene sowie weitere Aufgaben, Merkmale und Vorteile der Erfindung werden aus der folgenden spezifischeren Beschreibung der Erfindung verständlicher, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Es zeigen:
  • 1 eine allgemeine Ansicht des Systems der vorliegenden Erfindung,
  • 2 ein Ablaufdiagramm der Hauptschritte zur Erzeugung synthetischer Sprache gemäß der vorliegenden Erfindung,
  • 3 eine veranschaulichende Kurve der Aufwandfunktion,
  • 4-a und 4-b eine Erläuterung der Auswahl bevorzugter Segmente in einem Erstdurchlauf-Ansatz,
  • 5 eine Erläuterung der Auswahl bevorzugter Segmente in einem Einfachdurchlauf-Ansatz.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • Ein erfindungsgemäßes Text-zu-Sprache-System (TTS-System) ist in 1 veranschaulicht. Das allgemeine System 100 umfasst eine Sprecherdatenbank 102, die Sprecheraufzeichnungen enthält, und einen Front-End-Block 104 zum Empfang eines Eingabetextes. Ein Aufwandberechnungsblock 106 ist an die Sprecherdatenbank und an den Front-End-Block gekoppelt, um einen Aufwandfunktionsalgorithmus anzuwenden. Ein Nachbearbeitungsblock 108 ist an den Aufwandberechnungsblock gekoppelt, um die vom Aufwandberechnungsblock ausgegebenen Ergebnisse zu verketten. Der Nachbearbeitungsblock ist an einen Ausgabeblock 110 gekoppelt, um synthetische Sprache zu erzeugen.
  • Das von der vorliegenden Erfindung vorzugsweise verwendete TTS-System beruht auf der Verkettungstechnologie. Es benötigt eine Sprecherdatenbank, die aus den Aufzeichnungen eines Sprechers aufgebaut ist. Jedoch können verschiedene Sprecher Sätze aufzeichnen, um verschiedene Sprecherdatenbanken zu erzeugen, ohne dass dies die Erfindung einschränkt. Bei der Anwendung ist die Sprecherdatenbank für jedes TTS-System eine andere, die TTS-Engine und die Front-End-Engine sind jedoch dieselben.
  • Unterschiedliche Sprecher sprechen ein vorgegebenes Wort jedoch möglicherweise unterschiedlich aus, selbst in einem bestimmten Kontext. In den folgenden zwei Beispielen kann das Wort „tomato" als [tom ah toe] oder [tom hey toe] und das französische Wort „fenêtre" als [fenètre] oder [fenètr] oder [fnètr] ausgesprochen werden. Wenn das Front-End die Aussprache [fenètr] vorausberechnet, obwohl der aufgezeichnete Sprecher das Wort stets als [fnètr] ausgesprochen hat, wird es schwierig, in der Sprecherdatenbank das fehlende [e] in diesem Kontext für dieses Wort zu finden. Hat der Sprecher beide Aussprachen verwendet, könnte es andererseits zweckmäßig sein, in Abhängigkeit von den weiteren Randbedingungen, die sich von einem Satz zum anderen unterscheiden können, die eine oder die andere Aussprache zu wählen. Dann stellt das Front-End mehrere phonetische Transkriptionen für jedes Wort des Eingabetextes bereit und die TTS-Engine wählt beim Durchsuchen der aufgezeichneten Sprachsegmente die bevorzugte phonetische Transkription, um die bestmögliche Qualität der synthetischen Sprache zu erzielen.
  • Wie bereits erwähnt, wird die im TTS-System der Erfindung verwendete Sprecherdatenbank in üblicher Weise aufgebaut, indem ein Sprecher eine Vielzahl der Sätze aufzeichnet. Die Sätze werden verarbeitet, um jedem der aufgezeichneten Wörter eine entsprechende phonetische Transkription zuzuordnen. Aufgrund des Sprachstils des Sprechers können sich die phonetischen Transkriptionen für jedes Auftreten desselben Wortes voneinander unterscheiden. Nach Abschluss der phonetischen Transkription für jedes aufgezeichnete Wort wird jede Audiodatei entsprechend dieser phonetischen Transkriptionen in Einheiten (sogenannte Sprachbestandteile oder Sprachsegmente) aufgeteilt. Außerdem werden die Sprachsegmente anhand verschiedener Parameter wie phonetischer Kontext, Intonation, Lautdauer oder Lautstärke klassifiziert. Diese Klassifizierung bildet die Sprecherdatenbank, aus der, wie später erläutert wird, während der Laufzeit die Sprachsegmente durch den Aufwandberechnungsblock 106 extrahiert und dann im Nachbearbeitungsblock 108 verkettet werden, woraus schließlich im Ausgabeblock 110 synthetische Sprache erzeugt wird.
  • Unter Bezugnahme auf 2 werden nun die Hauptschritte des Gesamtprozesses 200 zur Ausgabe einer verbesserten synthetischen Sprache gemäß der vorliegenden Erfindung beschrieben.
  • Der Prozess beginnt bei Schritt 202 mit dem Empfang eines Eingabetextes im Front-End-Block. Der Eingabetext kann in Form eines durch einen Benutzer eingetippten Textes oder in Form einer beliebigen Anwendung vorliegen, die eine Benutzeranforderung überträgt.
  • Im Schritt 204 wird der Eingabetext in einer üblichen Weise normalisiert, die dem Fachmann wohlbekannt ist.
  • Im nächsten Schritt 206 werden für jedes Wort des normalisierten Textes mehrere phonetische Transkriptionen erzeugt. Es sollte nachvollziehbar sein, dass die Art, in der das Front-End mehrere phonetische Formen erzeugt, nicht kritisch ist, solange alle alternativen Formen für den gegebenen Satz korrekt sind. Somit können ein statistisches oder ein regelbasiertes Front-End ohne Unterschied verwendet werden, oder ein beliebiges anderes Front-End, das auf beliebigen anderen Verfahren beruht. Vollständige Informationen über statistische Front-End-Systeme findet der Fachmann in „Optimisation d'arbres de decision pour la conversion graphemes-phonemes" von H. Crépy, C. Amato-Beaujard, J. C. Marcadet und C. Waast-Richard, Proc. of XXIVèmes Journées d'Étude sur la Parole, Nancy, 2002, und weitere vollständige Informationen über regelbasierte Front-End-Systeme in „Selflearning techniques for Grapheme-to-Phoneme conversion" von F. Yvon, Proc. of the 2nd Onomastica Research Colloquium, 1994.
  • Unabhängig vom verwendeten Front-End-System muss das System selbstständig dafür sorgen, dass nicht-homophone Homographe eindeutig sind (z. B. „record" [reykord] und „record" [rekord]), und es muss phonetische Formen vorschlagen, die für den Gebrauch des Wortes in dem Satz gültig sind.
  • Um dies am vorherigen Beispiel des Wortes „fenêtre" zu veranschaulichen, das je nach Sprachstil als [fenètre] oder [fenètr] oder [fnètr] ausgesprochen werden kann, kann der gewählte Front-End-Block diese drei phonetischen Formen erzeugen.
  • Im Gegensatz dazu hat das französische Wort „président" je nach seiner grammatischen Gattung zwei mögliche Aussprachen:
    [prézidan], wenn es sich um ein Substantiv handelt, oder [prézid], wenn es sich um ein Verb handelt. Die Wahl der einen oder anderen Aussprache hängt vollständig von der Syntax des Satzes ab. In diesem Fall darf das Front-End für das Wort „président" nicht mehrere phonetische Transkriptionen erzeugen.
  • Im Schritt 208 erzeugt das Front-End eine Vorhersage der Gesamtkontur der Intonation des Eingabetextes (und erzeugt somit nebenbei die Intonationswerte), der Lautdauer und -stärke der Sprachsegmente, also der wohlbekannten Prosodieparameter. Auf diese Weise definiert das Front-End Zielmerkmale, die dann im nächsten Schritt 210 vom Suchalgorithmus verwendet werden.
  • Schritt 210 ermöglicht die Anwendung einer Aufwandfunktion für jede vom Front-End bereitgestellte phonetische Transkription. Es wird eine Extraktion von Sprachsegmenten durchgeführt, und bei einem gegebenen aktuellen Segment zielt dieser Suchalgorithmus darauf ab, unter den verfügbaren Segmenten die nächstbesten Segmente zu finden, die mit dem aktuellen Segment verkettet werden sollen. Bei dieser Suche werden die Merkmale eines jeden Segments und die vom Front-End bereitgestellten Zielmerkmale berücksichtigt. Die Suchroutine ermöglicht die parallele Bewertung verschiedener Pfade, wie in 3 veranschaulicht.
  • Bei jeder Auswahl einer Einheit werden, wie durch einen jeweils anderen Buchstaben im Beispiel von 3 angezeigt ist, bei den zuvor ausgewählten Kandidaten (sofern vorhanden) für verschiedene Segmente der Aufwand ermittelt und die Segmente ausgewählt. Für jedes Segment wird durch die Aufwandfunktion der Verkettungsaufwand berechnet, und die Segmente mit dem niedrigsten Aufwand werden zu einem Raster von Kandidatensegmenten hinzugefügt. Die Aufwandfunktion beruht auf verschiedenen abstimmbaren Kriterien (die z. B. unterschiedlich gewichtet werden können). Wird beispielsweise die phonetische Dauer als sehr wichtig erachtet, so wird durch eine hohe Gewichtung dieses Kriteriums die Wahl von Segmenten mit einer Dauer, die sich sehr stark von der Zieldauer unterscheidet, benachteiligt.
  • Als Nächstes wird im Schritt 212 der beste/bevorzugte Pfad ausgewählt, der in der bevorzugten Ausführungsart derjenige mit dem niedrigsten Gesamtaufwand ist. Die mit diesem Pfad verbundenen Segmente werden dann beibehalten. Hat der Algorithmus den besten Pfad aus den verschiedenen Möglichkeiten gefunden, werden im Schritt 214 alle ausgewählten Sprachbestandteile unter Verwendung von Standard- Signalverarbeitungsverfahren verkettet, um schließlich in Schritt 216 synthetische Sprache zu erzeugen. Die bestmögliche Qualität der synthetischen Sprache wird erzielt, wenn der Suchalgorithmus den Umfang der auf die Sprachbestandteile angewendeten Signalverarbeitung erfolgreich begrenzt. Wenn die zur Synthetisierung eines Satzes verwendeten phonetischen Transkriptionen dieselben sind wie diejenigen, die der Sprecher bei den Aufzeichnungen tatsächlich verwendet hat, findet der mit dynamischer Programmierung arbeitende Suchalgorithmus in der Sprecherdatenbank wahrscheinlich Segmente in ähnlichen Kontexten, die im Idealfall zusammenhängen. Wenn zwei Segmente in der Datenbank zusammenhängen, können diese nahtlos verkettet werden, da beim Zusammenfügen der Segmente nahezu keine Signalverarbeitung involviert ist. Die Vermeidung oder Begrenzung der durch die Signalverarbeitung eingeführten Verschlechterung führt zu besserer Signalqualität der synthetisierten Sprache. Die Bereitstellung verschiedener alternativer Kandidaten von phonetischen Transkriptionen für den Suchalgorithmus erhöht die Chancen für die Auswahl der am besten passenden Sprechersegmente, da diese mit niedrigerem Verkettungsaufwand verbunden sind.
  • Weitere Einzelheiten zur Verkettung und Erzeugung synthetischer Sprache findet der Fachmann in „Current status of the IBM Trainable Speech Synthesis System" von R. Donovan, A. Ittycheriah, M. Franz, B. Ramabhadran, E. Eide, M. Viswanathan, R. Bakis, W. Hamza, M. Picheny, P. Gleason, T. Rutherfoord, P. Cox, D. Green, E. Janke, S. Revelin, C. Waast, B. Zeller, C. Guenther und S. Kunzmann in Proc. of the 4th ISCA Tutorial and Research Workshop an Speech Synthesis, Edinburgh, Scotland, 2001, und in „Recent improvements to the IBM Trainable Speech Synthesis System" von E. Eide, A. Aaron, R. Bakis, P. Cohen, R. Donovan, W. Hamza, T. Mathes, J. Ordinas, M. Polkosky, M. Picheny, M. Smith und M. Viswanathan in Proc. of the IEEE Int. Conf. an Acoustics, Speech, and Signal Processing, Hong Kong, 2003. Front-End.
  • Es ist anzumerken, dass zur Auswahl der am besten geeigneten phonetischen Transkriptionen zwei Verfahren verwendet werden können: ein Erstdurchlaufverfahren oder ein Einfachdurchlauf-Auswahlverfahren, die im Folgenden detailliert beschrieben werden.
  • Das Erstdurchlaufverfahren besteht aus der Durchführung des Suchalgorithmus in lediglich einem ersten Durchlauf, um die Auswahl der phonetischen Transkription durchzuführen. Das Prinzip besteht darin, das phonetische Kriterium in der Aufwandfunktion zu favorisieren, z. B. durch Einstellen einer Gewichtung null (oder einer extrem kleinen Gewichtung) für die anderen Kriterien, um die phonetischen Randbedingungen hervorzuheben. Dieses Verfahren erhöht die Chancen, eine phonetische Form zu wählen, die mit den Formen, die der Sprecher während der Aufzeichnungen verwendete, identisch oder diesen sehr ähnlich ist. Bei jeder vom Front-End für ein Wort bereitgestellten phonetischen Form werden unterschiedliche Pfade bewertet, wie in 4-a gezeigt. Die besten Pfade aller phonetischen Formen werden verglichen und der allerbeste Pfad ist die phonetische Transkription, die für die Auswahl weiterer Sprachsegmente (Schritt 212) zurückbehalten wird. Nach der Wahl der phonetischen Transkription setzt die TTS-Engine den Vorgang in einem zweiten Durchlauf, dem das Ergebnis dieses ersten Durchlaufs vorgegeben wird, mit der üblichen Suche nach Sprachsegmenten fort, wie in 4-b gezeigt.
  • Der zweite Ansatz, die „Einfachdurchlaufauswahl", ermöglicht die Auswahl der entsprechenden phonetischen Form aus mehreren phonetischen Transkriptionen, indem diese in den üblichen Suchschritt eingeführt werden. Das Prinzip ist im Wesentlichen mit dem vorherigen Verfahren identisch, ausgenommen, dass nur ein Suchdurchlauf durchgeführt wird und keine Parameter der Aufwandfunktion stark favorisiert werden. Alle Parameter der Aufwandfunktion werden abgestimmt, um bei der Segmentauswahl den besten Kompromiss zwischen den phonetischen Formen und den anderen Randbedingungen zu wählen. Wenn ein Sprecher während der Aufzeichnungen ein Wort in unterschiedlicher Weise ausgesprochen hat, kann die Wahl der am besten geeigneten phonetischen Transkription durch die anderen Randbedingungen wie Intonation, Dauer und Art des Satzes unterstützt werden. Dies ist in 4 veranschaulicht. Als Beispiel folgen zwei französische Sätze mit demselben, unterschiedlich ausgesprochenen Wort „fenêtre":
    • (1) La fenêtre est ouverte. wobei das Wort „fenêtre" als [fenètr] ausgesprochen wird, und
    • (2) Ferme la fenêtre! wobei das Wort „fenêtre" als [fnètr] ausgesprochen wird.
  • Der erste Satz ist ein Aussagesatz, während der zweite Satz ein Ausrufesatz ist. Diese Sätze unterscheiden sich in der Intonationskontur, der Lautdauer und -stärke. Während der Synthese können diese Informationen beispielsweise dazu beitragen, die entsprechende phonetische Form auszuwählen, da es für den Suchalgorithmus leichter ist, Sprachsegmente zu finden, deren Intonation, Lautdauer und -stärke ähnlich der vorhergesagten Intonation, Lautdauer und -stärke in passenden Sätzen ist.
  • Bei dieser Implementierung wird die Auswahl der phonetischen Transkription zur selben Zeit wie die Auswahl von Spracheinheiten durchgeführt. Dann werden die Segmente verkettet, um die synthetisierte Sprache zu erzeugen.

Claims (10)

  1. Verfahren, geeignet für ein Text-zu-Sprache-System, zum Auswählen bevorzugter phonetischer Transkriptionen eines Eingabetextes, das die folgenden Schritte umfasst: – Erzeugen einer Vielzahl phonetischer Transkriptionen für jedes Wort des Eingabetextes, – Berechnen einer Aufwandbewertung für jede phonetische Transkription durch Anwenden einer Verkettungsaufwandfunktion auf eine Vielzahl von vordefinierten Sprachsegmenten, die als Kandidaten für das Synthetisieren der Transkription ausgewählt wurden, und – Sortieren der Vielzahl phonetischer Transkriptionen entsprechend den berechneten Aufwandbewertungen.
  2. Verfahren nach Anspruch 1, das des Weiteren den Schritt des Normalisierens des Eingabetextes vor dem Erzeugen der Vielzahl phonetischer Transkriptionen umfasst.
  3. Verfahren nach Anspruch 1 oder 2, das des Weiteren den Schritt des Anwendens von Prosodieparametern nach dem Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen umfasst.
  4. Verfahren nach einem der Ansprüche 1 bis 3, das des Weiteren den Schritt des Auswählens bevorzugter Sprachsegmente nach dem Schritt des Sortierens der Vielzahl phonetischer Transkriptionen umfasst.
  5. Verfahren nach Anspruch 4, das des Weiteren den Schritt des Verkettens der bevorzugten Sprachsegmente umfasst.
  6. Verfahren nach Anspruch 5, das des Weiteren den Schritt des Ausgebens synthetischer Sprache nach dem Verkettungsschritt umfasst.
  7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem der Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen ein regelbasierter Schritt ist.
  8. Verfahren nach einem der Ansprüche 1 oder 6, bei dem der Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen auf statistischer Berechnung beruht.
  9. System, das Mittel umfasst, die angepasst sind, um die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchzuführen.
  10. Computerprogramm, das Anweisungen umfasst, die so angepasst sind, dass sie die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchführen, wenn das Computerprogramm auf einem Computersystem ausgeführt wird.
DE602005002706T 2004-08-11 2005-08-11 Verfahren und System für die Umsetzung von Text-zu-Sprache Active DE602005002706T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04300531 2004-08-11
EP04300531 2004-08-11

Publications (2)

Publication Number Publication Date
DE602005002706D1 DE602005002706D1 (de) 2007-11-15
DE602005002706T2 true DE602005002706T2 (de) 2008-07-17

Family

ID=34939984

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005002706T Active DE602005002706T2 (de) 2004-08-11 2005-08-11 Verfahren und System für die Umsetzung von Text-zu-Sprache

Country Status (3)

Country Link
US (1) US7869999B2 (de)
AT (1) ATE374991T1 (de)
DE (1) DE602005002706T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011118059A1 (de) * 2011-11-09 2013-05-16 Elektrobit Automotive Gmbh Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7702510B2 (en) * 2007-01-12 2010-04-20 Nuance Communications, Inc. System and method for dynamically selecting among TTS systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8990087B1 (en) * 2008-09-30 2015-03-24 Amazon Technologies, Inc. Providing text to speech from digital content on an electronic device
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) * 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9368104B2 (en) * 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
EP4138075A1 (de) 2013-02-07 2023-02-22 Apple Inc. Sprachauslöser für digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和***
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US6148285A (en) * 1998-10-30 2000-11-14 Nortel Networks Corporation Allophonic text-to-speech generator
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6178402B1 (en) * 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
US20030158734A1 (en) * 1999-12-16 2003-08-21 Brian Cruickshank Text to speech conversion using word concatenation
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US7277851B1 (en) * 2000-11-22 2007-10-02 Tellme Networks, Inc. Automated creation of phonemic variations
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US6804650B2 (en) * 2000-12-20 2004-10-12 Bellsouth Intellectual Property Corporation Apparatus and method for phonetically screening predetermined character strings
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
US7013276B2 (en) * 2001-10-05 2006-03-14 Comverse, Inc. Method of assessing degree of acoustic confusability, and system therefor
CA2359771A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time audio synthesis system and method
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
US8145491B2 (en) * 2002-07-30 2012-03-27 Nuance Communications, Inc. Techniques for enhancing the performance of concatenative speech synthesis
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US6988069B2 (en) * 2003-01-31 2006-01-17 Speechworks International, Inc. Reduced unit database generation based on cost information
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
TWI233589B (en) * 2004-03-05 2005-06-01 Ind Tech Res Inst Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
US20060031069A1 (en) * 2004-08-03 2006-02-09 Sony Corporation System and method for performing a grapheme-to-phoneme conversion
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011118059A1 (de) * 2011-11-09 2013-05-16 Elektrobit Automotive Gmbh Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems

Also Published As

Publication number Publication date
DE602005002706D1 (de) 2007-11-15
US7869999B2 (en) 2011-01-11
US20060041429A1 (en) 2006-02-23
ATE374991T1 (de) 2007-10-15

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60201262T2 (de) Hierarchische sprachmodelle
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69814195T2 (de) Vorrichtung zur Sprechererkennung
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE102008017993B4 (de) Sprachsuchvorrichtung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP1184839A2 (de) Graphem-Phonem-Konvertierung
EP0925578A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112010005706B4 (de) Spracherkennungsvorrichtung
EP1435087B1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
DE19912405A1 (de) Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN

8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US