DE602005002706T2 - Verfahren und System für die Umsetzung von Text-zu-Sprache - Google Patents
Verfahren und System für die Umsetzung von Text-zu-Sprache Download PDFInfo
- Publication number
- DE602005002706T2 DE602005002706T2 DE602005002706T DE602005002706T DE602005002706T2 DE 602005002706 T2 DE602005002706 T2 DE 602005002706T2 DE 602005002706 T DE602005002706 T DE 602005002706T DE 602005002706 T DE602005002706 T DE 602005002706T DE 602005002706 T2 DE602005002706 T2 DE 602005002706T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- phonetic
- phonetic transcriptions
- speaker
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013518 transcription Methods 0.000 claims abstract description 42
- 230000035897 transcription Effects 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 2
- 238000012552 review Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000010845 search algorithm Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 241000227653 Lycopersicon Species 0.000 description 3
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
- TECHNISCHES GEBIET
- Die vorliegende Erfindung betrifft allgemein ein System und Verfahren für die Umsetzung von Text in Sprache und insbesondere ein auf Verkettungstechnologie beruhendes System und Verfahren.
- HINTERGRUND DER ERFINDUNG
- Text-zu-Sprache-Systeme (TTS-Systeme) erzeugen aus einem Eingabetext synthetische Sprache, die die natürliche Sprache simuliert. TTS-Systeme, die auf Verkettungstechnologie beruhen, umfassen üblicherweise drei Komponenten: eine Sprecherdatenbank, eine TTS-Engine und ein Front-End.
- Zunächst wird die Sprecherdatenbank erzeugt, indem eine große Anzahl von einem Sprecher gesprochener Sätze, die Äußerungen, aufgezeichnet wird. Diese Äußerungen werden in phonetische Elementareinheiten transkribiert, die aus den Aufzeichnungen als Sprachbestandteile (bzw. Sprachsegmente) extrahiert werden, welche die Sprecherdatenbank der Sprachsegmente bilden. Es sollte nachvollziehbar sein, dass jede erzeugte Datenbank sprecherspezifisch ist.
- Das Front-End beruht im Allgemeinen auf linguistischen Regeln und ist die erste Komponente, die zur Laufzeit verwendet wird. Das Front-End normalisiert einen Eingabetext, um mit Hilfe eines Phonetisierers für jedes Wort des Eingabetextes eine phonetische Transkription zu erzeugen. Es sollte nachvollziehbar sein, dass das Front-End sprecherunabhängig ist.
- Die TTS-Engine wählt dann für die gesamte phonetische Transkription des Eingabetextes die entsprechenden Sprachsegmente aus einer Sprecherdatenbank aus und verkettet diese, um synthetische Sprache zu erzeugen. Die TTS-Engine kann jede der verfügbaren Sprecherdatenbanken (bzw. Stimmen), jedoch jeweils nur eine, verwenden.
- Das Front-End ist, wie oben erwähnt, sprecherunabhängig und erzeugt dieselben phonetischen Transkriptionen, selbst wenn Datenbanken mit Sprachsegmenten von unterschiedlichen Sprechern (d. h. unterschiedliche „Stimmen") verwendet werden. In der Praxis jedoch unterscheiden sich Sprecher (selbst professionelle Sprecher) zumindest als Folge von Variationen im Dialekt oder Sprachstil in ihrer Art des Sprechens und Aussprechens von Wörtern. Beispielsweise kann das Wort „tomato" als [tom ah toe] oder [tom hey toe] ausgesprochen werden.
- Derzeitige Front-End-Systeme berechnen phonetische Formen voraus und verwenden dazu sprecherunabhängige statistische Modelle oder Regeln. Idealerweise sollten die vom Front-End ausgegebenen phonetischen Formen an den Aussprachestil des Sprechers angepasst sein. Andernfalls finden die vom Front-End vorgegebenen phonetischen Zielformen keine guten Entsprechungen in der Sprecherdatenbank, was zu einem verschlechterten Ausgabesignal führt.
- Bei einem regelbasierten Front-End werden die Regeln in den meisten Fällen von Linguistikexperten erzeugt. Zur Sprecheranpassung müsste der Experte jedes Mal, wenn eine neue Stimme (d. h. ein TTS-System mit einer neuen Sprecherdatenbank) erzeugt wird, die Regeln manuell an den Sprachstil des Sprechers anpassen. Dies ist unter Umständen sehr zeitraubend.
- Bei einem statistischen Front-End muss ein neues, dem Sprecher zugeordnetes Front-End eintrainiert werden, was ebenfalls sehr zeitraubend ist.
- Somit führen derzeitige sprecherunabhängige Front-End-Systeme zwangsweise zu Aussprachen, die für die aufgezeichneten Sprecher nicht notwendigerweise natürlich sind. Derartige Fehlanpassungen haben einen sehr negativen Einfluss auf die Qualität des endgültigen Signals, indem sie viele Verkettungen und Abstimmungen bei der Signalverarbeitung verursachen.
- Somit wäre ein Text-zu-Sprache-System wünschenswert, bei dem die Qualität des endgültigen Signals nicht aufgrund von Fehlanpassungen zwischen den phonetischen Transkriptionen des Front-Ends und den aufgezeichneten Sprachsegmenten beeinträchtigt ist. Die vorliegende Erfindung bietet eine derartige Lösung.
- ÜBERBLICK ÜBER DIE ERFINDUNG
- Dementsprechend besteht die Hauptaufgabe der Erfindung darin, ein TTS-System bereitzustellen und ein Verfahren zu erhalten, das die Qualität der erzeugten synthetischen Sprache stark verbessert, indem die Anzahl von Artefakten zwischen Sprachsegmenten reduziert wird, wodurch viel Zeit für die Verarbeitung eingespart wird.
- Kurz gesagt, bei einer durch das Front-End vorgegebenen Sequenz von Phonen gibt es unterschiedliche Sequenzen von Sprachsegmenten, d. h. verschiedene Hypothesen, die zur Synthetisierung dieser phonetischen Sequenz verwendet werden können. Die TTS-Engine wählt die passenden Segmente durch Abarbeiten eines dynamischen Programmieralgorithmus aus, der jede einzelne Hypothese auf der Grundlage verschiedener Kriterien mit einer Aufwandfunktion bewertet. Die Sequenz von Segmenten mit dem niedrigsten Aufwand wird dann ausgewählt. Wenn die phonetische Transkription, die vom Front-End der TTS-Engine zur Laufzeit bereitgestellt wird, gut zum aufgezeichneten Aussprachestil des Sprechers passt, ist es für die Engine leichter, eine passende Segmentsequenz in der Sprecherdatenbank zu finden. Es wird weniger Signalverarbeitung benötigt, um die Segmente nahtlos miteinander zu verbinden. Bei dieser Konfiguration bewertet der Suchalgorithmus anstelle nur einer Möglichkeit verschiedene Möglichkeiten der phonetischen Transkription für jedes Wort und berechnet dann den günstigsten Aufwand für jede Möglichkeit. Letztendlich ist die ausgewählte phonetische Transkription diejenige, bei der der geringste Verkettungsaufwand entsteht. Beispielsweise kann das Front-End den Begriff „tomato" in die zwei Möglichkeiten [tom ah toe] oder [tom hey toe] phonetisieren. Diejenige, die zum aufgezeichneten Sprachstil des Sprechers passt, führt voraussichtlich zu geringerem Verkettungsaufwand und wird daher von der Engine für die Synthese ausgewählt.
- Bei einer bevorzugten Ausführungsart wird die Erfindung in einem im Computer implementierten TTS-System angewendet, das mindestens eine zuvor aus Sprecheraufzeichnungen erzeugte Sprecherdatenbank, ein Front-End-System zum Empfang eines Eingabetextes und eine Text-zu-Sprache-Engine umfasst. Insbesondere erzeugt das Front-End-System für jedes Wort des Eingabetextes mehrere phonetische Transkriptionen und die TTS-Engine verwendet eine Aufwandfunktion, um auszuwählen, welche phonetische Transkription die besser geeignete ist, um die Sprachsegmente in der Sprecherdatenbank zu suchen, die verkettet und synthetisiert werden sollen.
- Allgemeiner ausgedrückt umfasst ein Computersystem zur Erzeugung synthetischer Sprache Folgendes:
- (a) eine Sprecherdatenbank zur Speicherung von Sprachsegmenten;
- (b) eine Front-End-Schnittstelle zum Empfang eines aus einer Vielzahl von Wörtern bestehenden Eingabetextes,
- (c) eine Ausgabeschnittstelle zur Ausgabe der synthetischen Sprache in hörbarer Form; und
- (d) vom Computer ausführbare computerlesbare Programmmittel zum Durchführen von Aktionen einschließlich:
- (i) des Erzeugens einer Vielzahl phonetischer Transkriptionen für jedes Wort des Eingabetextes;
- (ii) des Berechnens einer Aufwandbewertung für jede phonetische Transkription durch Anwenden einer Aufwandfunktion auf die Vielzahl von Sprachsegmenten und
- (iii) des Sortierens der Vielzahl phonetischer Transkriptionen entsprechend den berechneten Aufwandbewertungen.
- In einer handelsüblichen Form sind die computerlesbaren Programmmittel auf einer Programmspeichervorrichtung verkörpert, die für einen Computer lesbar ist.
- Eine weitere Aufgabe der Erfindung ist die Bereitstellung eines in den Verfahrensansprüchen definierten Verfahrens.
- KURZBESCHREIBUNG DER ZEICHNUNGEN
- Das Vorangegangene sowie weitere Aufgaben, Merkmale und Vorteile der Erfindung werden aus der folgenden spezifischeren Beschreibung der Erfindung verständlicher, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Es zeigen:
-
1 eine allgemeine Ansicht des Systems der vorliegenden Erfindung, -
2 ein Ablaufdiagramm der Hauptschritte zur Erzeugung synthetischer Sprache gemäß der vorliegenden Erfindung, -
3 eine veranschaulichende Kurve der Aufwandfunktion, -
4-a und4-b eine Erläuterung der Auswahl bevorzugter Segmente in einem Erstdurchlauf-Ansatz, -
5 eine Erläuterung der Auswahl bevorzugter Segmente in einem Einfachdurchlauf-Ansatz. - DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
- Ein erfindungsgemäßes Text-zu-Sprache-System (TTS-System) ist in
1 veranschaulicht. Das allgemeine System100 umfasst eine Sprecherdatenbank102 , die Sprecheraufzeichnungen enthält, und einen Front-End-Block104 zum Empfang eines Eingabetextes. Ein Aufwandberechnungsblock106 ist an die Sprecherdatenbank und an den Front-End-Block gekoppelt, um einen Aufwandfunktionsalgorithmus anzuwenden. Ein Nachbearbeitungsblock108 ist an den Aufwandberechnungsblock gekoppelt, um die vom Aufwandberechnungsblock ausgegebenen Ergebnisse zu verketten. Der Nachbearbeitungsblock ist an einen Ausgabeblock110 gekoppelt, um synthetische Sprache zu erzeugen. - Das von der vorliegenden Erfindung vorzugsweise verwendete TTS-System beruht auf der Verkettungstechnologie. Es benötigt eine Sprecherdatenbank, die aus den Aufzeichnungen eines Sprechers aufgebaut ist. Jedoch können verschiedene Sprecher Sätze aufzeichnen, um verschiedene Sprecherdatenbanken zu erzeugen, ohne dass dies die Erfindung einschränkt. Bei der Anwendung ist die Sprecherdatenbank für jedes TTS-System eine andere, die TTS-Engine und die Front-End-Engine sind jedoch dieselben.
- Unterschiedliche Sprecher sprechen ein vorgegebenes Wort jedoch möglicherweise unterschiedlich aus, selbst in einem bestimmten Kontext. In den folgenden zwei Beispielen kann das Wort „tomato" als [tom ah toe] oder [tom hey toe] und das französische Wort „fenêtre" als [fenètre] oder [fenètr] oder [fnètr] ausgesprochen werden. Wenn das Front-End die Aussprache [fenètr] vorausberechnet, obwohl der aufgezeichnete Sprecher das Wort stets als [fnètr] ausgesprochen hat, wird es schwierig, in der Sprecherdatenbank das fehlende [e] in diesem Kontext für dieses Wort zu finden. Hat der Sprecher beide Aussprachen verwendet, könnte es andererseits zweckmäßig sein, in Abhängigkeit von den weiteren Randbedingungen, die sich von einem Satz zum anderen unterscheiden können, die eine oder die andere Aussprache zu wählen. Dann stellt das Front-End mehrere phonetische Transkriptionen für jedes Wort des Eingabetextes bereit und die TTS-Engine wählt beim Durchsuchen der aufgezeichneten Sprachsegmente die bevorzugte phonetische Transkription, um die bestmögliche Qualität der synthetischen Sprache zu erzielen.
- Wie bereits erwähnt, wird die im TTS-System der Erfindung verwendete Sprecherdatenbank in üblicher Weise aufgebaut, indem ein Sprecher eine Vielzahl der Sätze aufzeichnet. Die Sätze werden verarbeitet, um jedem der aufgezeichneten Wörter eine entsprechende phonetische Transkription zuzuordnen. Aufgrund des Sprachstils des Sprechers können sich die phonetischen Transkriptionen für jedes Auftreten desselben Wortes voneinander unterscheiden. Nach Abschluss der phonetischen Transkription für jedes aufgezeichnete Wort wird jede Audiodatei entsprechend dieser phonetischen Transkriptionen in Einheiten (sogenannte Sprachbestandteile oder Sprachsegmente) aufgeteilt. Außerdem werden die Sprachsegmente anhand verschiedener Parameter wie phonetischer Kontext, Intonation, Lautdauer oder Lautstärke klassifiziert. Diese Klassifizierung bildet die Sprecherdatenbank, aus der, wie später erläutert wird, während der Laufzeit die Sprachsegmente durch den Aufwandberechnungsblock
106 extrahiert und dann im Nachbearbeitungsblock108 verkettet werden, woraus schließlich im Ausgabeblock110 synthetische Sprache erzeugt wird. - Unter Bezugnahme auf
2 werden nun die Hauptschritte des Gesamtprozesses200 zur Ausgabe einer verbesserten synthetischen Sprache gemäß der vorliegenden Erfindung beschrieben. - Der Prozess beginnt bei Schritt
202 mit dem Empfang eines Eingabetextes im Front-End-Block. Der Eingabetext kann in Form eines durch einen Benutzer eingetippten Textes oder in Form einer beliebigen Anwendung vorliegen, die eine Benutzeranforderung überträgt. - Im Schritt
204 wird der Eingabetext in einer üblichen Weise normalisiert, die dem Fachmann wohlbekannt ist. - Im nächsten Schritt
206 werden für jedes Wort des normalisierten Textes mehrere phonetische Transkriptionen erzeugt. Es sollte nachvollziehbar sein, dass die Art, in der das Front-End mehrere phonetische Formen erzeugt, nicht kritisch ist, solange alle alternativen Formen für den gegebenen Satz korrekt sind. Somit können ein statistisches oder ein regelbasiertes Front-End ohne Unterschied verwendet werden, oder ein beliebiges anderes Front-End, das auf beliebigen anderen Verfahren beruht. Vollständige Informationen über statistische Front-End-Systeme findet der Fachmann in „Optimisation d'arbres de decision pour la conversion graphemes-phonemes" von H. Crépy, C. Amato-Beaujard, J. C. Marcadet und C. Waast-Richard, Proc. of XXIVèmes Journées d'Étude sur la Parole, Nancy, 2002, und weitere vollständige Informationen über regelbasierte Front-End-Systeme in „Selflearning techniques for Grapheme-to-Phoneme conversion" von F. Yvon, Proc. of the 2nd Onomastica Research Colloquium, 1994. - Unabhängig vom verwendeten Front-End-System muss das System selbstständig dafür sorgen, dass nicht-homophone Homographe eindeutig sind (z. B. „record" [reykord] und „record" [rekord]), und es muss phonetische Formen vorschlagen, die für den Gebrauch des Wortes in dem Satz gültig sind.
- Um dies am vorherigen Beispiel des Wortes „fenêtre" zu veranschaulichen, das je nach Sprachstil als [fenètre] oder [fenètr] oder [fnètr] ausgesprochen werden kann, kann der gewählte Front-End-Block diese drei phonetischen Formen erzeugen.
- Im Gegensatz dazu hat das französische Wort „président" je nach seiner grammatischen Gattung zwei mögliche Aussprachen:
[prézidan], wenn es sich um ein Substantiv handelt, oder [prézid], wenn es sich um ein Verb handelt. Die Wahl der einen oder anderen Aussprache hängt vollständig von der Syntax des Satzes ab. In diesem Fall darf das Front-End für das Wort „président" nicht mehrere phonetische Transkriptionen erzeugen. - Im Schritt
208 erzeugt das Front-End eine Vorhersage der Gesamtkontur der Intonation des Eingabetextes (und erzeugt somit nebenbei die Intonationswerte), der Lautdauer und -stärke der Sprachsegmente, also der wohlbekannten Prosodieparameter. Auf diese Weise definiert das Front-End Zielmerkmale, die dann im nächsten Schritt210 vom Suchalgorithmus verwendet werden. - Schritt
210 ermöglicht die Anwendung einer Aufwandfunktion für jede vom Front-End bereitgestellte phonetische Transkription. Es wird eine Extraktion von Sprachsegmenten durchgeführt, und bei einem gegebenen aktuellen Segment zielt dieser Suchalgorithmus darauf ab, unter den verfügbaren Segmenten die nächstbesten Segmente zu finden, die mit dem aktuellen Segment verkettet werden sollen. Bei dieser Suche werden die Merkmale eines jeden Segments und die vom Front-End bereitgestellten Zielmerkmale berücksichtigt. Die Suchroutine ermöglicht die parallele Bewertung verschiedener Pfade, wie in3 veranschaulicht. - Bei jeder Auswahl einer Einheit werden, wie durch einen jeweils anderen Buchstaben im Beispiel von
3 angezeigt ist, bei den zuvor ausgewählten Kandidaten (sofern vorhanden) für verschiedene Segmente der Aufwand ermittelt und die Segmente ausgewählt. Für jedes Segment wird durch die Aufwandfunktion der Verkettungsaufwand berechnet, und die Segmente mit dem niedrigsten Aufwand werden zu einem Raster von Kandidatensegmenten hinzugefügt. Die Aufwandfunktion beruht auf verschiedenen abstimmbaren Kriterien (die z. B. unterschiedlich gewichtet werden können). Wird beispielsweise die phonetische Dauer als sehr wichtig erachtet, so wird durch eine hohe Gewichtung dieses Kriteriums die Wahl von Segmenten mit einer Dauer, die sich sehr stark von der Zieldauer unterscheidet, benachteiligt. - Als Nächstes wird im Schritt
212 der beste/bevorzugte Pfad ausgewählt, der in der bevorzugten Ausführungsart derjenige mit dem niedrigsten Gesamtaufwand ist. Die mit diesem Pfad verbundenen Segmente werden dann beibehalten. Hat der Algorithmus den besten Pfad aus den verschiedenen Möglichkeiten gefunden, werden im Schritt214 alle ausgewählten Sprachbestandteile unter Verwendung von Standard- Signalverarbeitungsverfahren verkettet, um schließlich in Schritt216 synthetische Sprache zu erzeugen. Die bestmögliche Qualität der synthetischen Sprache wird erzielt, wenn der Suchalgorithmus den Umfang der auf die Sprachbestandteile angewendeten Signalverarbeitung erfolgreich begrenzt. Wenn die zur Synthetisierung eines Satzes verwendeten phonetischen Transkriptionen dieselben sind wie diejenigen, die der Sprecher bei den Aufzeichnungen tatsächlich verwendet hat, findet der mit dynamischer Programmierung arbeitende Suchalgorithmus in der Sprecherdatenbank wahrscheinlich Segmente in ähnlichen Kontexten, die im Idealfall zusammenhängen. Wenn zwei Segmente in der Datenbank zusammenhängen, können diese nahtlos verkettet werden, da beim Zusammenfügen der Segmente nahezu keine Signalverarbeitung involviert ist. Die Vermeidung oder Begrenzung der durch die Signalverarbeitung eingeführten Verschlechterung führt zu besserer Signalqualität der synthetisierten Sprache. Die Bereitstellung verschiedener alternativer Kandidaten von phonetischen Transkriptionen für den Suchalgorithmus erhöht die Chancen für die Auswahl der am besten passenden Sprechersegmente, da diese mit niedrigerem Verkettungsaufwand verbunden sind. - Weitere Einzelheiten zur Verkettung und Erzeugung synthetischer Sprache findet der Fachmann in „Current status of the IBM Trainable Speech Synthesis System" von R. Donovan, A. Ittycheriah, M. Franz, B. Ramabhadran, E. Eide, M. Viswanathan, R. Bakis, W. Hamza, M. Picheny, P. Gleason, T. Rutherfoord, P. Cox, D. Green, E. Janke, S. Revelin, C. Waast, B. Zeller, C. Guenther und S. Kunzmann in Proc. of the 4th ISCA Tutorial and Research Workshop an Speech Synthesis, Edinburgh, Scotland, 2001, und in „Recent improvements to the IBM Trainable Speech Synthesis System" von E. Eide, A. Aaron, R. Bakis, P. Cohen, R. Donovan, W. Hamza, T. Mathes, J. Ordinas, M. Polkosky, M. Picheny, M. Smith und M. Viswanathan in Proc. of the IEEE Int. Conf. an Acoustics, Speech, and Signal Processing, Hong Kong, 2003. Front-End.
- Es ist anzumerken, dass zur Auswahl der am besten geeigneten phonetischen Transkriptionen zwei Verfahren verwendet werden können: ein Erstdurchlaufverfahren oder ein Einfachdurchlauf-Auswahlverfahren, die im Folgenden detailliert beschrieben werden.
- Das Erstdurchlaufverfahren besteht aus der Durchführung des Suchalgorithmus in lediglich einem ersten Durchlauf, um die Auswahl der phonetischen Transkription durchzuführen. Das Prinzip besteht darin, das phonetische Kriterium in der Aufwandfunktion zu favorisieren, z. B. durch Einstellen einer Gewichtung null (oder einer extrem kleinen Gewichtung) für die anderen Kriterien, um die phonetischen Randbedingungen hervorzuheben. Dieses Verfahren erhöht die Chancen, eine phonetische Form zu wählen, die mit den Formen, die der Sprecher während der Aufzeichnungen verwendete, identisch oder diesen sehr ähnlich ist. Bei jeder vom Front-End für ein Wort bereitgestellten phonetischen Form werden unterschiedliche Pfade bewertet, wie in
4-a gezeigt. Die besten Pfade aller phonetischen Formen werden verglichen und der allerbeste Pfad ist die phonetische Transkription, die für die Auswahl weiterer Sprachsegmente (Schritt212 ) zurückbehalten wird. Nach der Wahl der phonetischen Transkription setzt die TTS-Engine den Vorgang in einem zweiten Durchlauf, dem das Ergebnis dieses ersten Durchlaufs vorgegeben wird, mit der üblichen Suche nach Sprachsegmenten fort, wie in4-b gezeigt. - Der zweite Ansatz, die „Einfachdurchlaufauswahl", ermöglicht die Auswahl der entsprechenden phonetischen Form aus mehreren phonetischen Transkriptionen, indem diese in den üblichen Suchschritt eingeführt werden. Das Prinzip ist im Wesentlichen mit dem vorherigen Verfahren identisch, ausgenommen, dass nur ein Suchdurchlauf durchgeführt wird und keine Parameter der Aufwandfunktion stark favorisiert werden. Alle Parameter der Aufwandfunktion werden abgestimmt, um bei der Segmentauswahl den besten Kompromiss zwischen den phonetischen Formen und den anderen Randbedingungen zu wählen. Wenn ein Sprecher während der Aufzeichnungen ein Wort in unterschiedlicher Weise ausgesprochen hat, kann die Wahl der am besten geeigneten phonetischen Transkription durch die anderen Randbedingungen wie Intonation, Dauer und Art des Satzes unterstützt werden. Dies ist in
4 veranschaulicht. Als Beispiel folgen zwei französische Sätze mit demselben, unterschiedlich ausgesprochenen Wort „fenêtre": - (1) La fenêtre est ouverte. wobei das Wort „fenêtre" als [fenètr] ausgesprochen wird, und
- (2) Ferme la fenêtre! wobei das Wort „fenêtre" als [fnètr] ausgesprochen wird.
- Der erste Satz ist ein Aussagesatz, während der zweite Satz ein Ausrufesatz ist. Diese Sätze unterscheiden sich in der Intonationskontur, der Lautdauer und -stärke. Während der Synthese können diese Informationen beispielsweise dazu beitragen, die entsprechende phonetische Form auszuwählen, da es für den Suchalgorithmus leichter ist, Sprachsegmente zu finden, deren Intonation, Lautdauer und -stärke ähnlich der vorhergesagten Intonation, Lautdauer und -stärke in passenden Sätzen ist.
- Bei dieser Implementierung wird die Auswahl der phonetischen Transkription zur selben Zeit wie die Auswahl von Spracheinheiten durchgeführt. Dann werden die Segmente verkettet, um die synthetisierte Sprache zu erzeugen.
Claims (10)
- Verfahren, geeignet für ein Text-zu-Sprache-System, zum Auswählen bevorzugter phonetischer Transkriptionen eines Eingabetextes, das die folgenden Schritte umfasst: – Erzeugen einer Vielzahl phonetischer Transkriptionen für jedes Wort des Eingabetextes, – Berechnen einer Aufwandbewertung für jede phonetische Transkription durch Anwenden einer Verkettungsaufwandfunktion auf eine Vielzahl von vordefinierten Sprachsegmenten, die als Kandidaten für das Synthetisieren der Transkription ausgewählt wurden, und – Sortieren der Vielzahl phonetischer Transkriptionen entsprechend den berechneten Aufwandbewertungen.
- Verfahren nach Anspruch 1, das des Weiteren den Schritt des Normalisierens des Eingabetextes vor dem Erzeugen der Vielzahl phonetischer Transkriptionen umfasst.
- Verfahren nach Anspruch 1 oder 2, das des Weiteren den Schritt des Anwendens von Prosodieparametern nach dem Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen umfasst.
- Verfahren nach einem der Ansprüche 1 bis 3, das des Weiteren den Schritt des Auswählens bevorzugter Sprachsegmente nach dem Schritt des Sortierens der Vielzahl phonetischer Transkriptionen umfasst.
- Verfahren nach Anspruch 4, das des Weiteren den Schritt des Verkettens der bevorzugten Sprachsegmente umfasst.
- Verfahren nach Anspruch 5, das des Weiteren den Schritt des Ausgebens synthetischer Sprache nach dem Verkettungsschritt umfasst.
- Verfahren nach einem der Ansprüche 1 bis 6, bei dem der Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen ein regelbasierter Schritt ist.
- Verfahren nach einem der Ansprüche 1 oder 6, bei dem der Schritt des Erzeugens einer Vielzahl phonetischer Transkriptionen auf statistischer Berechnung beruht.
- System, das Mittel umfasst, die angepasst sind, um die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchzuführen.
- Computerprogramm, das Anweisungen umfasst, die so angepasst sind, dass sie die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 durchführen, wenn das Computerprogramm auf einem Computersystem ausgeführt wird.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04300531 | 2004-08-11 | ||
EP04300531 | 2004-08-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE602005002706D1 DE602005002706D1 (de) | 2007-11-15 |
DE602005002706T2 true DE602005002706T2 (de) | 2008-07-17 |
Family
ID=34939984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE602005002706T Active DE602005002706T2 (de) | 2004-08-11 | 2005-08-11 | Verfahren und System für die Umsetzung von Text-zu-Sprache |
Country Status (3)
Country | Link |
---|---|
US (1) | US7869999B2 (de) |
AT (1) | ATE374991T1 (de) |
DE (1) | DE602005002706T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102011118059A1 (de) * | 2011-11-09 | 2013-05-16 | Elektrobit Automotive Gmbh | Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems |
Families Citing this family (195)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7702510B2 (en) * | 2007-01-12 | 2010-04-20 | Nuance Communications, Inc. | System and method for dynamically selecting among TTS systems |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9202460B2 (en) * | 2008-05-14 | 2015-12-01 | At&T Intellectual Property I, Lp | Methods and apparatus to generate a speech recognition library |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) * | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9368104B2 (en) * | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9570076B2 (en) * | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
EP4138075A1 (de) | 2013-02-07 | 2023-02-22 | Apple Inc. | Sprachauslöser für digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和*** |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的***和方法 |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
CN106547511B (zh) | 2015-09-16 | 2019-12-10 | 广州市动景计算机科技有限公司 | 一种语音播读网页信息的方法、浏览器客户端及服务器 |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN106683677B (zh) | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
CN112133295B (zh) * | 2020-11-09 | 2024-02-13 | 北京小米松果电子有限公司 | 语音识别方法、装置及存储介质 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5796916A (en) * | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
US6230131B1 (en) * | 1998-04-29 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Method for generating spelling-to-pronunciation decision tree |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
US6148285A (en) * | 1998-10-30 | 2000-11-14 | Nortel Networks Corporation | Allophonic text-to-speech generator |
WO2000030069A2 (en) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6178402B1 (en) * | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US20030158734A1 (en) * | 1999-12-16 | 2003-08-21 | Brian Cruickshank | Text to speech conversion using word concatenation |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
US7277851B1 (en) * | 2000-11-22 | 2007-10-02 | Tellme Networks, Inc. | Automated creation of phonemic variations |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US6804650B2 (en) * | 2000-12-20 | 2004-10-12 | Bellsouth Intellectual Property Corporation | Apparatus and method for phonetically screening predetermined character strings |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
US20030191645A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Statistical pronunciation model for text to speech |
US8145491B2 (en) * | 2002-07-30 | 2012-03-27 | Nuance Communications, Inc. | Techniques for enhancing the performance of concatenative speech synthesis |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US6988069B2 (en) * | 2003-01-31 | 2006-01-17 | Speechworks International, Inc. | Reduced unit database generation based on cost information |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
TWI233589B (en) * | 2004-03-05 | 2005-06-01 | Ind Tech Res Inst | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
US20060031069A1 (en) * | 2004-08-03 | 2006-02-09 | Sony Corporation | System and method for performing a grapheme-to-phoneme conversion |
US7630898B1 (en) * | 2005-09-27 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | System and method for preparing a pronunciation dictionary for a text-to-speech voice |
-
2005
- 2005-08-10 US US11/200,808 patent/US7869999B2/en active Active
- 2005-08-11 AT AT05107389T patent/ATE374991T1/de not_active IP Right Cessation
- 2005-08-11 DE DE602005002706T patent/DE602005002706T2/de active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102011118059A1 (de) * | 2011-11-09 | 2013-05-16 | Elektrobit Automotive Gmbh | Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems |
Also Published As
Publication number | Publication date |
---|---|
DE602005002706D1 (de) | 2007-11-15 |
US7869999B2 (en) | 2011-01-11 |
US20060041429A1 (en) | 2006-02-23 |
ATE374991T1 (de) | 2007-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE60302407T2 (de) | Umgebungs- und sprecheradaptierte Spracherkennung | |
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
DE69814195T2 (de) | Vorrichtung zur Sprechererkennung | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE102008017993B4 (de) | Sprachsuchvorrichtung | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
EP0925578A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1264301A1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem | |
EP0633559B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE112010005706B4 (de) | Spracherkennungsvorrichtung | |
EP1435087B1 (de) | Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
DE60219030T2 (de) | Verfahren zur mehrsprachigen Spracherkennung | |
DE19912405A1 (de) | Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US |