DE10018134A1 - Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen - Google Patents
Verfahren und Vorrichtung zum Bestimmen prosodischer MarkierungenInfo
- Publication number
- DE10018134A1 DE10018134A1 DE10018134A DE10018134A DE10018134A1 DE 10018134 A1 DE10018134 A1 DE 10018134A1 DE 10018134 A DE10018134 A DE 10018134A DE 10018134 A DE10018134 A DE 10018134A DE 10018134 A1 DE10018134 A1 DE 10018134A1
- Authority
- DE
- Germany
- Prior art keywords
- prosodic
- neural network
- input
- text
- markings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 39
- 239000002245 particle Substances 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000001537 neural effect Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 26
- 210000002569 neuron Anatomy 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 30
- 239000011159 matrix material Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000002243 precursor Substances 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 101100154785 Mus musculus Tulp2 gene Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zur Umsetzung des Verfahrens. Zur Schaffung eines im Vergleich zu Verfahren nach dem Stand der Technik robusteren Verhaltens bei der Bestimmung prosodischer Markierungen auf der Basis linguistischer Kategorien wird ein neuronales Netzwerk verwendet.
Description
Die vorliegende Erfindung betrifft ein Verfahren zum Bestim
men prosodischer Markierungen und eine Vorrichtung zur Umset
zung des Verfahrens.
Bei der Aufbereitung von unbekanntem Text für die Sprachsyn
these in einem TTS-System, ("text to speech"-Systemen) bzw.
Text/Sprache-Umsetzungssystemen, ist ein wesentlicher Schritt
die Aufbereitung und Strukturierung des Textes für die nach
folgende Generierung der Prosodie. Um prosodische Parameter
für Sprachsynthesesysteme zu erzeugen, wird ein zweistufiger
Ansatz verfolgt. Dabei werden in der ersten Stufe zunächst
prosodische Marker bzw. prosodische Markierungen erzeugt, die
dann in der zweiten Stufe in physikalische Parameter umge
setzt werden.
Als prosodische Markierungen können insbesondere Phrasengren
zen und Wortakzente (pitch-accent) dienen. Unter Phrasen wer
den Gruppierungen von Wörtern verstanden, die innerhalb eines
Textes in der Regel zusammen gesprochen werden, also ohne da
zwischen eingeschoben liegende Sprechpausen. Sprechpausen
liegen erst an den jeweiligen Enden der Phrasen, den Phrasen
grenzen, an. Durch das Einlegen derartiger Pausen an den
Phrasengrenzen der synthetisierten Sprache wird deren Ver
ständlichkeit und Natürlichkeit wesentlich gesteigert.
In der Stufe 1 eines derartigen zweistufigen Ansatzes berei
ten sowohl die stabile Vorhersage bzw. Bestimmung von Phra
sengrenzen als auch die von Akzenten Probleme.
In einer Veröffentlichung ist unter dem Titel "A hierarchical
stochastic model for automatic prediction of prosodic bounda
ry location" von M. Ostendorf und N. Veilleux in Computatio
nal Linguistics, 1994, ein Verfahren veröffentlicht worden,
in dem zur Bestimmung von Phrasengrenzen "Classification and
Regression Trees" (CART) verwendet werden. Die Initialisie
rung eines solchen Verfahrens erfordert ein hohes Maß an Ex
pertenwissen. Der Aufwand steigt bei diesem Verfahren mit der
angestrebten Genauigkeit überproportional.
Auf der Konferenz Eurospeech 1997 ist unter dem Titel "As
signing phase breaks from part-of-speech sequences" von Alan
W. Black und Paul Taylor ein Verfahren veröffentlicht worden,
in dem die Phrasengrenzen mit einem "Hidden-Markov-Modell"
(HMM) bestimmt werden. Zur Erzielung einer guten Vorhersage-
Genauigkeit für eine Phrasengrenze ist ein Trainingstext mit
beträchtlichem Umfang notwendig. Die Erstellung dieser Trai
ningstexte ist teuer, da hierzu Expertenwissen notwendig ist.
Demnach ist es die Aufgabe der vorliegenden Erfindung, ein
Verfahren zur Aufbereitung und Strukturierung eines unbekann
ten gesprochenen Texts zu schaffen, das mit einem kleineren
Trainingstext trainiert werden kann und etwa ähnliche Erken
nungsraten wie bekannte Verfahren erzielt, die mit größeren
Texten trainiert werden.
Diese Aufgabe wird durch ein Verfahren gemäß dem kennzeich
nenden Teil des Patentanspruchs 1 gelöst.
Demnach werden in einem erfindungsgemäßen Verfahren prosodi
sche Markierungen durch ein neuronales Netzwerk auf der Basis
linguistischer Kategorien bestimmt. In Abhängigkeit von der
jeweiligen Sprache eines Textes sind Unterteilungen der Wör
ter in verschiedene linguistische Kategorien bekannt. Bei der
deutschen Sprache werden im Rahmen dieser Erfindung bei
spielsweise 14 Kategorien, für die englische Sprache z. B. 23
Kategorien vorgesehen. Unter Kenntnis dieser Kategorien wird
ein neuronales Netzwerk so trainiert, daß es Strukturen er
kennen kann und so auf der Basis von Gruppierungen von z. B. 3
bis 15 aufeinander folgenden Wörtern eine prosodische Markie
rung vorhersagt bzw. bestimmt.
In einer sehr vorteilhaften Weiterbildung der Erfindung wird
für ein erfindungsgemäßes Verfahren ein zweistufiger Ansatz
gewählt, der das Erfassen der Eigenschaften jeder prosodi
schen Markierung durch neuronale Autoassoziatoren und das
Auswerten der von jedem der Autoassoziatoren ausgegebenen de
taillierten Ausgangsinformationen, die als sogenannter Feh
ler-Vektor vorliegt, in einem neuronalen Klassifikator bein
haltet.
Durch die erfindungsgemäße Anwendung von neuronalen Netzen
wird ermöglicht, bei der Erzeugung prosodischer Parameter für
Sprachsynthesesysteme Phrasengrenzen genau vorherzusagen.
Das erfindungsgemäße neuronale Netz ist robust gegenüber "we
nigem" bzw. einem geringen Umfang von Trainingsmaterial
(engl.: sparse training material).
Die Verwendung neuronaler Netzwerke gestattet Zeit- und kos
tensparende Trainingsverfahren und eine flexible Anwendung
eines erfindungsgemäßen Verfahrens und eine entsprechende
Vorrichtung auf beliebige Sprachen. Es ist wenig zusätzlich
aufbereitete Information und wenig Expertenwissen zum Initia
lisieren eines solchen Systems einer bestimmten Sprache er
forderlich. Das erfindungsgemäße neuronale Netzwerk ist des
halb gut geeignet, um mit einem multilingualen TTS-System
Texte aus mehreren Sprachen zu synthetisieren. Da die erfin
dungsgemäßen neuronalen Netzwerke ohne Expertenwissen trai
niert werden können, können sie kostengünstiger als bekannte
Verfahren zum Bestimmen von Phrasengrenzen initialisiert wer
den.
In einer Weiterbildung umfaßt die zweistufige Struktur mehre
re Autoassoziatoren, die jeweils auf eine Phrasierungsstärke
für alle auszuwertenden linguistischen Klassen trainiert wer
den. So sind Teile des neuronalen Netzwerkes klassenspezi
fisch ausgebildet. Das Trainingsmaterial ist in der Regel
statistisch asymmetrisch ausgebildet, d. h., daß viele Wörter
ohne Phrasengrenzen, aber nur wenige mit Phrasengrenzen vor
handen sind. Im Gegensatz zu Verfahren nach dem Stand der
Technik wird eine Dominanz innerhalb eines neuronalen Netzes
dadurch vermieden, daß ein klassenspezifisches Training der
jeweiligen Autoassoziatoren durchgeführt wird.
Vorteilhafte Weiterbildungen eines erfindungsgemäßen Verfah
rens sind der Gegenstand von Unteransprüchen.
Das vorliegende Verfahren wird im folgenden unter Bezugnahme
auf die zugehörigen Zeichnungen näher erläutert.
In den Zeichnungen zeigt:
Fig. 1 schematisch ein neuronales Netzwerkwerk gemäß der
Erfindung;
Fig. 2 eine Ausgabe bei einfacher Phrasierung anhand ei
nes Beispieltexts;
Fig. 3 ein Beispiel für eine Ausgabe mit ternärer Bewer
tung der Phrasierung anhand eines Textbeispiels;
Fig. 4 schematisch eine bevorzugte Ausführungsform eines
neuronalen Netzwerkes;
Fig. 5 schematisch einen Autoassoziator während des
Trainings (links) und während des Betriebs (rechts);
Fig. 6 schematisch ein Blockschaltbild des neuronalen
Netzwerkes nach Fig. 4 mit den mathematischen Zusammenhängen;
und
Fig. 7 schematisch einen erweiterten Autoassoziator, und
Fig. 8 ein Computersystem zum Ausführen des erfindungs
gemäßen Verfahrens in einem Blockschaltbild.
In der Fig. 1 ist schematisch ein erfindungsgemäßes neurona
les Netzwerkwerk 1 mit einem Eingang 2, einer Zwischenschicht
3 und einem Ausgang 4 zum Bestimmen prosodischer Markierungen
dargestellt. Der Eingang 2 ist aus neun Eingangsgruppen 5 zur
Durchführung einer "part-of-speech"- (POS-) Sequenz Untersu
chung aufgebaut. Jede der Eingangsgruppe 5 umfaßt in Anpas
sung an die deutsche Sprache 14 Neuronen 6, die aus Gründen
der Übersichtlichkeit nicht alle in Fig. 1 dargestellt sind.
Es ist also je ein Neuron 6 für eine der linguistischen Kate
gorie vorhanden. Die linguistischen Kategorien sind bei
spielsweise folgendermaßen unterteilt:
Kategorie | |
Beschreibung | |
NUM | Numerale |
VERB | Verben |
VPART | Verbpartikel |
PRON | Pronomen |
PREP | Präpositionen |
NOMEN | Nomen, Eigennamen |
PART | Partikel |
DET | Artikel |
CONJ | Konjunktionen |
ADV | Adverben |
ADJ | Adjektive |
PDET | PREP+DET |
INTJ | Interjektionen |
PUNCT | Satzzeichen |
Der Ausgang 4 ist durch ein Neuron mit einem kontinuierlichen
Verlauf ausgebildet, das bedeutet, daß die Ausgangswerte alle
Werte eines bestimmten Zahlenbereiches, der z. B. alle reellen
Zahlen zwischen 0 und 1 umfaßt, annehmen können.
Bei dem in Fig. 1 gezeigten Ausführungsbeispiel sind neun
Eingangsgruppen 5 zum Eingeben der Kategorien der einzelnen
Wörter vorgesehen. An die mittlere Eingangsgruppe 5a wird die
Kategorie des Wortes angelegt, von dem bestimmt werden soll,
ob am Ende des Wortes eine Phasengrenze vorliegt oder keine
Phasengrenze vorliegt. An die vier Eingangsgruppen 5b auf der
linken Seite der Eingangsgruppe 5a werden die Kategorien von
den Vorläufern des zu untersuchenden Wortes und an die auf
der rechten Seite angeordneten Eingangsgruppen 5c die Nach
folger des zu untersuchenden Wortes angelegt. Vorläufer sind
alle Wörter, die im Kontext unmittelbar vor dem zu untersu
chenden Wort angeordnet sind. Nachfolger sind alle Wörter,
die im Kontext unmittelbar nachfolgend auf das zu untersu
chende Wort angeordnet sind. Hierdurch wird mit dem erfin
dungsgemäßen neuronalen Netzwerk 1 nach Fig. 1 ein Kontext
von max. neun Wörtern ausgewertet.
Bei der Auswertung wird die Kategorie des zu untersuchenden
Wortes an die Eingangsgruppe 5a angelegt, das heißt, daß an
das Neuron 6, das der Kategorie des Wortes entspricht, der
Wert +1 und an die übrigen Neuronen 6 der Eingangsgruppe 5a
der Wert -1 angelegt wird. In entsprechender Weise werden die
Kategorien der vier zu dem zu untersuchenden Wort vorherge
henden bzw. nachfolgenden Wörter an die Eingangsgruppen 5b,
bzw. 5c angelegt. Sollten keine entsprechenden Vorläufer bzw.
Nachfolger vorhanden sein, wie es z. B. am Anfang und am Ende
eines Textes der Fall ist, werden an die Neuronen 6 der ent
sprechenden Eingangsgruppen 5b, 5c der Wert 0 angelegt.
Eine weitere Eingangsgruppe 5d ist zum Eingeben der vorherge
gangen Phrasengrenzen vorgesehen. An dieser Eingangsgruppe 5d
können die letzten neun Phrasengrenzen eingegeben werden.
Für die deutsche Sprache - mit 14 linguistischen Kategorien -
weist der Eingangsraum eine beachtliche Dimension m von 135
(m = 9 . 14 + 9) auf. Eine zweckmäßige Unterteilung der lin
guistischen Kategorien der englischen Sprache umfaßt 23 Kate
gorien, so daß die Dimension des Eingangsraumes 216 beträgt.
Die Eingangsdaten bilden einen Eingangsvektor x mit der Di
mension m.
Das erfindungsgemäße neuronale Netzwerk wird mit einer Trai
ningsdatei trainiert, die einen Text und die Informationen zu
den Phrasengrenzen des Textes umfaßt. Diese Phrasengrenzen
können rein binäre Werte enthalten, das heißt, lediglich In
formationen, ob eine Phrasengrenze vorliegt oder ob keine
Phrasengrenze vorliegt. Wird das neuronale Netzwerk mit einer
derartigen Trainingsdatei trainiert, so ist die Ausgabe am
Ausgang 4 binär. Der Ausgangs 4 erzeugt an sich kontinuierli
che Ausgangswerte, die jedoch mittels einer Schwellwertent
scheidung diskreten Werten zugeordnet werden.
In Fig. 2 ist ein Beispielssatz dargestellt, der hinter den
Begriffen "Wort" und "Phrasengrenze" jeweils eine Phrasen
grenze aufweist. Hinter den anderen Wörtern dieses Beispiel
satzes gibt es keine Phrasengrenze.
Für bestimmte Anwendungen ist es vorteilhaft, wenn die Ausga
be nicht nur binäre Werte, sondern mehrstufige Werte enthält,
das heißt, daß Informationen über die Stärke der Phrasengren
ze berücksichtigt werden. Hierzu ist das neuronale Netzwerk
mit einer Trainingsdatei zu trainieren, die mehrstufige In
formationen zu den Phrasengrenzen umfaßt. Die Abstufung kann
von zwei Stufen bis an sich beliebig viele Stufen umfassen,
so daß eine quasi kontinuierliche Ausgabe erzielt werden
kann.
In Fig. 3 ist ein Beispielsatz mit einer dreistufigen Auswer
tung mit den Ausgangswerten 0 für keine Phrasengrenze, 1 für
eine primäre Phrasengrenze und 2 für eine sekundäre Phrasen
grenze dargestellt. Nach dem Begriff "sekundären" befindet
sich eine sekundäre Phrasengrenze und nach den Begriffen
"Phrasengrenze und "erforderliche eine primäre Phrasengren
ze.
In Fig. 4 ist eine bevorzugte Ausführungsform des erfindungs
gemäßen neuronalen Netzes dargestellt. Dieses neuronale Netz
umfaßt wiederum einen Eingang 2, der in Fig. 4 lediglich
schematisch als ein Element dargestellt ist, aber genauso wie
der Eingang 2 aus Fig. 1 aufgebaut ist. Die Zwischenschicht 3
besteht bei diesem Ausführungsbeispiel aus mehreren Autoasso
ziatoren 7 (AA1, AA2, AA3) die jeweils ein Modell für eine
vorbestimmte Phrasierungsstärke darstellen. Die Autoassozia
toren 7 sind Teilnetzwerke, die zum Detektieren einer be
stimmten Phrasierungsstärke trainiert werden. Der Ausgang der
Autoassoziatoren 7 ist mit einem Klassifikator 8 verbunden.
Der Klassifikator 8 ist ein weiteres neuronales Teilnetzwerk,
das auch den anhand von Fig. 1 bereits beschriebenen Ausgang
umfaßt.
Das in Fig. 4 gezeigte Ausführungsbeispiel umfaßt drei Auto
assoziatoren, wobei mit jedem Autoassoziator eine bestimmte
Phrasierungsstärke detektiert werden kann, so daß dieses Aus
führungsbeispiel zur Detektion zweier unterschiedlicher Phra
sierungsstärken und dem Vorliegen keiner Phrasierungsgrenze
geeignet ist.
Jeder Autoassoziator wird mit den Daten der Klasse, die er
darstellt, trainiert. D. h., daß jeder Autoassoziator mit den
zu der von ihm repräsentierten Phrasierungsstärke gehörenden
Daten trainiert wird.
Die Autoassoziatoren bilden den m-dimensionalen Eingangsvek
tor x auf einen n-dimensionalen Vektor z ab, wobei n << m
gilt. Der Vektor z wird auf einen Ausgangsvektor x' abgebil
det. Die Abbildungen erfolgen mittels Matrizen w1 ∈ Rnxm und
w2 ∈ Rnxm. Die gesamte in den Autoassoziatoren ausgeführte Ab
bildung kann durch folgende Formel dargestellt werden:
x" = w2 tanh (w1 . x),
wobei tanh elementweise angewendet wird.
Die Autoassoziatoren werden so trainiert, daß ihre Ausgangs
vektoren x' so genau wie möglich mit den Eingangsvektoren x
übereinstimmen (Fig. 5 linke Seite). Hierdurch wird die In
formation des m-dimensionalen Eingangsvektors x auf den
n-dimensionalen Vektor z komprimiert. Hierbei wird davon ausge
gangen, daß keine Informationen verlorengehen und das Modell
die Eigenschaften der Klasse erfaßt. Das Kompressionsverhält
nis m:n der einzelnen Autoassoziatoren kann unterschiedlich
sein.
An die Eingangs- und Ausgangsseite der einzelnen Autoassozia
toren werden beim Training nur die Eingangsvektoren x ange
legt, die den Zuständen entsprechen, bei denen die den jewei
ligen Autoassoziatoren zugeordneten Phrasengrenzen auftreten.
Beim Betrieb wird für jeden Autoassoziator ein Fehler-Vektor
erec = (x-x')2 berechnet (Fig. 5, rechte Seite). Die Quadrie
rung erfolgt hierbei elementweise. Dieser Fehler-Vektor erec
ist ein "Abstandsmaß", das dem Abstand des Vektors x' zum
Eingangsvektor x entspricht und somit indirekt proportional
zur Wahrscheinlichkeit ist, daß die dem jeweiligen Autoasso
ziator zugeordnete Phrasengrenze vorliegt.
Das vollständige die Autoassoziatoren und den Klassifikator
umfassende neuronale Netzwerk ist schematisch in Fig. 6 dar
gestellt. Es zeigt Autoassoziatoren 7 für k Klassen.
Die Elemente pi des Ausgangsvektors p werden gemäß folgender
Formel berechnet:
wobei Ai (x) = w2 (i)tanh(w1 (i)x) gilt und tanh als elementweise
Operation ausgeführt wird und diag(w1 (i),. . .,wm (i) ∈ Rmxm eine
Diagonalmatrix mit den Elementen (w1 (i),. . .,wm (i) darstellt.
Die einzelnen Elemente pi des Ausgangsvektors p geben die
Wahrscheinlichkeit an, mit welcher eine Phrasengrenze am Au
toassoziator 1 detektiert worden ist.
Wenn die Wahrscheinlichkeit pi größer als 0,5 ist, wird dies
als Vorliegen einer entsprechenden Phrasengrenze i bewertet.
Ist die Wahrscheinlichkeit pi kleiner als 0,5, so bedeutet
dies, daß die Phrasengrenze i hier nicht vorliegt.
Hat der Ausgangsvektor p mehr als zwei Elemente pi, so ist es
zweckmäßig, den Ausgangsvektor p derart zu bewerten, daß die
jenige Phrasengrenze vorliegt, deren Wahrscheinlichkeit pi am
größten im Vergleich zu den übrigen Wahrscheinlichkeiten pi
des Ausgangsvektors p ist.
In einer Weiterbildung der Erfindung kann es zweckmäßig sein,
falls eine Phrasengrenze ermittelt wird, deren Wahrschein
lichkeit pi im Bereich um 0,5, z. B. im Bereich von 0,4 bis
0,6, liegt, eine weitere Routine durchzuführen, mit der das
Vorliegen der Phrasengrenze überprüft wird. Diese weitere
Routine kann auf einem regelgetriebenen als auch auf einem
datengetriebenen Ansatz beruhen.
Beim Training mit einer Trainingsdatei, die entsprechende
Phrasierungsinformationen umfaßt, werden in einer ersten
Trainingsphase die einzelnen Autoassoziatoren 7 jeweils auf
ihre vorbestimmte Phrasierungsstärke trainiert. Wie es oben
angegeben ist, werden hierbei an die Eingangs- und die Aus
gangsseite der einzelnen Autoassoziatoren 7 die Eingangsvek
toren x angelegt, die der Phrasengrenze entsprechen, die dem
jeweiligen Autoassoziator zugeordnet ist.
In einer zweiten Trainingsphase werden die Gewichtungselemen
te der Autoassoziatoren 7 festgehalten und der Klassifikator
8 trainiert. An die Eingangsseite des Klassifikators 8 werden
die Fehler-Vektoren erec der Autoassoziatoren und an der Aus
gangsseite die Vektoren, die die Werte für die unterschiedli
chen Phrasengrenzen enthalten, angelegt. In dieser Trainings
phase lernt der Klassifikator aus den Fehler-Vektoren die
Ausgangsvektoren p zu bestimmen.
In einer dritten Trainingsphase wird eine Feineinstellung al
ler Gewichtungselemente des gesamten neuronalen Netzwerkes
(der k Autoassoziatoren und des Klassifikators) durchgeführt.
Durch die oben beschriebene Architektur eines neuronalen
Netzwerkes mit mehreren jeweils auf eine bestimmte Klasse
trainierten Modellen (hier: den Autoassoziatoren) und einem
übergeordneten Klassifikator ist es möglich, einen Eingangs
vektor mit sehr großer Dimension auf einen Ausgangsvektor mit
kleiner Dimension bzw. ein Skalar zuverlässig korrekt abzu
bilden. Diese Netzwerkarchitektur kann auch vorteilhaft bei
anderen Anwendungen eingesetzt werden, bei welchen Elemente
unterschiedlicher Klassen behandelt werden müssen. So kann es
z. B. zweckmäßig sein, diese Netzwerkarchitektur auch bei der
Spracherkennung zum Detektieren von Wort und/oder Satzgrenzen
einzusetzen. Hierfür sind die Eingangsdaten entsprechend an
zupassen.
Der in Fig. 6 gezeigte Klassifikator 8 weist Gewichtungsmat
rizen GW auf, die jeweils einem Autoassoziator 7 zugeordnet
sind. Die dem i-ten Autoassoziator 7 zugeordnete Gewichtungs
matrix GW weist in der i-ten Zeile Gewichtungsfaktoren wn
auf. Die übrigen Elemente der Matrix sind gleich Null. Die An
zahl der Gewichtungsfaktoren wn entspricht der Dimension des
Eingangsvektors, wobei jeweils ein Gewichtungselement wn in
Beziehung zu einer Komponente des Eingangsvektors steht. Be
sitzt ein Gewichtungselement wn einen größeren Wert als die
übrigen Gewichtungselemente wn der Matrize, so bedeutet dies,
daß die korrespondierende Komponente des Eingangsvektors von
großer Bedeutung für die Bestimmung der Phrasengrenze, die
durch den Autoassoziator ermittelt wird, dem die entsprechen
de Gewichtungsmatrix GW zugeordnet ist.
Bei einer bevorzugten Ausführungsform werden erweiterte Auto
assoziatoren verwendet (Fig. 7), die eine bessere Erfassung
von Nichtlinearitäten erlauben. Diese erweiterten Autoassozi
atoren führen folgende Abbildung aus:
x' = w2 tanh (.) + w3 (tanh (.))2,
wobei (.): = (w1 . x) gilt, und die Quadrierung (.)2 und der
tanh elementweise ausgeführt werden.
Bei Versuchen ist ein erfindungsgemäßes neuronales Netzwerk
mit einem vorbestimmten englischen Text trainiert worden. Der
gleiche Text wurde zum Trainieren eines HMM-Erkenners verwen
det. Als Leistungskriterien wurden im Betrieb die Prozentzahl
der korrekt erkannten Phrasengrenzen (B-corr), der insgesamt
korrekt beurteilten Wörter, unabhängig davon, ob eine oder
keine Phrasengrenze folgt (Gesamt), und der nicht-korrekt er
kannten Wörter ohne Phrasengrenze (NB-ncorr) ermittelt. Bei
diesen Versuchen wurde ein neuronales Netzwerk mit den Auto
assoziatoren nach Fig. 6 und ein neuronales Netzwerk mit den
erweiterten Autoassoziatoren verwendet. Es wurden folgende
Ergebnisse erzielt:
Die in der Tabelle aufgeführten Ergebnisse zeigen, daß die
erfindungsgemäßen neuronalen Netzwerke bzgl. der korrekt er
kannten Phrasengrenzen und der insgesamt korrekt erkannten
Wörter etwa gleiche Ergebnisse wie ein HMM-Erkenner liefern.
Jedoch sind die erfindungsgemäßen neuronalen Netzwerke bzgl.
der fehlerhaft detektierten Phrasengrenzen, an Stellen, wo es
an sich keine Phrasengrenze gibt, wesentlich besser als der
HMM-Erkenner. Diese Art von Fehler ist bei der Sprache-zu-
Text-Umsetzung besonders gravierend, da diese Fehler eine dem
Zuhörer sofort auffallende Fehlbetonung erzeugen.
In weiteren Versuchen wurde eines der erfindungsgemäßen neu
ronalen Netzwerke mit einem Bruchteil des bei den obigen Ver
suchen verwendeten Trainingstextes (5%, 10%, 30%, 50%) trai
niert. Hierbei wurden folgende Ergebnisse erzielt:
Mit Bruchteilen von 30% und 50% des Trainingstextes wurden
ausgezeichnete Erkennungsraten erzielt. Mit einem Bruchteil
von 10% und 5% des ursprünglichen Trainingstextes sind zu
friedenstellende Erkennungsraten erzielt worden. Dies zeigt,
daß die erfindungsgemäßen neuronalen Netzwerke auch bei ge
ringem Trainingsumfang gute Erkennungsraten liefern. Dies
stellt einen wesentlichen Fortschritt gegenüber bekannten
Phrasengrenzen-Erkennungsmethoden dar, da das Aufbereiten von
Trainingsmaterial kostenintensiv ist, da hier Expertenwissen
eingesetzt werden muß.
Das oben beschriebene Ausführungsbeispiel weist k Autoassozi
atoren auf. Für eine präzise Bewertung der Phrasengrenzen
kann es zweckmäßig sein, eine große Anzahl Autoassoziatoren
zu verwenden, wobei bis zu 20 Autoassoziatoren zweckmäßig
sein können. Hierdurch wird eine quasi kontinuierlicher Ver
lauf der Ausgabewerte erzielt.
Die oben beschriebenen neuronalen Netzwerke sind als Compu
terprogramme realisiert, die selbständig auf einem Computer
zum Umsetzen der linguistischen Kategorie eines Textes in
dessen prosodischer Marker ablaufen. Sie stellen somit ein
automatisch ausführbares Verfahren dar.
Das Computerprogramm kann auch auf einen elektronisch lesba
ren Datenträger gespeichert werden und so auf ein anderes
Computersystem übertragen werden.
Ein zur Anwendung des erfindungsgemäßen Verfahrens geeignetes
Computersystem ist in Fig. 8 gezeigt. Das Computersystem 9
weist einen internen Bus 10 auf, der mit einem Speicherbe
reich 11, einer zentralen Prozessoreinheit 12 und einem In
terface 13 verbunden ist. Das Interface 13 stellt über eine
Datenleitung 14 eine Datenverbindung zu weiteren Computersys
temen her. An dem internen Bus sind ferner eine akustische
Ausgabeeinheit 15, eine grafische Ausgabeeinheit 16 und eine
Eingabeeinheit 17 angeschlossen. Die akustische Ausgabeein
heit 15 ist mit einem Lautsprecher 18, die grafische Ausgabe
einheit 16 mit einem Bildschirm 19 und die Eingabeeinheit 17
mit einer Tastatur 20 verbunden. An das Computersystem 9 kön
nen über die Datenleitung 14 und das Interface 13 Text über
tragen werden, die im Speicherbereich 11 abgespeichert wer
den. Der Speicherbereich 11 ist in mehrere Bereiche unter
teilt, in denen Texte, Audiodateien, Anwendungsprogramme zum
Durchführen des erfindungsgemäßen Verfahrens und weitere An
wendungs- und Hilfsprogramme gespeichert sind. Die als Text
datei abgespeicherten Texte werden mit vorbestimmten Pro
grammpaketen analysiert und die jeweiligen linguistischen Ka
tegorien der Wörter ermittelt. Danach werden mit dem erfin
dungsgemäßen Verfahren aus den linguistischen Kategorien die
prosodischen Marker ermittelt. Diese prosodischen Marker wer
den wiederum in ein weiteres Programmpaket eingegeben, das
die prosodischen Marker zur Erzeugung von Audiodateien ver
wendet, die über den internen Bus 10 zur akustischen Ausgabe
einheit 15 übertragen und von dieser am Lautsprecher 18 als
Sprache ausgegeben werden.
In den hier dargestellten Beispielen ist nur eine Anwendung
des Verfahrens auf die Vorhersage von Phrasengrenzen be
schrieben worden. Das Verfahren kann bei ähnlichem Aufbau ei
ner Vorrichtung und einem angepaßten Training aber auch zur
Auswertung eines unbekannten Textes hinsichtlich einer Vor
hersage von Betonungen, z. B. gemäß den international standar
disierten ToB-Labeln (tones and breaks indices), und/oder
der Satzmelodie genutzt werden. Diese Anpassungen haben in
Abhängigkeit von der jeweiligen Sprache des zu verarbeitenden
Textes zu erfolgen, da die Prosodie stets sprachspezifisch
ist.
Claims (13)
1. Verfahren zum Bestimmen prosodischer Markierungen,
dadurch gekennzeichnet,
daß auf der Basis linguistischer Kategorien prosodische
Markierungen durch ein neuronales Netzwerk (1) bestimmt wer
den.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß als prosodische Markierungen Phrasengrenzen bestimmt
und vorzugsweise auch ausgewertet und/oder bewertet werden.
3. Verfahren nach Anspruch 1 und/oder Anspruch 2,
dadurch gekennzeichnet,
daß am Eingang (2) des Netzwerkes (1) die linguistischen
Kategorien von zumindest drei Wörtern eines zu synthetisie
renden Textes angelegt werden.
4. Verfahren nach einem der vorgehenden Ansprüche,
dadurch gekennzeichnet,
daß es die Schritte
- - Erfassen der Eigenschaften jeder prosodischen Markie rung durch neuronale Autoassoziatoren (7), die auf jeweils eine bestimmte prosodische Markierung trainiert sind, und
- - Auswerten der von jedem der Autoassoziatoren (7) ausge gebenen Ausgangsinformationen in einem neuronalen Klassifika tor (8)
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet,
daß die Autoassoziatoren (1) für eine jeweilige vorbe
stimmte Phrasengrenze trainiert sind.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet,
daß das Training des neuronalen Klassifikators (8) nach
dem Training aller Autoassoziatoren (7) erfolgt.
7. Neuronales Netzwerk zum Bestimmen prosodischer Markie
rungen mit
einem Eingang (2), einer Zwischenschicht (3) und einem
Ausgang (4), wobei der Eingang zum Erfassen von linguisti
schen Kategorien von Wörtern eines zu analysierenden Textes
ausgebildet ist.
8. Neuronales Netzwerk nach Anspruch 7,
dadurch gekennzeichnet,
daß die Zwischenschicht (3) zumindest zwei Autoassoziato
ren (7) aufweist.
9. Neuronales Netzwerk nach Anspruch 7 oder 8,
dadurch gekennzeichnet,
daß der Eingang (2) Eingangsgruppen (5) aufweist, welche
mehrere Neuronen (6) besitzen, die jeweils einer linguisti
schen Kategorie zugeordnet sind, und jede Eingangsgruppe zum
Erfassen der linguistischen Kategorie eines Wortes des zu
analysierenden Textes dient.
10. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9,
dadurch gekennzeichnet,
daß das Netzwerk zum Ausgeben einer binären, tertiären
oder quatären Phrasierungsstufe ausgebildet ist.
11. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9,
dadurch gekennzeichnet,
daß das Netzwerk zum Ausgeben eines quasi
kontinuierlichen Phrasierungsbereichs ausgebildet ist.
12. Verfahren nach einem der Ansprüche 1 bis 6,
gekennzeichnet durch,
die Verwendung eines Neuronalen Netzwerkes nach einem der
Ansprüche 7 bis 11.
13. Vorrichtung zum Bestimmen prosodischer Markierungen
mit einem Computersystem (9), das einen Speicherbereich (11)
aufweist, in dem ein Programm zum Ausführen eines Neuronalen
Netzwerkes nach einem der Ansprüche 7 bis 11 gespeichert ist.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10018134A DE10018134A1 (de) | 2000-04-12 | 2000-04-12 | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
PCT/DE2001/001394 WO2001078063A1 (de) | 2000-04-12 | 2001-04-09 | Verfahren und vorrichtung zum bestimmen prosodischer markierungen |
EP01940136A EP1273003B1 (de) | 2000-04-12 | 2001-04-09 | Verfahren und vorrichtung zum bestimmen prosodischer markierungen |
DE50108314T DE50108314D1 (de) | 2000-04-12 | 2001-04-09 | Verfahren und vorrichtung zum bestimmen prosodischer markierungen |
US10/257,312 US7409340B2 (en) | 2000-04-12 | 2003-01-27 | Method and device for determining prosodic markers by neural autoassociators |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10018134A DE10018134A1 (de) | 2000-04-12 | 2000-04-12 | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10018134A1 true DE10018134A1 (de) | 2001-10-18 |
Family
ID=7638473
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10018134A Ceased DE10018134A1 (de) | 2000-04-12 | 2000-04-12 | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
DE50108314T Expired - Lifetime DE50108314D1 (de) | 2000-04-12 | 2001-04-09 | Verfahren und vorrichtung zum bestimmen prosodischer markierungen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50108314T Expired - Lifetime DE50108314D1 (de) | 2000-04-12 | 2001-04-09 | Verfahren und vorrichtung zum bestimmen prosodischer markierungen |
Country Status (4)
Country | Link |
---|---|
US (1) | US7409340B2 (de) |
EP (1) | EP1273003B1 (de) |
DE (2) | DE10018134A1 (de) |
WO (1) | WO2001078063A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10207875A1 (de) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US20070055526A1 (en) * | 2005-08-25 | 2007-03-08 | International Business Machines Corporation | Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US9583095B2 (en) * | 2009-07-17 | 2017-02-28 | Nec Corporation | Speech processing device, method, and storage medium |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
US9195656B2 (en) | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
CN105374350B (zh) * | 2015-09-29 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 语音标注方法及装置 |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3497630B1 (de) | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Verarbeitungssequenzen mit verwendung von neuronalen konvolutionsnetzwerken |
CA3155320A1 (en) | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Generating audio using neural networks |
JP6756916B2 (ja) | 2016-10-26 | 2020-09-16 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したテキストシーケンスの処理 |
KR102071582B1 (ko) * | 2017-05-16 | 2020-01-30 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
CN109492223B (zh) * | 2018-11-06 | 2020-08-04 | 北京邮电大学 | 一种基于神经网络推理的中文缺失代词补全方法 |
CN111354333B (zh) * | 2018-12-21 | 2023-11-10 | 中国科学院声学研究所 | 一种基于自注意力的汉语韵律层级预测方法及*** |
CN111508522A (zh) * | 2019-01-30 | 2020-08-07 | 沪江教育科技(上海)股份有限公司 | 一种语句分析处理方法及*** |
US11610136B2 (en) * | 2019-05-20 | 2023-03-21 | Kyndryl, Inc. | Predicting the disaster recovery invocation response time |
KR20210099988A (ko) * | 2020-02-05 | 2021-08-13 | 삼성전자주식회사 | 뉴럴 네트워크의 메타 학습 방법 및 장치와 뉴럴 네트워크의 클래스 벡터 학습 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5668926A (en) * | 1994-04-28 | 1997-09-16 | Motorola, Inc. | Method and apparatus for converting text into audible signals using a neural network |
WO1998019297A1 (en) * | 1996-10-30 | 1998-05-07 | Motorola Inc. | Method, device and system for generating segment durations in a text-to-speech system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2764343B2 (ja) * | 1990-09-07 | 1998-06-11 | 富士通株式会社 | 節/句境界抽出方式 |
JPH09500223A (ja) * | 1993-07-13 | 1997-01-07 | ボルドー、テオドール・オースチン | 多言語音声認識システム |
JP3536996B2 (ja) * | 1994-09-13 | 2004-06-14 | ソニー株式会社 | パラメータ変換方法及び音声合成方法 |
BE1011892A3 (fr) * | 1997-05-22 | 2000-02-01 | Motorola Inc | Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation. |
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
-
2000
- 2000-04-12 DE DE10018134A patent/DE10018134A1/de not_active Ceased
-
2001
- 2001-04-09 WO PCT/DE2001/001394 patent/WO2001078063A1/de active IP Right Grant
- 2001-04-09 DE DE50108314T patent/DE50108314D1/de not_active Expired - Lifetime
- 2001-04-09 EP EP01940136A patent/EP1273003B1/de not_active Expired - Lifetime
-
2003
- 2003-01-27 US US10/257,312 patent/US7409340B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5668926A (en) * | 1994-04-28 | 1997-09-16 | Motorola, Inc. | Method and apparatus for converting text into audible signals using a neural network |
WO1998019297A1 (en) * | 1996-10-30 | 1998-05-07 | Motorola Inc. | Method, device and system for generating segment durations in a text-to-speech system |
Non-Patent Citations (2)
Title |
---|
BLACK, A.W., TAYLOR, P.: "Assigning phase breaks from part-of-speech sequences", Konferenz Eurospeech 1997 * |
OSTENDORF, M., VEILLEUX, N.: "A hierarchal stochastic model for automatic prediction of prosodic boundary location", In: Computational Linguistics, 1994 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10207875A1 (de) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
Also Published As
Publication number | Publication date |
---|---|
DE50108314D1 (de) | 2006-01-12 |
US7409340B2 (en) | 2008-08-05 |
EP1273003B1 (de) | 2005-12-07 |
WO2001078063A1 (de) | 2001-10-18 |
US20030149558A1 (en) | 2003-08-07 |
EP1273003A1 (de) | 2003-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE60126564T2 (de) | Verfahren und Anordnung zur Sprachsysnthese | |
DE69818161T2 (de) | Automatisierte Gruppierung von sinnvollen Sätzen | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE60124842T2 (de) | Rauschrobuste Mustererkennung | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
DE602004002312T2 (de) | Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
WO2001018792A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP1159733B1 (de) | Verfahren und anordnung zur bestimmung eines repräsentativen lautes | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |