DE10018134A1 - Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen - Google Patents

Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen

Info

Publication number
DE10018134A1
DE10018134A1 DE10018134A DE10018134A DE10018134A1 DE 10018134 A1 DE10018134 A1 DE 10018134A1 DE 10018134 A DE10018134 A DE 10018134A DE 10018134 A DE10018134 A DE 10018134A DE 10018134 A1 DE10018134 A1 DE 10018134A1
Authority
DE
Germany
Prior art keywords
prosodic
neural network
input
text
markings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10018134A
Other languages
English (en)
Inventor
Achim Dipl-Ing Mueller
Martin Dipl-Ing Holzapfel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10018134A priority Critical patent/DE10018134A1/de
Priority to PCT/DE2001/001394 priority patent/WO2001078063A1/de
Priority to EP01940136A priority patent/EP1273003B1/de
Priority to DE50108314T priority patent/DE50108314D1/de
Publication of DE10018134A1 publication Critical patent/DE10018134A1/de
Priority to US10/257,312 priority patent/US7409340B2/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zur Umsetzung des Verfahrens. Zur Schaffung eines im Vergleich zu Verfahren nach dem Stand der Technik robusteren Verhaltens bei der Bestimmung prosodischer Markierungen auf der Basis linguistischer Kategorien wird ein neuronales Netzwerk verwendet.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Bestim­ men prosodischer Markierungen und eine Vorrichtung zur Umset­ zung des Verfahrens.
Bei der Aufbereitung von unbekanntem Text für die Sprachsyn­ these in einem TTS-System, ("text to speech"-Systemen) bzw. Text/Sprache-Umsetzungssystemen, ist ein wesentlicher Schritt die Aufbereitung und Strukturierung des Textes für die nach­ folgende Generierung der Prosodie. Um prosodische Parameter für Sprachsynthesesysteme zu erzeugen, wird ein zweistufiger Ansatz verfolgt. Dabei werden in der ersten Stufe zunächst prosodische Marker bzw. prosodische Markierungen erzeugt, die dann in der zweiten Stufe in physikalische Parameter umge­ setzt werden.
Als prosodische Markierungen können insbesondere Phrasengren­ zen und Wortakzente (pitch-accent) dienen. Unter Phrasen wer­ den Gruppierungen von Wörtern verstanden, die innerhalb eines Textes in der Regel zusammen gesprochen werden, also ohne da­ zwischen eingeschoben liegende Sprechpausen. Sprechpausen liegen erst an den jeweiligen Enden der Phrasen, den Phrasen­ grenzen, an. Durch das Einlegen derartiger Pausen an den Phrasengrenzen der synthetisierten Sprache wird deren Ver­ ständlichkeit und Natürlichkeit wesentlich gesteigert.
In der Stufe 1 eines derartigen zweistufigen Ansatzes berei­ ten sowohl die stabile Vorhersage bzw. Bestimmung von Phra­ sengrenzen als auch die von Akzenten Probleme.
In einer Veröffentlichung ist unter dem Titel "A hierarchical stochastic model for automatic prediction of prosodic bounda­ ry location" von M. Ostendorf und N. Veilleux in Computatio­ nal Linguistics, 1994, ein Verfahren veröffentlicht worden, in dem zur Bestimmung von Phrasengrenzen "Classification and Regression Trees" (CART) verwendet werden. Die Initialisie­ rung eines solchen Verfahrens erfordert ein hohes Maß an Ex­ pertenwissen. Der Aufwand steigt bei diesem Verfahren mit der angestrebten Genauigkeit überproportional.
Auf der Konferenz Eurospeech 1997 ist unter dem Titel "As­ signing phase breaks from part-of-speech sequences" von Alan W. Black und Paul Taylor ein Verfahren veröffentlicht worden, in dem die Phrasengrenzen mit einem "Hidden-Markov-Modell" (HMM) bestimmt werden. Zur Erzielung einer guten Vorhersage- Genauigkeit für eine Phrasengrenze ist ein Trainingstext mit beträchtlichem Umfang notwendig. Die Erstellung dieser Trai­ ningstexte ist teuer, da hierzu Expertenwissen notwendig ist.
Demnach ist es die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Aufbereitung und Strukturierung eines unbekann­ ten gesprochenen Texts zu schaffen, das mit einem kleineren Trainingstext trainiert werden kann und etwa ähnliche Erken­ nungsraten wie bekannte Verfahren erzielt, die mit größeren Texten trainiert werden.
Diese Aufgabe wird durch ein Verfahren gemäß dem kennzeich­ nenden Teil des Patentanspruchs 1 gelöst.
Demnach werden in einem erfindungsgemäßen Verfahren prosodi­ sche Markierungen durch ein neuronales Netzwerk auf der Basis linguistischer Kategorien bestimmt. In Abhängigkeit von der jeweiligen Sprache eines Textes sind Unterteilungen der Wör­ ter in verschiedene linguistische Kategorien bekannt. Bei der deutschen Sprache werden im Rahmen dieser Erfindung bei­ spielsweise 14 Kategorien, für die englische Sprache z. B. 23 Kategorien vorgesehen. Unter Kenntnis dieser Kategorien wird ein neuronales Netzwerk so trainiert, daß es Strukturen er­ kennen kann und so auf der Basis von Gruppierungen von z. B. 3 bis 15 aufeinander folgenden Wörtern eine prosodische Markie­ rung vorhersagt bzw. bestimmt.
In einer sehr vorteilhaften Weiterbildung der Erfindung wird für ein erfindungsgemäßes Verfahren ein zweistufiger Ansatz gewählt, der das Erfassen der Eigenschaften jeder prosodi­ schen Markierung durch neuronale Autoassoziatoren und das Auswerten der von jedem der Autoassoziatoren ausgegebenen de­ taillierten Ausgangsinformationen, die als sogenannter Feh­ ler-Vektor vorliegt, in einem neuronalen Klassifikator bein­ haltet.
Durch die erfindungsgemäße Anwendung von neuronalen Netzen wird ermöglicht, bei der Erzeugung prosodischer Parameter für Sprachsynthesesysteme Phrasengrenzen genau vorherzusagen.
Das erfindungsgemäße neuronale Netz ist robust gegenüber "we­ nigem" bzw. einem geringen Umfang von Trainingsmaterial (engl.: sparse training material).
Die Verwendung neuronaler Netzwerke gestattet Zeit- und kos­ tensparende Trainingsverfahren und eine flexible Anwendung eines erfindungsgemäßen Verfahrens und eine entsprechende Vorrichtung auf beliebige Sprachen. Es ist wenig zusätzlich aufbereitete Information und wenig Expertenwissen zum Initia­ lisieren eines solchen Systems einer bestimmten Sprache er­ forderlich. Das erfindungsgemäße neuronale Netzwerk ist des­ halb gut geeignet, um mit einem multilingualen TTS-System Texte aus mehreren Sprachen zu synthetisieren. Da die erfin­ dungsgemäßen neuronalen Netzwerke ohne Expertenwissen trai­ niert werden können, können sie kostengünstiger als bekannte Verfahren zum Bestimmen von Phrasengrenzen initialisiert wer­ den.
In einer Weiterbildung umfaßt die zweistufige Struktur mehre­ re Autoassoziatoren, die jeweils auf eine Phrasierungsstärke für alle auszuwertenden linguistischen Klassen trainiert wer­ den. So sind Teile des neuronalen Netzwerkes klassenspezi­ fisch ausgebildet. Das Trainingsmaterial ist in der Regel statistisch asymmetrisch ausgebildet, d. h., daß viele Wörter ohne Phrasengrenzen, aber nur wenige mit Phrasengrenzen vor­ handen sind. Im Gegensatz zu Verfahren nach dem Stand der Technik wird eine Dominanz innerhalb eines neuronalen Netzes dadurch vermieden, daß ein klassenspezifisches Training der jeweiligen Autoassoziatoren durchgeführt wird.
Vorteilhafte Weiterbildungen eines erfindungsgemäßen Verfah­ rens sind der Gegenstand von Unteransprüchen.
Das vorliegende Verfahren wird im folgenden unter Bezugnahme auf die zugehörigen Zeichnungen näher erläutert.
In den Zeichnungen zeigt:
Fig. 1 schematisch ein neuronales Netzwerkwerk gemäß der Erfindung;
Fig. 2 eine Ausgabe bei einfacher Phrasierung anhand ei­ nes Beispieltexts;
Fig. 3 ein Beispiel für eine Ausgabe mit ternärer Bewer­ tung der Phrasierung anhand eines Textbeispiels;
Fig. 4 schematisch eine bevorzugte Ausführungsform eines neuronalen Netzwerkes;
Fig. 5 schematisch einen Autoassoziator während des Trainings (links) und während des Betriebs (rechts);
Fig. 6 schematisch ein Blockschaltbild des neuronalen Netzwerkes nach Fig. 4 mit den mathematischen Zusammenhängen; und
Fig. 7 schematisch einen erweiterten Autoassoziator, und
Fig. 8 ein Computersystem zum Ausführen des erfindungs­ gemäßen Verfahrens in einem Blockschaltbild.
In der Fig. 1 ist schematisch ein erfindungsgemäßes neurona­ les Netzwerkwerk 1 mit einem Eingang 2, einer Zwischenschicht 3 und einem Ausgang 4 zum Bestimmen prosodischer Markierungen dargestellt. Der Eingang 2 ist aus neun Eingangsgruppen 5 zur Durchführung einer "part-of-speech"- (POS-) Sequenz Untersu­ chung aufgebaut. Jede der Eingangsgruppe 5 umfaßt in Anpas­ sung an die deutsche Sprache 14 Neuronen 6, die aus Gründen der Übersichtlichkeit nicht alle in Fig. 1 dargestellt sind. Es ist also je ein Neuron 6 für eine der linguistischen Kate­ gorie vorhanden. Die linguistischen Kategorien sind bei­ spielsweise folgendermaßen unterteilt:
Tabelle 1: linguistische Kategorieren
Kategorie
Beschreibung
NUM Numerale
VERB Verben
VPART Verbpartikel
PRON Pronomen
PREP Präpositionen
NOMEN Nomen, Eigennamen
PART Partikel
DET Artikel
CONJ Konjunktionen
ADV Adverben
ADJ Adjektive
PDET PREP+DET
INTJ Interjektionen
PUNCT Satzzeichen
Der Ausgang 4 ist durch ein Neuron mit einem kontinuierlichen Verlauf ausgebildet, das bedeutet, daß die Ausgangswerte alle Werte eines bestimmten Zahlenbereiches, der z. B. alle reellen Zahlen zwischen 0 und 1 umfaßt, annehmen können.
Bei dem in Fig. 1 gezeigten Ausführungsbeispiel sind neun Eingangsgruppen 5 zum Eingeben der Kategorien der einzelnen Wörter vorgesehen. An die mittlere Eingangsgruppe 5a wird die Kategorie des Wortes angelegt, von dem bestimmt werden soll, ob am Ende des Wortes eine Phasengrenze vorliegt oder keine Phasengrenze vorliegt. An die vier Eingangsgruppen 5b auf der linken Seite der Eingangsgruppe 5a werden die Kategorien von den Vorläufern des zu untersuchenden Wortes und an die auf der rechten Seite angeordneten Eingangsgruppen 5c die Nach­ folger des zu untersuchenden Wortes angelegt. Vorläufer sind alle Wörter, die im Kontext unmittelbar vor dem zu untersu­ chenden Wort angeordnet sind. Nachfolger sind alle Wörter, die im Kontext unmittelbar nachfolgend auf das zu untersu­ chende Wort angeordnet sind. Hierdurch wird mit dem erfin­ dungsgemäßen neuronalen Netzwerk 1 nach Fig. 1 ein Kontext von max. neun Wörtern ausgewertet.
Bei der Auswertung wird die Kategorie des zu untersuchenden Wortes an die Eingangsgruppe 5a angelegt, das heißt, daß an das Neuron 6, das der Kategorie des Wortes entspricht, der Wert +1 und an die übrigen Neuronen 6 der Eingangsgruppe 5a der Wert -1 angelegt wird. In entsprechender Weise werden die Kategorien der vier zu dem zu untersuchenden Wort vorherge­ henden bzw. nachfolgenden Wörter an die Eingangsgruppen 5b, bzw. 5c angelegt. Sollten keine entsprechenden Vorläufer bzw. Nachfolger vorhanden sein, wie es z. B. am Anfang und am Ende eines Textes der Fall ist, werden an die Neuronen 6 der ent­ sprechenden Eingangsgruppen 5b, 5c der Wert 0 angelegt.
Eine weitere Eingangsgruppe 5d ist zum Eingeben der vorherge­ gangen Phrasengrenzen vorgesehen. An dieser Eingangsgruppe 5d können die letzten neun Phrasengrenzen eingegeben werden.
Für die deutsche Sprache - mit 14 linguistischen Kategorien - weist der Eingangsraum eine beachtliche Dimension m von 135 (m = 9 . 14 + 9) auf. Eine zweckmäßige Unterteilung der lin­ guistischen Kategorien der englischen Sprache umfaßt 23 Kate­ gorien, so daß die Dimension des Eingangsraumes 216 beträgt. Die Eingangsdaten bilden einen Eingangsvektor x mit der Di­ mension m.
Das erfindungsgemäße neuronale Netzwerk wird mit einer Trai­ ningsdatei trainiert, die einen Text und die Informationen zu den Phrasengrenzen des Textes umfaßt. Diese Phrasengrenzen können rein binäre Werte enthalten, das heißt, lediglich In­ formationen, ob eine Phrasengrenze vorliegt oder ob keine Phrasengrenze vorliegt. Wird das neuronale Netzwerk mit einer derartigen Trainingsdatei trainiert, so ist die Ausgabe am Ausgang 4 binär. Der Ausgangs 4 erzeugt an sich kontinuierli­ che Ausgangswerte, die jedoch mittels einer Schwellwertent­ scheidung diskreten Werten zugeordnet werden.
In Fig. 2 ist ein Beispielssatz dargestellt, der hinter den Begriffen "Wort" und "Phrasengrenze" jeweils eine Phrasen­ grenze aufweist. Hinter den anderen Wörtern dieses Beispiel­ satzes gibt es keine Phrasengrenze.
Für bestimmte Anwendungen ist es vorteilhaft, wenn die Ausga­ be nicht nur binäre Werte, sondern mehrstufige Werte enthält, das heißt, daß Informationen über die Stärke der Phrasengren­ ze berücksichtigt werden. Hierzu ist das neuronale Netzwerk mit einer Trainingsdatei zu trainieren, die mehrstufige In­ formationen zu den Phrasengrenzen umfaßt. Die Abstufung kann von zwei Stufen bis an sich beliebig viele Stufen umfassen, so daß eine quasi kontinuierliche Ausgabe erzielt werden kann.
In Fig. 3 ist ein Beispielsatz mit einer dreistufigen Auswer­ tung mit den Ausgangswerten 0 für keine Phrasengrenze, 1 für eine primäre Phrasengrenze und 2 für eine sekundäre Phrasen­ grenze dargestellt. Nach dem Begriff "sekundären" befindet sich eine sekundäre Phrasengrenze und nach den Begriffen "Phrasengrenze und "erforderliche eine primäre Phrasengren­ ze.
In Fig. 4 ist eine bevorzugte Ausführungsform des erfindungs­ gemäßen neuronalen Netzes dargestellt. Dieses neuronale Netz umfaßt wiederum einen Eingang 2, der in Fig. 4 lediglich schematisch als ein Element dargestellt ist, aber genauso wie der Eingang 2 aus Fig. 1 aufgebaut ist. Die Zwischenschicht 3 besteht bei diesem Ausführungsbeispiel aus mehreren Autoasso­ ziatoren 7 (AA1, AA2, AA3) die jeweils ein Modell für eine vorbestimmte Phrasierungsstärke darstellen. Die Autoassozia­ toren 7 sind Teilnetzwerke, die zum Detektieren einer be­ stimmten Phrasierungsstärke trainiert werden. Der Ausgang der Autoassoziatoren 7 ist mit einem Klassifikator 8 verbunden. Der Klassifikator 8 ist ein weiteres neuronales Teilnetzwerk, das auch den anhand von Fig. 1 bereits beschriebenen Ausgang umfaßt.
Das in Fig. 4 gezeigte Ausführungsbeispiel umfaßt drei Auto­ assoziatoren, wobei mit jedem Autoassoziator eine bestimmte Phrasierungsstärke detektiert werden kann, so daß dieses Aus­ führungsbeispiel zur Detektion zweier unterschiedlicher Phra­ sierungsstärken und dem Vorliegen keiner Phrasierungsgrenze geeignet ist.
Jeder Autoassoziator wird mit den Daten der Klasse, die er darstellt, trainiert. D. h., daß jeder Autoassoziator mit den zu der von ihm repräsentierten Phrasierungsstärke gehörenden Daten trainiert wird.
Die Autoassoziatoren bilden den m-dimensionalen Eingangsvek­ tor x auf einen n-dimensionalen Vektor z ab, wobei n << m gilt. Der Vektor z wird auf einen Ausgangsvektor x' abgebil­ det. Die Abbildungen erfolgen mittels Matrizen w1 ∈ Rnxm und w2 ∈ Rnxm. Die gesamte in den Autoassoziatoren ausgeführte Ab­ bildung kann durch folgende Formel dargestellt werden:
x" = w2 tanh (w1 . x),
wobei tanh elementweise angewendet wird.
Die Autoassoziatoren werden so trainiert, daß ihre Ausgangs­ vektoren x' so genau wie möglich mit den Eingangsvektoren x übereinstimmen (Fig. 5 linke Seite). Hierdurch wird die In­ formation des m-dimensionalen Eingangsvektors x auf den n-dimensionalen Vektor z komprimiert. Hierbei wird davon ausge­ gangen, daß keine Informationen verlorengehen und das Modell die Eigenschaften der Klasse erfaßt. Das Kompressionsverhält­ nis m:n der einzelnen Autoassoziatoren kann unterschiedlich sein.
An die Eingangs- und Ausgangsseite der einzelnen Autoassozia­ toren werden beim Training nur die Eingangsvektoren x ange­ legt, die den Zuständen entsprechen, bei denen die den jewei­ ligen Autoassoziatoren zugeordneten Phrasengrenzen auftreten.
Beim Betrieb wird für jeden Autoassoziator ein Fehler-Vektor erec = (x-x')2 berechnet (Fig. 5, rechte Seite). Die Quadrie­ rung erfolgt hierbei elementweise. Dieser Fehler-Vektor erec ist ein "Abstandsmaß", das dem Abstand des Vektors x' zum Eingangsvektor x entspricht und somit indirekt proportional zur Wahrscheinlichkeit ist, daß die dem jeweiligen Autoasso­ ziator zugeordnete Phrasengrenze vorliegt.
Das vollständige die Autoassoziatoren und den Klassifikator umfassende neuronale Netzwerk ist schematisch in Fig. 6 dar­ gestellt. Es zeigt Autoassoziatoren 7 für k Klassen.
Die Elemente pi des Ausgangsvektors p werden gemäß folgender Formel berechnet:
wobei Ai (x) = w2 (i)tanh(w1 (i)x) gilt und tanh als elementweise Operation ausgeführt wird und diag(w1 (i),. . .,wm (i) ∈ Rmxm eine Diagonalmatrix mit den Elementen (w1 (i),. . .,wm (i) darstellt.
Die einzelnen Elemente pi des Ausgangsvektors p geben die Wahrscheinlichkeit an, mit welcher eine Phrasengrenze am Au­ toassoziator 1 detektiert worden ist.
Wenn die Wahrscheinlichkeit pi größer als 0,5 ist, wird dies als Vorliegen einer entsprechenden Phrasengrenze i bewertet. Ist die Wahrscheinlichkeit pi kleiner als 0,5, so bedeutet dies, daß die Phrasengrenze i hier nicht vorliegt.
Hat der Ausgangsvektor p mehr als zwei Elemente pi, so ist es zweckmäßig, den Ausgangsvektor p derart zu bewerten, daß die­ jenige Phrasengrenze vorliegt, deren Wahrscheinlichkeit pi am größten im Vergleich zu den übrigen Wahrscheinlichkeiten pi des Ausgangsvektors p ist.
In einer Weiterbildung der Erfindung kann es zweckmäßig sein, falls eine Phrasengrenze ermittelt wird, deren Wahrschein­ lichkeit pi im Bereich um 0,5, z. B. im Bereich von 0,4 bis 0,6, liegt, eine weitere Routine durchzuführen, mit der das Vorliegen der Phrasengrenze überprüft wird. Diese weitere Routine kann auf einem regelgetriebenen als auch auf einem datengetriebenen Ansatz beruhen.
Beim Training mit einer Trainingsdatei, die entsprechende Phrasierungsinformationen umfaßt, werden in einer ersten Trainingsphase die einzelnen Autoassoziatoren 7 jeweils auf ihre vorbestimmte Phrasierungsstärke trainiert. Wie es oben angegeben ist, werden hierbei an die Eingangs- und die Aus­ gangsseite der einzelnen Autoassoziatoren 7 die Eingangsvek­ toren x angelegt, die der Phrasengrenze entsprechen, die dem jeweiligen Autoassoziator zugeordnet ist.
In einer zweiten Trainingsphase werden die Gewichtungselemen­ te der Autoassoziatoren 7 festgehalten und der Klassifikator 8 trainiert. An die Eingangsseite des Klassifikators 8 werden die Fehler-Vektoren erec der Autoassoziatoren und an der Aus­ gangsseite die Vektoren, die die Werte für die unterschiedli­ chen Phrasengrenzen enthalten, angelegt. In dieser Trainings­ phase lernt der Klassifikator aus den Fehler-Vektoren die Ausgangsvektoren p zu bestimmen.
In einer dritten Trainingsphase wird eine Feineinstellung al­ ler Gewichtungselemente des gesamten neuronalen Netzwerkes (der k Autoassoziatoren und des Klassifikators) durchgeführt.
Durch die oben beschriebene Architektur eines neuronalen Netzwerkes mit mehreren jeweils auf eine bestimmte Klasse trainierten Modellen (hier: den Autoassoziatoren) und einem übergeordneten Klassifikator ist es möglich, einen Eingangs­ vektor mit sehr großer Dimension auf einen Ausgangsvektor mit kleiner Dimension bzw. ein Skalar zuverlässig korrekt abzu­ bilden. Diese Netzwerkarchitektur kann auch vorteilhaft bei anderen Anwendungen eingesetzt werden, bei welchen Elemente unterschiedlicher Klassen behandelt werden müssen. So kann es z. B. zweckmäßig sein, diese Netzwerkarchitektur auch bei der Spracherkennung zum Detektieren von Wort und/oder Satzgrenzen einzusetzen. Hierfür sind die Eingangsdaten entsprechend an­ zupassen.
Der in Fig. 6 gezeigte Klassifikator 8 weist Gewichtungsmat­ rizen GW auf, die jeweils einem Autoassoziator 7 zugeordnet sind. Die dem i-ten Autoassoziator 7 zugeordnete Gewichtungs­ matrix GW weist in der i-ten Zeile Gewichtungsfaktoren wn auf. Die übrigen Elemente der Matrix sind gleich Null. Die An­ zahl der Gewichtungsfaktoren wn entspricht der Dimension des Eingangsvektors, wobei jeweils ein Gewichtungselement wn in Beziehung zu einer Komponente des Eingangsvektors steht. Be­ sitzt ein Gewichtungselement wn einen größeren Wert als die übrigen Gewichtungselemente wn der Matrize, so bedeutet dies, daß die korrespondierende Komponente des Eingangsvektors von großer Bedeutung für die Bestimmung der Phrasengrenze, die durch den Autoassoziator ermittelt wird, dem die entsprechen­ de Gewichtungsmatrix GW zugeordnet ist.
Bei einer bevorzugten Ausführungsform werden erweiterte Auto­ assoziatoren verwendet (Fig. 7), die eine bessere Erfassung von Nichtlinearitäten erlauben. Diese erweiterten Autoassozi­ atoren führen folgende Abbildung aus:
x' = w2 tanh (.) + w3 (tanh (.))2,
wobei (.): = (w1 . x) gilt, und die Quadrierung (.)2 und der tanh elementweise ausgeführt werden.
Bei Versuchen ist ein erfindungsgemäßes neuronales Netzwerk mit einem vorbestimmten englischen Text trainiert worden. Der gleiche Text wurde zum Trainieren eines HMM-Erkenners verwen­ det. Als Leistungskriterien wurden im Betrieb die Prozentzahl der korrekt erkannten Phrasengrenzen (B-corr), der insgesamt korrekt beurteilten Wörter, unabhängig davon, ob eine oder keine Phrasengrenze folgt (Gesamt), und der nicht-korrekt er­ kannten Wörter ohne Phrasengrenze (NB-ncorr) ermittelt. Bei diesen Versuchen wurde ein neuronales Netzwerk mit den Auto­ assoziatoren nach Fig. 6 und ein neuronales Netzwerk mit den erweiterten Autoassoziatoren verwendet. Es wurden folgende Ergebnisse erzielt:
Tabelle 2
Die in der Tabelle aufgeführten Ergebnisse zeigen, daß die erfindungsgemäßen neuronalen Netzwerke bzgl. der korrekt er­ kannten Phrasengrenzen und der insgesamt korrekt erkannten Wörter etwa gleiche Ergebnisse wie ein HMM-Erkenner liefern. Jedoch sind die erfindungsgemäßen neuronalen Netzwerke bzgl. der fehlerhaft detektierten Phrasengrenzen, an Stellen, wo es an sich keine Phrasengrenze gibt, wesentlich besser als der HMM-Erkenner. Diese Art von Fehler ist bei der Sprache-zu- Text-Umsetzung besonders gravierend, da diese Fehler eine dem Zuhörer sofort auffallende Fehlbetonung erzeugen.
In weiteren Versuchen wurde eines der erfindungsgemäßen neu­ ronalen Netzwerke mit einem Bruchteil des bei den obigen Ver­ suchen verwendeten Trainingstextes (5%, 10%, 30%, 50%) trai­ niert. Hierbei wurden folgende Ergebnisse erzielt:
Tabelle 3
Mit Bruchteilen von 30% und 50% des Trainingstextes wurden ausgezeichnete Erkennungsraten erzielt. Mit einem Bruchteil von 10% und 5% des ursprünglichen Trainingstextes sind zu­ friedenstellende Erkennungsraten erzielt worden. Dies zeigt, daß die erfindungsgemäßen neuronalen Netzwerke auch bei ge­ ringem Trainingsumfang gute Erkennungsraten liefern. Dies stellt einen wesentlichen Fortschritt gegenüber bekannten Phrasengrenzen-Erkennungsmethoden dar, da das Aufbereiten von Trainingsmaterial kostenintensiv ist, da hier Expertenwissen eingesetzt werden muß.
Das oben beschriebene Ausführungsbeispiel weist k Autoassozi­ atoren auf. Für eine präzise Bewertung der Phrasengrenzen kann es zweckmäßig sein, eine große Anzahl Autoassoziatoren zu verwenden, wobei bis zu 20 Autoassoziatoren zweckmäßig sein können. Hierdurch wird eine quasi kontinuierlicher Ver­ lauf der Ausgabewerte erzielt.
Die oben beschriebenen neuronalen Netzwerke sind als Compu­ terprogramme realisiert, die selbständig auf einem Computer zum Umsetzen der linguistischen Kategorie eines Textes in dessen prosodischer Marker ablaufen. Sie stellen somit ein automatisch ausführbares Verfahren dar.
Das Computerprogramm kann auch auf einen elektronisch lesba­ ren Datenträger gespeichert werden und so auf ein anderes Computersystem übertragen werden.
Ein zur Anwendung des erfindungsgemäßen Verfahrens geeignetes Computersystem ist in Fig. 8 gezeigt. Das Computersystem 9 weist einen internen Bus 10 auf, der mit einem Speicherbe­ reich 11, einer zentralen Prozessoreinheit 12 und einem In­ terface 13 verbunden ist. Das Interface 13 stellt über eine Datenleitung 14 eine Datenverbindung zu weiteren Computersys­ temen her. An dem internen Bus sind ferner eine akustische Ausgabeeinheit 15, eine grafische Ausgabeeinheit 16 und eine Eingabeeinheit 17 angeschlossen. Die akustische Ausgabeein­ heit 15 ist mit einem Lautsprecher 18, die grafische Ausgabe­ einheit 16 mit einem Bildschirm 19 und die Eingabeeinheit 17 mit einer Tastatur 20 verbunden. An das Computersystem 9 kön­ nen über die Datenleitung 14 und das Interface 13 Text über­ tragen werden, die im Speicherbereich 11 abgespeichert wer­ den. Der Speicherbereich 11 ist in mehrere Bereiche unter­ teilt, in denen Texte, Audiodateien, Anwendungsprogramme zum Durchführen des erfindungsgemäßen Verfahrens und weitere An­ wendungs- und Hilfsprogramme gespeichert sind. Die als Text­ datei abgespeicherten Texte werden mit vorbestimmten Pro­ grammpaketen analysiert und die jeweiligen linguistischen Ka­ tegorien der Wörter ermittelt. Danach werden mit dem erfin­ dungsgemäßen Verfahren aus den linguistischen Kategorien die prosodischen Marker ermittelt. Diese prosodischen Marker wer­ den wiederum in ein weiteres Programmpaket eingegeben, das die prosodischen Marker zur Erzeugung von Audiodateien ver­ wendet, die über den internen Bus 10 zur akustischen Ausgabe­ einheit 15 übertragen und von dieser am Lautsprecher 18 als Sprache ausgegeben werden.
In den hier dargestellten Beispielen ist nur eine Anwendung des Verfahrens auf die Vorhersage von Phrasengrenzen be­ schrieben worden. Das Verfahren kann bei ähnlichem Aufbau ei­ ner Vorrichtung und einem angepaßten Training aber auch zur Auswertung eines unbekannten Textes hinsichtlich einer Vor­ hersage von Betonungen, z. B. gemäß den international standar­ disierten ToB-Labeln (tones and breaks indices), und/oder der Satzmelodie genutzt werden. Diese Anpassungen haben in Abhängigkeit von der jeweiligen Sprache des zu verarbeitenden Textes zu erfolgen, da die Prosodie stets sprachspezifisch ist.

Claims (13)

1. Verfahren zum Bestimmen prosodischer Markierungen, dadurch gekennzeichnet, daß auf der Basis linguistischer Kategorien prosodische Markierungen durch ein neuronales Netzwerk (1) bestimmt wer­ den.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als prosodische Markierungen Phrasengrenzen bestimmt und vorzugsweise auch ausgewertet und/oder bewertet werden.
3. Verfahren nach Anspruch 1 und/oder Anspruch 2, dadurch gekennzeichnet, daß am Eingang (2) des Netzwerkes (1) die linguistischen Kategorien von zumindest drei Wörtern eines zu synthetisie­ renden Textes angelegt werden.
4. Verfahren nach einem der vorgehenden Ansprüche, dadurch gekennzeichnet, daß es die Schritte
  • - Erfassen der Eigenschaften jeder prosodischen Markie­ rung durch neuronale Autoassoziatoren (7), die auf jeweils eine bestimmte prosodische Markierung trainiert sind, und
  • - Auswerten der von jedem der Autoassoziatoren (7) ausge­ gebenen Ausgangsinformationen in einem neuronalen Klassifika­ tor (8)
umfaßt.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Autoassoziatoren (1) für eine jeweilige vorbe­ stimmte Phrasengrenze trainiert sind.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das Training des neuronalen Klassifikators (8) nach dem Training aller Autoassoziatoren (7) erfolgt.
7. Neuronales Netzwerk zum Bestimmen prosodischer Markie­ rungen mit einem Eingang (2), einer Zwischenschicht (3) und einem Ausgang (4), wobei der Eingang zum Erfassen von linguisti­ schen Kategorien von Wörtern eines zu analysierenden Textes ausgebildet ist.
8. Neuronales Netzwerk nach Anspruch 7, dadurch gekennzeichnet, daß die Zwischenschicht (3) zumindest zwei Autoassoziato­ ren (7) aufweist.
9. Neuronales Netzwerk nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß der Eingang (2) Eingangsgruppen (5) aufweist, welche mehrere Neuronen (6) besitzen, die jeweils einer linguisti­ schen Kategorie zugeordnet sind, und jede Eingangsgruppe zum Erfassen der linguistischen Kategorie eines Wortes des zu analysierenden Textes dient.
10. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, daß das Netzwerk zum Ausgeben einer binären, tertiären oder quatären Phrasierungsstufe ausgebildet ist.
11. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, daß das Netzwerk zum Ausgeben eines quasi­ kontinuierlichen Phrasierungsbereichs ausgebildet ist.
12. Verfahren nach einem der Ansprüche 1 bis 6, gekennzeichnet durch, die Verwendung eines Neuronalen Netzwerkes nach einem der Ansprüche 7 bis 11.
13. Vorrichtung zum Bestimmen prosodischer Markierungen mit einem Computersystem (9), das einen Speicherbereich (11) aufweist, in dem ein Programm zum Ausführen eines Neuronalen Netzwerkes nach einem der Ansprüche 7 bis 11 gespeichert ist.
DE10018134A 2000-04-12 2000-04-12 Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen Ceased DE10018134A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE10018134A DE10018134A1 (de) 2000-04-12 2000-04-12 Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
PCT/DE2001/001394 WO2001078063A1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP01940136A EP1273003B1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE50108314T DE50108314D1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen
US10/257,312 US7409340B2 (en) 2000-04-12 2003-01-27 Method and device for determining prosodic markers by neural autoassociators

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10018134A DE10018134A1 (de) 2000-04-12 2000-04-12 Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen

Publications (1)

Publication Number Publication Date
DE10018134A1 true DE10018134A1 (de) 2001-10-18

Family

ID=7638473

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10018134A Ceased DE10018134A1 (de) 2000-04-12 2000-04-12 Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE50108314T Expired - Lifetime DE50108314D1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50108314T Expired - Lifetime DE50108314D1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen

Country Status (4)

Country Link
US (1) US7409340B2 (de)
EP (1) EP1273003B1 (de)
DE (2) DE10018134A1 (de)
WO (1) WO2001078063A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US9583095B2 (en) * 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
CN105374350B (zh) * 2015-09-29 2017-05-17 百度在线网络技术(北京)有限公司 语音标注方法及装置
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3497630B1 (de) 2016-09-06 2020-11-04 Deepmind Technologies Limited Verarbeitungssequenzen mit verwendung von neuronalen konvolutionsnetzwerken
CA3155320A1 (en) 2016-09-06 2018-03-15 Deepmind Technologies Limited Generating audio using neural networks
JP6756916B2 (ja) 2016-10-26 2020-09-16 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したテキストシーケンスの処理
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN109492223B (zh) * 2018-11-06 2020-08-04 北京邮电大学 一种基于神经网络推理的中文缺失代词补全方法
CN111354333B (zh) * 2018-12-21 2023-11-10 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及***
CN111508522A (zh) * 2019-01-30 2020-08-07 沪江教育科技(上海)股份有限公司 一种语句分析处理方法及***
US11610136B2 (en) * 2019-05-20 2023-03-21 Kyndryl, Inc. Predicting the disaster recovery invocation response time
KR20210099988A (ko) * 2020-02-05 2021-08-13 삼성전자주식회사 뉴럴 네트워크의 메타 학습 방법 및 장치와 뉴럴 네트워크의 클래스 벡터 학습 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668926A (en) * 1994-04-28 1997-09-16 Motorola, Inc. Method and apparatus for converting text into audible signals using a neural network
WO1998019297A1 (en) * 1996-10-30 1998-05-07 Motorola Inc. Method, device and system for generating segment durations in a text-to-speech system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
JPH09500223A (ja) * 1993-07-13 1997-01-07 ボルドー、テオドール・オースチン 多言語音声認識システム
JP3536996B2 (ja) * 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
BE1011892A3 (fr) * 1997-05-22 2000-02-01 Motorola Inc Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668926A (en) * 1994-04-28 1997-09-16 Motorola, Inc. Method and apparatus for converting text into audible signals using a neural network
WO1998019297A1 (en) * 1996-10-30 1998-05-07 Motorola Inc. Method, device and system for generating segment durations in a text-to-speech system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BLACK, A.W., TAYLOR, P.: "Assigning phase breaks from part-of-speech sequences", Konferenz Eurospeech 1997 *
OSTENDORF, M., VEILLEUX, N.: "A hierarchal stochastic model for automatic prediction of prosodic boundary location", In: Computational Linguistics, 1994 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese

Also Published As

Publication number Publication date
DE50108314D1 (de) 2006-01-12
US7409340B2 (en) 2008-08-05
EP1273003B1 (de) 2005-12-07
WO2001078063A1 (de) 2001-10-18
US20030149558A1 (en) 2003-08-07
EP1273003A1 (de) 2003-01-08

Similar Documents

Publication Publication Date Title
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69818161T2 (de) Automatisierte Gruppierung von sinnvollen Sätzen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE10030105A1 (de) Spracherkennungseinrichtung
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection