WO2001031434A2 - Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe - Google Patents

Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe Download PDF

Info

Publication number
WO2001031434A2
WO2001031434A2 PCT/DE2000/003753 DE0003753W WO0131434A2 WO 2001031434 A2 WO2001031434 A2 WO 2001031434A2 DE 0003753 W DE0003753 W DE 0003753W WO 0131434 A2 WO0131434 A2 WO 0131434A2
Authority
WO
WIPO (PCT)
Prior art keywords
fundamental frequency
macro
sequences
frequency sequences
default
Prior art date
Application number
PCT/DE2000/003753
Other languages
English (en)
French (fr)
Other versions
WO2001031434A3 (de
Inventor
Martin Holzapfel
Caglayan Erdem
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to EP00984858A priority Critical patent/EP1224531B1/de
Priority to US10/111,695 priority patent/US7219061B1/en
Priority to JP2001533505A priority patent/JP4005360B2/ja
Priority to DE50008976T priority patent/DE50008976D1/de
Publication of WO2001031434A2 publication Critical patent/WO2001031434A2/de
Publication of WO2001031434A3 publication Critical patent/WO2001031434A3/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the invention relates to a method for determining the time profile of a fundamental frequency of a speech output to be synthesized.
  • the fundamental frequency is composed of individual fundamental frequency patterns
  • a metallic, mechanical sound is still generated which can be clearly distinguished from a natural voice.
  • the basic frequency is set with a neural network, the voice sounds more natural, but is somewhat dull.
  • the invention is therefore based on the object of providing a method for determining the time profile of a basic frequency of a speech output to be synthesized, which gives the speech output a natural sound which is very similar to a human voice.
  • the method according to the invention for determining the time profile of a basic frequency of a speech output to be synthesized comprises the following steps:
  • the present invention is based on the knowledge that the determination of the course of a fundamental frequency by means of a neural network produces the macrostructure of the temporal course of a fundamental frequency very similar to the course of the fundamental frequency of a natural language, and the fundamental frequency sequences stored in a database are very similar to the microstructure of the Play back the fundamental frequency of a natural language.
  • the combination according to the invention thus achieves an optimal determination of the course of the fundamental frequency, which is much more similar to that of natural language, both in the macrostructure and in the microstructure, than with a fundamental frequency generated with the previously known methods. In this way, a considerable approximation of the synthetic speech output to a natural language is achieved.
  • the synthetic language generated in this way is very similar to natural language and can hardly be distinguished from it.
  • the deviation between the simulation macro segment and the default macro segment is preferably determined by means of a cost function which is weighted in such a way that with small deviations from the basic frequency of the default macro segment only a small deviation is determined, the predetermined deviations being strong until they are reached when predetermined limit frequency differences are exceeded of a saturation value increase.
  • This non-linearity represents the non-linear behavior of human hearing.
  • deviations are weighted the weaker the closer they are to the edge of a syllable.
  • the default macro segment is preferably reproduced by generating a plurality of fundamental frequency sequences for each microprosodic unit, combinations of fundamental frequency sequences being evaluated both with regard to the deviation from the default macro segment and with regard to pairwise tuning. Depending on the result of these two evaluations (deviation from the default macro segment, coordination between neighboring fundamental frequency sequences), a corresponding selection of a combination of fundamental frequency sequences is then made.
  • these paired adjustments of the fundamental frequency sequences within a syllable are weighted more strongly than at the edge area of the syllable.
  • the syllable nucleus is decisive for aural impression.
  • 3 shows the course of a basic frequency consisting of several macro segments, 4 schematically simplified the structure of a neural network,
  • FIG. 6 shows a method for synthesizing speech which is based on the method according to the invention.
  • This method is implemented in the form of a computer program that is started with a step S1.
  • step S2 a text is entered that is in the form of an electronically readable text file.
  • step S3 a sequence of phonemes, that is to say a phonetic sequence, is created, the individual graphemes of the text, that is to say one or more letters each, to which a phoneme is assigned, being determined.
  • the phonemes assigned to the individual graphemes are then determined, as a result of which the phoneme sequence is determined.
  • step S4 an emphasis structure is determined, ie it is determined how strongly the individual phonemes are to be emphasized.
  • the emphasis structure is shown in FIG. 1 a by means of a time line using the word "stop". Accordingly, the graphem "st" is the emphasis level 1, the grapheme “o” the emphasis level 0.3 and the grapheme “p” the emphasis level 0.5 been assigned. The duration of the individual phonemes is then determined (S5).
  • step S6 the time course of the fundamental frequency is determined, which is explained in more detail below.
  • a wave file can be generated based on the phonemes and the fundamental frequency (JS7).
  • the wave file is converted into acoustic signals by means of an acoustic output unit and a loudspeaker (S8), which ends the speech output (S9).
  • the time course of the fundamental frequency of the speech output to be synthesized is generated by means of a neural network in combination with fundamental frequency sequences stored in a database.
  • step S6 of FIG. 6 is shown in greater detail in FIG. 5 in a flow chart.
  • This method for determining the time profile of the fundamental frequency is a subroutine of the program shown in FIG. 6.
  • the subroutine is started with step SlO.
  • Step S11 determines a default macro segment of the fundamental frequency using a neural network.
  • a neural network is shown schematically simplified in FIG. 4.
  • the neural network has at an input layer I nodes for inputting a phonetic linguistic unit PE of the text to be synthesized and a context Kl, Kr to the left and right of the phonetic linguistic unit.
  • the phonetic linguistic unit consists, for example, of a phrase, a word or a syllable of the text to be synthesized, for which the default macro element of the fundamental frequency is to be determined.
  • the left context K1 and the right context Kr each represent a text section to the left and right of the phonetic linguistic unit PE.
  • the data entered with the phonetic unit include the corresponding phoneme sequence, emphasis structure and the duration of the individual phonemes.
  • the information entered with the left or right context comprises at least the phoneme sequence, although it may be expedient to also enter the emphasis structure and / or the duration of the sound.
  • the length of the left and right context can correspond to the length of the phonetic linguistic unit PE, that is to say again a phrase, a word or a syllable. However, it can also be expedient to provide a longer context of, for example, two or three words as a left or right context.
  • These inputs Kl, PE and Kr are processed in a hidden layer VS and output on an output layer 0 as the default macro segment VG of the fundamental frequency.
  • Such a default macro segment for the word “stop” is shown in FIG. 1b.
  • This default macro segment has a typical triangular shape, which begins with an increase and ends with a somewhat shorter decrease.
  • the microsegments corresponding to the default macro segment are determined in steps S12 and S13.
  • step S12 data are read from a data base m in which fundamental frequency sequences assigned to graphemes are stored, m generally having a multiplicity of fundamental frequency sequences for each grapheme.
  • m generally having a multiplicity of fundamental frequency sequences for each grapheme.
  • FIG. 1c such fundamental frequency sequences for the graphemes “st”, “o "and” p "are shown schematically, only a small number of fundamental frequency sequences being shown to simplify the drawing.
  • These fundamental frequency sequences can in principle be combined with one another as desired.
  • the possible combinations of these fundamental frequency sequences are evaluated using a cost function. This process step is carried out using the Viterbi algorithm.
  • a cost factor Kf is calculated using the following cost function:
  • the cost function has two terms, a local cost function lok (k 1 ) and a link cost function Ver (k 1D , k n , j +1).
  • the link cost function is used to evaluate the coordination between the i-th fundamental frequency of the j-th phoneme and the n-th fundamental frequency sequence of the j + l-th phoneme.
  • the local cost function has the following form, for example:
  • the local cost function is thus an integral over the time range from the beginning ta of a phoneme to the end te of the phoneme over the square of the difference between the basic frequency f v specified by the default macro segment and the i th basic frequency sequence of the j th phoneme.
  • This local cost function thus determines a positive value of the deviation between the respective fundamental frequency sequence and the fundamental frequency of the default macro segment.
  • this cost function is very easy to implement and, due to the parabolic property, generates an assessment that is similar to that of human hearing, since minor deviations around the default sequence f v are assessed as small, whereas larger deviations are assessed progressively.
  • the local cost function is provided with a weighting term that leads to the function curve shown in FIG. 2.
  • the diagram from FIG. 2 shows the value of the local cost function lok (f 1D ) as a function of the logarithm of the frequency f ⁇ of the lth fundamental frequency sequence of the ⁇ th phoneme.
  • the diagram shows that deviations from the default frequency f v within certain cut-off frequencies GF1, GF2 are assessed only slightly, with a further deviation causing a sharply increasing increase up to a threshold value SW.
  • Such a weighting corresponds to human hearing, which hardly perceives slight frequency deviations but registers this as a clear difference from certain frequency differences.
  • the linkage cost function is used to evaluate how well two consecutive fundamental frequency sequences are coordinated.
  • the frequency difference at the junction of the two fundamental frequency sequences is evaluated, with "the greater the difference at the end of the previous fundamental frequency sequence from the frequency at the beginning of the subsequent fundamental frequency sequences, the greater the output value of the linkage cost function further parameters are taken into account which, for example, reflect the continuity of the transition or the like.
  • step S14 the program flow jumps back to step S11, otherwise the program flow branches to step S15, with which the individual simulation macro segments of the fundamental frequency are assembled.
  • step S16 the connection points of the individual simulation macro segments are matched to one another, as shown in FIG. 3.
  • the frequencies left fi and right f r are matched to one another by the connecting points V, the end regions of the simulation macro segments preferably being changed in such a way that the frequencies f ⁇ and f r have the same value.
  • the transition can preferably also be smoothed and / or made continuous.
  • a course of a fundamental frequency can thus be generated which is very similar to the fundamental frequency of a natural language, since larger context areas can be easily detected and evaluated by means of the neural network (macro structure) and at the same time by means of the fundamental frequency sequences stored in the database finest structures of the fundamental frequency curve can be generated according to natural language (microstructure). This enables speech output with a much more natural sound than in previously known methods.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Bestimmen des zeitlichen Verlaufs einer Grundfrequenz einer zu synthetisierenden Sprachausgabe. Die Erfindung zeichnet sich dadurch aus, daß Vorgabemakrosegmente der Grundfrequenz mittels eines neuronalen Netzwerkes bestimmt werden, und diese Vorgabemakrosegmente mittels in einer Datenbasis gespeicherten Grundfrequenzsequenzen nachgebildet werden. Durch das erfindungsgemäße Verfahren wird die Grundfrequenz auf Grundlage eines größeren Textabschnittes, der mittels des neuronalen Netzwerkes analysiert wird, erzeugt, wobei aus der Datenbasis Mikrostrukturen in der Grundfrequenz aufgenommen werden. Die derart gebildete Grundfrequenz ist somit bezüglich ihrer Makro- als auch ihrer Mikrostruktur optimiert. Hierdurch wird ein äußerst natürlicher Klang erzielt.

Description

Beschreibung
Verfahren zum Bestimmen des zeitlichen Verlaufs einer Grundfrequenz einer zu synthetisierenden Sprachausgabe
Die Erfindung betrifft ein Verfahren zum Bestimmen des zeitlichen Verlaufs einer Grundfrequenz einer zu synthetisierenden Sprachausgabe.
Auf der Konferenz ICASSP 97, in München, ist unter dem Titel „Recent Improvements on Microsoft' s Trainable Text-to-Speech System-Whistler", X. Huang et al, ein Verfahren zum Synthetisieren von Sprache aus einem Text vorgestellt worden, das vollständig trainierbar ist und die Prosodie eines Textes an- hand von in einer Datenbank gespeicherten Prosodiemustern zusammenstellt und erzeugt. Die Prosodie eines Textes wird im wesentlichen durch die Grundfrequenz festgelegt, weshalb dieses bekannte Verfahren auch als Verfahren zur Erzeugung einer Grundfrequenz auf Grundlage entsprechender in einer Datenbank gespeicherter Muster betrachtet werden kann. Zur Erzielung einer möglichst natürlichen Sprachweise sind aufwendige Korrekturverfahren vorgesehen, die die Kontur der Grundfrequenz interpolieren, glatten und korrigieren.
Auf der ICASSP 98, in Seattle, ist unter dem Titel „Optimiza- tion of a Neural Network for Speaker and Task Dependent F0- Generation", Ralf Haury et al . ein weiteres Verfahren zum Erzeugen einer synthetischen Sprachausgabe aus einem Text vorgestellt worden. Dieses bekannte Verfahren verwendet zur Er- zeugung der Grundfrequenz anstelle einer Datenbank mit Mustern ein neuronales Netzwerk, mit dem der zeitliche Verlauf der Grundfrequenz für die Sprachausgabe festgelegt wird.
Mit den oben beschriebenen Verfahren soll eine Sprachausgabe geschaffen werden, die keinen metallischen, mechanischen und unnatürlichen Klang besitzt, wie es von herkömmlichen Sprachsynthesesystemen bekannt ist. Diese Verfahren stellen eine deutliche Verbesserung gegenüber den herkömmlichen Sprachsynthesesystemen dar. Es bestehen dennoch erhebliche klangliche Unterschiede zwischen der auf diesen Verfahren beruhenden Sprachausgabe und einer menschlichen Stimme.
Insbesondere wird bei einer Sprachsynthese, bei der die Grundfrequenz aus einzelnen Grundfrequenzmustern zusammengesetzt wird, nach wie vor ein metallischer, mechanischer Klang erzeugt, der deutlich von einer natürlichen Stimme unter- schieden werden kann. Wird die Grundfrequenz hingegen mit einem neuronalen Netzwerk festgelegt, klingt die Stimme zwar natürlicher, aber ist etwas dumpf.
Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfah- ren zum Bestimmen des zeitlichen Verlaufs einer Grundfrequenz einer zu synthetisierenden Sprachausgabe zu schaffen, die der Sprachausgabe einen natürlichen, einer menschlichen Stimme sehr ähnlichen Klang verleiht.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des
Anspruchs 1 gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.
Das erfindungsgemaße Verfahren zum Bestimmen des zeitlichen Verlaufs einer Grundfrequenz einer zu synthetisierenden Sprachausgabe umfaßt folgende Schritte:
Bestimmen von Vorgabemakroseg enten der Grundfrequenz mittels eines neuronalen Netzwerkes, und Bestimmen von Mikrosegmenten mittels in einer Datenbasis gespeicherten Grundfrequenzsequenzen, wobei die Grundfrequenzsequenzen derart aus der Datenbasis ausgewählt werden, daß durch die aufeinanderfolgenden Grundfrequenzsequenzen das jeweilige Vorgabemakrosegment mit möglichst geringer Abweichung nachgebildet wird. Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß die Bestimmung des Verlaufs einer Grundfrequenz mittels eines neuronalen Netzwerkes die Makrostruktur des zeitlichen Verlaufs einer Grundfrequenz sehr ähnlich zu dem Verlauf der Grundfrequenz einer natürlichen Sprache erzeugt, und die m einer Datenbasis gespeicherten Grundfrequenzsequenzen sehr ahnlich die MikroStruktur der Grundfrequenz einer natürlichen Sprache wiedergeben. Durch die erfindungsgemaße Kombination wird somit eine optimale Bestimmung des Verlaufs der Grund- frequenz erzielt, die sowohl in der Makrostruktur als auch in der MikroStruktur der der natürlichen Sprache wesentlich ahnlicher ist, als bei einer mit den bisher bekannten Verfahren erzeugten Grundfrequenz. Hierdurch wird eine beträchtliche Annäherung der synthetischen Sprachausgabe an eine naturliche Sprache erzielt. Die hierdurch erzeugte synthetische Sprache ist der natürlichen Sprache sehr ahnlich und kann kaum von dieser unterschieden werden.
Vorzugsweise wird die Abweichung zwischen dem Nachbildungsma- krosegment und dem Vorgabemakrosegment mittels einer Kostenfunktion ermittelt, die derart gewichtet ist, daß bei geringen Abweichungen von der Grundfrequenz des Vorgabemakrosegments lediglich eine kleine Abweichung ermittelt wird, wobei bei Überschreitung vorbestimmter Grenzfrequenzdifferenzen die ermittelten Abweichungen stark bis zum Erreichen eines Satti- gungswertes ansteigen. Dies bedeutet, daß alle Grundfrequenzsequenzen, die innerhalb des Bereiches der Grenzfrequenzen liegen, eine sinnvolle Auswahl zur Nachbildung des Vorgabemakrosegments darstellen und die Grundfrequenzsequenzen, die außerhalb des Bereiches der Grenzfrequenzdifferenzen liegen, als wesentlich ungeeigneter zur Nachbildung des Vorgabemakrosegments bewertet werden. Diese Nichtlmeaπtat bildet das nichtlineare Verhalten des menschlichen Gehörs ab.
Nach einer weiteren bevorzugten Ausfuhrungsform der Erfindung werden Abweichungen desto schwacher gewichtet, -je naher sie am Rand einer Silbe angeordnet sind. Die Nachbildung des Vorgabemakrosegments erfolgt vorzugsweise durch Erzeugung mehrerer Grundfrequenzsequenzen für jeweils eine mikroprosodische Einheit, wobei Kombinationen von Grund- frequenzsequenzen sowohl bezuglich der Abweichung vom Vorgabemakrosegment als auch bezüglich einer paarweisen Abstimmung bewertet werden. In Abhängigkeit des Ergebnisses dieser beiden Bewertungen (Abweichung vom Vorgabemakrosegment, Abstimmung zwischen benachbarten Grundfrequenzsequenzen) wird dann eine entsprechende Auswahl einer Kombination von Grundfrequenzsequenzen getroffen.
Mit dieser paarweisen Abstimmung werden insbesondere die Übergange zwischen benachbarten Grundfrequenzsequenzen bewer- tet, wobei hier größere Sprunge vermieden werden sollen. Nach einer bevorzugten Ausfuhrungsform der Erfindung werden diese paarweisen Abstimmungen der Grundfrequenzsequenzen innerhalb einer Silbe starker gewichtet als am Randbereich der Silbe. Der Silbenkern ist im Deutschen maßgeblich für den Horein- druck.
Das erfindungsgemaße Verfahren wird nachfolgend anhand eines m der Zeichnung dargestellten Ausfuhrungsbeispieles naher erläutert. In den Zeichnungen zeigen sche atisch:
Fig. la bis ld den Aufbau und das Zusammensetzen des zeitlichen Verlaufes einer Grundfrequenz in vier
Schritten,
Fig. 2 eine Funktion zur Gewichtung einer Kostenfunktion zur Bestimmung der Abweichung zwischen einem Nachbil- dungsmakrosegment und einem Vorgabemakrosegment,
Fig. 3 den Verlauf einer aus mehreren Makrosegmenten beste- henden Grundfrequenz, Fig. 4 schematisch vereinfacht den Aufbau eines neuronalen Netzwerkes,
Fig. 5 das erfindungsgemäße Verfahren in einem Flußdiagramm, und
Fig. 6 ein Verfahren zum Synthetisieren von Sprache, daß auf dem erfindungsgemäßen Verfahren beruht.
In Fig. 6 ist ein Verfahren zum Synthetisieren von Sprache, bei dem ein Text in eine Folge akustischer Signale gewandelt wird, in einem Flußdiagramm dargestellt.
Dieses Verfahren ist in Form eines Computerprogrammes reali- siert, das mit einem Schritt Sl gestartet wird.
Im Schritt S2 wird ein Text eingegeben, der in Form einer elektronisch lesbaren Textdatei vorliegt.
Im folgenden Schritt S3 wird eine Folge von Phonemen, das heißt eine Lautfolge, erstellt, wobei den einzelnen Graphemen des Textes, das sind jeweils einzelne oder mehrere Buchstaben, denen jeweils ein Phonem zugeordnet ist, ermittelt werden. Es werden dann die den einzelnen Graphemen zugeordneten Phoneme bestimmt, wodurch die Phonemfolge festgelegt ist.
Im Schritt S4 wird eine Betonungsstruktur bestimmt, das heißt es wird bestimmt, wie stark die einzelnen Phoneme betont werden sollen.
Die Betonungsstruktur ist in Fig. la mittels eines Zeitstrahles anhand des Wortes „stop" dargestellt. Demgemäß sind dem Graphem „st" die Betonungsstufe 1, dem Graphem „o" die Betonungsstufe 0,3 und dem Graphem „p" die Betonungsstufe 0,5 zu- geordnet worden. Nachfolgend wird die Dauer der einzelnen Phoneme bestimmt (S5) .
Im Schritt S6 wird der zeitliche Verlauf der Grundfrequenz bestimmt, was unten näher ausgeführt ist.
Nachdem die Phonemfolge und die Grundfrequenz festgelegt sind, kann eine Wave-Datei auf Grundlage der Phoneme und der Grundfrequenz erzeugt werden JS7) .
Die Wave-Datei wird mittels einer akustischen Ausgabeeinheit und einem Lautsprecher in akustische Signale umgesetzt (S8), womit die Sprachausgabe beendet ist (S9) .
Erfindungsgemäß wird der zeitliche Verlauf der Grundfrequenz der zu synthetisierenden Sprachausgabe mittels eines neuronalen Netzwerkes in Kombination mit in einer Datenbasis gespeicherten Grundfrequenzsequenzen erzeugt.
Das Verfahren, das dem Schritt S6 aus Fig. 6 entspricht, ist ausführlicher in Fig. 5 in einem Flußdiagramm dargestellt.
Dieses Verfahren zum Bestimmen des zeitlichen Verlaufs der Grundfrequenz ist ein Unterprogramm zu dem in Fig. 6 gezeig- tem Programm. Das Unterprogramm wird mit dem Schritt SlO gestartet .
Mit dem Schritt Sll wird ein Vorgabemakrosegment der Grundfrequenz mittels eines neuronalen Netzwerkes bestimmt. Ein derartiges neuronales Netzwerk ist schematisch vereinfacht in Fig. 4 gezeigt. Das neuronale Netzwerk weist an einer Eingabeschicht I Knoten zur Eingabe einer phonetisch linguistischen Einheit PE des zu synthetisierenden Textes und eines Kontextes Kl, Kr links und rechts von der phonetisch lingui- stischen Einheit auf. Die phonetisch linguistische Einheit besteht z.B. aus einer Phrase, einem Wort oder einer Silbe des zu synthetisierenden Textes, zu der das Vorgabemakroseg- ment der Grundfrequenz bestimmt werden soll. Der linke Kontext Kl und der rechte Kontext Kr stellen -jeweils einen Textabschnitt links und rechts der phonetischen linguistischen Einheit PE dar. Die mit der phonetischen Einheit eingegebenen Daten umfassen die entsprechende Phonemfolge, Betonungsstruktur und die Lautdauer der einzelnen Phoneme. Die mit dem linken bzw. rechten Kontext eingegebenen Informationen umfassen zumindest die Phonemfolge, wobei es zweckmäßig sein kann, auch die Betonungsstruktur und/oder die Lautdauer mit einzu- geben. Die Lange des linken und rechten Kontextes kann der Lange der phonetisch linguistischen Einheit PE entsprechen, also wiederum eine Phrase, ein Wort oder eine Silbe sein. Es kann -jedoch auch zweckmäßig sein, einen längeren Kontext von z.B. zwei oder drei Wortern als linken oder rechten Kontext vorzusehen. Diese Eingaben Kl, PE und Kr werden in einer versteckten Schicht VS verarbeitet und an einer Ausgabeschicht 0 als Vorgabemakrosegment VG der Grundfrequenz ausgegeben.
In Fig. lb ist eine solche Vorgabemakrosegment für das Wort „stop" dargestellt. Dieses Vorgabemakrosegment besitzt einen typischen dreiecksformigen Verlauf, der zunächst mit einem Anstieg beginnt und mit einem etwas kürzeren Abfall endet.
Nach der Bestimmung eines Vorgabemakrosegmentes der Grundfre- quenz werden m den Schritten S12 und S13 die dem Vorgabemakrosegment entsprechenden Mikrosegmente bestimmt.
Im Schritt S12 werden aus einer Datenbasis, m der Graphemen zugeordnete Grundfrequenzsequenzen gespeichert sind, ausgele- sen, wobei m der Regel f r "jedes Graphem eine Vielzahl von Grundfrequenzsequenzen vorliegen. In Fig. 1c sind derartige Grundfrequenzsequenzen für die Grapheme „st", „o" und „p" schematisch dargestellt, wobei zur zeichnerischen Vereinfachung lediglich eine geringe Anzahl von Grundfrequenzsequen- zen gezeigt sind. Diese Grundfrequenzsequenzen können grundsätzlich beliebig miteinander kombiniert werden. Die möglichen Kombinationen dieser Grundfrequenzsequenzen werden mittels einer Kostenfunktion bewertet. Dieser Verfahrensschritt wird mittels des Viterbi-Algorhithmus ausgeführt.
Für jede Kombination von Grundfrequenzsequenzen, die für jedes Phonem eine Grundfrequenzsequenz aufweist, wird ein Kostenfaktor Kf mittels folgender Kostenfunktion berechnet:
Kf = ∑lok(fv ) + Verk(fυ ,fn +) =ι
Die Kostenfunktion ist eine Summe von j=l bis 1, wobei j der Zähler der Phoneme ist und 1 die Gesamtzahl aller Phoneme darstellt. Die Kostenfunktion weist zwei Terme auf, eine lo- kale Kostenfunktion lok (k1 )und eine Verknüpfungskostenfunktion Ver(k1D, kn, j +1). Mit der lokalen Kostenfunktion wird die Abweichung der i-ten Grundfrequenzsequenz des j-ten Phonems vom Vorgabemakrosegment bewertet. Mit der Verknüpfungskostenfunktion wird die Abstimmung zwischen der i-ten Grund- frequenz des j-ten Phonems mit der n-ten Grundfrequenzsequenz des j+l-ten Phonems bewertet.
Die lokale Kostenfunktion weist beispielsweise folgende Form auf:
l k(flJ ) = ](fv(t) - fIJ (t))2 t
Die lokale Kostenfunktion ist somit ein Integral über den Zeitbereich des Beginns ta eines Phonems bis zum Ende te des Phonems über das Quadrat der Differenz der durch das Vorgabe- makrosegment vorgegebenen Grundfrequenz fv und der i-ten Grundfrequenzsequenz des j-ten Phonems. Diese lokale Kostenfunktion ermittelt somit einen positiven Wert der Abweichung zwischen der jeweiligen Grundfrequenzsequenz und der Grundfrequenz des Vorgabemakrosegments. Zudem ist diese Kostenfunktion sehr einfach realisierbar und er- zeugt durch die parabolische Eigenschaft eine Bewertung, die der des menschlichen Gehörs ähnelt, da kleinere Abweichungen um die Vorgabeseqeunz fv gering bewertet werden, wohingegen größere Abweichungen progressiv bewertet werden.
Nach einer bevorzugten Ausfuhrungsform wird die lokale Kostenfunktion mit einem Gewichtungsterm versehen, der zu dem in Fig. 2 dargestellten Funktionsverlauf fuhrt. Das Diagramm aus Fig. 2 zeigt den Wert der lokalen Kostenfunktion lok (f1D) in Abhängigkeit vom Logorhitmus der Frequenz f^ der l- ten Grundfrequenzsequenz des π-ten Phonems. Dem Diagramm kann man entnehmen, daß Abweichungen von der Vorgabefrequenz fv innerhalb bestimmter Grenzfrequenzen GF1, GF2 nur gering bewertet werden, wobei eine weitere Abweichung einen stark zunehmenden Anstieg bis zu einem Schwellwert SW bewirkt. Eine derartige Gewichtung entspricht dem menschlichen Gehör, das geringe Frequenzabweichungen kaum wahrnimmt aber ab gewissen Frequenzdifferenzen dies als deutlichen Unterschied registriert .
Mit der Verknupfungskostenfunktion wird bewertet, wie gut zwei aufeinanderfolgende Grundfrequenzsequenzen aufeinander abgestimmt sind. Insbesondere wird hierbei die Frequenzdifferenz an der Verbindungsstelle der beiden Grundfrequenzsequen- zen bewertet, wobei "je großer die Differenz am Ende der vor- hergehenden Grundfrequenzsequenz zur Frequenz am Anfang der nachfolgenden Grundfrequenzsequenzen ist, desto großer ist der Ausgabewert der Verknupfungskostenfunktion. Hierbei können "jedoch noch weitere Parameter berücksichtigt werden, die z.B. die Stetigkeit des Überganges oder dergleichen, wieder- geben.
Figure imgf000012_0001
φ 3 CD 3 P- w K Ϊ Λ φ rt rt 2 sQ CL < ^ ^ Λ 3 CΛ w < cn Z cn cn o d s: > DO
P- Φ 1-1 CD CΛ P- P- H d P- Φ Φ P- PJ Φ φ o O d P- rt P- P- o Φ H- P- rt H J H- d Φ d a d o rt a ; r O Φ a P rt er 1-1 1-1 s CΛ Φ φ Φ φ d a 3 n Φ P- α o O cn P- φ rt a irr 11 CΛ a N α CΛ Φ r rt d 1-1 d t DJ- " ι-( cn d r irr sQ
CΛ CL P- o rt N Φ Φ 3 DJ DJ P- Φ N rt Hi s Φ cn P rt rt o Φ er rt DJ φ
Z Hl φ d Φ CΛ ι-( Φ H α φ J d d d Φ • d φ p- ι-ι d dr rt DJ Φ er P- φ 0) 1-1 3 1-1 rt d a a Φ 3 ? CΛ Hi DJ Hi a d 1-1 rt d O d PJ Φ H rt Φ d
P- er Φ ^ DJ 1-1 ?r Φ cπ ω i- rt d > ;v rt >»> d er u3 P- rt ^ ∑: φ rt ιQ Λ P- P- H d rt Φ H 1-1 φ o 2, Hi P- d s: d rt Φ P- CΛ cn φ 1-1
Φ φ d 3 iQ rt IT d H d d H CΛ PJ d- O f P- CΛ P- l-h Hi ιQ S P- rt n 1_J. n
H CΛ Φ • P- rt H N P- d φ Hi φ O i-l d rt 1-1 o α d: 1-1 Φ P- P- sQ • φ rt er
Φ n a o sQ d Φ d P- d P- iQ irr P- d Φ I-l φ H i- 3 d cn Φ irr N n P1 Φ H CΛ d Hi H d 3 er O Φ ι-1 rQ CL PJ σ P d
Ό cn irr CL CΛ P- sQ φ H o φ P- P- O d 1-1 PJ α d irr « 3 - P- d PJ: Φ o o Φ H α O rt P- Φ d d a P1 φ d P- l-J P- Φ O PJ P- φ Φ d t ι-l H o CΛ P- vQ 2 Φ irr • d Λ P> d rt α ^ φ S h-> o φ d cn d rt cn α Φ N a cn d rT Φ DJ H Φ Φ d 1— ' sQ d φ cn Hi l_l. Φ Φ Ϊ N rt n rt PJ Hi ι-< < d φ Φ Φ rt N O i- Ire 1-1 Φ φ CΛ CΛ d d ι-< φ d 11 PJ φ CΛ Φ irr P1 3 φ i-l Φ vQ rϊ a d Φ irr cn ιQ P- d d iQ Φ ιQ rt d α d ιQ H-1 P- Φ d Φ d Φ α H rt
P- N Ui P- CT ι-< Φ φ ö N φ irr CΛ Λ d Φ P- Φ cn φ d Q Hi PJ i-l ΪÖ rt & H- ? Φ ω P- Φ P> uQ P- d ω 1-1 PJ 3 3 ι-ι 3 O α sQ 11 d d d P" Φ J cn d Φ d d n ω d ω rt d rt α rt PJ φ PJ: DJ 1 Hi Φ α d < Φ d cn d d •ö Φ d: irr rt • α Φ d Φ d rt P Di: w Φ ι-J Λ' Φ d ^ o d i ι-l d l_l. Ό
Φ N d Hi i-l d vQ N Φ irr H o φ ^ H α o H N rt n O Φ P- N φ d d P- d H 1— ' n er Φ S d d o irr & Φ O Hi ω uq Φ P- φ φ n ω s: d cn
Σ. H Φ ιQ Φ rt- irr DJ Ό Φ PJ CΛ φ d P- f ^ I-l rt PJ d o ι-( i-l Φ irr Φ d Hi
P- p- CΛ Λ CΛ PJ H < P- φ d Φ d o φ φ er d N φ P- r P- u3 - a P, 13 3 d ∑: P- f > Φ o sQ d CΛ P- Λ d Φ α φ P- d d ω irr sQ DJ d DJ Φ CL P- CΛ r+ Φ H irr 3 Φ N rt d & d Hl 3 Φ Ό o Φ α Φ P- ?- "-( d n cn ;v d P- H Φ CΛ Hi φ CΛ Φ DJ P- Φ d J H Hi ' rt irr φ d iQ o d
P- P- ir Z 1-1 N φ 0- ιQ PJ P- d I— ' Φ d rt d d d P- 3 N Φ cn d
CΛ 3 er PJ o CΛ Φ cn Φ irr CΛ rt P- rQ P- PJ N l-V H τ> £ ω Φ rt υq rt P- irr CΛ Φ N Φ ω H H H rt d d S O rt CΛ rt o e φ Φ P- 3 d < φ cn
P- ω Φ Λ d P- Ό d N Φ • er sQ φ Φ d P- Φ P- CΛ o i-l CL H φ Φ d Hi ω n CL sQ d CL d Φ d Φ d Φ d d o Λ O Φ d CL o er d PJ ι-( Hi o n irr d α 3 Φ Φ φ P- a d N P- N rt D) d d d iQ φ φ 3 CΛ Φ cn 3 er d t i-i d Φ Φ a 3 n Hl >Q £ φ ω Φ d φ Φ 3 3 d P- P- O P- d 3
Φ P- iQ 11 d N CΛ irr 1-1 rt Φ P- rt d Φ CΛ d d d φ Φ d z Irr ?d d Λ" rt H- Φ P> Φ Φ Φ Φ 1-1 n P- H sQ N d a H) PJ er φ P- PJ CL rt CL w rt α ^ a d irr H Λ d α irr CΛ Φ un Φ α Φ P- rt Φ d- d Φ d p- d d H- Φ
P- Φ o Hi n H r+ d Φ d n P- φ s: Φ d p- ι-( rt • P- o CL d o I-l a CΛ g : er irr Φ Φ d Φ irr d er PJ: H α er d iQ irr iQ d t h-1 F > H Φ d d d o rt φ φ Φ irr Φ Φ Φ Φ 1—1. er w Φ φ Φ CΛ W
Φ j-> < P- CΛ CL D> N H ω d d cn H H CΛ H φ, Φ P- 1 d P- cn d ι-i
P- o d P- P- rt O ιQ o s: W rt 1-1 3 rt CL N d d rt 3 Hi rt sQ H PJ P) rt φ d: H Φ PJ 3 P- P- cn irr - d P- < p- Φ Φ φ P- cn φ Φ cn P-
Φ ιQ rr ω N H d H er P- H d 11 DJ d rt Φ g P- P- d Φ 11 P-' O d φ Ό DJ P- rt α h-1 d h-1 Φ rt α d d rt Hi α rt H 3 d « n CL rt h- CL
P- P> er o S . Φ P- J: 3 φ d C: Hi Φ - rt iQ O irr Φ Φ O: Φ cn d a d- Φ d o rt n Hi d DJ PJ d P- α H 11 l—1 d d d 1-1 d 11 P- n d l- 3 Φ 1-1 P) irr H Hi i d d rt Hi α Φ rt C: s: P- o Φ DJ cn "" N d* iQ
∑: rt DJ a r+ P- φ φ Φ i-f ι-f PJ & V o CΛ P- rt H P- er ≤ ∑:
Φ i Λ o α er φ P- d d Hi p> rt d • rt < CL Φ Φ J: ∑:
P- H < ; iQ S d 3 CΛ P- α P- Λ Φ Φ d d P- PJ P- PJ P- n P- rr o o o CΛ Φ PJ Φ P- φ φ Φ d P- d α d Φ CΛ rt iQ PJ cn PJ Φ irr H
Φ er CΛ d rt d 1 d r+ ιQ 3 α Φ φ α N -J3 a O P- Φ d d i-l φ CL ι-l φ o PJ N rt Φ 3 Φ a CΛ P- CΛ CΛ CΛ irr o PJ PJ iQ H
Φ Hi sQ Ό d CΛ Φ 3 P- < rt N φ φ Φ d IK P- Φ d cn ' φ er
H d- 1 Φ Φ ' φ rt o 1 1 3 o CΛ a Φ d 1 Φ Φ
H 1 CΛ d 1 H 1 1 rt 1 1 1 1 φ H
1 1 1
zeitlicher Verlauf der Grundfrequenz erzeugt werden muß. Ergibt diese Abfrage im Schritt S14 ein „3a", springt der Programmablauf auf den Schritt Sll zurück, andernfalls verzweigt der Programmablauf auf den Schritt S15, mit dem die einzelnen Nachbildungsmakrosegmente der Grundfrequenz zusammengesetzt werden.
Im Schritt S16 werden die Verbindungsstellen der einzelnen Nachbildungsmakrosegmente aneinander angeglichen, wie es in Fig. 3 dargestellt ist. Hierbei werden die Frequenzen links fi und rechts fr von den Verbindungsstellen V einander angepaßt, wobei die Endbereiche der Nachbildungsmakrosegmente vorzugsweise derart verändert werden, daß die Frequenzen f^ und fr den gleichen Wert besitzen. Vorzugsweise kann im Be- reich der Verbindungsstelle der Übergang auch geglättet und/oder stetig gemacht werden.
Nachdem für alle linguistisch phonetischen Einheiten des Textes die Nachbildungsmakrosegmente der Grundfrequenz erstellt und zusammengesetzt worden sind, wird das Unterprogramm beendet und der Programmablauf geht zurück zum Hauptprogramm (S17) .
Mit dem erfmdungsgemaßen Verfahren kann somit ein Verlauf einer Grundfrequenz erzeugt werden, der der Grundfrequenz einer natürlichen Sprache sehr ähnlich ist, da mittels des neuronalen Netzwerkes einfach größere Kontextbereiche erfaßt und ausgewertet werden können (Makrostruktur) und zugleich mittels der in der Datenbasis gespeicherten Grundfrequenzsequen- zen feinste Strukturen des Grundfrequenzverlaufes entsprechend der natürlichen Sprache erzeugt werden können (Mi- krostruktur) . Hierdurch wird eine Sprachausgabe mit einem wesentlich naturlicheren Klang als bei bisher bekannten Verfahren ermöglicht.
Die Erfindung ist oben anhand eines Ausfuhrungsbeispiels naher erläutert worden. Die Erfindung ist -jedoch nicht auf das C_π <_n
CL
PJ
1 sQ
Φ
CΛ rt
Φ
P- rt
∑:
11
CL
Φ d
Figure imgf000014_0001

Claims

Patentansprüche
1. Verfahren zum Bestimmen des zeitlichen Verlaufs einer Grundfrequenz einer zu synthetisierenden Sprachausgabe, u - fassend die Schritte:
Bestimmen von Vorgabemakrosegmenten der Grundfrequenz mittels eines neuronalen Netzwerkes, und
Bestimmen von Mikrosegmenten mittels in einer Datenbasis gespeicherten Grundfrequenzsequenzen, wobei die Grundfre- quenzsequenzen derart aus der Datenbasis ausgewählt werden, daß durch die aufeinanderfolgenden Grundfrequenzsequenzen das jeweilige Vorgabemakrosegment mit möglichst geringer Abweichung nachgebildet wird.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß die Vorgabemakrosegmente einen Zeitbereich abdecken, der einer phonetisch linguistischen Einheit der Sprache, wie z.B. einer Phrase, einem Wort oder einer Silbe, entspricht.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß die Grundfrequenzsequenzen der Mikrosegmente die Grundfrequenzen jeweils eines Phonems darstellen.
4. Verfahren nach einem der Ansprüche 1 bis 3, d a d u r c h g e k e n n z e i c h n e t, daß die Grundfrequenzsequenzen der Mikrosegmente, die innerhalb eines zeitlichen Bereiches eines der Vorgabemakroseg- mente liegen, zu einem Nachbildungsmakrosegment zusammengesetzt werden, wobei die Abweichung des Nachbildungsmakrosegments zum jeweiligen Vorgabemakrosegment ermittelt wird, und die Grundfrequenzsequenzen derart optimiert werden, daß die Abweichung möglichst gering ist.
5. Verfahren nach Anspruch 4, d a d u r c h g e k e n n z e i c h n e t, daß für die einzelnen Mikrosegmente "jeweils mehrere Grundfrequenzsequenzen ausgewählt werden können, wobei diejenigen Kombinationen von Grundfrequenzsequenzen ausgewählt werden, die die geringste Abweichung zwischen dem jeweiligen Nachbildungsmakrosegment und dem jeweiligen Vorgabemakrosegment ergeben.
6. Verfahren nach Anspruch 4 oder 5, d a d u r c h g e k e n n z e i c h n e t, daß die Abweichung zwischen dem Nachbildungsmakrosegment und dem Vorgabemakrosegment mittels einer Kostenfunktion ermittelt wird, die derart gewichtet ist, daß bei geringen Abweichungen von der Grundfrequenz des Vorgabemakrosegments lediglich eine kleine Abweichung ermittelt wird, wobei bei Überschreiten vorbestimmter Grenzfrequenzdifferenzen d e ermittelten Abweichungen stark bis zum Erreichen eines Satti- gungswertes ansteigen.
7. Verfahren nach einem der Ansprüche 4 bis 6, d a d u r c h g e k e n n z e i c h n e t, daß die Abweichung zwischen dem Nachbildungsmakrosegment und dem Vorgabemakrosegment mittels einer Kostenfunktion ermittelt wird, mit der eine Vielzahl von über die Makrosegmente verteilt angeordnete Abweichungen bewertet werden, wobei die Abweichung desto schwacher gewichtet werden, je naher sie am Rand einer Silbe angeordnet sind.
8. Verfahren nach einem der Ansprüche 4 bis 7, d a d u r c h g e k e n n z e i c h n e t, daß beim Auswahlen der Grundfrequenzsequenzen die einzelnen Grundfrequenzsequenzen mit den hierzu jeweils nachfolgenden bzw. vorhergehenden Grundfrequenzsequenzen nach vorbestimmten Kriterien abgestimmt werden, und lediglich Kombinationen von Grundfrequenzsequenzen zum Zusammensetzen zu einem Nachbildungsmakrosegment zugelassen werden, die die Kriterien erfüllen.
9. Verfahren nach Anspruch 8, d a d u r c h g e k e n n z e i c h n e t, daß die Beurteilung benachbarter Grundfrequenzsequenzen mittels einer Kostenfunktion erfolgt, die einen zu minimie- renden Ausgabewert für eine Verbindungsstelle der Grundfrequenzsequenzen benachbarter Grundfrequenzsequenzen erzeugt, der desto großer ist, je großer die Differenz am Ende der vorhergehenden Grundfrequenzsequenz zur Frequenz am Anfang der nachfolgenden Grundfrequenzsequenz ist.
10. Verfahren nach Anspruch 9, d a d u r c h g e k e n n z e i c h n e t, daß die der Ausgabewert desto schwacher gewichtet wird, e naher die jeweilige Verbindungsstelle am Rand einer Silbe angeordnet ist.
11. Verfahren nach einem der Ansprüche 1 bis 10, d a d u r c h g e k e n n z e i c h n e t, daß die einzelnen Makrosegmente mittemander verkettet werden, wobei an den Verbindungsstellen der Makrosegmente die Grundfrequenzen aneinander angepaßt werden.
12. Verfahren nach einem der Ansprüche 1 bis 11, d a d u r c h g e k e n n z e i c h n e t, daß die neuronalen Netzwerke die Vorgabesegmente für einen vorbestimmten Abschnitt eines Textes auf Grundlage dieses Textabschnittes und eines diesem Textabschnitt vorausgehenden und/oder nachfolgenden Textabschnittes bestimmen.
13. Verfahren zum Synthetisieren von Sprache, bei dem ein Text in eine Folge akustischer Signale gewandelt wird, umfassend folgende Schritte:
Wandeln des Textes in eine Folge von Phonemen, Erzeugen einer Betonungsstruktur, Bestimmen der Dauer der einzelnen Phoneme,
Bestimmen des zeitlichen Verlaufs einer Grundfrequenz nach dem Verfahren gemäß einem der Ansprüche 1 bis 12, Erzeugen der die Sprache darstellenden akustischen Signale auf Grundlage der ermittelten Folge von Phonemen und der ermittelten Grundfrequenz.
PCT/DE2000/003753 1999-10-28 2000-10-24 Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe WO2001031434A2 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP00984858A EP1224531B1 (de) 1999-10-28 2000-10-24 Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe
US10/111,695 US7219061B1 (en) 1999-10-28 2000-10-24 Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized
JP2001533505A JP4005360B2 (ja) 1999-10-28 2000-10-24 合成すべき音声応答の基本周波数の時間特性を定めるための方法
DE50008976T DE50008976D1 (de) 1999-10-28 2000-10-24 Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19952051.8 1999-10-28
DE19952051 1999-10-28

Publications (2)

Publication Number Publication Date
WO2001031434A2 true WO2001031434A2 (de) 2001-05-03
WO2001031434A3 WO2001031434A3 (de) 2002-02-14

Family

ID=7927243

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2000/003753 WO2001031434A2 (de) 1999-10-28 2000-10-24 Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe

Country Status (5)

Country Link
US (1) US7219061B1 (de)
EP (1) EP1224531B1 (de)
JP (1) JP4005360B2 (de)
DE (1) DE50008976D1 (de)
WO (1) WO2001031434A2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10230884A1 (de) * 2002-07-09 2004-02-05 Siemens Ag Vereinigung von Prosodiegenerierung und Bausteinauswahl bei der Sprachsynthese
US7167824B2 (en) 2002-02-14 2007-01-23 Sail Labs Technology Ag Method for generating natural language in computer-based dialog systems

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4264030B2 (ja) * 2003-06-04 2009-05-13 株式会社ケンウッド 音声データ選択装置、音声データ選択方法及びプログラム
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
WO2005119650A1 (ja) * 2004-06-04 2005-12-15 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US10109014B1 (en) 2013-03-15 2018-10-23 Allstate Insurance Company Pre-calculated insurance premiums with wildcarding
CN105357613B (zh) * 2015-11-03 2018-06-29 广东欧珀移动通信有限公司 音频输出设备播放参数的调整方法及装置
CN106653056B (zh) * 2016-11-16 2020-04-24 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN108630190B (zh) * 2018-05-18 2019-12-10 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2325599A (en) * 1997-05-22 1998-11-25 Motorola Inc Speech synthesis with prosody enhancement
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1057625C (zh) 1994-04-28 2000-10-18 摩托罗拉公司 使用神经网络变换文本为声频信号的方法
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2325599A (en) * 1997-05-22 1998-11-25 Motorola Inc Speech synthesis with prosody enhancement
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167824B2 (en) 2002-02-14 2007-01-23 Sail Labs Technology Ag Method for generating natural language in computer-based dialog systems
DE10230884A1 (de) * 2002-07-09 2004-02-05 Siemens Ag Vereinigung von Prosodiegenerierung und Bausteinauswahl bei der Sprachsynthese
DE10230884B4 (de) * 2002-07-09 2006-01-12 Siemens Ag Vereinigung von Prosodiegenerierung und Bausteinauswahl bei der Sprachsynthese

Also Published As

Publication number Publication date
EP1224531B1 (de) 2004-12-15
WO2001031434A3 (de) 2002-02-14
US7219061B1 (en) 2007-05-15
JP2003513311A (ja) 2003-04-08
EP1224531A2 (de) 2002-07-24
DE50008976D1 (de) 2005-01-20
JP4005360B2 (ja) 2007-11-07

Similar Documents

Publication Publication Date Title
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE3783154T2 (de) Spracherkennungssystem.
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE2920298A1 (de) Binaere interpolatorschaltung fuer ein elektronisches musikinstrument
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
WO2001031434A2 (de) Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe
DE69609531T2 (de) Sprachanpassungsgerät
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE19861167A1 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
DE69425874T2 (de) Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese
DE69717933T2 (de) Verfahren zur Änderung der Grundfrequenz einer V(okal)-K(onsonant)-V(okal) Phonemketten-Wellenform und Vorrichtung zur Klangsynthese aus einer Folge von VKV Phonemketten-Wellenformen
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2000054254A1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE4111781A1 (de) Computersystem zur spracherkennung

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
AK Designated states

Kind code of ref document: A3

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 2000984858

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10111695

Country of ref document: US

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 533505

Kind code of ref document: A

Format of ref document f/p: F

WWP Wipo information: published in national office

Ref document number: 2000984858

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2000984858

Country of ref document: EP