DE69722585T2 - Synthese von wellenformen - Google Patents

Synthese von wellenformen Download PDF

Info

Publication number
DE69722585T2
DE69722585T2 DE69722585T DE69722585T DE69722585T2 DE 69722585 T2 DE69722585 T2 DE 69722585T2 DE 69722585 T DE69722585 T DE 69722585T DE 69722585 T DE69722585 T DE 69722585T DE 69722585 T2 DE69722585 T2 DE 69722585T2
Authority
DE
Germany
Prior art keywords
waveform
pattern
point
sequence
cycles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69722585T
Other languages
English (en)
Other versions
DE69722585D1 (de
Inventor
Michael Great Shelford BANBROOK
Stephen Joppa McLAUGHLIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE69722585D1 publication Critical patent/DE69722585D1/de
Application granted granted Critical
Publication of DE69722585T2 publication Critical patent/DE69722585T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Lasers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • Die Erfindung betrifft Verfahren und Vorrichtungen zur Schwingungs- bzw. Wellenformsynthese und insbesondere, aber nicht ausschließlich, zur Sprachsynthese.
  • Es sind verschiedene Typen von Sprachsynthesizern bekannt. Die meisten arbeiten unter Verwendung eines Repertoires von Phonemen oder Allophonen, die nacheinander erzeugt werden, um entsprechende Äußerungen zu synthetisieren. Eine Übersicht über einige Typen von Sprachsynthesizern findet sich in A. Breen, „Speech Synthesis Models: A Review", Electronics and Communication Engineering Journal, Seiten 19–31, Februar 1992. Einige Typen von Sprachsynthesizer versuchen, die Spracherzeugung unter Verwendung einer Quellenfilterannäherung zu modellieren, für die beispielsweise eine lineare Vorhersage genutzt wird. Bei anderen werden Segmente tatsächlicher Sprache aufgezeichnet, die nacheinander ausgegeben werden.
  • Eine der Hauptschwierigkeiten bei synthetisierter Sprache ist, die Sprache natürlich klingen zu lassen. Es gibt viele Gründe dafür, daß synthetisierte Sprache unnatürlich klingen kann. Ein besonderes Problem bei der zuletzt genannten Klasse von aufgenommene, tatsächliche Sprache nutzenden Sprachsynthesizern besteht jedoch darin, daß die gleiche Aufzeichnung jedes Vokals oder Allophons jedesmal verwendet wird, wenn der betreffende Vokal bzw. das betreffende Allophon benötigt wird. Dies wird um so spürbarer bei Synthesizern, bei denen zur Erzeugung eines durchgehenden Klangs ein kurzes Segment des Phonems oder Allophons mehrmals nacheinander wiederholt wird.
  • Ein Beispiel eines bekannten Synthesizers, bei dem in dem Versuch, Spracherzeugung zu imitieren, eine lineare Vorhersage verwendet wird, ist in dem US-Patent 4,022,974 offenbart.
  • Mit der vorliegenden Erfindung wird, gemäß einem Aspekt, ein Verfahren zur Erzeugung eines Outputs einer synthetischen Schwingungsform geschaffen, der einer Folge im wesentlichen ähnlicher Zyklen entspricht, wobei das Verfahren die folgenden Schritte umfaßt:
    • (a) Erzeugen eines synthetischen Schwingungsformmusters,
    • (b) Erzeugen eines nachfolgenden Schwingungsformmusters anhand des synthetischen Schwingungsformmusters und der Transformationsdaten,
    • (c) Spezifizieren des nachfolgenden Schwingungsformmusters als synthetisches Schwingungsformmuster und Wiederholen von Schritt (b),
    • (d) mehrfaches Wiederholen von Schritt (c) zur Erzeugung einer Folge der nachfolgenden Schwingungsformmuster, die mehreren Zyklen entsprechen,
    • (e) Ausgeben der Muster der Sequenz zur Erzeugung des synthetischen Schwingungsformoutputs,

    wobei das Verfahren dadurch gekennzeichnet ist, daß die Transformationsdaten Daten enthalten, die die Entwicklung der Zyklen in zeitlicher Nähe des synthetischen Schwingungsformmusters und die Änderung der Form der Zyklen in zeitlicher Nähe von Zyklus zu Zyklus definieren.
  • Dadurch kann eine synthetisierte Sequenz jeder gewünschten Dauer erzeugt werden. Da überdies das Fortschreiten der Sequenz von ihrem Anfangswert abhängt, können durch die Auswahl unterschiedlicher Anfangswerte unterschiedliche Sequenzen erzeugt werden, die dem gleichen Phonem oder Allophon entsprechen.
  • Die Erfinder haben zuvor berichtet („Speech characterisation by non-linear methods", M. Banbrook und S. McLaughlin, eingereicht bei IEEE Transactions on Speech and Audio Processing, 1996; „Speech characterisation by non-linear methods", M. Banbrook und S. McLaughlin, präsentiert beim IEEE Workshop on non-linear signal and image processing, Seiten 396–400, 1995), daß sich stimmhafte Sprache, die die vorliegende Erfindung primär betrifft, wie ein niederdimensionales, nicht lineares, nicht chaotisches System zu verhalten scheint. Stimmhafte Sprache ist im wesentlichen zyklisch und umfaßt eine zeitliche Abfolge von Tonhöhenimpulsen von ähnlicher, jedoch nicht identischer Form. Daher wird bei einer bevorzugten Ausführungsform der vorliegenden Erfindung eine niederdimensionale Zustandsraumdarstellung des Sprachsignals genutzt, bei der aufeinanderfolgende Tonhöhenimpulszyklen überlagert werden, um den Fortgang des Sprachsignals innerhalb jedes Zyklus und von Zyklus zu Zyklus einzuschätzen.
  • Diese Einschätzung der Dynamik des Sprachsignals ist nützlich, da sie die Synthese einer Schwingungsform ermöglicht, die nicht der aufgezeichneten Sprache entspricht, auf der die Analyse der Dynamik basierte, sondern aus Zyklen von ähnlicher Form besteht, die eine ähnliche Veränderlichkeit wie die zeigen, auf denen die Analyse basierte.
  • Die Zustandsraumdarstellung kann beispielsweise auf Takens' Verzögerungsverfahren (F. Takens, „Dynamical Systems and Turbulence", Bd. 898 der Lecture Notes in Mathematics, Seiten 366–381, Berlin, Springer 1981) basieren. Bei diesem Verfahren bestehen die verschiedenen Achsen des Zustandsraums aus durch vorgegebene Zeitintervalle getrennten Schwingungsformwerten, so daß ein Punkt im Zustandsraum durch einen Satz von Werten zu den Zeitpunkten t1, t2, t3 definiert wird (wobei t2 – t1 = Δ1 und t3 – t2 = Δ2 gelten und beide Werte Konstanten sind, die den gleichen Wert haben können).
  • Ein weiteres aktuelles Problem bei synthetisierter Sprache ist, daß die „Verbindung" manchmal hörbar ist, wenn unterschiedliche Klänge in einer Sequenz aneinandergereiht werden, was hörbare Artefakte, wie eine matte Modulation bei der Phonemgeschwindigkeit der synthetisierten Sprache, hervorruft.
  • Dementsprechend wird gemäß einem weiteren Aspekt der vorliegenden Erfindung ein Verfahren zur Synthese eines zyklischen Geräuschs zwischen zwei weiteren zyklischen Geräuschen geschaffen, wobei für jedes eine Abfolge von mehreren Zyklen entsprechenden Musterwerten gespeichert ist und das Verfahren die Schritte der Erzeugung interpolierter Schwingungsformmuster, die aus einer Folge von Werten bestehen, die jeweils anhand von zwei Punkten interpoliert werden, jeweils einer anhand entsprechender Abschnitte eines Zyklus jeder der gespeicherten Schwingungsformen; und
    der Erzeugung eines synthetischen Schwingungsformmusters umfaßt und durch
    die Erzeugung von Transformationsdaten, die die Entwicklung der interpolierten Schwingungsform in zeitlicher Nähe zu dem synthetischen Schwingungsformmuster definieren, und
    die Erzeugung eines nachfolgenden Schwingungsformmusters anhand des synthetischen Schwingungsformmusters und der Transformationsdaten gekennzeichnet ist.
  • Daher wird eine Tonhöhenimpulsform allmählich in eine andere transformiert.
  • Weitere Aspekte und bevorzugte Ausführungsformen der Erfindung gehen aus der folgenden Beschreibung und den Ansprüchen hervor.
  • Die Erfindung wird nun nur beispielhaft unter Bezugnahme auf die beiliegenden Zeichnungen dargestellt. Es zeigen:
  • 1 ein Diagramm der Signalamplitude eines (fiktiven) stimmhaften Sprachsignals in bezug auf die Zeit;
  • 2 ein Diagramm der Signalamplitude einer fiktiven zylindrischen Schwingungsform in bezug auf die Zeit, das auf der Grundlage des Verzögerungsverfahrens die Abweichung der Zustandssequenzpunkte darstellt;
  • 3 eine Zustandssequenzraumdarstellung der Punkte gemäß 2;
  • 4 Zustandssequenzraumdarstellung, die die Bahn eines fiktiven stimmhaften Sprachklangs zeigt, der einen Attraktor im Zustandssequenzraum definiert;
  • 5 ein veranschaulichendes Diagramm, das auf einer Formantenübersicht Zustandssequenzraumattraktoren (die den in 4 gezeigten entsprechen) mehrerer unterschiedlicher Vokale zeigt;
  • 6 ein Blockdiagramm, das schematisch den Aufbau eines Sprachsynthesizer gemäß einer ersten Ausführungsform der Erfindung zeigt;
  • 7 ein Ablaufdiagramm, das illustrativ das Verfahren zum Betreiben des Sprachsynthesizers gemäß 6 zeigt;
  • 8 eine Zeitlinie, die illustrativ eine Sprachsequenz und stille Segmente zeigt, aus denen eine sprachliche Äußerung aufgebaut ist;
  • 9a eine Zustandssequenzraumdarstellung, die einen einzigen Zyklus eines fiktiven stimmhaften Klangs und einen Teil eines Zyklus eines daraus synthetisierten synthetischen Klangs zeigt;
  • 9b ein Detail aus 9a;
  • 9c ein Zustandssequenzraumdiagramm, das mehrere Zyklen einer Schwingungsform zeigt; und
  • 9d ein Detail desselben, das die Umgebung zeigt, die einen Punkt eines Zyklus umgibt, dessen Transformation über eine Zeitspanne durch die Ausführungsform gemäß 6 genutzt wird;
  • 10 ein Blockdiagramm, das schematisch die Bauteile einer Vorrichtung zum Ableiten der von der Ausführungsform gemäß 6 verwendeten synthetisierten Daten zeigt;
  • die 11ad die in unterschiedlichen Stufen des Betriebsprozesses der Vorrichtung gemäß 10 erzeugten Daten;
  • 12 ein Ablaufdiagramm, das die Stufen des Betriebs der Vorrichtung gemäß 10 veranschaulicht;
  • 13 ein Zustandssequenzraumdiagramm, das die Wirkung der Transformation über eine Zeitspanne in der Umgebung von 9c illustrativ zeigt;
  • 14 ein Ablaufdiagramm, das den Prozeß des Übergangs von einem Klang zu einem anderen genauer zeigt, der einen Teil des Ablaufdiagramms gemäß 7 bildet;
  • 15 ein veranschaulichendes Diagramm, das die Kombination von zwei Zustandsraumsequenzen zeigt, die während des Prozesses gemäß 14 ausgeführt wird; und
  • 16 ein Ablaufdiagramm, das den Prozeß des Übergangs von einem Klang zu einem anderen gemäß einer zweiten Ausführungsform der Erfindung zeigt.
  • Zustandsraumdarstellung des Sprachsignals
  • Vor einer genauen Beschreibung der Ausführungsformen der Erfindung erfolgt eine kurze Beschreibung der Zustandsraumdarstel lung des gemäß den Ausführungsformen der Erfindung verwendeten (aber an sich beispielsweise aus der Druckschrift „Lyapunov exponents from a time series: a noise-robust extraction algorithm", M Banbrook, G. Ushaw, S. McLaughlin, eingereicht bei IEEE Transactions on Signal Processing, Oktober 1995, auf die bezug genommen werden kann, wenn weitere Einzelheiten erforderlich sind, als Dienstprogramm zur Sprachanalyse bekannten) Sprachsignals.
  • 1 stellt ein Sprachsignal oder genauer einen Teil eines in einem Sprachsignal enthaltenen stimmhaften Klangs dar. Das Signal gemäß 1 kann als aus einer Folge ähnlicher, aber nicht identischer Tonhöhenimpulse p1, p2, p3 bestehend betrachtet werden. Die Form der Tonhöhenimpulse kennzeichnet das Timbre des stimmhaften Klangs, und ihre Dauer kennzeichnet die wahrgenommene Tonhöhe.
  • Gemäß 2 werden zur Erzeugung einer Zustandsraumdarstellung einer Zeitsequenz X mehrere (in diesem Fall drei) Werte der Schwingungsform zu voneinander beabstandeten Zeitpunkten xi–10, xi, xi+10 herangezogen und kombiniert, um einen einzigen Punkt si in einem durch eine entsprechende Anzahl an Achsen definierten Raum darzustellen.
  • Daher wird gemäß den 2 und 3 ein erster Punkt s1 durch die drei Punkte auf der Kurve X repräsentiert, die jeweils Werte (x0, x10 und x20) der Schwingungsform X zu Musterzeitpunkten 0, 10, 20 repräsentieren. Da all diese drei Werte positiv sind, liegt der von ihnen definierte Wert s1 im positiven Oktanten des Raums gemäß 3.
  • Ein weiterer Punkt s2 wird in 2 durch die drei Kreuze auf der Schwingungsform X dargestellt. Dieser Punkt wird durch die drei Werte x1, x11 und x21 definiert. Da diese Werte alle drei positiver als die des Punkts s1 sind, liegt der Punkt s2 in dem Zustandssequenz raum gemäß 3 im gleichen Oktanten und radial weiter außen als der Punkt s1.
  • Ebenso wird durch jeweilige Werte (x2, x12 und x22) der Schwingungsform X zu den Zeitpunkten 2, 12 und 22 ein dritter Punkt s3 definiert. Dieser Punkt ist in 2 durch drei Dreiecke auf der Schwingungsform X dargestellt.
  • Daher wird bei diesem Zeitverzögerungsverfahren zur Konstruktion einer Zustandsraumdarstellung der Zeitsequenz X (d. h. der Sprachschwingungsform) im allgemeinen der entsprechende Punkt si im Zustandssequenzraum für jedes aufeinanderfolgende Zeitmuster xi durch den Wert dieses Punkts xi zusammen mit denen eines vorhergehenden und eines nachfolgenden Punkts xi–j, xi+k repräsentiert (wobei j zweckmäßiger Weise k entspricht und in diesem Fall beide 10 sind).
  • Wenn die Schwingungsform gemäß 2 einfach eine gerade, diagonale Linie wäre, wäre ihre Darstellung im Zustandsraum gemäß 3 ebenfalls eine gerade Linie.
  • Bei einer sich wiederholenden Zeitsequenz des in 1 oder 2 gezeigten Typs veranlassen jedoch Wendepunkte in der Schwingungsform, daß die entsprechende Abfolge von Punkten im Zustandsraum eine Bahn beschreibt, die sich ebenfalls wendet und einer im wesentlichen geschlossenen Schleife folgt, um in die Nähe ihres Anfangspunkts zurückzukehren. Da die relativen Werte der Punkte xi, xi–j, xi+k einander in aufeinanderfolgenden Zyklen der zeitlichen Abfolge, die sie repräsentieren, stark ähneln, beschreibt die Zustandsraumdarstellung einer Folge von N Zyklen (beispielsweise Tonhöhenimpulsen p1–pn) einer Schwingungsform gemäß 4 über den Zustandssequenzraum eine kontinuierliche Bahn, wobei sie N sehr ähnliche Kreise ausführt, wodurch eine kreisförmige, multidimensionale Oberfläche oder Vervielfachung definiert wird, die N Stränge oder Spuren enthält. Die Oberfläche, die durch eine unendliche Anzahl derartiger Zyklen erzeugt würde, wird als „Attraktor" der Schwingungsform X bezeichnet, die ihre Ursache ist.
  • Der Attraktor gemäß 4 besteht aus einer Doppelschleife (die sich, wie in der Projektion angedeutet, selbst zu kreuzen scheint, was jedoch in drei Dimensionen tatsächlich nicht der Fall ist).
  • Gemäß 5 haben wir festgestellt, daß jeder stimmhafte Klang einen Attraktor dieser Art hervorruft, von denen jeder in einem dreidimensionalen Zustandsraum adäquat dargestellt werden kann, obwohl es auch möglich ist, nur zwei Dimensionen oder sogar vier, fünf oder mehr zu verwenden. Die wesentlichen Parameter für eine effektive Darstellung artikulierter Klänge in einem derartigen Zustandsraum sind die ausgewählte Anzahl an Dimensionen und die Zeitverzögerung zwischen den aufeinander folgenden Mustern.
  • Wie in 5 gezeigt, in der die Achsen, über die die Attraktoren verteilt sind, f1 (die Frequenz des ersten Formanten) und f2 – f1 sind (wobei f2 die Frequenz des zweiten Formanten ist), unterscheiden sich die Formen der Attraktoren (mit den entsprechenden Formen der Sprachschwingungsformen, denen sie entsprechen) erheblich, obwohl ein gewisse Beziehung zwischen den Topologien der jeweiligen Attraktoren und den Klängen vorliegt, denen sie entsprechen.
  • Die vorstehende Diskussion betrifft stimmhafte Klänge (wie Vokale und stimmhafte Konsonanten). Es ist natürlich möglich, eine Zustandssequenzdarstellung jeder Schwingungsform zu erzeugen, doch bei stimmlosen Klängen (beispielsweise Reiblauten) folgt die Zustandsraumdarstellung nicht aufeinander folgenden, sehr ähnlichen Schleifen mit gut definierter Topologie, sondern statt dessen einer Bahn, die in einer anscheinend zufälligen Art ein Volumen im Zustandssequenzraum durchläuft.
  • Überblick über die erste Ausführungsform der Erfindung
  • Gemäß 6 umfaßt ein Sprachsynthesizer gemäß einer ersten Ausführungsform der Erfindung einen über den analogen Ausgang eines Digital-Analog-Wandlers 4 versorgten Lautsprecher 2, der mit einem Ausgangsanschluß einer Zentraleinheit 6 gekoppelt ist, die mit einem Speichersystem 8 (das einen von der CPU 6 bei Berechnungen verwendeten Direktzugriffsspeicher 8a, einen Programmspeicher 8b zur Speicherung des CPU-Betriebsprogramms und einen Datenkonstantenspeicher 8c zur Speicherung von Daten zur Verwendung bei der Synthese umfaßt) verbunden ist.
  • Die Vorrichtung gemäß 6 kann zweckmäßiger Weise durch einen Personal Computer und eine Audiokarte, wie einen Elonex (TM) Personal Computer mit einem 33 MHz Intel 486 Mikroprozessor als CPU 6 und einer Ultrasound Max (TM) Audiokarte, die den Digital-Analog-Wandler 4 bildet, sowie einen Ausgang zu einem Lautsprecher 2 gebildet werden. Statt dessen kann jeder beliebige andere digitale Prozessor mit ähnlicher oder höherer Leistung verwendet werden.
  • Zweckmäßiger Weise umfaßt das Speichersystem 8 eine Massenspeichervorrichtung (beispielsweise eine Festplatte), die das Betriebsprogramm und Daten zur Verwendung bei der Synthese enthält, und einen Direktzugriffsspeicher mit abgeteilten Bereichen 8a, 8b, 8c, wobei das Programm und die Daten vor der Verwendung der Vorrichtung gemäß 6 jeweils in die beiden zuletzt genannten Bereiche geladen werden.
  • Die im Speicher 8c für die gespeicherten Daten gehaltenen gespeicherten Daten umfassen einen Satz Aufzeichnungen 10a, 10b, ... 10c, die jeweils ein kleines Segment eines Worts repräsentieren, das unabhängig von seinem Kontext in einem Wort oder einem Satzteil als eindeutig erkennbar betrachtet werden kann (d. h. jedes von ihnen entspricht einem Phonem oder Allophon). Die Phoneme können durch jedes einer Reihe unterschiedlicher phonetischer Alphabete dargestellt werden; bei dieser Ausführungsform wird das (in A.Breen, „Speech Synthesis Models: A Review", Elektronics and Communication Engineering Journal, Seiten 19–31, Februar 1992 offenbarte) SAMPA (Speech Assessment Methodology Phonetic Alphabet) verwendet. Jede der Aufzeichnungen umfaßt eine jeweilige Schwingungsformaufzeichnung 11, die (beispielsweise mit 20 kHz aufgenommene) aufeinanderfolgende digitale Werte der Schwingungsform einer tatsächlichen Äußerung des betreffenden Phonems als aufeinanderfolgende Muster x1, x2, ..., xN umfaßt.
  • Zudem enthält jede der Aufzeichnungen 10 eines stimmhaften Klangs (d. h. der Klänge der Vokale und der stimmhaften Konsonanten des phonetischen Alphabets) eine durch neun gespeicherte konstante Werte definierte Transformationsmatrix für jedes gespeicherte Muster xi.
  • Daher enthält der Datenspeicher 8c (abhängig von dem gewählten phonetischen Alphabet) in etwa dreißig bis vierzig Aufzeichnungen 10, von denen jede aus etwa einer halben Sekunde aufgezeichneter digitaler Schwingungsformen besteht (d. h. bei einer Abtastung mit 20 kHz ca. zehntausend Muster xi, wobei jede der Musteraufzeichnungen für stimmhafte Klänge eine zugehörige Transformationsmatrix aus neun Elementen aufweist). Das für den Datenspeicher 8c erforderliche Volumen ist daher ((9 + 1)·10.000·40 = 400.000) 16-Bit-Speicherplätze.
  • Die Art und Weise, in der der Inhalt des Datenspeichers 8c abgeleitet wird, wird nachstehend genauer beschrieben.
  • Wie in 8 dargestellt, besteht eine durch den Sprachsynthesizer zu synthetisierende Äußerung aus einer Sequenz von Abschnitten mit einer jeweiligen zugehörigen Dauer und enthält einen stillen Teil 14a, dem ein Wort folgt, das eine Sequenz von Abschnitten 14b14f umfaßt, von denen jeder aus einem Phonem mit einer vorgegebenen Dauer besteht, worauf ein weiterer stiller Abschnitt 14g folgt, dem ein weiteres Wort folgt, das aus Phonemabschnitten 14h14j mit jeweils einer entsprechenden Dauer besteht, etc. Die Sequenz von Phonemen wird zusammen mit der entsprechenden Dauer entweder gespeichert oder nach einem von mehreren allgemein bekannten Regelsystemen abgeleitet, die keinen Teil der vorliegenden Erfindung bilden, sondern im Steuerprogramm enthalten sind.
  • Gemäß 7 wird nun die Funktionsweise des Steuerprogramms der CPU 6 genauer beschrieben.
  • Entsprechend einer so bestimmten Sequenz wählt die CPU 6 in einem Schritt 502 eine erste Klangaufzeichnung 10 aus, die einem der Phoneme der in 8 dargestellten Sequenz entspricht.
  • In einem Schritt 504 führt die CPU 6 einen Übergang zu dem Klang aus, wie nachstehend genauer beschrieben.
  • In einem Schritt 506 wählt die CPU 6 einen Anfangspunkt für die Synthese der Phonemschwingungsform x'i aus. Gemäß 9 besteht die Auswahl des Anfangspunkts für die Synthese aus zwei Stufen. Zunächst wählt die CPU 6, wie nachstehend genauer besprochen, als Ergebnis des Ablaufs von Schritt 504 einen Punkt xi auf der gespeicherten Schwingungsform aus. Der nächste Schritt ist dann die Auswahl eines neuen Punkts, der zufällig innerhalb eines Bereichs in der Nähe des bereits ausgewählten Punkts im Zustandssequenzraum angeordnet ist.
  • Gemäß 9b ist der als letztes gespeicherte Punkt, auf den von der CPU 6 zugegriffen wird (und der als synthetisierter Klang an den Analog-Digital-Wandler 4 und damit an den Lautsprecher 2 ausgegeben wird) beispielsweise ein Punkt x2 1 mit einem entsprechenden Punkt s2 1 im Zustandsraum; und in einem Schritt 506 wird ein erster synthetisierter Anfangspunkt s'i in der Nähe von s2 1 ausgewählt.
  • Der Mechanismus zur Auswahl eines nahegelegenen Punkts kann wie folgt sein:
    • 1. Der erste Punkt si im Zustandssequenzraum wird durch Lesen der Werte xi, xi–10 und xi+10 gefunden.
    • 2. Der nächste Punkt si+1 auf der Bahn im Zustandssequenzraum wird durch den Zugriff auf die Werte xi+1, xi+11 und xi–9 gefunden.
    • 3. Der Euklid'sche Abstand (d. h. der Effektivwert) zwischen den beiden Punkten si, si+1 im Zustandssequenzraum wird berechnet.
    • 4. Ein pseudozufälliger Sequenzalgorithmus wird verwendet, um die Zufallskoordinaten eines um einen Euklid'schen Abstand zwischen Null und dem so berechneten Abstand vom Punkt si beabstandeten Punkts s'i im Zustandsraum zu erzeugen.
  • Nachdem so im Bereich des letzten tatsächlich ausgegebenen Punkts (in diesem Fall x21) ein erster synthetisierter Anfangspunkt s'i in der Nähe, aber nicht auf einem Strang der durch die gespeicherten Musterwerte markierten Zustandsraumbahn bestimmt wurde, bestimmt die CPU 6 in einem Schritt 508 den am nächsten bei dem neu synthetisierten Punkt s'1 gelegenen Punkt auf der gespeicherten Bahn.
  • Sehr häufig ist der im Schritt 508 ausgewählte nächstgelegene Punkt tatsächlich der letzte Punkt auf dem aktuellen Strang (in die sem Fall s21). Er kann jedoch statt dessen (wie in diesem Fall, in dem s22 näher liegt) einem der nächsten Nachbarn auf diesem Strang oder einem anderen Strang der Bahn entsprechen, wenn dieser im Zustandssequenzraum in einem geringen Abstand angeordnet ist, wie in 9c dargestellt.
  • Nachdem der zunächst gelegene Punkt auf der aus den gespeicherten Schwingungsformpunkten xi aufgebauten, gespeicherten Bahn auf diese Weise bestimmt wurde, berechnet die CPU 6 in einem Schritt 510 den Versatzvektor von dem im Schritt 508 so ausgewählten zunächst gelegenen Punkt auf der gespeicherten Bahn zum synthetisierten Punkt s'1. Der so berechnete Versatzvektor bi ist daher ein Drei-Element-Vektor.
  • Als nächstes wird von der CPU 6 in einem Schritt 512 durch Lesen der im Zusammenhang mit dem vorhergehenden Punkt xi (in diesem Fall im Zusammenhang mit dem Punkt x22) gespeicherten Matrix Ti und Multiplizieren derselben mit der Transposition des ersten Versatzvektors bi (in diesem Fall b1) der nächste Versatzvektor bi+1 (in diesem Fall b2) berechnet.
  • Danach wählt die CPU 6 in einem Schritt 514 den nächsten gespeicherten Punkt si+1 auf der Bahn, in diesem Fall den (durch die Werte x23, x13 und x33 definierten) Punkt s23 aus.
  • In einem Schritt 516 wird durch Addieren des neu berechneten Versatzvektors bi+1 zum nächsten Punkt si+1 auf der Bahn der nächste synthetisierte Sprachpunkt (s'i+1) berechnet.
  • Dann wird der mittlere Wert x'i+1 des neu synthetisierten Punkts s'i+1 an den Digital-Analog-Wandler 4 und den Lautsprecher 2 ausgegeben.
  • Im Schritt 520 bestimmt die CPU 6, ob die erforderliche, vorgegebene Dauer des synthetisieren Phonems erreicht ist. Wenn nicht, kehrt die CPU 6 zum Schritt 508 des Steuerprogramms zurück und bestimmt den dem zuletzt synthetisierten Punkt am nächsten liegenden neuen Punkt auf der Bahn. In vielen Fällen kann er mit dem Punkt si+1 übereinstimmen, anhand dessen der synthetisierte Punkt selbstberechnet wurde, doch dies ist nicht notwendiger Weise der Fall.
  • Daher kann die CPU 6 anhand der gespeicherten Schwingungsformwerte xi und der Transformationsmatrizen Ti eine (in den 9a und 9b als gestrichelte Bahn im Zustandssequenzraum dargestellte) sprachartige Schwingungsform synthetisieren, indem sie dem Prozeß der Schritte 506518 folgt.
  • Die Länge der synthetisieren Sequenz hängt weder in irgend einer Weise von der Anzahl der gespeicherten Werte ab, noch gibt die synthetisierte Sequenz irgendeinen Teil der gespeicherten Sequenz genau wieder.
  • Statt dessen hängt jeder Punkt der synthetisierten Sequenz sowohl von dem vorhergehenden Punkt der synthetisierten Sequenz als auch von den (im Zustandssequenzraum) zunächst gelegenen anderen Punkten der gespeicherten Sequenz und der Transformationsmatrix des zunächst gelegenen Punkts der gespeicherten Sequenz ab.
  • Daher unterscheidet sich aufgrund der zufälligen Auswahl des Anfangspunkts im Schritt 506 die erzeugte synthetische Schwingungsform von einem Syntheseprozeß zum anderen.
  • Wenn in einem Schritt 520 der vorgegebene Endpunkt des betreffenden Phonems erreicht ist, bestimmt die CPU 6 in einem Schritt 522, ob das Ende der gewünschten Sequenz (wie beispielsweise in 8 gezeigt) erreicht ist, und wenn dies der Fall ist, veranlaßt die CPU 6 (wie nachstehend genauer besprochen) in einem Schritt 524 die Fortsetzung der Ausgangssequenz durch Stille.
  • Wenn nicht, wählt die CPU 6 den nächsten Klang in der Sequenz aus (Schritt 525) und bestimmt in einem Schritt 526, ob der nächste Klang stimmhaft ist oder nicht. Ist der nächste Klang stimmhaft, kehrt die CPU 6 zum Schritt 502 gemäß 7 zurück, wogegen sie, wenn der nächste Klang stimmlos ist, in einem Schritt 528 (wie nachstehend genauer beschrieben) mit dem gewählten stimmlosen Klang fortfährt, der dann (wie nachstehend genauer beschrieben) in einem Schritt 530 reproduziert wird. Die CPU 6 kehrt dann zum Schritt 522 gemäß 7 zurück.
  • Berechnung der Transformationsmatrix
  • Gemäß 10 umfaßt eine Vorrichtung zum Ableiten der gespeicherten Muster- und Transformationsprotokolle 10 ein Mikrophon 22, einen Analog-Digital-Wandler 24, eine CPU 26 und eine Speichervorrichtung 28 (die beispielsweise von einer Massenspeichervorrichtung, wie einem Plattenlaufwerk, und einem Direktzugriffsspeicher gebildet wird) mit einem Arbeitspufferspeicher 28a und einem Programmspeicher 28b.
  • Natürlich können die CPU 26 und die Speichervorrichtung 28 physisch in dem Sprachsynthesizer enthalten sein, wie in 6 gezeigt, doch es ist offensichtlich, daß dies nicht der Fall sein muß, da die Daten, die den Sprachsynthesizer gemäß 6 kennzeichnen, vor dem Syntheseprozeß und unabhängig von diesem abgeleitet werden.
  • Zweckmäßiger Weise tastet der Analog-Digital-Wandler 24 die analoge Sprachschwingungsform von dem Mikrophon 22 mit einer Frequenz von ca. 20 kHz und einer Genauigkeit von 16 Bit ab.
  • Unter Bezugnahme auf die 11 und 12 wird nun die Funktionsweise der Vorrichtung gemäß 10 beschrieben. Wäh rend ein menschlicher Sprecher einen gewünschten Klang (beispielsweise einen Vokal) einmal ausspricht, tasten die CPU 26 und analog dazu der Analog-Digital-Wandler 24, wie in 11a gezeigt, in einem Schritt 602 die so am Ausgang des Mikrophons 22 erzeugte Schwingungsform ab und speichern aufeinanderfolgende Muster (beispielsweise ca. 10.000 Muster, was in etwa einer halben Sekunde Sprache entspricht) im Arbeitsspeicherbereich 28a.
  • Als nächstes normiert die CPU 26 in einem Schritt 604 durch Bestimmen des Beginns und des Endes jeder Tonhöhenimpulsperiode (dargestellt in 1) beispielsweise durch Bestimmen der Nulldurchgangspunkte und anschließendes Ausgleichen der Anzahl der Proben in jeder Tonhöhenperiode (beispielsweise 140 Muster in jeder Tonhöhenperiode) durch Interpolation zwischen den ursprünglich gespeicherten Mustern die Tonhöhe der aufgezeichneten Äußerung.
  • Durch eine derartige Normierung besteht die gespeicherte Schwingungsform daher nun aus Tonhöhenimpulsen aus jeweils der gleichen Anzahl von Mustern. Diese werden dann zur Verwendung bei einer nachfolgenden Synthese als Musteraufzeichnung 11 der Aufzeichnung 10 des betreffenden Klangs gespeichert (Schritt 606).
  • Als nächstes wird in einem Schritt 608 die lineare Anordnung von Proben x0, x1, ... in eine Anordnung dreidimensionaler Koordinatenpunkte s0, s1, ... umgewandelt, wobei jeder Koordinatenpunkt si den drei Proben xi–10, xi, xi+10 entspricht, um das Sprachsignal in einen Zustandssequenzraum einzubetten (d. h. in einem Zustandssequenzraum darzustellen), wie in 11b dargestellt.
  • Dann wird der erste Koordinatenpunkt ausgewählt.
  • Die Bahn der Punkte durch den Zustandssequenzraum wiederholt sich im wesentlichen, wie unter Bezugnahme auf die 3 und 4 besprochen. Daher besteht die Bahn an jedem Punkt aus einer Reihe nahe beieinander liegender „Stränge" oder „Spuren", die jeweils aus dem äquivalenten Teil eines anderen Tonhöhenimpulses bestehen.
  • Gemäß Schritt 610 gilt für jeden ausgewählten Punkt si (in diesem Fall den ersten Punkt s10), daß sich andere Punkte auf andern Spuren des Attraktors befinden, die im Zustandssequenzraum nahe bei dem ausgewählten Punkt si liegen. Wie in 11c gezeigt, liegen beispielsweise die Punkte s13 und s14 auf einer ersten Spur und s153 und s154 auf einer zweiten Spur nahe am Punkt s10. Dementsprechend lokalisiert die CPU 26 in einem Schritt 610 sämtliche Punkte auf andern Spuren (d. h. in anderen Tonhöhenperioden), die im Zustandssequenzraum näher als in einem vorgegebenen Abstand D liegen (wobei D zur Vereinfachung der Berechnung der Euklid'sche Abstand bzw. der quadratische Mittelwertabstand ist). Um eine Durchsuchung und einen Abstandsvergleich aller 10.000 gespeicherten Punkte zu vermeiden, kann die CPU 26 ausschließlich einen begrenzten Bereich von Punkten, beispielsweise die im Bereich von s(i+/·5–k·140 untersuchen, wobei k eine natürliche Zahl ist und bei diesem Beispiel 140 Muster in einer Tonhöhenperiode vorgesehen sind, wodurch grob dem Bereich, in dem sich der Bezugspunkt si befindet, entsprechende Bereiche jedes Tonhöhenimpulses untersucht werden.
  • Nach der Lokalisierung einer Gruppe von Punkten auf anderen Spuren als auf der des Bezugspunkts si speichert die CPU 26 dann in einem Schritt 612 eine Umgebungsanordnung Bi aus Vektoren bi, wie in den 11 d gezeigt. Jeder der Vektoren bi der Anordnung Bi ist ein Vektor vom Bezugspunkt si zu einem der anderen, benachbarten Punkte auf einer anderen Spur des Attraktors, wie in den 11 und 13 gezeigt. Ein durch die Umgebungsmatrix Bi repräsentierter Satz derartiger Vektoren liefert eine Darstellung der lokalen Form des Attraktors um den Bezugspunkt si, die, wie noch weiter ausgeführt wird, verwendet werden kann, um zu bestimmen, wie sich die Form des Attraktors ändert.
  • Als nächstes wählt die CPU 26 in einem Schritt 614 entlang der gleichen Spur wie der des ursprünglichen Bezugspunkts si den nächsten Punkt si+1 aus.
  • Als nächstes schreitet die CPU 26 in einem Schritt 616 auf jeder der anderen Spuren des Attraktors um einen Punkt vorwärts, um in einem Schritt 616 die entsprechenden Punkte auf den anderen Spuren zu lokalisieren, die die neue Umgebung des neuen Bezugspunkts si+1 bilden. In einem Schritt 618 berechnet die CPU 26 die entsprechende Umgebungsvektorenanordnung Bi+1.
  • Da sich die Tonhöhenimpulse der aufgezeichneten Äußerungen geringfügig voneinander unterscheiden, unterscheiden sich auch die entsprechenden, durch die aufgezeichneten Muster markierten Spuren der Attraktorbahn geringfügig voneinander. An einigen Punkten liegen die Spuren näher beieinander, und an einigen Punkten divergieren sie mehr.
  • Daher hat der neue Satz Bi+1 Versatzvektoren bi+1 eine veränderte Position, hat sich etwas gedreht (da die Attraktoren eine Schleife bilden) und hat im allgemeinen auch andere Längen als der vorherige Satz Bi Vektoren bi. Daher wird bei der Progression um die Attraktorspur von einem Muster zum nächsten der Satz Bi aus den Vektoren b1 i, b2 i (und damit die Form des Attraktors, den sie repräsentieren, selbst) nacheinander durch den Versatz, die Drehung und Skalierung transformiert.
  • Als nächstes wird in einem Schritt 620 die Transformationsmatrix Ti berechnet, die den Vektorensatz Bi, der den Attraktor in der Umgebung des Punkts si definiert, in den Vektorensatz Bi+1 transfor miert, der die Umgebung des Attraktors im Bereich des Bezugspunkts si+1 definiert. Die Matrix ist daher wie folgt definiert: BT i–1 = Ti Bi T
  • Dies kann wie folgt neu umformuliert werden: Ti T = Bi –1 Bi+1
  • Da Bi eine d·3-Matrix ist (wobei d die Anzahl der verwendeten Versatzvektoren ist, die größer als 3 sein kann), hat Bi im allgemeinen keine exakte Umkehrung Bi –1, doch statt dessen kann die Pseudoumkehrung berechnet werden, wie in Moore and Penrose, „A generalised inverse for matrices", Proc. Camb. Phil. Soc., Bd. 51, Seiten 406 – 413, 1955 beschrieben.
  • Die so berechnete 3·3-Transformationsmatrix Ti ist eine Annäherung an die Transformation jedes der Vektoren, die die Umgebungsmatrix Bi bilden. Da jedoch die Umgebung im Zustaridssequenzraum klein ist und da Sprache über kleine Zeitintervalle lokal linear ist, ist die Annäherung sinnvoll.
  • Als nächstes wählt die CPU 26 in einem Schritt 622 den nächsten Punkt si+1 als neuen Bezugspunkt aus und kehrt zum Schritt 610 zurück.
  • Daher werden nach der Ausführung des Prozesses gemäß den Schritten 610 bis 622 für jeden der den digitalisierten Sprachmusterwerten xi entsprechenden Punkte si sämtliche so berechneten Transformationsmatrizen zusammen mit den jeweiligen, den Bezugspunkten si, für die die Matrix abgeleitet wurde, entsprechenden Datenwerten xi in einer Datenaufzeichnung 12 gespeichert (Schritt 624).
  • Daher repräsentieren die gespeicherten Transformationsmatrizen Ti am Ende des Prozesses gemäß 12 jeweils, was bei der Vorwärtsbewegung eines Musters längs des Attraktors mit einem Versatzvektor bi von dem Punkt auf einem Attraktor, für den die Transformationsmatrix berechnet wurde, zu einem anderen, nahegelegenen Punkt im Raum geschieht. Damit ist ersichtlich, wie die Verwendung der so berechneten Transformationsmatrizen gemäß 7 den Aufbau eines neuen, synthetisierten Punkts auf dem Attraktor unter Verwendung einer tatsächlichen Bahn, die einen Teil des Attraktors bildet, eines vorher synthetisierten Punkts (und damit eines vorherigen Vektors von der gespeicherten Bahn zu diesem vorher synthetisierten Punkt) und der Transformationsmatrix selbst ermöglicht.
  • Die vorstehende Beschreibung betrifft die Ableitung gespeicherter Daten für die Synthese eines stimmhaften Klangs. Zur Speicherung der stimmlose Klänge betreffenden Daten werden nur die Schritte 602 und 606 ausgeführt, da die Speicherung der Transformationsmatrix nicht erforderlich ist.
  • Nach der vorstehend beschriebenen Ableitung der erforderlichen Daten für jeden stimmhaften und stimmlosen Klang im phonetischen Alphabet werden die gespeicherten Daten (entweder über eine Kommunikationsverbindung oder über einen entnehmbaren Träger wie eine Diskette) an den Speicher 8 der Synthesevorrichtung gemäß 6 übertragen.
  • Die Wiedergabe stimmloser Klänge
  • Im Zusammenhang mit dem Schritt 530 wird die Wiedergabe stimmloser Klänge erwähnt. Wie vorstehend besprochen, zeigen stimmlose Klänge kein stabiles, niederdimensionales Verhalten, und daher folgen sie keinen regelmäßigen, sich wiederholenden Attraktoren im Zustandssequenzraum, und die Synthese eines Attraktors, wie den vorstehend beschriebenen, ist daher instabil. Dementsprechend werden stimmlose Klänge gemäß dieser Ausführungsform durch die einfache, aufeinanderfolgende Ausgabe der für den stimmlosen Klang gespeicherten Schwingungsformwerte xi an den Digital-Analog-Wandler 4 erzeugt. Das gleiche gilt für Verschlußlaute.
  • Der Übergang zu Klängen
  • In Bezug auf die Schritte 504, 524 und 528 gemäß 7 wurde der Übergang zu bzw. zwischen Klängen erwähnt. Eine mögliche, für die vorstehend beschriebene Ausführungsform nutzbare Art des Übergangs wird nun genauer beschrieben.
  • Bezug nehmend auf die 14 und 15 stellt 14 die Schritte dar, die den Schritt 504 bzw. den Schritt 528 gemäß 7 bilden, wogegen 15 ihre Wirkung graphisch darstellt.
  • Allgemein ausgedrückt interpoliert die vorliegende Erfindung zwischen zwei Schwingungsformen im Zustandssequenzraum, die jeweils einen Klang repräsentieren. Die Zustandsraumdarstellung ist nützlich, wenn eine oder beide Schwingungsformen, zwischen denen die Interpolation erfolgt, synthetisiert werden (d. h. wenn eine oder beide stimmhafte Schwingungsformen sind). Allgemein ausgedrückt werden bei dieser Ausführungsform die synthetisierten Punkte im Zustandsraum abgeleitet, und dann wird der interpolierte Punkt zwischen ihnen berechnet; tatsächlich ist es, wie nachstehend besprochen, nur erforderlich, auf einer Koordinatenachse zu interpolieren, so daß die Zustandsraumdarstellung bei dem tatsächlichen Interpolationsprozeß keine Rolle spielt.
  • Die Interpolation wird durch progressives, lineares Verändern des Euklid'schen Abstands zwischen den beiden Schwingungsformen im Zustandssequenzraum über mehr als einen Tonhöhenimpulszyklus (beispielsweise über 10 Zyklen) ausgeführt.
  • Daher werden die Koordinaten eines gegebenen Punkts sc m während des Übergangs zwischen stimmhaften Klängen, wie in 15 dargestellt, von den Koordinaten eines Synthesepunkts auf dem Attraktor des ersten Klangs sa k im Zustandssequenzraum und einem entsprechenden Punkt auf dem Attraktor des zweiten Klangs sb i abgeleitet.
  • Genauer wird gemäß 14 in einem Schritt 702 ein Index j initialisiert (beispielsweise bei Null).
  • Im Schritt 704 wird der aktuelle Wert des synthetisierten Attraktors auf der ersten Schwingungsform s'a k berechnet, wie vorstehend unter Bezugnahme auf 7 besprochen.
  • In einem Schritt 706 tastet die CPU 6 die aufgezeichneten Musterwerte nach dem zweiten Klang ab, zu dem übergegangen werden soll, und lokalisiert (beispielsweise durch Bestimmen der Nulldurchgangspunkte) das Muster si b an der gleichen relativen Position innerhalb einer Tonhöhenperiode der zweiten Schwingungsform als Punkt sk a. Anders ausgedrückt wird, wenn der Punkt sk a auf der ersten Schwingungsform der 30. Punkt ab dem Nulldurchgang innerhalb einer Tonhöhenperiode des ersten Klangs ist, als Punkt si b ebenfalls der 30. Punkt hinter dem Nulldurchgang einer Tonhöhenperiode des zweiten Klangs ausgewählt.
  • Dann wird ein synthetisierter Attraktorpunkt s'i b berechnet, wie vorstehend unter Bezugnahme auf 7 beschrieben.
  • Als nächstes werden in einem Schritt 708 durch lineare Interpolation die Koordinaten eines interpolierten Punkts sm c berechnet. Es ist nur erforderlich, eine Dimension des interpolierten Attraktors zu berechnen, da lediglich eine Synthese des aktuellen Ausgangsmusterwerts, nicht des Musterwerts zehn Muster zuvor oder zehn Muster in der Zukunft gewünscht wird. Daher ist die im Schritt 708 tatsächlich ausgeführte Interpolationsberechnung: x'c m+j = ((N – j)·x'a k+j + j·x'b 1+j)/Nwobei N die Anzahl der Muster ist, über die die Interpolation vorgenommen wird, j ein Index von 0 bis N ist und k, 1 und m die (bei der Interpolation verwendeten) Musterwerte jeweils des Attraktors des ersten Klangs, des Attraktors des zweiten Klangs und der dazwischen liegenden Zustandsraumsequenz bezeichnen.
  • Dann gibt die CPU in einem Schritt 709 den so berechneten aktuellen Musterwert x'c i zur Synthese an den Digital-Analog-Wandler und damit an den Lautsprecher 2 aus.
  • In einem Schritt 710 überprüft die CPU 6, ob das Ende einer vorgegebenen Übergangsdauer (von beispielsweise 400 Mustern, so daß N = 400 gilt) erreicht ist, und wenn dies nicht zutrifft, wird in einem Schritt 712 der Index j inkrementiert und die Schritte 704, 706 und 708 werden wiederholt, um die nächsten Werte des synthetisierten Attraktors (s'a k+j) und des Attraktors des neuen Klangs s'b i+j zu berechnen und den nächsten Musterwert für die Ausgabe abzuleiten.
  • Wenn im Schritt 710 das letzte Muster des Übergangs, j = N, erreicht ist, fährt die CPU 6 mit dem Schritt 506 oder 530 fort, wie vorstehend im Zusammenhang mit 7 besprochen, um den dem Attraktor des zweiten Klangs entsprechenden neuen Klang zu synthetisieren.
  • Der vorstehend beschriebene Prozeß ist gleichermaßen anwendbar, wenn ein Übergang aus einem Schweigen zu einem gespeicherten, repräsentativen Klang auftritt. In diesem Fall liest die CPU 6 einen entsprechenden Wert null, statt eine Wert s'a i zu berechnen, so daß die entsprechende Wirkung einfach ein lineares Abklingen zu dem erforderlichen synthetisierten Klang ist.
  • Ebenso wird bei einem Übergang von einem Klang zur Stille wie im Schritt 524 die gleiche Sequenz ausgeführt, wie vorstehend unter Bezugnahme auf 14 beschrieben, mit der Ausnahme, daß die CPU 6 Nullwerte einsetzt, um ein lineares Abklingen zur Stille auszuführen, statt aufeinanderfolgende synthetisierte Werte des Attraktors des zweiten Klangs zu berechnen.
  • Übergang zu und von stimmlosen Klängen
  • Der vorstehend unter Bezugnahme auf 14 beschriebene Übergangsprozeß wird beim Übergang zu und von einem stimmlosen Klang verändert, da anstelle einer Synthese des stimmlosen Klangs der tatsächlich gespeicherte Wert des stimmlosen Klangs wiedergegeben wird. Dementsprechend spielt der Zustandssequenzraum beim Übergang von einem stimmlosen Klang zum anderen keine Rolle, da es lediglich nötig ist, zwischen entsprechenden aufeinanderfolgenden Punktepaaren des alten stimmlosen Klangs und des neuen stimmlosen Klangs zu interpolieren. Auf die gleiche Weise wird beim Übergang zwischen einem stimmlosen Klang und einem Schweigen ein lineares Abklingen auf oder von dem Wert aufeinanderfolgender Punkte des stimmlosen Klangs ausgeführt.
  • Zweite Ausführungsform
  • Anstelle einer Speicherung der Transformationsmatrix für jeden Punkt wird die Transformationsmatrix bei der zweiten Ausführungsform an jedem neu synthetisierten Punkt direkt berechnet; in diesem Fall enthält der Synthesizer gemäß 6 die Funktionalität der Vorrichtung gemäß 10. Eine derartige Berechnung verringert den erforderlichen Speicherplatz um etwa eine Größenordnung, obwohl eine höhere Verarbeitungsgeschwindigkeit erforderlich ist.
  • Bei dieser Ausführungsform ist anstelle einer direkten Interpolation zwischen Musterwerten zur Erzeugung von Ausgangsmusterwerten, wie vorstehend im Zusammenhang mit der ersten Ausführungsform beschrieben, eine Interpolation zur Erzeugung von Zwischenattraktorsequenzen und entsprechenden Transformationsmatrizen möglich, die die Dynamik der Zwischentransformationssequenzen beschreiben. Dies ergibt dadurch eine größere Flexibilität, daß es möglich ist, die Erzeugung der Zwischenklänge über eine so lange Zeitspanne zu verlängern, wie erforderlich.
  • Gemäß 16 wird bei dieser Ausführungsform in einem Schritt 802 ein erster Zähler i initialisiert. Der Zähler i stellt die Anzahl der erzeugten Zwischenschablonen ein und hat vorzugsweise eine Länge, die mehreren Tonhöhenzyklen entspricht (anders ausgedrückt beträgt N, der maximale Wert von i, ca. 300–400).
  • In einem Schritt 804 wird der Wert eines weiteren Zählers j initialisiert; er entspricht der Anzahl der gespeicherten Punkte auf jeder der beiden gespeicherten Schwingungsformen (und sein Maximum, M, liegt daher typischer Weise bei ca. 10.000).
  • In einem Schritt 806 wird ein entsprechendes Punktepaar sa k, sb 1 aus den gespeicherten Schwingungsformaufzeichnungen 10 gelesen, wie im Zusammenhang mit der ersten Ausführungsform beschrieben, wobei die Punkte passenden Teilen der jeweiligen Tonhöhenimpulszyklen der beiden Schwingungsformen entsprechen.
  • Als nächstes wird in einem Schritt 808 ein interpolierter Punkt sc m berechnet, wie im Zusammenhang mit der ersten Ausführungsform beschrieben.
  • Wenn der letzte Punkt auf den Schwingungsformen noch nicht erreicht ist (Schritt 810), wird in einem Schritt 812 der Wert des Zäh lers j entlang den Schwingungsformen hochgezählt, und die Schritte 806810 werden wiederholt.
  • Daher ist nach der Ausführung der Schritte 804812 für jeden gespeicherten Punkt ca. eine halbe Sekunde einer Zwischenschwingungsform berechnet, die eine sich wiederholende Bahn im Raum definiert.
  • Dann führt die CPU 6 in einem Schritt 814 zur Berechnung der Transformationsmatrizen Tk für jeden Punkt entlang der gespeicherten Bahn die Schritte 610622 gemäß 12 aus.
  • Nach der Ausführung des Schritts 814 sind ausreichend Informationen (in Form einer gespeicherten, interpolierten Bahn und gespeicherter interpolierter Transformationsmatrizen) zur Synthese einer Schwingungsform jeder gewünschten Länge anhand der Zwischenbahn verfügbar. Tatsächlich werden die so berechneten Daten in einem Schritt 816 jedoch nur zur Ableitung eines einzigen neuen Punkts s'i+1 im Zustandssequenzraum durch Transformation des vorherigen, zuletzt ausgegebenen Werts s'i verwendet.
  • Der so als Teil von s'i+1 berechnete Musterwert x'i+1 wird im Schritt 818 ausgegeben, und bis das Ende des Übergangsabschnitts erreicht ist (Schritt 820), wird der Interpolationsindex i hochgezählt (Schritt 822), und die CPU 6 kehrt zum Schritt 804 zurück, um die nächste interpolierte Bahn und den Dynamiksatz Tk und somit den nächsten auszugebenden Punkt zu berechnen.
  • Es ist offensichtlich, daß tatsächlich weniger interpolierte Sätze von Bahnen und Sätze von Transformationsmatrizen berechnet und die gleiche Bahn für mehrere aufeinanderfolgende Ausgangsmuster verwendet werden könnten, obwohl bei der vorstehend beschriebenen Ausführungsform jede interpolierte Bahn und jeder Satz von Trans formationsvektoren nur einmal zur Berechnung eines einzigen Ausgangswerts verwendet wird.
  • Gleichermaßen wäre es möglich, eine nicht lineare Interpolation (die beispielsweise eine S-förmige Funktion beschreibt) zu verwenden, obwohl vorstehend eine lineare Interpolation besprochen wurde.
  • Gleichermaßen wäre es möglich, den Prozeß gemäß den Schritten 804818 zur Erzeugung eines konstanten Zwischenklangs zwischen zwei gespeicherten Klängen zu verwenden und so die Erzeugung von Zwischenvokalen oder anderen Klängen aus einem begrenzteren Untersatz gespeicherter Klänge zu ermöglichen, obwohl der Prozeß gemäß 16 für die Erzeugung eines Übergangs zwischen zwei Klängen durch Interpolation beschrieben wurde.
  • Weitere Ausführungsformen und Variationen
  • Aus der vorstehenden Beschreibung ist ersichtlich, daß viele Modifikationen oder Variationen an der vorstehend beschriebenen Ausführungsform vorgenommen werden können, ohne von der Erfindung abzuweichen.
  • Obwohl vorstehend die Speicherung mehrerer Tonhöhenimpulssequenzen beschrieben ist, wäre es zunächst möglich, nur eine einzige Tonhöhenimpulssequenz (d. h. eine einzige Spur des Attraktors) für jeden stimmhaften Klang zu speichern, da der Syntheseprozeß die Reproduktion mehrerer unterschiedlicher synthetisierter Tonhöhenimpulssequenzen anhand dieser ermöglicht. Dadurch kann unter gewissen Umständen das zu speichernde Datenvolumen verringert werden.
  • Tatsächlich kann anstelle einer tatsächlichen Attraktorspur selbstverständlich eine andere Bezugskurve (beispielsweise eine durch eine Mittelwertbildung erhaltene Attraktorspur) gespeichert werden, vorausgesetzt die Transformationsmatrizen von einer derartigen anderen Kurve zu den tatsächlichen Attraktorsträngen wurde zuvor berechnet, wie vorstehend beschrieben.
  • Obwohl bei der vorstehend beschriebenen Ausführungsform die Dynamik der Sprachschwingungsform (im Zustandssequenzraum) durch eine Umgebungsmatrix beschrieben wird, die die Transformation von Vektoren zwischen nebeneinander liegenden Strängen eines Attraktors beschreibt, ist offensichtlich, daß die Transformationsmatrix statt dessen die Entwicklung eines Punkts direkt auf dem Attraktor beschreiben könnte.
  • Wir haben jedoch festgestellt, daß eine Beschreibung der Transformation eines Differenzvektors zwischen einem Tatsächlichen Attraktor und einem weiteren tatsächlichen oder synthetisierten Attraktor den Vorteil einer größeren Stabilität hat, da die synthetisierte Schwingungsform immer zweckmäßig nahe bei einem tatsächlichen gespeicherten Attraktor gehalten wird.
  • Statt eines Übergangs zwischen jeweiligen synthetisierten Werten stimmhafter Klänge ist ein Übergang zwischen jeweiligen gespeicherten Werten auf die gleiche Weise, wie vorstehend unter Bezugnahme auf die Progression zwischen stimmlosen Klängen beschrieben, möglich, wobei in diesem Fall der Übergang dementsprechend einfach durch lineare Interpolation zwischen aufeinanderfolgenden Paaren entsprechender gespeicherter Musterpunkte der zwei Klänge ausgeführt wird, obwohl eine Verbesserung der Leistung erzielt wird, wenn die Interpolation zwischen Punkten aus entsprechenden Abschnitten von Tonhöhenimpulsen erfolgt, wie vorstehend beschrieben.
  • Zur Bestimmung entsprechender Punkte aufeinanderfolgender Tonhöhenimpulse könnte statt der vorstehend besprochenen Nutzung der Nulldurchgänge die physische Bewegung des menschlichen Stimmapparats unter Verwendung eins Laryngographen aufgezeichnet werden, der den menschlichen Sprecher überwacht, der die Äußerungen aufnimmt, wie unter Bezugnahme auf 12 beschrieben, um entsprechende physische Positionen des menschlichen Stimmapparats direkt zu identifizieren. Gleichermaßen könnten die Positionen der jeweiligen Attraktoren der beiden Klänge im Zustandssequenzraum zur Identifikation jeweiliger Teile der Klänge verwendet werden (obwohl dieses Verfahren zu Mehrdeutigkeiten führen kann).
  • Gemäß der Beschreibung erzeugt der Sprachsynthesizer gemäß der in 6 dargestellten Ausführungsform zu der Zeit, zu der jedes Muster berechnet wird, ein Muster nach dem anderen; es wäre jedoch selbstverständlich möglich, vor der Reproduktion eine Folge von Mustern zu erzeugen und zwischenzuspeichern.
  • Es wäre naheliegend, den vorstehend unter Bezugnahme auf 6 offenbarten Synthesizer so zu modifizieren, daß die CPU eine Amplitudensteuerung durch Skalieren des Werts jedes berechneten Ausgangsmusters oder durch direkte Steuerung eines mit dem Lautsprecher 2 verbundenen Analogverstärkers veranlaßt.
  • In diesem Fall kann bei Übergängen zu und aus einem Schweigen zusätzlich oder alternativ eine progressive Amplitudensteigerung oder -verringerung genutzt werden.
  • Ebenso wäre es naheliegend, bei der beschriebenen Ausführungsform eine Veränderung der Tonhöhe durch Verändern der Geschwindigkeit vorzusehen, mit der die CPU 6 dem Digital-Analog-Wandler 4 Ausgangsmuster zuführt.
  • Obwohl bei der vorstehend beschriebenen Ausführungsform ein Digital-Analog-Wandler und ein Lautsprecher vorgesehen sind, ist es selbstverständlich, den Digital-Analog-Wandler und den Lautsprecher entfernt anzuordnen. Der Sprachsynthesizer kann bei einer wei teren Ausführungsform an einem Standort innerhalb eines Telekommunikationsnetzes (beispielsweise in einer Leitstation oder in einer Vermittlungsstelle) vorgesehen sein. Obwohl der Sprachsynthesizer in diesem Fall einen analogen Ausgang liefern könnte, kann es letztendlich sinnvoll sein, wenn der Sprachsynthesizer eine Folge digitaler Musterausgänge liefert, da die über das Telefonnetz übertragene Sprache in digitaler Form vorliegen kann; die Rekonstruktion einer analogen Schwingungsform erfolgt bei dieser Ausführungsform somit schließlich in einer lokalen Vermittlungsstelle oder durch Komponenten des Endverbraucheranschlusses statt durch einen Digital-Analog-Wandler und einen Lautsprecher, die einen Teil des Sprachsynthesizers bilden. Eine derartige Ausführungsform kann beispielsweise für automatisierte Verzeichnisabfragen verwendet werden, bei denen unter der Steuerung menschlichen Bedienungspersonals oder einer Spracherkennungsvorrichtung eine gespeicherte Teilnehmertelefonnummer betreffende, digitale Informationen als Sprachsignal wiedergegeben werden.
  • Es ist ersichtlich, daß viele weitere Modifikationen und Varianten hergestellt werden können, ohne daß von dem durch die beiliegenden Ansprüche definierten Rahmen der vorliegenden Erfindung abgewichen würde.

Claims (13)

  1. Verfahren zur Erzeugung eines Outputs einer synthetischen Schwingungsform, der einer Sequenz von im wesentlichen ähnlichen Zyklen enstpricht, mit den folgenden Schritten: (a) Erzeugen eines synthetischen Schwingungsformmusters (x'j); (b) Erzeugen eines nachfolgenden Musters einer Schwingungsform (X'i+1) aus dem synthetischen Schwingungsformmuster (x'j) und Transformationsdaten (Tj, sj); (c) Spezifizieren dieses nachfolgenden Schwingungsformmusters (x'i+1) als synthetisches Schwingungsformmuster (x'j) und Wiederholen von Schritt (b); (d) Mehrfaches Wiederholen von Schritt (b) zur Erzeugung einer Sequenz dieser nachfolgenden Schwingungsformmuster, die einer Vielzahl von Zyklen entspricht; (e) Ausgeben (518) der Muster dieser Sequenz zur Erzeugung des Outputs, der eine synthetische Schwingungsform beinhaltet; dadurch gekennzeichnet, dass die Transformationsdaten Daten (Tj) enthalten, die die Entwicklung dieser Zyklen in zeitlicher Nähe des synthetischen Schwingungsformmusters und die Änderung der Form der Zyklen in zeitlicher Nähe von Zyklus zu Zyklus definieren.
  2. Verfahren nach Anspruch 1, bei dem die Schwingungsform gesprochene Sprache enthält.
  3. Verfahren nach Anspruch 1 oder 2, in dem die Transformationsdaten (Tj), die die Entwicklung dieser Zyklen und die Änderung der Form der Zyklen definieren, dies unter Bezugnahme auf eine vorbestimmte Bezugsschwingungsformsequenz tun.
  4. Verfahren nach Anspruch 3, in dem diese Bezugsschwingungsformsequenz eine gespeicherte Sprachschwingungsform enthält.
  5. Verfahren nach zumindest einem der vorigen Ansprüche, in dem die Schritte (a) und (b) das Erzeugen einer Vielzahl von Werten enthalten, die die Werte der Schwingungsformmuster als Punkt (s'j) in einem multidimensionalen Raum darstellen, in dem entsprechende Abschnitte der aufeinanderfolgenden Zyklen im wesentlichen überlagert werden.
  6. Verfahren nach Anspruch 5, wenn abhängig von den Ansprüchen 3 oder 4, in dem die Transformationsdaten (Tj) eine Umwandlung darstellen, die einer Umwandlung angenähert ist, die einen ersten Verschiebungsvektor (bj), der sich von einem ersten Zeit-Punkt (sj) auf der Bezugsschwingungsformsequenz bis zu einem entsprechenden Zeit-Punkt (s'j) auf der Schwingungsform, die synthetisiert werden soll, erstreckt, in einen zweiten Verschiebungsvektor (bj+i) umwandeln würde, der sich von einem zweiten Punkt (si+1), der auf den ersten folgt auf der Bezugsschwingungsformsequenz, bis zu einem entsprechenden zweiten Punkt (s'j+i) auf der Schwingungsform erstreckt, die synthetisiert werden soll.
  7. Verfahren nach zumindest einem der Ansprüche 3 bis 6, bei dem ein Muster einer nachfolgenden Schwingungsform (x'j) abgeleitet wird in Übereinstimmung mit Daten eines Punkts (x'j) auf der Bezugsschwingungsformsequenz an einer Position innerhalb des Zyklusses, die dem des Musters der gegebenen nachfolgenden Schwingungsform (x'j) entspricht, und mindestens eines anderen Punkts (xj+1) auf der Bezugsschwingungsformsequenz, der zeitlich davon abgesetzt ist.
  8. Verfahren nach zumindest einem der vorigen Ansprüche, in dem Schritt (b) das Berechnen der Transformationsdaten (Tj) aus einem Satz gespeicherter Schwingungsformwerte beinhaltet.
  9. Verfahren nach zumindest einem der vorigen Ansprüche, bei dem das anfängliche Ausführen von Schritt (a) zur anfänglichen Synthese der Schwingungsform einen Auswahlschritt (516) eines Anfangswertes enthält, der sich von einem ursprünglichen Anfangswert unterscheidet, der bei einer vorherigen Synthese der Schwingungsform ausgewählt wurde.
  10. Verfahren nach Anspruch 9, in dem der Auswahlschritt (516) die Anwendung eines Algorithmus zur Erzeugung einer Pseudozufallszahl zur Auswahl der Werte enthält.
  11. Verfahren nach Anspruch 9 oder 10, in dem der Auswahlschritt (516) die Bezugnahme auf den gespeicherten Wert eines Schwingungsformmusters und das Berechnen eines synthetisierten anfänglichen Schwingungsformwerts, der ähnlich aber nicht gleich dem gespeicherten Wert der Schwingungsform ist, enthält.
  12. Verfahren zur Synthese eines zyklischen Geräuschs zwischen zwei anderen zyklischen Geräuschen, wobei für jedes eine Abfolge von Musterwerten, die einer Vielzahl von Zyklen entsprechen, gespeichert ist, mit den Schritten Erzeugung (808) interpolierter Schwingungsformmuster, die aus einer Abfolge von Werten bestehen, von denen jeder aus einem Punktepaar interpoliert wird, jeweils einer von entsprechenden Abschnitten eines Zyklus von jeder der gespeicherte Schwingungsformen; Erzeugen eines Musters einer synthetischen Schwingungsform; gekennzeichnet durch: Erzeugen (814) von Transformationsdaten (Tj), die die Entwicklung der interpolierten Schwingungsform in zeitlicher Nähe des Musters einer synthetischen Schwingungsform (s'j) definieren; und Erzeugen eines Musters einer nachfolgenden Schwingungsform (s'j+1) aus dem synthetischen Schwingungsformmuster (s'j) und den Transformationsdaten (Tj).
  13. Synthesevorrichtung, die so ausgebildet ist, dass sie bei Betrieb das Verfahren nach zumindest einem der vorigen Ansprüche ausführt.
DE69722585T 1996-01-15 1997-01-09 Synthese von wellenformen Expired - Lifetime DE69722585T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9600774 1996-01-15
GBGB9600774.5A GB9600774D0 (en) 1996-01-15 1996-01-15 Waveform synthesis
PCT/GB1997/000060 WO1997026648A1 (en) 1996-01-15 1997-01-09 Waveform synthesis

Publications (2)

Publication Number Publication Date
DE69722585D1 DE69722585D1 (de) 2003-07-10
DE69722585T2 true DE69722585T2 (de) 2004-05-13

Family

ID=10787066

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69722585T Expired - Lifetime DE69722585T2 (de) 1996-01-15 1997-01-09 Synthese von wellenformen

Country Status (8)

Country Link
US (1) US7069217B2 (de)
EP (1) EP0875059B1 (de)
JP (1) JP4194656B2 (de)
AU (1) AU724355B2 (de)
CA (1) CA2241549C (de)
DE (1) DE69722585T2 (de)
GB (1) GB9600774D0 (de)
WO (1) WO1997026648A1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
FR2811790A1 (fr) * 2000-07-11 2002-01-18 Schlumberger Systems & Service Microcontroleur securise contre des attaques dites en courant
JP4060126B2 (ja) * 2002-05-31 2008-03-12 リーダー電子株式会社 波形合成用データのためのデータ構造および波形合成の方法および装置
US7647284B2 (en) * 2007-01-12 2010-01-12 Toyota Motor Engineering & Manufacturing North America, Inc. Fixed-weight recurrent neural network controller with fixed long-term and adaptive short-term memory
JP4656443B2 (ja) * 2007-04-27 2011-03-23 カシオ計算機株式会社 波形発生装置および波形発生処理プログラム
JP5347405B2 (ja) * 2008-09-25 2013-11-20 カシオ計算機株式会社 波形発生装置および波形発生処理プログラム
JP5177157B2 (ja) * 2010-03-17 2013-04-03 カシオ計算機株式会社 波形発生装置および波形発生プログラム
US9262941B2 (en) * 2010-07-14 2016-02-16 Educational Testing Services Systems and methods for assessment of non-native speech using vowel space characteristics
JP5224552B2 (ja) * 2010-08-19 2013-07-03 達 伊福部 音声生成装置およびその制御プログラム
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US9933990B1 (en) * 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4022974A (en) * 1976-06-03 1977-05-10 Bell Telephone Laboratories, Incorporated Adaptive linear prediction speech synthesizer
JPS6029793A (ja) * 1983-07-28 1985-02-15 ヤマハ株式会社 楽音形成装置
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4622877A (en) 1985-06-11 1986-11-18 The Board Of Trustees Of The Leland Stanford Junior University Independently controlled wavetable-modification instrument and method for generating musical sound
JPH0727397B2 (ja) * 1988-07-21 1995-03-29 シャープ株式会社 音声合成装置
US5140886A (en) 1989-03-02 1992-08-25 Yamaha Corporation Musical tone signal generating apparatus having waveform memory with multiparameter addressing system
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置

Also Published As

Publication number Publication date
AU724355B2 (en) 2000-09-21
DE69722585D1 (de) 2003-07-10
EP0875059A1 (de) 1998-11-04
US7069217B2 (en) 2006-06-27
CA2241549A1 (en) 1997-07-24
JP2000503412A (ja) 2000-03-21
EP0875059B1 (de) 2003-06-04
CA2241549C (en) 2002-09-10
JP4194656B2 (ja) 2008-12-10
US20010018652A1 (en) 2001-08-30
AU1389797A (en) 1997-08-11
GB9600774D0 (en) 1996-03-20
WO1997026648A1 (en) 1997-07-24

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69722585T2 (de) Synthese von wellenformen
DE69932786T2 (de) Tonhöhenerkennung
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE10232916A1 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69631037T2 (de) Sprachsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE3006339C2 (de) Sprachsyntesizer
DE60120585T2 (de) Anordnung und Verfahren zur Sprachsynthese
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE60218587T2 (de) Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
EP1078354B1 (de) Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung
DE60225536T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition