DE69722585T2

DE69722585T2 - Synthese von wellenformen

Info

Publication number: DE69722585T2
Application number: DE69722585T
Authority: DE
Inventors: Michael Great Shelford BANBROOK; Stephen Joppa McLAUGHLIN
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-01-15
Filing date: 1997-01-09
Publication date: 2004-05-13
Anticipated expiration: 2017-01-10
Also published as: AU724355B2; DE69722585D1; EP0875059A1; US7069217B2; CA2241549A1; JP2000503412A; EP0875059B1; CA2241549C; JP4194656B2; US20010018652A1; AU1389797A; GB9600774D0; WO1997026648A1

Description

Die Erfindung betrifft Verfahren und Vorrichtungen zur Schwingungs- bzw. Wellenformsynthese und insbesondere, aber nicht ausschließlich, zur Sprachsynthese.
Es sind verschiedene Typen von Sprachsynthesizern bekannt. Die meisten arbeiten unter Verwendung eines Repertoires von Phonemen oder Allophonen, die nacheinander erzeugt werden, um entsprechende Äußerungen zu synthetisieren. Eine Übersicht über einige Typen von Sprachsynthesizern findet sich in A. Breen, „Speech Synthesis Models: A Review", Electronics and Communication Engineering Journal, Seiten 19–31, Februar 1992. Einige Typen von Sprachsynthesizer versuchen, die Spracherzeugung unter Verwendung einer Quellenfilterannäherung zu modellieren, für die beispielsweise eine lineare Vorhersage genutzt wird. Bei anderen werden Segmente tatsächlicher Sprache aufgezeichnet, die nacheinander ausgegeben werden.
Eine der Hauptschwierigkeiten bei synthetisierter Sprache ist, die Sprache natürlich klingen zu lassen. Es gibt viele Gründe dafür, daß synthetisierte Sprache unnatürlich klingen kann. Ein besonderes Problem bei der zuletzt genannten Klasse von aufgenommene, tatsächliche Sprache nutzenden Sprachsynthesizern besteht jedoch darin, daß die gleiche Aufzeichnung jedes Vokals oder Allophons jedesmal verwendet wird, wenn der betreffende Vokal bzw. das betreffende Allophon benötigt wird. Dies wird um so spürbarer bei Synthesizern, bei denen zur Erzeugung eines durchgehenden Klangs ein kurzes Segment des Phonems oder Allophons mehrmals nacheinander wiederholt wird.
Ein Beispiel eines bekannten Synthesizers, bei dem in dem Versuch, Spracherzeugung zu imitieren, eine lineare Vorhersage verwendet wird, ist in dem US-Patent 4,022,974 offenbart.
Mit der vorliegenden Erfindung wird, gemäß einem Aspekt, ein Verfahren zur Erzeugung eines Outputs einer synthetischen Schwingungsform geschaffen, der einer Folge im wesentlichen ähnlicher Zyklen entspricht, wobei das Verfahren die folgenden Schritte umfaßt:

(a) Erzeugen eines synthetischen Schwingungsformmusters,
(b) Erzeugen eines nachfolgenden Schwingungsformmusters anhand des synthetischen Schwingungsformmusters und der Transformationsdaten,
(c) Spezifizieren des nachfolgenden Schwingungsformmusters als synthetisches Schwingungsformmuster und Wiederholen von Schritt (b),
(d) mehrfaches Wiederholen von Schritt (c) zur Erzeugung einer Folge der nachfolgenden Schwingungsformmuster, die mehreren Zyklen entsprechen,
(e) Ausgeben der Muster der Sequenz zur Erzeugung des synthetischen Schwingungsformoutputs,

Dadurch kann eine synthetisierte Sequenz jeder gewünschten Dauer erzeugt werden. Da überdies das Fortschreiten der Sequenz von ihrem Anfangswert abhängt, können durch die Auswahl unterschiedlicher Anfangswerte unterschiedliche Sequenzen erzeugt werden, die dem gleichen Phonem oder Allophon entsprechen.
Die Erfinder haben zuvor berichtet („Speech characterisation by non-linear methods", M. Banbrook und S. McLaughlin, eingereicht bei IEEE Transactions on Speech and Audio Processing, 1996; „Speech characterisation by non-linear methods", M. Banbrook und S. McLaughlin, präsentiert beim IEEE Workshop on non-linear signal and image processing, Seiten 396–400, 1995), daß sich stimmhafte Sprache, die die vorliegende Erfindung primär betrifft, wie ein niederdimensionales, nicht lineares, nicht chaotisches System zu verhalten scheint. Stimmhafte Sprache ist im wesentlichen zyklisch und umfaßt eine zeitliche Abfolge von Tonhöhenimpulsen von ähnlicher, jedoch nicht identischer Form. Daher wird bei einer bevorzugten Ausführungsform der vorliegenden Erfindung eine niederdimensionale Zustandsraumdarstellung des Sprachsignals genutzt, bei der aufeinanderfolgende Tonhöhenimpulszyklen überlagert werden, um den Fortgang des Sprachsignals innerhalb jedes Zyklus und von Zyklus zu Zyklus einzuschätzen.
Diese Einschätzung der Dynamik des Sprachsignals ist nützlich, da sie die Synthese einer Schwingungsform ermöglicht, die nicht der aufgezeichneten Sprache entspricht, auf der die Analyse der Dynamik basierte, sondern aus Zyklen von ähnlicher Form besteht, die eine ähnliche Veränderlichkeit wie die zeigen, auf denen die Analyse basierte.
Die Zustandsraumdarstellung kann beispielsweise auf Takens' Verzögerungsverfahren (F. Takens, „Dynamical Systems and Turbulence", Bd. 898 der Lecture Notes in Mathematics, Seiten 366–381, Berlin, Springer 1981) basieren. Bei diesem Verfahren bestehen die verschiedenen Achsen des Zustandsraums aus durch vorgegebene Zeitintervalle getrennten Schwingungsformwerten, so daß ein Punkt im Zustandsraum durch einen Satz von Werten zu den Zeitpunkten t₁, t₂, t₃ definiert wird (wobei t₂ – t₁ = Δ₁ und t₃ – t₂ = Δ₂ gelten und beide Werte Konstanten sind, die den gleichen Wert haben können).
Ein weiteres aktuelles Problem bei synthetisierter Sprache ist, daß die „Verbindung" manchmal hörbar ist, wenn unterschiedliche Klänge in einer Sequenz aneinandergereiht werden, was hörbare Artefakte, wie eine matte Modulation bei der Phonemgeschwindigkeit der synthetisierten Sprache, hervorruft.
Dementsprechend wird gemäß einem weiteren Aspekt der vorliegenden Erfindung ein Verfahren zur Synthese eines zyklischen Geräuschs zwischen zwei weiteren zyklischen Geräuschen geschaffen, wobei für jedes eine Abfolge von mehreren Zyklen entsprechenden Musterwerten gespeichert ist und das Verfahren die Schritte der Erzeugung interpolierter Schwingungsformmuster, die aus einer Folge von Werten bestehen, die jeweils anhand von zwei Punkten interpoliert werden, jeweils einer anhand entsprechender Abschnitte eines Zyklus jeder der gespeicherten Schwingungsformen; und
der Erzeugung eines synthetischen Schwingungsformmusters umfaßt und durch
die Erzeugung von Transformationsdaten, die die Entwicklung der interpolierten Schwingungsform in zeitlicher Nähe zu dem synthetischen Schwingungsformmuster definieren, und
die Erzeugung eines nachfolgenden Schwingungsformmusters anhand des synthetischen Schwingungsformmusters und der Transformationsdaten gekennzeichnet ist.
Daher wird eine Tonhöhenimpulsform allmählich in eine andere transformiert.
Weitere Aspekte und bevorzugte Ausführungsformen der Erfindung gehen aus der folgenden Beschreibung und den Ansprüchen hervor.
Die Erfindung wird nun nur beispielhaft unter Bezugnahme auf die beiliegenden Zeichnungen dargestellt. Es zeigen:
1 ein Diagramm der Signalamplitude eines (fiktiven) stimmhaften Sprachsignals in bezug auf die Zeit;
2 ein Diagramm der Signalamplitude einer fiktiven zylindrischen Schwingungsform in bezug auf die Zeit, das auf der Grundlage des Verzögerungsverfahrens die Abweichung der Zustandssequenzpunkte darstellt;
3 eine Zustandssequenzraumdarstellung der Punkte gemäß 2;
4 Zustandssequenzraumdarstellung, die die Bahn eines fiktiven stimmhaften Sprachklangs zeigt, der einen Attraktor im Zustandssequenzraum definiert;
5 ein veranschaulichendes Diagramm, das auf einer Formantenübersicht Zustandssequenzraumattraktoren (die den in 4 gezeigten entsprechen) mehrerer unterschiedlicher Vokale zeigt;
6 ein Blockdiagramm, das schematisch den Aufbau eines Sprachsynthesizer gemäß einer ersten Ausführungsform der Erfindung zeigt;
7 ein Ablaufdiagramm, das illustrativ das Verfahren zum Betreiben des Sprachsynthesizers gemäß 6 zeigt;
8 eine Zeitlinie, die illustrativ eine Sprachsequenz und stille Segmente zeigt, aus denen eine sprachliche Äußerung aufgebaut ist;
9a eine Zustandssequenzraumdarstellung, die einen einzigen Zyklus eines fiktiven stimmhaften Klangs und einen Teil eines Zyklus eines daraus synthetisierten synthetischen Klangs zeigt;
9b ein Detail aus 9a;
9c ein Zustandssequenzraumdiagramm, das mehrere Zyklen einer Schwingungsform zeigt; und
9d ein Detail desselben, das die Umgebung zeigt, die einen Punkt eines Zyklus umgibt, dessen Transformation über eine Zeitspanne durch die Ausführungsform gemäß 6 genutzt wird;
10 ein Blockdiagramm, das schematisch die Bauteile einer Vorrichtung zum Ableiten der von der Ausführungsform gemäß 6 verwendeten synthetisierten Daten zeigt;
die 11a–d die in unterschiedlichen Stufen des Betriebsprozesses der Vorrichtung gemäß 10 erzeugten Daten;
12 ein Ablaufdiagramm, das die Stufen des Betriebs der Vorrichtung gemäß 10 veranschaulicht;
13 ein Zustandssequenzraumdiagramm, das die Wirkung der Transformation über eine Zeitspanne in der Umgebung von 9c illustrativ zeigt;
14 ein Ablaufdiagramm, das den Prozeß des Übergangs von einem Klang zu einem anderen genauer zeigt, der einen Teil des Ablaufdiagramms gemäß 7 bildet;
15 ein veranschaulichendes Diagramm, das die Kombination von zwei Zustandsraumsequenzen zeigt, die während des Prozesses gemäß 14 ausgeführt wird; und
16 ein Ablaufdiagramm, das den Prozeß des Übergangs von einem Klang zu einem anderen gemäß einer zweiten Ausführungsform der Erfindung zeigt.
Zustandsraumdarstellung des Sprachsignals
Vor einer genauen Beschreibung der Ausführungsformen der Erfindung erfolgt eine kurze Beschreibung der Zustandsraumdarstel lung des gemäß den Ausführungsformen der Erfindung verwendeten (aber an sich beispielsweise aus der Druckschrift „Lyapunov exponents from a time series: a noise-robust extraction algorithm", M Banbrook, G. Ushaw, S. McLaughlin, eingereicht bei IEEE Transactions on Signal Processing, Oktober 1995, auf die bezug genommen werden kann, wenn weitere Einzelheiten erforderlich sind, als Dienstprogramm zur Sprachanalyse bekannten) Sprachsignals.
1 stellt ein Sprachsignal oder genauer einen Teil eines in einem Sprachsignal enthaltenen stimmhaften Klangs dar. Das Signal gemäß 1 kann als aus einer Folge ähnlicher, aber nicht identischer Tonhöhenimpulse p₁, p₂, p₃ bestehend betrachtet werden. Die Form der Tonhöhenimpulse kennzeichnet das Timbre des stimmhaften Klangs, und ihre Dauer kennzeichnet die wahrgenommene Tonhöhe.
Gemäß 2 werden zur Erzeugung einer Zustandsraumdarstellung einer Zeitsequenz X mehrere (in diesem Fall drei) Werte der Schwingungsform zu voneinander beabstandeten Zeitpunkten x_i–10, x_i, x_i+10 herangezogen und kombiniert, um einen einzigen Punkt s_i in einem durch eine entsprechende Anzahl an Achsen definierten Raum darzustellen.
Daher wird gemäß den 2 und 3 ein erster Punkt s₁ durch die drei Punkte auf der Kurve X repräsentiert, die jeweils Werte (x₀, x₁₀ und x₂₀) der Schwingungsform X zu Musterzeitpunkten 0, 10, 20 repräsentieren. Da all diese drei Werte positiv sind, liegt der von ihnen definierte Wert s₁ im positiven Oktanten des Raums gemäß 3.
Ein weiterer Punkt s₂ wird in 2 durch die drei Kreuze auf der Schwingungsform X dargestellt. Dieser Punkt wird durch die drei Werte x₁, x₁₁ und x₂₁ definiert. Da diese Werte alle drei positiver als die des Punkts s₁ sind, liegt der Punkt s₂ in dem Zustandssequenz raum gemäß 3 im gleichen Oktanten und radial weiter außen als der Punkt s₁.
Ebenso wird durch jeweilige Werte (x₂, x₁₂ und x₂₂) der Schwingungsform X zu den Zeitpunkten 2, 12 und 22 ein dritter Punkt s₃ definiert. Dieser Punkt ist in 2 durch drei Dreiecke auf der Schwingungsform X dargestellt.
Daher wird bei diesem Zeitverzögerungsverfahren zur Konstruktion einer Zustandsraumdarstellung der Zeitsequenz X (d. h. der Sprachschwingungsform) im allgemeinen der entsprechende Punkt s_i im Zustandssequenzraum für jedes aufeinanderfolgende Zeitmuster x_i durch den Wert dieses Punkts x_i zusammen mit denen eines vorhergehenden und eines nachfolgenden Punkts x_i–j, x_i+k repräsentiert (wobei j zweckmäßiger Weise k entspricht und in diesem Fall beide 10 sind).
Wenn die Schwingungsform gemäß 2 einfach eine gerade, diagonale Linie wäre, wäre ihre Darstellung im Zustandsraum gemäß 3 ebenfalls eine gerade Linie.
Bei einer sich wiederholenden Zeitsequenz des in 1 oder 2 gezeigten Typs veranlassen jedoch Wendepunkte in der Schwingungsform, daß die entsprechende Abfolge von Punkten im Zustandsraum eine Bahn beschreibt, die sich ebenfalls wendet und einer im wesentlichen geschlossenen Schleife folgt, um in die Nähe ihres Anfangspunkts zurückzukehren. Da die relativen Werte der Punkte x_i, x_i–j, x_i+k einander in aufeinanderfolgenden Zyklen der zeitlichen Abfolge, die sie repräsentieren, stark ähneln, beschreibt die Zustandsraumdarstellung einer Folge von N Zyklen (beispielsweise Tonhöhenimpulsen p₁–p_n) einer Schwingungsform gemäß 4 über den Zustandssequenzraum eine kontinuierliche Bahn, wobei sie N sehr ähnliche Kreise ausführt, wodurch eine kreisförmige, multidimensionale Oberfläche oder Vervielfachung definiert wird, die N Stränge oder Spuren enthält. Die Oberfläche, die durch eine unendliche Anzahl derartiger Zyklen erzeugt würde, wird als „Attraktor" der Schwingungsform X bezeichnet, die ihre Ursache ist.
Der Attraktor gemäß 4 besteht aus einer Doppelschleife (die sich, wie in der Projektion angedeutet, selbst zu kreuzen scheint, was jedoch in drei Dimensionen tatsächlich nicht der Fall ist).
Gemäß 5 haben wir festgestellt, daß jeder stimmhafte Klang einen Attraktor dieser Art hervorruft, von denen jeder in einem dreidimensionalen Zustandsraum adäquat dargestellt werden kann, obwohl es auch möglich ist, nur zwei Dimensionen oder sogar vier, fünf oder mehr zu verwenden. Die wesentlichen Parameter für eine effektive Darstellung artikulierter Klänge in einem derartigen Zustandsraum sind die ausgewählte Anzahl an Dimensionen und die Zeitverzögerung zwischen den aufeinander folgenden Mustern.
Wie in 5 gezeigt, in der die Achsen, über die die Attraktoren verteilt sind, f₁ (die Frequenz des ersten Formanten) und f₂ – f₁ sind (wobei f₂ die Frequenz des zweiten Formanten ist), unterscheiden sich die Formen der Attraktoren (mit den entsprechenden Formen der Sprachschwingungsformen, denen sie entsprechen) erheblich, obwohl ein gewisse Beziehung zwischen den Topologien der jeweiligen Attraktoren und den Klängen vorliegt, denen sie entsprechen.
Die vorstehende Diskussion betrifft stimmhafte Klänge (wie Vokale und stimmhafte Konsonanten). Es ist natürlich möglich, eine Zustandssequenzdarstellung jeder Schwingungsform zu erzeugen, doch bei stimmlosen Klängen (beispielsweise Reiblauten) folgt die Zustandsraumdarstellung nicht aufeinander folgenden, sehr ähnlichen Schleifen mit gut definierter Topologie, sondern statt dessen einer Bahn, die in einer anscheinend zufälligen Art ein Volumen im Zustandssequenzraum durchläuft.
Überblick über die erste Ausführungsform der Erfindung
Gemäß 6 umfaßt ein Sprachsynthesizer gemäß einer ersten Ausführungsform der Erfindung einen über den analogen Ausgang eines Digital-Analog-Wandlers 4 versorgten Lautsprecher 2, der mit einem Ausgangsanschluß einer Zentraleinheit 6 gekoppelt ist, die mit einem Speichersystem 8 (das einen von der CPU 6 bei Berechnungen verwendeten Direktzugriffsspeicher 8a, einen Programmspeicher 8b zur Speicherung des CPU-Betriebsprogramms und einen Datenkonstantenspeicher 8c zur Speicherung von Daten zur Verwendung bei der Synthese umfaßt) verbunden ist.
Die Vorrichtung gemäß 6 kann zweckmäßiger Weise durch einen Personal Computer und eine Audiokarte, wie einen Elonex (TM) Personal Computer mit einem 33 MHz Intel 486 Mikroprozessor als CPU 6 und einer Ultrasound Max (TM) Audiokarte, die den Digital-Analog-Wandler 4 bildet, sowie einen Ausgang zu einem Lautsprecher 2 gebildet werden. Statt dessen kann jeder beliebige andere digitale Prozessor mit ähnlicher oder höherer Leistung verwendet werden.
Zweckmäßiger Weise umfaßt das Speichersystem 8 eine Massenspeichervorrichtung (beispielsweise eine Festplatte), die das Betriebsprogramm und Daten zur Verwendung bei der Synthese enthält, und einen Direktzugriffsspeicher mit abgeteilten Bereichen 8a, 8b, 8c, wobei das Programm und die Daten vor der Verwendung der Vorrichtung gemäß 6 jeweils in die beiden zuletzt genannten Bereiche geladen werden.
Die im Speicher 8c für die gespeicherten Daten gehaltenen gespeicherten Daten umfassen einen Satz Aufzeichnungen 10a, 10b, ... 10c, die jeweils ein kleines Segment eines Worts repräsentieren, das unabhängig von seinem Kontext in einem Wort oder einem Satzteil als eindeutig erkennbar betrachtet werden kann (d. h. jedes von ihnen entspricht einem Phonem oder Allophon). Die Phoneme können durch jedes einer Reihe unterschiedlicher phonetischer Alphabete dargestellt werden; bei dieser Ausführungsform wird das (in A.Breen, „Speech Synthesis Models: A Review", Elektronics and Communication Engineering Journal, Seiten 19–31, Februar 1992 offenbarte) SAMPA (Speech Assessment Methodology Phonetic Alphabet) verwendet. Jede der Aufzeichnungen umfaßt eine jeweilige Schwingungsformaufzeichnung 11, die (beispielsweise mit 20 kHz aufgenommene) aufeinanderfolgende digitale Werte der Schwingungsform einer tatsächlichen Äußerung des betreffenden Phonems als aufeinanderfolgende Muster x₁, x₂, ..., x_N umfaßt.
Zudem enthält jede der Aufzeichnungen 10 eines stimmhaften Klangs (d. h. der Klänge der Vokale und der stimmhaften Konsonanten des phonetischen Alphabets) eine durch neun gespeicherte konstante Werte definierte Transformationsmatrix für jedes gespeicherte Muster x_i.
Daher enthält der Datenspeicher 8c (abhängig von dem gewählten phonetischen Alphabet) in etwa dreißig bis vierzig Aufzeichnungen 10, von denen jede aus etwa einer halben Sekunde aufgezeichneter digitaler Schwingungsformen besteht (d. h. bei einer Abtastung mit 20 kHz ca. zehntausend Muster x_i, wobei jede der Musteraufzeichnungen für stimmhafte Klänge eine zugehörige Transformationsmatrix aus neun Elementen aufweist). Das für den Datenspeicher 8c erforderliche Volumen ist daher ((9 + 1)·10.000·40 = 400.000) 16-Bit-Speicherplätze.
Die Art und Weise, in der der Inhalt des Datenspeichers 8c abgeleitet wird, wird nachstehend genauer beschrieben.
Wie in 8 dargestellt, besteht eine durch den Sprachsynthesizer zu synthetisierende Äußerung aus einer Sequenz von Abschnitten mit einer jeweiligen zugehörigen Dauer und enthält einen stillen Teil 14a, dem ein Wort folgt, das eine Sequenz von Abschnitten 14b–14f umfaßt, von denen jeder aus einem Phonem mit einer vorgegebenen Dauer besteht, worauf ein weiterer stiller Abschnitt 14g folgt, dem ein weiteres Wort folgt, das aus Phonemabschnitten 14h– 14j mit jeweils einer entsprechenden Dauer besteht, etc. Die Sequenz von Phonemen wird zusammen mit der entsprechenden Dauer entweder gespeichert oder nach einem von mehreren allgemein bekannten Regelsystemen abgeleitet, die keinen Teil der vorliegenden Erfindung bilden, sondern im Steuerprogramm enthalten sind.
Gemäß 7 wird nun die Funktionsweise des Steuerprogramms der CPU 6 genauer beschrieben.
Entsprechend einer so bestimmten Sequenz wählt die CPU 6 in einem Schritt 502 eine erste Klangaufzeichnung 10 aus, die einem der Phoneme der in 8 dargestellten Sequenz entspricht.
In einem Schritt 504 führt die CPU 6 einen Übergang zu dem Klang aus, wie nachstehend genauer beschrieben.
In einem Schritt 506 wählt die CPU 6 einen Anfangspunkt für die Synthese der Phonemschwingungsform x'_i aus. Gemäß 9 besteht die Auswahl des Anfangspunkts für die Synthese aus zwei Stufen. Zunächst wählt die CPU 6, wie nachstehend genauer besprochen, als Ergebnis des Ablaufs von Schritt 504 einen Punkt x_i auf der gespeicherten Schwingungsform aus. Der nächste Schritt ist dann die Auswahl eines neuen Punkts, der zufällig innerhalb eines Bereichs in der Nähe des bereits ausgewählten Punkts im Zustandssequenzraum angeordnet ist.
Gemäß 9b ist der als letztes gespeicherte Punkt, auf den von der CPU 6 zugegriffen wird (und der als synthetisierter Klang an den Analog-Digital-Wandler 4 und damit an den Lautsprecher 2 ausgegeben wird) beispielsweise ein Punkt x₂ ₁ mit einem entsprechenden Punkt s₂ ₁ im Zustandsraum; und in einem Schritt 506 wird ein erster synthetisierter Anfangspunkt s'_i in der Nähe von s₂ ₁ ausgewählt.
Der Mechanismus zur Auswahl eines nahegelegenen Punkts kann wie folgt sein:

1. Der erste Punkt s_i im Zustandssequenzraum wird durch Lesen der Werte x_i, x_i–10 und x_i+10 gefunden.
2. Der nächste Punkt s_i+1 auf der Bahn im Zustandssequenzraum wird durch den Zugriff auf die Werte x_i+1, x_i+11 und x_i–9 gefunden.
3. Der Euklid'sche Abstand (d. h. der Effektivwert) zwischen den beiden Punkten s_i, s_i+1 im Zustandssequenzraum wird berechnet.
4. Ein pseudozufälliger Sequenzalgorithmus wird verwendet, um die Zufallskoordinaten eines um einen Euklid'schen Abstand zwischen Null und dem so berechneten Abstand vom Punkt s_i beabstandeten Punkts s'_i im Zustandsraum zu erzeugen.

Nachdem so im Bereich des letzten tatsächlich ausgegebenen Punkts (in diesem Fall x₂₁) ein erster synthetisierter Anfangspunkt s'_i in der Nähe, aber nicht auf einem Strang der durch die gespeicherten Musterwerte markierten Zustandsraumbahn bestimmt wurde, bestimmt die CPU 6 in einem Schritt 508 den am nächsten bei dem neu synthetisierten Punkt s'₁ gelegenen Punkt auf der gespeicherten Bahn.
Sehr häufig ist der im Schritt 508 ausgewählte nächstgelegene Punkt tatsächlich der letzte Punkt auf dem aktuellen Strang (in die sem Fall s₂₁). Er kann jedoch statt dessen (wie in diesem Fall, in dem s₂₂ näher liegt) einem der nächsten Nachbarn auf diesem Strang oder einem anderen Strang der Bahn entsprechen, wenn dieser im Zustandssequenzraum in einem geringen Abstand angeordnet ist, wie in 9c dargestellt.
Nachdem der zunächst gelegene Punkt auf der aus den gespeicherten Schwingungsformpunkten x_i aufgebauten, gespeicherten Bahn auf diese Weise bestimmt wurde, berechnet die CPU 6 in einem Schritt 510 den Versatzvektor von dem im Schritt 508 so ausgewählten zunächst gelegenen Punkt auf der gespeicherten Bahn zum synthetisierten Punkt s'₁. Der so berechnete Versatzvektor b_i ist daher ein Drei-Element-Vektor.
Als nächstes wird von der CPU 6 in einem Schritt 512 durch Lesen der im Zusammenhang mit dem vorhergehenden Punkt x_i (in diesem Fall im Zusammenhang mit dem Punkt x₂₂) gespeicherten Matrix T_i und Multiplizieren derselben mit der Transposition des ersten Versatzvektors b_i (in diesem Fall b₁) der nächste Versatzvektor b_i+1 (in diesem Fall b₂) berechnet.
Danach wählt die CPU 6 in einem Schritt 514 den nächsten gespeicherten Punkt s_i+1 auf der Bahn, in diesem Fall den (durch die Werte x₂₃, x₁₃ und x₃₃ definierten) Punkt s₂₃ aus.
In einem Schritt 516 wird durch Addieren des neu berechneten Versatzvektors b_i+1 zum nächsten Punkt s_i+1 auf der Bahn der nächste synthetisierte Sprachpunkt (s'_i+1) berechnet.
Dann wird der mittlere Wert x'_i+1 des neu synthetisierten Punkts s'_i+1 an den Digital-Analog-Wandler 4 und den Lautsprecher 2 ausgegeben.
Im Schritt 520 bestimmt die CPU 6, ob die erforderliche, vorgegebene Dauer des synthetisieren Phonems erreicht ist. Wenn nicht, kehrt die CPU 6 zum Schritt 508 des Steuerprogramms zurück und bestimmt den dem zuletzt synthetisierten Punkt am nächsten liegenden neuen Punkt auf der Bahn. In vielen Fällen kann er mit dem Punkt s_i+1 übereinstimmen, anhand dessen der synthetisierte Punkt selbstberechnet wurde, doch dies ist nicht notwendiger Weise der Fall.
Daher kann die CPU 6 anhand der gespeicherten Schwingungsformwerte x_i und der Transformationsmatrizen T_i eine (in den 9a und 9b als gestrichelte Bahn im Zustandssequenzraum dargestellte) sprachartige Schwingungsform synthetisieren, indem sie dem Prozeß der Schritte 506–518 folgt.
Die Länge der synthetisieren Sequenz hängt weder in irgend einer Weise von der Anzahl der gespeicherten Werte ab, noch gibt die synthetisierte Sequenz irgendeinen Teil der gespeicherten Sequenz genau wieder.
Statt dessen hängt jeder Punkt der synthetisierten Sequenz sowohl von dem vorhergehenden Punkt der synthetisierten Sequenz als auch von den (im Zustandssequenzraum) zunächst gelegenen anderen Punkten der gespeicherten Sequenz und der Transformationsmatrix des zunächst gelegenen Punkts der gespeicherten Sequenz ab.
Daher unterscheidet sich aufgrund der zufälligen Auswahl des Anfangspunkts im Schritt 506 die erzeugte synthetische Schwingungsform von einem Syntheseprozeß zum anderen.
Wenn in einem Schritt 520 der vorgegebene Endpunkt des betreffenden Phonems erreicht ist, bestimmt die CPU 6 in einem Schritt 522, ob das Ende der gewünschten Sequenz (wie beispielsweise in 8 gezeigt) erreicht ist, und wenn dies der Fall ist, veranlaßt die CPU 6 (wie nachstehend genauer besprochen) in einem Schritt 524 die Fortsetzung der Ausgangssequenz durch Stille.
Wenn nicht, wählt die CPU 6 den nächsten Klang in der Sequenz aus (Schritt 525) und bestimmt in einem Schritt 526, ob der nächste Klang stimmhaft ist oder nicht. Ist der nächste Klang stimmhaft, kehrt die CPU 6 zum Schritt 502 gemäß 7 zurück, wogegen sie, wenn der nächste Klang stimmlos ist, in einem Schritt 528 (wie nachstehend genauer beschrieben) mit dem gewählten stimmlosen Klang fortfährt, der dann (wie nachstehend genauer beschrieben) in einem Schritt 530 reproduziert wird. Die CPU 6 kehrt dann zum Schritt 522 gemäß 7 zurück.
Berechnung der Transformationsmatrix
Gemäß 10 umfaßt eine Vorrichtung zum Ableiten der gespeicherten Muster- und Transformationsprotokolle 10 ein Mikrophon 22, einen Analog-Digital-Wandler 24, eine CPU 26 und eine Speichervorrichtung 28 (die beispielsweise von einer Massenspeichervorrichtung, wie einem Plattenlaufwerk, und einem Direktzugriffsspeicher gebildet wird) mit einem Arbeitspufferspeicher 28a und einem Programmspeicher 28b.
Natürlich können die CPU 26 und die Speichervorrichtung 28 physisch in dem Sprachsynthesizer enthalten sein, wie in 6 gezeigt, doch es ist offensichtlich, daß dies nicht der Fall sein muß, da die Daten, die den Sprachsynthesizer gemäß 6 kennzeichnen, vor dem Syntheseprozeß und unabhängig von diesem abgeleitet werden.
Zweckmäßiger Weise tastet der Analog-Digital-Wandler 24 die analoge Sprachschwingungsform von dem Mikrophon 22 mit einer Frequenz von ca. 20 kHz und einer Genauigkeit von 16 Bit ab.
Unter Bezugnahme auf die 11 und 12 wird nun die Funktionsweise der Vorrichtung gemäß 10 beschrieben. Wäh rend ein menschlicher Sprecher einen gewünschten Klang (beispielsweise einen Vokal) einmal ausspricht, tasten die CPU 26 und analog dazu der Analog-Digital-Wandler 24, wie in 11a gezeigt, in einem Schritt 602 die so am Ausgang des Mikrophons 22 erzeugte Schwingungsform ab und speichern aufeinanderfolgende Muster (beispielsweise ca. 10.000 Muster, was in etwa einer halben Sekunde Sprache entspricht) im Arbeitsspeicherbereich 28a.
Als nächstes normiert die CPU 26 in einem Schritt 604 durch Bestimmen des Beginns und des Endes jeder Tonhöhenimpulsperiode (dargestellt in 1) beispielsweise durch Bestimmen der Nulldurchgangspunkte und anschließendes Ausgleichen der Anzahl der Proben in jeder Tonhöhenperiode (beispielsweise 140 Muster in jeder Tonhöhenperiode) durch Interpolation zwischen den ursprünglich gespeicherten Mustern die Tonhöhe der aufgezeichneten Äußerung.
Durch eine derartige Normierung besteht die gespeicherte Schwingungsform daher nun aus Tonhöhenimpulsen aus jeweils der gleichen Anzahl von Mustern. Diese werden dann zur Verwendung bei einer nachfolgenden Synthese als Musteraufzeichnung 11 der Aufzeichnung 10 des betreffenden Klangs gespeichert (Schritt 606).
Als nächstes wird in einem Schritt 608 die lineare Anordnung von Proben x₀, x₁, ... in eine Anordnung dreidimensionaler Koordinatenpunkte s₀, s₁, ... umgewandelt, wobei jeder Koordinatenpunkt s_i den drei Proben x_i–10, x_i, x_i+10 entspricht, um das Sprachsignal in einen Zustandssequenzraum einzubetten (d. h. in einem Zustandssequenzraum darzustellen), wie in 11b dargestellt.
Dann wird der erste Koordinatenpunkt ausgewählt.
Die Bahn der Punkte durch den Zustandssequenzraum wiederholt sich im wesentlichen, wie unter Bezugnahme auf die 3 und 4 besprochen. Daher besteht die Bahn an jedem Punkt aus einer Reihe nahe beieinander liegender „Stränge" oder „Spuren", die jeweils aus dem äquivalenten Teil eines anderen Tonhöhenimpulses bestehen.
Gemäß Schritt 610 gilt für jeden ausgewählten Punkt s_i (in diesem Fall den ersten Punkt s₁₀), daß sich andere Punkte auf andern Spuren des Attraktors befinden, die im Zustandssequenzraum nahe bei dem ausgewählten Punkt s_i liegen. Wie in 11c gezeigt, liegen beispielsweise die Punkte s₁₃ und s₁₄ auf einer ersten Spur und s₁₅₃ und s₁₅₄ auf einer zweiten Spur nahe am Punkt s₁₀. Dementsprechend lokalisiert die CPU 26 in einem Schritt 610 sämtliche Punkte auf andern Spuren (d. h. in anderen Tonhöhenperioden), die im Zustandssequenzraum näher als in einem vorgegebenen Abstand D liegen (wobei D zur Vereinfachung der Berechnung der Euklid'sche Abstand bzw. der quadratische Mittelwertabstand ist). Um eine Durchsuchung und einen Abstandsvergleich aller 10.000 gespeicherten Punkte zu vermeiden, kann die CPU 26 ausschließlich einen begrenzten Bereich von Punkten, beispielsweise die im Bereich von s_{(i+/·5–k·140} untersuchen, wobei k eine natürliche Zahl ist und bei diesem Beispiel 140 Muster in einer Tonhöhenperiode vorgesehen sind, wodurch grob dem Bereich, in dem sich der Bezugspunkt s_i befindet, entsprechende Bereiche jedes Tonhöhenimpulses untersucht werden.
Nach der Lokalisierung einer Gruppe von Punkten auf anderen Spuren als auf der des Bezugspunkts s_i speichert die CPU 26 dann in einem Schritt 612 eine Umgebungsanordnung B_i aus Vektoren b_i, wie in den 11 d gezeigt. Jeder der Vektoren b_i der Anordnung B_i ist ein Vektor vom Bezugspunkt s_i zu einem der anderen, benachbarten Punkte auf einer anderen Spur des Attraktors, wie in den 11 und 13 gezeigt. Ein durch die Umgebungsmatrix B_i repräsentierter Satz derartiger Vektoren liefert eine Darstellung der lokalen Form des Attraktors um den Bezugspunkt s_i, die, wie noch weiter ausgeführt wird, verwendet werden kann, um zu bestimmen, wie sich die Form des Attraktors ändert.
Als nächstes wählt die CPU 26 in einem Schritt 614 entlang der gleichen Spur wie der des ursprünglichen Bezugspunkts s_i den nächsten Punkt s_i+1 aus.
Als nächstes schreitet die CPU 26 in einem Schritt 616 auf jeder der anderen Spuren des Attraktors um einen Punkt vorwärts, um in einem Schritt 616 die entsprechenden Punkte auf den anderen Spuren zu lokalisieren, die die neue Umgebung des neuen Bezugspunkts s_i+1 bilden. In einem Schritt 618 berechnet die CPU 26 die entsprechende Umgebungsvektorenanordnung B_i+1.
Da sich die Tonhöhenimpulse der aufgezeichneten Äußerungen geringfügig voneinander unterscheiden, unterscheiden sich auch die entsprechenden, durch die aufgezeichneten Muster markierten Spuren der Attraktorbahn geringfügig voneinander. An einigen Punkten liegen die Spuren näher beieinander, und an einigen Punkten divergieren sie mehr.
Daher hat der neue Satz B_i+1 Versatzvektoren b_i+1 eine veränderte Position, hat sich etwas gedreht (da die Attraktoren eine Schleife bilden) und hat im allgemeinen auch andere Längen als der vorherige Satz B_i Vektoren b_i. Daher wird bei der Progression um die Attraktorspur von einem Muster zum nächsten der Satz B_i aus den Vektoren b¹ _i, b² _i (und damit die Form des Attraktors, den sie repräsentieren, selbst) nacheinander durch den Versatz, die Drehung und Skalierung transformiert.
Als nächstes wird in einem Schritt 620 die Transformationsmatrix Ti berechnet, die den Vektorensatz B_i, der den Attraktor in der Umgebung des Punkts si definiert, in den Vektorensatz B_i+1 transfor miert, der die Umgebung des Attraktors im Bereich des Bezugspunkts s_i+1 definiert. Die Matrix ist daher wie folgt definiert: BT i–1 = Ti Bi T
Dies kann wie folgt neu umformuliert werden: Ti T = Bi –1 Bi+1
Da B_i eine d·3-Matrix ist (wobei d die Anzahl der verwendeten Versatzvektoren ist, die größer als 3 sein kann), hat B_i im allgemeinen keine exakte Umkehrung B_i ^–1, doch statt dessen kann die Pseudoumkehrung berechnet werden, wie in Moore and Penrose, „A generalised inverse for matrices", Proc. Camb. Phil. Soc., Bd. 51, Seiten 406 – 413, 1955 beschrieben.
Die so berechnete 3·3-Transformationsmatrix T_i ist eine Annäherung an die Transformation jedes der Vektoren, die die Umgebungsmatrix B_i bilden. Da jedoch die Umgebung im Zustaridssequenzraum klein ist und da Sprache über kleine Zeitintervalle lokal linear ist, ist die Annäherung sinnvoll.
Als nächstes wählt die CPU 26 in einem Schritt 622 den nächsten Punkt s_i+1 als neuen Bezugspunkt aus und kehrt zum Schritt 610 zurück.
Daher werden nach der Ausführung des Prozesses gemäß den Schritten 610 bis 622 für jeden der den digitalisierten Sprachmusterwerten x_i entsprechenden Punkte s_i sämtliche so berechneten Transformationsmatrizen zusammen mit den jeweiligen, den Bezugspunkten s_i, für die die Matrix abgeleitet wurde, entsprechenden Datenwerten xi in einer Datenaufzeichnung 12 gespeichert (Schritt 624).
Daher repräsentieren die gespeicherten Transformationsmatrizen T_i am Ende des Prozesses gemäß 12 jeweils, was bei der Vorwärtsbewegung eines Musters längs des Attraktors mit einem Versatzvektor b_i von dem Punkt auf einem Attraktor, für den die Transformationsmatrix berechnet wurde, zu einem anderen, nahegelegenen Punkt im Raum geschieht. Damit ist ersichtlich, wie die Verwendung der so berechneten Transformationsmatrizen gemäß 7 den Aufbau eines neuen, synthetisierten Punkts auf dem Attraktor unter Verwendung einer tatsächlichen Bahn, die einen Teil des Attraktors bildet, eines vorher synthetisierten Punkts (und damit eines vorherigen Vektors von der gespeicherten Bahn zu diesem vorher synthetisierten Punkt) und der Transformationsmatrix selbst ermöglicht.
Die vorstehende Beschreibung betrifft die Ableitung gespeicherter Daten für die Synthese eines stimmhaften Klangs. Zur Speicherung der stimmlose Klänge betreffenden Daten werden nur die Schritte 602 und 606 ausgeführt, da die Speicherung der Transformationsmatrix nicht erforderlich ist.
Nach der vorstehend beschriebenen Ableitung der erforderlichen Daten für jeden stimmhaften und stimmlosen Klang im phonetischen Alphabet werden die gespeicherten Daten (entweder über eine Kommunikationsverbindung oder über einen entnehmbaren Träger wie eine Diskette) an den Speicher 8 der Synthesevorrichtung gemäß 6 übertragen.
Die Wiedergabe stimmloser Klänge
Im Zusammenhang mit dem Schritt 530 wird die Wiedergabe stimmloser Klänge erwähnt. Wie vorstehend besprochen, zeigen stimmlose Klänge kein stabiles, niederdimensionales Verhalten, und daher folgen sie keinen regelmäßigen, sich wiederholenden Attraktoren im Zustandssequenzraum, und die Synthese eines Attraktors, wie den vorstehend beschriebenen, ist daher instabil. Dementsprechend werden stimmlose Klänge gemäß dieser Ausführungsform durch die einfache, aufeinanderfolgende Ausgabe der für den stimmlosen Klang gespeicherten Schwingungsformwerte x_i an den Digital-Analog-Wandler 4 erzeugt. Das gleiche gilt für Verschlußlaute.
Der Übergang zu Klängen
In Bezug auf die Schritte 504, 524 und 528 gemäß 7 wurde der Übergang zu bzw. zwischen Klängen erwähnt. Eine mögliche, für die vorstehend beschriebene Ausführungsform nutzbare Art des Übergangs wird nun genauer beschrieben.
Bezug nehmend auf die 14 und 15 stellt 14 die Schritte dar, die den Schritt 504 bzw. den Schritt 528 gemäß 7 bilden, wogegen 15 ihre Wirkung graphisch darstellt.
Allgemein ausgedrückt interpoliert die vorliegende Erfindung zwischen zwei Schwingungsformen im Zustandssequenzraum, die jeweils einen Klang repräsentieren. Die Zustandsraumdarstellung ist nützlich, wenn eine oder beide Schwingungsformen, zwischen denen die Interpolation erfolgt, synthetisiert werden (d. h. wenn eine oder beide stimmhafte Schwingungsformen sind). Allgemein ausgedrückt werden bei dieser Ausführungsform die synthetisierten Punkte im Zustandsraum abgeleitet, und dann wird der interpolierte Punkt zwischen ihnen berechnet; tatsächlich ist es, wie nachstehend besprochen, nur erforderlich, auf einer Koordinatenachse zu interpolieren, so daß die Zustandsraumdarstellung bei dem tatsächlichen Interpolationsprozeß keine Rolle spielt.
Die Interpolation wird durch progressives, lineares Verändern des Euklid'schen Abstands zwischen den beiden Schwingungsformen im Zustandssequenzraum über mehr als einen Tonhöhenimpulszyklus (beispielsweise über 10 Zyklen) ausgeführt.
Daher werden die Koordinaten eines gegebenen Punkts s^c _m während des Übergangs zwischen stimmhaften Klängen, wie in 15 dargestellt, von den Koordinaten eines Synthesepunkts auf dem Attraktor des ersten Klangs s^a _k im Zustandssequenzraum und einem entsprechenden Punkt auf dem Attraktor des zweiten Klangs s^b _i abgeleitet.
Genauer wird gemäß 14 in einem Schritt 702 ein Index j initialisiert (beispielsweise bei Null).
Im Schritt 704 wird der aktuelle Wert des synthetisierten Attraktors auf der ersten Schwingungsform s'^a _k berechnet, wie vorstehend unter Bezugnahme auf 7 besprochen.
In einem Schritt 706 tastet die CPU 6 die aufgezeichneten Musterwerte nach dem zweiten Klang ab, zu dem übergegangen werden soll, und lokalisiert (beispielsweise durch Bestimmen der Nulldurchgangspunkte) das Muster s_i ^b an der gleichen relativen Position innerhalb einer Tonhöhenperiode der zweiten Schwingungsform als Punkt s_k ^a. Anders ausgedrückt wird, wenn der Punkt s_k ^a auf der ersten Schwingungsform der 30. Punkt ab dem Nulldurchgang innerhalb einer Tonhöhenperiode des ersten Klangs ist, als Punkt s_i ^b ebenfalls der 30. Punkt hinter dem Nulldurchgang einer Tonhöhenperiode des zweiten Klangs ausgewählt.
Dann wird ein synthetisierter Attraktorpunkt s'_i ^b berechnet, wie vorstehend unter Bezugnahme auf 7 beschrieben.
Als nächstes werden in einem Schritt 708 durch lineare Interpolation die Koordinaten eines interpolierten Punkts s_m ^c berechnet. Es ist nur erforderlich, eine Dimension des interpolierten Attraktors zu berechnen, da lediglich eine Synthese des aktuellen Ausgangsmusterwerts, nicht des Musterwerts zehn Muster zuvor oder zehn Muster in der Zukunft gewünscht wird. Daher ist die im Schritt 708 tatsächlich ausgeführte Interpolationsberechnung: x'c m+j = ((N – j)·x'a k+j + j·x'b 1+j)/Nwobei N die Anzahl der Muster ist, über die die Interpolation vorgenommen wird, j ein Index von 0 bis N ist und k, 1 und m die (bei der Interpolation verwendeten) Musterwerte jeweils des Attraktors des ersten Klangs, des Attraktors des zweiten Klangs und der dazwischen liegenden Zustandsraumsequenz bezeichnen.
Dann gibt die CPU in einem Schritt 709 den so berechneten aktuellen Musterwert x'^c _i zur Synthese an den Digital-Analog-Wandler und damit an den Lautsprecher 2 aus.
In einem Schritt 710 überprüft die CPU 6, ob das Ende einer vorgegebenen Übergangsdauer (von beispielsweise 400 Mustern, so daß N = 400 gilt) erreicht ist, und wenn dies nicht zutrifft, wird in einem Schritt 712 der Index j inkrementiert und die Schritte 704, 706 und 708 werden wiederholt, um die nächsten Werte des synthetisierten Attraktors (s'^a _k+j) und des Attraktors des neuen Klangs s'^b _i+j zu berechnen und den nächsten Musterwert für die Ausgabe abzuleiten.
Wenn im Schritt 710 das letzte Muster des Übergangs, j = N, erreicht ist, fährt die CPU 6 mit dem Schritt 506 oder 530 fort, wie vorstehend im Zusammenhang mit 7 besprochen, um den dem Attraktor des zweiten Klangs entsprechenden neuen Klang zu synthetisieren.
Der vorstehend beschriebene Prozeß ist gleichermaßen anwendbar, wenn ein Übergang aus einem Schweigen zu einem gespeicherten, repräsentativen Klang auftritt. In diesem Fall liest die CPU 6 einen entsprechenden Wert null, statt eine Wert s'^a _i zu berechnen, so daß die entsprechende Wirkung einfach ein lineares Abklingen zu dem erforderlichen synthetisierten Klang ist.
Ebenso wird bei einem Übergang von einem Klang zur Stille wie im Schritt 524 die gleiche Sequenz ausgeführt, wie vorstehend unter Bezugnahme auf 14 beschrieben, mit der Ausnahme, daß die CPU 6 Nullwerte einsetzt, um ein lineares Abklingen zur Stille auszuführen, statt aufeinanderfolgende synthetisierte Werte des Attraktors des zweiten Klangs zu berechnen.
Übergang zu und von stimmlosen Klängen
Der vorstehend unter Bezugnahme auf 14 beschriebene Übergangsprozeß wird beim Übergang zu und von einem stimmlosen Klang verändert, da anstelle einer Synthese des stimmlosen Klangs der tatsächlich gespeicherte Wert des stimmlosen Klangs wiedergegeben wird. Dementsprechend spielt der Zustandssequenzraum beim Übergang von einem stimmlosen Klang zum anderen keine Rolle, da es lediglich nötig ist, zwischen entsprechenden aufeinanderfolgenden Punktepaaren des alten stimmlosen Klangs und des neuen stimmlosen Klangs zu interpolieren. Auf die gleiche Weise wird beim Übergang zwischen einem stimmlosen Klang und einem Schweigen ein lineares Abklingen auf oder von dem Wert aufeinanderfolgender Punkte des stimmlosen Klangs ausgeführt.
Zweite Ausführungsform
Anstelle einer Speicherung der Transformationsmatrix für jeden Punkt wird die Transformationsmatrix bei der zweiten Ausführungsform an jedem neu synthetisierten Punkt direkt berechnet; in diesem Fall enthält der Synthesizer gemäß 6 die Funktionalität der Vorrichtung gemäß 10. Eine derartige Berechnung verringert den erforderlichen Speicherplatz um etwa eine Größenordnung, obwohl eine höhere Verarbeitungsgeschwindigkeit erforderlich ist.
Bei dieser Ausführungsform ist anstelle einer direkten Interpolation zwischen Musterwerten zur Erzeugung von Ausgangsmusterwerten, wie vorstehend im Zusammenhang mit der ersten Ausführungsform beschrieben, eine Interpolation zur Erzeugung von Zwischenattraktorsequenzen und entsprechenden Transformationsmatrizen möglich, die die Dynamik der Zwischentransformationssequenzen beschreiben. Dies ergibt dadurch eine größere Flexibilität, daß es möglich ist, die Erzeugung der Zwischenklänge über eine so lange Zeitspanne zu verlängern, wie erforderlich.
Gemäß 16 wird bei dieser Ausführungsform in einem Schritt 802 ein erster Zähler i initialisiert. Der Zähler i stellt die Anzahl der erzeugten Zwischenschablonen ein und hat vorzugsweise eine Länge, die mehreren Tonhöhenzyklen entspricht (anders ausgedrückt beträgt N, der maximale Wert von i, ca. 300–400).
In einem Schritt 804 wird der Wert eines weiteren Zählers j initialisiert; er entspricht der Anzahl der gespeicherten Punkte auf jeder der beiden gespeicherten Schwingungsformen (und sein Maximum, M, liegt daher typischer Weise bei ca. 10.000).
In einem Schritt 806 wird ein entsprechendes Punktepaar s^a _k, s^b ₁ aus den gespeicherten Schwingungsformaufzeichnungen 10 gelesen, wie im Zusammenhang mit der ersten Ausführungsform beschrieben, wobei die Punkte passenden Teilen der jeweiligen Tonhöhenimpulszyklen der beiden Schwingungsformen entsprechen.
Als nächstes wird in einem Schritt 808 ein interpolierter Punkt s^c _m berechnet, wie im Zusammenhang mit der ersten Ausführungsform beschrieben.
Wenn der letzte Punkt auf den Schwingungsformen noch nicht erreicht ist (Schritt 810), wird in einem Schritt 812 der Wert des Zäh lers j entlang den Schwingungsformen hochgezählt, und die Schritte 806–810 werden wiederholt.
Daher ist nach der Ausführung der Schritte 804–812 für jeden gespeicherten Punkt ca. eine halbe Sekunde einer Zwischenschwingungsform berechnet, die eine sich wiederholende Bahn im Raum definiert.
Dann führt die CPU 6 in einem Schritt 814 zur Berechnung der Transformationsmatrizen T_k für jeden Punkt entlang der gespeicherten Bahn die Schritte 610–622 gemäß 12 aus.
Nach der Ausführung des Schritts 814 sind ausreichend Informationen (in Form einer gespeicherten, interpolierten Bahn und gespeicherter interpolierter Transformationsmatrizen) zur Synthese einer Schwingungsform jeder gewünschten Länge anhand der Zwischenbahn verfügbar. Tatsächlich werden die so berechneten Daten in einem Schritt 816 jedoch nur zur Ableitung eines einzigen neuen Punkts s'_i+1 im Zustandssequenzraum durch Transformation des vorherigen, zuletzt ausgegebenen Werts s'_i verwendet.
Der so als Teil von s'_i+1 berechnete Musterwert x'_i+1 wird im Schritt 818 ausgegeben, und bis das Ende des Übergangsabschnitts erreicht ist (Schritt 820), wird der Interpolationsindex i hochgezählt (Schritt 822), und die CPU 6 kehrt zum Schritt 804 zurück, um die nächste interpolierte Bahn und den Dynamiksatz T_k und somit den nächsten auszugebenden Punkt zu berechnen.
Es ist offensichtlich, daß tatsächlich weniger interpolierte Sätze von Bahnen und Sätze von Transformationsmatrizen berechnet und die gleiche Bahn für mehrere aufeinanderfolgende Ausgangsmuster verwendet werden könnten, obwohl bei der vorstehend beschriebenen Ausführungsform jede interpolierte Bahn und jeder Satz von Trans formationsvektoren nur einmal zur Berechnung eines einzigen Ausgangswerts verwendet wird.
Gleichermaßen wäre es möglich, eine nicht lineare Interpolation (die beispielsweise eine S-förmige Funktion beschreibt) zu verwenden, obwohl vorstehend eine lineare Interpolation besprochen wurde.
Gleichermaßen wäre es möglich, den Prozeß gemäß den Schritten 804–818 zur Erzeugung eines konstanten Zwischenklangs zwischen zwei gespeicherten Klängen zu verwenden und so die Erzeugung von Zwischenvokalen oder anderen Klängen aus einem begrenzteren Untersatz gespeicherter Klänge zu ermöglichen, obwohl der Prozeß gemäß 16 für die Erzeugung eines Übergangs zwischen zwei Klängen durch Interpolation beschrieben wurde.
Weitere Ausführungsformen und Variationen
Aus der vorstehenden Beschreibung ist ersichtlich, daß viele Modifikationen oder Variationen an der vorstehend beschriebenen Ausführungsform vorgenommen werden können, ohne von der Erfindung abzuweichen.
Obwohl vorstehend die Speicherung mehrerer Tonhöhenimpulssequenzen beschrieben ist, wäre es zunächst möglich, nur eine einzige Tonhöhenimpulssequenz (d. h. eine einzige Spur des Attraktors) für jeden stimmhaften Klang zu speichern, da der Syntheseprozeß die Reproduktion mehrerer unterschiedlicher synthetisierter Tonhöhenimpulssequenzen anhand dieser ermöglicht. Dadurch kann unter gewissen Umständen das zu speichernde Datenvolumen verringert werden.
Tatsächlich kann anstelle einer tatsächlichen Attraktorspur selbstverständlich eine andere Bezugskurve (beispielsweise eine durch eine Mittelwertbildung erhaltene Attraktorspur) gespeichert werden, vorausgesetzt die Transformationsmatrizen von einer derartigen anderen Kurve zu den tatsächlichen Attraktorsträngen wurde zuvor berechnet, wie vorstehend beschrieben.
Obwohl bei der vorstehend beschriebenen Ausführungsform die Dynamik der Sprachschwingungsform (im Zustandssequenzraum) durch eine Umgebungsmatrix beschrieben wird, die die Transformation von Vektoren zwischen nebeneinander liegenden Strängen eines Attraktors beschreibt, ist offensichtlich, daß die Transformationsmatrix statt dessen die Entwicklung eines Punkts direkt auf dem Attraktor beschreiben könnte.
Wir haben jedoch festgestellt, daß eine Beschreibung der Transformation eines Differenzvektors zwischen einem Tatsächlichen Attraktor und einem weiteren tatsächlichen oder synthetisierten Attraktor den Vorteil einer größeren Stabilität hat, da die synthetisierte Schwingungsform immer zweckmäßig nahe bei einem tatsächlichen gespeicherten Attraktor gehalten wird.
Statt eines Übergangs zwischen jeweiligen synthetisierten Werten stimmhafter Klänge ist ein Übergang zwischen jeweiligen gespeicherten Werten auf die gleiche Weise, wie vorstehend unter Bezugnahme auf die Progression zwischen stimmlosen Klängen beschrieben, möglich, wobei in diesem Fall der Übergang dementsprechend einfach durch lineare Interpolation zwischen aufeinanderfolgenden Paaren entsprechender gespeicherter Musterpunkte der zwei Klänge ausgeführt wird, obwohl eine Verbesserung der Leistung erzielt wird, wenn die Interpolation zwischen Punkten aus entsprechenden Abschnitten von Tonhöhenimpulsen erfolgt, wie vorstehend beschrieben.
Zur Bestimmung entsprechender Punkte aufeinanderfolgender Tonhöhenimpulse könnte statt der vorstehend besprochenen Nutzung der Nulldurchgänge die physische Bewegung des menschlichen Stimmapparats unter Verwendung eins Laryngographen aufgezeichnet werden, der den menschlichen Sprecher überwacht, der die Äußerungen aufnimmt, wie unter Bezugnahme auf 12 beschrieben, um entsprechende physische Positionen des menschlichen Stimmapparats direkt zu identifizieren. Gleichermaßen könnten die Positionen der jeweiligen Attraktoren der beiden Klänge im Zustandssequenzraum zur Identifikation jeweiliger Teile der Klänge verwendet werden (obwohl dieses Verfahren zu Mehrdeutigkeiten führen kann).
Gemäß der Beschreibung erzeugt der Sprachsynthesizer gemäß der in 6 dargestellten Ausführungsform zu der Zeit, zu der jedes Muster berechnet wird, ein Muster nach dem anderen; es wäre jedoch selbstverständlich möglich, vor der Reproduktion eine Folge von Mustern zu erzeugen und zwischenzuspeichern.
Es wäre naheliegend, den vorstehend unter Bezugnahme auf 6 offenbarten Synthesizer so zu modifizieren, daß die CPU eine Amplitudensteuerung durch Skalieren des Werts jedes berechneten Ausgangsmusters oder durch direkte Steuerung eines mit dem Lautsprecher 2 verbundenen Analogverstärkers veranlaßt.
In diesem Fall kann bei Übergängen zu und aus einem Schweigen zusätzlich oder alternativ eine progressive Amplitudensteigerung oder -verringerung genutzt werden.
Ebenso wäre es naheliegend, bei der beschriebenen Ausführungsform eine Veränderung der Tonhöhe durch Verändern der Geschwindigkeit vorzusehen, mit der die CPU 6 dem Digital-Analog-Wandler 4 Ausgangsmuster zuführt.
Obwohl bei der vorstehend beschriebenen Ausführungsform ein Digital-Analog-Wandler und ein Lautsprecher vorgesehen sind, ist es selbstverständlich, den Digital-Analog-Wandler und den Lautsprecher entfernt anzuordnen. Der Sprachsynthesizer kann bei einer wei teren Ausführungsform an einem Standort innerhalb eines Telekommunikationsnetzes (beispielsweise in einer Leitstation oder in einer Vermittlungsstelle) vorgesehen sein. Obwohl der Sprachsynthesizer in diesem Fall einen analogen Ausgang liefern könnte, kann es letztendlich sinnvoll sein, wenn der Sprachsynthesizer eine Folge digitaler Musterausgänge liefert, da die über das Telefonnetz übertragene Sprache in digitaler Form vorliegen kann; die Rekonstruktion einer analogen Schwingungsform erfolgt bei dieser Ausführungsform somit schließlich in einer lokalen Vermittlungsstelle oder durch Komponenten des Endverbraucheranschlusses statt durch einen Digital-Analog-Wandler und einen Lautsprecher, die einen Teil des Sprachsynthesizers bilden. Eine derartige Ausführungsform kann beispielsweise für automatisierte Verzeichnisabfragen verwendet werden, bei denen unter der Steuerung menschlichen Bedienungspersonals oder einer Spracherkennungsvorrichtung eine gespeicherte Teilnehmertelefonnummer betreffende, digitale Informationen als Sprachsignal wiedergegeben werden.
Es ist ersichtlich, daß viele weitere Modifikationen und Varianten hergestellt werden können, ohne daß von dem durch die beiliegenden Ansprüche definierten Rahmen der vorliegenden Erfindung abgewichen würde.

Claims

Verfahren zur Erzeugung eines Outputs einer synthetischen Schwingungsform, der einer Sequenz von im wesentlichen ähnlichen Zyklen enstpricht, mit den folgenden Schritten: (a) Erzeugen eines synthetischen Schwingungsformmusters (x'_j); (b) Erzeugen eines nachfolgenden Musters einer Schwingungsform (X'_i+1) aus dem synthetischen Schwingungsformmuster (x'_j) und Transformationsdaten (T_j, s_j); (c) Spezifizieren dieses nachfolgenden Schwingungsformmusters (x'_i+1) als synthetisches Schwingungsformmuster (x'_j) und Wiederholen von Schritt (b); (d) Mehrfaches Wiederholen von Schritt (b) zur Erzeugung einer Sequenz dieser nachfolgenden Schwingungsformmuster, die einer Vielzahl von Zyklen entspricht; (e) Ausgeben (518) der Muster dieser Sequenz zur Erzeugung des Outputs, der eine synthetische Schwingungsform beinhaltet; dadurch gekennzeichnet, dass die Transformationsdaten Daten (T_j) enthalten, die die Entwicklung dieser Zyklen in zeitlicher Nähe des synthetischen Schwingungsformmusters und die Änderung der Form der Zyklen in zeitlicher Nähe von Zyklus zu Zyklus definieren.
Verfahren nach Anspruch 1, bei dem die Schwingungsform gesprochene Sprache enthält.
Verfahren nach Anspruch 1 oder 2, in dem die Transformationsdaten (T_j), die die Entwicklung dieser Zyklen und die Änderung der Form der Zyklen definieren, dies unter Bezugnahme auf eine vorbestimmte Bezugsschwingungsformsequenz tun.
Verfahren nach Anspruch 3, in dem diese Bezugsschwingungsformsequenz eine gespeicherte Sprachschwingungsform enthält.
Verfahren nach zumindest einem der vorigen Ansprüche, in dem die Schritte (a) und (b) das Erzeugen einer Vielzahl von Werten enthalten, die die Werte der Schwingungsformmuster als Punkt (s'_j) in einem multidimensionalen Raum darstellen, in dem entsprechende Abschnitte der aufeinanderfolgenden Zyklen im wesentlichen überlagert werden.
Verfahren nach Anspruch 5, wenn abhängig von den Ansprüchen 3 oder 4, in dem die Transformationsdaten (T_j) eine Umwandlung darstellen, die einer Umwandlung angenähert ist, die einen ersten Verschiebungsvektor (b_j), der sich von einem ersten Zeit-Punkt (s_j) auf der Bezugsschwingungsformsequenz bis zu einem entsprechenden Zeit-Punkt (s'_j) auf der Schwingungsform, die synthetisiert werden soll, erstreckt, in einen zweiten Verschiebungsvektor (b_j+i) umwandeln würde, der sich von einem zweiten Punkt (s_i+1), der auf den ersten folgt auf der Bezugsschwingungsformsequenz, bis zu einem entsprechenden zweiten Punkt (s'_j+i) auf der Schwingungsform erstreckt, die synthetisiert werden soll.
Verfahren nach zumindest einem der Ansprüche 3 bis 6, bei dem ein Muster einer nachfolgenden Schwingungsform (x'_j) abgeleitet wird in Übereinstimmung mit Daten eines Punkts (x'_j) auf der Bezugsschwingungsformsequenz an einer Position innerhalb des Zyklusses, die dem des Musters der gegebenen nachfolgenden Schwingungsform (x'_j) entspricht, und mindestens eines anderen Punkts (x_j+1) auf der Bezugsschwingungsformsequenz, der zeitlich davon abgesetzt ist.
Verfahren nach zumindest einem der vorigen Ansprüche, in dem Schritt (b) das Berechnen der Transformationsdaten (T_j) aus einem Satz gespeicherter Schwingungsformwerte beinhaltet.
Verfahren nach zumindest einem der vorigen Ansprüche, bei dem das anfängliche Ausführen von Schritt (a) zur anfänglichen Synthese der Schwingungsform einen Auswahlschritt (516) eines Anfangswertes enthält, der sich von einem ursprünglichen Anfangswert unterscheidet, der bei einer vorherigen Synthese der Schwingungsform ausgewählt wurde.
Verfahren nach Anspruch 9, in dem der Auswahlschritt (516) die Anwendung eines Algorithmus zur Erzeugung einer Pseudozufallszahl zur Auswahl der Werte enthält.
Verfahren nach Anspruch 9 oder 10, in dem der Auswahlschritt (516) die Bezugnahme auf den gespeicherten Wert eines Schwingungsformmusters und das Berechnen eines synthetisierten anfänglichen Schwingungsformwerts, der ähnlich aber nicht gleich dem gespeicherten Wert der Schwingungsform ist, enthält.
Verfahren zur Synthese eines zyklischen Geräuschs zwischen zwei anderen zyklischen Geräuschen, wobei für jedes eine Abfolge von Musterwerten, die einer Vielzahl von Zyklen entsprechen, gespeichert ist, mit den Schritten Erzeugung (808) interpolierter Schwingungsformmuster, die aus einer Abfolge von Werten bestehen, von denen jeder aus einem Punktepaar interpoliert wird, jeweils einer von entsprechenden Abschnitten eines Zyklus von jeder der gespeicherte Schwingungsformen; Erzeugen eines Musters einer synthetischen Schwingungsform; gekennzeichnet durch: Erzeugen (814) von Transformationsdaten (T_j), die die Entwicklung der interpolierten Schwingungsform in zeitlicher Nähe des Musters einer synthetischen Schwingungsform (s'_j) definieren; und Erzeugen eines Musters einer nachfolgenden Schwingungsform (s'_j+1) aus dem synthetischen Schwingungsformmuster (s'_j) und den Transformationsdaten (T_j).
Synthesevorrichtung, die so ausgebildet ist, dass sie bei Betrieb das Verfahren nach zumindest einem der vorigen Ansprüche ausführt.