DE2945413C1

DE2945413C1 - Verfahren und Vorrichtung zur Synthetisierung von Sprache

Info

Publication number: DE2945413C1
Application number: DE2945413A
Authority: DE
Inventors: Milton New York N.Y. Baumwolspiner
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1978-04-06
Filing date: 1979-04-02
Publication date: 1984-06-28
Also published as: US4163120A; FR2457537A1; WO1979000892A1; EP0011634A1; JPS5930280B2; JPS56500353A; GB2036516B; GB2036516A; FR2457537B1; CA1105621A

Description

Die Erfindung betrifft ein Verfahren und eine zugehörige Vorrichtung zur Synthetisierung von Sprache mit folgenden Verfahrensschritten:

a) Abspeichern von Digital-Datengruppen, die je ein Kurvenformsegment von Sprache innerhalb einer Tonhöhenperiode mit mehreren Formanten in Form digital codierter, mit einer Basisabtastrate gewonnener Amplitudenabtastwerte darstellen;

b) Auslesen und Aneinanderreihen von Digital-Datengruppen, die abhängig von den zu erzeugenden Wörtern gewählt sind.

Verfahren zur Synthetisierung von Sprache mit Hilfe eines Sprachkurvenform-Synthetisierers sind bekannt. Wegen der verwendeten Syntheseverfahren und Kombinationssysteme haben jedoch die Sprachsynthetisierer entweder ein unerwünscht kleines Vokabular oder schlechte Klangqualität oder sind im Aufbau und der Betriebsweise so aufwendig, daß sie für viele erwünschte kommerzielle Anwendungen unbefriedigend sind.

Beispielsweise sind Schaltungsanordnungen zur Synthetisierung von Sprache in Realzeit durch Verknüpfung von Formant-Daten entwickelt worden. Solche Schaltungsanordnungen können zwar Sprache hoher Qualität erzeugen, es sind aber komplizierte und aufwendige Bauteilanordnungen erforderlich.

Sprache ist außerdem auch schon durch eine lineare Voraussage der Sprachkurvenform synthetisiert worden. Dieses Verfahren ergibt eine höhere Sprachqualität als die vorgenannten Anordnungen, benötigt aber einen größeren Speicherraum sowie ebenfalls komplizierte und aufwendige Bauteilanordnungen.

Bekannt ist auch ein Verfahren zur Sprachsynthetisierung (US-PS 38 92 919), bei dem Sprachkurvenformsegmcnte mit der Länge einer Tonhöhenperiode wahlweise

ho zu der gewünschten Sprachkurvenform zusammengesetzt werden. Zur Verbesserung der synthetisierten Sprache wird dabei die Länge der gespeicherten Kurvcnformsegmente beim Auslesen verändert, ohne dabei jedoch die Frequenz zu verändern, weil das Auslesen

b5 mit konstanter Rate entsprechend einer festen Taktfrequenz erfolgt.

Der Erfindung liegt die Aufgabe zugrunde, eine einfache Sprachsynthetisierung zu ermöglichen, die ohne

ORIGINAL INSPECTED

großen Aufwand ein verhältnismäßig großes Vokabular von Lauten hoher Qualität erzeugt.

Zur Lösung der Aufgabe geht die Erfindung aus von einem Verfahren der eingangs genannten Art und ist dadurch gekennzeichnet, daß das Auslesen gemäß Verfahrensschritt b) mit einer Rate erfolgt, die abhängig von der zu erzeugenden Sprachkurvenform von Tonhöhenperiode zu Tonhöhenperiode veränderbar und gleich, kleiner oder größer als die Basisabtastrate ist.

Weiterbildungen des Verfahrens sowie Vorrichtungen zur Durchführung des Verfahrens sind Gegenstand der Unteransprüche. So können die gespeicherten Kurvenformsegmente Datenpunkte darstellen, die in einer Darstellung mit rechtwinkligen Koordinatenachsen, in der die Frequenzen des Formanten Fl in Abhängigkeit von den Frequenzen des Formanten F2 in doppeltlogarithmischem Maßstab dargestellt sind, auf einer Geraden liegen, die vorzugsweise eine Steigung m = — 1 besitzt. Gewünschte Kurvenformsegmente entsprechend Datenpunkten abseits der Geraden lassen sich dann durch Änderung der Ausleserate des Speichers erzeugen. Die Wahl einer Steigung m = -1 bewirkt, daß eine Zeitkompression oder Zeitexpansion der Kurvenformsegmente die Eigenschaften der Formanten Fl und Fl proportional beeinflußt.

Die Digital-Datengruppen, die je ein Kurvenformsegment darstellen, werden nachfolgend auch Basisfunktionen genannt. In den Zeichnungen zeigt

Fig. 1 ein Blockschaltbild eines Sprachsynthetisierers nach der Erfindung;

F i g. 2 als Beispiel eine vollständige Sprachkurvenform;

F i g. 3 eine grafische Darstellung von Basisfunktions-Datenpunkten in einer doppeltlogarithmischen Darstellung von Formantfrequenzen;

Fig.4 bis 15 die Basisfunktions-Kurvenformsegmente, die durch die doppeltlogarithmische Darstellung in F i g. 3 angegeben werden;

Fig. 16 und 17 Basisfunktions-Kurvenformsegmente, die in F i g. 3 nicht gezeigte Datenpunkte darstellen;

Fig. 18 eine Tabelle A mit der Organisation von Informationen bezüglich von Datenpunkten, die ein gewähltes Wort darstellen;

Fig. 19 eine Tabelle 1 mit einer Liste von Basisfunktions-Adressen;

F i g. 20 eine Tabelle 2 mit Basisfunktionsdaten;

Fig.21 ein Flußdiagramm mit Verfahrensschritten für die Erzeugung von synthetisierten Sprachkurvenformen.

In F i g. 1 ist ein Ausführungsbeispiel eines Sprachsynthetisiersystems gezeigt. Das System enthält einen Mikrocomputer 10 mit einem ersten und einem zweiten Digital-Analogwandler (D/A) 11 und 12 zur Abgabe eines analogen Ausgangssignals an einen Lautsprecher 13. Der Mikrocomputer enthält einen Mikroprozessor 15, der mit einem Speicher 18 und einer Ein-Ausgabeeinrichtung (I/O) 20 zwischen dem Mikroprozessor 15 und den Digital-Analogwandlern 11 und 12 geschaltet ist.

Der gezeigte Speicher enthält sowohl einen Schreiblesespeicher (RAM) als auch einen Festwertspeicher (ROM).

Wie nachfolgend noch genauer beschrieben werden soll, enthält der Speicher 18 eine Vielzahl von Digital-Datengruppen oder Basisfunktionen, wobei jede Gruppe ein mit einer Basisspeicherrate aufgezeichnetes Sprachkurvenformsegment darstellt. Diese Speicherung kann durch Speichern digitalcodierter Amplitudenabtastwerte der analogen Kurvenform durchgeführt werden, wobei die Abtastwerte mit einer einheitlichen Basisabtastrate bestimmt werden. Jede Datengruppe definiert eine Kurvenform einschließlich von zwei oder mehreren Formanten, die in Sprachlauten auftretende Harmonische sind und mathematisch durch Ausdrücke angegeben werden, die zeitabhängige Variationen der Sprachamplitude darstellen. Diese Ausdrücke ändern sich von einem Laut zu einem anderen. Der Mikroprozessor 15, die Ein-Ausgabeeinrichtung 20, die Digital-Analogwandler 11, 12 und der Lautsprecher 13 erzeugen zusammen eine Sprachkurvenform, indem eine Folge von gewählten Segmenten der codierten und gespeicherten Kurfenformsegmente gewählt und ausgelesen wird, diese Segmente in analoge Kurvenformsegmente umgewandelt und dann die analogen Segmente zu einem Sprachlaut verknüpft werden.

Mit Hilfe weiterer Informationen im Speicher 18 und ebenfalls ausgewählt durch den Mikroprozessor 15 können die gespeicherten Kurvenformen aus dem Speicher mit der Basisabtast- oder Speicherrate oder mit einer von der Basisspeicherrate verschiedenen Rate gelesen werden. Wenn die Kurvenformen mit einer von der Basisspeicherrate verschiedenen Rate gelesen werden, ist es möglich, das für eine qualitativ hochstehende Spracherzeugung geeignete Frequenzspektrum mit einer kleinen Anzahl von gespeicherten Sprachabtast-Kurvenformsegmenten zu überspannen. Durch eine solche Begrenzung der Anzahl der aufgezeichneten Sprachkurvenformsegmente ist es möglich. Laute hoher Qualität für ein großes Vokabular mit einem verhältnismäßig kleinen Speicher bei niedrigem Aufwand zu erzeugen. Die Kosten stehen jedoch zur Größe des gewünschten Vokabulars in Beziehung, da jeder zu erzeugende Laut eines Wortes durch eine Liste von Datenpunkten beschrieben werden muß.

Eine Begrenzung des Aufwandes ergibt sich auch, weil ein Mikroprozessor statt eines größeren und aufwendigeren Computers die Operation zur Lauterzeugung steuert. Der Mikroprozessor 15 ist in der Lage, die Erzeugung von Sprachlauten zu steuern, da die Hauptoperationen des Systems auf eine Steuerung der Rate für das Speicherauslesen von Daten zu den Digital-Analogwandlern 11 und 12 beschränkt ist. ohne daß irgendwelche zeitraubenden arithmetischen Operationen nötig sind.

Vor einer Beschreibung des Synthetisierers ist es zweckmäßig, auf einen Teil der Theorie einzugehen, auf der das Sprachkurvenform-Synthetisiersystem beruht

so Akustische Eigenschaften von stimmhaften Lauten werden durch die Eigenschaften des Sprachtraktes bestimmt, der ein Rohr enthält, in welchem stimmhafte Laute erzeugt werden. Ein stimmhafter Laut wird durch Schwingungen einer Luftsäule innerhalb des Rohres erzeugt. Die Luftsäule schwingt in verschiedenen Moden oder Resonanzfrequenzen für jeden gesprochenen stimmhaften Laut. Diese Moden oder Resonanzfrequenzen sind als Formantfrequenzen Fl, F2, FZ ... Fn bekannt. Jedes Kurvenformsegment für jeden gespro-

bo chenen stimmhaften Laut hat seine eigenen Formantfrequenzen, die fortlaufend numeriert sind, beginnen mit der niedrigsten harmonischen Frequenz in diesem Segment.
Die akustischen Eigenschaften von stimmlosen Sprachlauten werden anders als die der stimmhaften Laute bestimmt. Die stimmlosen Laute werden in typischer Weise dadurch erzeugt, daß Luft durch eine öffnung strömt. Ein solches Strömen von Luft wird durch

einen Rauschstoß beschrieben.

Vollständige Lautkurvenformen von gesprochener Sprache können aus einer begrenzten Anzahl von gewählten Sprachkurvenformsegmenten erzeugt werden. Diese Kurvenformsegmente werden manchmal dadurch verknüpft, daß das gleiche Kurvenformsegment viele Male wiederholt wird, und in anderen Fällen indem unterschiedliche Kurvenformsegmente nacheinander kombiniert werden. Stimmhafte oder stimmlose Laute oder beide können zur Darstellung jedes gewünschten Sprachlautes verwendet werden.

Gemäß Fig.2 besteht eine als Beispiel angegebene, vollständige Lautkurvenform aus einer Verknüpfung von mehreren stimmhaften Kurvenformsegmenten A, B₁ C. Jedes Kurvenformsegment hat eine Dauer, die Tonhöhenperiode genannt wird. Die Dauer der Tonhöhenperiode kann sich von Segment zu Segment ändern. Abhängig von der Erzeugung des vollständigen stimmhaften Lautes kann die Form der Kurvenformsegmente für aufeinanderfolgende Tonhöhenperioden ähnlich oder verschieden sein. Für viele Laute sind die aufeinanderfolgenden Kurvenformsegmente wesentlich voneinander verschieden. Zum Aufbau der vollständigen Lautkurvenform werden die aufeinanderfolgenden Kurvenformsegmente A, B und C am Ende einer Tonhöhenperiode und dem Anfang der nächsten miteinander verknüpft, unabhängig davon, ob die erste Kurvenform vollständig erzeugt ist oder nicht. Wenn die Kurvenform vor dem Ende der Tonhöhenperiode beendet ist, wird der letzte Wert der Kurvenform gespeichert, bis die nächste Tonhöhenperiode beginnt.

Obwohl stimmlose Laute Teil typischer Sprachkurvenformen sind, enthält F i g. 2 keine solchen Laute. Das mathematische Modell stimmhafter und stimmloser Laute ist eine Funktion in der komplexen Frequenzebene. Für stimmhafte Vokallaute ist ein geeignetes mathematisches Modell als Laplace-Transformation bestimmt worden. Wenn Laplace-Transformationen von Sprachkurvenformsegmenten benutzt werden, so wird eine Kurvenformsegment-Laplace-Transformation H(s) ausgedrückt als

wf

wobei

H.(s)

für bestimmte Formanten ist.
Darin bedeuten

w„ = 2 ,T(Fn),

Fn = Frequenz des n-ten Formanten, b„ = die Bandbreite, die der Formantfrequenz mit dem gleichen numerischen Index π zugeordnet

ist, und
s = der komplexe Frequenzoperator.

Der vorstehende Ausdruck für die Formantfrequenz Fn kann durch eine inverse Laplace-Transformation in einen zeitebenen Ausdruck umgewandelt werden.

fn(t)

Jedes Sprachkurvenformsegment ist eine Abwicklung der Frequenzebenen-Ausdrücke, die alle geeigneten Formanten angeben.

Die vollständige Sprachkurvenform hat eine inverse Laplace-Transformation, die zu einer zusammengesetzten Zeitkurvenform f(t) mit einer Anzahl von abklingenden Segmenten in Form einer gedämpften Sinuskurve führt, beispielsweise solche, die in Fig. 2 gezeigt sind. Vollständige Kurvenformen von stimmhaften Lauten sind daher eine Aufeinanderfolge von gedämpften Sinuskurven, die sich sowohl mathematisch als auch in der Praxis nachbilden lassen. Wichtige Parameter zur Beschreibung einzelner Sprachkurvenformsegmente sind die Formantfrequenzen, die Dauer der Tonhöhenperiode und die Amplitude der Kurvenform.

Bei der tatsächlichen Nachbildung der vollständigen Kurvenformen ergibt sich eine Schwierigkeit, weil zur Erzielung eines Modells guter Qualität die Entwickler von Sprachsynthetisierern versuchen, die vollständige Kurvenform für jeden stimmhaften und stimmlosen Laut genau nachzubilden. Diese Laute sind jedoch über einen weiten Bereich von ersten und zweiten Formantfrequenzen verstreut, die durch die Grenzen des Hörfrequenzbereiches eingeschränkt werden. Zur erfolgreichen Durchführung des Syntheseverfahrens mit einer vernünftig großen Speicherkapazität sind bei bekannten Synthesesystemen Daten gespeichert worden, die eine gewählte Matrix von Punkten im Parameterraum mit den Formanten FI und F2 als Koordinatenachsen

jo darstellen. Die Anzahl der Punkte war ziemlich groß.

Die Nachbildung von stimmhaften und stimmlosen Lauten ist nach dem Stand der Technik wie folgt durchgeführt worden.

1) Analoges Speichern vollständiger Kurvenformen und nachfolgendes Reproduzieren dieser analogen Kurvenformen auf Befehl.

2) Gewinnung von Amplitudenabtastwerten vollständiger Kurvenformen, analoges Speichern dieser Amplitudenabtastwerte für vollständige Lautkurvenformen und nachfolgendes Reproduzieren der vollständigen analogen Kurvenformen anhand der gespeicherten Abtastwerte.

3) Analoges Aufzeichnen vieler Kurvenformabschnitte und nachfolgendes Kombinieren gewählter Abschnitte der aufgezeichneten Kurvenformabschnitte zur Erzeugung einer gewünschten vollständigen analogen Kurvenform auf Befehl.

4) Gewinnen von Amplitudenabtastwerten, digitales Codieren dieser Abtastwerte, Aufzeichnen der codierten Abtastwertc, nachfolgendes Reproduzieren analoger Kurvenformabschnitte aus gewählten Abschnitten der gespeicherten, codierten Abtastwerte und Kombinieren der reproduzierten Kurvenformabschnitte zur Erzeugung einer gewünschten, vollständigen, analogen Kurvenform auf Befehl.

Stimmlose Reibelaute sind mathematisch als das Anbo sprechen eines Reibe-Pol-Nullstellennetzwerk auf weißes Rauschen nachgebildet worden. Mehrere unterschiedliche Modelle von Pol-Nullstellennetzwerken sind zur Erzeugung unterschiedlicher Reibelaute, beispielsweise »s« und »f« benutzt worden.

Die vorliegende Erfindung läßt sich als Gegensatz zu dem oben erläuterten Stand der Technik durch Beschreibung des Ausführungsbeispiels am besten beschreiben, bei dem nur wenige Kurvenformsegmente

für einen nachfolgenden Aufbau von vollständigen analogen Lautkurvenformen abgetastet und gespeichert werden. Diese gespeicherten Kurvenformsegmente werden Basisfunktionen genannt.

In Fig.3 sind die Frequenzen des Formanten Fl in Abhängigkeit von den Frequenzen des Formanten F2 im doppcltloguriihniischcn Maßstab dargestellt, um die Frequenzanteile verschiedener stimmhafter Laute zu lokalisieren. Die erste Formantfrequenz Fi reicht für verschiedene Vokale und Diphthong-Laute von etwa 200 Hz bis etwa 900 Hz. Die zweite Formantfrequenz F2 reicht für die gleichen Laute von etwa 600 Hz bis etwa 2700 Hz. Die in F i g. 2 nicht gezeigte dritte Formantfrequenz F3 reicht für die gleichen Laute von etwa 2300 Hz bis 3200 Hz. Für stimmhafte Laute und Diphthong-Laute sind 12 Kurvenformsegmente d\(Ö) bis (Zi(II) an im wesentlichen mit gleichem Abstand angeordneten Datenpunkten entlang einer einzelnen geraden Linie 46 gewählt, die den Parameterraum von F1 in Abhängigkeit von F2 mit einer Steigung m= -1 durchläuft.

Jeder der 12 Datenpunkte d\(0) bis c/i(11) auf der Linie 46 in F i g. 3 identifiziert die Formantfrequenzen F1 und F2 einer unterschiedlichen Basisfunktion d\(n). Für jede Basisfunktion ist ein Kurvenformsegment im Speicher 18 in F i g. 1 gespeichert. Jedes Kurvenformsegment hat die Dauer einer Basis-Tonhöhenperiode von 18,25 ms. Für jedes Kurvenformsegment liefern 146 Amplitudenabtastwerte Informationen bezüglich der anteiligen Kurvenformen von sovielen Formantfrequenzen, wie gewünscht. Eine Möglichkeit zur Speicherung solcher Kurvenformsegmente besteht in einer periodischen Abtastung der Amplitude der jeweiligen Kurvenform mit einer Basisabtastrate, beispielsweise 8 kHz, und danach Codieren der sich ergebenden Amplitudenabtastwerte (beispielsweise in Digitalwörter mit 8 Bits.die jeden Abtastwert auf eine von 256 Amplitudenstufen quantisieren).

Fig.4 bis 15 zeigen die Kurvenformsegmente von stimmhaften Lauten für die Basisfunktionen d\(0) bis Ji(Il). In Fig.4 bis 15 sind die Kurvenformen auf einer vertikalen Achse dargestellt, wobei die gezeigte Amplitude zwei Skalen besitzt. Eine Vertikalskala hat skalare Einheiten, die die Amplitudenstufen angeben, und die andere Skala gibt die skalaren Einheiten im Oktalcode an. Die horizontale Skala in den Fig.4 bis 15 gibt die Zeit in Abtastwerten an.

Fig. 16 und 17 zeigen Kurvenformsegmente für stimmlose Laute der Basisfunktionen d\(\2) und d\(\3). Diese Basisfunktionen sind auf ähnliche Weise wie die änderen Basisfunktionen dargestellt. Daten, die jede der beiden Basisfunktionen d\(\2) und </t(13) für stimmlose Laute beschreiben, sind außerdem im Speicher 18 in Fig. 1 zusammen mit den anderen Basisfunktionen abgelegt. Es gilt die gleiche Dauer von 18,25 ms für diese beiden Basisfunktionen, obwohl ihnen nicht die gleiche, sich wiederholende Tonhöhenperiode zugeordnet ist.

Obwohl die aufgezeichneten Daten, die die 14 Basisfunktionen darstellen, nicht mehr als Kurvenformsegmente darstellen, welche 12 Abtastpunkte für stimmhafte Laute entlang der geneigten Linie 46 in F i g. 3 beschreiben zuzüglich von Kurvenformsegmenten, die zwei stimmlose Laute angeben, liefern diese Basisfunktionen zusammen mit weiteren Parameterdaten die Basisinformationen zur Erzeugung eines großen Vokabulars von Kurfenformen von vollständigen Lauten guter Qualität. Unter erneuter Bezugnahme auf F i g. 3 ergibt sich, daß ein großer Teil des Rechtecks, das den relevanten Parameterraum für stimmhafte Laute umgibt, nicht durch Datenpunkte bedeckt ist, die die Basisfunktionen d\(0) bis c/i(11) darstellen. Kurvenformsegmente für stimmhafte Laute, die Laute für Punkte abseits der geneigten Linie 46 in Fig.3 darstellen, werden dadurch angenähert, daß eine der Basisfunktionen ausgewählt, aus dem Speicher 18 gelesen und über den Mikroprozessor und die Eingangs-Ausgangseinrichtung 20 zum Digital-Analogwandler 11 mit einer Rate übertragen

ίο wird, die von der Basis-Aufzeichnungsrate verschieden ist.

Unter Verwendung einer bekannten Laplace-Transformation \/ä[f(t/a)\ = F(as) kann eine Zeitkompression und -Expansion zur linearen Maßstabsbeeinftussung der Frequenzebene verwendet werden, wodurch die Formantfrequenzen nach oben oder unten verändert werden. Irgendeine Basisfunktion wird zeitlich dadurch komprimiert, daß sie mit einer schnelleren Rate als der Basisaufzeichnungsrate oder Basisspeicherrate gelesen wird, und zeitlich expandiert, indem sie mit einer langsameren Rate als der Basisspeicherrate ausgelesen wird. Gemäß F i g. 3 wird die Zeitkompression der Basisfunktionen zur Erzeugung von Kurvenformsegmenten benutzt, die durch eine Matrix von Punkten innerhalb des Rechtecks identifiziert sind, sich aber oberhalb und rechts von der Basisfunktionslinie 46 befinden. Eine Zeitexpansion wird zur Erzeugung von Kurvenformsegmenten verwendet, die durch eine Matrix von Punkten innerhalb des Rechtecks definiert werden, sich aber unterhalb und links von der Basisfunktionslinie 46 befinden.

Kurvenformsegmente für stimmlose Laute abweichend von den beiden Basisfunktionen f/i(12) und tfi(13) können ebenfalls durch Komprimieren und Expandieren dieser beiden Kurvenformen auf ähnliche Weise erzeugt werden.

Kurvenformen für vollständige Laute werden durch Verknüpfen gewählter Kurvenformsegmente erzeugt, die auf Befehl geliefert werden. Solche Kurvenformen für vollständige Laute können sowohl stimmhafte als auch stimmlose Laute enthalten.

Neben der gerade beschriebenen Information bezüglich der Amplitudenabtastwerte werden weitere Informationen zur Beschreibung eines vollständigen Sprachlautes benötigt. Jeder vollständige, gesprochene Laut enthält eine Verknüpfung von vielen Kurvenformsegmcnten, die aus gewählten Basisfunktionen der 14 Basisfunktionen erzeugt werden. Die Einrichtungen gemäß F i g. 1 folgen einem vorgegebenen Unterprogramm zur Erzeugung jedes gewünschten, vollständigen Lautes aus den Basisfunktionen. Eine Liste der Basisfunktionen in der Reihenfolge ihrer Auswahl ist im Speicher 18 gemäß F i g. 1 in einer Datentabelle A gespeichert Die Anzahl der für jeden vollständigen Sprachlaut zu verknüpfenden Basisfunktionen kann stark schwanken, aber die Datentabelle enthält eine Liste einer gewissen Anzahl von 24-Bit-Datenpunkten für jedes der Wörter oder der vollständigen, zu erzeugenden Sprachlaute.

Fig. 18 mit der Tabelle A enthält eine Liste von Da-

bo ten, die die vollständige Kurvenform als Beispiel für den Laut des Wortes »who« angibt. Drei Datenbytes werden zur Darstellung jedes Datenpunktes oder jedes Kurvenformsegmentes benutzt, die zur Herstellung der Kurvenform des vollständigen Lautes zu verknüpfen sind. Diese Datenpunkte sind sequentiell vom Punkt 1 bis zum Punkt Naufgelistet.

Für jeden Datenpunkt geben die vier niedrigststelligen Bits 55 des ersten Byte an, welche der 14 Basisfunk-

tionen d\(n) zur Erzeugung der Kurvenform ausgewählt wird. Die vier höchststelligen Bits 60 des ersten Byte geben an, welcher Betrag einer Zeitkompression oder -Expansion, ausgedrückt durch einen Kompressions/Expansionskoeffizienten d^m) benutzt werden muß, um eine gewünschte Ausleseperiode für die Basisfunktion zu erhalten. Die Kompressions/Expansionskoeffizienten für das Diagramm in F i g. 3 sind in Tabelle B angegeben.

Tabelle B
Kompressions/Expansionskoeffizient

Koeffizient

Wert

0,755

0,844

0,918

1,00

1.09

1,18

1,29

1,40

Unter erneuter Bezugnahme auf Fig. 18 ergibt sich, daß das zweite Byte 65 für jeden Datenpunkt die Tonhöhenperiode als eine von 256 möglichen Zeitperioden definiert. Diese Tonhöhenperiode wird zur Abkürzung oder Verlängerung des zugeordneten, rekonstruierten Kurvenformsegmentes der Basisfunktion abhängig von der relativen Länge der Basisfunktions-Ausleseperiode und der Tonhöhenperiode benutzt.

Eine weitere Datenpunkt-Kurvenform wird mit ihrem unmittelbar vorgehenden Kurvenformsegment bei Beendigung des vorhergehenden Kurvenformsegmentes am Ende der Tonhöhenperiode verknüpft. Das dritte Byte 70 für jeden Datenpunkt gibt an, welche der 256 Amplituden-Quantisierungsstufen benutzt werden soll, um die aus der Basisfunktionstabelle gelesene Amplitude des Kurvenformsegmentes zu modifizieren.

Die Amplituden- und Tonhöheninformationen mit Bezug auf jeden gewünschten Laut lassen sich mil Hilfe bekannter Analyseverfahren bestimmen.

Alle Daten, die die 14 Basisfunktionen darstellen, sind im Speicher 18 in F i g. 1 abgelegt und befinden sich dort an entsprechenden Basisfunktionsadressen. Die 146 Datenwörter, die die Amplitudenabtastwerte jeweils einer Basisfunktion darstellen, sind in aufeinanderfolgenden Adressen im Speicher 18 in F i g. 1 gespeichert.

Fig. 19 zeigt eine Tabelle 1 mit 28 Bytes zur indirekten Adressierung der Basisfunktionen. In Tabelle 1 sind 14 Zwei-Byte-Adressen, die die absolute Start- oder Anfangsadresse jeder der 14 Basisfunktionen in einer noch zu beschreibenden Tabelle 2 identifizieren. Die in Tabelle 1 (F i g. 19) angegebenen Adressen werden durch den Mikroprozessor 15 in F i g. 1 abhängig von dem Basisfunktionsparameter d\(n) gewählt, der in Tabelle A in F i g. 18 gespeichert ist.

F i g. 20 zeigt Tabelle 2 zur Speicherung von Basisfunktionsdaten. Wie oben erwähnt, werden die aufeinanderfolgend codierten Amplitudenabtastwerte in sequentiellen Adressen für jede Basisfunktion d\(n) gespeichert. Alle Amplitudenabtastwerte für jede Basisfunktion können aus dem Speicher 18 in F i g. 1 dadurch gelesen, daß der Anfangsabtastwert adressiert und Informationen aus dieser Adresse und den nachfolgenden 145 Adressen gelesen werden. Demgemäß reichen die in Tabelle 1 angegebenen 14 Adressen aus, um alle Basisfunktionsdaten auf Befehl im Speicher 18 zu lokalisieren und auszulesen.

Es sei erneut auf F i g. 1 Bezug genommen. Die Schaltungsanordnung erzeugt gewählte Laute anhand der in der Datenpunkttabelle A und in der Basisfunktionstabelle 2 gespeicherten Daten. Ein Anwendungsprogramm ist außerdem im Speicher 18 abgelegt. Der Speicher ist mit dem Mikroprozessor l5 verbunden, der die ίο Auswahl, die Wegleitung und die Zeitsteuerung bei den Datenübertragungen aus der Tabelle A und der Tabelle 2 im Speicher 18 über den Mikroprozessor 15 und die Eingangs/Ausgangseinrichtung zu den Digital-Analogwandlern 11 und 12 steuert.

Obwohl die beschriebenen Operationen zur Verarbeitung von Basisfunktionsdaten zwecks Erzeugung von gesprochenen Lauten unter Verwendung vieler Anordnungen und Verfahren durchgeführt werden können, sind in einem praktischen Ausführungsbeispiel der Anordnung gemäß F i g. 1 ein Mikroprozessor, eine Eingangs/Ausgangseinrichtung und ein Digital-Analogwandler verwendet worden.

Der Speicher wurde in Form eines Schreiblesespeichers und eines Festwertspeichers verwirklicht. Der Schreiblesespeicher' wird durch ein Bauteil und der Festwertspeicher durch vier oder mehr Bauteile dargestellt. Ein Speicher wird für das Anwendungsprogramm, Speicher werden zur Aufnahme der Tabellen 1 und 2 und ein weiterer oder weitere Speicher werden zur Aufnähme der Wörterlisten der Tabelle A benutzt.

Bei dem praktischen Ausführungsbeispiel verbindet ein Adressenbus 30 den Mikroprozessor 15 mit dem Speicher 18 zur Adressierung von Daten, die aus dem Speicher gelesen werden sollen, und mit der Eingangs-Ausgangseinrichtung 20 zur Steuerung von Informationsübertragungen vom Mikroprozessor zur Eingangs-Ausgangseinrichtung 20. Ein 8-Bit-Datenbus 31 verbindet den Speicher mit dem Mikroprozessor zur Übertragung von Daten aus dem Speicher zum Mikroprozessor auf Befehl. Der Datenbus 31 verbindet außerdem den Mikroprozessor 15 mit der Eingangs-Ausgangseinrichtung 20 zur Übertragung von Daten vom Mikroprozessor zur Eingangs-Ausgangseinrichtung mit der durch den Kompressions-Expansionskoeffizienten d2(m) gemaß Tabelle A angegebenen Basisfunktions-Ausleserate.

Ein Flußdiagramm der Programmierstufen, die zur Umwandlung des Mikro-Computers in einen Sonderzweckrechner dienen, ist in Fig. 21 gezeigt. Jeder in dem Flußdiagramm angegebene Schritt ist an sich bekannt und kann durch einen Programmierfachmann in ein geeignetes Programm umgesetzt werden. Die bei dem Auslesen von Basisfunktionen zur Synthetisierung von Sprachkurvenformen benutzten Unterprogramme sind in den Anhängen A, B und C angegeben.

Abtastamplitudeninformationen von der Basisfunktionstabelle 2 im Speicher 18 durchläuft den Mikroprozessor 15, den Datenbus 31, die Eingangs-Ausgangseinrichtung 20 und einen 8-Bit-Datenbus 32 zum Digitalbo Analogwandler 11 mit der Basisfunktions-Leserate. Die Amplitudeninformationen liegen in einem Digitalcode vor, der die Amplituden der Abtastwerte für die Kurvenformsegmente darstellt. Die Amplitudeninformation, die aus der Tabelle A zur Modifizierung der Amplib5 tude der Basisfunktions-Kurvenformsegmente gelesen wird, wird vom Speicher über den Mikroprozessor zur Eingangs-Ausgangseinrichtung 20 übertragen, die dauernd das gleiche Digitalwort über einen 8-Bit-Datenbus

33 an einen Digital-Analogwandler 12 für eine vollständige Tonhöhenperiode anlegt. Der Digital-Analogwandler 12 erzeugt ein Vorspannungssignal, das die Amplitudenmodifizierinformation angibt, und überträgt dieses Vorspannungssignal zum Digital-Analogwandler U. Der Digital-Analog-Wandler 11 ist als multiplizierender Digital-Analog-Wandler ausgelegt, der die Amplitude der Basisfunktionssignale entsprechend dem Wert des vom Digital-Analog-Wandler 12 zugeführten Vorspannungssignals modifiziert. Nachdem die Amplituden modifizierinforma tion an den Digital-Analogwandler 12 zu Beginn jeder Tonhöhenperiode angelegt ist, wird die Folge von 146 Abtastcodewörtern, die eine Basisfunktion darstellen, nacheinander vom Mikroprozessor 15 über die Eingangs-Ausgangseinrichtung 20 zum Digital-Analogwandler 11 übertragen, der das gewünschte, in seiner Amplitude modifizierte Basisfunktions- Kurvenformsegment für eine Tonhöhenperiode aus den 146 Abtastcodewörtern der Basisfunktion erzeugt.

Es sei wiederum darauf hingewiesen, daß die Leserate der 146 Abtastcodewörter entweder gleich oder schneller bzw. langsamer als die 8-kHz-Abtast- oder Speicherrate ist, die zur Gewinnung der Amplitudenabtastwerte dient. Diese Variation der Ausleserate wird durch den Mikroprozessor 15 in Abhängigkeit von dem Kompressions/Expansionskoeffizienten d2(m) für die relevante Periode durchgeführt.

Durch eine Beschleunigung der Ausleserate erzeugt die Anordnung gemäß F i g. 1 eine Kurvenform, die eine zeitlich komprimierte Abwandlung der gewählten Basisfunktion ist. Diese komprimierte Abwandlung der Basisfunktion stellt eine Annäherung des tatsächlichen Kurvenformsegmentes für einen abweichenden Punkt in der Darstellung mit dem Formanten Fi in Abhängigkeit vom Formanten F2 gemäß F i g. 3 dar. Wenn beispielsweise die Basisfunktion d\(Ö) im Datenpunkt 55 in F ig. 3 gewählt und zeitlich mit einem Kompressionskoeffizienten dtf) komprimiert wird, dann entsteht ein Kurvenformsegment, das eine gewünschte tatsächliche Kurvenform für einen Punkt 60 in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten Fl annähert. Dieses erzeugte Kuryenformsegment, das als, Punkt 60 (F i g. 3) identifiziert ist, wird aus der Basisfunktion c/i(0) und dem Kompressions/Expansionskoeffizienten £/2(7) erzeugt.

Durch eine Verlangsamung der Ausleserate der Basisfunktionsinformationen erzeugt die Schaltung gemäß F i g. 1 ein Kurvenformsegment, das eine zeitlich expandierte Abwandlung der gewählten Basisfunktion darstejlt. Diese zeitlich expandierte Abwandlung der Basisfuriktion ist ebenfalls eine Annäherung eines tatsächlichen Kurvenformsegmentes, für einen unterschiedlichen Punkt in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten F2 gemäß F i g. 3. Durch Wahl der Basisfunktion <rfi(0) im Datenpunkt 55 in Fig. 3 und eine zeitliche Expandierung mit einem Kompressiong/Expansionskoeffizienten d^O) erzeugt die Anordnung gemäß F i g. 3 ein Kurvenformsegment, das eine gewünschte tatsächliche Kurvenform für einen Punkt 62 in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten F2 annähert.

Man beachte, daß die Anordnung gemäß F i g. 1 gleichzeitig mit mehreren Formantfrequenzen arbeitet, wenn sie die Kurvenformsegmente komprimiert oder expandiert. Die gleichzeitige Kompression oder Expansion wird erreicht, da die Basisfunktionslinie 46 in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten F2 eine Steigung m = — 1 besitzt. Eine zeitliche Kompression oder Expansion wird gleichmäßig für die Kennlinien beider Formanten Fl und F2 durchgeführt, da die Kompressions- und Expansionsoperationen in Richtung vpn Linien arbeiten, die rechtwinklig zur Basisfunktionslinie 46 verlaufen. Diese Linien rechtwinklig zur Linie 46 bilden jeweils einen Ort, für den das Verhältnis zwischen den Formantfrequenzen Fl und F2 gleich bleibt.

Man beachte, daß die Ausleserate festlegt, wie schnell die Amplitude des erzeugten Kurvenformsegmentes abnimmt. Die Tonhöhenperiodeninformation, die aus der Tabelle A in Fig. 18 gelesen wird, bestimmt, wann das zugeordnete Kurvenformsegment beendet werden soll.

Wie oben erwähnt, wird die Kurvenformsegment-Amplitudeninformation zur Modifizierung der erzeugten Kurvenform durch die Eingangs-Ausgangseinrichtung 20 an die Digitaleingänge des Digital-Analogwandlers 12 als Koeffizient angelegt, der eine Vorspannung oder Vorgabe zur Modifizierung der Amplitude des Kurvenformsegmentes bestimmt, das von dem Digital-Analogwandler 11 erzeugt werden soll. Bei dieser Anordnung arbeitet der Digital-Analogwandler 12 als multiplizierender Digital-Analogwandler.

Das sich ergebende, vom Digital-Analogwandler 11 auf der Leitung 40 erzeugte Ausgangssignal ist ein Analogsignal, das an irgendeinen akustischen Wandler gegeben wird, der in F i g. 1 als Beispiel in Form eines Tiefpaßfilters (LPF) 41 und eines Lautsprechers 13 dar gestellt ist. Das Tiefpaßfilter 41 ist zwischen den Digital- Analogwandler 12 und den Lautsprecher 13 geschaltet um die Qualität der sich ergebenden Laute zu verbessern. Die Verbesserung ergibt sich durch ein. Ausfiltern unerwünschter hoher Frequenzkomponenten des abge tasteten Signals. Die von der beschriebenen Anordnung synthetisierten Sprachlaute haben sehr gute Qualität, obwohl nur ein begrenzter Speicherraum zur Aufnahme aller erforderlichen Hauptparameter und eine begrenzte Menge von verhältnismäßig billigen weiteren Bautei- len zur Nachbildung aller gewünschten Kurvenformsegmente benutzt werden.

Die Speicherkapazität des Synthetisierers gemäß F i g. 1 wird praktisch ausschließlich durch die Größe des Vokabulars bestimmt, das. erzeugt werden solL Die Speicherkapazität hängt von der Größe der Tabelle A in Fig. 18 ab, die beschreibende Informationen für alle zu erzeugenden Sprechlaute enthält.

F i g. 21 zeigt ein Flußdiagramm für die Folge von Verfahrensschritten, die bei der Erzeugung eines voll» ständigen Sprechlautes auftreten, der von der Schaltungsanordnung gemäß F i g. 1 unter Steuerung eines Programms synthetisiert werden soll.

Gemäß F i g. 1 ist der erste dargestellte Schritt die Auswahl des gesprochenen Wortes, das synthetisiert werden soll. Eine solche Auswahl erfolgt vor Beginn der Steuerung durch das in den Anhängen A und B angegebene Programm,

Nach der Auswahl des gewünschten Wortes beginnt die Programmsteuerung unmittelbar nach einer Angabe »Start«. Das Wort χ wird initiert und ein Wortzeiger erzeugt. Der Mikroprozessor identifiziert damit die Position desjenigen Teiles der Tabelle A, die das gewählte Wort beschreibt. Wie oben erwähnt, enthält die Tabelle A eine Liste von 3-Byte-Datenpunkten für jeden

Laut, der synthetisiert werden soll.

Nach Anfangseinstellung des Mikroprozessors läuft die Steuerung mit dem dritten Schritt gemäß Fig.21 weiter. Damit beginnt eine große äußere Schleife im

13

Flußdiagramm. Bei diesem Verarbeitungsschritt bestimmt die Anlage gemäß F i g. 1 bestimmte Informationen, die während der ersten Tonhöhenperiode des gewählten Wortes zu benutzen sind. Diese Informationen beinhalten die Dauer der Tonhöhenperiode, die Adresse der gewählten Basisfunktion, den Kompressions/Expansionskoeffizienten und den Amplitudenkoeffizienten, die für die Erzeugung des ersten Kurvenformsegmentes verwendet werden sollen. Alle diese Informationen werden aus dem Speicher 18 zum Mikroprozessor 15 übertragen.

Dabei beginnt der Mikroprozessor mit der Ausgabe des Amplitudenkoeffizienten zur Eingangs-Ausgangseinrichtung für die vollständige Tonhöhenperiode.

Innerhalb der großen Schleife in F i g. 1 befindet sich eine kleinere Verarbeitungsschleife. Am Anfang der kleineren Schleife gibt der Mikroprozessor einen Abtastwert einer Basisfunktion an die Eingangs-Ausgangseinrichtung. Anschließend an diesen Schritt wird der Speicherzeiger für den nächsten Abtastwert auf den neuesten Stand gebracht, und zwar jedesmal dann, wenn Daten mittels der kleineren Schleife verarbeitet werden, bis die Basisfunktion vollständig ausgelesen ist. Der nächste Verfahrensschritt besteht in der Erzeugung der zwischen den Abtastwerten liegenden Verzögerungsperiode abhängig davon, welcher Kompressions/ Expansionskoeffizient gilt. Die kleine Schleife wird dadurch beendet, daß der Tonhöhenperiodenzählwert auf den neuesten Stand gebracht und eine Entscheidung getroffen wird, ob die Tonhöhenperiode vorbei ist oder nicht. Wenn die Tonhöhenperiode nicht vollständig ist, kehrt die Steuerung zurück und durchläuft erneut die kleinere Verarbeitungsschleife. Wenn die Tonhöhenperiode vollständig ist, prüft die Anlage, ob das gewählte Wort vollständig synthetisiert ist. Wenn dies nicht der Fall ist, kehrt die Steuerung über die große Schleife zurück, um Parameter für den nächsten Kurvenformabschnitt zu bestimmen. Im anderen Falle kehrt die Steuerung zum Ausführungsprogramm zurück.

40

Hierzu 9 Blatt Zeichnungen

45

50

55

60

Claims

Patentansprüche:

1. Verfahren zur Synthetisierung von Sprache mit folgenden Verfahrensschritten:

a) Abspeichern von Digital-Datengruppen, die je ein Kurvenformsegment von Sprache innerhalb einer Tonhöhenperiode mit mehreren Formanten (Fi, F2) in Form digital codierter, mit einer Basisabtastrate gewonnener Amplitudenabtastwerte darstellen;

b) Auslesen und Aneinanderreihen von Digital-Datengruppen, die abhängig von den zu erzeugenden Wörtern gewählt sind,

dadurch gekennzeichnet, daß das Auslesen gemäß Verfahrensschritt b) mit einer Rate erfolgt, die abhängig von der zu erzeugenden Sprachkurvenform von Tonhöhenperiode zu Tonhöhenperiode veränderbar und gleich, kleiner oder größer als die Basisabtastrate ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die gespeicherten Kurvenformsegmente Datenpunkte darstellen, die in einer Darstellung mit rechtwinkligen Koordinatenachsen, in der die Frequenzen des Formanten FI in Abhängigkeit von den Frequenzen des Formanten F2 in doppeltlogarithmischem Maßstab dargestellt sind, auf einer Geraden (46) liegen.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Gerade (46) eine Steigung m = - 1 besitzt. ■*■"■

4. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß ein Speicher (18) vorgesehen ist, der eine Datenpunkttabelle (F ig. 18) mit einer Liste von einen vollständigen, zu synthetisierenden Laut beschreibenden Datenpunkten, ferner eine erste Tabelle (Fig. 19), die eine Liste von Adressen enthält, von denen jede die Anfangsspeicherposition einer Folge von Speicherpositionen jeweils einer anderen Digital-Datengruppe ist, und eine zweite Tabelle (F i g. 20) aufnimmt, die eine Liste der Digital-Datengruppe enthält, daß eine Verarbeitungseinrichtung mit einem Mikroprozessor (15) vorgesehen ist, der mit dem Speicher (18) über einen Adressenbus (30) und einen Datenbus (31) in Verbindung steht, daß der Mikroprozessor unter Ansprechen auf Daten, die aus der Datenpunkttabelle (Fig. 18) und der ersten Tabelle (Fig. 19) gelesen werden, die Übertragung gewählter Digital-Datengruppen aus der zweiten Tabelle (Fig. 20) zum Mikroprozessor steuert, daß eine Eingangs-Ausgangseinrichtung (20) vorgesehen ist, die mit dem Mikroprozessor über den Datenbus (31) verbunden ist, um die gewählte Digital-Datengruppen aus dem Mikroprozessor aufzunehmen, und ferner ein erster Digital-Analogwandler (U) vorhanden ist, der mit der Eingangs-Ausgangseinrichtung über einen Datenbus (32) verbunden ist, um die gewählten Digital-Datengruppcn aus der Eingangs-Ausgangseinrichtung aufzunehmen, und daß der erste Digital-Analogwandler unter Ansprechen auf die gewählten Digital-Datcngruppen ein analoges Kurvenformsegment erzeugt, das angenähert einen Datenpunkt abseits der Geraden (46) darstellt.

5. Vorrichtung nach Anspruch 4, dadurch gekcnn-

zeichnet, daß der Mikroprozessor (15) unter Ansprechen auf einen Zeitkompressions-Expansionskoeffizientcn (60), der aus der Datenpunkttabelle (F i g. 18) geholt wird, die Rate bestimmt, mit der Digital-Datengruppen vom Mikroprozessor zur Eingangs-Ausgangseinrichtung übertragen werden.

6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung einen zweiten Digital-Analogwandler (12) aufweist, der mit der Eingangs-Ausgangseinrichtung (20) über einen Datenbus (33) in Verbindung steht, daß der zweite Digital-Analogwandler (12) unter Ansprechen auf einen aus der Liste von Datenpunkttabellen (F i g. 18) geholten Amplitudenkoeffizienten (70) ein Vorspannungssignal erzeugt und daß der erste Digital-Analog-Wandler (11) ferner auf das Vorspannungssignal anspricht, um die Amplitude des analogen Kurvenformsegmentes zu modifizieren, das den Datenpunkt abseits der Geraden (46) darstellt.