DE2945413C1 - Verfahren und Vorrichtung zur Synthetisierung von Sprache - Google Patents

Verfahren und Vorrichtung zur Synthetisierung von Sprache

Info

Publication number
DE2945413C1
DE2945413C1 DE2945413A DE2945413A DE2945413C1 DE 2945413 C1 DE2945413 C1 DE 2945413C1 DE 2945413 A DE2945413 A DE 2945413A DE 2945413 A DE2945413 A DE 2945413A DE 2945413 C1 DE2945413 C1 DE 2945413C1
Authority
DE
Germany
Prior art keywords
data
digital
microprocessor
speech
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2945413A
Other languages
English (en)
Other versions
DE2945413A1 (de
Inventor
Milton New York N.Y. Baumwolspiner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Application granted granted Critical
Publication of DE2945413C1 publication Critical patent/DE2945413C1/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine zugehörige Vorrichtung zur Synthetisierung von Sprache mit folgenden Verfahrensschritten:
a) Abspeichern von Digital-Datengruppen, die je ein Kurvenformsegment von Sprache innerhalb einer Tonhöhenperiode mit mehreren Formanten in Form digital codierter, mit einer Basisabtastrate gewonnener Amplitudenabtastwerte darstellen;
b) Auslesen und Aneinanderreihen von Digital-Datengruppen, die abhängig von den zu erzeugenden Wörtern gewählt sind.
Verfahren zur Synthetisierung von Sprache mit Hilfe eines Sprachkurvenform-Synthetisierers sind bekannt. Wegen der verwendeten Syntheseverfahren und Kombinationssysteme haben jedoch die Sprachsynthetisierer entweder ein unerwünscht kleines Vokabular oder schlechte Klangqualität oder sind im Aufbau und der Betriebsweise so aufwendig, daß sie für viele erwünschte kommerzielle Anwendungen unbefriedigend sind.
Beispielsweise sind Schaltungsanordnungen zur Synthetisierung von Sprache in Realzeit durch Verknüpfung von Formant-Daten entwickelt worden. Solche Schaltungsanordnungen können zwar Sprache hoher Qualität erzeugen, es sind aber komplizierte und aufwendige Bauteilanordnungen erforderlich.
Sprache ist außerdem auch schon durch eine lineare Voraussage der Sprachkurvenform synthetisiert worden. Dieses Verfahren ergibt eine höhere Sprachqualität als die vorgenannten Anordnungen, benötigt aber einen größeren Speicherraum sowie ebenfalls komplizierte und aufwendige Bauteilanordnungen.
Bekannt ist auch ein Verfahren zur Sprachsynthetisierung (US-PS 38 92 919), bei dem Sprachkurvenformsegmcnte mit der Länge einer Tonhöhenperiode wahlweise
ho zu der gewünschten Sprachkurvenform zusammengesetzt werden. Zur Verbesserung der synthetisierten Sprache wird dabei die Länge der gespeicherten Kurvcnformsegmente beim Auslesen verändert, ohne dabei jedoch die Frequenz zu verändern, weil das Auslesen
b5 mit konstanter Rate entsprechend einer festen Taktfrequenz erfolgt.
Der Erfindung liegt die Aufgabe zugrunde, eine einfache Sprachsynthetisierung zu ermöglichen, die ohne
ORIGINAL INSPECTED
großen Aufwand ein verhältnismäßig großes Vokabular von Lauten hoher Qualität erzeugt.
Zur Lösung der Aufgabe geht die Erfindung aus von einem Verfahren der eingangs genannten Art und ist dadurch gekennzeichnet, daß das Auslesen gemäß Verfahrensschritt b) mit einer Rate erfolgt, die abhängig von der zu erzeugenden Sprachkurvenform von Tonhöhenperiode zu Tonhöhenperiode veränderbar und gleich, kleiner oder größer als die Basisabtastrate ist.
Weiterbildungen des Verfahrens sowie Vorrichtungen zur Durchführung des Verfahrens sind Gegenstand der Unteransprüche. So können die gespeicherten Kurvenformsegmente Datenpunkte darstellen, die in einer Darstellung mit rechtwinkligen Koordinatenachsen, in der die Frequenzen des Formanten Fl in Abhängigkeit von den Frequenzen des Formanten F2 in doppeltlogarithmischem Maßstab dargestellt sind, auf einer Geraden liegen, die vorzugsweise eine Steigung m = — 1 besitzt. Gewünschte Kurvenformsegmente entsprechend Datenpunkten abseits der Geraden lassen sich dann durch Änderung der Ausleserate des Speichers erzeugen. Die Wahl einer Steigung m = -1 bewirkt, daß eine Zeitkompression oder Zeitexpansion der Kurvenformsegmente die Eigenschaften der Formanten Fl und Fl proportional beeinflußt.
Die Digital-Datengruppen, die je ein Kurvenformsegment darstellen, werden nachfolgend auch Basisfunktionen genannt. In den Zeichnungen zeigt
Fig. 1 ein Blockschaltbild eines Sprachsynthetisierers nach der Erfindung;
F i g. 2 als Beispiel eine vollständige Sprachkurvenform;
F i g. 3 eine grafische Darstellung von Basisfunktions-Datenpunkten in einer doppeltlogarithmischen Darstellung von Formantfrequenzen;
Fig.4 bis 15 die Basisfunktions-Kurvenformsegmente, die durch die doppeltlogarithmische Darstellung in F i g. 3 angegeben werden;
Fig. 16 und 17 Basisfunktions-Kurvenformsegmente, die in F i g. 3 nicht gezeigte Datenpunkte darstellen;
Fig. 18 eine Tabelle A mit der Organisation von Informationen bezüglich von Datenpunkten, die ein gewähltes Wort darstellen;
Fig. 19 eine Tabelle 1 mit einer Liste von Basisfunktions-Adressen;
F i g. 20 eine Tabelle 2 mit Basisfunktionsdaten;
Fig.21 ein Flußdiagramm mit Verfahrensschritten für die Erzeugung von synthetisierten Sprachkurvenformen.
In F i g. 1 ist ein Ausführungsbeispiel eines Sprachsynthetisiersystems gezeigt. Das System enthält einen Mikrocomputer 10 mit einem ersten und einem zweiten Digital-Analogwandler (D/A) 11 und 12 zur Abgabe eines analogen Ausgangssignals an einen Lautsprecher 13. Der Mikrocomputer enthält einen Mikroprozessor 15, der mit einem Speicher 18 und einer Ein-Ausgabeeinrichtung (I/O) 20 zwischen dem Mikroprozessor 15 und den Digital-Analogwandlern 11 und 12 geschaltet ist.
Der gezeigte Speicher enthält sowohl einen Schreiblesespeicher (RAM) als auch einen Festwertspeicher (ROM).
Wie nachfolgend noch genauer beschrieben werden soll, enthält der Speicher 18 eine Vielzahl von Digital-Datengruppen oder Basisfunktionen, wobei jede Gruppe ein mit einer Basisspeicherrate aufgezeichnetes Sprachkurvenformsegment darstellt. Diese Speicherung kann durch Speichern digitalcodierter Amplitudenabtastwerte der analogen Kurvenform durchgeführt werden, wobei die Abtastwerte mit einer einheitlichen Basisabtastrate bestimmt werden. Jede Datengruppe definiert eine Kurvenform einschließlich von zwei oder mehreren Formanten, die in Sprachlauten auftretende Harmonische sind und mathematisch durch Ausdrücke angegeben werden, die zeitabhängige Variationen der Sprachamplitude darstellen. Diese Ausdrücke ändern sich von einem Laut zu einem anderen. Der Mikroprozessor 15, die Ein-Ausgabeeinrichtung 20, die Digital-Analogwandler 11, 12 und der Lautsprecher 13 erzeugen zusammen eine Sprachkurvenform, indem eine Folge von gewählten Segmenten der codierten und gespeicherten Kurfenformsegmente gewählt und ausgelesen wird, diese Segmente in analoge Kurvenformsegmente umgewandelt und dann die analogen Segmente zu einem Sprachlaut verknüpft werden.
Mit Hilfe weiterer Informationen im Speicher 18 und ebenfalls ausgewählt durch den Mikroprozessor 15 können die gespeicherten Kurvenformen aus dem Speicher mit der Basisabtast- oder Speicherrate oder mit einer von der Basisspeicherrate verschiedenen Rate gelesen werden. Wenn die Kurvenformen mit einer von der Basisspeicherrate verschiedenen Rate gelesen werden, ist es möglich, das für eine qualitativ hochstehende Spracherzeugung geeignete Frequenzspektrum mit einer kleinen Anzahl von gespeicherten Sprachabtast-Kurvenformsegmenten zu überspannen. Durch eine solche Begrenzung der Anzahl der aufgezeichneten Sprachkurvenformsegmente ist es möglich. Laute hoher Qualität für ein großes Vokabular mit einem verhältnismäßig kleinen Speicher bei niedrigem Aufwand zu erzeugen. Die Kosten stehen jedoch zur Größe des gewünschten Vokabulars in Beziehung, da jeder zu erzeugende Laut eines Wortes durch eine Liste von Datenpunkten beschrieben werden muß.
Eine Begrenzung des Aufwandes ergibt sich auch, weil ein Mikroprozessor statt eines größeren und aufwendigeren Computers die Operation zur Lauterzeugung steuert. Der Mikroprozessor 15 ist in der Lage, die Erzeugung von Sprachlauten zu steuern, da die Hauptoperationen des Systems auf eine Steuerung der Rate für das Speicherauslesen von Daten zu den Digital-Analogwandlern 11 und 12 beschränkt ist. ohne daß irgendwelche zeitraubenden arithmetischen Operationen nötig sind.
Vor einer Beschreibung des Synthetisierers ist es zweckmäßig, auf einen Teil der Theorie einzugehen, auf der das Sprachkurvenform-Synthetisiersystem beruht
so Akustische Eigenschaften von stimmhaften Lauten werden durch die Eigenschaften des Sprachtraktes bestimmt, der ein Rohr enthält, in welchem stimmhafte Laute erzeugt werden. Ein stimmhafter Laut wird durch Schwingungen einer Luftsäule innerhalb des Rohres erzeugt. Die Luftsäule schwingt in verschiedenen Moden oder Resonanzfrequenzen für jeden gesprochenen stimmhaften Laut. Diese Moden oder Resonanzfrequenzen sind als Formantfrequenzen Fl, F2, FZ ... Fn bekannt. Jedes Kurvenformsegment für jeden gespro-
bo chenen stimmhaften Laut hat seine eigenen Formantfrequenzen, die fortlaufend numeriert sind, beginnen mit der niedrigsten harmonischen Frequenz in diesem Segment.
Die akustischen Eigenschaften von stimmlosen Sprachlauten werden anders als die der stimmhaften Laute bestimmt. Die stimmlosen Laute werden in typischer Weise dadurch erzeugt, daß Luft durch eine öffnung strömt. Ein solches Strömen von Luft wird durch
einen Rauschstoß beschrieben.
Vollständige Lautkurvenformen von gesprochener Sprache können aus einer begrenzten Anzahl von gewählten Sprachkurvenformsegmenten erzeugt werden. Diese Kurvenformsegmente werden manchmal dadurch verknüpft, daß das gleiche Kurvenformsegment viele Male wiederholt wird, und in anderen Fällen indem unterschiedliche Kurvenformsegmente nacheinander kombiniert werden. Stimmhafte oder stimmlose Laute oder beide können zur Darstellung jedes gewünschten Sprachlautes verwendet werden.
Gemäß Fig.2 besteht eine als Beispiel angegebene, vollständige Lautkurvenform aus einer Verknüpfung von mehreren stimmhaften Kurvenformsegmenten A, B1 C. Jedes Kurvenformsegment hat eine Dauer, die Tonhöhenperiode genannt wird. Die Dauer der Tonhöhenperiode kann sich von Segment zu Segment ändern. Abhängig von der Erzeugung des vollständigen stimmhaften Lautes kann die Form der Kurvenformsegmente für aufeinanderfolgende Tonhöhenperioden ähnlich oder verschieden sein. Für viele Laute sind die aufeinanderfolgenden Kurvenformsegmente wesentlich voneinander verschieden. Zum Aufbau der vollständigen Lautkurvenform werden die aufeinanderfolgenden Kurvenformsegmente A, B und C am Ende einer Tonhöhenperiode und dem Anfang der nächsten miteinander verknüpft, unabhängig davon, ob die erste Kurvenform vollständig erzeugt ist oder nicht. Wenn die Kurvenform vor dem Ende der Tonhöhenperiode beendet ist, wird der letzte Wert der Kurvenform gespeichert, bis die nächste Tonhöhenperiode beginnt.
Obwohl stimmlose Laute Teil typischer Sprachkurvenformen sind, enthält F i g. 2 keine solchen Laute. Das mathematische Modell stimmhafter und stimmloser Laute ist eine Funktion in der komplexen Frequenzebene. Für stimmhafte Vokallaute ist ein geeignetes mathematisches Modell als Laplace-Transformation bestimmt worden. Wenn Laplace-Transformationen von Sprachkurvenformsegmenten benutzt werden, so wird eine Kurvenformsegment-Laplace-Transformation H(s) ausgedrückt als
wf
wobei
H.(s)
für bestimmte Formanten ist.
Darin bedeuten
w„ = 2 ,T(Fn),
Fn = Frequenz des n-ten Formanten, b„ = die Bandbreite, die der Formantfrequenz mit dem gleichen numerischen Index π zugeordnet
ist, und
s = der komplexe Frequenzoperator.
Der vorstehende Ausdruck für die Formantfrequenz Fn kann durch eine inverse Laplace-Transformation in einen zeitebenen Ausdruck umgewandelt werden.
fn(t)
Jedes Sprachkurvenformsegment ist eine Abwicklung der Frequenzebenen-Ausdrücke, die alle geeigneten Formanten angeben.
Die vollständige Sprachkurvenform hat eine inverse Laplace-Transformation, die zu einer zusammengesetzten Zeitkurvenform f(t) mit einer Anzahl von abklingenden Segmenten in Form einer gedämpften Sinuskurve führt, beispielsweise solche, die in Fig. 2 gezeigt sind. Vollständige Kurvenformen von stimmhaften Lauten sind daher eine Aufeinanderfolge von gedämpften Sinuskurven, die sich sowohl mathematisch als auch in der Praxis nachbilden lassen. Wichtige Parameter zur Beschreibung einzelner Sprachkurvenformsegmente sind die Formantfrequenzen, die Dauer der Tonhöhenperiode und die Amplitude der Kurvenform.
Bei der tatsächlichen Nachbildung der vollständigen Kurvenformen ergibt sich eine Schwierigkeit, weil zur Erzielung eines Modells guter Qualität die Entwickler von Sprachsynthetisierern versuchen, die vollständige Kurvenform für jeden stimmhaften und stimmlosen Laut genau nachzubilden. Diese Laute sind jedoch über einen weiten Bereich von ersten und zweiten Formantfrequenzen verstreut, die durch die Grenzen des Hörfrequenzbereiches eingeschränkt werden. Zur erfolgreichen Durchführung des Syntheseverfahrens mit einer vernünftig großen Speicherkapazität sind bei bekannten Synthesesystemen Daten gespeichert worden, die eine gewählte Matrix von Punkten im Parameterraum mit den Formanten FI und F2 als Koordinatenachsen
jo darstellen. Die Anzahl der Punkte war ziemlich groß.
Die Nachbildung von stimmhaften und stimmlosen Lauten ist nach dem Stand der Technik wie folgt durchgeführt worden.
1) Analoges Speichern vollständiger Kurvenformen und nachfolgendes Reproduzieren dieser analogen Kurvenformen auf Befehl.
2) Gewinnung von Amplitudenabtastwerten vollständiger Kurvenformen, analoges Speichern dieser Amplitudenabtastwerte für vollständige Lautkurvenformen und nachfolgendes Reproduzieren der vollständigen analogen Kurvenformen anhand der gespeicherten Abtastwerte.
3) Analoges Aufzeichnen vieler Kurvenformabschnitte und nachfolgendes Kombinieren gewählter Abschnitte der aufgezeichneten Kurvenformabschnitte zur Erzeugung einer gewünschten vollständigen analogen Kurvenform auf Befehl.
4) Gewinnen von Amplitudenabtastwerten, digitales Codieren dieser Abtastwerte, Aufzeichnen der codierten Abtastwertc, nachfolgendes Reproduzieren analoger Kurvenformabschnitte aus gewählten Abschnitten der gespeicherten, codierten Abtastwerte und Kombinieren der reproduzierten Kurvenformabschnitte zur Erzeugung einer gewünschten, vollständigen, analogen Kurvenform auf Befehl.
Stimmlose Reibelaute sind mathematisch als das Anbo sprechen eines Reibe-Pol-Nullstellennetzwerk auf weißes Rauschen nachgebildet worden. Mehrere unterschiedliche Modelle von Pol-Nullstellennetzwerken sind zur Erzeugung unterschiedlicher Reibelaute, beispielsweise »s« und »f« benutzt worden.
Die vorliegende Erfindung läßt sich als Gegensatz zu dem oben erläuterten Stand der Technik durch Beschreibung des Ausführungsbeispiels am besten beschreiben, bei dem nur wenige Kurvenformsegmente
für einen nachfolgenden Aufbau von vollständigen analogen Lautkurvenformen abgetastet und gespeichert werden. Diese gespeicherten Kurvenformsegmente werden Basisfunktionen genannt.
In Fig.3 sind die Frequenzen des Formanten Fl in Abhängigkeit von den Frequenzen des Formanten F2 im doppcltloguriihniischcn Maßstab dargestellt, um die Frequenzanteile verschiedener stimmhafter Laute zu lokalisieren. Die erste Formantfrequenz Fi reicht für verschiedene Vokale und Diphthong-Laute von etwa 200 Hz bis etwa 900 Hz. Die zweite Formantfrequenz F2 reicht für die gleichen Laute von etwa 600 Hz bis etwa 2700 Hz. Die in F i g. 2 nicht gezeigte dritte Formantfrequenz F3 reicht für die gleichen Laute von etwa 2300 Hz bis 3200 Hz. Für stimmhafte Laute und Diphthong-Laute sind 12 Kurvenformsegmente d\(Ö) bis (Zi(II) an im wesentlichen mit gleichem Abstand angeordneten Datenpunkten entlang einer einzelnen geraden Linie 46 gewählt, die den Parameterraum von F1 in Abhängigkeit von F2 mit einer Steigung m= -1 durchläuft.
Jeder der 12 Datenpunkte d\(0) bis c/i(11) auf der Linie 46 in F i g. 3 identifiziert die Formantfrequenzen F1 und F2 einer unterschiedlichen Basisfunktion d\(n). Für jede Basisfunktion ist ein Kurvenformsegment im Speicher 18 in F i g. 1 gespeichert. Jedes Kurvenformsegment hat die Dauer einer Basis-Tonhöhenperiode von 18,25 ms. Für jedes Kurvenformsegment liefern 146 Amplitudenabtastwerte Informationen bezüglich der anteiligen Kurvenformen von sovielen Formantfrequenzen, wie gewünscht. Eine Möglichkeit zur Speicherung solcher Kurvenformsegmente besteht in einer periodischen Abtastung der Amplitude der jeweiligen Kurvenform mit einer Basisabtastrate, beispielsweise 8 kHz, und danach Codieren der sich ergebenden Amplitudenabtastwerte (beispielsweise in Digitalwörter mit 8 Bits.die jeden Abtastwert auf eine von 256 Amplitudenstufen quantisieren).
Fig.4 bis 15 zeigen die Kurvenformsegmente von stimmhaften Lauten für die Basisfunktionen d\(0) bis Ji(Il). In Fig.4 bis 15 sind die Kurvenformen auf einer vertikalen Achse dargestellt, wobei die gezeigte Amplitude zwei Skalen besitzt. Eine Vertikalskala hat skalare Einheiten, die die Amplitudenstufen angeben, und die andere Skala gibt die skalaren Einheiten im Oktalcode an. Die horizontale Skala in den Fig.4 bis 15 gibt die Zeit in Abtastwerten an.
Fig. 16 und 17 zeigen Kurvenformsegmente für stimmlose Laute der Basisfunktionen d\(\2) und d\(\3). Diese Basisfunktionen sind auf ähnliche Weise wie die änderen Basisfunktionen dargestellt. Daten, die jede der beiden Basisfunktionen d\(\2) und </t(13) für stimmlose Laute beschreiben, sind außerdem im Speicher 18 in Fig. 1 zusammen mit den anderen Basisfunktionen abgelegt. Es gilt die gleiche Dauer von 18,25 ms für diese beiden Basisfunktionen, obwohl ihnen nicht die gleiche, sich wiederholende Tonhöhenperiode zugeordnet ist.
Obwohl die aufgezeichneten Daten, die die 14 Basisfunktionen darstellen, nicht mehr als Kurvenformsegmente darstellen, welche 12 Abtastpunkte für stimmhafte Laute entlang der geneigten Linie 46 in F i g. 3 beschreiben zuzüglich von Kurvenformsegmenten, die zwei stimmlose Laute angeben, liefern diese Basisfunktionen zusammen mit weiteren Parameterdaten die Basisinformationen zur Erzeugung eines großen Vokabulars von Kurfenformen von vollständigen Lauten guter Qualität. Unter erneuter Bezugnahme auf F i g. 3 ergibt sich, daß ein großer Teil des Rechtecks, das den relevanten Parameterraum für stimmhafte Laute umgibt, nicht durch Datenpunkte bedeckt ist, die die Basisfunktionen d\(0) bis c/i(11) darstellen. Kurvenformsegmente für stimmhafte Laute, die Laute für Punkte abseits der geneigten Linie 46 in Fig.3 darstellen, werden dadurch angenähert, daß eine der Basisfunktionen ausgewählt, aus dem Speicher 18 gelesen und über den Mikroprozessor und die Eingangs-Ausgangseinrichtung 20 zum Digital-Analogwandler 11 mit einer Rate übertragen
ίο wird, die von der Basis-Aufzeichnungsrate verschieden ist.
Unter Verwendung einer bekannten Laplace-Transformation \/ä[f(t/a)\ = F(as) kann eine Zeitkompression und -Expansion zur linearen Maßstabsbeeinftussung der Frequenzebene verwendet werden, wodurch die Formantfrequenzen nach oben oder unten verändert werden. Irgendeine Basisfunktion wird zeitlich dadurch komprimiert, daß sie mit einer schnelleren Rate als der Basisaufzeichnungsrate oder Basisspeicherrate gelesen wird, und zeitlich expandiert, indem sie mit einer langsameren Rate als der Basisspeicherrate ausgelesen wird. Gemäß F i g. 3 wird die Zeitkompression der Basisfunktionen zur Erzeugung von Kurvenformsegmenten benutzt, die durch eine Matrix von Punkten innerhalb des Rechtecks identifiziert sind, sich aber oberhalb und rechts von der Basisfunktionslinie 46 befinden. Eine Zeitexpansion wird zur Erzeugung von Kurvenformsegmenten verwendet, die durch eine Matrix von Punkten innerhalb des Rechtecks definiert werden, sich aber unterhalb und links von der Basisfunktionslinie 46 befinden.
Kurvenformsegmente für stimmlose Laute abweichend von den beiden Basisfunktionen f/i(12) und tfi(13) können ebenfalls durch Komprimieren und Expandieren dieser beiden Kurvenformen auf ähnliche Weise erzeugt werden.
Kurvenformen für vollständige Laute werden durch Verknüpfen gewählter Kurvenformsegmente erzeugt, die auf Befehl geliefert werden. Solche Kurvenformen für vollständige Laute können sowohl stimmhafte als auch stimmlose Laute enthalten.
Neben der gerade beschriebenen Information bezüglich der Amplitudenabtastwerte werden weitere Informationen zur Beschreibung eines vollständigen Sprachlautes benötigt. Jeder vollständige, gesprochene Laut enthält eine Verknüpfung von vielen Kurvenformsegmcnten, die aus gewählten Basisfunktionen der 14 Basisfunktionen erzeugt werden. Die Einrichtungen gemäß F i g. 1 folgen einem vorgegebenen Unterprogramm zur Erzeugung jedes gewünschten, vollständigen Lautes aus den Basisfunktionen. Eine Liste der Basisfunktionen in der Reihenfolge ihrer Auswahl ist im Speicher 18 gemäß F i g. 1 in einer Datentabelle A gespeichert Die Anzahl der für jeden vollständigen Sprachlaut zu verknüpfenden Basisfunktionen kann stark schwanken, aber die Datentabelle enthält eine Liste einer gewissen Anzahl von 24-Bit-Datenpunkten für jedes der Wörter oder der vollständigen, zu erzeugenden Sprachlaute.
Fig. 18 mit der Tabelle A enthält eine Liste von Da-
bo ten, die die vollständige Kurvenform als Beispiel für den Laut des Wortes »who« angibt. Drei Datenbytes werden zur Darstellung jedes Datenpunktes oder jedes Kurvenformsegmentes benutzt, die zur Herstellung der Kurvenform des vollständigen Lautes zu verknüpfen sind. Diese Datenpunkte sind sequentiell vom Punkt 1 bis zum Punkt Naufgelistet.
Für jeden Datenpunkt geben die vier niedrigststelligen Bits 55 des ersten Byte an, welche der 14 Basisfunk-
tionen d\(n) zur Erzeugung der Kurvenform ausgewählt wird. Die vier höchststelligen Bits 60 des ersten Byte geben an, welcher Betrag einer Zeitkompression oder -Expansion, ausgedrückt durch einen Kompressions/Expansionskoeffizienten d^m) benutzt werden muß, um eine gewünschte Ausleseperiode für die Basisfunktion zu erhalten. Die Kompressions/Expansionskoeffizienten für das Diagramm in F i g. 3 sind in Tabelle B angegeben.
Tabelle B
Kompressions/Expansionskoeffizient
Koeffizient
Wert
0,755
0,844
0,918
1,00
1.09
1,18
1,29
1,40
Unter erneuter Bezugnahme auf Fig. 18 ergibt sich, daß das zweite Byte 65 für jeden Datenpunkt die Tonhöhenperiode als eine von 256 möglichen Zeitperioden definiert. Diese Tonhöhenperiode wird zur Abkürzung oder Verlängerung des zugeordneten, rekonstruierten Kurvenformsegmentes der Basisfunktion abhängig von der relativen Länge der Basisfunktions-Ausleseperiode und der Tonhöhenperiode benutzt.
Eine weitere Datenpunkt-Kurvenform wird mit ihrem unmittelbar vorgehenden Kurvenformsegment bei Beendigung des vorhergehenden Kurvenformsegmentes am Ende der Tonhöhenperiode verknüpft. Das dritte Byte 70 für jeden Datenpunkt gibt an, welche der 256 Amplituden-Quantisierungsstufen benutzt werden soll, um die aus der Basisfunktionstabelle gelesene Amplitude des Kurvenformsegmentes zu modifizieren.
Die Amplituden- und Tonhöheninformationen mit Bezug auf jeden gewünschten Laut lassen sich mil Hilfe bekannter Analyseverfahren bestimmen.
Alle Daten, die die 14 Basisfunktionen darstellen, sind im Speicher 18 in F i g. 1 abgelegt und befinden sich dort an entsprechenden Basisfunktionsadressen. Die 146 Datenwörter, die die Amplitudenabtastwerte jeweils einer Basisfunktion darstellen, sind in aufeinanderfolgenden Adressen im Speicher 18 in F i g. 1 gespeichert.
Fig. 19 zeigt eine Tabelle 1 mit 28 Bytes zur indirekten Adressierung der Basisfunktionen. In Tabelle 1 sind 14 Zwei-Byte-Adressen, die die absolute Start- oder Anfangsadresse jeder der 14 Basisfunktionen in einer noch zu beschreibenden Tabelle 2 identifizieren. Die in Tabelle 1 (F i g. 19) angegebenen Adressen werden durch den Mikroprozessor 15 in F i g. 1 abhängig von dem Basisfunktionsparameter d\(n) gewählt, der in Tabelle A in F i g. 18 gespeichert ist.
F i g. 20 zeigt Tabelle 2 zur Speicherung von Basisfunktionsdaten. Wie oben erwähnt, werden die aufeinanderfolgend codierten Amplitudenabtastwerte in sequentiellen Adressen für jede Basisfunktion d\(n) gespeichert. Alle Amplitudenabtastwerte für jede Basisfunktion können aus dem Speicher 18 in F i g. 1 dadurch gelesen, daß der Anfangsabtastwert adressiert und Informationen aus dieser Adresse und den nachfolgenden 145 Adressen gelesen werden. Demgemäß reichen die in Tabelle 1 angegebenen 14 Adressen aus, um alle Basisfunktionsdaten auf Befehl im Speicher 18 zu lokalisieren und auszulesen.
Es sei erneut auf F i g. 1 Bezug genommen. Die Schaltungsanordnung erzeugt gewählte Laute anhand der in der Datenpunkttabelle A und in der Basisfunktionstabelle 2 gespeicherten Daten. Ein Anwendungsprogramm ist außerdem im Speicher 18 abgelegt. Der Speicher ist mit dem Mikroprozessor l5 verbunden, der die ίο Auswahl, die Wegleitung und die Zeitsteuerung bei den Datenübertragungen aus der Tabelle A und der Tabelle 2 im Speicher 18 über den Mikroprozessor 15 und die Eingangs/Ausgangseinrichtung zu den Digital-Analogwandlern 11 und 12 steuert.
Obwohl die beschriebenen Operationen zur Verarbeitung von Basisfunktionsdaten zwecks Erzeugung von gesprochenen Lauten unter Verwendung vieler Anordnungen und Verfahren durchgeführt werden können, sind in einem praktischen Ausführungsbeispiel der Anordnung gemäß F i g. 1 ein Mikroprozessor, eine Eingangs/Ausgangseinrichtung und ein Digital-Analogwandler verwendet worden.
Der Speicher wurde in Form eines Schreiblesespeichers und eines Festwertspeichers verwirklicht. Der Schreiblesespeicher' wird durch ein Bauteil und der Festwertspeicher durch vier oder mehr Bauteile dargestellt. Ein Speicher wird für das Anwendungsprogramm, Speicher werden zur Aufnahme der Tabellen 1 und 2 und ein weiterer oder weitere Speicher werden zur Aufnähme der Wörterlisten der Tabelle A benutzt.
Bei dem praktischen Ausführungsbeispiel verbindet ein Adressenbus 30 den Mikroprozessor 15 mit dem Speicher 18 zur Adressierung von Daten, die aus dem Speicher gelesen werden sollen, und mit der Eingangs-Ausgangseinrichtung 20 zur Steuerung von Informationsübertragungen vom Mikroprozessor zur Eingangs-Ausgangseinrichtung 20. Ein 8-Bit-Datenbus 31 verbindet den Speicher mit dem Mikroprozessor zur Übertragung von Daten aus dem Speicher zum Mikroprozessor auf Befehl. Der Datenbus 31 verbindet außerdem den Mikroprozessor 15 mit der Eingangs-Ausgangseinrichtung 20 zur Übertragung von Daten vom Mikroprozessor zur Eingangs-Ausgangseinrichtung mit der durch den Kompressions-Expansionskoeffizienten d2(m) gemaß Tabelle A angegebenen Basisfunktions-Ausleserate.
Ein Flußdiagramm der Programmierstufen, die zur Umwandlung des Mikro-Computers in einen Sonderzweckrechner dienen, ist in Fig. 21 gezeigt. Jeder in dem Flußdiagramm angegebene Schritt ist an sich bekannt und kann durch einen Programmierfachmann in ein geeignetes Programm umgesetzt werden. Die bei dem Auslesen von Basisfunktionen zur Synthetisierung von Sprachkurvenformen benutzten Unterprogramme sind in den Anhängen A, B und C angegeben.
Abtastamplitudeninformationen von der Basisfunktionstabelle 2 im Speicher 18 durchläuft den Mikroprozessor 15, den Datenbus 31, die Eingangs-Ausgangseinrichtung 20 und einen 8-Bit-Datenbus 32 zum Digitalbo Analogwandler 11 mit der Basisfunktions-Leserate. Die Amplitudeninformationen liegen in einem Digitalcode vor, der die Amplituden der Abtastwerte für die Kurvenformsegmente darstellt. Die Amplitudeninformation, die aus der Tabelle A zur Modifizierung der Amplib5 tude der Basisfunktions-Kurvenformsegmente gelesen wird, wird vom Speicher über den Mikroprozessor zur Eingangs-Ausgangseinrichtung 20 übertragen, die dauernd das gleiche Digitalwort über einen 8-Bit-Datenbus
33 an einen Digital-Analogwandler 12 für eine vollständige Tonhöhenperiode anlegt. Der Digital-Analogwandler 12 erzeugt ein Vorspannungssignal, das die Amplitudenmodifizierinformation angibt, und überträgt dieses Vorspannungssignal zum Digital-Analogwandler U. Der Digital-Analog-Wandler 11 ist als multiplizierender Digital-Analog-Wandler ausgelegt, der die Amplitude der Basisfunktionssignale entsprechend dem Wert des vom Digital-Analog-Wandler 12 zugeführten Vorspannungssignals modifiziert. Nachdem die Amplituden modifizierinforma tion an den Digital-Analogwandler 12 zu Beginn jeder Tonhöhenperiode angelegt ist, wird die Folge von 146 Abtastcodewörtern, die eine Basisfunktion darstellen, nacheinander vom Mikroprozessor 15 über die Eingangs-Ausgangseinrichtung 20 zum Digital-Analogwandler 11 übertragen, der das gewünschte, in seiner Amplitude modifizierte Basisfunktions- Kurvenformsegment für eine Tonhöhenperiode aus den 146 Abtastcodewörtern der Basisfunktion erzeugt.
Es sei wiederum darauf hingewiesen, daß die Leserate der 146 Abtastcodewörter entweder gleich oder schneller bzw. langsamer als die 8-kHz-Abtast- oder Speicherrate ist, die zur Gewinnung der Amplitudenabtastwerte dient. Diese Variation der Ausleserate wird durch den Mikroprozessor 15 in Abhängigkeit von dem Kompressions/Expansionskoeffizienten d2(m) für die relevante Periode durchgeführt.
Durch eine Beschleunigung der Ausleserate erzeugt die Anordnung gemäß F i g. 1 eine Kurvenform, die eine zeitlich komprimierte Abwandlung der gewählten Basisfunktion ist. Diese komprimierte Abwandlung der Basisfunktion stellt eine Annäherung des tatsächlichen Kurvenformsegmentes für einen abweichenden Punkt in der Darstellung mit dem Formanten Fi in Abhängigkeit vom Formanten F2 gemäß F i g. 3 dar. Wenn beispielsweise die Basisfunktion d\(Ö) im Datenpunkt 55 in F ig. 3 gewählt und zeitlich mit einem Kompressionskoeffizienten dtf) komprimiert wird, dann entsteht ein Kurvenformsegment, das eine gewünschte tatsächliche Kurvenform für einen Punkt 60 in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten Fl annähert. Dieses erzeugte Kuryenformsegment, das als, Punkt 60 (F i g. 3) identifiziert ist, wird aus der Basisfunktion c/i(0) und dem Kompressions/Expansionskoeffizienten £/2(7) erzeugt.
Durch eine Verlangsamung der Ausleserate der Basisfunktionsinformationen erzeugt die Schaltung gemäß F i g. 1 ein Kurvenformsegment, das eine zeitlich expandierte Abwandlung der gewählten Basisfunktion darstejlt. Diese zeitlich expandierte Abwandlung der Basisfuriktion ist ebenfalls eine Annäherung eines tatsächlichen Kurvenformsegmentes, für einen unterschiedlichen Punkt in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten F2 gemäß F i g. 3. Durch Wahl der Basisfunktion <rfi(0) im Datenpunkt 55 in Fig. 3 und eine zeitliche Expandierung mit einem Kompressiong/Expansionskoeffizienten d^O) erzeugt die Anordnung gemäß F i g. 3 ein Kurvenformsegment, das eine gewünschte tatsächliche Kurvenform für einen Punkt 62 in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten F2 annähert.
Man beachte, daß die Anordnung gemäß F i g. 1 gleichzeitig mit mehreren Formantfrequenzen arbeitet, wenn sie die Kurvenformsegmente komprimiert oder expandiert. Die gleichzeitige Kompression oder Expansion wird erreicht, da die Basisfunktionslinie 46 in der Darstellung des Formanten Fl in Abhängigkeit vom Formanten F2 eine Steigung m = — 1 besitzt. Eine zeitliche Kompression oder Expansion wird gleichmäßig für die Kennlinien beider Formanten Fl und F2 durchgeführt, da die Kompressions- und Expansionsoperationen in Richtung vpn Linien arbeiten, die rechtwinklig zur Basisfunktionslinie 46 verlaufen. Diese Linien rechtwinklig zur Linie 46 bilden jeweils einen Ort, für den das Verhältnis zwischen den Formantfrequenzen Fl und F2 gleich bleibt.
Man beachte, daß die Ausleserate festlegt, wie schnell die Amplitude des erzeugten Kurvenformsegmentes abnimmt. Die Tonhöhenperiodeninformation, die aus der Tabelle A in Fig. 18 gelesen wird, bestimmt, wann das zugeordnete Kurvenformsegment beendet werden soll.
Wie oben erwähnt, wird die Kurvenformsegment-Amplitudeninformation zur Modifizierung der erzeugten Kurvenform durch die Eingangs-Ausgangseinrichtung 20 an die Digitaleingänge des Digital-Analogwandlers 12 als Koeffizient angelegt, der eine Vorspannung oder Vorgabe zur Modifizierung der Amplitude des Kurvenformsegmentes bestimmt, das von dem Digital-Analogwandler 11 erzeugt werden soll. Bei dieser Anordnung arbeitet der Digital-Analogwandler 12 als multiplizierender Digital-Analogwandler.
Das sich ergebende, vom Digital-Analogwandler 11 auf der Leitung 40 erzeugte Ausgangssignal ist ein Analogsignal, das an irgendeinen akustischen Wandler gegeben wird, der in F i g. 1 als Beispiel in Form eines Tiefpaßfilters (LPF) 41 und eines Lautsprechers 13 dar gestellt ist. Das Tiefpaßfilter 41 ist zwischen den Digital- Analogwandler 12 und den Lautsprecher 13 geschaltet um die Qualität der sich ergebenden Laute zu verbessern. Die Verbesserung ergibt sich durch ein. Ausfiltern unerwünschter hoher Frequenzkomponenten des abge tasteten Signals. Die von der beschriebenen Anordnung synthetisierten Sprachlaute haben sehr gute Qualität, obwohl nur ein begrenzter Speicherraum zur Aufnahme aller erforderlichen Hauptparameter und eine begrenzte Menge von verhältnismäßig billigen weiteren Bautei- len zur Nachbildung aller gewünschten Kurvenformsegmente benutzt werden.
Die Speicherkapazität des Synthetisierers gemäß F i g. 1 wird praktisch ausschließlich durch die Größe des Vokabulars bestimmt, das. erzeugt werden solL Die Speicherkapazität hängt von der Größe der Tabelle A in Fig. 18 ab, die beschreibende Informationen für alle zu erzeugenden Sprechlaute enthält.
F i g. 21 zeigt ein Flußdiagramm für die Folge von Verfahrensschritten, die bei der Erzeugung eines voll» ständigen Sprechlautes auftreten, der von der Schaltungsanordnung gemäß F i g. 1 unter Steuerung eines Programms synthetisiert werden soll.
Gemäß F i g. 1 ist der erste dargestellte Schritt die Auswahl des gesprochenen Wortes, das synthetisiert werden soll. Eine solche Auswahl erfolgt vor Beginn der Steuerung durch das in den Anhängen A und B angegebene Programm,
Nach der Auswahl des gewünschten Wortes beginnt die Programmsteuerung unmittelbar nach einer Angabe »Start«. Das Wort χ wird initiert und ein Wortzeiger erzeugt. Der Mikroprozessor identifiziert damit die Position desjenigen Teiles der Tabelle A, die das gewählte Wort beschreibt. Wie oben erwähnt, enthält die Tabelle A eine Liste von 3-Byte-Datenpunkten für jeden
Laut, der synthetisiert werden soll.
Nach Anfangseinstellung des Mikroprozessors läuft die Steuerung mit dem dritten Schritt gemäß Fig.21 weiter. Damit beginnt eine große äußere Schleife im
13
Flußdiagramm. Bei diesem Verarbeitungsschritt bestimmt die Anlage gemäß F i g. 1 bestimmte Informationen, die während der ersten Tonhöhenperiode des gewählten Wortes zu benutzen sind. Diese Informationen beinhalten die Dauer der Tonhöhenperiode, die Adresse der gewählten Basisfunktion, den Kompressions/Expansionskoeffizienten und den Amplitudenkoeffizienten, die für die Erzeugung des ersten Kurvenformsegmentes verwendet werden sollen. Alle diese Informationen werden aus dem Speicher 18 zum Mikroprozessor 15 übertragen.
Dabei beginnt der Mikroprozessor mit der Ausgabe des Amplitudenkoeffizienten zur Eingangs-Ausgangseinrichtung für die vollständige Tonhöhenperiode.
Innerhalb der großen Schleife in F i g. 1 befindet sich eine kleinere Verarbeitungsschleife. Am Anfang der kleineren Schleife gibt der Mikroprozessor einen Abtastwert einer Basisfunktion an die Eingangs-Ausgangseinrichtung. Anschließend an diesen Schritt wird der Speicherzeiger für den nächsten Abtastwert auf den neuesten Stand gebracht, und zwar jedesmal dann, wenn Daten mittels der kleineren Schleife verarbeitet werden, bis die Basisfunktion vollständig ausgelesen ist. Der nächste Verfahrensschritt besteht in der Erzeugung der zwischen den Abtastwerten liegenden Verzögerungsperiode abhängig davon, welcher Kompressions/ Expansionskoeffizient gilt. Die kleine Schleife wird dadurch beendet, daß der Tonhöhenperiodenzählwert auf den neuesten Stand gebracht und eine Entscheidung getroffen wird, ob die Tonhöhenperiode vorbei ist oder nicht. Wenn die Tonhöhenperiode nicht vollständig ist, kehrt die Steuerung zurück und durchläuft erneut die kleinere Verarbeitungsschleife. Wenn die Tonhöhenperiode vollständig ist, prüft die Anlage, ob das gewählte Wort vollständig synthetisiert ist. Wenn dies nicht der Fall ist, kehrt die Steuerung über die große Schleife zurück, um Parameter für den nächsten Kurvenformabschnitt zu bestimmen. Im anderen Falle kehrt die Steuerung zum Ausführungsprogramm zurück.
40
Hierzu 9 Blatt Zeichnungen
45
50
55
60

Claims (6)

Patentansprüche:
1. Verfahren zur Synthetisierung von Sprache mit folgenden Verfahrensschritten:
a) Abspeichern von Digital-Datengruppen, die je ein Kurvenformsegment von Sprache innerhalb einer Tonhöhenperiode mit mehreren Formanten (Fi, F2) in Form digital codierter, mit einer Basisabtastrate gewonnener Amplitudenabtastwerte darstellen;
b) Auslesen und Aneinanderreihen von Digital-Datengruppen, die abhängig von den zu erzeugenden Wörtern gewählt sind,
dadurch gekennzeichnet, daß das Auslesen gemäß Verfahrensschritt b) mit einer Rate erfolgt, die abhängig von der zu erzeugenden Sprachkurvenform von Tonhöhenperiode zu Tonhöhenperiode veränderbar und gleich, kleiner oder größer als die Basisabtastrate ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die gespeicherten Kurvenformsegmente Datenpunkte darstellen, die in einer Darstellung mit rechtwinkligen Koordinatenachsen, in der die Frequenzen des Formanten FI in Abhängigkeit von den Frequenzen des Formanten F2 in doppeltlogarithmischem Maßstab dargestellt sind, auf einer Geraden (46) liegen.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Gerade (46) eine Steigung m = - 1 besitzt. ■*■"■
4. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß ein Speicher (18) vorgesehen ist, der eine Datenpunkttabelle (F ig. 18) mit einer Liste von einen vollständigen, zu synthetisierenden Laut beschreibenden Datenpunkten, ferner eine erste Tabelle (Fig. 19), die eine Liste von Adressen enthält, von denen jede die Anfangsspeicherposition einer Folge von Speicherpositionen jeweils einer anderen Digital-Datengruppe ist, und eine zweite Tabelle (F i g. 20) aufnimmt, die eine Liste der Digital-Datengruppe enthält, daß eine Verarbeitungseinrichtung mit einem Mikroprozessor (15) vorgesehen ist, der mit dem Speicher (18) über einen Adressenbus (30) und einen Datenbus (31) in Verbindung steht, daß der Mikroprozessor unter Ansprechen auf Daten, die aus der Datenpunkttabelle (Fig. 18) und der ersten Tabelle (Fig. 19) gelesen werden, die Übertragung gewählter Digital-Datengruppen aus der zweiten Tabelle (Fig. 20) zum Mikroprozessor steuert, daß eine Eingangs-Ausgangseinrichtung (20) vorgesehen ist, die mit dem Mikroprozessor über den Datenbus (31) verbunden ist, um die gewählte Digital-Datengruppen aus dem Mikroprozessor aufzunehmen, und ferner ein erster Digital-Analogwandler (U) vorhanden ist, der mit der Eingangs-Ausgangseinrichtung über einen Datenbus (32) verbunden ist, um die gewählten Digital-Datengruppcn aus der Eingangs-Ausgangseinrichtung aufzunehmen, und daß der erste Digital-Analogwandler unter Ansprechen auf die gewählten Digital-Datcngruppen ein analoges Kurvenformsegment erzeugt, das angenähert einen Datenpunkt abseits der Geraden (46) darstellt.
5. Vorrichtung nach Anspruch 4, dadurch gekcnn-
zeichnet, daß der Mikroprozessor (15) unter Ansprechen auf einen Zeitkompressions-Expansionskoeffizientcn (60), der aus der Datenpunkttabelle (F i g. 18) geholt wird, die Rate bestimmt, mit der Digital-Datengruppen vom Mikroprozessor zur Eingangs-Ausgangseinrichtung übertragen werden.
6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung einen zweiten Digital-Analogwandler (12) aufweist, der mit der Eingangs-Ausgangseinrichtung (20) über einen Datenbus (33) in Verbindung steht, daß der zweite Digital-Analogwandler (12) unter Ansprechen auf einen aus der Liste von Datenpunkttabellen (F i g. 18) geholten Amplitudenkoeffizienten (70) ein Vorspannungssignal erzeugt und daß der erste Digital-Analog-Wandler (11) ferner auf das Vorspannungssignal anspricht, um die Amplitude des analogen Kurvenformsegmentes zu modifizieren, das den Datenpunkt abseits der Geraden (46) darstellt.
DE2945413A 1978-04-06 1979-04-02 Verfahren und Vorrichtung zur Synthetisierung von Sprache Expired DE2945413C1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/894,042 US4163120A (en) 1978-04-06 1978-04-06 Voice synthesizer

Publications (1)

Publication Number Publication Date
DE2945413C1 true DE2945413C1 (de) 1984-06-28

Family

ID=25402515

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2945413A Expired DE2945413C1 (de) 1978-04-06 1979-04-02 Verfahren und Vorrichtung zur Synthetisierung von Sprache

Country Status (8)

Country Link
US (1) US4163120A (de)
EP (1) EP0011634A1 (de)
JP (1) JPS5930280B2 (de)
CA (1) CA1105621A (de)
DE (1) DE2945413C1 (de)
FR (1) FR2457537A1 (de)
GB (1) GB2036516B (de)
WO (1) WO1979000892A1 (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1172366A (en) * 1978-04-04 1984-08-07 Harold W. Gosling Methods and apparatus for encoding and constructing signals
US4234761A (en) * 1978-06-19 1980-11-18 Texas Instruments Incorporated Method of communicating digital speech data and a memory for storing such data
US4189876A (en) * 1978-08-07 1980-02-26 American Seating Company Beam-mounted folding chairs
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis
US4272649A (en) * 1979-04-09 1981-06-09 Williams Electronics, Inc. Processor controlled sound synthesizer
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
GB2050979A (en) * 1979-05-29 1981-01-14 Texas Instruments Inc Automatic voice checklist system for aircraft cockpit
EP0025513B1 (de) * 1979-08-17 1984-02-15 Matsushita Electric Industrial Co., Ltd. Heizgerät mit Detektor
US4335379A (en) * 1979-09-13 1982-06-15 Martin John R Method and system for providing an audible alarm responsive to sensed conditions
AU523649B2 (en) * 1979-10-18 1982-08-05 Matsushita Electric Industrial Co., Ltd. Heating apparatus safety device using voice synthesizer
JPS5681900A (en) * 1979-12-10 1981-07-04 Nippon Electric Co Voice synthesizer
DE3071835D1 (en) * 1979-12-26 1987-01-02 Matsushita Electric Ind Co Ltd Food heating apparatus provided with a voice synthesizing circuit
WO1981002215A1 (en) * 1980-02-01 1981-08-06 M Segan Audio-visual message device
US4449233A (en) 1980-02-04 1984-05-15 Texas Instruments Incorporated Speech synthesis system with parameter look up table
JPH0124699Y2 (de) * 1980-02-18 1989-07-26
GB2076616B (en) * 1980-05-27 1984-03-07 Suwa Seikosha Kk Speech synthesizer
US4517431A (en) * 1981-05-04 1985-05-14 Matsushita Electric Industrial Co., Ltd. Safety device for a heating appliance
US4449231A (en) * 1981-09-25 1984-05-15 Northern Telecom Limited Test signal generator for simulated speech
US4571739A (en) * 1981-11-06 1986-02-18 Resnick Joseph A Interoral Electrolarynx
DE3272234D1 (en) * 1982-01-29 1986-09-04 Ibm Audio response terminal for use with data processing systems
GB2119208B (en) * 1982-04-28 1986-01-22 Gen Electric Co Plc Method of and apparatus for generating a plurality of electric signals
US4624012A (en) 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
US4566117A (en) * 1982-10-04 1986-01-21 Motorola, Inc. Speech synthesis system
US4639877A (en) * 1983-02-24 1987-01-27 Jostens Learning Systems, Inc. Phrase-programmable digital speech system
US4675840A (en) * 1983-02-24 1987-06-23 Jostens Learning Systems, Inc. Speech processor system with auxiliary memory access
EP0183712A1 (de) * 1984-03-13 1986-06-11 R. DAKIN &amp; COMPANY Für schall empfindliches spielzeug
JPS6199198A (ja) * 1984-09-28 1986-05-17 株式会社東芝 音声分析合成装置
CA1257002A (en) * 1986-02-04 1989-07-04 Yukio Mitome Pole-zero analyzer
EP0245531A1 (de) * 1986-05-14 1987-11-19 Deutsche ITT Industries GmbH Verwendung von halbleitertechnischen Festwertspeichern
US5009143A (en) * 1987-04-22 1991-04-23 Knopp John V Eigenvector synthesizer
KR890702176A (ko) * 1987-10-09 1989-12-23 에드워드 엠, 칸데퍼 디지탈 방식으로 기억된 상호분절 언어세그먼트로부터 언어발생 방법 및 그 장치
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech
US5130696A (en) * 1991-02-25 1992-07-14 Pepsico Inc. Sound-generating containment structure
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US20120078625A1 (en) * 2010-09-23 2012-03-29 Waveform Communications, Llc Waveform analysis of speech
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3892919A (en) * 1972-11-13 1975-07-01 Hitachi Ltd Speech synthesis system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3104284A (en) * 1961-12-29 1963-09-17 Ibm Time duration modification of audio waveforms
US3641496A (en) * 1969-06-23 1972-02-08 Phonplex Corp Electronic voice annunciating system having binary data converted into audio representations
US3828132A (en) * 1970-10-30 1974-08-06 Bell Telephone Labor Inc Speech synthesis by concatenation of formant encoded words
US3908085A (en) * 1974-07-08 1975-09-23 Richard T Gagnon Voice synthesizer
US4069970A (en) * 1976-06-24 1978-01-24 Bell Telephone Laboratories, Incorporated Data access circuit for a memory array

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3892919A (en) * 1972-11-13 1975-07-01 Hitachi Ltd Speech synthesis system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Steinbuch/Weer, Taschenbuch der Informatik, Bd. 2, 1974, S. 481-491 *

Also Published As

Publication number Publication date
US4163120A (en) 1979-07-31
FR2457537A1 (fr) 1980-12-19
WO1979000892A1 (en) 1979-11-15
EP0011634A1 (de) 1980-06-11
JPS5930280B2 (ja) 1984-07-26
JPS56500353A (de) 1981-03-19
GB2036516B (en) 1982-11-03
GB2036516A (en) 1980-06-25
FR2457537B1 (de) 1982-02-26
CA1105621A (en) 1981-07-21

Similar Documents

Publication Publication Date Title
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE3244476C2 (de)
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69420547T2 (de) Wellenform-mischungsverfahren für system zur text-zu-sprache umsetzung
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69421804T2 (de) Intonationsregelung in text-zu-sprache-systemen
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE69431445T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE69124210T2 (de) Einrichtung zur Signalcodierung
DE69631037T2 (de) Sprachsynthese
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE3019823C2 (de)
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN