DE1811040C3

DE1811040C3 - Anordnung zum Synthetisieren von Sprachsignalen

Info

Publication number: DE1811040C3
Application number: DE1811040A
Authority: DE
Inventors: Akira Musashino Ichikawa; Kazuo Kokubunji Nakata
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1967-11-29
Filing date: 1968-11-26
Publication date: 1974-02-14
Also published as: DE1811040A1; US3532821A; GB1225142A; DE1811040B2; FR1593788A

Description

stimmhaften Laut, in dem die Wiederholungsrale UiIIi-T Vokiilbasis konstant ist, und der mit der Be-•'ugszahl 2 bezeichnete Abschnitt einem KonMinanten. Die Ireuuenzspcktren der beiden den Abschnitten 1 und 2 in Fig. la zugeordneten Laute kennzeichnen sich, wie aus Fig. Ib bzw. 1 c ersichtlich ist, durch ihre Hüllkurven 3, die ein Maß tür die Resouanzkenngroßen des artikulatorischen Raumes darstellen, und durch ihre Internstruktur, die ein Maß tür die Kenngrößen der Vokalbasis darstellt, wobei die ersteren außerdem hauptsächlich durch verschiedene einzelne Resonanzkenngrößen, d. h. die Formanten, 4, 4', 4", 5 und 5' bestimmt werden und die letztere hauptsächlich durch ein harmonisches Linienspektrum 6 gekennzeichnet ist, das die Periodiziiät und die Zufälligkeit eines kontinuierlichen Spektrums aufweist.

Erfindungsgemäß wird die Synthetisierung eines stimmhaften Lautes mit einer konstanten Wiederholungsrate., der beispielsweise ein charakteristisches Spektrum aufweist, wie es in F i g. 1 b veranschaulicht ist, aus einer Anzahl von vorgespeicherten gedampften Sinusschwingungen verschiedener Frequenz erleichtert.

Als nächstes soll nun das Grundprinzip einer solchen Synthese näher erläutert werden.

Eine gedämpfte Sinusschwingung, wie sie in F i g. 2 a dargestellt ist, ergibt ein einzelne Resonanzfrequenzspektrum, wie es in Fig. 2b gezeigt ist. Dabei läßt sich diese gedämpfte Sinusschwingung durch den Ausdruck e -■:' sin w_f t darstellen, in dem" \ den Dämpfungsfaktor, / die Zeit und ω, die Kreisfrequenz für die Sinusschwingung bedeuten. Wird die gedämpfte Sinusschwingung mit einer konstanten Periode T wiederholt, wie dies in Fig. 2c veranschaulicht ist, so geht ihr Frequenzspektrum in ein harmonisches Linienspektrum über, wie es in Fig. 2d dargestellt is' Aus der akustischen Theorie der Spracherzeugung ist bekannt, daß sich die in F i g. 1 b dargestellte Hüllkurve 3 durch kontinuierliche Aneinanderreihung einzelner Resonanzkennlinien gewinnen läßt, wie sie in Fig. 2b dargestellt sind. Daher läßt sich ein solcher stimmhafter Laut mit einer konstanten Pitch-Periode oder Wiederholungsperiode für die Vokalbasis wie etwa der Vokal »e« dadurch synthetisieren, daß man eine vorgespeicherte gedämpfte Sinusschwingung von der Formant-Frequenz des betreffenden Vokals äquivalenter Formant-Frequenz mit einer vorgegebenen Periode mehrfach wiederholt und dabei die Amplituden der wiederholten Schwingung so steuert, daß die nachstehenden Bedingungen erfüllt werden: Die relative Amplitude des zweiten Formanten beträgt (W₁Zw₂)² und die relative Amplitude des dritten Formanten (W₁Zw₂)² -(w,/w₃)^ä, wobei W₁, w₂ und OJ₃ jeweils die Kreisfrequenzen des ersten, des zweiten bzw. des dritten Formanten des Lautes bedeuten.

Außerdem läßt sich ein Ubergangslaut zwischen einem stimmhaften Laut mit einer konstanten Wiederholungsfrequenz, d. h. einem Laut mit einem speziellen Frequenzspektrum, und einem weiteren Laut mit einem anderen Frequenzspektrum mit hinreichender Glätte bzw. Weichheit durch die folgenden Schritte synthetisieren: Quantisierung der Änderung in der Frequenz der charakteristischen Formanten der jeweiligen Laute zwischen diesen beiden stimmhaften Lauten_; Synthetisierung von Lauten durch Zusammensetzung gedämpfter Sinusschwin

gungen in der oben beschriebenen Weise und anschließende Verbindung der so gebildeten Laute miteinander.

Dementsprechend braucht die Anzahl der aku- ^tischen Grundeleuieitte- die in der errindungsgemäßen Anordnung zur Spraehsynthetisierung vorgespeichert werden müssen, nur so groß zu sein, dv-ß sie die für den Aufbau eines Sprachsignals unter Einschluß des ersten, des zweiten und des dritten Formanten wesentlichen Frequenzbänder mit hinreichendem Spielraum abdeckt. Ein Beispiel für eine solche Anzahl, wie sie bei einer Ausführungsform einer erfindungsgemäßen Anordnung realisiert worden ist, ist in der nachstehenden Tabelle 1 dargestellt.

Tabelle 1

Beispiel für die Anzahl der in Form gedämpfter Sinusschwingungen vorgespeicherten akustischen

Grundelemente

For- niant	Γ-requenzhereich	Quantisieruiigs- stufe	Kanal- anzah!	BiI- Anzah
3. 30	200 bis 950 Hz 800 bis 2400 Hz 2200 bis 3500 Hz in.seesamt 200 bis 3500 Hz	50Hz Logarith mischer Maß stab Logamh- mischer Maß stab	16 16 S	4 4 3
40	• 11

Was nun die konsonantischen Anteile der Sprache (Nasallaute, stimmlose Konsonanten und vokalische oder stimmhafte Konsonanten) anbelangt, so ist es lediglich erforderlich, Signale vorzuspeichern, die den Kenngrößen der jeweiligen Konsonanten entsprechen. Die Anzahl derartiger Signale beträgt höchstens 16. wie dies in der nachstehenden Tabelle 2 dargestellt ist.

Tabelle 2

Beispiel für die Anzahl der gespeicherten konsonantischen Grundelcmente

Reiblaute	50	iCon-	Anzahl	Explosivlaute	Anzahl	Nasallaute	Anzahl
son&nt	der		der		der
	Grund-	Kon	Grund-	Kon	Grund-
55 S	eleme; (e	sonant	elemcnte	sonant	elemenle
S	1		1		1
h	1	P	2	m	I
5	t	3	η	ί
k	N

Dementsprechend liegt die Gesamtzahl für die zu speichernden akustischen Grundelernente. in der Größenordnung von 50.

Zur Verbesserung der Natürlichkeit der auf diese Weise aufgebaui°n Sprache ist es erforderlich, die Periode für die oben beschriebene wiederholte Erzeugung der gedämpften Sinusschwingungen in Übereinstimmung mit der Pitch-Periode der zu synthetisierenden Sprachsignale zu steuern.

Im folgenden wird eine gangbare Methode für eine

derartige Steuerung unter Bezugnahme auf F i g. 3 näher beschrieben, in der ein Magnettrommelspeicher schematisch veranschaulicht ist, in den die oben beschriebenen gedämpften Sinusschwingungen eingespeichert sind.

Nimmt man an, daß der unterste Wert für die Pitch-Frequenz der zu synthetisierenden Sprachsignale bei 50Hz liegt, so müssen die gedämpften Sinusschwingungen über 20 ms hinweg gespeichert werden, was einer Periode für die Umdrehung der Magnettrommel entspricht. Dies bedeutet, daß die Zeitkonstante für die Dämpfung der Sinusschwingungen für den Höchstfall auf etwa 20 ms anzusetzen ist. Diese Annahme ist mit Rücksicht auf die Bandbreite der Vokalformanten angemessen. Rund um den Umfang der Magnettrommel sind beispielsweise zehn Leseköpfe mit gleichem gegenseitigem Abstand verteilt angeordnet, so daß der zeitliche Abstand zwischen zwei benachbarten Leseköpfen 2 ms beträgt. Dieser Zeitabstand bedeutet gleichzeitig die Minimalgrößc für die Steuerschritte für die Pitch-Periode, und die Pitch-Frequenz wird dann entsprechend der Auswahl der Leseköpfe in den nachstehenden zehn Stufen geregelt: 50, 55,5, 62,5, 71,5, 8.1.5, 100, 125, 166, 250 und 500Hz. Diese Schrittweiten lassen sich selbstverständlich durch eine Vergrößerung der Anzahl N der Leseköpfe entsprechend verkürzen.

Unter Bezugnahme auf die Darstellung in Fig. 3 sei angenommen, daß der Lesekopf I₀ zu einem bestimmten Zeitpunkt im Lesevorgang begriffen ist und daß das Zeitintervall T₀ den zeitlichen Abstand zwischen ,der Auslesung durch den Lesekopf /„ und der Auslcsung durch den Lesekopf /, bedeutet. Beginnt der nächste Auslegevorgang dann, wenn der Anfang des aufgezeichneten Signals die Stellung des Lesekopfes /,. j erreicht, so wird das Zeitintervall zwischen zwei Auslesungen um τ ■ k Sekunden langer. Beginnt die nächste Auslesung dagegen an der Stelle des Lesekopfes /,_*, so wird das Zeitintervall zwischen zwei aufeinanderfolgenden Auslesungen um τ ■ k Sekunden kurzer. Dabei bezeichnet τ das Zeitintervall, das verstreicht, bis sich eine Mantellinie der rotierenden Magnettrommel von einem Lesekopf zu dem nächstfolgenden Lesekopf weitergedrehi hat. Nimmt man nun an, daß das aufgezeichnete Signal durch einen Lesekopf kontinuierlich während einer vollen Umdrehung der Magnettrommel, d. h. 20 ms lang, ausgelesen wird, so ersieht man aus F i g. 4, daß sich der Anfangsabschnitt jeder Ausleseperiode mit einem Teil des von dem vorangehenden Lesekopf ausgelesenen Signals und der Endabschnitt jeder Ausleseperiode mit einem Abschnitt in dem von dem nachfolgenden Lesekopf ausgelesenen Signal überschneiden, so daß der Übergang zwischen den physikalischen Kenngrößen sich weicher vollzieht, woraus sich eine verbesserte Qualität der synthetisierten Sprachsignale ergibt.

Als nächstes sollen der Aufbau und die Arbeitsweise einer Anordnung zur Sprachsynthetisierung mittels Vorspeicherung und Zusammensetzung der vorgespeicherten Signale gemäß der Erfindung an Hand einer bestimmten Ausführungsform einer erfindungsgemäßen Anordnung im einzelnen dargelegt werden:

In Fig. 5, die ein Blockschaltbild einer Ausführungsform der Erfindung darstellt, ist ein mehrkanaliges System mit η Ausgangskanälen veranschaulicht. Die Bestandteile des in ein Sprachsignal umzuwandelnden Satzes, die in einem Hauptgerät 10 beispielsweise einem üblichen großen schnellen Elektronenrechner, ausgewählt werden, werden unmittelbar in ausgangsseitige Sprachsteuersignale 11, 12 bis 1 η für einen Magnettrommelspeicher 20 umgesetzt der ein sogenanntes ^ Ausspracheverzeichnis, d. h einen Satz von Steuersignalen für die zu artikulierenden Sprachelemente, enthält, und anschließend aui

ίο Steuersignaldekoder 101, 102 bis 10« für die jeweiligen Kanäle verteilt, in denen die aufgeteilten Steuersignale in eine Gruppe greifbarerer Steuersignale 21, 22 bis Zn für die Auslesung der aufgezeichneten akustischen Grundelemente dekodiert werden.

Ein Teil der dekodierten Signale wird Torschaltungsmatrizen 201, 202 bis 20/i für die Auswahl der aufgezeichneten Sprachelemente zugeführt, während der übrige Teil Gruppen von Analogmultiplikatoren (311, 312, 313), (321, 322, 333) bis (3nl, 3;i2, 3 η 3) zur Steuerung der relativen Amplituden der ausgelesenen Signale speist. Auf diese Weise wird ein spezielles akustisches Grundelement durch einen speziellen Lesekopf auf der Speichertrommel 30 für diese akustischen Grundelemente in einem besonderen Zeitpunkt ausgelesen, und anschließend wird die relative Amplitude in der der aufgelesenen Signale erforderlichen Weise gesteuert. Die in ihrer Amplitude gesteuerten Ausgangssignale werden Summierverstärkern 314, 324 bis 3n4 in den jeweils zugehörigen Kanälen zugeführt, darin untereinander aufsummiert und anschließend in Multiplikatoren 315, 325 bis 3/ί 5 so in ihrer Intensität geregelt, wie dies für ein Phonem und ein integriertes Sprachsignal erforderlich ist.

Anschließend werden diese Ausgangssignale in Summierverstärkern 316, 326 bis 3/i6 mit Konsonanten kombiniert und werden so zu resultierenden Ausgangssprachsignalen 31, 32 bis 3n. Das oben beschriebene Verfahren wird beispielsweise alle 10 ms wiederholt, und auf diese Weise erhält man ausgangsseitig ein kontinuierliches Sprachsignal.

Als nächstes sollen die wesentlichen Bauteile des obenerwähnten Systems im einzelnen beschrieben werden. Wie bereits oben erläutert, wird ein Sprachsignal erfindungsgemäß in zwei Teile aufgeteilt, nämlich einen ersten Teil, der die Vokale und Übergangslaute unter Einschluß der Hall-vokale und Fließlaute enthält, und einen zweiten Teil, der die Konsonanten, und zwar stimmlose Konsonanten, stimmhafte Konsonanten und Nasallaute enthält. Bei der Sprachsignalsynthese wird der erste Teil durch wiederholte Auslesung von vorgespeicherten gedämpften Sinusschwingungen in variierenden Perioden erzeugt, während der zweite Teil durch unmittelbare Auslesung der jeweils erforderlichen Wellenformen aus den aufgezeichneten konsonantischen Wellenformen gewonnen wird, und schließlich werden beide Teile miteinander kombiniert. Nun ist es bereits bekannt, daß sich Reibelaute und Explosivlaute durch Vergröße-

rung der Überlappung zwischen dem konsonantischen Teil des Sprachsignals und dessen die Vokale und Übergangslaute enthaltendem Teil und Explosivlaute außerdem durch Versteilerung des die Vokale und die Übergangslaute enthaltenden Teiles des Sprachsignals gewinnen lassen. Demzufolge läßt sich jede beliebige Silbe aus den beiden oben beschriebenen Teilen eines Sprachsignals synthetisieren.

Von diesen beiden Teilen jedes SDrachsieriak vpr-

langt lediglich der erste Teil eine wiederholte Aus- Wird ein Konsonant verlangt, so wird das durch lcsung in variierenden Perioden, und diese variablen die Matrix 414 ausgewählte konsonantische Signal Perioden sind außerdem allen ersten, zweiten und dem den Vokalen und Ubergangslautcn cntsprechcndrittcn Formanten gemeinsam. den Signal in einen Summierverstärker 440 zuaddiert, Daher kann bei der nun folgenden Erläuterung der 5 nachdem es in einem Analog-Multiplikator 424 eine Auslesung der aufgezeichneten akustischen Grund- passende Steuerung seiner relativen Amplitude gcclcmente auf einen gesonderten Kanal Bezug genom- gciiiibcr dem die Vokale und Übcrgangslautc cnthalmen werden. Die auf der Magnettrommel 30 aufge- lcnden Signal mit Bezug auf ein Steuersignal 468 erzeichneten akustischen Grundelemente lassen sich in fahren hat.

zwei Kategorien aufgliedern, nämlich eine erste io In Fi g. 7 ist ein Ausschnitt aus einer der in F i g. 6 Gruppe von gedämpften Sinusschwingungen, die zur dargestellten Torschaltungsmatrizen 411, 412, 413 Synthese des obenerwähnten ersten, die Vokale und und 414 für die Auswahl der vorgespeicherten aku-Übcrgangslaute enthaltenden Teils des Sprachsignals stischen Grundelemente im einzelnen dargestellt. Da dienen, und eine zweite Gruppe von konsonantischen die Torschaltungsmatrizen 411,412,413 und 414 ein ■ Wellenformen. Die erste Gruppe ist in drei einander 15 ander in ihrer Arbeitsweise im wesentlichen eiH-in Randbereichen überlappende Gebiete aufgi UiIt. sprechen, kann sich die nachstehende Beschreibung nämlich: den ersten Formantbereich (16 Kanäle zwi- auf lediglich eine davon beschränken, sehen 200 und 950 Hz), den zweiten Formantbereich Für die Darstellung von F i g. 7 sei angenommen, (16 Kanäle zwischen 800 und 2400 Hz) und den daß / aufgezeichnete Spuren 1, 2 bis / auf der Madritten Formantbereich (8 Kanäle zwischen 2200 ao gnettrotnmel 400 wahlweise durch N Leseköpfe 1, 2 und 3500 Hz). Zur Vereinfachung des Aufbaues der bis N ausgelesen werden sollen.

Steuerung sind die Spuren auf der Magnettrommel 30 Das Signal 451 (für die Matrizen 411, 412 und

entsprechend den beiden obenerwähnten Kategorien 413) oder das Signal 452 (für die Matrix 414), das

unterteilt, wobei die erste Kategorie weiter in drei die Leseköpfe bezeichnet, durch welche die aufgc-

Zonen. nämlich eine erste, eine zweite und eine dritte 25 zeichneten Signale ausgelesen werden sollen, wird

Zone, unterteilt ist. Auf diese Weise sind die Aufzeich- einem Dekoderpuffer 500 zugeführt, in dem es dc-

nungsspuren auf der Trommel 30 auf vier Zonen ver- kodiert wird. Der DekoderpufTer 500 speist von den

teilt. Ausgangslcitungen 501 bis 50/V die zu den ausge-

Dics bedeutet wiederum, daß die Speichertrommel wählten Leseköpfen führenden Ausgangsleitungen

400 für die akustischen Grundelemente in vier Zonen 30 mit dem Ausgangssignal »1« und alle übrigen mit

401. 402, 403 und 404 unterteilt ist. wie dies in dem Ausgangssignal »0«.

F i g. 6 dargestellt ist. Die Ausgangssignale von Lese- Inzwischen wird das Signal 461 (für die Matrix

köpfen für die jeweiligen Kanäle in diesen vier Zonen 411), das Signal 462 (für die Matrix 412) oder das

werden Torschaltungsmatrizen 411, 412, 413 und Signal 463 (für die Matrix 413), das die Kanäle an-

414 für die Auswahl dieser Ausgangssignale züge- 35 gibt, deren Ausgangssignale abgenommen werden

führt. Von diesen vier Torschaltungsrnatrizen sollen, einem zweiten DekoderpufTer 600 zugeführt

werden die Matrizen 411, 412 und 413 für die BiI- und darin dekodiert. Der Dekoderpuffer 600 speist

dung der Formanten gemeinsam mit einem Lesekopf- von Ausgangsleitungen 601, 602 bis 60/ die ausge-

Auswahlsignal 45 gespeist, während die verbleibende wählten Leitungen mit dem Signal*!« und alle

Matrix 414 mit einem Signal 452 für die Auswahl des 4° übrigen Leitungen mit dem Signal »0«. Was nun die

Lesekopfes für die Auslesung der Konsonanten ver- aus den einzelnen Spuren auf der Magnettrommel

sorgt wird. ausgelesenen analogen Signale anbelangt, so werden

Um zu bestimmen, welcher Kanal, d.h. welche die Ausgangssignale der den ersten Leseköpfen zuge-

Frequenz, in den jeweiligen Zonen ausgewählt werden ordneten Spuren Klemmen 11, 12 . . . bzw. 1/, die

soll, werden den entsprechenden Matrizen Frequenz- 45 Ausgangssignale für die den zweiten Leseköpfen zu-

Auswahlsignale461, 462 und 463 zugeführt, da die geordneten Spuren Klemmen 21, 22 . . .bzw. 2/ und

ersten, zweiten und dritten Formanten unabhängig die Ausgangssignale für die den /V-ten Leseköpfen

voneinander gesteuert werden sollen. Entsprechend zugeordneten Spuren Klemmen Nl, jV2...bzw. Nl

diesen Steuersignalen erhält man an Ausgangsklem- zugeführt.

men 471, 472 und 473 der Torschaltungsmatrizen 5° Wie aus F i g. 7 ersichtlich, werden digitale UND-

411, 412 und 413 gedämpfte Sinusschwingungen ver- Schaltungen 111, 121 bis IZl; 211, 221 bis 2/1

schiedener Frequenz (entsprechend der jeweiligen bzw. NIl, NU bis iV/1 mit Torschaltungsauswahl-

Formant-Frequenz) in wiederholter Auslesung mit Signalen 501, 502 bis 5ON und 601, 602 bis 60/

speziellen Perioden (entsprechend den jeweiligen gespeist. Als Folge davon öffnet von den /VlTor-

Pitch-Perioden). Die Ausgangssignale der Matrizen 55 schaltungen nur die Torschaltung, die im speziellen

412 und 413 werden bezüglich ihrer relativen Ampli- Fall das Signal »1« zugeführt erhält, und gibt nur an

tude gegenüber dem Ausgangssignal der Matrix 411 die jeweils zugehörige Torschaltung von den nachfol-

in Analog-Multipiikatoren 422 und 423 mit Bezug genden Torschaltungen 112, 122 bis 1/2; 212,

auf Steuersignale 465 und 466 geregelt und an- bis 2/2; N12, N22 bis N12 ein Ausgangssignal »1«

schließend gemeinsam mit dem Ausgangssignal der 60 ab. Auf diese Weise wird das von dem speziellen

Matrix 411 in einem Summierverstärker 431 aufsum- Lesekopf aus der speziellen Spur ausgelesene Aus-

miert. Das Ausgangssignal des Summierverstärkers gangssignal ausgewählt.

431 wird außerdem in einem Analog-Multiplikator Außerdem gibt das dekodierte Ausgangssignal des

441 in seiner Amplitude mit Bezug auf ein Steuer- Dekoderverstärkers 500 nicht nur den auszuwählen-

signal 481 in der Weise geregelt, daß es eine gute 65 den Lesekopf an, sondern auch den Zeitpunkt, zu

Wirkung für den Vokalklang und die Sprache ergibt, dem ein Signal von diesem Lesekopf ausgelesen

und anschließend über eine Ausgangsklemnie 490 als werden soll (da das Signal stets vom Startpunkt der

kontinuierliches Sprachsignal nach außen abgegeben. Aufzeichnung aus ausgelesen wird, kann der Start-

Zeitpunkt ohne weiteres aus dem Zeitimpuls auf der Magnettrommel bestimmt werden). Nimmt man daher an, daß die digitalen UND-Schaltungen' 111, 211 bis /VlI, wenn sie sofort geöffnet werden, das Ausgangssignal»I« während einer vollständigen Umdrehung der Trommel (die zugehörige Periode Tc beträgt beispielsweise 20 ms) beibehalten, dann läßt die zugenörige Auswahltorschaltungsmatrix eine Auslesung zu, wie sie in F i g. 4 veranschaulicht ist.

Die Ausleseausgangssignale werden in einem Endverstärker 700 aufsummiert und nach außen abgegeben. Dessen Ausgangssignal entspricht einem der in F i g. ö eingezeichneten Ausgangssignale 471, 472 oder 473.

Für die Torschallungsmatrix für die Konsonantenauswahl wird die Auslesung einer speziellen Spur durch einen speziellen Lesekopf fortlaufend während

10

einer dem jeweiligen Konsonanten eigenen Dauer verlangt. Dies wird durch Steuerung der Auslesedauer mit Hilfe des von dem Dekoderpuffer500 dekodierten Signals erreicht, während die Auslesedauer für die Vokale konstant ist und beispielsweise 20 ms beträgt. Das Ausgangssignal für die Konsonantenauswahl entspricht dem Signal 474 in F i g. 6.

Es liegt auf der Hand, daß das oben beschriebene Prinzip der Erfindung sich in gleicher Weise sowohl

ίο auf digitale Aufzeichnungsmethoden für akustische Grundelemente als auch auf einen aus einer Anzahl von Schieberegistern bestehenden zyklischen Speicher anwenden läßt. Jedoch versteht es sich dabei von selbst, daß für den Fall einer digitalen Aufzeichnung

ein Digital-Analog-Wandler erforderlich ist, um die aus der Auslesung resultierenden Ausgangssiynale in Analogsignale zu überführen.

Hierzu 3 Blatt Zeichnungen

Claims

Anordnung der eingangs erwähnten Art so auszubil-

Patentanspruch: den, daü sie bei weitgehender Erhaltung der Natür

lichkeit der gesprochenen Sprache eine Sprachsignal-

Anordnung zum Synthetisieren von Sprachsi- synthese mit einem Minimum an für die Vurspeichegnalen mit einem Speicher, der eine Mehrzahl 5 rung von akustischen Grundbausteinen erforderlicher von einzeln abfragbaren akustischen Grundbau- Speicherstellen ermöglicht.

steinen für den Aufbau von stimmhaften und Diese Aufgabe wird erfindungsgemäß dadurch ge

stimmlosen Lauten enthält, und mit einer Steuer- löst, daß die im Speicher enthaltenen Grundbausteint schaltung, die Zeitpunkt und Zeitdauer für die für den Aufbau der stimmhaften Laute gedämpfte Abfrage der einzelnen Grundbausteine aus dem io Sinusschwingungen verschiedener Frequenz sind unc Speicher bestimmt, d adu rch ge ke η η ze i ch - daß die Steuerschaltung für jeden zu erzeugender "net, daß die im Speicher enthaltenen Grund- stimmhaften Laut die mehrfache Abfrage der Sinusbausteine für den Aufbau der stimmhaften Laut; schwingung entsprechender Formantfrequenz mi gedämpfte Sinusschwingungen verschiedener Fre- konstanter, der Pitchfrequenz der zu synthetisierenquenz sind und daß die Steuerschaltung für jeden 15 den Sprachsignale entsprechender Folgefrequenz unc zu erzeugenden stimmhaften Laut die mehrfache quadratisch mit der Formantfrequenz abnehmende! Abfrage der Sinusschwingung entsprechender Amplitude veranlaßt.

Formari'.frequenz mit konstanter, der Pitchfre- Das Grundprinzip der Erfindung liegt also zurr

quenz der zu synthetisierenden Sprachsignale einen in einer speziellen Art von akustischen Grundentsprechender Folgefrequenz und quadratisch 20 bausteinen für den Aufbau der stimmhaften Laute mit der Formantfrequenz abnehmender Ampli- und zum anderen in einer ganz bestimmten Steuerung tude veranlaßt. der Wiedergabe dieser Grundbausteine bei dei

Sprachsignalerzeugung. In Kombination dieser beiden Maßnahmen führt die Erfindung zu einer Anord-25 nung zum Synthetisieren von Sprachsignalen, die ir

sich die Vorteile vereinigt, daß sie zum ersten zi

einer größtmöglichen Verringerung der Anzahl dei für die Sprachsignalsynthese vorzuspeichernden akustischen Grundbausteine führt, zum zweiten mittel!

Die Erfindung bcieht s"h auf eine Anordnung 30 einer überlappenden Abfrage der einzelnen Grundzum Synthetisieren von Sprachsignalen mit einem bausteine eine für die Praxis befriedigende Annähe-Speicher, der eine Mehrzahl .on einzeln abfragbaren rung der synthetisierten Sprachsignale an das natürakustischen Grundbausteinen für den Aufbau von liehe Sprachbild gestattet und zum dritten den Einstimmhaften und stimmlosen Lauten enthält, und mit satz von Speicherelementen für die Vorspeicherunj einer Steuerschaltung, die Zeitpunkt und Zeitdauer 35 der akustischen Grundbausteine zuläßt, mit derer für die Abfrage der einzelnen Grundbausteine aus Hilfe eine gleichzeitige Synthese mehrerer Sprachdem Speicher bestimmt. signale möglich wird.

Eine Anordnung dieser Art ist in der »NTZ«, Zur Erläuterung der Einzelheiten der Erfindun|

Heft 8 von 1964, auf den Seiten 413 bis 424 beschrie- wird in der folgenden Beschreibung auf die Zeichben. Diese bekannte Anordnung zum Synthetisieren 40 nung Bezug genommen. Es zeigen
von Sprachsignalen besitzt zwei Hauptbestandteile. F i g. 1 a, Ib und 1 c Darstellungen der Wellen-

Der eine davon ist ein Speicher, in dem unterschied- form eines Sprachsignals und deren charakteristische! liehe akustische Grundbausteine enthalten sind, aus Spektren,

denen sich einerseits stimmhafte und andererseits Fig. 2a, 2b, 2c und 2d Darstellungen der WeI

stimmlose Laute aufbauen lassen und die in Verbin- 45 lenform einer speziellen Sinusschwingung und derer dung miteinander die zu synthetisierenden Sprach- charakteristischer Spektren,

signale liefern. Den zweiten Hauptbestandteil der be- Fig. 3 und 4 schematische Darstellungen zur Ver

kannten Anordnung bildet eine Steuerschaltung, die anschaulichung der Synthese von Wellenformen mit Zeitpunkt und Zeitdauer für die Abfrage der einzel- tels eines Magnettrommelspeichers,
nen akustischen Grundbausteine aus dem sie enthal- 50 F i g. 5 ein Blockschaltbild für eine erfindungsge tenden Speicher bestimmt, also den Aufbau der ein- mäße Anordnung zur Sprachsynthetisierung und
zelnen Laute und ihre gegenseitige Kombination F i g. 6 und 7 Schaltbilder zur Erläuterunj

steuert. Die bekannte Anordnung enthält dabei für der Arbeitsweise wesentlicher Teile dieser Ausfüh den Aufbau sowohl der Vokale als auch der Konso- rungsform einer erfindungsgemäßen Anordnung,
nanten in der zu synthetisierenden Sprache die ent- 55 Grundsätzlich entsteht Sprache dann, wenn entwe sprechenden Phoneme gespeichert, woraus sich na- der ein durch Vibration der Stimmbänder erzeugte turgemäß ein sehr großer Bedarf an Speicherplätzen und annähernd periodisch wiederholten intermittit ergibt. Entsprechend aufwendig wird gleichzeitig renden dreieckigen Wellen entsprechender stimm auch der Aufbau der den Zugriff zu diesen Speicher- hafter Laut oder ein durch einen auf eine Zusammen platzen ermöglichenden Steuerschaltung. 60 ziehung des Vokaltraktes zurückgehenden turbulen

In der deutschen Patentschrift 1 201 414 ist weiter- ten Luftstrom erzeugter und angenähert weißem Rau hin eine Schaltung zur Steuerung der Amplitudenver- sehen entsprechender stimmloser Laut durch einen ii teilung eines Tonfrequenzspektrums beschrieben, die dem Vokaltrakt, d. h. einem zwischen der Stimmritzi zur Sprachsignalerzeugung in einem Formantenvoco- und den Lippen liegenden artikulatorischen Orgai der dient. Die Tonsignalerzeugung erfolgt dabei mit 65 ausgebildeten Hohlraum hindurchgeht.
Hilfe von Formantenschaltungen, deren Resonanz- In Fig. la, die einen Ausschnitt aus der Wellen

frequenz und Bandbreite einstellbar sind. form eines Sprachsignals darstellt, entspricht der mi

Der Erfindung liegt die Aufgabe zugrunde, eine der Bezugszahl 1 bezeichnete Abschnitt einen