DE1811040C3 - Anordnung zum Synthetisieren von Sprachsignalen - Google Patents
Anordnung zum Synthetisieren von SprachsignalenInfo
- Publication number
- DE1811040C3 DE1811040C3 DE1811040A DE1811040A DE1811040C3 DE 1811040 C3 DE1811040 C3 DE 1811040C3 DE 1811040 A DE1811040 A DE 1811040A DE 1811040 A DE1811040 A DE 1811040A DE 1811040 C3 DE1811040 C3 DE 1811040C3
- Authority
- DE
- Germany
- Prior art keywords
- speech
- memory
- basic
- signals
- arrangement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000002194 synthesizing effect Effects 0.000 title claims 4
- 230000010355 oscillation Effects 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims 3
- 230000003247 decreasing effect Effects 0.000 claims 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000005236 sound signal Effects 0.000 claims 1
- 210000001260 vocal cord Anatomy 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 10
- 238000000034 method Methods 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 4
- 239000002360 explosive Substances 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000190687 Gobius Species 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 206010037833 rales Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
stimmhaften Laut, in dem die Wiederholungsrale
UiIIi-T Vokiilbasis konstant ist, und der mit der Be-•'ugszahl
2 bezeichnete Abschnitt einem KonMinanten.
Die Ireuuenzspcktren der beiden den Abschnitten 1 und 2 in Fig. la zugeordneten Laute kennzeichnen
sich, wie aus Fig. Ib bzw. 1 c ersichtlich ist, durch ihre Hüllkurven 3, die ein Maß tür die Resouanzkenngroßen
des artikulatorischen Raumes darstellen, und durch ihre Internstruktur, die ein Maß
tür die Kenngrößen der Vokalbasis darstellt, wobei die ersteren außerdem hauptsächlich durch verschiedene
einzelne Resonanzkenngrößen, d. h. die Formanten, 4, 4', 4", 5 und 5' bestimmt werden und die
letztere hauptsächlich durch ein harmonisches Linienspektrum 6 gekennzeichnet ist, das die Periodiziiät
und die Zufälligkeit eines kontinuierlichen Spektrums aufweist.
Erfindungsgemäß wird die Synthetisierung eines stimmhaften Lautes mit einer konstanten Wiederholungsrate.,
der beispielsweise ein charakteristisches Spektrum aufweist, wie es in F i g. 1 b veranschaulicht
ist, aus einer Anzahl von vorgespeicherten gedampften
Sinusschwingungen verschiedener Frequenz erleichtert.
Als nächstes soll nun das Grundprinzip einer solchen Synthese näher erläutert werden.
Eine gedämpfte Sinusschwingung, wie sie in F i g. 2 a dargestellt ist, ergibt ein einzelne Resonanzfrequenzspektrum,
wie es in Fig. 2b gezeigt ist. Dabei läßt sich diese gedämpfte Sinusschwingung durch
den Ausdruck e -■:' sin wf t darstellen, in dem" \ den
Dämpfungsfaktor, / die Zeit und ω, die Kreisfrequenz
für die Sinusschwingung bedeuten. Wird die gedämpfte Sinusschwingung mit einer konstanten Periode
T wiederholt, wie dies in Fig. 2c veranschaulicht ist, so geht ihr Frequenzspektrum in ein harmonisches
Linienspektrum über, wie es in Fig. 2d dargestellt is' Aus der akustischen Theorie der Spracherzeugung
ist bekannt, daß sich die in F i g. 1 b dargestellte Hüllkurve 3 durch kontinuierliche Aneinanderreihung
einzelner Resonanzkennlinien gewinnen läßt, wie sie in Fig. 2b dargestellt sind. Daher läßt
sich ein solcher stimmhafter Laut mit einer konstanten
Pitch-Periode oder Wiederholungsperiode für die Vokalbasis wie etwa der Vokal »e« dadurch synthetisieren,
daß man eine vorgespeicherte gedämpfte Sinusschwingung von der Formant-Frequenz des betreffenden
Vokals äquivalenter Formant-Frequenz mit einer vorgegebenen Periode mehrfach wiederholt
und dabei die Amplituden der wiederholten Schwingung so steuert, daß die nachstehenden Bedingungen
erfüllt werden: Die relative Amplitude des zweiten Formanten beträgt (W1Zw2)2 und die relative Amplitude
des dritten Formanten (W1Zw2)2 -(w,/w3)ä, wobei
W1, w2 und OJ3 jeweils die Kreisfrequenzen des ersten,
des zweiten bzw. des dritten Formanten des Lautes bedeuten.
Außerdem läßt sich ein Ubergangslaut zwischen
einem stimmhaften Laut mit einer konstanten Wiederholungsfrequenz, d. h. einem Laut mit einem
speziellen Frequenzspektrum, und einem weiteren Laut mit einem anderen Frequenzspektrum mit hinreichender
Glätte bzw. Weichheit durch die folgenden Schritte synthetisieren: Quantisierung der Änderung
in der Frequenz der charakteristischen Formanten der jeweiligen Laute zwischen diesen beiden
stimmhaften Lauten; Synthetisierung von Lauten durch Zusammensetzung gedämpfter Sinusschwin
gungen in der oben beschriebenen Weise und anschließende
Verbindung der so gebildeten Laute miteinander.
Dementsprechend braucht die Anzahl der aku- ^tischen Grundeleuieitte- die in der errindungsgemäßen
Anordnung zur Spraehsynthetisierung vorgespeichert werden müssen, nur so groß zu sein, dv-ß
sie die für den Aufbau eines Sprachsignals unter Einschluß des ersten, des zweiten und des dritten Formanten
wesentlichen Frequenzbänder mit hinreichendem Spielraum abdeckt. Ein Beispiel für eine solche
Anzahl, wie sie bei einer Ausführungsform einer erfindungsgemäßen Anordnung realisiert worden ist, ist
in der nachstehenden Tabelle 1 dargestellt.
Beispiel für die Anzahl der in Form gedämpfter Sinusschwingungen vorgespeicherten akustischen
Grundelemente
For- niant |
Γ-requenzhereich | Quantisieruiigs- stufe |
Kanal- anzah! |
BiI- Anzah |
3. 30 |
200 bis 950 Hz 800 bis 2400 Hz 2200 bis 3500 Hz in.seesamt 200 bis 3500 Hz |
50Hz Logarith mischer Maß stab Logamh- mischer Maß stab |
16 16 S |
4 4 3 |
40 | • 11 |
Was nun die konsonantischen Anteile der Sprache (Nasallaute, stimmlose Konsonanten und vokalische
oder stimmhafte Konsonanten) anbelangt, so ist es lediglich erforderlich, Signale vorzuspeichern, die den
Kenngrößen der jeweiligen Konsonanten entsprechen. Die Anzahl derartiger Signale beträgt höchstens 16.
wie dies in der nachstehenden Tabelle 2 dargestellt ist.
Beispiel für die Anzahl der gespeicherten konsonantischen Grundelcmente
Reiblaute | 50 | iCon- | Anzahl | Explosivlaute | Anzahl | Nasallaute | Anzahl |
son&nt | der | der | der | ||||
Grund- | Kon | Grund- | Kon | Grund- | |||
55 S | eleme; (e | sonant | elemcnte | sonant | elemenle | ||
S | 1 | 1 | 1 | ||||
h | 1 | P | 2 | m | I | ||
5 | t | 3 | η | ί | |||
k | N |
Dementsprechend liegt die Gesamtzahl für die zu speichernden akustischen Grundelernente. in der
Größenordnung von 50.
Zur Verbesserung der Natürlichkeit der auf diese Weise aufgebaui°n Sprache ist es erforderlich, die
Periode für die oben beschriebene wiederholte Erzeugung der gedämpften Sinusschwingungen in Übereinstimmung
mit der Pitch-Periode der zu synthetisierenden Sprachsignale zu steuern.
Im folgenden wird eine gangbare Methode für eine
derartige Steuerung unter Bezugnahme auf F i g. 3 näher beschrieben, in der ein Magnettrommelspeicher
schematisch veranschaulicht ist, in den die oben beschriebenen gedämpften Sinusschwingungen eingespeichert
sind.
Nimmt man an, daß der unterste Wert für die Pitch-Frequenz der zu synthetisierenden Sprachsignale
bei 50Hz liegt, so müssen die gedämpften Sinusschwingungen über 20 ms hinweg gespeichert
werden, was einer Periode für die Umdrehung der Magnettrommel entspricht. Dies bedeutet, daß die
Zeitkonstante für die Dämpfung der Sinusschwingungen für den Höchstfall auf etwa 20 ms anzusetzen
ist. Diese Annahme ist mit Rücksicht auf die Bandbreite der Vokalformanten angemessen. Rund
um den Umfang der Magnettrommel sind beispielsweise zehn Leseköpfe mit gleichem gegenseitigem
Abstand verteilt angeordnet, so daß der zeitliche Abstand zwischen zwei benachbarten Leseköpfen 2 ms
beträgt. Dieser Zeitabstand bedeutet gleichzeitig die Minimalgrößc für die Steuerschritte für die Pitch-Periode,
und die Pitch-Frequenz wird dann entsprechend der Auswahl der Leseköpfe in den nachstehenden
zehn Stufen geregelt: 50, 55,5, 62,5, 71,5, 8.1.5, 100, 125, 166, 250 und 500Hz. Diese Schrittweiten
lassen sich selbstverständlich durch eine Vergrößerung der Anzahl N der Leseköpfe entsprechend
verkürzen.
Unter Bezugnahme auf die Darstellung in Fig. 3
sei angenommen, daß der Lesekopf I0 zu einem bestimmten
Zeitpunkt im Lesevorgang begriffen ist und daß das Zeitintervall T0 den zeitlichen Abstand zwischen
,der Auslesung durch den Lesekopf /„ und der Auslcsung durch den Lesekopf /, bedeutet. Beginnt
der nächste Auslegevorgang dann, wenn der Anfang des aufgezeichneten Signals die Stellung des Lesekopfes
/,. j erreicht, so wird das Zeitintervall zwischen zwei Auslesungen um τ ■ k Sekunden langer.
Beginnt die nächste Auslesung dagegen an der Stelle des Lesekopfes /,_*, so wird das Zeitintervall zwischen
zwei aufeinanderfolgenden Auslesungen um τ ■ k Sekunden kurzer. Dabei bezeichnet τ das Zeitintervall,
das verstreicht, bis sich eine Mantellinie der rotierenden Magnettrommel von einem Lesekopf zu
dem nächstfolgenden Lesekopf weitergedrehi hat. Nimmt man nun an, daß das aufgezeichnete Signal
durch einen Lesekopf kontinuierlich während einer vollen Umdrehung der Magnettrommel, d. h. 20 ms
lang, ausgelesen wird, so ersieht man aus F i g. 4, daß sich der Anfangsabschnitt jeder Ausleseperiode
mit einem Teil des von dem vorangehenden Lesekopf ausgelesenen Signals und der Endabschnitt jeder
Ausleseperiode mit einem Abschnitt in dem von dem nachfolgenden Lesekopf ausgelesenen Signal überschneiden,
so daß der Übergang zwischen den physikalischen Kenngrößen sich weicher vollzieht, woraus
sich eine verbesserte Qualität der synthetisierten Sprachsignale ergibt.
Als nächstes sollen der Aufbau und die Arbeitsweise einer Anordnung zur Sprachsynthetisierung
mittels Vorspeicherung und Zusammensetzung der vorgespeicherten Signale gemäß der Erfindung an
Hand einer bestimmten Ausführungsform einer erfindungsgemäßen Anordnung im einzelnen dargelegt
werden:
In Fig. 5, die ein Blockschaltbild einer Ausführungsform
der Erfindung darstellt, ist ein mehrkanaliges System mit η Ausgangskanälen veranschaulicht.
Die Bestandteile des in ein Sprachsignal umzuwandelnden Satzes, die in einem Hauptgerät 10
beispielsweise einem üblichen großen schnellen Elektronenrechner, ausgewählt werden, werden unmittelbar
in ausgangsseitige Sprachsteuersignale 11, 12 bis 1 η für einen Magnettrommelspeicher 20 umgesetzt
der ein sogenanntes ^ Ausspracheverzeichnis, d. h einen Satz von Steuersignalen für die zu artikulierenden
Sprachelemente, enthält, und anschließend aui
ίο Steuersignaldekoder 101, 102 bis 10« für die jeweiligen
Kanäle verteilt, in denen die aufgeteilten Steuersignale in eine Gruppe greifbarerer Steuersignale 21,
22 bis Zn für die Auslesung der aufgezeichneten akustischen Grundelemente dekodiert werden.
Ein Teil der dekodierten Signale wird Torschaltungsmatrizen 201, 202 bis 20/i für die Auswahl der
aufgezeichneten Sprachelemente zugeführt, während der übrige Teil Gruppen von Analogmultiplikatoren
(311, 312, 313), (321, 322, 333) bis (3nl, 3;i2, 3 η 3) zur Steuerung der relativen Amplituden der
ausgelesenen Signale speist. Auf diese Weise wird ein spezielles akustisches Grundelement durch einen speziellen
Lesekopf auf der Speichertrommel 30 für diese akustischen Grundelemente in einem besonderen
Zeitpunkt ausgelesen, und anschließend wird die relative Amplitude in der der aufgelesenen Signale erforderlichen
Weise gesteuert. Die in ihrer Amplitude gesteuerten Ausgangssignale werden Summierverstärkern
314, 324 bis 3n4 in den jeweils zugehörigen Kanälen zugeführt, darin untereinander aufsummiert
und anschließend in Multiplikatoren 315, 325 bis 3/ί 5 so in ihrer Intensität geregelt, wie dies für ein
Phonem und ein integriertes Sprachsignal erforderlich ist.
Anschließend werden diese Ausgangssignale in Summierverstärkern 316, 326 bis 3/i6 mit Konsonanten
kombiniert und werden so zu resultierenden Ausgangssprachsignalen 31, 32 bis 3n. Das oben beschriebene
Verfahren wird beispielsweise alle 10 ms wiederholt, und auf diese Weise erhält man ausgangsseitig
ein kontinuierliches Sprachsignal.
Als nächstes sollen die wesentlichen Bauteile des obenerwähnten Systems im einzelnen beschrieben
werden. Wie bereits oben erläutert, wird ein Sprachsignal erfindungsgemäß in zwei Teile aufgeteilt, nämlich
einen ersten Teil, der die Vokale und Übergangslaute unter Einschluß der Hall-vokale und Fließlaute
enthält, und einen zweiten Teil, der die Konsonanten, und zwar stimmlose Konsonanten, stimmhafte Konsonanten
und Nasallaute enthält. Bei der Sprachsignalsynthese wird der erste Teil durch wiederholte
Auslesung von vorgespeicherten gedämpften Sinusschwingungen in variierenden Perioden erzeugt, während
der zweite Teil durch unmittelbare Auslesung der jeweils erforderlichen Wellenformen aus den aufgezeichneten
konsonantischen Wellenformen gewonnen wird, und schließlich werden beide Teile miteinander
kombiniert. Nun ist es bereits bekannt, daß sich Reibelaute und Explosivlaute durch Vergröße-
rung der Überlappung zwischen dem konsonantischen Teil des Sprachsignals und dessen die Vokale und
Übergangslaute enthaltendem Teil und Explosivlaute außerdem durch Versteilerung des die Vokale und
die Übergangslaute enthaltenden Teiles des Sprachsignals gewinnen lassen. Demzufolge läßt sich jede
beliebige Silbe aus den beiden oben beschriebenen Teilen eines Sprachsignals synthetisieren.
Von diesen beiden Teilen jedes SDrachsieriak vpr-
langt lediglich der erste Teil eine wiederholte Aus- Wird ein Konsonant verlangt, so wird das durch
lcsung in variierenden Perioden, und diese variablen die Matrix 414 ausgewählte konsonantische Signal
Perioden sind außerdem allen ersten, zweiten und dem den Vokalen und Ubergangslautcn cntsprechcndrittcn
Formanten gemeinsam. den Signal in einen Summierverstärker 440 zuaddiert, Daher kann bei der nun folgenden Erläuterung der 5 nachdem es in einem Analog-Multiplikator 424 eine
Auslesung der aufgezeichneten akustischen Grund- passende Steuerung seiner relativen Amplitude gcclcmente
auf einen gesonderten Kanal Bezug genom- gciiiibcr dem die Vokale und Übcrgangslautc cnthalmen
werden. Die auf der Magnettrommel 30 aufge- lcnden Signal mit Bezug auf ein Steuersignal 468 erzeichneten
akustischen Grundelemente lassen sich in fahren hat.
zwei Kategorien aufgliedern, nämlich eine erste io In Fi g. 7 ist ein Ausschnitt aus einer der in F i g. 6
Gruppe von gedämpften Sinusschwingungen, die zur dargestellten Torschaltungsmatrizen 411, 412, 413
Synthese des obenerwähnten ersten, die Vokale und und 414 für die Auswahl der vorgespeicherten aku-Übcrgangslaute
enthaltenden Teils des Sprachsignals stischen Grundelemente im einzelnen dargestellt. Da
dienen, und eine zweite Gruppe von konsonantischen die Torschaltungsmatrizen 411,412,413 und 414 ein ■
Wellenformen. Die erste Gruppe ist in drei einander 15 ander in ihrer Arbeitsweise im wesentlichen eiH-in
Randbereichen überlappende Gebiete aufgi UiIt. sprechen, kann sich die nachstehende Beschreibung
nämlich: den ersten Formantbereich (16 Kanäle zwi- auf lediglich eine davon beschränken,
sehen 200 und 950 Hz), den zweiten Formantbereich Für die Darstellung von F i g. 7 sei angenommen,
(16 Kanäle zwischen 800 und 2400 Hz) und den daß / aufgezeichnete Spuren 1, 2 bis / auf der Madritten
Formantbereich (8 Kanäle zwischen 2200 ao gnettrotnmel 400 wahlweise durch N Leseköpfe 1, 2
und 3500 Hz). Zur Vereinfachung des Aufbaues der bis N ausgelesen werden sollen.
Steuerung sind die Spuren auf der Magnettrommel 30 Das Signal 451 (für die Matrizen 411, 412 und
entsprechend den beiden obenerwähnten Kategorien 413) oder das Signal 452 (für die Matrix 414), das
unterteilt, wobei die erste Kategorie weiter in drei die Leseköpfe bezeichnet, durch welche die aufgc-
Zonen. nämlich eine erste, eine zweite und eine dritte 25 zeichneten Signale ausgelesen werden sollen, wird
Zone, unterteilt ist. Auf diese Weise sind die Aufzeich- einem Dekoderpuffer 500 zugeführt, in dem es dc-
nungsspuren auf der Trommel 30 auf vier Zonen ver- kodiert wird. Der DekoderpufTer 500 speist von den
teilt. Ausgangslcitungen 501 bis 50/V die zu den ausge-
Dics bedeutet wiederum, daß die Speichertrommel wählten Leseköpfen führenden Ausgangsleitungen
400 für die akustischen Grundelemente in vier Zonen 30 mit dem Ausgangssignal »1« und alle übrigen mit
401. 402, 403 und 404 unterteilt ist. wie dies in dem Ausgangssignal »0«.
F i g. 6 dargestellt ist. Die Ausgangssignale von Lese- Inzwischen wird das Signal 461 (für die Matrix
köpfen für die jeweiligen Kanäle in diesen vier Zonen 411), das Signal 462 (für die Matrix 412) oder das
werden Torschaltungsmatrizen 411, 412, 413 und Signal 463 (für die Matrix 413), das die Kanäle an-
414 für die Auswahl dieser Ausgangssignale züge- 35 gibt, deren Ausgangssignale abgenommen werden
führt. Von diesen vier Torschaltungsrnatrizen sollen, einem zweiten DekoderpufTer 600 zugeführt
werden die Matrizen 411, 412 und 413 für die BiI- und darin dekodiert. Der Dekoderpuffer 600 speist
dung der Formanten gemeinsam mit einem Lesekopf- von Ausgangsleitungen 601, 602 bis 60/ die ausge-
Auswahlsignal 45 gespeist, während die verbleibende wählten Leitungen mit dem Signal*!« und alle
Matrix 414 mit einem Signal 452 für die Auswahl des 4° übrigen Leitungen mit dem Signal »0«. Was nun die
Lesekopfes für die Auslesung der Konsonanten ver- aus den einzelnen Spuren auf der Magnettrommel
sorgt wird. ausgelesenen analogen Signale anbelangt, so werden
Um zu bestimmen, welcher Kanal, d.h. welche die Ausgangssignale der den ersten Leseköpfen zuge-
Frequenz, in den jeweiligen Zonen ausgewählt werden ordneten Spuren Klemmen 11, 12 . . . bzw. 1/, die
soll, werden den entsprechenden Matrizen Frequenz- 45 Ausgangssignale für die den zweiten Leseköpfen zu-
Auswahlsignale461, 462 und 463 zugeführt, da die geordneten Spuren Klemmen 21, 22 . . .bzw. 2/ und
ersten, zweiten und dritten Formanten unabhängig die Ausgangssignale für die den /V-ten Leseköpfen
voneinander gesteuert werden sollen. Entsprechend zugeordneten Spuren Klemmen Nl, jV2...bzw. Nl
diesen Steuersignalen erhält man an Ausgangsklem- zugeführt.
men 471, 472 und 473 der Torschaltungsmatrizen 5° Wie aus F i g. 7 ersichtlich, werden digitale UND-
411, 412 und 413 gedämpfte Sinusschwingungen ver- Schaltungen 111, 121 bis IZl; 211, 221 bis 2/1
schiedener Frequenz (entsprechend der jeweiligen bzw. NIl, NU bis iV/1 mit Torschaltungsauswahl-
Formant-Frequenz) in wiederholter Auslesung mit Signalen 501, 502 bis 5ON und 601, 602 bis 60/
speziellen Perioden (entsprechend den jeweiligen gespeist. Als Folge davon öffnet von den /VlTor-
Pitch-Perioden). Die Ausgangssignale der Matrizen 55 schaltungen nur die Torschaltung, die im speziellen
412 und 413 werden bezüglich ihrer relativen Ampli- Fall das Signal »1« zugeführt erhält, und gibt nur an
tude gegenüber dem Ausgangssignal der Matrix 411 die jeweils zugehörige Torschaltung von den nachfol-
in Analog-Multipiikatoren 422 und 423 mit Bezug genden Torschaltungen 112, 122 bis 1/2; 212,
auf Steuersignale 465 und 466 geregelt und an- bis 2/2; N12, N22 bis N12 ein Ausgangssignal »1«
schließend gemeinsam mit dem Ausgangssignal der 60 ab. Auf diese Weise wird das von dem speziellen
Matrix 411 in einem Summierverstärker 431 aufsum- Lesekopf aus der speziellen Spur ausgelesene Aus-
miert. Das Ausgangssignal des Summierverstärkers gangssignal ausgewählt.
431 wird außerdem in einem Analog-Multiplikator Außerdem gibt das dekodierte Ausgangssignal des
441 in seiner Amplitude mit Bezug auf ein Steuer- Dekoderverstärkers 500 nicht nur den auszuwählen-
signal 481 in der Weise geregelt, daß es eine gute 65 den Lesekopf an, sondern auch den Zeitpunkt, zu
Wirkung für den Vokalklang und die Sprache ergibt, dem ein Signal von diesem Lesekopf ausgelesen
und anschließend über eine Ausgangsklemnie 490 als werden soll (da das Signal stets vom Startpunkt der
kontinuierliches Sprachsignal nach außen abgegeben. Aufzeichnung aus ausgelesen wird, kann der Start-
Zeitpunkt ohne weiteres aus dem Zeitimpuls auf der Magnettrommel bestimmt werden). Nimmt man daher
an, daß die digitalen UND-Schaltungen' 111, 211 bis /VlI, wenn sie sofort geöffnet werden, das Ausgangssignal»I«
während einer vollständigen Umdrehung der Trommel (die zugehörige Periode Tc beträgt
beispielsweise 20 ms) beibehalten, dann läßt die zugenörige Auswahltorschaltungsmatrix eine
Auslesung zu, wie sie in F i g. 4 veranschaulicht ist.
Die Ausleseausgangssignale werden in einem Endverstärker 700 aufsummiert und nach außen abgegeben.
Dessen Ausgangssignal entspricht einem der in F i g. ö eingezeichneten Ausgangssignale 471, 472
oder 473.
Für die Torschallungsmatrix für die Konsonantenauswahl wird die Auslesung einer speziellen Spur
durch einen speziellen Lesekopf fortlaufend während
10
einer dem jeweiligen Konsonanten eigenen Dauer verlangt. Dies wird durch Steuerung der Auslesedauer
mit Hilfe des von dem Dekoderpuffer500 dekodierten Signals erreicht, während die Auslesedauer für die
Vokale konstant ist und beispielsweise 20 ms beträgt. Das Ausgangssignal für die Konsonantenauswahl entspricht
dem Signal 474 in F i g. 6.
Es liegt auf der Hand, daß das oben beschriebene Prinzip der Erfindung sich in gleicher Weise sowohl
ίο auf digitale Aufzeichnungsmethoden für akustische
Grundelemente als auch auf einen aus einer Anzahl von Schieberegistern bestehenden zyklischen Speicher
anwenden läßt. Jedoch versteht es sich dabei von selbst, daß für den Fall einer digitalen Aufzeichnung
ein Digital-Analog-Wandler erforderlich ist, um die aus der Auslesung resultierenden Ausgangssiynale in
Analogsignale zu überführen.
Hierzu 3 Blatt Zeichnungen
Claims (1)
- Anordnung der eingangs erwähnten Art so auszubil-Patentanspruch: den, daü sie bei weitgehender Erhaltung der Natürlichkeit der gesprochenen Sprache eine Sprachsignal-Anordnung zum Synthetisieren von Sprachsi- synthese mit einem Minimum an für die Vurspeichegnalen mit einem Speicher, der eine Mehrzahl 5 rung von akustischen Grundbausteinen erforderlicher von einzeln abfragbaren akustischen Grundbau- Speicherstellen ermöglicht.steinen für den Aufbau von stimmhaften und Diese Aufgabe wird erfindungsgemäß dadurch gestimmlosen Lauten enthält, und mit einer Steuer- löst, daß die im Speicher enthaltenen Grundbausteint schaltung, die Zeitpunkt und Zeitdauer für die für den Aufbau der stimmhaften Laute gedämpfte Abfrage der einzelnen Grundbausteine aus dem io Sinusschwingungen verschiedener Frequenz sind unc Speicher bestimmt, d adu rch ge ke η η ze i ch - daß die Steuerschaltung für jeden zu erzeugender "net, daß die im Speicher enthaltenen Grund- stimmhaften Laut die mehrfache Abfrage der Sinusbausteine für den Aufbau der stimmhaften Laut; schwingung entsprechender Formantfrequenz mi gedämpfte Sinusschwingungen verschiedener Fre- konstanter, der Pitchfrequenz der zu synthetisierenquenz sind und daß die Steuerschaltung für jeden 15 den Sprachsignale entsprechender Folgefrequenz unc zu erzeugenden stimmhaften Laut die mehrfache quadratisch mit der Formantfrequenz abnehmende! Abfrage der Sinusschwingung entsprechender Amplitude veranlaßt.Formari'.frequenz mit konstanter, der Pitchfre- Das Grundprinzip der Erfindung liegt also zurrquenz der zu synthetisierenden Sprachsignale einen in einer speziellen Art von akustischen Grundentsprechender Folgefrequenz und quadratisch 20 bausteinen für den Aufbau der stimmhaften Laute mit der Formantfrequenz abnehmender Ampli- und zum anderen in einer ganz bestimmten Steuerung tude veranlaßt. der Wiedergabe dieser Grundbausteine bei deiSprachsignalerzeugung. In Kombination dieser beiden Maßnahmen führt die Erfindung zu einer Anord-25 nung zum Synthetisieren von Sprachsignalen, die irsich die Vorteile vereinigt, daß sie zum ersten zieiner größtmöglichen Verringerung der Anzahl dei für die Sprachsignalsynthese vorzuspeichernden akustischen Grundbausteine führt, zum zweiten mittel!Die Erfindung bcieht s"h auf eine Anordnung 30 einer überlappenden Abfrage der einzelnen Grundzum Synthetisieren von Sprachsignalen mit einem bausteine eine für die Praxis befriedigende Annähe-Speicher, der eine Mehrzahl .on einzeln abfragbaren rung der synthetisierten Sprachsignale an das natürakustischen Grundbausteinen für den Aufbau von liehe Sprachbild gestattet und zum dritten den Einstimmhaften und stimmlosen Lauten enthält, und mit satz von Speicherelementen für die Vorspeicherunj einer Steuerschaltung, die Zeitpunkt und Zeitdauer 35 der akustischen Grundbausteine zuläßt, mit derer für die Abfrage der einzelnen Grundbausteine aus Hilfe eine gleichzeitige Synthese mehrerer Sprachdem Speicher bestimmt. signale möglich wird.Eine Anordnung dieser Art ist in der »NTZ«, Zur Erläuterung der Einzelheiten der Erfindun|Heft 8 von 1964, auf den Seiten 413 bis 424 beschrie- wird in der folgenden Beschreibung auf die Zeichben. Diese bekannte Anordnung zum Synthetisieren 40 nung Bezug genommen. Es zeigen
von Sprachsignalen besitzt zwei Hauptbestandteile. F i g. 1 a, Ib und 1 c Darstellungen der Wellen-Der eine davon ist ein Speicher, in dem unterschied- form eines Sprachsignals und deren charakteristische! liehe akustische Grundbausteine enthalten sind, aus Spektren,denen sich einerseits stimmhafte und andererseits Fig. 2a, 2b, 2c und 2d Darstellungen der WeIstimmlose Laute aufbauen lassen und die in Verbin- 45 lenform einer speziellen Sinusschwingung und derer dung miteinander die zu synthetisierenden Sprach- charakteristischer Spektren,signale liefern. Den zweiten Hauptbestandteil der be- Fig. 3 und 4 schematische Darstellungen zur Verkannten Anordnung bildet eine Steuerschaltung, die anschaulichung der Synthese von Wellenformen mit Zeitpunkt und Zeitdauer für die Abfrage der einzel- tels eines Magnettrommelspeichers,
nen akustischen Grundbausteine aus dem sie enthal- 50 F i g. 5 ein Blockschaltbild für eine erfindungsge tenden Speicher bestimmt, also den Aufbau der ein- mäße Anordnung zur Sprachsynthetisierung und
zelnen Laute und ihre gegenseitige Kombination F i g. 6 und 7 Schaltbilder zur Erläuterunjsteuert. Die bekannte Anordnung enthält dabei für der Arbeitsweise wesentlicher Teile dieser Ausfüh den Aufbau sowohl der Vokale als auch der Konso- rungsform einer erfindungsgemäßen Anordnung,
nanten in der zu synthetisierenden Sprache die ent- 55 Grundsätzlich entsteht Sprache dann, wenn entwe sprechenden Phoneme gespeichert, woraus sich na- der ein durch Vibration der Stimmbänder erzeugte turgemäß ein sehr großer Bedarf an Speicherplätzen und annähernd periodisch wiederholten intermittit ergibt. Entsprechend aufwendig wird gleichzeitig renden dreieckigen Wellen entsprechender stimm auch der Aufbau der den Zugriff zu diesen Speicher- hafter Laut oder ein durch einen auf eine Zusammen platzen ermöglichenden Steuerschaltung. 60 ziehung des Vokaltraktes zurückgehenden turbulenIn der deutschen Patentschrift 1 201 414 ist weiter- ten Luftstrom erzeugter und angenähert weißem Rau hin eine Schaltung zur Steuerung der Amplitudenver- sehen entsprechender stimmloser Laut durch einen ii teilung eines Tonfrequenzspektrums beschrieben, die dem Vokaltrakt, d. h. einem zwischen der Stimmritzi zur Sprachsignalerzeugung in einem Formantenvoco- und den Lippen liegenden artikulatorischen Orgai der dient. Die Tonsignalerzeugung erfolgt dabei mit 65 ausgebildeten Hohlraum hindurchgeht.
Hilfe von Formantenschaltungen, deren Resonanz- In Fig. la, die einen Ausschnitt aus der Wellenfrequenz und Bandbreite einstellbar sind. form eines Sprachsignals darstellt, entspricht der miDer Erfindung liegt die Aufgabe zugrunde, eine der Bezugszahl 1 bezeichnete Abschnitt einen
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7609367 | 1967-11-29 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1811040A1 DE1811040A1 (de) | 1969-07-24 |
DE1811040B2 DE1811040B2 (de) | 1973-07-12 |
DE1811040C3 true DE1811040C3 (de) | 1974-02-14 |
Family
ID=13595216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1811040A Expired DE1811040C3 (de) | 1967-11-29 | 1968-11-26 | Anordnung zum Synthetisieren von Sprachsignalen |
Country Status (4)
Country | Link |
---|---|
US (1) | US3532821A (de) |
DE (1) | DE1811040C3 (de) |
FR (1) | FR1593788A (de) |
GB (1) | GB1225142A (de) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1297311B (de) * | 1964-03-18 | 1969-06-12 | Krefft Gmbh W | Einrichtung zum Zubereiten, Portionieren und Verteilen von Speisen |
US3689696A (en) * | 1970-01-09 | 1972-09-05 | Inoue K | Speech synthesis from a spectrographic trace |
FR2098528A5 (de) * | 1970-07-17 | 1972-03-10 | Lannionnais Electronique | |
US3828132A (en) * | 1970-10-30 | 1974-08-06 | Bell Telephone Labor Inc | Speech synthesis by concatenation of formant encoded words |
FR2130952A5 (de) * | 1971-03-26 | 1972-11-10 | Thomson Csf | |
US3723667A (en) * | 1972-01-03 | 1973-03-27 | Pkm Corp | Apparatus for speech compression |
US3798372A (en) * | 1972-05-12 | 1974-03-19 | D Griggs | Apparatus and method for retardation of recorded speech |
US3865982A (en) * | 1973-05-15 | 1975-02-11 | Belton Electronics Corp | Digital audiometry apparatus and method |
US3998045A (en) * | 1975-06-09 | 1976-12-21 | Camin Industries Corporation | Talking solid state timepiece |
JPS55128146U (de) * | 1979-02-28 | 1980-09-10 | ||
DE3024062A1 (de) * | 1980-06-26 | 1982-01-07 | Siemens AG, 1000 Berlin und 8000 München | Halbleiterbauelement zur synthetischen spracherzeugung |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2243089A (en) * | 1939-05-13 | 1941-05-27 | Bell Telephone Labor Inc | System for the artificial production of vocal or other sounds |
US2771509A (en) * | 1953-05-25 | 1956-11-20 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US2793249A (en) * | 1953-12-04 | 1957-05-21 | Vilbig Friedrich | Synthesizer for sound or voice reproduction |
US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3398241A (en) * | 1965-03-26 | 1968-08-20 | Ibm | Digital storage voice message generator |
-
1968
- 1968-11-24 GB GB1225142D patent/GB1225142A/en not_active Expired
- 1968-11-25 US US778560A patent/US3532821A/en not_active Expired - Lifetime
- 1968-11-26 DE DE1811040A patent/DE1811040C3/de not_active Expired
- 1968-11-28 FR FR1593788D patent/FR1593788A/fr not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE1811040A1 (de) | 1969-07-24 |
US3532821A (en) | 1970-10-06 |
GB1225142A (de) | 1971-03-17 |
DE1811040B2 (de) | 1973-07-12 |
FR1593788A (de) | 1970-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE69631037T2 (de) | Sprachsynthese | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
WO2000011647A1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE3006339C2 (de) | Sprachsyntesizer | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE3232835C2 (de) | ||
EP0157903B1 (de) | Verfahren und Anordnung für die Sprachsynthese | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
EP0094681B1 (de) | Schaltungsanordnung zur elektronischen Sprachsynthese | |
AT311077B (de) | Einrichtung zur Synthetisierung von Audio-Informationen | |
DE2016572A1 (de) | Verfahren und Einrichtung zur Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 | ||
EHJ | Ceased/non-payment of the annual fee |