DE2335818C3 - Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen - Google Patents
Elektrische Anordnung zur automatischen Erzeugung von gesprochenen SätzenInfo
- Publication number
- DE2335818C3 DE2335818C3 DE2335818A DE2335818A DE2335818C3 DE 2335818 C3 DE2335818 C3 DE 2335818C3 DE 2335818 A DE2335818 A DE 2335818A DE 2335818 A DE2335818 A DE 2335818A DE 2335818 C3 DE2335818 C3 DE 2335818C3
- Authority
- DE
- Germany
- Prior art keywords
- memory
- pitch
- voice
- word
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015654 memory Effects 0.000 claims description 41
- 230000005540 biological transmission Effects 0.000 claims 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
Die Erfindung bezieht sich auf eine elektrische Anordnung zur automatischen Erzeugung von gesprochenen
Sätzen der im Oberbegriff des Patentanspruchs 1 angegebenen Gattung. Eine solche Anordnung kann
beispielsweise von Teilnehmern telefonisch angerufen werden und den Anrufern die gewünschten Informationen
entsprechend den letzten gespeicherten Daten in gesprochener Form übermitteln.
Bei einer aus der US-PS 3214 520 bekannten
Anordnung der genannten Gattung sind in den Speichern einzelne Wörter und Satzteile fest aufgezeichnet,
die bei Bedarf entsprechend der angeforderten Information zusammengestellt und übertragen werden.
Die Speicherung gesprochener Worte und Satzteile erfordert jedoch außerordentlich viel Speicherkapazität,
weshalb selbst große Anlagen nur über ein sehr beschränktes Vokabular verfügen. Dazu kommt, daß
Speicher mit großen Kapazitäten.wie etwa Trommeloder
Plattenspeicher, verhältnismäßig große Zugriffszeiten haben, so daß sich bei der Zusammenstellung der
Antwortsätze störende Wartezeiten ergeben. Sind ferner die einzelnen Wörter, die zwischen vorgegebene
Satzteile eingebaut werden sollen, entsprechend der Sprachmelodie des ganzen Satzes wiederzugeben, so ist wi
es erforderlich, jedes Wort mehrfach zu speichern, beispielsweise einmal mit ansteigender Tonhöhe, einmal
mit gleichbleibender und einmal mit abfallender Tonhöhe. Dadurch wird der Speicherbedarf nochmals
größer. ·· >
Auch die in der DE-OS 19 22 170 beschriebene reine
Sprachsynthese ganzer Sätze, die mit geringerer Speicherkapazität auskommt, führt nur zu einer
unnatürlichen und oft kaum verständlichen Sprache. Ein wesentlicher Grund dafür liegt darin, daß wiederum die
für den Sinngehalt einer Aussage wichtige Sprachmelodie, die beispielsweise an den eigentlich informativen
Stellen eine gewisse Betonung, bei Ziffern eine andere Aussprache als bei normalen Wörtern, am Ende von
Fragesätzen ein Anheben der Tonhöhe usw. verlangt, bei einer sequentiellen Synthese des gesamten Satzes
aus einzelnen Lauten oder Silben nicht simulierbar ist, weil dazu ein geistiges Erfassen des Aussageinhaltes
erforderlich wäre.
Der Erfindung liegt die Aufgabe zugrunde, eine elektrische Anordnung zur automatischen Erzeugung
von gesprochenen Sätzen zu schaffen, die einerseits natürlich klingen und für die andererseits trotz relativ
kleiner Speicherkapazität ein umfangreiches Vokabular zur Verfügung steht
Die Lösung dieser Aufgabe ist im Patentanspruch 1 gekennzeichnet Gegenüber den beiden oben dargelegten
Prinzipien nach dem Stand der Technik wird insofern ein Mittelweg begangen, als mit festen
Rahmensätzen gearbeitet wird, die in ihrer natürlichen Sprache in Form von Sprachsignalen aufgezeichnet
sind, jedoch an den Stellen der eigentlichen informationstragenden Worte Steuersignale für die Sprachsynthese
der fehlenden, variablen Worte enthalten. Die Steuersignalp; dienen dabei jedoch nicht nur zum
Aneinanderreihen einzelner aufgezeichneter Stimmsegmente, sondern umfassen auch jeweils einen Tonhöhencode,
der sich insbesondere nach der Stellung des einzufügenden Wortes in den im übrigen vorgesprochenen
Rahmensatz richtet. Dadurch ist eine Anordnung geschaffen, die trotz verhältnismäßig geringem
Speicherbedarf eine große Anzahl von Informationen in einer Sprache wiederzugeben vermag, die einer
natürlichen Sprache nahekommt.
Bei der vorteilhaften Weiterbildung der Erfindung nach dem Patentanspruch 2 ergibt sich der zusätzliche
Vorteil, daß die einzufügenden, variablen Worte durch die Verwendung von Speichern mit kurzer Zugriffszeit
ohne störende Verzögerungen problemlos in den »laufenden^ Rahmensatz eingebaut werden können.
Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnungen erläutert. In den
Zeichnungen zeigt
F i g. 1 eine schematische Darstellung eines Frage-Antwort-Systems;
F i g. 2 ein Blockschaltbild einer elektrischen Anordnung zur automatischen Erzeugung von gesprochenen
Sätzen;
F i g. 3 die Anordnung von Bitsignalen, wie sie in einer Spur auf der in der Anordnung nach F i g. 2 verwendeten
Speichertrommel aufgezeichnet sind; und
F i g. 4 eine schemiatische Darstellung der Ton-Signalform
eines Konsonanten- und eines Vokalteils.
Das in F i g. 1 gezeigte elektrische Frage-Antwort-System ist für sich bekannt, so daß dieses nachfolgend nur
kurz erläutert wird. Es enthält eine zentrale Signalverarbeitungsanlage 3, die einen elektronischen Computer
aufweist und einen Informationsspeicher 4. Die Signalverarbeitungsanlage gibt ein digitales Ausgangssignal
auf der Grundlage der im Speicher 4 gespeicherten Informationen auf Anfragen von außen ab. Eine
Anordnung 2 zur Erzeugung von Sprachnachrichten wandelt das digitale Ausgangssignal in einen Antwortsatz
aus Sprachsignalen um. Eine Eingabe-Ausgabe-Verteilerschaltung 1 gibt die von der Anordnung 2
erzeugten Antwortsätze an den Fragesteller und die
Fragen des Fragestellers an die Sig.ialverarbeitungseinrichtung
3. Mit 5 sind an entfernten Orten sitzende Teilnehmer bezeichnet, nämlich der Kanal eines
Fragestellers, der über Telefon mit dem System
verbunden ist.
Mit dem vorstehend erläuterten System können z. B. laufende Börseninformationen, verschiedene Reservierungen,
Bankinformationen oder dergleichen abgefragt
werden.
In der in Fig.2 gezeigten Anordnung ist ein riit
langsamem Zugriff arbeitender Speicher 7, wie z. B. eine
magnetische Trommel, zur Aufzeichnung einer Vielzahl von Stimmlauten und Tönen einer Vielzahl von
Antwortsätzen vorgesehen. Diese Stimmlaute und Töne der Antwortsätze liegen in Form von Tastwerten mit
Ausnahme des änderbaren Wortteils vor und die Amplitudensignale werden in Form von Tastwerten
codiert und mit Hilfe einer Zeitmultiplexaufzeichnung aufgezeichnet Mit dieser Anordnung kann eine Zahl
von Antwortsätzen erzeugt werden, die aus Stimmlauten oder Tönen bestehen. Nachfolgend werden die
Einzelheiteti der magnetischen Trommel erläutert Die Trommel dreht sich mit 3000 Umdrehungen pro Minute,
d. h. benötigt für eine volle Umdrehung 20 Millisekunden, und hat 512 Spuren, die in 16 Zonen unterteilt sind,
um die Auslesezeit zu verkürzen. Jede Zone hat daher 32 Spuren.
Es sind daher 16 Ausleseeinrichtungen, wie Magnetköpfe 11-1, 11-2, 11-3... 11-16 vorgesehen. Die
tatsächliche Taktfrequenz ist 1,92MHz. Es wird angenommen, daß 1,92 χ ΙΟ6 χ 20 χ ΙΟ-3
= 38,4 χ 103 Bits für jede Spur vorgesehen sind, wobei
die Ton-Signalform mit 8 kHz abgetastet wird und eine Probe in Form von 7 Bit codiert und mit einer
Sieuerinformaiion von i Bit decodiert wird. Das
Zeitmultiplex auf einer Spur beträgt 1,92 χ 106/
8 χ 8 χ 103 = 30 Möglichkeiten. Das längste Zeitintervall für einen Antwortsatz wird durch die Anzahl von
Satzformen bestimmt, wobei bei 30 Möglichkeiten von Satzformen 65 2OxIO3XS^=IO Sekunden und mit
60 Möglichkeiten von Satzformen es etwa 5 Sekunden beträgt.
Die Zugriffszeit für einen beliebigen Antwortsatz beträgt 2 χ ΙΟ3 χ 32 = 0,64 Sekunden und die Anzahl
der Tastwerte des gleichen Antwortsatzes auf einer Spurbeträgt8 χ ΙΟ3 χ 20 χ 10~3 = 160Tastwerte für
jede Spur.
F i g. 3 zeigt die informationen, die auf einer Spur der magnetischen Trommel aufgezeichnet sind. Fig.3A
zeigt dabei eine vollständige Spur, auf der 160 Tastwerte
a-1, a-2...a-160 für einen Stimmlaut oder Ton aufgezeichnet sind. Die zum Auslesen dieser 160
Tastwerte erforderliche Zeit beträgt 20 Millisekunden, während der die magnetische Trommel 7 eine
vollständige Umdrehung ausführt.
F i g. 3B zeigt vergrößert einen (a-3) der 160 Bereiche.
Wie zuvor erläutert, ist jedes Probensignal der Stimmlaute oder Töne der Antwortsätze von 30
Möglichkeiten im Zeitmultiplex aufgezeichnet. Die Auslesezeit für alle diese Bereiche ist gleich der
Abtastfrequenz des Stimmlauts oder Tons und beträgt 0,125 Millisekunden.
Fig. 3C zeigt einen vergrößerten Teil 6-3.4 des in F i g. 3B gezeigten Bereichs, der einen Tastwert für
einen Stimmlaut oder Ton angibt.
Wie zuvor erwähnt, ist ein Tastwert aus einem Bit für die Steuerinformation o0 und 7 Bit c-1, c-2... c-7 für die
Ton-Signalform gebildet.
Dieses eiae Bit für die Steuerinformationen gibt in
codierte: Form an, ob als nächstes eine Steuerinformation zum Auslesen eines Stimmsegments oder -elements,
das später noch beschrieben wird, oder eine Signalform eines festen Worts auszulesen ist So ist
dieses Bit z. B. eine »0«, wenn eine Signalform auszulesen ist, und eine »1«, wenn eine Steuerinformation
auszulesen ist Zur Erzeugung der Signalform können die verschiedenen bekannten PCM-Codierun-ο
gen benutzt werden.
Wird als Steuerinformation eine »1« aus dem Bereich c-0 erfaßt, so werden gleichzeitig zwei Bit einer
Information zur Bestimmung des Tonhöhenmusters der änderbaren Worte, die an der Stelle des Bereichs b-ZA
einzufügen sind, in den Teilen c-6, c-7 erfaßt, wobei eine
das änderbare Wort herstellende Signalform in einem getrennten, mit hoher Geschwindigkeit arbeitenden
Speicher gespeichert ist
Wie zuvor erwähnt, wird auf der magnetischen Trommel 7 die Ton-Signalform des Antwortsatzes mit
Ausnahme der änderbaren Worte als eine zeitliche Folge von Tastwerten aufgezeichnet, wie dieses in
Fig.3A und 3B gezeigt ist, und an der Stelle der änderbaren Worte des Antwortsatzes wird statt eines
Tastwertes ein Steuersignal aufgezeichnet das die Speicherung eines änderbaren Worts angibt
Wie aus F i g. 2 zu erkennen ist, sind ein Speicher 8 für
die Tonhöhenmuster, in dem die Tonhöhenmuster des änderbaren Wortes gespeichert sind, und ein Speicher 9
für die Stimm-Segmente vorgesehen, z. B. ein mit großer Zugriffsgeschwindigkeit arbeitender Speicher,
wie ein Kernspeicher, in dem eine Stimm-Signalform des änderbaren Wortes in Tonhöhenteile unterteilt und
aufgezeichnet wird.
Gewöhnlich wird die Signalform der menschlichen Stimme, wie sie als typisches Beispiel in Fig.4
dargestellt ist aus einem Teil d ohne Periodizität für einen Konsonanten und einem Teil e mit einer
annähernden Periodizität für einen Vokal gebildet, von dem jede Frequenz (Periode) ei, ej, es usw. von den
Schwingungen der Stimmbänder bestimmt ist und die Länge dieser Periode die Höhe des Stimmlauts oder die
Betonung bestimmt.
Diese Periode liegt gewöhnlich zwischen etwa 30 bis 200 Millisekunden. Der Teil d eines Konsonanten
beeinflußt die Höhe des Stimmlauts in der hier gezeigten Anordnung nicht so stark. Die einem
änderbaren Wort entsprechende menschliche Stimme wird in Tonhöhenlängen unterteilt, wobei die unterteilten
Stimmelemente in bestimmter Weise behandelt und in Tastwerten ausgedrückt werden. Jedes Element wird
beziffert und in dem Stimm-Segment-Speicher 9 gespeichert. Die Behandlung besteht aus einer künstlichen
Korrektur der Signalform eines Segments oder Elements, das aus der natürlichen Stimme herausgeschnitten
ist, indem z. B. eine vorangehende Signalform zum Endteil der Segment-Signalform hinzugefügt wird
oder die Segment-Signalform einem Differenzierglied zugeführt wird, um eine differenzierte Segment-Signal-
■■' form zu erhalten. Die keine Periodizität aufweisende
Stimm-Signalform, wie die eines Konsonanten, wird gewöhnlich mit Hilfe durchschnittlicher Tonhöhen-Zeitlängen
unterteilt und die Tastwertreihe für jeden Bereich beziffert und in dem Stimm-Segment-Speicher
9 gespeichert. Die Länge der Stimm-Segmente, die aus der Stimm-Signalform des änderbaren Worts der
menschlichen Sprache herausgeschnitten sind, ist gewöhnlich kürzer als 20 Millisekunden, so daß dem
hinteren Teil des herausgeschnittenen Segmentes die vorangehende Signalform hinzugefügt wird, um ein
Segment von 20 Millisekunden Dauer zu erzeugen, das mit 8 kHz abgetastet wird, um 160 Tastwerte pro
Segment zu erzeugen. Diese Tastwerte, die in der gleichen Weise wie für die Signalformen in dem
Speicher 7 mit 7 Bit codiert sind, werden eins nach dem anderen in dem Stimm-Segment-Speicher 9 gespeichert.
Andererseits ist das Tonhöhenmuster des änderbaren Worts änderbar mit der Stellung des änderbaren Worts
im Antwortsatz, z. B. für die Stellung am Ende eines Interrogativsatzes.
In dem Tonhöhenmuster-Speicher 8 sind daher eine Vielzahl von Typen, bei dem hier beschriebenen
Ausführungsbeispiel 4 Typen: Flach, ansteigend, abfallend und ziffernartig, von Steuerinformationen für das
Tonhöhenmuster für jedes änderbare Wort, das in dem Stimm-Segment-Speicher gespeichert ist, aufgezeichnet.
Der Aufbau und die Arbeitsweise einer Einheit zur Erzeugung der Antwortstimmen unter Benutzung der
zuvor beschriebenen Speicher werden nachfolgend erläutert.
Obwohl die nachfolgende Erläuterung sich auf eine spezielle Schaltung zur Erzeugung einer Antwortstimme
bezieht, kann diese Einheit selbstverständlich auch in einem Frage-Antwort-System benutzt werden, das viele
Teilnehmer durch parallele Benutzung der Einheit und einer Signalverarbeitung im Zeitmultiplex hat.
Wie in F i g. 2 gezeigt, ist eine Signal-Verarbeitungseinrichtung 10, die Computer aufweist, zentral angeord-
net, von der Fragen empfangen werden und die Datenverarbeitung durchgeführt wird, bis ein Antwortsatz
bestimmt wurde. Diese Verarbeitungseinrichtung wird im einzelnen nicht beschrieben, da sie keinen Teil
der Erfindung bildet Solche Datenverarbeitungseinrichtungen sind aber aus einer Anzahl früherer Veröffentlichungen
bekannt, z. B. der US-PS 32 14 520, die bereits durch wenige Änderungen als Signal-Verarbeitungseinrichtung
10 benutzt werden können. Das Steuersignal zur Umwandlung des von der Signal-Verarbeitungseinrichtung
bestimmten Antwortsatzes in Sprache wird an die die Sprache erzeugende Einheit gegeben.
Das dem Festwortteil des Antwortsatzes entsprechende Steuersignal gibt den Aufzeichnungsplatz der
magnetischen Trommel an und das des änderbaren Wortes wird durch das Tonhöhenmuster und den
Aufzeichnungsplatz oder die Adresse in dem Stimm-Segment-Speicher gegeben.
Zuerst wird das Signal zur Auswahl eines einem bestimmten Antwortsatz entsprechenden gewünschten
Bereichs an eines von selektiv anzusteuernden Gattern 12-1,12-2... gegeben. Jedes Gatter ist jeweils mit einer
der Ausleseeinrichtungen 11-1,11-2... 11 -n verbunden.
Bei seiner Betätigung wird eines dieser Gatter alle
0,125 Millisekunden geöffnet, um ein ODER-Glied 13 zu
öffnen und die in F i g. 3C gezeigten 8 Bit hindurchzulassen. Eine Decodierschaltung 14 trennt das höchstwertige
Bit, c-0 in F i g. 3C, aus den 8 Bit heraus und bestimmt,
ob dieses Bit eine »0« oder eine »1« ist Ist es eine »0«, d.h. der Tastwert eines festen Worts, so wird ein *>
Gattersteuersignal / für das Gatter 15 abgegeben, so
daß die Bit-Impulse C-I bis C-I passieren können.
Wenn nicht dementsprechend das c-0-Signal, das alle 0,125 Millisekunden erscheint, eine »1« ist, gelangt der
Tastwert von der magnetischen Trommel durch das "· ODER-Glied 16 an einen Digital-Analog-Wandler 17
und wird dort in eine analoge Signalform umgewandelt und als Ausgangssignal in Form einer Antwortstimme
von dem Ausgangsverteiler 18 über eine der Ausgangsschaltungen 19-1,19-2... 19-n gegeben, die Tiefpaßfilter
und Verstärker aufweisen.
Wenn die Decodierschaltung 14 erkennt, daß das c-0-Signal eine »1« ist, d. h. feststellt, daß kein Tastwert
der Signalform, sondern das änderbare Wort eingesetzt werden soll, so wird das Signal /auf »0« geändert und
die Gatterschaltung 15 gegen das Passieren des Signals gesperrt. Ein Signal g, das eine Instruktion über das
jeweilige änderbare Wort anfordert, wird an die Signal-Verarbeitungseinrichtung gegeben und gleichzeitig
ein Signal von 2 Bit durch die Gatterschaltung 20 entnommen, das die Art des in den Bit c-6, c-7
gespeicherten Tonhöhenmusters bestimmt
Die Steuerinformation von 10 Bit, die das änderbare
Wort von der Signal-Verarbeitungseinrichtung 10 aus angibt und die Information von 2 Bit, die die Art des
Tonhöhenmusters angibt, werden von der Gatterschaltung 20 aus an ein Pufferregister 21 gegeben, wobei die
10 Bit die obere Reihe und die 2 Bit die untere Reihe besetzen.
Die Steuerfunktion wird daher von 10 Bit bei 1000 Worten des änderbaren Worts gebildet die das
änderbare Wort vorschreiben, wobei 2 Bit die 4 Möglichkeiten des Tonhöhenmusters bestimmen.
Die Information dieser 12 Bit wird von der Decodierschaltung 22 decodiert. Die Decodierschaltung 22
wandelt das Digitalsignal der 12 Bit in ein Adressensignal
für denjenigen Speicher um, in dem die Tonhöheninformation des ersten Stimmsegments für
das auszulesende änderbare Wort gespeichert ist. Dieses Adressensignal wird in den Adressenzähler 23
eingegeben und danach über eine Gatterschaltung 24 einer Ausleseschaltung 25 zugeführt Die Ausleseschaltung
25 weist eine Steuerschaltung etwa in Form einer Matrixschaltung und einen Verstärker auf und liest die
an der Adresse des Tonhöhenspeichers enthaltene Tonhöheninformation aus, die über eine Gatterschaltung
26 in einem Tonhöhenzähler 27 gespeichert wird.
Der Inhalt des Tonhöhen-Zählers 27 wird während des in dem Zähler 27 enthaltenen Zeitintervalls der
Tonhöheninformation durch ein aus einem Taktgeber 28 stammendes Taktsignal (8 kHz) jeweils um 1
vermindert. Die Tonhöhenperiode des ersten Stimm-Segments wird so erfaßt und das Auslesen der
Tonhöhenperiode des nächsten Stimm-Segments wird durch Weiterzählen des Tonhöhen-Adressenzählers 23
gesteuert
Die zuvor erwähnten Gatterschaltungen 24 und 26 sind zur mehrfachen Verwendung von Informationen
aus dem Tonhöhen-Speicher 8 in jeder Schaltung vorgesehen und arbeiten so, daß sie nur während einer
vorbestimmten Zeit geöffnet sind, die für diese spezielle Schaltung vorgesehen ist während sie geschlossen sind,
wenn jeweils andere Schaltungen aufgerufen werden.
Das Auslesen der zuvor erwähnten Tonhöhenperiode (-frequenz) wird wiederholt solange ein Stimm-Segment
eines das änderbare Wort angebenden Worts vorhanden ist
Andererseits wird das Auslesen der Signalform-Information
des änderbaren Worts durch die folgende Schaltung und Arbeitsweise bewirkt Zuerst wird die an
das Pufferregister 21 gegebene 10-Bit-Information
durch die Decodierschaltung 29 für die Stimm-Segment-Adresse in einer Adressenzahl für den Stimm-Segment-Speicher
umgewandelt in dem eine Reihe von Stimm-Segmenten, die das änderbare Wort bilden,
aufgezeichnet sind, und das erste Adressensignal wird in
dem Segment-Adressen-Zähler 30 gespeichert.
Dieser Zähler 30 bestimmt die Reihe der ersten Adresse des Tastwertes des auszulesenden Segments, in
diesem Fall die zweiten und oberen Stellen, wenn die Adresse durch ein 160-Bit-System angegeben ist.
Danach werden die Inhalte des Tastwert-Adressenzählers 31, der die Reihenfolge der ersten Ziffer der von
dem 160-Bit-System angegebenen Adresse zeigt, Schritt
für Schritt durch den Auslesetakt 28 (8 kHz) vergrößert und über die Gatterschaltung 32 an eine Steuerschaltung
33 zum Auslesen der Stimm-Segmente gegeben.
Die Steuerschaltung 33 liest die Tastwerte (8 Bit) des Stimm-Segments aus, das durch die Tastwert-Adresse
der zuvor erwähnten Zähler 30 und 31 bestimmt ist, aus dem Stimm-Segment-Speicher nacheinander aus und
gibt diesen Tastwert über die Gatterschaltung 34 an das ODER-Glied 16.
Inzwischen wird, wenn das Ende der Tonhöhenperiode festgestellt ist, der Tastwert-Adressenzähler 31 auf
0 zurückgesetzt und 160 dem Segment-Adressenzähler 30 hinzuaddiert, um die erste Zahl des nächsten
Segments (20 Millisekunden bei einer 8 kHz-Abtastung) zu übertragen.
Die zuvor erwähnten Gatterschaltungen 32 und 34 werden zur mehrfachen Benutzung des Stimm-Segment-Speichers
9 für jede Schaltung in der gleichen Weise angewendet, wie die zuvor beschriebenen
Gatterschaltungen 24 und 26 und sind lediglich während einer bestimmten konstanten Zeitdauer geöffnet, die
der speziellen Schaltung zugeordnet ist, während sie während aller anderen, anderen Schaltungen zugeordneten
Zeitintervalle geschlossen sind.
Die Auslesezeit für den Stimm-Segment-Speicher 9 und für den die Tonhöheninformation enthaltenden
Speicher 8 beträgt daher 1/(8 kHz χ Anzahl der Schaltungen).
Diese Arbeitsweise wird danach mit der gleichen Tonhöhenperiode wiederholt, solange noch ein Stimm-Segment
des Wortes vorhanden ist.
Wenn das letzte der Stimm-Segmente eines änderbaren Wortes von dem Stimm-Segment-Speicher angegeben
wird und die Wiedergabe des änderbaren Wortes beendet ist, wird das diese Beendigung angebende
Signal an die Signal-Verarbeitungseinrichtung 10 über eine Leitung 35 gegeben und der Probenwert der
Stimm-Signalform des folgenden festen Wortes aus dem
mit langsamer Geschwindigkeit arbeitenden Speicher 7 ausgelesen.
Da der Wechsel von einem festen Wortteil zu einem änderbaren Wortteil durch Auslesen des mit hoher
Zugriffsgeschwindigkeit arbeitenden Speichers erfolgt, ergibt sich kein Problem in der Zugriffszeit, jedoch ist es
erforderlich, eine bestimmte starre Pausenzeit, z. B. etwa 03 Sekunden, vorzusehen, um die Verarbeitung
des ausgelesenen Stimm-Segmentes zu ermöglichen.
Der Wechsel von einem änderbaren Wortteil zu einem festen Wortteil ist durch das Auslesen des mit
niedriger Geschwindigkeit und aufeinanderfolgendem Zugriff arbeitenden Speichers gegeben, so daß dafür die
längste Pausenzeit (20 Millisekunden χ 32 = 0,64 Sekünden) vorgesehen ist
Eine solche Pausenzeit ist erforderlich, wobei sich das Problem ergibt, daß gelegentlich ein Wechsel mit einer
sehr kurzen Pausenzeit möglich ist. Um dieses zu verhindern, ist eine feste Pausenzeit von mindestens
etwa 0,3 Sekunden erforderlich, um diesen Wechsel zu ermöglichen, wobei der Sicherheitswert für diese
Pausenzeit maximal 1 Sekunde beträgt. Im Falle einer komplexen zuvorkommenden Steuerung kann der
Wechsel mit einer konstanten Pausenzeit langer als 0,64 Sekunden vorgenommen werden.
Ein von dem ODER-Glied 16 zugeführter Tastwert wird in ein puls-amplitudenmoduliertes Signal mit Hilfe
des zuvor erwähnten Digital-Analog-Wandlers 17 umgeformt und an den zuvor erwähnten Antwortkanal
über die Ausgangs-Steuerschaltung 18 gegeben.
Obwohl die Einheit zur Erzeugung einer gesprochenen Antwort nur in Verbindung mit einem Kanal
erläutert wurde, kann eine Anzahl von gesprochenen Antworten gleichzeitig an eine Anzahl von Schaltungen
mit Hilfe einer Zeitmultiplex-Verarbeitung gegeben werden, indem die Signal-Verarbeitungseinrichtung 10
und die Speicher 7,8 und 9 gemeinsam benutzt werden. In der Zeichnung sind weitere Schaltungen 16-1,16-2...
16-16 anstelle der zuvor erwähnten Schaltung 16 gezeigt.
Wird eine Vielfach-Verarbeitung benutzt, so ist das Ausgangssignal des Digital-Analog-Wandlers 17 ein
puls-amplituden-moduliertes (PAM)-Signal, das einer
Zeitmultiplex-Verarbeitung unterworfen wird.
Die Stimm-Segment-Information kann verringert werden, um den Speicher 9 und auch besonders eine
Verarbeitungsschaltung zur Erzeugung des änderbaren Worts kleiner zu machen. Es ist oft festzustellen, daß
sehr ähnliche Signalformen sich in einer Stimm-Signalform eines Wortes mit Tonhöheneinheiten wiederholt,
ein typisches Beispiel dafür ist der mittlere Teil des stationären Vokalklangs.
Diese ähnlichen Tonhöhen-Signalformen können durch Wiederholung der gleichen Tonhöhen-Signalform
ohne Verschlechterung der Tonqualität ersetzt werden. Im Falle eines sich ändernden Tonhöhen-Musters
wird die Qualität praktisch nicht verschlechtert, wenn die Tonhöhen-Signalformen mit Intervallen von
jeder ersten oder jeder zweiten Tonhöhe wiederholt benutzt werden, wobei jedoch die Kapazität des
Stimm-Segment-Speichers auf die Hälfte bis zu einem Drittel vermindert werden kann.
Wird außerdem der mit hoher Geschwindigkeit arbeitende Segment-Speicher nicht entsprechend der
Worteinheiten, sondern entsprechend in Verbindung mit Stimmlaut-Ketten und/oder Dynamikkriterien ausgelegt,
so wird zwar die Steuereinrichtung komplizierter, jedoch kann das Vokabular der änderbaren Worte
ohne Grenzen vergrößert werden.
Wird die Stimmlaut-Kette z. B. mit 6 Vokalklängen,
die 5 Vokalklänge und Stille umfassen, und 20 Arten von Konsonantklängen einschließlich eines akkordierten
Klangs angenommen, so ist die Gesamtzahl der Stimmlaut-Kette 6 χ 20 χ 6 = 720 mit einer durchschnittlichen
Zeitdauer für eine Einheit von 150 Millisekunden und einem erforderlichen Speichervolumen
von 8 χ 8 χ ΙΟ3 χ 150 χ ΙΟ-3 χ 720
= 7,0 χ 10«.
Claims (2)
1. Elektrische Anordnung zur automatischen
Erzeugung von gesprochenen Sätzen, mit mehreren Speichern, die Sprachinformationen zum Teil als
feste Satzteile in Form von Sprachsignalen enthalten, und mit einer Datenverarbeitungseinrichtung,
die den jeweils angeforderten Satz zusammenstellt und einer Sprachübertragungseinrichtung zuführt,
dadurch gekennzeichnet, daß ein erster Speicher (7) eine Anzahl von Rahmensätzen enthält,
die die festen Satzteile und dazwischen für entsprechend der jeweils angeordneten Information
einfügbarc Wörter Steuersignale umfassen, die einen von der Stellung innerhalb des Rahmensatzes
abhängigen Tonhöhencode enthalten, daß an den ersten Speicher (7) eine Diskriminatorstufe (14, 15,
20) ungeschlossen ist, die die Sprachsignale direkt der Sprachübertragungseinrichtung (16... 19) und
die Steuersignale der Datenverarbeitungseinrichtung (21,21... 33) zuführt, und daß die Datenverarbeitungseinrichtung
(10, 21... 33) die einfügbaren Wörter aus in einem zweiten Speicher (9) enthaltenen
Stimmsegmenten unter Berücksichtigung von in einem dritten Speicher (8) enthaltenen, durch den
Tonhöhencode bestimmten Tonhöhenmuster synthetisiert.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der erste Speicher (7) aus einer
Magnettrommel besteht und daß der zweite und der dritte Speicher (9,8) jeweils aus einem Kernspeicher
besteht.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6990572A JPS5531480B2 (de) | 1972-07-14 | 1972-07-14 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2335818A1 DE2335818A1 (de) | 1974-02-07 |
DE2335818B2 DE2335818B2 (de) | 1978-12-21 |
DE2335818C3 true DE2335818C3 (de) | 1979-08-30 |
Family
ID=13416165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2335818A Expired DE2335818C3 (de) | 1972-07-14 | 1973-07-13 | Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPS5531480B2 (de) |
DE (1) | DE2335818C3 (de) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5133068A (ja) * | 1974-09-13 | 1976-03-19 | Mikio Nakanishi | Shokubutsunoseichoosokushinsaseruhoho |
DE2806429B2 (de) * | 1977-02-15 | 1980-01-03 | Sharp K.K., Osaka (Japan) | Elektronischer Rechner mit synthetisch erzeugter Sprachausgabe |
FR2484682B1 (fr) * | 1979-05-07 | 1986-10-17 | Texas Instruments Inc | Synthetiseur de parole |
JPS63100962A (ja) * | 1986-10-15 | 1988-05-06 | Ikeuchi:Kk | スプレ−ノズル |
-
1972
- 1972-07-14 JP JP6990572A patent/JPS5531480B2/ja not_active Expired
-
1973
- 1973-07-13 DE DE2335818A patent/DE2335818C3/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE2335818B2 (de) | 1978-12-21 |
JPS4929504A (de) | 1974-03-16 |
JPS5531480B2 (de) | 1980-08-18 |
DE2335818A1 (de) | 1974-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2362037C3 (de) | Elektronisches Tastenmusikinstrument | |
DE2237594C3 (de) | System zur Erzeugung von Tonwellenformen durch Abtasten gespeicherter Wellenformen für ein elektronisches Musikinstrument | |
DE2149104A1 (de) | Verfahren und einrichtung zum adressieren einer speicherstelle mit wahlweise bestimmbaren geschwindigkeiten | |
DE3103801C2 (de) | Elektronisches Musikinstrument mit Tastenfeld | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
EP0042555B1 (de) | Verfahren zur digitalen Hüllkurvensteuerung eines polyphonen Musiksyntheseinstruments und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE3237403C2 (de) | ||
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE2954377C2 (de) | ||
DE69232964T2 (de) | Informationsansageeinrichtung | |
DE2937256A1 (de) | Digitales elektronisches musikinstrument | |
DE2105449A1 (de) | Musikinstrument | |
DE2828919A1 (de) | Polyphone syntheseschaltung fuer periodische signale und damit ausgestattetes elektronisches musikinstrument | |
DE3785625T2 (de) | Tonerzeugungsvorrichtung mit Wellenformspeicher. | |
DE2335818C3 (de) | Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen | |
DE3123845C2 (de) | Elektronisches Musikinstrument | |
DE2719175A1 (de) | Schallanalysiereinrichtung | |
DE3047801C2 (de) | Elektronisches Musikinstrument mit Tastenfeld | |
DE2836736B2 (de) | Verfahren zur Aufzeichnung von beim Spielen eines tastenbetätigten Musikinstruments entstehenden Tonsignalen und den damit verbundenen Spielausdrücken, insbesondere der Lautstärke, entsprechenden Datensignalfolgen auf einem Aufzeichnungsträger und Vorrichtung zur Durchführung des Verfahrens | |
DE4232642B4 (de) | Solenoid-Ansteuersystem für ein Gerät zur automatischen musikalischen Darbietung | |
DE68928414T2 (de) | Universelle bedieneinheit für ein elektronisches musikinstrument | |
DE2836737B2 (de) | Verfahren zur Aufzeichnung von beim Spielen eines tastenbetätigten Musikinstruments entstehenden Tonsignalen entsprechenden Datensignalfolgen auf einem Aufzeichnungsträger | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
DE2826570C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8328 | Change in the person/name/address of the agent |
Free format text: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBEL-HOPF, U., DIPL.-CHEM. DR.RER.NAT., PAT.-ANW., 8000 MUENCHEN |