DE2335818C3

DE2335818C3 - Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen

Info

Publication number: DE2335818C3
Application number: DE2335818A
Authority: DE
Inventors: Akira Ichikawa; Kazuo Nakata
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1972-07-14
Filing date: 1973-07-13
Publication date: 1979-08-30
Also published as: DE2335818B2; JPS4929504A; JPS5531480B2; DE2335818A1

Description

Die Erfindung bezieht sich auf eine elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen der im Oberbegriff des Patentanspruchs 1 angegebenen Gattung. Eine solche Anordnung kann beispielsweise von Teilnehmern telefonisch angerufen werden und den Anrufern die gewünschten Informationen entsprechend den letzten gespeicherten Daten in gesprochener Form übermitteln.

Bei einer aus der US-PS 3214 520 bekannten Anordnung der genannten Gattung sind in den Speichern einzelne Wörter und Satzteile fest aufgezeichnet, die bei Bedarf entsprechend der angeforderten Information zusammengestellt und übertragen werden. Die Speicherung gesprochener Worte und Satzteile erfordert jedoch außerordentlich viel Speicherkapazität, weshalb selbst große Anlagen nur über ein sehr beschränktes Vokabular verfügen. Dazu kommt, daß Speicher mit großen Kapazitäten.wie etwa Trommeloder Plattenspeicher, verhältnismäßig große Zugriffszeiten haben, so daß sich bei der Zusammenstellung der Antwortsätze störende Wartezeiten ergeben. Sind ferner die einzelnen Wörter, die zwischen vorgegebene Satzteile eingebaut werden sollen, entsprechend der Sprachmelodie des ganzen Satzes wiederzugeben, so ist wi es erforderlich, jedes Wort mehrfach zu speichern, beispielsweise einmal mit ansteigender Tonhöhe, einmal mit gleichbleibender und einmal mit abfallender Tonhöhe. Dadurch wird der Speicherbedarf nochmals größer. ·· >

Auch die in der DE-OS 19 22 170 beschriebene reine Sprachsynthese ganzer Sätze, die mit geringerer Speicherkapazität auskommt, führt nur zu einer unnatürlichen und oft kaum verständlichen Sprache. Ein wesentlicher Grund dafür liegt darin, daß wiederum die für den Sinngehalt einer Aussage wichtige Sprachmelodie, die beispielsweise an den eigentlich informativen Stellen eine gewisse Betonung, bei Ziffern eine andere Aussprache als bei normalen Wörtern, am Ende von Fragesätzen ein Anheben der Tonhöhe usw. verlangt, bei einer sequentiellen Synthese des gesamten Satzes aus einzelnen Lauten oder Silben nicht simulierbar ist, weil dazu ein geistiges Erfassen des Aussageinhaltes erforderlich wäre.

Der Erfindung liegt die Aufgabe zugrunde, eine elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen zu schaffen, die einerseits natürlich klingen und für die andererseits trotz relativ kleiner Speicherkapazität ein umfangreiches Vokabular zur Verfügung steht

Die Lösung dieser Aufgabe ist im Patentanspruch 1 gekennzeichnet Gegenüber den beiden oben dargelegten Prinzipien nach dem Stand der Technik wird insofern ein Mittelweg begangen, als mit festen Rahmensätzen gearbeitet wird, die in ihrer natürlichen Sprache in Form von Sprachsignalen aufgezeichnet sind, jedoch an den Stellen der eigentlichen informationstragenden Worte Steuersignale für die Sprachsynthese der fehlenden, variablen Worte enthalten. Die Steuersignalp; dienen dabei jedoch nicht nur zum Aneinanderreihen einzelner aufgezeichneter Stimmsegmente, sondern umfassen auch jeweils einen Tonhöhencode, der sich insbesondere nach der Stellung des einzufügenden Wortes in den im übrigen vorgesprochenen Rahmensatz richtet. Dadurch ist eine Anordnung geschaffen, die trotz verhältnismäßig geringem Speicherbedarf eine große Anzahl von Informationen in einer Sprache wiederzugeben vermag, die einer natürlichen Sprache nahekommt.

Bei der vorteilhaften Weiterbildung der Erfindung nach dem Patentanspruch 2 ergibt sich der zusätzliche Vorteil, daß die einzufügenden, variablen Worte durch die Verwendung von Speichern mit kurzer Zugriffszeit ohne störende Verzögerungen problemlos in den »laufenden^ Rahmensatz eingebaut werden können.

Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnungen erläutert. In den Zeichnungen zeigt

F i g. 1 eine schematische Darstellung eines Frage-Antwort-Systems;

F i g. 2 ein Blockschaltbild einer elektrischen Anordnung zur automatischen Erzeugung von gesprochenen Sätzen;

F i g. 3 die Anordnung von Bitsignalen, wie sie in einer Spur auf der in der Anordnung nach F i g. 2 verwendeten Speichertrommel aufgezeichnet sind; und

F i g. 4 eine schemiatische Darstellung der Ton-Signalform eines Konsonanten- und eines Vokalteils.

Das in F i g. 1 gezeigte elektrische Frage-Antwort-System ist für sich bekannt, so daß dieses nachfolgend nur kurz erläutert wird. Es enthält eine zentrale Signalverarbeitungsanlage 3, die einen elektronischen Computer aufweist und einen Informationsspeicher 4. Die Signalverarbeitungsanlage gibt ein digitales Ausgangssignal auf der Grundlage der im Speicher 4 gespeicherten Informationen auf Anfragen von außen ab. Eine Anordnung 2 zur Erzeugung von Sprachnachrichten wandelt das digitale Ausgangssignal in einen Antwortsatz aus Sprachsignalen um. Eine Eingabe-Ausgabe-Verteilerschaltung 1 gibt die von der Anordnung 2 erzeugten Antwortsätze an den Fragesteller und die

Fragen des Fragestellers an die Sig.ialverarbeitungseinrichtung 3. Mit 5 sind an entfernten Orten sitzende Teilnehmer bezeichnet, nämlich der Kanal eines Fragestellers, der über Telefon mit dem System verbunden ist.

Mit dem vorstehend erläuterten System können z. B. laufende Börseninformationen, verschiedene Reservierungen, Bankinformationen oder dergleichen abgefragt werden.

In der in Fig.2 gezeigten Anordnung ist ein riit langsamem Zugriff arbeitender Speicher 7, wie z. B. eine magnetische Trommel, zur Aufzeichnung einer Vielzahl von Stimmlauten und Tönen einer Vielzahl von Antwortsätzen vorgesehen. Diese Stimmlaute und Töne der Antwortsätze liegen in Form von Tastwerten mit Ausnahme des änderbaren Wortteils vor und die Amplitudensignale werden in Form von Tastwerten codiert und mit Hilfe einer Zeitmultiplexaufzeichnung aufgezeichnet Mit dieser Anordnung kann eine Zahl von Antwortsätzen erzeugt werden, die aus Stimmlauten oder Tönen bestehen. Nachfolgend werden die Einzelheiteti der magnetischen Trommel erläutert Die Trommel dreht sich mit 3000 Umdrehungen pro Minute, d. h. benötigt für eine volle Umdrehung 20 Millisekunden, und hat 512 Spuren, die in 16 Zonen unterteilt sind, um die Auslesezeit zu verkürzen. Jede Zone hat daher 32 Spuren.

Es sind daher 16 Ausleseeinrichtungen, wie Magnetköpfe 11-1, 11-2, 11-3... 11-16 vorgesehen. Die tatsächliche Taktfrequenz ist 1,92MHz. Es wird angenommen, daß 1,92 χ ΙΟ⁶ χ 20 χ ΙΟ-³

= 38,4 χ 10³ Bits für jede Spur vorgesehen sind, wobei die Ton-Signalform mit 8 kHz abgetastet wird und eine Probe in Form von 7 Bit codiert und mit einer Sieuerinformaiion von i Bit decodiert wird. Das Zeitmultiplex auf einer Spur beträgt 1,92 χ 10⁶/ 8 χ 8 χ 10³ = 30 Möglichkeiten. Das längste Zeitintervall für einen Antwortsatz wird durch die Anzahl von Satzformen bestimmt, wobei bei 30 Möglichkeiten von Satzformen 65 2OxIO³XS^=IO Sekunden und mit 60 Möglichkeiten von Satzformen es etwa 5 Sekunden beträgt.

Die Zugriffszeit für einen beliebigen Antwortsatz beträgt 2 χ ΙΟ³ χ 32 = 0,64 Sekunden und die Anzahl der Tastwerte des gleichen Antwortsatzes auf einer Spurbeträgt8 χ ΙΟ³ χ 20 χ 10~³ = 160Tastwerte für jede Spur.

F i g. 3 zeigt die informationen, die auf einer Spur der magnetischen Trommel aufgezeichnet sind. Fig.3A zeigt dabei eine vollständige Spur, auf der 160 Tastwerte a-1, a-2...a-160 für einen Stimmlaut oder Ton aufgezeichnet sind. Die zum Auslesen dieser 160 Tastwerte erforderliche Zeit beträgt 20 Millisekunden, während der die magnetische Trommel 7 eine vollständige Umdrehung ausführt.

F i g. 3B zeigt vergrößert einen (a-3) der 160 Bereiche. Wie zuvor erläutert, ist jedes Probensignal der Stimmlaute oder Töne der Antwortsätze von 30 Möglichkeiten im Zeitmultiplex aufgezeichnet. Die Auslesezeit für alle diese Bereiche ist gleich der Abtastfrequenz des Stimmlauts oder Tons und beträgt 0,125 Millisekunden.

Fig. 3C zeigt einen vergrößerten Teil 6-3.4 des in F i g. 3B gezeigten Bereichs, der einen Tastwert für einen Stimmlaut oder Ton angibt.

Wie zuvor erwähnt, ist ein Tastwert aus einem Bit für die Steuerinformation o0 und 7 Bit c-1, c-2... c-7 für die Ton-Signalform gebildet.

Dieses eiae Bit für die Steuerinformationen gibt in codierte: Form an, ob als nächstes eine Steuerinformation zum Auslesen eines Stimmsegments oder -elements, das später noch beschrieben wird, oder eine Signalform eines festen Worts auszulesen ist So ist dieses Bit z. B. eine »0«, wenn eine Signalform auszulesen ist, und eine »1«, wenn eine Steuerinformation auszulesen ist Zur Erzeugung der Signalform können die verschiedenen bekannten PCM-Codierun-ο gen benutzt werden.

Wird als Steuerinformation eine »1« aus dem Bereich c-0 erfaßt, so werden gleichzeitig zwei Bit einer Information zur Bestimmung des Tonhöhenmusters der änderbaren Worte, die an der Stelle des Bereichs b-ZA einzufügen sind, in den Teilen c-6, c-7 erfaßt, wobei eine das änderbare Wort herstellende Signalform in einem getrennten, mit hoher Geschwindigkeit arbeitenden Speicher gespeichert ist

Wie zuvor erwähnt, wird auf der magnetischen Trommel 7 die Ton-Signalform des Antwortsatzes mit Ausnahme der änderbaren Worte als eine zeitliche Folge von Tastwerten aufgezeichnet, wie dieses in Fig.3A und 3B gezeigt ist, und an der Stelle der änderbaren Worte des Antwortsatzes wird statt eines Tastwertes ein Steuersignal aufgezeichnet das die Speicherung eines änderbaren Worts angibt

Wie aus F i g. 2 zu erkennen ist, sind ein Speicher 8 für die Tonhöhenmuster, in dem die Tonhöhenmuster des änderbaren Wortes gespeichert sind, und ein Speicher 9 für die Stimm-Segmente vorgesehen, z. B. ein mit großer Zugriffsgeschwindigkeit arbeitender Speicher, wie ein Kernspeicher, in dem eine Stimm-Signalform des änderbaren Wortes in Tonhöhenteile unterteilt und aufgezeichnet wird.

Gewöhnlich wird die Signalform der menschlichen Stimme, wie sie als typisches Beispiel in Fig.4 dargestellt ist aus einem Teil d ohne Periodizität für einen Konsonanten und einem Teil e mit einer annähernden Periodizität für einen Vokal gebildet, von dem jede Frequenz (Periode) ei, ej, es usw. von den Schwingungen der Stimmbänder bestimmt ist und die Länge dieser Periode die Höhe des Stimmlauts oder die Betonung bestimmt.

Diese Periode liegt gewöhnlich zwischen etwa 30 bis 200 Millisekunden. Der Teil d eines Konsonanten beeinflußt die Höhe des Stimmlauts in der hier gezeigten Anordnung nicht so stark. Die einem änderbaren Wort entsprechende menschliche Stimme wird in Tonhöhenlängen unterteilt, wobei die unterteilten Stimmelemente in bestimmter Weise behandelt und in Tastwerten ausgedrückt werden. Jedes Element wird beziffert und in dem Stimm-Segment-Speicher 9 gespeichert. Die Behandlung besteht aus einer künstlichen Korrektur der Signalform eines Segments oder Elements, das aus der natürlichen Stimme herausgeschnitten ist, indem z. B. eine vorangehende Signalform zum Endteil der Segment-Signalform hinzugefügt wird oder die Segment-Signalform einem Differenzierglied zugeführt wird, um eine differenzierte Segment-Signal-

■■' form zu erhalten. Die keine Periodizität aufweisende Stimm-Signalform, wie die eines Konsonanten, wird gewöhnlich mit Hilfe durchschnittlicher Tonhöhen-Zeitlängen unterteilt und die Tastwertreihe für jeden Bereich beziffert und in dem Stimm-Segment-Speicher 9 gespeichert. Die Länge der Stimm-Segmente, die aus der Stimm-Signalform des änderbaren Worts der menschlichen Sprache herausgeschnitten sind, ist gewöhnlich kürzer als 20 Millisekunden, so daß dem

hinteren Teil des herausgeschnittenen Segmentes die vorangehende Signalform hinzugefügt wird, um ein Segment von 20 Millisekunden Dauer zu erzeugen, das mit 8 kHz abgetastet wird, um 160 Tastwerte pro Segment zu erzeugen. Diese Tastwerte, die in der gleichen Weise wie für die Signalformen in dem Speicher 7 mit 7 Bit codiert sind, werden eins nach dem anderen in dem Stimm-Segment-Speicher 9 gespeichert. Andererseits ist das Tonhöhenmuster des änderbaren Worts änderbar mit der Stellung des änderbaren Worts im Antwortsatz, z. B. für die Stellung am Ende eines Interrogativsatzes.

In dem Tonhöhenmuster-Speicher 8 sind daher eine Vielzahl von Typen, bei dem hier beschriebenen Ausführungsbeispiel 4 Typen: Flach, ansteigend, abfallend und ziffernartig, von Steuerinformationen für das Tonhöhenmuster für jedes änderbare Wort, das in dem Stimm-Segment-Speicher gespeichert ist, aufgezeichnet. Der Aufbau und die Arbeitsweise einer Einheit zur Erzeugung der Antwortstimmen unter Benutzung der zuvor beschriebenen Speicher werden nachfolgend erläutert.

Obwohl die nachfolgende Erläuterung sich auf eine spezielle Schaltung zur Erzeugung einer Antwortstimme bezieht, kann diese Einheit selbstverständlich auch in einem Frage-Antwort-System benutzt werden, das viele Teilnehmer durch parallele Benutzung der Einheit und einer Signalverarbeitung im Zeitmultiplex hat.

Wie in F i g. 2 gezeigt, ist eine Signal-Verarbeitungseinrichtung 10, die Computer aufweist, zentral angeord- net, von der Fragen empfangen werden und die Datenverarbeitung durchgeführt wird, bis ein Antwortsatz bestimmt wurde. Diese Verarbeitungseinrichtung wird im einzelnen nicht beschrieben, da sie keinen Teil der Erfindung bildet Solche Datenverarbeitungseinrichtungen sind aber aus einer Anzahl früherer Veröffentlichungen bekannt, z. B. der US-PS 32 14 520, die bereits durch wenige Änderungen als Signal-Verarbeitungseinrichtung 10 benutzt werden können. Das Steuersignal zur Umwandlung des von der Signal-Verarbeitungseinrichtung bestimmten Antwortsatzes in Sprache wird an die die Sprache erzeugende Einheit gegeben.

Das dem Festwortteil des Antwortsatzes entsprechende Steuersignal gibt den Aufzeichnungsplatz der magnetischen Trommel an und das des änderbaren Wortes wird durch das Tonhöhenmuster und den Aufzeichnungsplatz oder die Adresse in dem Stimm-Segment-Speicher gegeben.

Zuerst wird das Signal zur Auswahl eines einem bestimmten Antwortsatz entsprechenden gewünschten Bereichs an eines von selektiv anzusteuernden Gattern 12-1,12-2... gegeben. Jedes Gatter ist jeweils mit einer der Ausleseeinrichtungen 11-1,11-2... 11 -n verbunden.

Bei seiner Betätigung wird eines dieser Gatter alle 0,125 Millisekunden geöffnet, um ein ODER-Glied 13 zu öffnen und die in F i g. 3C gezeigten 8 Bit hindurchzulassen. Eine Decodierschaltung 14 trennt das höchstwertige Bit, c-0 in F i g. 3C, aus den 8 Bit heraus und bestimmt, ob dieses Bit eine »0« oder eine »1« ist Ist es eine »0«, d.h. der Tastwert eines festen Worts, so wird ein *> Gattersteuersignal / für das Gatter 15 abgegeben, so daß die Bit-Impulse C-I bis C-I passieren können.

Wenn nicht dementsprechend das c-0-Signal, das alle 0,125 Millisekunden erscheint, eine »1« ist, gelangt der Tastwert von der magnetischen Trommel durch das "· ODER-Glied 16 an einen Digital-Analog-Wandler 17 und wird dort in eine analoge Signalform umgewandelt und als Ausgangssignal in Form einer Antwortstimme von dem Ausgangsverteiler 18 über eine der Ausgangsschaltungen 19-1,19-2... 19-n gegeben, die Tiefpaßfilter und Verstärker aufweisen.

Wenn die Decodierschaltung 14 erkennt, daß das c-0-Signal eine »1« ist, d. h. feststellt, daß kein Tastwert der Signalform, sondern das änderbare Wort eingesetzt werden soll, so wird das Signal /auf »0« geändert und die Gatterschaltung 15 gegen das Passieren des Signals gesperrt. Ein Signal g, das eine Instruktion über das jeweilige änderbare Wort anfordert, wird an die Signal-Verarbeitungseinrichtung gegeben und gleichzeitig ein Signal von 2 Bit durch die Gatterschaltung 20 entnommen, das die Art des in den Bit c-6, c-7 gespeicherten Tonhöhenmusters bestimmt

Die Steuerinformation von 10 Bit, die das änderbare Wort von der Signal-Verarbeitungseinrichtung 10 aus angibt und die Information von 2 Bit, die die Art des Tonhöhenmusters angibt, werden von der Gatterschaltung 20 aus an ein Pufferregister 21 gegeben, wobei die 10 Bit die obere Reihe und die 2 Bit die untere Reihe besetzen.

Die Steuerfunktion wird daher von 10 Bit bei 1000 Worten des änderbaren Worts gebildet die das änderbare Wort vorschreiben, wobei 2 Bit die 4 Möglichkeiten des Tonhöhenmusters bestimmen.

Die Information dieser 12 Bit wird von der Decodierschaltung 22 decodiert. Die Decodierschaltung 22 wandelt das Digitalsignal der 12 Bit in ein Adressensignal für denjenigen Speicher um, in dem die Tonhöheninformation des ersten Stimmsegments für das auszulesende änderbare Wort gespeichert ist. Dieses Adressensignal wird in den Adressenzähler 23 eingegeben und danach über eine Gatterschaltung 24 einer Ausleseschaltung 25 zugeführt Die Ausleseschaltung 25 weist eine Steuerschaltung etwa in Form einer Matrixschaltung und einen Verstärker auf und liest die an der Adresse des Tonhöhenspeichers enthaltene Tonhöheninformation aus, die über eine Gatterschaltung 26 in einem Tonhöhenzähler 27 gespeichert wird.

Der Inhalt des Tonhöhen-Zählers 27 wird während des in dem Zähler 27 enthaltenen Zeitintervalls der Tonhöheninformation durch ein aus einem Taktgeber 28 stammendes Taktsignal (8 kHz) jeweils um 1 vermindert. Die Tonhöhenperiode des ersten Stimm-Segments wird so erfaßt und das Auslesen der Tonhöhenperiode des nächsten Stimm-Segments wird durch Weiterzählen des Tonhöhen-Adressenzählers 23 gesteuert

Die zuvor erwähnten Gatterschaltungen 24 und 26 sind zur mehrfachen Verwendung von Informationen aus dem Tonhöhen-Speicher 8 in jeder Schaltung vorgesehen und arbeiten so, daß sie nur während einer vorbestimmten Zeit geöffnet sind, die für diese spezielle Schaltung vorgesehen ist während sie geschlossen sind, wenn jeweils andere Schaltungen aufgerufen werden.

Das Auslesen der zuvor erwähnten Tonhöhenperiode (-frequenz) wird wiederholt solange ein Stimm-Segment eines das änderbare Wort angebenden Worts vorhanden ist

Andererseits wird das Auslesen der Signalform-Information des änderbaren Worts durch die folgende Schaltung und Arbeitsweise bewirkt Zuerst wird die an das Pufferregister 21 gegebene 10-Bit-Information durch die Decodierschaltung 29 für die Stimm-Segment-Adresse in einer Adressenzahl für den Stimm-Segment-Speicher umgewandelt in dem eine Reihe von Stimm-Segmenten, die das änderbare Wort bilden, aufgezeichnet sind, und das erste Adressensignal wird in

dem Segment-Adressen-Zähler 30 gespeichert.

Dieser Zähler 30 bestimmt die Reihe der ersten Adresse des Tastwertes des auszulesenden Segments, in diesem Fall die zweiten und oberen Stellen, wenn die Adresse durch ein 160-Bit-System angegeben ist. Danach werden die Inhalte des Tastwert-Adressenzählers 31, der die Reihenfolge der ersten Ziffer der von dem 160-Bit-System angegebenen Adresse zeigt, Schritt für Schritt durch den Auslesetakt 28 (8 kHz) vergrößert und über die Gatterschaltung 32 an eine Steuerschaltung 33 zum Auslesen der Stimm-Segmente gegeben.

Die Steuerschaltung 33 liest die Tastwerte (8 Bit) des Stimm-Segments aus, das durch die Tastwert-Adresse der zuvor erwähnten Zähler 30 und 31 bestimmt ist, aus dem Stimm-Segment-Speicher nacheinander aus und gibt diesen Tastwert über die Gatterschaltung 34 an das ODER-Glied 16.

Inzwischen wird, wenn das Ende der Tonhöhenperiode festgestellt ist, der Tastwert-Adressenzähler 31 auf 0 zurückgesetzt und 160 dem Segment-Adressenzähler 30 hinzuaddiert, um die erste Zahl des nächsten Segments (20 Millisekunden bei einer 8 kHz-Abtastung) zu übertragen.

Die zuvor erwähnten Gatterschaltungen 32 und 34 werden zur mehrfachen Benutzung des Stimm-Segment-Speichers 9 für jede Schaltung in der gleichen Weise angewendet, wie die zuvor beschriebenen Gatterschaltungen 24 und 26 und sind lediglich während einer bestimmten konstanten Zeitdauer geöffnet, die der speziellen Schaltung zugeordnet ist, während sie während aller anderen, anderen Schaltungen zugeordneten Zeitintervalle geschlossen sind.

Die Auslesezeit für den Stimm-Segment-Speicher 9 und für den die Tonhöheninformation enthaltenden Speicher 8 beträgt daher 1/(8 kHz χ Anzahl der Schaltungen).

Diese Arbeitsweise wird danach mit der gleichen Tonhöhenperiode wiederholt, solange noch ein Stimm-Segment des Wortes vorhanden ist.

Wenn das letzte der Stimm-Segmente eines änderbaren Wortes von dem Stimm-Segment-Speicher angegeben wird und die Wiedergabe des änderbaren Wortes beendet ist, wird das diese Beendigung angebende Signal an die Signal-Verarbeitungseinrichtung 10 über eine Leitung 35 gegeben und der Probenwert der Stimm-Signalform des folgenden festen Wortes aus dem mit langsamer Geschwindigkeit arbeitenden Speicher 7 ausgelesen.

Da der Wechsel von einem festen Wortteil zu einem änderbaren Wortteil durch Auslesen des mit hoher Zugriffsgeschwindigkeit arbeitenden Speichers erfolgt, ergibt sich kein Problem in der Zugriffszeit, jedoch ist es erforderlich, eine bestimmte starre Pausenzeit, z. B. etwa 03 Sekunden, vorzusehen, um die Verarbeitung des ausgelesenen Stimm-Segmentes zu ermöglichen.

Der Wechsel von einem änderbaren Wortteil zu einem festen Wortteil ist durch das Auslesen des mit niedriger Geschwindigkeit und aufeinanderfolgendem Zugriff arbeitenden Speichers gegeben, so daß dafür die längste Pausenzeit (20 Millisekunden χ 32 = 0,64 Sekünden) vorgesehen ist

Eine solche Pausenzeit ist erforderlich, wobei sich das Problem ergibt, daß gelegentlich ein Wechsel mit einer sehr kurzen Pausenzeit möglich ist. Um dieses zu verhindern, ist eine feste Pausenzeit von mindestens etwa 0,3 Sekunden erforderlich, um diesen Wechsel zu ermöglichen, wobei der Sicherheitswert für diese Pausenzeit maximal 1 Sekunde beträgt. Im Falle einer komplexen zuvorkommenden Steuerung kann der Wechsel mit einer konstanten Pausenzeit langer als 0,64 Sekunden vorgenommen werden.

Ein von dem ODER-Glied 16 zugeführter Tastwert wird in ein puls-amplitudenmoduliertes Signal mit Hilfe des zuvor erwähnten Digital-Analog-Wandlers 17 umgeformt und an den zuvor erwähnten Antwortkanal über die Ausgangs-Steuerschaltung 18 gegeben.

Obwohl die Einheit zur Erzeugung einer gesprochenen Antwort nur in Verbindung mit einem Kanal erläutert wurde, kann eine Anzahl von gesprochenen Antworten gleichzeitig an eine Anzahl von Schaltungen mit Hilfe einer Zeitmultiplex-Verarbeitung gegeben werden, indem die Signal-Verarbeitungseinrichtung 10 und die Speicher 7,8 und 9 gemeinsam benutzt werden. In der Zeichnung sind weitere Schaltungen 16-1,16-2... 16-16 anstelle der zuvor erwähnten Schaltung 16 gezeigt.

Wird eine Vielfach-Verarbeitung benutzt, so ist das Ausgangssignal des Digital-Analog-Wandlers 17 ein puls-amplituden-moduliertes (PAM)-Signal, das einer Zeitmultiplex-Verarbeitung unterworfen wird.

Die Stimm-Segment-Information kann verringert werden, um den Speicher 9 und auch besonders eine Verarbeitungsschaltung zur Erzeugung des änderbaren Worts kleiner zu machen. Es ist oft festzustellen, daß sehr ähnliche Signalformen sich in einer Stimm-Signalform eines Wortes mit Tonhöheneinheiten wiederholt, ein typisches Beispiel dafür ist der mittlere Teil des stationären Vokalklangs.

Diese ähnlichen Tonhöhen-Signalformen können durch Wiederholung der gleichen Tonhöhen-Signalform ohne Verschlechterung der Tonqualität ersetzt werden. Im Falle eines sich ändernden Tonhöhen-Musters wird die Qualität praktisch nicht verschlechtert, wenn die Tonhöhen-Signalformen mit Intervallen von jeder ersten oder jeder zweiten Tonhöhe wiederholt benutzt werden, wobei jedoch die Kapazität des Stimm-Segment-Speichers auf die Hälfte bis zu einem Drittel vermindert werden kann.

Wird außerdem der mit hoher Geschwindigkeit arbeitende Segment-Speicher nicht entsprechend der Worteinheiten, sondern entsprechend in Verbindung mit Stimmlaut-Ketten und/oder Dynamikkriterien ausgelegt, so wird zwar die Steuereinrichtung komplizierter, jedoch kann das Vokabular der änderbaren Worte ohne Grenzen vergrößert werden.

Wird die Stimmlaut-Kette z. B. mit 6 Vokalklängen, die 5 Vokalklänge und Stille umfassen, und 20 Arten von Konsonantklängen einschließlich eines akkordierten Klangs angenommen, so ist die Gesamtzahl der Stimmlaut-Kette 6 χ 20 χ 6 = 720 mit einer durchschnittlichen Zeitdauer für eine Einheit von 150 Millisekunden und einem erforderlichen Speichervolumen von 8 χ 8 χ ΙΟ³ χ 150 χ ΙΟ-³ χ 720 = 7,0 χ 10«.

Hierzu 2 Blatt Zeichnungen

Claims

Patentansprüche:

1. Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen, mit mehreren Speichern, die Sprachinformationen zum Teil als feste Satzteile in Form von Sprachsignalen enthalten, und mit einer Datenverarbeitungseinrichtung, die den jeweils angeforderten Satz zusammenstellt und einer Sprachübertragungseinrichtung zuführt, dadurch gekennzeichnet, daß ein erster Speicher (7) eine Anzahl von Rahmensätzen enthält, die die festen Satzteile und dazwischen für entsprechend der jeweils angeordneten Information einfügbarc Wörter Steuersignale umfassen, die einen von der Stellung innerhalb des Rahmensatzes abhängigen Tonhöhencode enthalten, daß an den ersten Speicher (7) eine Diskriminatorstufe (14, 15, 20) ungeschlossen ist, die die Sprachsignale direkt der Sprachübertragungseinrichtung (16... 19) und die Steuersignale der Datenverarbeitungseinrichtung (21,21... 33) zuführt, und daß die Datenverarbeitungseinrichtung (10, 21... 33) die einfügbaren Wörter aus in einem zweiten Speicher (9) enthaltenen Stimmsegmenten unter Berücksichtigung von in einem dritten Speicher (8) enthaltenen, durch den Tonhöhencode bestimmten Tonhöhenmuster synthetisiert.

2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der erste Speicher (7) aus einer Magnettrommel besteht und daß der zweite und der dritte Speicher (9,8) jeweils aus einem Kernspeicher besteht.