DE1940384C3

DE1940384C3 - Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung

Info

Publication number: DE1940384C3
Application number: DE19691940384
Authority: DE
Inventors: Raimo Adliswil Bakis (Schweiz)
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1968-08-27
Filing date: 1969-08-08
Publication date: 1979-10-18
Also published as: GB1264688A; CH474805A; FR2016422A1; DE1940384A1; JPS4912481B1; DE1940384B2

Description

Die Erfindung betrifft ein elektrisches Verfahren /.um Harmonisieren des Grundtonverlaufs bei der Sprachsynthese nach dem Oberbegriff des Anspruchs 1, sowie eine Schaltungsanordnung.

Techniken zur Speicherung von Sprachsignalen sind bereits bekannt. Außer der weitverbreiteten Analogtechnik, die z. B. bei der Aufnahme und kontinuierlichen Wiedergabe von Sprache und Musik angewendet wird, ist eine digitale Technik entwickelt worden, bei der die verschiedenen Eigenschaften der natürlichen Sprache benutzt werden, um verschiedene, diese Eigenschaften beschreibende Signale zu erzeugen. Diese Signale werden dann ihrerseits kodiert und die Kode werden ίο gespeichert. Für die Zwecke der Sprachausgabe-Einrichtungen einer digitalen Datenverarbeitungsanlage ist die digitale Speicherung der Sprache von besonderem Interesse.

Damit die Maschine in die Lage versetzt wird, an sie gestellte Fragen sinnvoll zu beantworten, muß in ihrem Speicher ein geeigneter Vorrat von Sprachsegmenten vorhanden sein. Deranige Segmente können aus einzelnen Silben, vollständigen Wörtern oder ganzen Sätzen bestehen. Der Vorteil, der sich bei der Speicherung einzelner Silben ergibt, ist, daß vermutlich nur eine relativ kleine Anzahl von Sprachsignalen gespeichert werden müßte. Wenn jedoch die reproduzierte Sprache nur entfernt natürlich klingen soll, muß eine große Anzahl komplexer Zeitbedingungen beachtet werden, da nominell ähnlich klingende Silben in verschiedenen Wörtern mit unterschiedlicher Dauer und Betonung auftreten können.

Die Speicherung vollständiger Wörter ist dagegen sehr praktisch, besonders, wenn nur ein begrenztes jo Vokabular für die von der Maschine zu erzeugenden Nachrichten erforderlich ist. Nichtsdestoweniger können die Reproduktion von Wörtern aus einem Speicher und ihre Zusammenstellung zu einer vollständigen Nachricht Unregelmäßigkeiten an den Stoßstellen der Wörter hervorrufen, die dazu führen, daß synthetische Sprache für das menschliche Ohr unnatürlich klingt, und die ihre Verständlichkeit beeinträchtigen.

Unter der Annahme einer verhältnismäßig beschränkten Speicherkapazität ist die Anwendbarkeit eines Systems, bei dem ganze Sätze gespeichert sind wegen der stark reduzierten Anpassungsfähigkeit der Sprachausgabe-Einrichtungen sehr begrenzt.

Daher erscheint die Speicherung von vollständigen Wörtern dem heutigen Stand der Technik angemessen, t'j und es wird die Verminderung der Unregelmäßigkeiten, die bei der Zusammenstellung von Wörtern entstehen, die ursprünglich in einem völlig anderen Zusammenhang gesprochen worden waren, angestrebt.

Man ging daran den Grundtonverlauf reproduzierter Wörter mit einer Korrekturfunktion zu überlagern, um die genannten Unregelmäßigkeiten zu kompensieren.

Dieses Vorgehen hat sich jedoch als unbefriedigend und unbeweglich erwiesen.

In der DE-AS 11 91 124 sowie der FR-PS 14 47 760 sind Lösungen zur Anpassung der Sprachgrundfrequenz an variable Sprechgeschwindigkeiten angegeben. Diese Lösungen sind jedoch mit Nachteilen behaftet, die im Falle der erstgenannten Druckschrift darin liegen, daß eine kontinuierliche Anpassung und damit eine perfekte

bo klangliche Verbesserung nicht möglich ist, da Expansion und Kompression durch Einfügen bzw. Weglassen von Sprachsegmenten erreicht werden.

Beiden Druckschriften ist ein weiterer Nachteil

gemeinsam, nämlich der, daß schnelle Änderungen des

^h5 Grundtonverlaufs gar nicht oder höchst unvollkommen nach diesen bekannten Lösungen kompensiert werden können.

Der Erfindung liegt daher die Aufgabe zugrunde, ein

elektrisches Verfahren zum Harmonisieren des Grundlonverlaufs bei der Sprachsynthese aus gespeicherten Sprachsegmenten anzugeben, das einfach ist, sicher und zuverlässig arbeitet sowie zur Verbesserung des natürlichen Klangs der Sprache bei Änderung der Sprechgeschwindigkeit auch die Sprachfrequenz diesen Änderungen sauber anpaßt.

Gelöst wird diese Aufgabe der Erfindung für das Verfahren durch die im Anspruch 1 und für die Schaltung durch die im Anspruch 5 angegebenen Merkmale.

Weitere vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entnehmen.

Die Erfindung wird hiernach im Zusammenhang mit einem bevorzugten Ausführungsbeispiel anhand der Zeichnungen näher erläutert

Fig. la bis Id: zeigen Details des selben Grundtonverlaufs unter verschiedenen Bedingungen;

Fig. 2: zeigt schematisch eine Einrichtung zur Sprachsynthese;

F i g. 3: ist ein vereinfachtes Schaltbild eines Filters.

Bei der reproduktiven Sprachsynthese ist es nötig, Maßnahmen zu ergreifen, um die Charakteristika der einzelnen, gespeicherten Wörter an den betreffenden Kontext anzupassen, in dem sie vorkommen sollen.

Beispielsweise kann ein Wort mit einer ersten Geschwindigkeit gesprochen und dann gespeichert worden sein. Die Anpassung des Wortes an einen Zusammenhang, der von demjenigen zur Zeit der Aufnahme verschieden ist, kann seine Wiedergabe mi: einer zweiten, 2. B. erhöhten Geschwindigkeit erfordern. Mit anderen Worten, das aus dem Speicher entnommene Sprachsignal muß komprimiert werden, um die erforderliche Wiedergabegeschwindigkeit zu r> erreichen.

Es erscheint angebracht, kurz auf die Unterschiede zwischen natürlicher Sprache und Vocoder-Sprache einzugehen, wenn die Wiedergabegeschwindigkeit geändert wird. Bei natürlicher Sprache wird angenommen, daß das Gehirn an das Nervensystem beispielsweise eine Sprungfunktion liefert, um die Muskeln zur Produktion des gewünschten Allophons anzuregen (Fig. la). Die Muskeln sind nicht in der Lage, der Sprungfunktion augenblicklich zu folgen; sie verhalten v-, sich vielmehr wie ein Tiefpaßfilter, so daß die ursprüngliche Sprungfunktion verändert wird, wie das in der F i g. 1 b dargestellt ist.

Es ist bekannt, daß es mit Hilfe eines Voccder-Synthesators möglich ist, die Geschwindigkeit der Sprache V) zu ändern, ohne daß gleichzeitig der Grundton oder die Tonqualität geändert werden (was nicht möglich ist, wenn man eine Aufzeichnung einfach schneller oder langsamer abspielt).

Wenn das Sprachsignal von Fig. Ib aufgenommen 5^r> und dann mit erhöhter Geschwindigkeit wiedergegeben wird, ist der Anstieg der Grundtonkurve viel kürzer, während die Amplitude der Kurve konstant bleibt (Fig. Ic). Mit anderen Worten, wenn die Geschwindigkeit erhöht wird, werden die Änderungen des ω Grundtons proportional schneller. Es sei beispielsweise angenommen, daß ein Wort ursprünglich 0,5 see. dauert die Frequenz des Grundtons zu Beginn des Wertes 100 Hz und an seinem Ende 150Hz betrage. Die Frequenz des Grundtones steigt demnach mit einer <v5 Geschwindigkeit von 100 Hz/sec. an. Falls dieses Wort über einen Vocoder mit der fünffachen Originalgeschwindigkeit wiedergegeben wird, ist die Frequenz des Grundtones am Beginn des Wortes nach wie vor 100 Hz und 150Hz wenn das Wort endet, die Änderungsgeschwindigkeit ist jedoch mit dem Faktor fünf auf 500 hz/sec. angestiegen, da die Änderung nun innerhalb von 0,1 see. erfolgt, weil die gesamte Dauer des Wortes auf 0,1 see. komprimiert worden ist. Änderungen des Grundtones von dieser Größenordnung klingen unnatürlich; in natürlicher Sprache kommen sie nicht vor.

Wenn das gleiche Wort in natürlicher Sprache so gesprochen wird, daß es nur 0,1 see. dauert, beginnt der Grundton wiederum bei 100 Hz, aber die Änderung, die durch die erhöhte Geschwindigkeit verursacht wird, beträgt nur zwischen 10 und 20 Hz, was einer Änderungsgeschwindigkeit von zwischen 100 bis 200 Hz/sec. entspricht. Demnach erreicht die Amplitude des Grundtonverlaufs des schnell gesprochenen Wortes bei natürlicher Sprache nicht den gleichen Wert wie die des langsam gesprochenen Wortes (F i g. 1 d).

Bis zu einem gewissen Grade treffen die gleichen Überlegungen auch für den Fall der Sprachwiedergabe mit geringerer Geschwindigkeit zu. Die herabgesetzte Änderungsgeschwindigkeit des Grundtones erzeugt jedoch nicht den gleichen Typ von Unnatürlichkeit, wie das bei der Geschwindigkeitserhöhung der Fall ist, doch ist das Ergebnis gleichermaßen unerwünscht.

Nunmehr wird der Grundtcnverlauf immer dann geändert, wenn ein Wort mit einer Geschwindigkeit wiedergegeben wird, die von der Geschwindigkeit, mit der es ursprünglich gesprochen worden war, abweicht, so daß übertrieben schnelle oder langsame Änderungsgeschwindigkeiten, die durch die Veränderung der Wiedergabegeschwindigkeit hervorgerufen wurden, eliminiert werden.

Anders ausgedrückt besteht das Verfahren darin, die schnellen Änderungen des Grundtones zu beeinflussen, während die langsamen Änderungen unbeeinflußt bleiben. Die Durchführung dieses Verfahrens verlangt ein Netzwerk, dessen Übertragungsfunktion frequenzabhängig ist, und das durch Signale gesteuert wird, die die ursprüngliche Geschwindigkeit des gespeicherten Wortes und die gewünschte Wiedergabegeschwindigkeit beschreiben. Dieses Verfahren wird nun ausführlicher mit Bezug auf F i g. 2 beschrieben.

Ein Speicher 1 enthält Sprachsegmente, die in dem hier beschriebenen bevorzugten Ausführungsbeispiel aus vollständigen Wörtern bestehen. Zur Zusammenstellung von Nachrichten sendet der Speicher entsprechende Sprachsignale über Übertragungskanäle 2 an einem Synthesator 3. Der Speicher 1 kann irgendeins der vielen, bereits vorgeschlagenen Speichergeräte sein, die zufallsverteilten Zugriff gestatten, und die (lange) Magnetbänder oder -scheiben, eine geeignet große Anzahl von kurzen Bandsegmenten mit eigenem Abtastmechanismus, sowie auf dem Schirm einer Kathodenstrahlröhre angeordneten photographischen Film umfassen können. Der Synthesator 3 kann ein konventioneller Kanal- oder Formant-Synthesator sein.

Die über die Kanäle 2 übertragenen Sprachsignale beschreiben das Spektrum der Sprachlaute. Diese Signale können im Falle eines Kanal-Synthesatcrs die Amplituden für einen Satz von Bandpaßfiltern darstellen. Im Falle eines Formant-Synthesators können sie die Frequenzen der Formanten und Spektral-Nullen darstellen. Zusätzlich zu diesen Signalen liefert der Speicher 1 auch eine zum Grundton des gespeicherten Sprachsegmentes proportionale Spannung auf einer Ausgangsleitung 4. Dieses Signal wird nun nicht unmittelbar dem Synthesator 3 zugeführt, es wird

vielmehr in einem Tilter 5 unter der Steuerung eines weiteren, über eine Steuerleitung 6 vom Speicher I empfangenen Signals modifiziert. Dieses Signal charakterisiert die Geschwindigkeit, mit der das beireffende Sprachsegment wiedergegeben werden soll. Unter der Annahme, daß das Filter 5 ein Analog-Filter ist, wird ein Analog-Signal von beispielsweise + 1 Volt auf die Leitung 6 gegeben, in dem Fall, daß das Sprachsegment mit seiner ursprünglichen Geschwindigkeit wiedergegeben werden soll; während das Steuersignal nur 0,5 Volt beträgt, im Falle daß die Wiedergabe mit der zweifachen Originalgeschwindigkeit erfolgen soll. Das Steuersignal würde +2VoIt betragen, wenn die Wiedergabegeschwindigkeit nur der halben Originalgesehwindigkeil LTüspreclieii soll.

Bei der Festlegung der Eigenschaften, die das Filter haben muß, um wie beschrieben funktionieren zu können, muß man sich daran erinnern, daß das ursprüngliche, vom Gehirn gelieferte Signal die Form eine mehr oder weniger scharfen Sprungfunktion hat, die durch das physiologische Tiefpaßfilter des Stimmtrakts hindurchgegangen ist. Wie bereits erwähnt, ändern sich die Charakteristika dieses Filters nicht wesentlich mit der Änderung der Sprechgeschwindigkeit. Im Gegensatz, dazu scheinen die durch die technische Sprachkompression (oder -expansion) dem Sprachsignal mitgeteilten Verzerrungen durch ein Tiefpaßfilter hervorgerufen, dessen Übertragungsfunktion von der Übertragungsfunktion für unkomprimierte (unexpandiene) Sprache verschieden ist. Das Grundprinzip für die Auslegung des Filters 5 ist deshalb die elektrische Nachbildung des Effekts, als wenn das gleiche Originalstcucrsignal vor dem Durchgang durch das Tiefpaßfilter komprimiert (oder expandiert) worden wäre, anstatt daß das Signal zuerst gefiltert und dann komprimiert (oder expandiert) worden wäre.

Ein Filter, das den genannten Anforderungen genügt, ist in F i g. 3 dargestellt. Ein Operationsverstärker 51 ist mit mit einem Eingangsnetzwerk verbunden, das aus einem Widerstand 52 und einem mit diesem parallel geschalteten Kondensator 53 besteht. In erster Annäherung wird angenommen, daß der Operationsverstärker 51 eine unendlich große Verstärkung hat, so daß für eine endliche Ausgangsspannung die Eingangsspannung Null sein müßte. Ferner wird der Eingangsstrom zu Null angenommen, da im allgemeinen die Verstärker-Eingangsimpedanz groß ist. (Auch wenn die Eingangsimpedanz niedrig wäre, wäre der Strom sehr klein, da die Spannung so niedrig ist).

Ferner ist in dem Eingangsnetzwerk ein Widerstand 54 vorgesehen, der mit dem Kondensator 53 in Reihe geschaltet ist. Es dient dazu, zu vermeiden, daß der Strom für die Hochfrequenzanteile (ζ. Β. Rauschen) gegen unendlich geht.

An den Ausgang des Operationsverstärkers 51 ist ein Rückkopplungsnetzwerk angeschlossen, das ein aus einem Kondensator 55 und einem mit diesen parallel geschalteten Widerstand 56 bestehendes Tiefpaßfilter enthält. Um wenigstens teilweise die durch den Widerstand 56 im Eingangskreis hervorgerufene Wirkung auszugleichen ist ein zusätzlicher Widerstand 57 mit dem Kondensator 55 in Reihe geschaltet.

Um das Filter 5 einstellbar zu gestalten in Abhängigkeit von den Geschwindigkeitsänderungen, denen die Sprachsegmente unterworfen werden, nachdem sie dem Speicher 1 entnommen worden sind, wird der Kondensator 53 veränderbar ausgelegt. Seine Steuerung erfolgt durch das vom Speicher 1 über die Leitung 6 gegebene Signal, das der Erhöhung oder Erniedrigung der Geschwindigkeit entspricht, der das reproduzierte Sprachsegment ausgesetzt werden soll. Ls sei angenommen, daß die Kapazität des Kondensa-■') tors 53 dem Steuersignal proportional ist, und daß ein Signal mit einer Spannung von I Voll der Wiedergabe irgendeines Sprachsegmentes mit seiner ursprünglichen Geschwindigkeit entsprechen soll, wahrend ein Steuersignal von 0,5 Volt der doppelten Geschwindigkeit und

κι ein solches von 2 Volt demnach der halben Geschwindigkeit entsprechen soll.

Es wird vorausgesetzt, daß die Widerstände 52 und 56 gleich sind, und daß ferner die Widerstände 54 und 57 gleich sind. Des weiteren wird vorausgesetzt, daß wenn

η das Steuersignal an einem Sieuereingang 58 des Kondensators 53, 1 Volt beträgt, der Kondensator 53 gleich groß ist wie der Kondensator 55. Bei diesen Bedingungen ist das Ausgangssignal an der Ausgangsklemme 596 gleich dem Eingangssignal an der Eingangsklemme 59a.

Da, wie bereits erwähnt, die Kapazität des Kondensators 53 zum Steuersignal am Eingang 58 proportional ist. bewirkt ein Steuersignal unter 1 Volt, daß der Kondensator 53 kleiner ist als der Kondensator 55.

2> Demgemäß dämpft der Eingangskreis die hohen Frequenzen, obwohl die Gleichstromverstärkung ungeändert gleich 1 ist. Da das Signal an der Eingangsklemme 59a eine zum Grundton des reproduzierten Sprachsegmentes proportionale Spannung ist, stellen

ü> die hochfrequenten Anteile dieses Signals schnelle Änderungen des Grundtones dar und diese werden gedämpft, wenn das Steuersignal angibt, daß die Wiedergabe des Sprachsegmentes mit einer Geschwindigkeit erfolgt, die größer ist als die Geschwindigkeit bei der Aufnahme.

Entsprechendes gilt, wenn die Wiedergabe mit kleinerer Geschwindigkeit erfolgen soll. Dann wird der Kondensator 53 größer als der Kondensator 55. und die hohen Frequenzen werden demgemäß durch die Schaltung angehoben. Demnach werden die schnellen Änderungen des Grundtons, die in der ursprünglichen Sprache eine kleine Amplitude aufwiesen, bei verlangsamter Wiedergabe langsamer und ihre Amplitude wird vergrößert.

Es ist noch von Wichtigkeit, die Filtereigenschaften der Eingangs- und Ausgangsnetzwerke des Filters näher zu betrachten. Wie bereits weiter oben angedeutet, wird angenommen, daß die vom Gehirn gelieferten Wort-Intonationssignale die Form von Nervenimpulsen haben,

so die an diejenigen Muskeln übertragen werden, die den Grundton steuern, Diese Impulse werden infolge des relativ langsamen Ansprechens der Muskeln einer Tiefpaßfilterung unterworfen. Es scheint, daß wenn eine Person schneller oder langsamer spricht, die Nervenimpulse zwar beschleunigt oder verlangsamt werden, während die Ansprechgeschwindigkeit der Muskeln fast unverändert bleibt. Um das Tiefpaßverhalten der Muskeln auszugleichen, muß der Eingangskreis des Filters 5 so ausgelegt werden, daß seine Eingangsimpedanz etwa umgekehrt proportional zur Übertragungs funktion des Muskelfilters ist. Dementsprechend ist der Strom durch diesen Schaltkreis dann proportional zum ursprünglichen Nervensteuersignal. Wenn das Sprachsegment nun schneller wiedergegeben wird als es aufgezeichnet worden war, verhält sich der unveränderte Grundtonverlauf so, als wenn sowohl die Nervenimpulse als auch die Ansprechgeschwindigkeit der Muskeln beschleunigt worden wären. Aus diesem

Grund muß der Kondensator 53 unter den genannten " Bedingungen kleiner gemacht werden, um die Eingangsimpedanz des Kreises umgekehrt proportional zu den Nervensteuersignalen zu erhalten.

Tatsächlich ist die Auslegung eines Filters mit einer einem Hochpaßfilter ähnlichen Charakteristik aber mit konstanter Gleichstrom- und Niederfrequenzverstärkung ein sehr komplizierter Vorgang. Aus diesem Grund kann die tatsächliche Filtercharakteristik eine Annäherung sein, mit der eine unzulässige Verstärkung des Rauschens vermieden werden kann. Das Ausgangssignal entspricht deshalb auch nicht genau dem Nervensignal, es ist jedoch hier akkurat genug. Die Eingangsimpedanz des Filters ist so eingestellt, daß, wenn sie von einem Strom durchflossen wird, das Filter sich wie ein Tiefpaß verhält. Falls an den Eingangskreis jedoch eine Spannung angelegt wird, verhält sich das Filter umgekehrt.

Die Impedanz des die Widerstände 56 und 57 und den Kondensator 55 umfassenden Rückkopplungskreises wird proportional zum normalen Tiefpaßverhalten der Muskeln eingestellt, so daß das Ausgangssignal an der Klemme 59b genau den Grundton reproduziert, der sich ergeben hätte, wenn das Sprachsegment mit der durch das Steuersignal auf der Leitung 58 angegebenen Geschwindigkeit gesprochen worden wäre.

Es ist für den Fachmann selbstverständlich, daß das Filter gemäß Fig.3 auch durch eine entsprechende digitale Schaltung ersetzt werden kann.

Hierzu 1 Blatt Zeichnungen

Claims

Patentansprüche:

1. Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese aus gespeicherten Sprachsegmenten mit einem die Spektrumkanalfilter enthaltenen Sprachsynthetisator, bei dem der Grundtonverlauf an die Wiedi:rgabegeschwindigkeit angepaßt wird, gekennzeichnet durch folgende Schritte: Das den Grundton repräsentierende Signal wird einem Filter (5) zugeführt; die Übertragungsfunktion dieses Filters wird gesteuert; das Filter steuernde Signale werden als Differenzsignale zwischen der Aufzeichnungs- und Wiedergabegeschwindigkeit der Sprachsignal abgeleitet.

2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, daß wenigstens der die ursprüngliche Aufzeichnungsgeschwindigkeit der Sprachsegmente beschreibende Anteil der zur Steuerung der Übertragungsfunktion des Filters erforderlichen Steuersignale bei der Speicherung mitgespeichert wird.

3. Verfahren nach den Patentansprüchen 1 und 2, dadurch gekennzeichnet, daß die Übertragungsfunktion des Filters so gesteuert wird, daß die schnellen Änderungen des Grundtonverlaufs der wiedergegebenen Sprachsegmente stärker beeinflußt werden als die langsamen.

4. Verfahren nach den Palentansprüchen 1, 2 oder 3, dadurch gekennzeichnet, daß wenn die Wiedergabe der Sprachsegmente schneller erfolgt ah: die Aufzeichnung, die Amplitude der Signale mit hohen Frequenzen gedämpft wird, während bei langsamerer Wiedergabe einer Anhebung der Amplitude der Signale mit hohen Frequenzen erfolgt.

5. Schaltungsanordnung zur Durchführung des Verfahrens nach den Patentansprüchen 1, 2, 3, 4 und 5, dadurch gekennzeichnet, daß das Filter (5, F i g. 2) aus einem Eingangskreis (52,53,54 in F i g. 3), einem von diesem gespeisten Operationsverstärker (51) und einem Ausgangskreis (55, 56, 57) besteht, wobei der Ausgangskreis an den Eingang des Verstärkers (51) rückgekoppelt ist.

6. Schaltungsanordnung nach Patentanspruch 5, dadurch gekennzeichnet, daß der Eingangskreis (52, 53, 54 in F ig. 3) des Filters (5 in Fig. 2) eine Hochpaß-Charakteristik aufweist.

7. Schaltungsanordnung nach den Patentansprüchen 5 oder 6, dadurch gekennzeichnet, daß der Ausgangskreis (55, 56, 57 in F i g. 3) des Filters 45 in Fig. 2) wenigstens angenähert die Tiefpaß-Charakteristik des physiologischen Sprachsystems aufweist.

8. Schaltungsanordnung nach den Patentansprüchen 5, 6 oder 7, dadurch gekennzeichnet, daß der Eingangskreis (52, 53, 54 in Fi g. 3) des Filters (5 in Fig. 2) einen Kondensator (53 in Fig.3) aufweist, dessen Kapazität proportional zur Differenz /wischen Aufzeichnungs- und Wiedergabegeschwindigkeit der Sprachsegmente steuerbar ist.