DE1940384C3 - Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung - Google Patents
Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und SchaltungsanordnungInfo
- Publication number
- DE1940384C3 DE1940384C3 DE19691940384 DE1940384A DE1940384C3 DE 1940384 C3 DE1940384 C3 DE 1940384C3 DE 19691940384 DE19691940384 DE 19691940384 DE 1940384 A DE1940384 A DE 1940384A DE 1940384 C3 DE1940384 C3 DE 1940384C3
- Authority
- DE
- Germany
- Prior art keywords
- speech
- filter
- fundamental
- speed
- circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 7
- 238000010291 electrical method Methods 0.000 title description 2
- 239000003990 capacitor Substances 0.000 claims abstract description 18
- 230000002238 attenuated effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 10
- 210000003205 muscle Anatomy 0.000 description 9
- 210000005036 nerve Anatomy 0.000 description 6
- 230000006399 behavior Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Description
Die Erfindung betrifft ein elektrisches Verfahren /.um
Harmonisieren des Grundtonverlaufs bei der Sprachsynthese nach dem Oberbegriff des Anspruchs 1, sowie
eine Schaltungsanordnung.
Techniken zur Speicherung von Sprachsignalen sind bereits bekannt. Außer der weitverbreiteten Analogtechnik,
die z. B. bei der Aufnahme und kontinuierlichen Wiedergabe von Sprache und Musik angewendet wird,
ist eine digitale Technik entwickelt worden, bei der die verschiedenen Eigenschaften der natürlichen Sprache
benutzt werden, um verschiedene, diese Eigenschaften beschreibende Signale zu erzeugen. Diese Signale
werden dann ihrerseits kodiert und die Kode werden ίο gespeichert. Für die Zwecke der Sprachausgabe-Einrichtungen
einer digitalen Datenverarbeitungsanlage ist die digitale Speicherung der Sprache von besonderem
Interesse.
Damit die Maschine in die Lage versetzt wird, an sie gestellte Fragen sinnvoll zu beantworten, muß in ihrem
Speicher ein geeigneter Vorrat von Sprachsegmenten vorhanden sein. Deranige Segmente können aus
einzelnen Silben, vollständigen Wörtern oder ganzen Sätzen bestehen. Der Vorteil, der sich bei der
Speicherung einzelner Silben ergibt, ist, daß vermutlich nur eine relativ kleine Anzahl von Sprachsignalen
gespeichert werden müßte. Wenn jedoch die reproduzierte Sprache nur entfernt natürlich klingen soll, muß
eine große Anzahl komplexer Zeitbedingungen beachtet werden, da nominell ähnlich klingende Silben in
verschiedenen Wörtern mit unterschiedlicher Dauer und Betonung auftreten können.
Die Speicherung vollständiger Wörter ist dagegen sehr praktisch, besonders, wenn nur ein begrenztes
jo Vokabular für die von der Maschine zu erzeugenden Nachrichten erforderlich ist. Nichtsdestoweniger können
die Reproduktion von Wörtern aus einem Speicher und ihre Zusammenstellung zu einer vollständigen
Nachricht Unregelmäßigkeiten an den Stoßstellen der Wörter hervorrufen, die dazu führen, daß synthetische
Sprache für das menschliche Ohr unnatürlich klingt, und die ihre Verständlichkeit beeinträchtigen.
Unter der Annahme einer verhältnismäßig beschränkten Speicherkapazität ist die Anwendbarkeit
eines Systems, bei dem ganze Sätze gespeichert sind wegen der stark reduzierten Anpassungsfähigkeit der
Sprachausgabe-Einrichtungen sehr begrenzt.
Daher erscheint die Speicherung von vollständigen Wörtern dem heutigen Stand der Technik angemessen,
t'j und es wird die Verminderung der Unregelmäßigkeiten,
die bei der Zusammenstellung von Wörtern entstehen, die ursprünglich in einem völlig anderen Zusammenhang
gesprochen worden waren, angestrebt.
Man ging daran den Grundtonverlauf reproduzierter Wörter mit einer Korrekturfunktion zu überlagern, um
die genannten Unregelmäßigkeiten zu kompensieren.
Dieses Vorgehen hat sich jedoch als unbefriedigend und unbeweglich erwiesen.
In der DE-AS 11 91 124 sowie der FR-PS 14 47 760
sind Lösungen zur Anpassung der Sprachgrundfrequenz an variable Sprechgeschwindigkeiten angegeben. Diese
Lösungen sind jedoch mit Nachteilen behaftet, die im Falle der erstgenannten Druckschrift darin liegen, daß
eine kontinuierliche Anpassung und damit eine perfekte
bo klangliche Verbesserung nicht möglich ist, da Expansion
und Kompression durch Einfügen bzw. Weglassen von Sprachsegmenten erreicht werden.
Beiden Druckschriften ist ein weiterer Nachteil
gemeinsam, nämlich der, daß schnelle Änderungen des
h5 Grundtonverlaufs gar nicht oder höchst unvollkommen
nach diesen bekannten Lösungen kompensiert werden können.
Der Erfindung liegt daher die Aufgabe zugrunde, ein
elektrisches Verfahren zum Harmonisieren des Grundlonverlaufs
bei der Sprachsynthese aus gespeicherten Sprachsegmenten anzugeben, das einfach ist, sicher und
zuverlässig arbeitet sowie zur Verbesserung des natürlichen Klangs der Sprache bei Änderung der
Sprechgeschwindigkeit auch die Sprachfrequenz diesen Änderungen sauber anpaßt.
Gelöst wird diese Aufgabe der Erfindung für das Verfahren durch die im Anspruch 1 und für die
Schaltung durch die im Anspruch 5 angegebenen Merkmale.
Weitere vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den
Unteransprüchen zu entnehmen.
Die Erfindung wird hiernach im Zusammenhang mit
einem bevorzugten Ausführungsbeispiel anhand der Zeichnungen näher erläutert
Fig. la bis Id: zeigen Details des selben Grundtonverlaufs
unter verschiedenen Bedingungen;
Fig. 2: zeigt schematisch eine Einrichtung zur Sprachsynthese;
F i g. 3: ist ein vereinfachtes Schaltbild eines Filters.
Bei der reproduktiven Sprachsynthese ist es nötig, Maßnahmen zu ergreifen, um die Charakteristika der
einzelnen, gespeicherten Wörter an den betreffenden Kontext anzupassen, in dem sie vorkommen sollen.
Beispielsweise kann ein Wort mit einer ersten Geschwindigkeit gesprochen und dann gespeichert
worden sein. Die Anpassung des Wortes an einen Zusammenhang, der von demjenigen zur Zeit der
Aufnahme verschieden ist, kann seine Wiedergabe mi: einer zweiten, 2. B. erhöhten Geschwindigkeit erfordern.
Mit anderen Worten, das aus dem Speicher entnommene Sprachsignal muß komprimiert werden,
um die erforderliche Wiedergabegeschwindigkeit zu r> erreichen.
Es erscheint angebracht, kurz auf die Unterschiede zwischen natürlicher Sprache und Vocoder-Sprache
einzugehen, wenn die Wiedergabegeschwindigkeit geändert wird. Bei natürlicher Sprache wird angenommen,
daß das Gehirn an das Nervensystem beispielsweise eine Sprungfunktion liefert, um die Muskeln zur
Produktion des gewünschten Allophons anzuregen (Fig. la). Die Muskeln sind nicht in der Lage, der
Sprungfunktion augenblicklich zu folgen; sie verhalten v-,
sich vielmehr wie ein Tiefpaßfilter, so daß die ursprüngliche Sprungfunktion verändert wird, wie das in
der F i g. 1 b dargestellt ist.
Es ist bekannt, daß es mit Hilfe eines Voccder-Synthesators möglich ist, die Geschwindigkeit der Sprache V)
zu ändern, ohne daß gleichzeitig der Grundton oder die Tonqualität geändert werden (was nicht möglich ist,
wenn man eine Aufzeichnung einfach schneller oder langsamer abspielt).
Wenn das Sprachsignal von Fig. Ib aufgenommen 5r>
und dann mit erhöhter Geschwindigkeit wiedergegeben wird, ist der Anstieg der Grundtonkurve viel kürzer,
während die Amplitude der Kurve konstant bleibt (Fig. Ic). Mit anderen Worten, wenn die Geschwindigkeit
erhöht wird, werden die Änderungen des ω Grundtons proportional schneller. Es sei beispielsweise
angenommen, daß ein Wort ursprünglich 0,5 see. dauert die Frequenz des Grundtons zu Beginn des Wertes
100 Hz und an seinem Ende 150Hz betrage. Die Frequenz des Grundtones steigt demnach mit einer <v5
Geschwindigkeit von 100 Hz/sec. an. Falls dieses Wort über einen Vocoder mit der fünffachen Originalgeschwindigkeit
wiedergegeben wird, ist die Frequenz des Grundtones am Beginn des Wortes nach wie vor 100 Hz
und 150Hz wenn das Wort endet, die Änderungsgeschwindigkeit ist jedoch mit dem Faktor fünf auf
500 hz/sec. angestiegen, da die Änderung nun innerhalb von 0,1 see. erfolgt, weil die gesamte Dauer des Wortes
auf 0,1 see. komprimiert worden ist. Änderungen des Grundtones von dieser Größenordnung klingen unnatürlich;
in natürlicher Sprache kommen sie nicht vor.
Wenn das gleiche Wort in natürlicher Sprache so gesprochen wird, daß es nur 0,1 see. dauert, beginnt der
Grundton wiederum bei 100 Hz, aber die Änderung, die durch die erhöhte Geschwindigkeit verursacht wird,
beträgt nur zwischen 10 und 20 Hz, was einer Änderungsgeschwindigkeit von zwischen 100 bis
200 Hz/sec. entspricht. Demnach erreicht die Amplitude des Grundtonverlaufs des schnell gesprochenen Wortes
bei natürlicher Sprache nicht den gleichen Wert wie die des langsam gesprochenen Wortes (F i g. 1 d).
Bis zu einem gewissen Grade treffen die gleichen Überlegungen auch für den Fall der Sprachwiedergabe
mit geringerer Geschwindigkeit zu. Die herabgesetzte Änderungsgeschwindigkeit des Grundtones erzeugt
jedoch nicht den gleichen Typ von Unnatürlichkeit, wie das bei der Geschwindigkeitserhöhung der Fall ist, doch
ist das Ergebnis gleichermaßen unerwünscht.
Nunmehr wird der Grundtcnverlauf immer dann geändert, wenn ein Wort mit einer Geschwindigkeit
wiedergegeben wird, die von der Geschwindigkeit, mit der es ursprünglich gesprochen worden war, abweicht,
so daß übertrieben schnelle oder langsame Änderungsgeschwindigkeiten, die durch die Veränderung der
Wiedergabegeschwindigkeit hervorgerufen wurden, eliminiert werden.
Anders ausgedrückt besteht das Verfahren darin, die schnellen Änderungen des Grundtones zu beeinflussen,
während die langsamen Änderungen unbeeinflußt bleiben. Die Durchführung dieses Verfahrens verlangt
ein Netzwerk, dessen Übertragungsfunktion frequenzabhängig ist, und das durch Signale gesteuert wird, die
die ursprüngliche Geschwindigkeit des gespeicherten Wortes und die gewünschte Wiedergabegeschwindigkeit
beschreiben. Dieses Verfahren wird nun ausführlicher mit Bezug auf F i g. 2 beschrieben.
Ein Speicher 1 enthält Sprachsegmente, die in dem hier beschriebenen bevorzugten Ausführungsbeispiel
aus vollständigen Wörtern bestehen. Zur Zusammenstellung von Nachrichten sendet der Speicher entsprechende
Sprachsignale über Übertragungskanäle 2 an einem Synthesator 3. Der Speicher 1 kann irgendeins
der vielen, bereits vorgeschlagenen Speichergeräte sein, die zufallsverteilten Zugriff gestatten, und die (lange)
Magnetbänder oder -scheiben, eine geeignet große Anzahl von kurzen Bandsegmenten mit eigenem
Abtastmechanismus, sowie auf dem Schirm einer Kathodenstrahlröhre angeordneten photographischen
Film umfassen können. Der Synthesator 3 kann ein konventioneller Kanal- oder Formant-Synthesator sein.
Die über die Kanäle 2 übertragenen Sprachsignale beschreiben das Spektrum der Sprachlaute. Diese
Signale können im Falle eines Kanal-Synthesatcrs die Amplituden für einen Satz von Bandpaßfiltern darstellen.
Im Falle eines Formant-Synthesators können sie die Frequenzen der Formanten und Spektral-Nullen darstellen.
Zusätzlich zu diesen Signalen liefert der Speicher 1 auch eine zum Grundton des gespeicherten
Sprachsegmentes proportionale Spannung auf einer Ausgangsleitung 4. Dieses Signal wird nun nicht
unmittelbar dem Synthesator 3 zugeführt, es wird
vielmehr in einem Tilter 5 unter der Steuerung eines
weiteren, über eine Steuerleitung 6 vom Speicher I empfangenen Signals modifiziert. Dieses Signal charakterisiert
die Geschwindigkeit, mit der das beireffende Sprachsegment wiedergegeben werden soll. Unter
der Annahme, daß das Filter 5 ein Analog-Filter ist, wird ein Analog-Signal von beispielsweise + 1 Volt auf die
Leitung 6 gegeben, in dem Fall, daß das Sprachsegment mit seiner ursprünglichen Geschwindigkeit wiedergegeben
werden soll; während das Steuersignal nur 0,5 Volt beträgt, im Falle daß die Wiedergabe mit der
zweifachen Originalgeschwindigkeit erfolgen soll. Das Steuersignal würde +2VoIt betragen, wenn die
Wiedergabegeschwindigkeit nur der halben Originalgesehwindigkeil
LTüspreclieii soll.
Bei der Festlegung der Eigenschaften, die das Filter haben muß, um wie beschrieben funktionieren zu
können, muß man sich daran erinnern, daß das ursprüngliche, vom Gehirn gelieferte Signal die Form
eine mehr oder weniger scharfen Sprungfunktion hat, die durch das physiologische Tiefpaßfilter des Stimmtrakts
hindurchgegangen ist. Wie bereits erwähnt, ändern sich die Charakteristika dieses Filters nicht
wesentlich mit der Änderung der Sprechgeschwindigkeit. Im Gegensatz, dazu scheinen die durch die
technische Sprachkompression (oder -expansion) dem Sprachsignal mitgeteilten Verzerrungen durch ein
Tiefpaßfilter hervorgerufen, dessen Übertragungsfunktion von der Übertragungsfunktion für unkomprimierte
(unexpandiene) Sprache verschieden ist. Das Grundprinzip für die Auslegung des Filters 5 ist deshalb die
elektrische Nachbildung des Effekts, als wenn das gleiche Originalstcucrsignal vor dem Durchgang durch
das Tiefpaßfilter komprimiert (oder expandiert) worden wäre, anstatt daß das Signal zuerst gefiltert und dann
komprimiert (oder expandiert) worden wäre.
Ein Filter, das den genannten Anforderungen genügt, ist in F i g. 3 dargestellt. Ein Operationsverstärker 51 ist
mit mit einem Eingangsnetzwerk verbunden, das aus einem Widerstand 52 und einem mit diesem parallel
geschalteten Kondensator 53 besteht. In erster Annäherung
wird angenommen, daß der Operationsverstärker 51 eine unendlich große Verstärkung hat, so daß für eine
endliche Ausgangsspannung die Eingangsspannung Null sein müßte. Ferner wird der Eingangsstrom zu Null
angenommen, da im allgemeinen die Verstärker-Eingangsimpedanz groß ist. (Auch wenn die Eingangsimpedanz
niedrig wäre, wäre der Strom sehr klein, da die Spannung so niedrig ist).
Ferner ist in dem Eingangsnetzwerk ein Widerstand 54 vorgesehen, der mit dem Kondensator 53 in Reihe
geschaltet ist. Es dient dazu, zu vermeiden, daß der Strom für die Hochfrequenzanteile (ζ. Β. Rauschen)
gegen unendlich geht.
An den Ausgang des Operationsverstärkers 51 ist ein Rückkopplungsnetzwerk angeschlossen, das ein aus
einem Kondensator 55 und einem mit diesen parallel geschalteten Widerstand 56 bestehendes Tiefpaßfilter
enthält. Um wenigstens teilweise die durch den Widerstand 56 im Eingangskreis hervorgerufene Wirkung auszugleichen ist ein zusätzlicher Widerstand 57
mit dem Kondensator 55 in Reihe geschaltet.
Um das Filter 5 einstellbar zu gestalten in Abhängigkeit von den Geschwindigkeitsänderungen,
denen die Sprachsegmente unterworfen werden, nachdem sie dem Speicher 1 entnommen worden sind, wird
der Kondensator 53 veränderbar ausgelegt. Seine Steuerung erfolgt durch das vom Speicher 1 über die
Leitung 6 gegebene Signal, das der Erhöhung oder Erniedrigung der Geschwindigkeit entspricht, der das
reproduzierte Sprachsegment ausgesetzt werden soll. Ls sei angenommen, daß die Kapazität des Kondensa-■')
tors 53 dem Steuersignal proportional ist, und daß ein Signal mit einer Spannung von I Voll der Wiedergabe
irgendeines Sprachsegmentes mit seiner ursprünglichen Geschwindigkeit entsprechen soll, wahrend ein Steuersignal
von 0,5 Volt der doppelten Geschwindigkeit und
κι ein solches von 2 Volt demnach der halben Geschwindigkeit
entsprechen soll.
Es wird vorausgesetzt, daß die Widerstände 52 und 56 gleich sind, und daß ferner die Widerstände 54 und 57
gleich sind. Des weiteren wird vorausgesetzt, daß wenn
η das Steuersignal an einem Sieuereingang 58 des
Kondensators 53, 1 Volt beträgt, der Kondensator 53 gleich groß ist wie der Kondensator 55. Bei diesen
Bedingungen ist das Ausgangssignal an der Ausgangsklemme 596 gleich dem Eingangssignal an der
Eingangsklemme 59a.
Da, wie bereits erwähnt, die Kapazität des Kondensators 53 zum Steuersignal am Eingang 58 proportional
ist. bewirkt ein Steuersignal unter 1 Volt, daß der Kondensator 53 kleiner ist als der Kondensator 55.
2> Demgemäß dämpft der Eingangskreis die hohen Frequenzen, obwohl die Gleichstromverstärkung ungeändert
gleich 1 ist. Da das Signal an der Eingangsklemme 59a eine zum Grundton des reproduzierten
Sprachsegmentes proportionale Spannung ist, stellen
ü> die hochfrequenten Anteile dieses Signals schnelle
Änderungen des Grundtones dar und diese werden gedämpft, wenn das Steuersignal angibt, daß die
Wiedergabe des Sprachsegmentes mit einer Geschwindigkeit erfolgt, die größer ist als die Geschwindigkeit bei
der Aufnahme.
Entsprechendes gilt, wenn die Wiedergabe mit kleinerer Geschwindigkeit erfolgen soll. Dann wird der
Kondensator 53 größer als der Kondensator 55. und die hohen Frequenzen werden demgemäß durch die
Schaltung angehoben. Demnach werden die schnellen Änderungen des Grundtons, die in der ursprünglichen
Sprache eine kleine Amplitude aufwiesen, bei verlangsamter Wiedergabe langsamer und ihre Amplitude wird
vergrößert.
Es ist noch von Wichtigkeit, die Filtereigenschaften der Eingangs- und Ausgangsnetzwerke des Filters näher
zu betrachten. Wie bereits weiter oben angedeutet, wird angenommen, daß die vom Gehirn gelieferten Wort-Intonationssignale
die Form von Nervenimpulsen haben,
so die an diejenigen Muskeln übertragen werden, die den
Grundton steuern, Diese Impulse werden infolge des relativ langsamen Ansprechens der Muskeln einer
Tiefpaßfilterung unterworfen. Es scheint, daß wenn eine Person schneller oder langsamer spricht, die Nervenimpulse zwar beschleunigt oder verlangsamt werden,
während die Ansprechgeschwindigkeit der Muskeln fast unverändert bleibt. Um das Tiefpaßverhalten der
Muskeln auszugleichen, muß der Eingangskreis des Filters 5 so ausgelegt werden, daß seine Eingangsimpedanz etwa umgekehrt proportional zur Übertragungs
funktion des Muskelfilters ist. Dementsprechend ist der Strom durch diesen Schaltkreis dann proportional zum
ursprünglichen Nervensteuersignal. Wenn das Sprachsegment nun schneller wiedergegeben wird als es
aufgezeichnet worden war, verhält sich der unveränderte Grundtonverlauf so, als wenn sowohl die Nervenimpulse als auch die Ansprechgeschwindigkeit der
Muskeln beschleunigt worden wären. Aus diesem
Grund muß der Kondensator 53 unter den genannten " Bedingungen kleiner gemacht werden, um die Eingangsimpedanz des Kreises umgekehrt proportional zu den
Nervensteuersignalen zu erhalten.
Tatsächlich ist die Auslegung eines Filters mit einer einem Hochpaßfilter ähnlichen Charakteristik aber mit
konstanter Gleichstrom- und Niederfrequenzverstärkung ein sehr komplizierter Vorgang. Aus diesem
Grund kann die tatsächliche Filtercharakteristik eine Annäherung sein, mit der eine unzulässige Verstärkung
des Rauschens vermieden werden kann. Das Ausgangssignal entspricht deshalb auch nicht genau dem
Nervensignal, es ist jedoch hier akkurat genug. Die Eingangsimpedanz des Filters ist so eingestellt, daß,
wenn sie von einem Strom durchflossen wird, das Filter sich wie ein Tiefpaß verhält. Falls an den Eingangskreis
jedoch eine Spannung angelegt wird, verhält sich das Filter umgekehrt.
Die Impedanz des die Widerstände 56 und 57 und den Kondensator 55 umfassenden Rückkopplungskreises
wird proportional zum normalen Tiefpaßverhalten der Muskeln eingestellt, so daß das Ausgangssignal an der
Klemme 59b genau den Grundton reproduziert, der sich ergeben hätte, wenn das Sprachsegment mit der durch
das Steuersignal auf der Leitung 58 angegebenen Geschwindigkeit gesprochen worden wäre.
Es ist für den Fachmann selbstverständlich, daß das Filter gemäß Fig.3 auch durch eine entsprechende
digitale Schaltung ersetzt werden kann.
Hierzu 1 Blatt Zeichnungen
Claims (8)
1. Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese aus
gespeicherten Sprachsegmenten mit einem die Spektrumkanalfilter enthaltenen Sprachsynthetisator,
bei dem der Grundtonverlauf an die Wiedi:rgabegeschwindigkeit
angepaßt wird, gekennzeichnet durch folgende Schritte: Das den
Grundton repräsentierende Signal wird einem Filter (5) zugeführt; die Übertragungsfunktion dieses
Filters wird gesteuert; das Filter steuernde Signale werden als Differenzsignale zwischen der Aufzeichnungs-
und Wiedergabegeschwindigkeit der Sprachsignal abgeleitet.
2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, daß wenigstens der die ursprüngliche
Aufzeichnungsgeschwindigkeit der Sprachsegmente
beschreibende Anteil der zur Steuerung der Übertragungsfunktion des Filters erforderlichen
Steuersignale bei der Speicherung mitgespeichert wird.
3. Verfahren nach den Patentansprüchen 1 und 2, dadurch gekennzeichnet, daß die Übertragungsfunktion
des Filters so gesteuert wird, daß die schnellen Änderungen des Grundtonverlaufs der wiedergegebenen
Sprachsegmente stärker beeinflußt werden als die langsamen.
4. Verfahren nach den Palentansprüchen 1, 2 oder 3, dadurch gekennzeichnet, daß wenn die Wiedergabe
der Sprachsegmente schneller erfolgt ah: die Aufzeichnung, die Amplitude der Signale mit hohen
Frequenzen gedämpft wird, während bei langsamerer Wiedergabe einer Anhebung der Amplitude der
Signale mit hohen Frequenzen erfolgt.
5. Schaltungsanordnung zur Durchführung des Verfahrens nach den Patentansprüchen 1, 2, 3, 4 und
5, dadurch gekennzeichnet, daß das Filter (5, F i g. 2) aus einem Eingangskreis (52,53,54 in F i g. 3), einem
von diesem gespeisten Operationsverstärker (51) und einem Ausgangskreis (55, 56, 57) besteht, wobei
der Ausgangskreis an den Eingang des Verstärkers (51) rückgekoppelt ist.
6. Schaltungsanordnung nach Patentanspruch 5, dadurch gekennzeichnet, daß der Eingangskreis (52,
53, 54 in F ig. 3) des Filters (5 in Fig. 2) eine Hochpaß-Charakteristik aufweist.
7. Schaltungsanordnung nach den Patentansprüchen 5 oder 6, dadurch gekennzeichnet, daß der
Ausgangskreis (55, 56, 57 in F i g. 3) des Filters 45 in Fig. 2) wenigstens angenähert die Tiefpaß-Charakteristik
des physiologischen Sprachsystems aufweist.
8. Schaltungsanordnung nach den Patentansprüchen 5, 6 oder 7, dadurch gekennzeichnet, daß der
Eingangskreis (52, 53, 54 in Fi g. 3) des Filters (5 in Fig. 2) einen Kondensator (53 in Fig.3) aufweist,
dessen Kapazität proportional zur Differenz /wischen Aufzeichnungs- und Wiedergabegeschwindigkeit
der Sprachsegmente steuerbar ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH1278468A CH474805A (de) | 1968-08-27 | 1968-08-27 | Verfahren und Schaltungsanordnung zur Verbesserung des Grundtonverlaufs bei der Sprachsynthese |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1940384A1 DE1940384A1 (de) | 1970-03-05 |
DE1940384B2 DE1940384B2 (de) | 1979-02-22 |
DE1940384C3 true DE1940384C3 (de) | 1979-10-18 |
Family
ID=4386360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19691940384 Expired DE1940384C3 (de) | 1968-08-27 | 1969-08-08 | Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung |
Country Status (5)
Country | Link |
---|---|
JP (1) | JPS4912481B1 (de) |
CH (1) | CH474805A (de) |
DE (1) | DE1940384C3 (de) |
FR (1) | FR2016422A1 (de) |
GB (1) | GB1264688A (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE787492A (fr) * | 1971-08-13 | 1973-02-12 | Greenberg Sanford D | Ligne a retard variable pour la commande d'emissions de sons |
-
1968
- 1968-08-27 CH CH1278468A patent/CH474805A/de not_active IP Right Cessation
-
1969
- 1969-07-31 FR FR6925658A patent/FR2016422A1/fr not_active Withdrawn
- 1969-08-08 DE DE19691940384 patent/DE1940384C3/de not_active Expired
- 1969-08-13 JP JP44063609A patent/JPS4912481B1/ja active Pending
- 1969-08-13 GB GB1264688D patent/GB1264688A/en not_active Expired
Also Published As
Publication number | Publication date |
---|---|
GB1264688A (de) | 1972-02-23 |
CH474805A (de) | 1969-06-30 |
FR2016422A1 (de) | 1970-05-08 |
DE1940384A1 (de) | 1970-03-05 |
JPS4912481B1 (de) | 1974-03-25 |
DE1940384B2 (de) | 1979-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4227826C2 (de) | Digitales Verarbeitungsgerät für akustische Signale | |
DE3100135C2 (de) | ||
DE2908999C2 (de) | Verfahren zur Erzeugung von akustischen Sprachsignalen, die für äußerst Schwerhörige verständlich sind und Gerät zur Durchführung dieses Verfahrens | |
DE3321225A1 (de) | Schaltanordnung zur automatisch wirksamen, dynamischen entzerrung | |
DE2259178A1 (de) | Schaltungsanordnung fuer das aufzeichnen und selektive unterdruecken von normalem sprachklang | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
DE19720651A1 (de) | Hörgerät mit verschiedenen Baugruppen zur Aufnahme, Weiterverarbeitung sowie Anpassung eines Schallsignals an das Hörvermögen eines Schwerhörigen | |
DE3806915A1 (de) | Reverb- (nachhall-) generator | |
DE4190102B4 (de) | Datenverdichtung von Tondaten | |
DE1940384C3 (de) | Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung | |
DE2826818C2 (de) | Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals | |
DE1903623C3 (de) | Elektrischer Sprach-Synthetisator | |
DE4203436A1 (de) | Datenreduzierte sprachkommunikation | |
DE2316939A1 (de) | Elektrische hoerhilfeschaltung | |
DE2613513A1 (de) | Hoerhilfe insbesondere hoergeraet | |
DE69015753T2 (de) | Tonsyntheseanordnung. | |
DE2515524C3 (de) | Einrichtung zum elektronischen Erzeugen von Klangsignalen | |
DE2209548C3 (de) | Elektrische Sprachsynthetisatorschaltung | |
DE2602307C2 (de) | Schaltungsanordnung zum Erfassen und Darstellen des vom Kehlkopf abgegebenen Sprechmusters (Laryngograph) | |
DE599478C (de) | Verfahren zur Verbesserung der Klangfarbe von Sprache | |
DE1079118B (de) | Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung | |
DE10010037A1 (de) | Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen | |
DE1230466B (de) | Verfahren und Vorrichtung, um Schallsignale fuer sehr schwerhoerige Personen wahrnehmbar zu machen | |
DE2659674C3 (de) | Verfahren und Anordnung zum Synchronisieren eines Semi-Formantvocoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
EHJ | Ceased/non-payment of the annual fee |