-
Die Erfindung bezieht sich auf eine Klangsyntheseanordnung zur
Erzeugung von gewünschten akustischen Signalen, wobei die Anordnung folgendes umfaßt:
-
- eine erste Signalquelle zur Abgabe eines periodischen Signals mit einer
gegebenen wiederholungsfrequenz als Repräsentation der stimmhaften Anteile des
gewünschten Signals,
-
- eine zweite Signalquelle zur Abgabe eines aperiodischen Signals oder eines
Rauschsignals als Repräsentation der stimmlosen Teile des gewünschten
Klangsignals,
-
- eine Kombinationsschaltung zur Kombination der Signale der beiden
Signalquellen miteinander und
-
- eine Filterschaltung mit einer variablen Übertragungsfunktion zur Verarbeitung
des kombinierten Signals zu dem gewünschten Ausgangssignal.
-
Eine solche Schaltung ist von J. Makhoul u.a. in dem Artikel "A
mixedsource model for speech compression and synthesis", veröffentlicht in Proceedings of
1978, IEEE International Conference on Acoustics, Speech and Signal Processing, April
10-12, 1978, Tulsa, Oklahoma, beschrieben worden. Bei dieser Anordnung werden
neben den genannten Signalquellen, der Kombinationsschaltung und der Schaltung mit
variablem Filter ein zwischen die erste Signalquelle und die Kombinationsschaltung
geschaltetes Tiefpaßfilter sowie ein zwischen die zweite Signalquelle und die
Kombinationsschaltung geschaltetes Hochpaßfilter verwendet.
-
Eine ähnliche Anordnung ist von S.H. Kwon und A.J. Goldberg in dem
Artikel "An enhanced vocoder with no voiced/unvoiced switch", veröffentlicht in IEEE
Transactions on Acoustics, Speech and Signal Processing, Bd ASSP-32, Nr. 4, 1984, S.
851ff beschrieben worden. Bei dieser bekannten Anordnung ist neben den genannten
Komponenten ein gesteuerter Verstärker nach sowohl der ersten Signalquelle als auch
der zweiten Signalquelle vorhanden. Beide Verstärker werden von einem Signal, das aus
der Filterschaltung mit einer variablen Übertragungsfunktion stammt, so gesteuert, daß
die Kombinationsschaltung auf eine einfache Gabelschaltung reduziert werden kann.
-
All diese bekannten Anordnungen sind dazu bestimmt, ein Sprachsignal
mit guter Wahrnehmungsqualität zu erzeugen. In der Praxis erreicht keine der
bekannten Anordnungen eine Sprachqualität, die völlig zufriedenstellend ist.
-
Aufgabe der Erfindung ist es, anzugeben, auf welche Art und Weise eine
wesentliche Verbesserung gegenüber den bekannten Anordnungen erreicht werden kann.
Dazu ist die Erfindung dadurch gekennzeichnet, daß die Anordnung mit einer dritten
Signalquelle zur Abgabe eines modulierten Rauschsignals ausgestattet ist, das eine
Abfolge oder Sequenz von Rauschstößen umfaßt, deren zeitliche Umhüllende synchron
zu der zeitlichen Umhüllenden des periodischen Signals ist und die stets die wenigstens
nahezu gleiche Energie haben, wobei das modulierte Rauschsignal zusammen mit dem
Signal der ersten Signalquelle der Kombinationsschaltung zugeführt wird.
-
Bei den bekannten Anordnungen wird dem stimmhaften periodischen
Signal stationäres Rauschen zugefügt. Es hat sich herausgestellt, daß ein Zuhörer, der
das am Ende von den bekannten akustischen Schaltungen produzierte Signal hört, den
Eindruck bekommt, als stamme das Rauschsignal aus einer gesonderten Quelle, die von
der das periodische Signal abgebenden Quelle verschieden ist, so daß die
wahrnehmungsqualität vergleichsweise schlecht ist. Durch Hinzufügung eines Hochpasses oder
eines Tiefpasses, wie von Makhoul beschrieben, wird zwar eine Verbesserung erreicht,
aber diese Anordnung erfordert immer noch Verbesserung.
-
Wenn erfindungsgemäß Rauschen in Form einer Sequenz oder Abfolge
von Rauschstößen hinzugefügt wird, deren zeitlichen Umhüllende die vorgenannte
Bedingung erfüllt und die stets die (wenigstens nahezu) gleiche Energie heben, wird in
der Wahrnehmung auf effektive Weise eine Verschmelzung des Rauschens mit dem
stimmhaften periodischen Signal erreicht, wodurch eine beträchtliche Verbesserung der
Wahrnehmungsqualität erzielt wird.
-
Auch wenn sich der vorgenannte Stand der Technik vor allem auf
Anordnungen zur Erzeugung von Sprachsignalen bezieht, ist die vorliegende Erfindung
nicht darauf beschränkt. Die erfindungsgemäße Anordnung kann mit Erfolg zur
Synthetisierung von beispielsweise musikalischen Klängen verwendet werden. Beispielhaft sei
auf den Klang einer Querflöte verwiesen, die eine "heisere" Klangfarbe hat. Bei den
bekannten Musiksynthetisierungsverfahren wird dieser heisere Charakter erhalten, indem
ein kammgefiltertes Rauschen hinzugefügt oder dem Beginn des Klanges unharmonische
Komponenten zugefügt wird. Die Verwendung der Erfindung führt jedoch zu einem
sehr viel zufriedenstellenderen Ergebnis.
-
In Zusammenhang mit der allgemeinen Verwendbarkeit der Erfindung sei
darauf hingewiesen, daß sich die Bezeichnung "stimmhaft" in dieser Beschreibung auf
nicht-rauschende Signalanteile bezieht und die Bezeichnung "stimmlos" auf rauschende
Signalanteile.
-
Bei einer weiterentwickelten Ausführungsform der erfindungsgemäßen
Anordnung werden die zwei Rauschquellen miteinander verbunden.
-
An sich wird in IEEE Transactions on Audio and Eletroacoustics, Bd AU-
16, Nr.1, März 1986, S.40-50, New York, USA, N.R. Dixon u.a.: "Terminal analog
synthesis of continuous speech using the diphone method of segment assembly" ein
Kombinationsrauschgenerator vorgestellt. Allerdings wird in dieser speziellen Quelle
keinerlei Hinweis in Richtung der Hauptelemente der vorliegenden Erfindung gegeben,
die sich auf die Verbesserung der Wahrnehmungsqualität von Sprache und anderen
Klängen beziehen.
-
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und
werden im folgenden näher beschrieben. Es zeigen:
-
Figur 1 eine aus dem Stand der Technik bekannte Anordnung,
-
Figur 2 eine erste Ausführungsform einer erfindungsgemäßen Anordnung
und
-
Figur 3 eine zweite Ausführungsform einer erfindungsgemäßen
Anordnung.
-
Die in Figur 1 gezeigte Anordnung umfaßt eine erste Signalquelle 1, die
dazu bestimmt ist, bei Betrieb ein periodisches Signal abzugeben, insbesondere eine
Impulsfolge mit einer gegebenen wiederholungsfrequenz F&sub0;. Die Anordnung umfaßt
weiterhin eine zweite Signalquelle 2, die dazu bestimmt ist, ein aperiodisches Signal
abzugeben, insbesondere ein Rauschsignal. Die Ausgänge der beiden Signalquellen 1
und 2 sind mit den Eingängen einer Kombinationsschaltung 3 verbunden, die in Figur 1
in Umrissen als ein von einem VUV-Signal gesteuerter Schalter gezeigt ist. Dieses
VUV-Signal bestimmt, ob ein stimmhaftes Klangsegment oder ein stimmloses
Klangsegment erzeugt werden soll. Das Ausgangssignal der Kombinationsschaltung 3 wird einer
Verstärkerstufe
4 mit variablem Verstärkungsfaktor G zugeführt. Das Signal G
beeinflußt die Amplitude des kombinierten Signals als Funktion der Zeit. Das Ausgangssignal
der Verstärkerstufe 4 wird einem variablem Filter 5 zugeführt, dem die
Filterkoeffizienten C von außen zugeführt werden können. Diese Filterschaltung besteht in praktischen
Ausführungsformen aus einer Anzahl Teilfilter 2. Ordnung, von denen jedes dazu
bestimmt ist, eine der Formanten oder Resonanzfrequenzen zu modulieren, die
innerhalb des gewahlten Bandbreitenbereiches auftreten können.
-
Figur 2 zeigt eine erste Ausführungsform einer erfindungsgemäßen
Anordnung. wie die Anordnung aus Figur 1 ist auch die Anordnung aus Figur 2 mit
einer ersten Signalquelle 11 ausgestattet, die dazu bestimmt ist, ein periodisches Signal
mit einer gegebenen Wiederholungsfrequenz F&sub0; abzugeben, mit einer zweiten
Signalquelle 12, die dazu bestimmt ist, bei Betrieb ein aperiodisches Signal oder ein
Rauschsignal abzugeben, mit einer Kombinationsschaltung 13, in diesem Fall in Form eines
Addierers, und mit einer Filterschaltung 15, die in diesem Fall ebenfalls mit einer
Anzahl von Teilfiltern ausgestattet ist, die dazu bestimmt sind, die verschiedenen
Formanten in dem gewählten Bandbreitenbereich zu bilden. Erfindungsgemäß ist die
Anordnung aus Figur 2 außerdem mit einer dritten Signalquelle 14 ausgestattet, die eine
Abfolge oder Sequenz von Rauschstößen abgibt, deren zeitliche Umhüllende synchron
zur zeitlichen Umhüllenden des von der Signalquelle 11 abgegebenen Signals ist. Mit
anderen worten, die von der Rauschquelle 14 abgegebenen Rauschstöße oder
Rauschfolgen treten mit einer Wiederholungsfrequenz F&sub0; auf und haben außerdem alle
wenigstens nahezu die gleiche Energie. Die Ausgangssgignale der Signalqellen 11, 14 werden
im Addierer 17 miteinander kombiniert und, falls erforderlich, in einer Verstärkerstufe
18 verstärkt oder abgeschwächt, und das verstärkte oder abgeschwächte Signal wird der
Kombinationsschaltung 13 zugeführt. Die Kombinationsschaltung 13 empfängt auch das
Rauschsignal aus der Rauschquelle 12, wobei die Amplitude des Rauschsignals ebenfalls
über eine Verstärker/Abschwächerstufe 19 beeinflußt werden. Auf die gleiche Weise
wie in Figur 1 wird das Ausgangssignal der Kombinationsschaltung 13 ebenfalls einer
Schaltung mit variablem Filter 15 zugeführt, deren Filterkoeffzienten C von außen
zugeführt werden können. Das synthetische akustische Ausgangssignal wird dem
Ausgang 16 zugeführt.
-
Mittels der erfindungsgemäßen Anordnung kann ein sehr viel natürlicherer
Klang erzeugt werden, als es mit den dem Stand der Technik entsprechenden
Anordnungen möglich ist. Unter Verwendung der Anordnung zur Erzeugung synthetischer
Sprachsignale werden Vokale produziert, die eine solche (heisere) Klangfarbe haben,
daß sogar unter idealen Bedingungen (beispielsweise beim Abhören des Sprachsignals
mit einem hochwertigen Kopfhörer) die Vokale nicht oder kaum von natürlichen
Vokalen unterschieden werden können, die im allgemeinen einen mehr oder weniger
heiseren Eindruck vermitteln. wird die Anordnung beispielsweise zur Synthetisierung
von Musik verwendet, wird ebenfalls ein Musiksignal mit solch einer "heiseren", einen
natürlichen Eindruck vermittelnden Klangfarbe erhalten, daß selbst ein geübter Zuhörer
es nicht oder kaum von einem Musiksignal unterscheiden kann, das von einem echten
Musikinstrument erzeugt wurde. Mit anderen worten, die erfindungsgemäße Anordnung
führt eine wahrnehmbare Klangfarbenveränderung herbei, im dem Sinne, daß die
Klangfarbe "verrauschter" oder "heiserer" wird.
-
Die Rauschstöße können erhalten werden, indem das Ausgangssignal einer
Rauschquelle, die ein Rauschsignal mit einem als Funktion der Zeit gleichen
Energieinhalt abgibt, durch ein Filter geleitet wird, der so ausgeführt ist, daß das gefilterte
Signal eine Energie aufweist, die sich mit der Zeit entsprechend einer vorher
festgelegten Umhüllenden verändert. Dabei ist es vorzuziehen, daß der Zeitpunkt innerhalb der
Periode, zu dem die Energie des Rauschens maximal ist, mehr oder weniger mit dem
Zeitpunkt in der Periode zusammenfällt, zu dem die Energie des periodischen Signals
maximal ist.
-
Die Anmelderin hat praktische Versuche durchgeführt, bei denen die
verwendete Umhüllende ein Cosinsusquadrat-Fenster war, im Rahmen der Erfindung
können jedoch auch andere Filtertypen verwendet werden, wie beispielsweise ein Gauß-
Filter, ein Hamming-Filter, ein Hanning-Filter, ein Tukey-Filter usw..
-
Eine andere Ausführungsform der erfindungsgemäßen Anordnung ist in
Figur 3 gezeigt. In Figur 3 sind die beiden Rauschquellen 14 und 12 aus Figur 2 zu
einer einzigen Rauschquelle 24 kombiniert. Diese Rauschquelle 24 gibt ein in der Zeit
moduliertes Rauschsignal ab, wobei die zeitliche Umhüllende dieses Rauschsignals eine
Wiederholungsfrequenz F&sub0; hat, so daß die zeitliche Umhüllende der in diesem
Rauschsignal auftretenden Rauschstöße synchron zur zeitlichen Umhüllenden des von der ersten
Signalquelle 21 abgegebenen periodischen Signals ist. Diese erste Signalquelle 21 ist
wieder vergleichbar mit der Quelle 11 aus Figur 2. Das Ausgangssignal der ersten
Signalquelle 21 wird dann im Verstärker/Abschwächer 28 verstärkt oder abgeschwächt
und der Kombinationsschaltung 23 zugeführt. Das Ausgangssignal des Rauschgenerators
24 wird in der Filterschaltung 27 einer Hochpaßfilterung unterzogen und dann im
Verstärker/Abschwächer 29 verstärkt oder abgeschwächt und ebenfalls der
Kombinationsschaltung 23 zugeführt. Das Ausgangssignal der Kombinationsschaltung 23 wird
wieder einer Filterstufe 25 zugeführt, deren Filterwirkung von den von außen
zugeführten Filterkoeffizienten C abhängt, und das endgültige synthetische akustische Signal
wird dem Ausgang 26 zugeführt.
-
Schließlich sei darauf hingewiesen, daß in Figur 1 eine Verstärkerstufe
mit einem variablem Verstärkungsfaktor G verwendet wird. Eine ähnliche
Verstärkerstufe kann natürlich in Figur 2 und 3 aufgenommen werden. In den Figuren 2 und 3
müßte eine solche Verstärkerstufe zwischen der Kombinationsschaltung 13
beziehungsweise 23 und der Filterschaltung 15 beziehungsweise 25 aufgenommen werden. Es ist in
diesem Falle ebenfalls möglich, die Kombinationsschaltung 13 beziehungsweise 23 so
aufzubauen, daß die variable Verstärkungsfunktion in ihr verwirklicht wird.
-
Des weiteren sei darauf hingewiesen, daß lediglich in der
Ausführungsform aus Figur 3 ein Tiefpaßfilter 22 und ein Hochpaßfilter 27 verwendet wird. Solche
Filter können, falls erforderlich, auch in der Ausführungsform aus Figur 2 verwendet
werden, wobei diese Filter dann in Reihe mit den Verstärkerstufen 18 beziehungsweise
19 geschaltet werden oder, wenn möglich, in diese Verstärkerstufen 18 und 19 integriert
werden.